Жук, нумерология, хеш или ничо? Оптимизация работы с путями
Привет, Хабр! Меня зовут Евгений Кузьмин, я Java-разработчик в CDEK. Надеюсь, все знают, что это за компания и чем она занимается. Давайте представим, что вам нужно отправить посылку с гостинцами родственнику в Москву из Новосибирска. Вы приходите в ближайший пункт приёма посылок и оформляете услугу доставки. Что же происходит дальше? Казалось бы, всё очевидно: посылка сразу летит или едет из Новосибирска в Москву. Но всё не так просто... Думаю, все согласятся, что не рационально гнать отдельную фуру с одной коробочкой для каждого заказа. Наша задача выстроить логистику таким образом, чтобы по пути загрузить и выгрузить как можно больше посылок и поехать дальше. В этой статье я поделюсь с вами своим опытом оптимизации задачи по редактированию и поддержке в актуальном состоянии огромного количества данных типа "куда направить товар". Классическая задача программирования на практике логистики. При этом мы не будем выходить за рамки стандартного стека Java Springboot и Postgres. Статья будет интересна разработчикам (от джуна до сеньора), которым будет интересно погрузиться в трудовые будни разработчика в сфере транспортной логистики.
Читать: https://habr.com/ru/companies/cdek_blog/articles/771372/
Привет, Хабр! Меня зовут Евгений Кузьмин, я Java-разработчик в CDEK. Надеюсь, все знают, что это за компания и чем она занимается. Давайте представим, что вам нужно отправить посылку с гостинцами родственнику в Москву из Новосибирска. Вы приходите в ближайший пункт приёма посылок и оформляете услугу доставки. Что же происходит дальше? Казалось бы, всё очевидно: посылка сразу летит или едет из Новосибирска в Москву. Но всё не так просто... Думаю, все согласятся, что не рационально гнать отдельную фуру с одной коробочкой для каждого заказа. Наша задача выстроить логистику таким образом, чтобы по пути загрузить и выгрузить как можно больше посылок и поехать дальше. В этой статье я поделюсь с вами своим опытом оптимизации задачи по редактированию и поддержке в актуальном состоянии огромного количества данных типа "куда направить товар". Классическая задача программирования на практике логистики. При этом мы не будем выходить за рамки стандартного стека Java Springboot и Postgres. Статья будет интересна разработчикам (от джуна до сеньора), которым будет интересно погрузиться в трудовые будни разработчика в сфере транспортной логистики.
Читать: https://habr.com/ru/companies/cdek_blog/articles/771372/
Optimize Oracle Analytics Cloud Performance with Akamai Content Delivery Network
The Internet is far more complex than we perceive with data centers, peering points, public clouds, private clouds, and competing networks. These complexities impact the performance of reports for the end user. By configuring Oracle Analytics Cloud (OAC) with Akamai Content Delivery Network (CDN), organizations can take advantage of the benefits it provides and ensure analytics content is delivered quickly and securely assigns the request to the optimal edge server in the network.
Read: https://blogs.oracle.com/undefined/post/optimizing-oracle-analytics-cloud-performance-with-akamai-cdn
The Internet is far more complex than we perceive with data centers, peering points, public clouds, private clouds, and competing networks. These complexities impact the performance of reports for the end user. By configuring Oracle Analytics Cloud (OAC) with Akamai Content Delivery Network (CDN), organizations can take advantage of the benefits it provides and ensure analytics content is delivered quickly and securely assigns the request to the optimal edge server in the network.
Read: https://blogs.oracle.com/undefined/post/optimizing-oracle-analytics-cloud-performance-with-akamai-cdn
Что такое обучение без учителя? И нет, мы сейчас не про домашнее образование
Это один из методов в Machine Learning, при котором мы запускаем модель в «комнату» и она самостоятельно изучает какие объекты в ней есть. В статье разбираемся для каких задач этот метод подойдет и как он работает.
Это один из методов в Machine Learning, при котором мы запускаем модель в «комнату» и она самостоятельно изучает какие объекты в ней есть. В статье разбираемся для каких задач этот метод подойдет и как он работает.
Как расширить компетенции аналитиков при работе с Big Data
В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.
Читать: https://habr.com/ru/companies/neoflex/articles/771788/
В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.
Читать: https://habr.com/ru/companies/neoflex/articles/771788/
6 Steps to Avoid Messy Data in Your Warehouse
Read: https://www.startdataengineering.com/post/n-steps-avoid-messy-dw/
Read: https://www.startdataengineering.com/post/n-steps-avoid-messy-dw/
🔥1
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.
Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.
Читать: https://habr.com/ru/companies/alfa/articles/772224/
Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.
Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.
Читать: https://habr.com/ru/companies/alfa/articles/772224/
Attention: OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed
OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed (Doc ID 2976838.1)
Read: https://blogs.oracle.com/proactivesupportepm/post/attention-oci-support-the-service-request-sr-creation-process-for-account-provisioning-billing-termination-and-abuse-and-cloud-account-administration-has-changed
OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed (Doc ID 2976838.1)
Read: https://blogs.oracle.com/proactivesupportepm/post/attention-oci-support-the-service-request-sr-creation-process-for-account-provisioning-billing-termination-and-abuse-and-cloud-account-administration-has-changed
What Problem Type Should Be Chosen When Creating a Service Request for 'Oracle Analytics Cloud - BI'
What Problem Type Should Be Chosen During Oracle Analytics Cloud - BI SR Creation
Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-oracle-analytics-cloud-bi-sr-creation
What Problem Type Should Be Chosen During Oracle Analytics Cloud - BI SR Creation
Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-oracle-analytics-cloud-bi-sr-creation
Oracle
What Problem Type Should Be Chosen During Oracle Analytics Cloud - BI SR Creation
Best Practices for Performance of Oracle Analytics Cloud with Enterprise Performance Management Cloud
This article provides best practice guidelines for good performance when data in Oracle Analytics Cloud data comes from Enterprise Performance Management Cloud.
Read: https://blogs.oracle.com/analytics/post/performance-best-practices-when-oracle-analytics-cloud-is-connected-to-enterprise-performance-management-cloud
This article provides best practice guidelines for good performance when data in Oracle Analytics Cloud data comes from Enterprise Performance Management Cloud.
Read: https://blogs.oracle.com/analytics/post/performance-best-practices-when-oracle-analytics-cloud-is-connected-to-enterprise-performance-management-cloud
Oracle
Best Practices for Performance of Oracle Analytics Cloud with Enterprise Performance Management Cloud
List of best practices to get better performance when Oracle Analytics Cloud data is coming from Enterprise Performance Management Cloud
Data Mesh – ячеистые топологии для работы с данными
Из каких соображений можно хранить данные в виде ячеистой сети
Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.
Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.
Читать: https://habr.com/ru/companies/timeweb/articles/772680/
Из каких соображений можно хранить данные в виде ячеистой сети
Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.
Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.
Читать: https://habr.com/ru/companies/timeweb/articles/772680/
Проблема множественного тестирования на практике
Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.
Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.
Читать: https://habr.com/ru/articles/772940/
Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.
Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.
Читать: https://habr.com/ru/articles/772940/
RecTools – OpenSource библиотека для рекомендательных систем
Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).
Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.
К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.
Давайте же посмотрим, что RecTools умеет, и как с этим работать.
Читать: https://habr.com/ru/articles/773126/
Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).
Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.
К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.
Давайте же посмотрим, что RecTools умеет, и как с этим работать.
Читать: https://habr.com/ru/articles/773126/
Дежурный data-инженер: рабочие хроники
Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.
Читать: https://habr.com/ru/companies/vk/articles/772468/
Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.
Читать: https://habr.com/ru/companies/vk/articles/772468/
💊2👍1
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation
Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.
Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.
Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Oracle
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation
Learn how to use listagg in OAC data flows for creating text-based lists through a Formula 1 use case.
Oracle Fusion Analytics Implementation Series: Customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-customization
Oracle
Oracle Fusion Analytics Implementation Series: Customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Mobile Metrics in a Minute - how Oracle Analytics Mobile helps transform Oracle Global Business Finance (GBF)
Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.
Read: https://blogs.oracle.com/analytics/post/mobile-metrics-in-a-minute-how-oracle-analytics-mobile-is-helping-to-transform-oracle-global-business-finance
Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.
Read: https://blogs.oracle.com/analytics/post/mobile-metrics-in-a-minute-how-oracle-analytics-mobile-is-helping-to-transform-oracle-global-business-finance
Oracle
Mobile Metrics in a Minute - how Oracle Analytics Mobile is helping to transform Oracle Global Business Finance (GBF)
Learn how Oracle Analytics has helped transform Oracle Global Business Finance through the Global Oracle Analytics Challenge.
Деревья ltree в PostgreSQL – простым языком
Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.
Читать: https://habr.com/ru/articles/774324/
Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.
Читать: https://habr.com/ru/articles/774324/
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.
Читать: https://habr.com/ru/companies/megafon/articles/773722/
В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.
Читать: https://habr.com/ru/companies/megafon/articles/773722/
5 уровней зрелости MLOps
Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.
Читать: https://habr.com/ru/companies/vk/articles/772538/
Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.
Читать: https://habr.com/ru/companies/vk/articles/772538/
Как автоматизировать проверки данных в Airflow с Great Expectations
Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.
Читать: https://habr.com/ru/companies/banki/articles/773884/
Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.
Читать: https://habr.com/ru/companies/banki/articles/773884/
А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?
Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:
— тот самый Типичный программист: @tproger
— полезные сохранёнки на все случаи жизни: @prog_stuff
— нужные инструменты для ваших проектов: @prog_tools
— новости из мира технологий: @your_tech
Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:
— тот самый Типичный программист: @tproger
— полезные сохранёнки на все случаи жизни: @prog_stuff
— нужные инструменты для ваших проектов: @prog_tools
— новости из мира технологий: @your_tech