Проблема множественного тестирования на практике
Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.
Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.
Читать: https://habr.com/ru/articles/772940/
Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.
Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.
Читать: https://habr.com/ru/articles/772940/
RecTools – OpenSource библиотека для рекомендательных систем
Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).
Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.
К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.
Давайте же посмотрим, что RecTools умеет, и как с этим работать.
Читать: https://habr.com/ru/articles/773126/
Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).
Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.
К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.
Давайте же посмотрим, что RecTools умеет, и как с этим работать.
Читать: https://habr.com/ru/articles/773126/
Дежурный data-инженер: рабочие хроники
Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.
Читать: https://habr.com/ru/companies/vk/articles/772468/
Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.
Читать: https://habr.com/ru/companies/vk/articles/772468/
💊2👍1
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation
Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.
Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.
Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Oracle
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation
Learn how to use listagg in OAC data flows for creating text-based lists through a Formula 1 use case.
Oracle Fusion Analytics Implementation Series: Customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-customization
Oracle
Oracle Fusion Analytics Implementation Series: Customization
Best Practices for Implementing Oracle Fusion Analytics Series: Customization
Mobile Metrics in a Minute - how Oracle Analytics Mobile helps transform Oracle Global Business Finance (GBF)
Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.
Read: https://blogs.oracle.com/analytics/post/mobile-metrics-in-a-minute-how-oracle-analytics-mobile-is-helping-to-transform-oracle-global-business-finance
Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.
Read: https://blogs.oracle.com/analytics/post/mobile-metrics-in-a-minute-how-oracle-analytics-mobile-is-helping-to-transform-oracle-global-business-finance
Oracle
Mobile Metrics in a Minute – how Oracle Analytics Mobile helps transform Oracle Global Business Finance (GBF)
Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.
Деревья ltree в PostgreSQL – простым языком
Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.
Читать: https://habr.com/ru/articles/774324/
Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.
Читать: https://habr.com/ru/articles/774324/
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.
Читать: https://habr.com/ru/companies/megafon/articles/773722/
В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.
Читать: https://habr.com/ru/companies/megafon/articles/773722/
5 уровней зрелости MLOps
Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.
Читать: https://habr.com/ru/companies/vk/articles/772538/
Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.
Читать: https://habr.com/ru/companies/vk/articles/772538/
Как автоматизировать проверки данных в Airflow с Great Expectations
Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.
Читать: https://habr.com/ru/companies/banki/articles/773884/
Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.
Читать: https://habr.com/ru/companies/banki/articles/773884/
А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?
Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:
— тот самый Типичный программист: @tproger
— полезные сохранёнки на все случаи жизни: @prog_stuff
— нужные инструменты для ваших проектов: @prog_tools
— новости из мира технологий: @your_tech
Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:
— тот самый Типичный программист: @tproger
— полезные сохранёнки на все случаи жизни: @prog_stuff
— нужные инструменты для ваших проектов: @prog_tools
— новости из мира технологий: @your_tech
ChatGPT плохо отвечает на «простые вопросы». Как это починить?
Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.
Читать: https://habr.com/ru/companies/airi/articles/774934/
Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.
Читать: https://habr.com/ru/companies/airi/articles/774934/
Сказка от первого лица о зарплате в айти и первом миллионе
В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.
Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше
Читать: https://habr.com/ru/articles/775026/
В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.
Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше
Читать: https://habr.com/ru/articles/775026/
Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall
Нет, нет, я совсем не про геометрию или физику, я про множества!
Точнее про множество того, что вы знаете.
К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.
В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score
Читать: https://habr.com/ru/articles/775032/
Нет, нет, я совсем не про геометрию или физику, я про множества!
Точнее про множество того, что вы знаете.
К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.
В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score
Читать: https://habr.com/ru/articles/775032/
🔥2👍1
В ногу со временем: введение в многомерный анализ и OLAP-технологии
В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?
Читать: https://habr.com/ru/articles/775042/
В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?
Читать: https://habr.com/ru/articles/775042/
What is an Open Table Format? & Why to use one?
Read: https://www.startdataengineering.com/post/what_why_table_format/
Read: https://www.startdataengineering.com/post/what_why_table_format/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени
Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.
Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.
Итак, а теперь сам дайджест:
Читать: https://habr.com/ru/articles/775502/
Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.
Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.
Итак, а теперь сам дайджест:
Читать: https://habr.com/ru/articles/775502/
Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform
Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/775418/
Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/775418/
❤1
Выбор СУБД: шпаргалка, чтобы не запутаться
Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.
Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.
Читать: https://habr.com/ru/articles/775574/
Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.
Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.
Читать: https://habr.com/ru/articles/775574/
Как использовать Spring в качестве фреймворка для Flink-приложений
Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.
В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.
Читать: https://habr.com/ru/companies/ru_mts/articles/775970/
Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.
В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.
Читать: https://habr.com/ru/companies/ru_mts/articles/775970/