📈Жизненная ситуация: есть продакшн-система с входными параметрами X, которые можно менять, и выходными параметрами Y, которые важны для бизнеса. Например, в ленте социальной сети можно настраивать гипер-параметры механизма ранжирования. Это влияет на ключевые метрики сервиса: количество пользовательского фидбэка, таймспент, ретеншн. В статье Towards optimal experimentation in online systems описан алгоритм поиска входных параметров X, которые растят заданную комбинацию выходных параметров Y. Иными словами, ищем конфигурацию X, которая на A/B-эксперименте имеет хороший шанс улучшить систему.
С высоты птичьего полёта алгоритм выглядит так:
1️⃣Запускаем серию A/B-экспериментов, в которых определённым образом “распределяем” по пространству входные параметры X. Эта серия организована так, чтобы, во-первых, собрать данные для следующих шагов и, во-вторых, удобно анализировать параметры Xi по отдельности.
2️⃣Обучаем модели, предсказывающие Yi по X. Авторы утверждают, что в окрестности “контроля” достаточно линейных и квадратичных моделей.
3️⃣Используем полученные модели, чтобы решить задачу квадратичной оптимизации с ограничениями: максимизировать линейную комбинацию Yi, не слишком сильно уронив каждый из них.
Авторы из YouTube не только приводят алгоритм, но и подробно его мотивируют, рассматривают подводные камни и улучшения, дают практические советы. Главный минус — веса компонент Y в задаче оптимизации предлагается спросить у бизнеса, а бизнес не всегда знает, откуда их взять. В любом случае, статья очень глубокая: видно, что авторы применяли описанный алгоритм не раз. Как и другие статьи из The Unofficial Google Data Science Blog, эту статью можно распечатывать иобклеивать стены в дурке использовать как руководство к действию.👨💻
С высоты птичьего полёта алгоритм выглядит так:
1️⃣Запускаем серию A/B-экспериментов, в которых определённым образом “распределяем” по пространству входные параметры X. Эта серия организована так, чтобы, во-первых, собрать данные для следующих шагов и, во-вторых, удобно анализировать параметры Xi по отдельности.
2️⃣Обучаем модели, предсказывающие Yi по X. Авторы утверждают, что в окрестности “контроля” достаточно линейных и квадратичных моделей.
3️⃣Используем полученные модели, чтобы решить задачу квадратичной оптимизации с ограничениями: максимизировать линейную комбинацию Yi, не слишком сильно уронив каждый из них.
Авторы из YouTube не только приводят алгоритм, но и подробно его мотивируют, рассматривают подводные камни и улучшения, дают практические советы. Главный минус — веса компонент Y в задаче оптимизации предлагается спросить у бизнеса, а бизнес не всегда знает, откуда их взять. В любом случае, статья очень глубокая: видно, что авторы применяли описанный алгоритм не раз. Как и другие статьи из The Unofficial Google Data Science Blog, эту статью можно распечатывать и
👍6❤4🔥4😁3🤔3
0️⃣🅱️1️⃣0️⃣1️⃣0️⃣1️⃣0️⃣ Фильтры Блума — одна из наших любимых структур данных. С их помощью можно, например, приближенно джойнить большие социальные графы на spark ВООБЩЕ БЕЗ ШАФФЛОВ!!!!111 На ридинг-группе 7 августа обсудим модификацию фильтра Блума, которая умеет забывать старые данные. Ведущим будет Роман Болозовский, ML-инженер AI VK. Обратите внимание на перенос встречи: в этот раз собираемся в среду в 17:00.
Зум: ссылка
Meeting ID: 777 282 2791
Passcode: 1
Календарь: ссылка
Зум: ссылка
Meeting ID: 777 282 2791
Passcode: 1
Календарь: ссылка
😁26🔥11👍4
ML — это ОК
0️⃣🅱️1️⃣0️⃣1️⃣0️⃣1️⃣0️⃣ Фильтры Блума — одна из наших любимых структур данных. С их помощью можно, например, приближенно джойнить большие социальные графы на spark ВООБЩЕ БЕЗ ШАФФЛОВ!!!!111 На ридинг-группе 7 августа обсудим модификацию фильтра Блума, которая…
Media is too big
VIEW IN TELEGRAM
📹 Запись ридинг-группы от 7 августа
🔥14👍6🤝3❤1
На ридинг-группе 22 августа обсудим статью, в которой рассказывается, как с помощью нейронных сетей аппроксимировать главные собственные функции интегральных операторов заданных ядер на некоторых вероятностных распределениях без дорогой операции ортогонализации. Просто живите с этим. И приходите послушать в 16:00.
Ведущим будет Александр Тараканов, МЛ-исследователь AI VK.
Зум: ссылка
Meeting ID: 856 0989 2167
Passcode: 433059
Ведущим будет Александр Тараканов, МЛ-исследователь AI VK.
Зум: ссылка
Meeting ID: 856 0989 2167
Passcode: 433059
🔥24😁11🤔5👍3🙈3🆒3✍1
Media is too big
VIEW IN TELEGRAM
📹 Запись ридинг-группы от 22 августа про нейронки для ядер
❤8👍5🔥4🆒1
🕸Мы знаем, в жизни каждого человека наступает момент, когда срочно нужно закодировать в эмбеддинги ориентированный ацикличеcкий граф. Но вариантов так много (VAE, трансформеры, GNN), что хочется закрыть крышку ноутбука и, хохоча, убежать в закат. Не отчаивайтесь, ридинг-группа спешит на помощь! Разобраться в проблеме поможет Роман Логойда, ML-инженер AI VK, на встрече 5 сентября в 18:00. Ждём в зуме всех желающих. 🌄
Зум: ссылка
Идентификатор конференции: 949 6360 9740
Код доступа: 0WGMDM
Зум: ссылка
Идентификатор конференции: 949 6360 9740
Код доступа: 0WGMDM
🔥20😁11👌1
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 5 сентября 2024. Роман Логойда рассказал про эмбеддинги направленных ациклических графов
🔥10👍3❤1
🍿Купили GPU за сорок тысяч долларов, чтобы гонять LLM, но ваш AI-стартап почему-то не взлетел? Не проблема, вы всё ещё можете использовать свое железо с пользой, и это мы не про третьего Ведьмака на максимальных настройках. На ридинг-группе разберём, как на видеокарте построить быстрый и точный подбор кандидатов в рекомендательной системе. Представлять статью авторов из LinkedIn будет Андрей Кузнецов, руководитель команды машинного обучения ОК. Ждём всех желающих 19 сентября в 18:00.
Зум: ссылка
Идентификатор: 763 2575 3645
Код: aivkdsrg
Зум: ссылка
Идентификатор: 763 2575 3645
Код: aivkdsrg
🔥22😁19👍5❤3✍1⚡1🎉1
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 19 сентября 2024. Андрей Кузнецов рассказал про архитектуру эффективного подбора кандидатов на GPU.
🔥10✍6👍4❤1
📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах.
Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥
Начало встречи в 18.00.
Зум: ссылка
Meeting ID: 895 0393 9531
Passcode: aivk
Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥
Начало встречи в 18.00.
Зум: ссылка
Meeting ID: 895 0393 9531
Passcode: aivk
👍15🔥7❤3
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 10 октября 2024. Дарина Двинских рассказала о том, как использовать схожесть данных для уменьшения сетевых коммуникаций при распределенном обучении.
❤7⚡4🔥3
Коллеги, не можем отвечать пока - наша команда на RecSys в Италии.
🔥71❤17😁13🤩5👏1
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 17 октября 2024 года. Роман Болозовский рассказал о методах сжатия эмбеддингов в больших рекомендательных сетках
🔥11✍3