Media is too big
VIEW IN TELEGRAM
На этой РГ ML-команда ОК пыталась разобраться, что такое Кубит, но так и не смогла. Но, как оказалось, и цели такой не было. Приятного просмотра.
😁28❤8🙈5🔥1
📄В интернете можно, условно говоря, заниматься двумя вещами:
1. развиваться, читая научные статьи о рекомендательных системах;
2. орать с угарнейших мемасиков про котиков.
И, хотя официально интернет существует для первого, рекомендательные системы толкают пользователей скорее ко второму. Так происходит потому, что мемасики получают больше лайков, чем статьи по рекомендательным системам (даже в нашем канале). На ридинг-группе 25 июля будем разбираться, как это поправить. Обсудим статью, которая предлагает способ отделить сиюминутное желание покекать от долгосрочной полезности и балансировать эти факторы при построении рекомендательной системы. Рассказывать будет Коля Анохин, ведущий специалист ОК по ML. Начало встречи в 16:00.
Зум: ссылка
Meeting ID: 875 8500 6307
Passcode: okdsrg
1. развиваться, читая научные статьи о рекомендательных системах;
2. орать с угарнейших мемасиков про котиков.
И, хотя официально интернет существует для первого, рекомендательные системы толкают пользователей скорее ко второму. Так происходит потому, что мемасики получают больше лайков, чем статьи по рекомендательным системам (даже в нашем канале). На ридинг-группе 25 июля будем разбираться, как это поправить. Обсудим статью, которая предлагает способ отделить сиюминутное желание покекать от долгосрочной полезности и балансировать эти факторы при построении рекомендательной системы. Рассказывать будет Коля Анохин, ведущий специалист ОК по ML. Начало встречи в 16:00.
Зум: ссылка
Meeting ID: 875 8500 6307
Passcode: okdsrg
🔥31😁4🆒3🤩2
ML — это ОК
📄В интернете можно, условно говоря, заниматься двумя вещами: 1. развиваться, читая научные статьи о рекомендательных системах; 2. орать с угарнейших мемасиков про котиков. И, хотя официально интернет существует для первого, рекомендательные системы толкают…
📹 Запись ридинг-группы ОК от 25 июля с предысторией! Виктория Гордеева, руководитель продуктовой аналитики ОК, и Коля Анохин, ведущий специалист по ML, рассказали о том, как рекомендательные системы могли бы учитыватье не только сиюминутные потребности пользователей, но и долгосрочную пользу.
🔥18❤9👏3
📈Жизненная ситуация: есть продакшн-система с входными параметрами X, которые можно менять, и выходными параметрами Y, которые важны для бизнеса. Например, в ленте социальной сети можно настраивать гипер-параметры механизма ранжирования. Это влияет на ключевые метрики сервиса: количество пользовательского фидбэка, таймспент, ретеншн. В статье Towards optimal experimentation in online systems описан алгоритм поиска входных параметров X, которые растят заданную комбинацию выходных параметров Y. Иными словами, ищем конфигурацию X, которая на A/B-эксперименте имеет хороший шанс улучшить систему.
С высоты птичьего полёта алгоритм выглядит так:
1️⃣Запускаем серию A/B-экспериментов, в которых определённым образом “распределяем” по пространству входные параметры X. Эта серия организована так, чтобы, во-первых, собрать данные для следующих шагов и, во-вторых, удобно анализировать параметры Xi по отдельности.
2️⃣Обучаем модели, предсказывающие Yi по X. Авторы утверждают, что в окрестности “контроля” достаточно линейных и квадратичных моделей.
3️⃣Используем полученные модели, чтобы решить задачу квадратичной оптимизации с ограничениями: максимизировать линейную комбинацию Yi, не слишком сильно уронив каждый из них.
Авторы из YouTube не только приводят алгоритм, но и подробно его мотивируют, рассматривают подводные камни и улучшения, дают практические советы. Главный минус — веса компонент Y в задаче оптимизации предлагается спросить у бизнеса, а бизнес не всегда знает, откуда их взять. В любом случае, статья очень глубокая: видно, что авторы применяли описанный алгоритм не раз. Как и другие статьи из The Unofficial Google Data Science Blog, эту статью можно распечатывать иобклеивать стены в дурке использовать как руководство к действию.👨💻
С высоты птичьего полёта алгоритм выглядит так:
1️⃣Запускаем серию A/B-экспериментов, в которых определённым образом “распределяем” по пространству входные параметры X. Эта серия организована так, чтобы, во-первых, собрать данные для следующих шагов и, во-вторых, удобно анализировать параметры Xi по отдельности.
2️⃣Обучаем модели, предсказывающие Yi по X. Авторы утверждают, что в окрестности “контроля” достаточно линейных и квадратичных моделей.
3️⃣Используем полученные модели, чтобы решить задачу квадратичной оптимизации с ограничениями: максимизировать линейную комбинацию Yi, не слишком сильно уронив каждый из них.
Авторы из YouTube не только приводят алгоритм, но и подробно его мотивируют, рассматривают подводные камни и улучшения, дают практические советы. Главный минус — веса компонент Y в задаче оптимизации предлагается спросить у бизнеса, а бизнес не всегда знает, откуда их взять. В любом случае, статья очень глубокая: видно, что авторы применяли описанный алгоритм не раз. Как и другие статьи из The Unofficial Google Data Science Blog, эту статью можно распечатывать и
👍6❤4🔥4😁3🤔3
0️⃣🅱️1️⃣0️⃣1️⃣0️⃣1️⃣0️⃣ Фильтры Блума — одна из наших любимых структур данных. С их помощью можно, например, приближенно джойнить большие социальные графы на spark ВООБЩЕ БЕЗ ШАФФЛОВ!!!!111 На ридинг-группе 7 августа обсудим модификацию фильтра Блума, которая умеет забывать старые данные. Ведущим будет Роман Болозовский, ML-инженер AI VK. Обратите внимание на перенос встречи: в этот раз собираемся в среду в 17:00.
Зум: ссылка
Meeting ID: 777 282 2791
Passcode: 1
Календарь: ссылка
Зум: ссылка
Meeting ID: 777 282 2791
Passcode: 1
Календарь: ссылка
😁26🔥11👍4
ML — это ОК
0️⃣🅱️1️⃣0️⃣1️⃣0️⃣1️⃣0️⃣ Фильтры Блума — одна из наших любимых структур данных. С их помощью можно, например, приближенно джойнить большие социальные графы на spark ВООБЩЕ БЕЗ ШАФФЛОВ!!!!111 На ридинг-группе 7 августа обсудим модификацию фильтра Блума, которая…
Media is too big
VIEW IN TELEGRAM
📹 Запись ридинг-группы от 7 августа
🔥14👍6🤝3❤1
На ридинг-группе 22 августа обсудим статью, в которой рассказывается, как с помощью нейронных сетей аппроксимировать главные собственные функции интегральных операторов заданных ядер на некоторых вероятностных распределениях без дорогой операции ортогонализации. Просто живите с этим. И приходите послушать в 16:00.
Ведущим будет Александр Тараканов, МЛ-исследователь AI VK.
Зум: ссылка
Meeting ID: 856 0989 2167
Passcode: 433059
Ведущим будет Александр Тараканов, МЛ-исследователь AI VK.
Зум: ссылка
Meeting ID: 856 0989 2167
Passcode: 433059
🔥24😁11🤔5👍3🙈3🆒3✍1
Media is too big
VIEW IN TELEGRAM
📹 Запись ридинг-группы от 22 августа про нейронки для ядер
❤8👍5🔥4🆒1
🕸Мы знаем, в жизни каждого человека наступает момент, когда срочно нужно закодировать в эмбеддинги ориентированный ацикличеcкий граф. Но вариантов так много (VAE, трансформеры, GNN), что хочется закрыть крышку ноутбука и, хохоча, убежать в закат. Не отчаивайтесь, ридинг-группа спешит на помощь! Разобраться в проблеме поможет Роман Логойда, ML-инженер AI VK, на встрече 5 сентября в 18:00. Ждём в зуме всех желающих. 🌄
Зум: ссылка
Идентификатор конференции: 949 6360 9740
Код доступа: 0WGMDM
Зум: ссылка
Идентификатор конференции: 949 6360 9740
Код доступа: 0WGMDM
🔥20😁11👌1
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 5 сентября 2024. Роман Логойда рассказал про эмбеддинги направленных ациклических графов
🔥10👍3❤1
🍿Купили GPU за сорок тысяч долларов, чтобы гонять LLM, но ваш AI-стартап почему-то не взлетел? Не проблема, вы всё ещё можете использовать свое железо с пользой, и это мы не про третьего Ведьмака на максимальных настройках. На ридинг-группе разберём, как на видеокарте построить быстрый и точный подбор кандидатов в рекомендательной системе. Представлять статью авторов из LinkedIn будет Андрей Кузнецов, руководитель команды машинного обучения ОК. Ждём всех желающих 19 сентября в 18:00.
Зум: ссылка
Идентификатор: 763 2575 3645
Код: aivkdsrg
Зум: ссылка
Идентификатор: 763 2575 3645
Код: aivkdsrg
🔥22😁19👍5❤3✍1⚡1🎉1
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 19 сентября 2024. Андрей Кузнецов рассказал про архитектуру эффективного подбора кандидатов на GPU.
🔥10✍6👍4❤1
📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах.
Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥
Начало встречи в 18.00.
Зум: ссылка
Meeting ID: 895 0393 9531
Passcode: aivk
Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥
Начало встречи в 18.00.
Зум: ссылка
Meeting ID: 895 0393 9531
Passcode: aivk
👍15🔥7❤3