ML — это ОК – Telegram

ML — это ОК

2.08K subscribers

83 photos

45 videos

1 file

149 links

Канал ML-команды ОК. 12 лет делаем крутые вещи и делимся ими здесь

Контакты: @anokhinn

Download Telegram

About

Blog

Apps

Platform

ML — это ОК

2.08K subscribers

ML — это ОК

Мы любим автоэнкодерные рекомендеры не только за то, что они дают хорошее качество, но и за самые крутые аббревиатуры (SLIM! EASE!). На ридинг-группе 11 апреля обсудим новую модель из этого семейства — SANSA. Статью с конференции RecSys 2023 будет представлять Сергей Ермилов, ML-инженер ОК. Начало встречи в 18:00.

Ссылка на звонок: зум
Идентификатор конференции: 997 5281 5267
Код доступа: 2JAg34

🔥15😁7

3.21K views09:22

ML — это ОК

ML — это ОК

Мы любим автоэнкодерные рекомендеры не только за то, что они дают хорошее качество, но и за самые крутые аббревиатуры (SLIM! EASE!). На ридинг-группе 11 апреля обсудим новую модель из этого семейства — SANSA. Статью с конференции RecSys 2023 будет представлять…

⚡️Начинаем через 5 минут

2.08K views14:57

ML — это ОК

ML — это ОК

Мы любим автоэнкодерные рекомендеры не только за то, что они дают хорошее качество, но и за самые крутые аббревиатуры (SLIM! EASE!). На ридинг-группе 11 апреля обсудим новую модель из этого семейства — SANSA. Статью с конференции RecSys 2023 будет представлять…

Media is too big

VIEW IN TELEGRAM

Запись РГ про SANSA от Сергея Ермилова

👍7🔥4

3.43K views15:48

ML — это ОК

🎤🎧На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00.

Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5EMKS4gLFrHknDjSAr.1
Meeting ID: 813 5681 2687
Passcode: 123

🔥8✍2

2.1K views08:02

ML — это ОК

ML — это ОК

🎤🎧На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00. Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5E…

начинаем!

1.75K views15:06

ML — это ОК

Media is too big

VIEW IN TELEGRAM

📹Запись ридинг-группы от 25 апреля 2024 года. Макс Каледин из ВШЭ рассказал про удаление шума из аудиопотока с помощью GAN

🔥9🤩1🆒1

2.34K views07:52

ML — это ОК

Всем привет!

Ребята из Mail.ru делают классное мероприятие: smartmail:ML Meetup, уютный офлайн-митап по NLP, LLM и ML в целом.

⏰17 мая в 18:00 по МСК
📍Офис VK

🦾 На митапе будут доклады от тимлидов Mail.ru, где ребята обсудят NLP-подходы, а также расскажут про свой AutoML пайплайн. А ещё обязательно поделятся опытом по заведению LLM-фич in the wild!

🦿Участие в митапе для всех свободное, но необходимо пройти регистрацию.

Рекомендуем!

smartmail:ml в технологиях и продуктах mail.ru

👍10

2.45K views08:44

ML — это ОК

😁14

1.61K views10:37

ML — это ОК

Ранжирование ленты – задача, для решения которой нужна команда ML-инженеров. Эта задача становится ещё сложнее, когда к ней добавляются требования, выходящие за рамки одной рекомендательной выдачи («хотим отдавать 5% трафика локальным группам»). Для поддержки этих требований можно использовать эвристики («умножаем скоры локальных групп на 2»). Но эвристики нужно настраивать, и они не гарантируют оптимальности. Авторы статьи Ranking with Long-Term Constraints предлагают своё решение задачи ранжирования с учётом долгосрочных требований.

Предложенные в статье алгоритмы наводят мост между долгосрочным контролем рекомендательной системы и построением ленты «в моменте». Долгосрочная цель формулируется как сумма полезности, извлеченной пользователями, и штрафов за несоблюдение требований. И если полезность легко разбивается по отдельным выдачам, то со штрафами дело обстоит сложнее. Авторы предлагают три подхода:
- Myopic controller равномерно «размазывает» все штрафы по всем выдачам.
- Stationary controller в реальном времени следит за выполнением требований и приоритезирует те, что выполнены хуже остальных.
- Predictive controller добавляет к stationary controller прогноз трафика, чтобы учитывать выполнение требований в будущем.

Для ранжирования с дополнительными требованиями нет хороших реальных датасетов, поэтому эксперименты в статье синтетические. Они показывают эффективность предложенных алгоритмов. При этом для применения результатов статьи нужно решить практические вопросы (Как выбрать горизонт планирования? Где взять хорошую модель прогнозирования трафика? Что делать с меняющимися требованиями?). Тем не менее статья заслуживает внимания, потому что предлагает идеи, позволяющие поддерживать долгосрочное здоровье системы. А это более важная задача для ML-инженеров, чем увеличение NDCG на 0,005.

🔥10✍3❤2👍1

2.41K views10:38

ML — это ОК

📄На ридинг-группе 16 мая Александр Петров из Университета Глазго представит свою статью RecJPQ: Training Large-Catalogue Sequential Recommenders. Поговорим о том, как сделать трансформерные рекомендеры более эффективными в задачах рекомендаций с большими каталогами айтемов. Встречаемся в зуме в 18:00.

Зум: ссылка

Идентификатор конференции: 732 1727 3314
Код доступа: okdsrg

🔥22🆒2

2.73K views13:13

ML — это ОК

ML — это ОК

📄На ридинг-группе 16 мая Александр Петров из Университета Глазго представит свою статью RecJPQ: Training Large-Catalogue Sequential Recommenders. Поговорим о том, как сделать трансформерные рекомендеры более эффективными в задачах рекомендаций с большими каталогами…

Мы начинаем!

1.79K views14:58

ML — это ОК

Media is too big

VIEW IN TELEGRAM

📹Запись ридинг-группы от 16 мая 2024 года. Александр Петров из Университета Глазго рассказал про то, как сделать трансформерные рекомендеры более эффективными в задачах рекомендаций с большими каталогами айтемов.

🔥13❤1👍1

2.86K views11:56

ML — это ОК

На следующей неделе, в субботу, 25 мая, пройдет Data Fest в гостях у VK. Помимо классных докладов будут активности, в которых будут участвовать ребята из нашей команды. Например, Сергей Ермилов, который недавно разбирал SANSA, будет играть в “Достань тимлида”.

Отличный шанс допросить его про наши вакансии и инфраструктуру. Приходите, регистрация ещё открыта.

❤12👍7⚡3🆒2

2.13K viewsedited 14:48

ML — это ОК

⚡️На ридинг-группе 30 мая обсудим статью нашего коллеги Андрея Аргаткина DenseAttention: No-Compromise Exact All NxN Interactions Algorithm with O(N) Space and Time Complexity. Андрей расскажет о том, как убрать из стандартного трансформерного блока несколько компонентов, не потеряв в качестве, но выиграв в скорости (даже у flash attention!). Встречаемся в зуме в 17:00.

Зум: https://us05web.zoom.us/j/82613108856?pwd=l4FUK61nYJTKRtXnKj21RalZHWnCsz.1

Meeting ID: 826 1310 8856
Passcode: 6EiSpW

🔥35💯1🆒1

2.96K views07:39

ML — это ОК

Media is too big

VIEW IN TELEGRAM

📹Запись ридинг-группы ОК от 30 мая. Андрей Аргаткин рассказал про DenseAttention, придуманную им модификацию трансформерного блока.

🔥23👏3

2.79K viewsedited 07:39

ML — это ОК

📝Чек-лист статьи о рекомендациях в 2024 году:
✔️Новая формулировка задачи рекомендаций. Желательно “вдохновиться” смежной областью;
✔️Предложить свой блок attention. Не забыть про красивый префикс (self/cross/flash/rocket/…);
✔️Больше триллиона параметров, industrial-scale датасет, потому что воспроизводимость — не для бедных.

На ридинг-группе 13 июня разберем такую статью с ICML 2024. Роман Болозовский, МЛ-инженер ОК, представит её на полтора месяца раньше официальной презентации на конференции. Теперь наша ридинг-группа не только несёт знания, но и выгоду (вы сэкономите на поездке в Вену!). Начало разбора — в 16.00.

Зум: ссылка
Meeting ID: 737 3931 8110
Passcode: 1

Календарь: ссылка

👍21😁9🤩4

1.94K views09:12

ML — это ОК

🔭Exploration в рекомендациях служит для поддержания долгосрочного качества системы. Практики признают это, но объяснения дают скорее умозрительные, чем основанные на данных. Причина в том, что для объективного измерения вклада exploration нужно крутить технически сложный A/B-эксперимент: поддерживать две версии системы, разделённые по пользователям и данным, и наблюдать, как эти версии эволюционируют в долгосрочной перспективе. Если (когда) что-то пойдёт не так, многонедельный эксперимент придётся заводить заново. Поэтому подобные эксперименты откладываются до момента, когда будут исправлены все баги. К счастью для нас, исследователи из Google провели серию таких экспериментов и рассказали об этом в своей статье на WSDM 2024. Теперь мы можем быть уверены, что существуют рекомендательные системы, в которых exploration объективно полезен. ➡️➡️

👍11😁3✍2

3.83K views08:45

ML — это ОК

ML — это ОК

🔭Exploration в рекомендациях служит для поддержания долгосрочного качества системы. Практики признают это, но объяснения дают скорее умозрительные, чем основанные на данных. Причина в том, что для объективного измерения вклада exploration нужно крутить технически…

➡️Авторы статьи подтвердили эффект от item-exploration с помощью такой процедуры:

1. Изобретаем метрику, которая с одной стороны отражает exploration, а с другой – коррелирует с пользовательским опытом. В статье выбрана метрика Discoverable Corpus@X,Y – количество айтемов, с которыми пользователи совершили как минимум X положительных взаимодействий за период Y.

2. Показываем в A/B-эксперименте, что базовая стратегия exploration увеличивает Discoverable Corpus. Результаты этого эксперимента показаны на рисунке 3.

3. Запускаем обратный эксперимент, в котором искусственно уменьшаем Discoverable Corpus. Если количество удовлетворённых пользователей в этом эксперименте уменьшится, то положительный эффект от увеличения Discoverable Corpus (и следовательно и от exploration) считаем подтверждённым. Рисунок 5 показывает, что именно это и произошло.
➡️➡️

🔥8❤2👍2

1.83K views08:48

ML — это ОК

ML — это ОК

➡️Авторы статьи подтвердили эффект от item-exploration с помощью такой процедуры: 1. Изобретаем метрику, которая с одной стороны отражает exploration, а с другой – коррелирует с пользовательским опытом. В статье выбрана метрика Discoverable Corpus@X,Y –…

➡️
4. Наконец, запускаем эксперимент уже на рост метрик, используя алгоритм exploration Neural Linear Bandit (NLB). Идея алгоритма – отпилить голову у ранжирующей нейросети и вместо неё обучать linear-payoff Thompson Sampling на normal-normal сопряженной паре. Авторы рассказывают, как запустить этот алгоритм на продакшен-рекомендере (скорее всего, речь про YouTube Shorts).

Интересно, что в эксперименте с NLB авторам удалось увеличить удовлетворенность пользователей только на 0,2%, хотя в обратном эксперименте эта же метрика упала на целых 3%. Кроме того, NLB обеспечивает только pointwise ранжирование, в то время как современные ранкеры используют pairwise или listwise подход. В любом случае, конкретный алгоритм ранжирования выглядит не так интересно, как основной вывод статьи: exploration в рекомендательных системах — полезная штука. Расходимся и продолжаем исправлять баги.👻

🥰7🔥4⚡3

2.26K views08:50

ML — это ОК

ML — это ОК

📝Чек-лист статьи о рекомендациях в 2024 году: ✔️Новая формулировка задачи рекомендаций. Желательно “вдохновиться” смежной областью; ✔️Предложить свой блок attention. Не забыть про красивый префикс (self/cross/flash/rocket/…); ✔️Больше триллиона параметров…

Начинаем!

2.11K views12:59