ML — это ОК
2.08K subscribers
83 photos
45 videos
1 file
149 links
Канал ML-команды ОК. 12 лет делаем крутые вещи и делимся ими здесь

Контакты: @anokhinn
Download Telegram
🤖Сергей Шнуров поёт: «Мамба, мамба – $#ямба». На ридинг-группе 15 февраля попробуем подтвердить или опровергнуть это утверждение. Представлять статью Mamba: Linear-Time Sequence Modeling with Selective State Spaces будет Андрей Кузнецов, директор по ML ОК. Ждём всех желающих в 18:00.

Зум: ссылка на звонок
😁19🔥7👍4
🧙На ридинг-группе ОК 29 февраля гостевой доклад. Виталий Занкин из института Skoltech представит свою статью Sparse online variational Bayesian regression. Приглашаем всех неравнодушных к байесовскому подходу послушать Виталия в 18:00.

Зум: https://us05web.zoom.us/j/87668326572?pwd=oObrhSa4idAGnKpg2YCIdFPr0aZfHl.1

Meeting ID: 876 6832 6572
Passcode: 31337
🔥11🆒1
Media is too big
VIEW IN TELEGRAM
🤟Запись ридинг-группы от 29 февраля 2024 года. Виталий Занкин рассказал про онлайн обучение байесовской регрессии.
8
ML — это ОК
🤖Сергей Шнуров поёт: «Мамба, мамба – $#ямба». На ридинг-группе 15 февраля попробуем подтвердить или опровергнуть это утверждение. Представлять статью Mamba: Linear-Time Sequence Modeling with Selective State Spaces будет Андрей Кузнецов, директор по ML ОК.…
🐍14 марта в 18:00 Андрей Кузнецов проведет встречу ридинг-группы, на которой обсудим новую языковую модель – Mamba. Если хотите подготовиться ко встрече, рекомендуем заранее посмотреть вводные статьи про Mamba и State Space Models, например:
- A Visual Guide to Mamba and State Space Models
- Mamba: The Easy Way
Ждём вас в четверг!

Зум: ссылка
Идентификатор конференции: 762 7685 4669
Код доступа: okrg
🔥14👍1
Media is too big
VIEW IN TELEGRAM
Запись РГ про Mamba
🔥22👏2
💯Вам нравится наша ридинг-группа? Грустите, что она бывает только раз в две недели? Советуем обратить внимание на семинар по кластеризации текста с помощью LLM, который организует VK Lab. Ребята занимаются наукой, поэтому будет интересно и глубоко.

Подключайтесь к семинару 19 марта в 19:00. Его проведёт старший программист-разработчик департамента AI, контентных и рекомендательных сервисов VK Антон Земеров. Он разберёт три разных подхода к кластеризации текста на основе LLM. Вы узнаете, какие проблемы они решают и в каких ситуациях их лучше всего использовать.

Антон будет опираться на статьи, рекомендуем заранее с ними познакомиться:
Goal-Driven Explainable Clustering via Language Descriptions
ClusterLLM: Large Language Models as a Guide for Text Clustering
Large Language Models Enable Few-Shot Clustering

Посмотреть трансляцию и задать вопросы можно будет по ссылке: https://vk.com/lab?w=wall-187376020_364
🔥13🥰21
💰На ридинг-группе 28 марта обсудим, как выбрать слоты для рекламы в ленте, чтобы и денег заработать, и пользователей не расстроить. Алгоритм сидения на двух стульях представит Николай Анохин, ведущий специалист по машинному обучению OK. Будем опираться на статью Ad-load Balancing via Off-policy Learning in a Content Marketplace с конференции WSDM 2024. Начало встречи в 18:00.

Зум: https://us05web.zoom.us/j/89763772406?pwd=e3xoXL1xNr2HchasKKAGxhqbyKPdez.1

Meeting ID: 897 6377 2406
Passcode: 31337
🤩8🔥4😁2
Мы любим автоэнкодерные рекомендеры не только за то, что они дают хорошее качество, но и за самые крутые аббревиатуры (SLIM! EASE!). На ридинг-группе 11 апреля обсудим новую модель из этого семейства — SANSA. Статью с конференции RecSys 2023 будет представлять Сергей Ермилов, ML-инженер ОК. Начало встречи в 18:00.

Ссылка на звонок: зум
Идентификатор конференции: 997 5281 5267
Код доступа: 2JAg34
🔥15😁7
🎤🎧На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00.

Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5EMKS4gLFrHknDjSAr.1
Meeting ID: 813 5681 2687
Passcode: 123
🔥82
Media is too big
VIEW IN TELEGRAM
📹Запись ридинг-группы от 25 апреля 2024 года. Макс Каледин из ВШЭ рассказал про удаление шума из аудиопотока с помощью GAN
🔥9🤩1🆒1
Всем привет!

Ребята из Mail.ru делают классное мероприятие: smartmail:ML Meetup, уютный офлайн-митап по NLP, LLM и ML в целом.

17 мая в 18:00 по МСК
📍Офис VK

🦾 На митапе будут доклады от тимлидов Mail.ru, где ребята обсудят NLP-подходы, а также расскажут про свой AutoML пайплайн. А ещё обязательно поделятся опытом по заведению LLM-фич in the wild!

🦿Участие в митапе для всех свободное, но необходимо пройти регистрацию.

Рекомендуем!
👍10
😁14
Ранжирование ленты – задача, для решения которой нужна команда ML-инженеров. Эта задача становится ещё сложнее, когда к ней добавляются требования, выходящие за рамки одной рекомендательной выдачи («хотим отдавать 5% трафика локальным группам»). Для поддержки этих требований можно использовать эвристики («умножаем скоры локальных групп на 2»). Но эвристики нужно настраивать, и они не гарантируют оптимальности. Авторы статьи Ranking with Long-Term Constraints предлагают своё решение задачи ранжирования с учётом долгосрочных требований.

Предложенные в статье алгоритмы наводят мост между долгосрочным контролем рекомендательной системы и построением ленты «в моменте». Долгосрочная цель формулируется как сумма полезности, извлеченной пользователями, и штрафов за несоблюдение требований. И если полезность легко разбивается по отдельным выдачам, то со штрафами дело обстоит сложнее. Авторы предлагают три подхода:
- Myopic controller равномерно «размазывает» все штрафы по всем выдачам.
- Stationary controller в реальном времени следит за выполнением требований и приоритезирует те, что выполнены хуже остальных.
- Predictive controller добавляет к stationary controller прогноз трафика, чтобы учитывать выполнение требований в будущем.

Для ранжирования с дополнительными требованиями нет хороших реальных датасетов, поэтому эксперименты в статье синтетические. Они показывают эффективность предложенных алгоритмов. При этом для применения результатов статьи нужно решить практические вопросы (Как выбрать горизонт планирования? Где взять хорошую модель прогнозирования трафика? Что делать с меняющимися требованиями?). Тем не менее статья заслуживает внимания, потому что предлагает идеи, позволяющие поддерживать долгосрочное здоровье системы. А это более важная задача для ML-инженеров, чем увеличение NDCG на 0,005.
🔥1032👍1
📄На ридинг-группе 16 мая Александр Петров из Университета Глазго представит свою статью RecJPQ: Training Large-Catalogue Sequential Recommenders. Поговорим о том, как сделать трансформерные рекомендеры более эффективными в задачах рекомендаций с большими каталогами айтемов. Встречаемся в зуме в 18:00.

Зум: ссылка

Идентификатор конференции: 732 1727 3314
Код доступа: okdsrg
🔥22🆒2