Information Retriever
3.5K subscribers
255 photos
1 video
8 files
129 links
Download Telegram
RecSys митап от Сбера.

Завтра буду выступать на митапе от Сбера. Попробую за 15 минут рассказать кейсы, когда идеи из статей помогали нам на практике. Выбрал следующие пять концептов: калиброванное ранжирование, logq-коррекцию, DCN-v2, unified эмбеддинги и генеративные рексистемы.

Ссылка на трансляцию — https://jazz.sberbank.ru/sber-2p5vw5?type=webinar&role=VIEWER&psw=OAEQUkIGAx9cERdEHRIUDFMbCg.

Презентацию приложу в комментариях после выступления.

UPD: для подключения к трансляции нужно отключить проверку сертификатов, e.g. Для хрома — open -a "Google Chrome" --args --ignore-certificate-errors; или установить некий sberjazz

Запись: https://www.youtube.com/watch?v=PwH69yapmPw
16👍7🔥7💩2
Статья на Хабре про индустриальные тренды рексистем.

В мае я выступал на датафесте с докладом про тренды рексистем, а сейчас появился пост на Хабре, где мы подробнее расписали содержимое доклада, приложили ссылки на статьи, добавили больше пояснений.

Ссылка — https://habr.com/ru/companies/yandex/articles/857068/
👍36🔥5
В далеком 2018-м году, уже после Attention Is All You Need, но до BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Суцкевер на лекции в MIT пугающе точно описывал что будет происходить в ближайшие годы. В ответ на вопрос “как нам побороть проблему с генеративными LM’ками? Они плохо работают”, он уже тогда отвечал, что скорее всего достаточно замасштабироваться по данным и по модели (e.g. бахнуть тысячу одинаковых слоев), и получится гораздо лучше чем то, что было доступно на тот момент.

Но лекция была не совсем об этом, а гораздо обширней:
* дал интуицию обучению нейросетей и бэкпропу в частности
* сделал небольшое введение в RL
* аналогично, сделал супер краткое введение в meta-learning
* рассказал про self-play, верил в него как способ конвертировать compute в данные
* и даже про alignment рассказал, Deep reinforcement learning from human preferences

Это было ШЕСТЬ лет назад. Пруфы — https://youtu.be/9EN_HoEk3KY?si=T4ef2gJtDPNoZ4so
🔥33👍9🥰42🤯2🏆1
Топ статей про нейросети для web-scale рексистем.

Недавно Олег Лашинин опубликовал отличный пост про топ рекомендательных моделей, использующих данные в формате (user id, item id, timestamp). Захотелось сделать что-то подобное, но с акцентом на нейросети, индустрию, продакшн и web-scale. Топ отсортирован хронологически:

Wide & Deep Learning for Recommender Systems (2016) — предложили вместе с популярными на то время в рексистемах линейными моделями использовать полносвязные нейросети. Еще в статье довольно хорошие определения меморизации и генерализации :)

Deep Neural Networks for YouTube Recommendations (2016) — на мой взгляд, САМАЯ influential статья про нейросети в рекомендациях, заложившая основы нейросетевого ранжирования и ретривала. Подробно описали переход от линейных моделей к нейросетям в Ютубе.

Graph Convolutional Neural Networks for Web-Scale Recommender Systems (2018) — одна из первых работ про графовые нейросети для web-scale рекомендаций (наряду с Алибабой). Стоит читать вместе с GraphSage, MultiSage, MultiBiSage. В свое время ведущий GNN-ресерчер Jure Lescovec основал ресерч лабу Пинтереста; видимо это была одна из первых статей лабы.

Deep Interest Network for Click-Through Rate Prediction (2018) — в YoutubeDNN вектор пользователя формировался average пулингом над историей просмотров, а в Алибабе его заменили target-aware пулингом (однослойным pointwise аттеншном). Первый шаг в сторону более умной обработки истории пользователя в индустрии.

Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations (2019) — важное улучшение нейросетевых ретривал моделей, про которое был отдельный пост.

Behavior Sequence Transformer for E-commerce Recommendation in Alibaba (2019) — в этот раз в Алибабе сделали полноценный трансформер для ранжирования; очередной шаг вперед после target-aware пулинга.

Top-K Off-Policy Correction for a REINFORCE Recommender System
(2020) — первый успех внебандитного обучения с подкреплением в рекомендациях. Утверждается, что это было самое большое улучшение качества рекомендаций в Ютубе за годы. Авторы, как и у статей про logQ-correction и DCN-v2, из того самого рекомендательного дипмайнда под руководством Ed Chi.

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems (2020) — sota (до сих пор!) в моделировании взаимодействия признаков в рекомендательных нейросетках. Очень изящный и простой с точки зрения реализации подход, который повсеместно используется для нейросетевого ранжирования (и мы тоже используем). Ждём DCN-v3 и DCN-v4 :)

PinnerFormer: Sequence Modeling for User Representation at Pinterest
(2022) — все еще одна из лучших статей про нейросетевой кандген. И систем дизайн аспекты обсудили, и про внедрение рассказали. Позже от Пинтереста была еще одна хорошая статья про анализ истории пользователя, для ранжирования — TransAct (2024).

TwHIN: Embedding the Twitter Heterogeneous Information Network for Personalized Recommendation
(2022) — одна из главных моделей, используемых для рекомендаций в X (Твиттере). Хоть это и графовая нейросеть, подход очень сильно отличается от PinSage’а. Трансдуктивность, гетерогенность — если интересно узнать о чем это, призываю почитать статью :)

Monolith: Real Time Recommendation System With Collisionless Embedding Table
(2023) — статья про то, как в ТикТоке учат модели в онлайне с минимальной задержкой. Произвела глубокое впечатление на индустрию, все побежали делать онлайн-обучение =)

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
(2024) — глоток свежего воздуха в мире трансформеров для персонализации, постепенно приближающий нас к миру больших моделей. Ключевое — переход к генеративной постановке. Я чуть-чуть рассказывал про статью на дружественном канале Рекомендательной.

Предвосхищая вопрос “а как же SASRec / BERT4Rec?” — они не про индустрию, продакшн и web-scale; но знать их конечно же тоже стоит. Если бы топ выходил за рамки рексистем, я бы однозначно добавил сюда статью про DSSM.
30🔥21👍10👌1
Итоги года на канале.

Где-то чуть больше года назад я в порыве ночных раздумий понял, что пора бы завести канал. Еще помню, как выбирал название: основной вариант был "arxiv weekly" — именно так называлась еженедельная сводка обзоров статей, которую я вёл в Яндексе. Вариант "Information Retriever" с ретривером на аватарке был скорее шуточный, но каким-то образом реализовался. Ни о чем не жалею =)

Началось все с того, что после ухода Миши Ройзнера @WazowskiRecommends я вызвался подхватить организацию научного семинара по рекомендательным системам в Яндексе. Каждую неделю мы разбирали по две статьи. Я искал докладчиков, сам регулярно выступал и помогал подбирать статьи для выступлений. Чтобы было проще искать статьи, стал выпускать в чате семинара дайджест "arxiv weekly": каждую неделю просматривал все статьи, выходящие в секции arxiv cs/IR, отбирал 5-10 штук, писал про них краткие хайлайты в пару строчек. Постепенно ребята, уходящие из Яндекса, убедили меня что было бы круто перенести "arxiv weekly" в публичное пространство.

Еще в какой-то момент на нетворкингах люди стали благодарить за доклады про трансформерную персонализацию. Когда Саша Сидоров подошел и сказал, что в Wildberries смогли на основе этих докладов что-то внедрить, у меня прямо сдвиг парадигмы произошел =) Появилось понимание, что могу рассказывать что-то интересное и полезное для широкой публики, что эти доклады кто-то смотрит.

В совокупности эти два фактора, вероятно, и сподвигли на создание канала. Первые посты были очень корявые; их чтение вызывает те же ощущения, которые в эпоху вконтакте вызывало перечитывание старых переписок :) Тем не менее, постепенно сформировался какой-то свой, «авторский», стиль; о чем и как я пишу. Дальше идут итоги года в постах и выступлениях.

Выступления:

* Про нейросетевое ранжирование на ML party.
* Про индустриальные тренды рексистем на Датафесте.
* Best practices доклад про трансформерную персонализацию на Turbo ML Conf, который я попытался сделать полезнее и информативнее всех прошлых.
* Про кейсы, в которых нам пригодились статьи на практике на рекомендательном митапе от Сбера.

Посты:

* Про (1) проблемы next item prediction, (2) двухбашенные модели и logQ-коррекцию, (3) обучаемые векторы для рексистем. У нас с командой очень сильное желание сделать свой курс по рексистемам: такие посты похожи на то, что хотелось бы покрыть в курсе. Процесс создания хорошего курса долгий и сложный, пока всё на стадии сбора материала: я собираю, "коллекционирую" различные термины, концепты, теории, с которыми сталкиваюсь при работе и в статьях. Этот процесс может занять годы =)

* Про (1) ранжирование в Пинтересте, (2) ранжирование в Ютубе, (3) рекомендации похожих пинов в Пинтересте. Изначально я собирал много system design заметок про то, как устроены рекомендации в разных известных сервисах. Собирал статьи, парсил блоги на медиуме, искал выступления. Пока что это, пожалуй, один из наиболее сложных типов постов для реализации.

* Про рабочие проекты и команду: (1) чтение статей для r&d, (2) графовые нейросети, (3) нейросетевое ранжирование, (4) чем занимается наша команда, (5) трансформер с миллиардом параметров. Писать про команду приятно и просто, здесь я недорабатываю :)

* Серия постов про праздник рекомендательных систем на ACM RecSys 2024: 1, 2, 3, 4, 5, 6, 7.

* "Кулуарные" посты, в которых пытался передать атмосферу нетворкинга и какие-то приватные, но не очень, обсуждения: (1) конфа вышки, (2) датафест, (3) turbo ml conf, (4) pml conf.

* Обзорные посты с кучей ссылок на статьи: (1) NLP образца 2020-го года, (2) what's on google's deepmind, (3) скейлинг в рексистемах, (4) sigir 2024, (5) топ статей про нейросети в рекистемах.

Спасибо, что были со мной этот год! И до встречи в следующем :)
👍7941🔥33
Data Ёлка 2024.

Завтра буду рассказывать своё решение VK RecSys Challenge на дата ёлке. Приходите пообщаться! :)

P.S: собираюсь 20 минут со сцены говорить, что нейросети — это хорошо =)
31👍12🔥8
Data Ёлка 2024, кулуары.

* Присутствие ребят, занимающихся рексистемами, было меньше чем обычно на таких мероприятиях. Никого не заметил из вб, Т-Банка. Из Озона и Авито как будто было по одному человеку

* В vk внедрили гетерогенные графовые нейросети. Вроде бы что-то похожее на то видение, которое я описывал на data fest 2024. Круто!

* В Авито экспериментируют с семантическими айдишниками, но пытаются делать их “контентными”, предсказывая параметры айтемов. Там есть проблемы, но все равно круто! Молодцы)

* Oura кольцо набирает популярность в ML комьюнити. Люди активно интересуются функционалом :)

* Некий товарищ из Сбера в ответ на вопрос какими рекомендательными системами занимается, загадочно улыбнулся и сказал: “Всякими”. Также сказал, что “большие таблички превращает в маленькие”. Удивительно =)

* Где-то (я уже забыл где) рекомендательным инженерам раздали цели напрямую в деньгах =)

* Неоднократно люди подходили поспрашивать про стажировку в Яндексе. Основной консерн — очень сложно попасть. Ответ у меня всегда следующий — люди довольно часто попадают в Яндекс не с первой попытки. Лично знаю людей, которые много раз пытались прежде чем получилось. Надо просто не терять надежду и продолжать пытаться. Не дайте одной неудачной попытке себя остановить :)

* Провел одну рабочую встречу прямо на месте. Начал со слов “у меня нет ресурсов”

* В Авито определение рекомендательного ДСа — это если ты работаешь в команде Миши Каменщикова :) Миша, кстати, занял в соревновании четвертое место, но не смог выступить, так как находится в Тайланде. Посочувствуем…

* В рамках разных вопросов обсудили, что в рекомендательной R&D команде должна быть и (1) свобода (без exploration нельзя сделать что-то действительно новое и сложное), и (2) дисциплина (постоянное чтение статей, поддержание и развитие собственного математического аппарата. Вместо более простых инкрементальных улучшений существующих технологий пытаемся придумывать что-то новое сложное, фундаментальное). Вообще в меня уже закрадывается желание сделать доклад на тему построения R&D команды :)

* Вероятно, буду делать на Датафесте доклад (если пустят) про масштабирование рекомендательных систем; не просто визионерский, но и с нашими результатами. Это уже совсем скоро :)

P.S: выступление в трансляцию не попало, но организаторы обещали выложить запись. Априорно мне самому выступление понравилось, оно было в совсем свободном формате, поэтому я просто что-то рассказывал на интересные мне темы и даже слегка шутил. Почти как пост на канале =)
🔥62👍2316🤯1
Канал Саши Петрова про рексистемы.

Я в октябре советовал канал Олега Лашинина @recsys_for_all, а недавно канал завел Саша Петров. Мне кажется Саша в представлении не нуждается, автор recsys best paper 2023 gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling и большого количества других статей, опубликованных на топовых конференциях. Советую заглянуть на канал и подписаться: @Recsys_IR_Travel.
22💯2