Information Retriever

Forwarded from Рекомендательная [RecSys Channel]

Какие рексис-тренды будут развивать в Яндексе в 2025 году

Трендов, которые могут повлиять на рексис в этом году, — довольно много. Мы решили разузнать, на какие из них точно планируют сделать упор в Яндексе. Для этого поговорили с Группой исследования перспективных рекомендательных технологий. А на карточках собрали самые горячие направления, по мнению команды исследователей.

@RecSysChannel

🔥24👍8❤3

4.26K views07:44

Information Retriever

ШАД и RecSys.

Недавно упоминал, что хочется сделать курс по рекомендательным системам. Эта амбиция постепенно реализуется через ШАД:

1. Делаем совместно с ребятами из Лавки обновлённый RecSys курс: наша команда взяла на себя нейросетевую часть курса — проведем три лекции, два семинара, одну домашку.

В прошлом году я уже читал одну сдвоенную лекцию про трансформерную персонализацию, но получилось очень сложно и сумбурно. В этот раз должно быть гораздо лучше — полноценные, нормально структурированные лекции про нейросетевый отбор кандидатов, нейросетевое ранжирование и RecSys тренды.

По мере подготовки стало понятно, что полезного материала в контексте рекомендательных нейросетей хватит лекций на шесть, если не больше. В следующем году, вероятно, расширимся.

2. Меня пригласили прочитать лекцию про графы в рекомендациях в курсе “Графы в машинном обучении.” — как раз в рекомендательный курс подробное обсуждение GNN не влезло, а тема интересная и полезная.

Возможно, опубликую здесь примерный curriculum лекций, а если получится — то и записи выложу (может, даже что-то перезапишу). Такие дела :)

P.S: ребята из Лавки очень основательно подходят к подготовке курса. Думаю, будет +1 крутой курс в ШАД’е!

❤118🔥60👍11🥰3

5.28K viewsedited 10:25

Information Retriever

Видеозапись воркшопа LargeRecsys x VideoRecSys c RecSys 2024.

Оказывается, на ютуб уже выложили часть выступлений с воркшопа LargeRecsys x VideoRecSys!

В том числе выложили и выступление от Ed Chi, с которого начался весь хайп семантических айдишников. Я в день самого выступления уже писал краткий tdlr, но советую всё равно его посмотреть. Там будет и увлекательный экскурс в историю рекомендаций и генеративных моделей, и рассказ про связь рексистем с распределением Больцмана, и демка Project Astra. А ещё, они не все свои наработки по семантическим айдишникам опубликовали :)

Также на канале доступно выступление от Derek Cheng (с наработками от той же гугловской рекомендательной группы), в котором мимолётно упоминаются DCN-v3 и DCN-v4, а также есть рассказы про HSTU и про инференс рекомендательных нейросетей.

Надо смотреть! Ссылка на весь плейлист.

Если интересно получить больше контекста, можно почитать:
* пост про Ed Chi
* мои заметки по докладу про ранжирование в Ютубе с прошлой итерации этого воркшопа
* серию постов про RecSys 2024

YouTube

Keynote: The Future of Discovery Assistance - Ed Chi | VideoRecSys Workshop | RecSys 2024

"The Future of Discovery Assistance" Keynote Talk by Ed Chi (Google DeepMind,) at the Large-Scale Video Recommender Systems Workshop (VideoRecSys) 2024.

It was organized by: Khushhall Chandra Mahajan, Amey Porobo Dharwadker, Saurabh Gupta and Brad Schumitsch.…

🔥15❤4

6.72K viewsedited 11:07

Information Retriever

Мы с командой начинаем постепенно вкатываться в написание статей:

* засабмитили на ACM RecSys 2025 два full paper’а
* хотим засабмитить туда же short paper
* возможно и для reproducibility трека статью напишем

Это, конечно, ощущается как вторая фулл тайм работа (а подготовка курса для ШАД’а — как третья), но мы замотивированы и будем пытаться, пока не получится!

А еще, вроде как, буду делать на Датафесте в RecSys треке доклад на тему “Масштабирование рекомендательных систем”. С результатами :)

Напоследок, маленькая байка: в первой версии оригинальной статьи про семантические айдишники в рекомендациях Recommender Systems with Generative Retrieval обещали выложить код после принятия статьи на конфу, но так и не выложили. А строчку эту позже удалили :)

👍44🔥20❤12😁5

4.13K viewsedited 15:44

Information Retriever

Welcome to the Era of Experience.

У Ричарда Саттона (автора самой популярной книжки по РЛ, а также bitter lesson) и Дэвида Сильвера (автора AlphaGo) вышла новая статья — Welcome to the Era of Experience. Эссе про bitter lesson я люблю, и во многом им вдохновляюсь в своей работе, поэтому и здесь сразу побежал читать. Не вижу смысла делать полный пересказ, такое стоит полностью от и до самостоятельно прочитать. Но попробую чуть-чуть заинтересовать:

1. Критикуют LLM’ки, RLHF, тюнинг под оценки человеческих экспертов и под успешные исходы диалогов, использование человеческого языка для ризонинга.

2. Оптимистично пишут про Deepseek, AlphaProof, computer use (агентов, взаимодействующих с миром через интерфейс компьютера), модели мира. Утверждают, что чтобы выйти за пределы человеческих возможностей, агенты должны учиться не на человеческих данных, а на собственном опыте. Этот опыт может включать фидбек от людей; но не от экспертов-разметчиков, а от пользователей. Очень сильно делают акцент на привязке всего происходящего к реальному миру, что награды должны быть связаны с реальным миром.

3. Часто приводят в пример сценарий ассистента, когда агент должен помогать пользователю в достижении долгосрочных целей, типа улучшения здоровья / изучения нового языка. Сценарий, когда цель агента — это совершить новые открытия / прорывы в науке, тоже упоминают.

В общем и целом вайб у статьи очень оптимистичный. Начинаешь верить, что это все действительно не за горами :)

А еще по мотивам статьи есть подкаст с Дэвидом.

👍46❤10🕊4

4.49K viewsedited 16:56

Information Retriever

Лекция про нейросетевое ранжирование в ШАД.

Сегодня в ШАД'е будет лекция про нейросетевое ранжирование! Содержимое — собранный по кусочкам пятилетний опыт работы с нейросетями для рекомендательных систем; чтения статей, экспериментов, внедрений:

1. Введение (recap ранжирования, проблемы градиентного бустинга, преимущества нейросетей, bitter lesson, проблемы нейросетей, эволюция ранжирования в pinterest)

2. Категориальные признаки (one hot кодирование и матрицы эмбеддингов, hashing trick и unified эмбеддинги, подбор размерностей, борьба с переобучением)

3. Вещественные признаки (log1p, sigmoid squashing, функция распределения, бинаризация, PLE)

4. Feature interaction layers (кросс-признаки, факторизационные машины, deepfm, dlrm, DCN, autoint, hiformer)

5. MLP, ResNet, DenseNet

6. Многозадачность (multi-task learning, negative transfer, mixture of experts, self-supervised learning, contrastive pre-training, knowledge distillation)

И на семинаре после лекции ребята посмотрят как это работает на практике.

P.S: Прикладываю кусочек лекции про категориальные признаки :)

❤65🔥38👍1

4.54K viewsedited 11:54

Information Retriever

ysda_neural_ranking.pdf

1.5 MB

Обещанные слайды лекции

🔥100❤18🙏3👍2

6.57K views22:57

Information Retriever

Первого мая ребята из Пинтереста дропнули на архиве новую статью про графовые нейросети — OmniSage: Large Scale, Multi-Entity Heterogeneous Graph Representation Learning. Сделали гетерогенный граф, объединили обучение трансформера над пользователем (aka PinnerFormer) с обучением векторов пинов и других сущностей. Сама статья мне не очень понравилась, поэтому разбирать не будем :)

Стало интересно посмотреть насколько авторы статьи пересекаются с авторами PinSage / PinnerFormer; и, внезапно, пересекается только последний автор между PinnerFormer и OmniSage — Charles Rosenberg, видимо, менеджер команды.

Что стало с авторами PinSage:
* Rex Ying — assistant prof., Yale University
* Ruining He — staff SWE, Google Deepmind
* Kaifeng Chen — staff SWE / tech lead, Google Deepmind
* Pong Eksombatchai — principal engineer, Pinterest
* William L Hamilton — квант (!) в LLC Citadel
* Jure Leskovec — co-founder в kumo.ai (из коробки делают на данных representation learning)

Авторы PinnerFormer:
* Nikil Pancha — member of technical staff, OpenAI
* Andrew Zhai — stealth startup
* Jure Leskovec — см. выше
* Charles Rosenberg — тот самый менеджер

… то есть в Пинтересте осталось только два человека. Остальные разбрелись по университетам, Google Deepmind, OpenAi, стартапам. Даже кванты есть =)

Морали у этого поста нет, но почему мне новая статья не понравилась — стало понятней :)

😢15👍6🤔4❤1🔥1

3.93K viewsedited 08:57

About

Blog

Apps

Platform