Лекция про нейросетевую генерацию кандидатов в ШАД.
Сегодня будет уже вторая лекция в ШАД’е про нейросети в рекомендательных системах — на этот раз про нейросетевой кандген. На эту лекцию ушло где-то в три раза больше времени, чем на прошлую:
1. Введение (идеальная рексистема, многостадийность, минусы классических кандгенов)
2. Двухбашенные модели (позднее связывание, семантическое пространство, информационный ботлнек и низкоранговое разложение матрицы релевантностей)
3. На что учить нейросетевой кандген (recap ранжирования, folding, softmax model, проблема полного софтмакса, сэмплированный софтмакс, равномерные негативы, in-batch негативы, logq-коррекция, альтернативные лоссы)
4. Функции похожести (скалярное произведение и почему оно выучивает популярности, косинус, температура)
5. Согласованность с ранжированием (рекомендации как RL, взгляд на многостадийность через RL)
6. Айтемные башни (обучаемые эмбеддинги и их минусы, мешок слов, inductive bias, контентное кодирование, тяжелые хвосты)
7. Пользовательские башни (почему не подходят обучаемые эмбеддинги, average pooling, трансформеры, next item prediction)
И к лекции идет семинар, на котором ребята обучат трансформер над историей пользователя (и даже сделают logQ-коррекцию!).
Прикладываю кусочек лекции про logQ-коррекцию :)
P.S: слайды лекции, как и в прошлый раз, вечером скину.
Сегодня будет уже вторая лекция в ШАД’е про нейросети в рекомендательных системах — на этот раз про нейросетевой кандген. На эту лекцию ушло где-то в три раза больше времени, чем на прошлую:
1. Введение (идеальная рексистема, многостадийность, минусы классических кандгенов)
2. Двухбашенные модели (позднее связывание, семантическое пространство, информационный ботлнек и низкоранговое разложение матрицы релевантностей)
3. На что учить нейросетевой кандген (recap ранжирования, folding, softmax model, проблема полного софтмакса, сэмплированный софтмакс, равномерные негативы, in-batch негативы, logq-коррекция, альтернативные лоссы)
4. Функции похожести (скалярное произведение и почему оно выучивает популярности, косинус, температура)
5. Согласованность с ранжированием (рекомендации как RL, взгляд на многостадийность через RL)
6. Айтемные башни (обучаемые эмбеддинги и их минусы, мешок слов, inductive bias, контентное кодирование, тяжелые хвосты)
7. Пользовательские башни (почему не подходят обучаемые эмбеддинги, average pooling, трансформеры, next item prediction)
И к лекции идет семинар, на котором ребята обучат трансформер над историей пользователя (и даже сделают logQ-коррекцию!).
Прикладываю кусочек лекции про logQ-коррекцию :)
P.S: слайды лекции, как и в прошлый раз, вечером скину.
🔥62👍11❤10🤣1
Датафест 2025.
На Датафесте 2025 в рексис треке будет доклад от вашего покорного слуги про масштабирование рекомендательных систем! Приходите посмотреть как я за 30 минут рассказываю 70+ слайдов :)
Еще от нашей команды будет доклад про графовые нейросети для рекомендаций в треке Яндекса. Выступит Артём Матвеев. Тоже приходите послушать!
На Датафесте 2025 в рексис треке будет доклад от вашего покорного слуги про масштабирование рекомендательных систем! Приходите посмотреть как я за 30 минут рассказываю 70+ слайдов :)
Еще от нашей команды будет доклад про графовые нейросети для рекомендаций в треке Яндекса. Выступит Артём Матвеев. Тоже приходите послушать!
👍49🔥22❤8👀3😁1
Лекция про графовые модели для рекомендательных систем в ШАД.
Сегодня в ШАДе пройдет сдвоенная лекция про графы в рексистемах для курсов по графам в машинном обучении и по рексистемам.
Содержание:
1. Введение в рексистемы: что такое рексистемы, многостадийность, генерация кандидатов и ранжирование. Матрица релевантностей, матричная факторизация, проблема тяжелого хвоста
2. Графовая постановка рексистем: двудольный user-item граф, ограничения классической коллаборативной фильтрации, NGCF (neural graph collaborative filtering), LightGCN
3. GraphSAGE, Pinterest, Pin-board граф, случайные блуждания для рекомендаций (Pixie), модель PinSage
4. Продвинутые рексистемы: нейросетевая генерация кандидатов (двухбашенность и лоссы), нейросетевое ранжирование (примерная архитектура). Почему важен representation learning
5. Гетерогенные графы в рекомендациях, графы знаний, TransE, TwHIN, MultiBiSage, чуть-чуть про PinnerFormer и OmniSage
6. Небольшой кусочек про графы в других компаниях: LinkedIn, Spotify, Netflix, Snapchat, etc
Лекция будет на стыке двух миров — графового и рекомендательного, поэтому сделана более самодостаточно; чуть-чуть повторяет какие-то вещи из отдельных курсов. Ну и более поверхностная, чем прошлые лекции. Цель в первую очередь заинтересовать в теме и показать реальные применения.
P.S: презентация делалась в максимально сжатые сроки, поэтому после прошлых двух скидывать её будет даже немного стыдно. Но я наверно все равно скину :)
Сегодня в ШАДе пройдет сдвоенная лекция про графы в рексистемах для курсов по графам в машинном обучении и по рексистемам.
Содержание:
1. Введение в рексистемы: что такое рексистемы, многостадийность, генерация кандидатов и ранжирование. Матрица релевантностей, матричная факторизация, проблема тяжелого хвоста
2. Графовая постановка рексистем: двудольный user-item граф, ограничения классической коллаборативной фильтрации, NGCF (neural graph collaborative filtering), LightGCN
3. GraphSAGE, Pinterest, Pin-board граф, случайные блуждания для рекомендаций (Pixie), модель PinSage
4. Продвинутые рексистемы: нейросетевая генерация кандидатов (двухбашенность и лоссы), нейросетевое ранжирование (примерная архитектура). Почему важен representation learning
5. Гетерогенные графы в рекомендациях, графы знаний, TransE, TwHIN, MultiBiSage, чуть-чуть про PinnerFormer и OmniSage
6. Небольшой кусочек про графы в других компаниях: LinkedIn, Spotify, Netflix, Snapchat, etc
Лекция будет на стыке двух миров — графового и рекомендательного, поэтому сделана более самодостаточно; чуть-чуть повторяет какие-то вещи из отдельных курсов. Ну и более поверхностная, чем прошлые лекции. Цель в первую очередь заинтересовать в теме и показать реальные применения.
P.S: презентация делалась в максимально сжатые сроки, поэтому после прошлых двух скидывать её будет даже немного стыдно. Но я наверно все равно скину :)
❤50👍24🔥12
Вредные советы по рекомендательным системам.
Пришла идея сделать “Вредные советы” для рекомендательных инженеров. Генерации в Sora уже кончились, а потенциальных карточек ещё много :) Сделать стиль иллюстраций более похожим на оригинальную книжку пока не получилось.
Пришла идея сделать “Вредные советы” для рекомендательных инженеров. Генерации в Sora уже кончились, а потенциальных карточек ещё много :) Сделать стиль иллюстраций более похожим на оригинальную книжку пока не получилось.
❤40😁33🔥10💩1
ARGUS.pdf
5.2 MB
Data Fest 2025.
Выступил! Получилось за 36 минут рассказать 76 слайдов. Чтение лекций в ШАДе натренировало меня говорить быстро, но лекторским монотонным голосом :) Я чуть-чуть подустал за ближайшие полтора месяца, это по выступлению хорошо заметно — ни одной улыбки, даже шутки говорил с каменным лицом :)
Запись выступления можно посмотреть здесь: https://m.vkvideo.ru/video-164555658_456241373 (ссылку на ютуб выложу как только появится), по таймингам — начинается где-то на 4h:32m.
Что обсуждали в кулуарах:
* Аргуса. Долгое время это был внутренний яндексовый термин, теперь когнитивный диссонанс возникает каждый раз, когда его кто-то вне Яндекса произносит :)
* Рекомендательные трансформеры и всё, что с ними связано. Вообще, в этот раз очень много хороших вопросов задавали. Чувствуется что понимание рекомендательных трансформеров растёт, гораздо больше ребят в этом начинает хорошо разбираться! А ещё было даже такое, что заметили связь между моим решением vk recsys challenge и Аргусом :)
* Графовые нейросети, мультимодальные векторы, семантические айдишники. У ребят из R&D команды vk (Максима Утушкина и Ильи Алтухова) были клёвые доклады!
* Обсуждали статьи, а именно — подачу статей на конфу RecSys. Это была почти психотерапия, на которой можно было пожаловаться на ревьюверов :)
Презентацию прикладываю.
Выступил! Получилось за 36 минут рассказать 76 слайдов. Чтение лекций в ШАДе натренировало меня говорить быстро, но лекторским монотонным голосом :) Я чуть-чуть подустал за ближайшие полтора месяца, это по выступлению хорошо заметно — ни одной улыбки, даже шутки говорил с каменным лицом :)
Запись выступления можно посмотреть здесь: https://m.vkvideo.ru/video-164555658_456241373 (ссылку на ютуб выложу как только появится), по таймингам — начинается где-то на 4h:32m.
Что обсуждали в кулуарах:
* Аргуса. Долгое время это был внутренний яндексовый термин, теперь когнитивный диссонанс возникает каждый раз, когда его кто-то вне Яндекса произносит :)
* Рекомендательные трансформеры и всё, что с ними связано. Вообще, в этот раз очень много хороших вопросов задавали. Чувствуется что понимание рекомендательных трансформеров растёт, гораздо больше ребят в этом начинает хорошо разбираться! А ещё было даже такое, что заметили связь между моим решением vk recsys challenge и Аргусом :)
* Графовые нейросети, мультимодальные векторы, семантические айдишники. У ребят из R&D команды vk (Максима Утушкина и Ильи Алтухова) были клёвые доклады!
* Обсуждали статьи, а именно — подачу статей на конфу RecSys. Это была почти психотерапия, на которой можно было пожаловаться на ревьюверов :)
Презентацию прикладываю.
🔥80❤17👏9👍2
Forwarded from Рекомендации, Поиск и Путешествия (Sasha Petrov)
Вчера защитил диссертацию. Обычно в Великобритании после защиты рецензенты просят внести правки, но в моем случае я защитился без необходимости исправлять что-либо; так что можно считать что я теперь Dr. Petrov :-)
Диссертацией скоро поделюсь тут.
Диссертацией скоро поделюсь тут.
🔥117❤9👍8