Рекомендации, Поиск и Путешествия

А вот и запись доклада от @blondered про трансформеры в RecTools; с приличным количеством ссылок на мой research 🙂

1.41K viewsSasha Petrov, 17:44

Forwarded from ML — это ОК

39:08

Media is too big

VIEW IN TELEGRAM

🎥Запись ридинг-группы от 20 марта 2025 года. Дарья Тихонович рассказала про библиотеку RecTools.

👍8🔥1

1.23K viewsSasha Petrov, 17:44

Рекомендации, Поиск и Путешествия

Кирилл тут нашел запись keynote Ed Chi на LargeRecsys+VideoRecsys воркшопе. Я это выступление слушал на РекСисе вживую и мне тоже оно зашло, но мне в первую очередь понравилось не рассказ про Semantic ID, а идея про "великое объединение". Смысл идеи в том что поиск, персональный поиск, рекомендации и реклама это одно и тоже, и в целом нет смысла делать отдельные модели для каждой из этих задач. Такое объединение это явно большой тренд в РекСисе; на эту же тему были доклады от Netflix и Spotify на основном треке конференции, и классный доклад от spotify на трэке про генеративные рекомендательные системы. Я в общем с этой идеей согласен; мне кажется что большой разницы между поиском и рекомендациями нету.

Кстати, если вы еще не подписаны на Кирилла, то подпишитесь, он там интересное постит.

❤3💯1

1.55K viewsSasha Petrov, edited 17:54

Рекомендации, Поиск и Путешествия

Forwarded from Information Retriever

Видеозапись воркшопа LargeRecsys x VideoRecSys c RecSys 2024.

Оказывается, на ютуб уже выложили часть выступлений с воркшопа LargeRecsys x VideoRecSys!

В том числе выложили и выступление от Ed Chi, с которого начался весь хайп семантических айдишников. Я в день самого выступления уже писал краткий tdlr, но советую всё равно его посмотреть. Там будет и увлекательный экскурс в историю рекомендаций и генеративных моделей, и рассказ про связь рексистем с распределением Больцмана, и демка Project Astra. А ещё, они не все свои наработки по семантическим айдишникам опубликовали :)

Также на канале доступно выступление от Derek Cheng (с наработками от той же гугловской рекомендательной группы), в котором мимолётно упоминаются DCN-v3 и DCN-v4, а также есть рассказы про HSTU и про инференс рекомендательных нейросетей.

Надо смотреть! Ссылка на весь плейлист.

Если интересно получить больше контекста, можно почитать:
* пост про Ed Chi
* мои заметки по докладу про ранжирование в Ютубе с прошлой итерации этого воркшопа
* серию постов про RecSys 2024

YouTube

Keynote: The Future of Discovery Assistance - Ed Chi | VideoRecSys Workshop | RecSys 2024

"The Future of Discovery Assistance" Keynote Talk by Ed Chi (Google DeepMind,) at the Large-Scale Video Recommender Systems Workshop (VideoRecSys) 2024.

It was organized by: Khushhall Chandra Mahajan, Amey Porobo Dharwadker, Saurabh Gupta and Brad Schumitsch.…

👍5

1.85K viewsSasha Petrov, 17:54

Рекомендации, Поиск и Путешествия

https://link.springer.com/chapter/10.1007/978-3-031-88714-7_4

Моя статья с со-авторами из Amazon наконец опубликована! Основная идея - трансформеры не очень хорошо подходят для рекомендаций повторяющихся интеракций, поэтому им надо немного в этом помочь.

Полный обзор напишу на днях, а пока можно почитать самим:)

Также буду презентовать эту статью на ECIR 8го апреля. Если будете на ECIR - приходите послушать)

SpringerLink

CountNet: Utilising Repetition Counts in Sequential Recommendatio

Neural network-based sequential recommendation models, such as SASRec and GRU4Rec, struggle with highly repetitive recommendations due to a problem known as the SoftMax bottleneck: it is hard to model a multi-modal probability distribution, which is common…

👍17❤6🔥3

2.88K viewsSasha Petrov, 06:07

Рекомендации, Поиск и Путешествия

Прилетел в Лукку на ECIR в Италию, и первая вещь которую которую узнал - мою с соавторами (Крэйг Макдональд, у и Никола Тонелотто статью приняли на SIGIR (A* конференция, пожалуй главная конференция по поиску). По совпадению, SIGIR в этом году тоже в Италии.

Хороший финальный аккорд для моей диссертации; это был последний неопубликованный кусочек. Теперь каждая глава диссертации опубликована; саму диссертацию я тоже отправил рецензентам на днях.

🔥21🎉5

2.36K viewsSasha Petrov, 14:28

Рекомендации, Поиск и Путешествия

Препринт скоро, пока вот поделюсь Abstract'ом

🔥19👍6❤‍🔥1

2.64K viewsSasha Petrov, 14:43

Рекомендации, Поиск и Путешествия

ECIR в этом году проходит в церквях и часовнях. Сегодня презентовал статью в церкви. Очень необычно!

🔥16🙏6❤1

3.14K viewsSasha Petrov, 16:09

Рекомендации, Поиск и Путешествия

Best Paper Award на ECIR в этом году ушел к колегам по Университету Глазго (Manish Chandra, Debasis Ganguly, Iadh Ounis) за статью по подбопру количества примеров которые нужно давать LLM в промпте в in context learning.

Я статью еще не читал, но выглядит интересно и релевантно мой работе.

Iadh Ounis это кстати мой 2-й научный руководитель.

Ссылка на статью:
https://arxiv.org/abs/2403.06402

👍10

3.88K viewsSasha Petrov, 06:11

Рекомендации, Поиск и Путешествия

Добрался до офиса. Уже два месяца как занимаюсь ML-ем в поиске экскурсий и впечатлений. Надеюсь скоро будет чем поделиться с каналом :-)

👍41🔥18❤7

3.94K viewsSasha Petrov, edited 08:45

Рекомендации, Поиск и Путешествия

Вчера защитил диссертацию. Обычно в Великобритании после защиты рецензенты просят внести правки, но в моем случае я защитился без необходимости исправлять что-либо; так что можно считать что я теперь Dr. Petrov :-)

Диссертацией скоро поделюсь тут.

👏112🔥31❤20

4.14K viewsSasha Petrov, 09:26

Рекомендации, Поиск и Путешествия

Препринт моей коллаборации с Krishna Acharya и Juba Ziani, исследователями из Georgia Institute of Technology (USA) доступен на arxiv: https://arxiv.org/abs/2506.01910

Название: GLoSS: Generative Language Models with Semantic Search for Sequential Recommendation
Авторы: Krishna Acharya (Georgia Institute of Technology), Aleksandr V. Petrov (Tripadvisor), Juba Ziani (Georgia Institute of Technology)

Основная идея — вместо традиционного подхода, где рекомендательная система выучивает эмбеддинги айтемов (или как недавно стало популярно эмбеддинги разнообразных semantic ID), мы учим языковую модель генерировать поисковые запросы на основе истории пользователя, и затем извлекаем айтемы из поискового индекса.

В этом случае, языковая модель остается в своем родном "языковом" домене end2end, поэтому можно использовать всю мощь подхода pre-train/fine-tune.

Скажу сразу что это ранняя версия работы, и тут можно много что улучшать (например, поисковую модель мы используем "из коробки").

🔥20❤2🤔2🥱1

1.32K viewsSasha Petrov, 06:57

Рекомендации, Поиск и Путешествия

Несмотря на то что это ранняя версия работы, модель получает более высокие результаты по сравнению с другими недавними работами в домене, такими как TIGER или ActionPiece от Google, или известная модель P5.

Disclaimer — для большинства бейзлайнов чекпоинты недоступны, поэтому приходится верить тем цифрам которые опубликованы авторами. В этой версии мы сравниваемся с опубликованными результатами, но планируем более аккуратно сравниться с теми моделями, код и чекпоинты для которых доступны.

🔥3

1.23K viewsSasha Petrov, 07:03

Рекомендации, Поиск и Путешествия

В этом году, как и в прошлом я -- член программного коммитета конференции Practical ML, в направлении рекомендательных систем.

CFP уже опубликован. Вот информация от организаторов:
---
27 сентября пройдет конференция по прикладному машинному обучению от Яндекса — Practical ML Conf. В этом году на конференции будут представлены доклады по 6 трекам: CV, NLP, Speech, RecSys, MLOps, Data Science. CFP открыт до 23 июня, для подачи заявки перейдите по ссылке .

Что предлагаем для спикеров:
✅ПК конференции дадут советы по структуре и содержанию доклада
✅Прогоны материалов с тренером по публичным выступлениям и помощь с дизайном презентаций
✅Возможность понетворкать с другими спикерами и получить фидбэк по проекту
✅Промо докладов через каналы Яндекса до и после конференции
✅Возможность посетить PML Conf без отбора вместе с +1

❤7🔥3

2.33K viewsSasha Petrov, 09:23

Рекомендации, Поиск и Путешествия

Говорят что диссертации читают только научный руководитель и оппоненты. Но если вдруг моя диссертация окажется интересна кому-то еще, то теперь ее можно скачать с моего сайта.

https://asash.github.io/pdf/AleksandrPetrovThesis.pdf

🔥33👍2🤗1

1.43K viewsSasha Petrov, 19:23

Рекомендации, Поиск и Путешествия

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Рисерчер накидывает слои в сетку, пока не выбьет SOTA.

😁46❤2

1.17K viewsSasha Petrov, 17:40

Рекомендации, Поиск и Путешествия

Открою вам секрет. Очень простая моделька (я ее называю First Order Markov Chain), которая рекомендует следующий айтем просто на основе того сколько раз он был употреблен сразу предыдущего, это очень сильный бейзлайн для sequential recommendation. Например, на всеми (не) любимом датасете MovieLens-1M она получает NDCG больше чем простой SASRec и сравнимый с BERT4Rec. Этот же бейзлайн, на 5-core датасете Amazon Beauty получает лучшие результаты по метрикам ранживания чем репортят авторы новомодных TIGER, ActionPIece и прочих P5.

Второй очень сильный бейзлайн, который подходит для рекомендациями с повторами (например, музыкальные рекомендации) это Personalized Popularity Score (PPS), то есть просто делаем рекомендации на основе количества раз юзер уже взаимодействовал с данным айтемом. Традиционные метрики, типа NDCG очень сложно побить. Кстати, яндекс недавно выложил датасет с музыкальными рекомендациями; так что дарю идею: если рекомендовать на основе Personalized Popularity Score то почти наверняка вы сможете побить те базовые метрики которые яндекс там репортит для разных моделек (в том числе для SASRec).

Это не значит что модели типа SASRec и BERT4Rec бесполезны -- они обычно требуют большего количества интеракций для того чтобы начать реально хорошо работать, ну и если их правильно обучить, то могут выучить ортогональный сигнал, тот который сложно вытащить из First Order MC или PPS.

🔥45👍6✍3💯1

1.34K viewsSasha Petrov, edited 09:33

Рекомендации, Поиск и Путешествия

Sasha Petrov

Препринт моей коллаборации с Krishna Acharya и Juba Ziani, исследователями из Georgia Institute of Technology (USA) доступен на arxiv: https://arxiv.org/abs/2506.01910 Название: GLoSS: Generative Language Models with Semantic Search for Sequential Recommendation…

Хорошие новости — эту статью приняли на воркшоп OARS "Online and Adaptive Recommender Systems" на конференции KDD 2025.

Воспользуюсь моментом, чтобы обсудить воркшопы. Обычно считается, что воркшопы менее престижны, чем основной трек конференции, и большинство исследователей стараются публиковаться именно в основном треке. Однако на практике, если у вас нет цели получить tenure в университете или если вам не платят конкретно за публикации в основном треке, то публикация на воркшопе может быть ничем не хуже.

Например, на нашем любимом ACM RecSys некоторые воркшопы (такие как Large RecSys и Video RecSys) с моей точки зрения даже интереснее, чем основной трек. Программа воркшопов зачастую более сфокусированная, а шансы получить полезный фидбек не меньше — а иногда даже больше — чем в основном треке. Часто на воркшопах выделяется больше времени на доклад, чем на основной конференции.

Опубликоваться на воркшопе, как правило, значительно проще, чем в основном треке. Требования к бейзлайнам, научной новизне и другим критериям обычно ниже. Однако это вовсе не значит, что на воркшопах публикуют только слабые работы. Например, нашумевшая статья Monolith от TikTok была опубликована на воркшопе ORSUM. Среди моих собственных работ вторая по цитируемости (и, видимо, скоро первая) тоже была опубликована на воркшопе.

Отдельный хак: можно сначала опубликовать статью на воркшопе, получить фидбек от ревьюеров, а потом — доработав — отправить на крупную конференцию. Тот же RecSys, например, обычно разрешает расширенные версии воркшопных публикаций, особенно если воркшоп был non-archival (то есть формально его труды не публикуются).

Вкратце, вот список ситуаций, когда имеет смысл отправлять работу на воркшоп, а не в основной трек:

✅ Вы только начинаете заниматься ресерчем и еще не публиковались на крупных международных конференциях.

✅ У вас есть ранние результаты, которыми вы хотите поделиться с сообществом, но статья пока не дотягивает до полноценной научной публикации.

✅ Вы хотите “поставить флаг” — заявить о себе как об исследователе в определенной области.

✅ У вас скорее инженерная статья, в которой вы делитесь опытом внедрения или кастомизации моделей. Такие работы интересны сообществу, но им сложно пройти в основной трек из-за «недостатка научной новизны».

Воркшопы подходят с осторожностью, если:
⚠️ Вам нужны формальные научные публикации (например, для диссертации). Не все воркшопы публикуют труды, и не везде такие статьи проходят по формальным критериям.

Воркшопы не подходят, если:

❌ Вам нужны публикации на конференциях уровня A*/A по формальным причинам (например, грант покрывает поездки только на такие конференции).

В кратце, воркшопы, хороший способ представить работу и завести контакты.

🔥12👍6

1.24K viewsSasha Petrov, edited 08:49

Рекомендации, Поиск и Путешествия

Хроники хайпа

😁34

1.1K viewsSasha Petrov, 12:35

About

Blog

Apps

Platform