Рекомендации, Поиск и Путешествия
1.13K subscribers
84 photos
4 videos
1 file
49 links
Download Telegram
Еще немного фотографий с ACM RecSys 📸
На РекСисе оказалось много “маленьких сообществ”, с которыми я активно общался:
— соавторы статей,
— коллеги по университету,
— коллеги по работе,
— русскоязычные исследователи,
— ну и просто знакомые и друзья.

В итоге RecSys превратился для меня в неделю очень активного нетворкинга. Честно говоря, я сильно устал, но все равно не успел пообщаться со всеми, с кем хотел 🙂 Но оно того стоило!
11👍2
Поделюсь :-) я в этом запуске не участвовал, тк присоединился совсем недавно, но коллеги из моей команды внесли свой вклад.
👍2
Forwarded from Information Retriever
Теперь можно прямо в ChatGPT попросить музыкальные рекомендации от Spotify. Круто!

Здесь, на самом деле, сразу два интересных аспекта — и сами “разговорные” рекомендации (самое интересное направление рекомендаций в данный момент, if you ask me), и тот факт, что ChatGPT постепенно становится эдаким “единым” источником рекомендаций; кажется, еком-рекомендации они уже тоже подключили — как минимум, сделали интеграцию с Etsy и Shopify (ссылка).
🔥6
Wellness Week

На следующей неделе не буду работать – в Spotify будет Wellness Week. Wellness week — это фишка Spotify, по сути недельные каникулы для (почти) всех сотрудников компании; время, когда предполагается заниматься разными активностями, отключившись от рабочих дел. В целом, пока мне нравится work-life balance в компании, и Wellness Week — это точно хороший камешек на сторону “life” в work-life балансе.

Не знаю, специально ли Wellness Week выбрана посередине учебного года, но для меня это значит, что я отдохну и от работы, и от родительства одновременно – редкое сочетание в последние несколько лет. Планирую сходить на AI-workshop, сходить на мюзикл, доревьюить статьи на WSDM, ну и просто отдохнуть :)

Очень поддерживаю Spotify в таких начинаниях — это отличный способ заботиться о сотрудниках и поддерживать тот самый work-life balance. Теперь осталось продержаться эти выходные, чтобы начать отдыхать! 😉 Если пропаду из поля зрения – значит, мюзикл, нейронки и сон победили. Желаю всем продуктивной (или, наоборот, максимально расслабленной) следующей недели! 🎧😴
24👏7
Обзор статьи

DenseRec Revisiting Dense Content Embeddings for Sequential Transformer-based Recommendation


🔗 Ссылка: https://arxiv.org/pdf/2508.18442
👥 Авторы: Jan Malte Lichtenberg, Antonio De Candia, Matteo Ruffini (Albatross.ai; Jan и Matteo — выходцы из Amazon Music) 🗓 Где: EARL@RecSys 2025

🤔 Проблема

Трансформеры (вроде SASRec или новомодных HSTU) стали де-факто стандартом в рекомендательных систамах. Однако у них есть слабое место: они должны выучивать уникальный эмбеддинг для каждого айтема в каталоге.

- Это отлично работает для статичных каталогов.
- Это плохо работает для динамичных каталогов, где айтемы часто добавляются, и у нас много "холодных" стартов.
- Это также неэффективно для редких айтемов из "длинного хвоста".

Простое решение — использовать контентные эмбеддинги (например, взять представление айтема из текстовой модели по его метаданным). Но, как заявляют авторы, такие эмбеддинги работают хуже выученных (коллаборативных) для "теплых" айтемов, которые как раз и генерируют большую часть интеракций.

💡 Решение: DenseRec

Авторы предлагают использовать и контентные, и коллаборативные эмбеддинги одновременно.

При обучении: Для каждого айтема модель вероятностно выбирает, какой эмбеддинг использовать — контентный или коллаборативный. Таким образом, модель учится эффективно работать с обоими типами представлений.

При инференсе:
Для "теплых" айтемов — используются выученные коллаборативные эмбеддинги.
Для "холодных" айтемов — используются контентные эмбеддинги.

Плюсы

Метод модифицирует только слой эмбеддингов. Его можно легко интегрировать в любую существующую модель (авторы используют SASRec).

В статье показывают существенный прирост по метрикам на датасетах Amazon Reviews.
В личной беседе авторы рассказали, что метод хорошо работает и в продакшене.

🚀 Мое мнение

Я люблю такие методы — простое и элегантное решение, которое легко интегрируется в существующие пайплайны без существенного изменения архитектуры.

Так как статья воркшопная, глубина исследования не слишком большая (что простительно). Хотя, конечно, хотелось бы увидеть сравнение с конкурирующими методами, которые решают ту же проблему (например, с теми же SemanticID).

@Recsys_IR_Travel
👍20🔥74
Знакомый поделился фоткой с рандомного AI митапа в Германии.

Забавно, но парень внизу (с подписью popularity bias) тоже из Spotify research.
👍9
Коллеги опубликовали пост про использование Semantic ID в языковых моделях в Spotify.

https://research.atspotify.com/2025/11/teaching-large-language-models-to-speak-spotify-how-semantic-ids-enable

Эта работа была сделана до меня, но я сейчас работаю с Марко и Правином (авторы) в той же области. Надеюсь скоро поделиться результатами и своей работы в статьях и блог-постах.
🔥18👀2
Мама, меня по телевизору показывают :)
😁75
Forwarded from Information Retriever
Наткнулся на местечковый сайт (https://book.sv), на котором можно вбить последние 64 прочитанных книг и получить рекомендации для следующего прочтения.

Создатель сайта распарсил Goodreads, обучил улучшенный SASRec, поднял инференс на NVIDIA Triton. Отличный пример рекомендательного pet project'а.

На сайте есть секция "How it works", в которой автор подробно расписал, как делал модель — даже метрики приложил. А ещё очень приятно было обнаружить там упоминание нас с Сашей Петровым (@Recsys_IR_Travel). Ради такого статьи и пишем :)
👍17🔥84
Когда ты родитель.
8😁5🤝2🔥1
Но я все-таки переслушал ребенка :)
😁13🔥4
Хороший набор ссылок от Миши
1
Forwarded from Wazowski Recommends
Вместо итогов года, хочу поделиться моим списком лучших — самых значимых или просто понравившихся — статей, которые я прочитал за последние два года (про 2024 раньше не писал). В порядке прочтения.

Unified Embedding
Статья DeepMind о том, что можно использовать одну универснальную таблицу эмбеддингов для многих sparse фичей. Полезная практическая статья.
Обзоры в Рекомендательной и у Дани.

Actions Speak Louder than Words
Громкая статья от Meta. Первая показала, что можно обучать огромные модели для рекомендаций. Ввела HSTU и новое представление истории. Лично для меня это был первый намёк на то, что когда-нибудь мы сможем отказаться от всех ручных фичей.
Обзоры в Рекомендательной и у Даши.

Revisiting Neural Retrieval on Accelerators
Meta показала, что retrieval можно делать на GPU без индекса. Также вводят для второй стадии модель mixture-of-logits (MoL), которая является более выразительной, но всё ещё относительно дешевой в вычислениях функцией. Для меня это была первая статья, показавшая, что retrieval можно делать лучше, чем всем привычным HNSW. И я сам потом работал над этим подходом. Обзоры у меня и у Саши.
А в последующей статье показали, что можно всё-таки и с индексами и без GPU напрямую искать топ по MoL. Обзор в Рекомендательной.

Серия Semantic IDs от DeepMind
- Generative Retrieval (обзоры у Саши и в Рекомендательной)
- Better Generalization (обзор у Дани)
- PLUM (обзоры у Кирилла и в Рекомендательной)
Номер 1 по значимости, самый существенный сдвиг парадигмы последнего времени. Токенизатор рекомендательного мира, представляющий контентную информацию об объектах в виде кодов из конечного словаря, полученного из иерархической кластеризации (RQ-VAE). Использование этой токенизации для нового метода retrieval, для более эффективных эмбеддингов в ранжировании и для связи с LLM. Уже повлияло на всю индустрию. Must read.

Streaming Vector Quantization Retriever
Одна вещь, которая меня больше всего смущала в Semantic IDs, — что RQ-VAE обучается отдельно, не end-to-end совместно с рекомендательной задачей. В этой статье ByteDance как раз исправили это. Правда, тут не иерархический RQ-VAE, а одноуровневый VQ-VAE. Зато real-time.
Обзор в Рекомендательной.

Stop Regressing
Единственная статья не про рекомендации, хотя и в рекомендациях тоже может быть полезной. DeepMind о том, как в задачах регресии (на примере value function в RL) моделирование распределения таргета (вместо точечной оценки) с помощью Histogram Loss улучшает масштабируемость. Про сам Histogram Loss можно прочитать и в оригинальной статье. Для меня это теперь достаточно близкая тема.
Про статью я узнал из выступления Дмитрия Бабаева на ICML Recap (а также в ML Underhood).

Серия OneRec от Kuaishou
- OneRec
- OneRec Technical Report
- OneRec-V2 Technical Report
- OneRec-Think
(и ещё какое-то количество статей, но я, признаюсь, даже последние две ещё только собираюсь прочитать)
Не называю это номером 1 по значимости только лишь потому, что оно во многом является продолжением Semantic IDs. Но всё же доводит их до того, что многие уже называют революцией — первая индустриальная end-to-end рекомендательная система, без нескольких стадий ранжирования. Вот примерно так будут выглядеть системы нового поколения. Must read.
Обзоры у Саши, в Рекомендательной и у Коли (1, 2, 3).

Correcting the LogQ Correction
Приз моей личной симпатии, потому что
1) улучшили знаменитую технику Гугла LogQ-коррекции,
2) я сам какое-то время думал на эту тему,
3) я рад за Кирилла и команду 😉
Обзор у автора.


На этом всё. Надеюсь, это будет кому-нибудь полезно. Мне самому было бы очень полезно, если бы авторы дружественных каналов позаимствовали такой формат! (только не «лучшие посты года»...)
3🔥3👍1