Рекомендательная [RecSys Channel]
2.24K subscribers
107 photos
3 videos
63 links
Канал про рекомендательные системы от ml-специалистов Яндекса. Делимся опытом, обсуждаем новые подходы и интересные статьи.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
Эти фото сделаны в городе Ессентуки Сингапуре, где завтра начнётся ICLR 2025 — одна из крупнейших конференций в области машинного обучения. ML-инженеры Яндекса уже отправились в центр событий, и скоро канал наполнится новостями с мероприятия!
22❤‍🔥7🔥6🤯1
Интересные статьи двух первых дней ICLR 2025

Конференция в разгаре — статей по рекомендательным системам становится всё больше! Делимся избранным и ждём комментариев: какие идеи показались интересными вам.

ContextGNN: Beyond Two-Tower Recommendation Systems
В статье описано, как объединить попарный скор и двухбашенный подход в одной модели, избежав недостатков каждого решения и не делая двухстадийное ранжирование. Для этого используют разные модели для объектов, с которыми пользователь взаимодействовал, и остальных, прогнозируя пожелания пользователя в данный момент.

Preference Diffusion for Recommendation
Авторы из TikTok-ток развивают идеи диффузионных моделей для рекомендаций. Базово решают задачу предсказания следующей покупки или взаимодействия пользователя, пытаясь диффузионками сгенерировать (!) эмбеддинг товара. Недостаток — решение обучается и применяется только на пользователях, сделавших хотя бы 10 покупок, и автор признала, что в проде такое не взлетит.

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents
Статья о персонализации в контексте LLM. Первая идея: точность модели существенно растёт, если использовать весь предыдущий контекст пользователя (диалога). Вторая — в целом, пользовательские фичи можно собирать поумнее: сначала суммиризировать, потом дополнять суммаризацию релевантными топиками из базы, дальше использовать RL-подход для отчистки базы. Это, кстати, применимо не только к ассистенту, но и в целом к другим проектам персонализации или рекомендаций.

SLMRec: Distilling Large Language Models into Small for Sequential Recommendation
Авторы хотят прикрутить LLM к рекомендациям — посмотрели на существующие алгоритмы и задались разумным вопросом: «откуда зафриженные LLM могут узнать об айдшниках в промпте?» и «точно ли все параметры LLM так уж нужны?». В итоге взяли часть слоёв LLM (13% параметров осталось), предложили дистилляцию — то есть дообучают кусок LLM под задачу ранжирования и делают так, чтобы эмбеды совпадали у дистиллируемой части и учителя. Автор говорит, что решение применяется в 6–8 раз быстрее, чем LLM до выкидывания слоёв.

@RecSysChannel

Интересные постеры заметили Василий Астахов, Александр Воронцов, Алёна Фомина и Маргарита Мишустина

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍8🔥1
Кадры из самой гущи событий. Можно оценить масштабы главного холла, где выступают с докладами, своими глазами увидеть очередь к хайповому стенду и убедиться: Сингапур хорош как при свете дня, так и под покровом ночи.

@RecSysChannel

#YaICLR
7👍2👀1
Интересные статьи третьего дня ICLR 2025

Продолжаем рассказывать о работах на ICLR 2025 по теме рекомендательных систем. Собрали несколько релевантных постеров и коротко пересказали идеи: от симуляции пользователей для обучения LLM до новых бенчмарков на сложные инструкции для ранжирования.

Language Representations Can be What Recommenders Need: Findings and Potentials

Авторы берут граф взаимодействий пользователей и айтемов, с помощью LLM получают вектора для айтемов и пользователей (усредняя эмбеддинги положительных взаимодействий с айтемами). Затем идут «вглубь» до какого-то момента по графу — и получают итоговые вектора.

Дальше нужно откуда-то семплировать негативы: в исследовании просто взяли случайные строки из датасета, с которыми пользователь не взаимодействовал (автор сказал, так поступили, потому что не хватило explicit-фидбэка).

Интересный момент про правый нижний угол постера: промпты для Movielens генерировали через ChatGPT, а потом вручную валидировали (поскольку ChatGPT при генерации мог использовать таргетную информацию).

При этом скоры получились подозрительно высокие — возможно, результат слегка завышен.

Ещё автор сказал, что некоторые компании уже видят профит от подхода, но деталей он не раскрыл.

Bridging Jensen Gap for Max-Min Group Fairness Optimization in Recommendation

Авторы делят датасет на группы (в их случае — жанры фильмов), считают внутри каждой группы лосс и на следующей итерации дают больший вес группе с худшим лоссом.

CoS: Enhancing Personalization and Mitigating Bias with Context Steering

Статья о том, как добавить контекст к выводу LLM без обучения. При этом можно управлять уровнем контекстности (параметром λ). Суть метода — измерять влияние контекста с точки зрения вероятности предсказания токена (с контекстом и без него).

PersonalLLM: Tailoring LLMs to Individual Preferences

Авторы симулировали пользователей, создавая их предпочтения путём усреднения различных reward-моделей, а затем обучили LLM на этих синтетических данных. Деталей обучения не приводят, но на их бенчмарке модель показывает хорошие результаты. Для новых пользователей ищут похожих на основе language space и строят ответы, опираясь на поведение тех, чьи данные были в обучении.

Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models

Исследователи жалуются, что современные модели ранжирования плохо понимают сложные инструкции вроде: «найди статью на турецком в 5 абзацев, написанную простым языком» — по этому поводу собрали бенчмарк.

Рассматривали следующие параметры: пользователь (Audience), поисковые запросы или темы (Keyword), формат отображения (Format), длина ответа (Length), язык (Language), источник информации (Source).

Качество работы моделей оценивали с помощью двух метрик:

- Strict Instruction Compliance Ratio (SICR): бинарная метрика, которая проверяет, что при явном указании условия (например, «документ только на казахском») скор растёт относительно безусловного режима, а при обратном условии («всё кроме казахского») — падает.

- Weighted Instruction Sensitivity Evaluation (WISE): версия метрики, учитывающая изменения позиций в ранжировании.

Лучше всех с задачей справился GPT-4o.

@RecSysChannel

Интересные работы заметили Маргарита Мишустина, Эльдар Ганбаров, Алёна Фомина, Алексей Степанов

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Завтра — последний день ICLR 2025 в Сингапуре

Наши ML-инженеры уже увидели большую часть докладов и постеров на тему рекомендательных систем — впереди новые подборки потенциально полезных работ. А пока напоминаем, что интересного мы успели опубликовать за это время:

- Подборка статей двух первых дней конференции
- Фоторепортаж для тех, кто хочет проникнуться вайбом ICLR
- Ещё немного фантастических видов Сингапура
- Интересные статьи третьего дня ICLR

Желаем участникам отличного окончания конференции, а всем остальным — полезного чтения!

Больше разборов, интересных постеров, фото и видео с ICLR вы найдёте в наших других каналах: @timeforcv, @MLunderhood, @stuffyNLP, @speechinfo.

@RecSysChannel

#YaICLR
👍51🔥1
SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation

Сегодня разбираем статью от исследователей Rutgers University и Ant Group, представленную на ICLR 2025. Авторы предлагают альтернативу тяжёлым LLM в рекомендательных системах. Они доказывают, что для sequential recommendation достаточно компактных моделей, если правильно «дистиллировать» знания из больших LLM.

В статье рассматриваются два подхода интеграции LLM в рекомендательные системы:

Генеративные методы (G-LLMRec): Модель предсказывает следующий товар как «следующий токен» в последовательности (аналогично генерации текста). Примеры: P5, LLaRa.

Методы на основе эмбеддингов (E-LLMRec): LLM используется как экстрактор признаков. Последний скрытый слой модели преобразуется в вектор пользователя, который сравнивается с векторами товаров через скалярное произведение. SLMRec относится ко второму типу.

Авторы применяют LLM (говорят о LLaMa-7B) для получения «учителя», а затем дистиллируют его знания в компактную модель через выравнивание промежуточных представлений.

Архитектура и подход

— Используют технику knowledge distillation: большая модель (LLaMa-7B) выступает «учителем», а компактная (в 8 раз меньше) — «учеником».

— Обнаружили, что 75% слоёв в LLM избыточны для рекомендательных задач. Удаление лишних слоёв почти не влияет на качество.

— Вводят тройной механизм переноса знаний между учеником и учителем: выравнивание направлений эмбеддингов (через cosine similarity), регуляризация норм векторов и многоуровневый надзор за скрытыми состояниями. Надзор вкратце такой: слои группируются в блоки, а на выходах каждого блока добавляются «адаптеры», которые проецируют скрытые состояния ученика в пространство учителя. Ученик учится предсказывать выходы всех блоков одновременно, а не только финальный слой.

— Объединяют слои модели в блоки (по 4–8 слоев) для групповой дистилляции — так ученик учится воспроизводить иерархическое представление данных.

— Модель обучается только на позитивных взаимодействиях.

Ключевые фишки

— Эффективность: SLMREC требует всего 13% параметров оригинальной LLM, ускоряя обучение в 6,6 раза, а инференс — в 8 раз.

— Универсальность: метод совместим с другими техниками оптимизации — квантизацией и прунингом.

— Теоретическое обоснование: авторы математически доказали, что многослойные трансформеры избыточны для задач рекомендаций, и их можно заменить оптимизацией одного шага.

Эксперименты на данных Amazon (одежда, фильмы, музыка, спорт) показали, что SLMREC не только догоняет LLM по метрикам (HR@10, NDCG), но иногда даже превосходит — вероятно, за счёт снижения шума в глубоких слоях.

Спорные моменты

— Неясно, как модель адаптируется к cold start — авторы используют предобученные эмбеддинги, но не проверяют сценарий с новыми пользователями или товарами.

— Как именно выбирались слои для удаления? В статье сказано: «экспериментально обнаружена избыточность», но нет чётких критериев. Например, могла быть использована простая эвристика вроде «среднее значение активаций», что не гарантирует оптимальности.

— Метод тестировался только на Amazon-датасетах (одежда, фильмы), где плотность взаимодействий выше, чем в реальных соцсетях. В системах с миллиардами пользователей и «длинными хвостами» нишевого контента (например, TikTok) эффективность SLMREC под вопросом.

— Хотя инференс быстрее в 8 раз, сама дистилляция требует обучения как учителя (LLaMA-7B), так и ученика.

Выводы

Работа предлагает практичный компромисс для продакшена. Однако остаётся вопрос: можно ли масштабировать подход до экосистем с миллиардами айтемов, где даже 1B параметров — уже много? Авторы обещают исследовать few-shot-обучение в будущем.

@RecSysChannel
Обзор подготовил Елисей Смирнов

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍2
Learnable Item Tokenization for Generative Recommendation

Тренд на семантические ID развивается уже более полугода. Начало положила статья TIGER, в которой для генеративного ретривала контентные эмбеддинги айтемов квантовали с помощью RQ-VAE. Статья вышла ещё в 2023 году, но популярность к подходу начала приходить только после конференции RecSys в 2024-м.

В сегодняшней статье авторы предлагают модификацию алгоритма квантизации — Learnable Item Tokenization for Generative Recommendation (LETTER). Новый подход основан на трёх идеях:

1. сохранение иерархичности семантической квантизации;
2. контрастивное сближение квантизаций и коллаборативных эмбеддингов (полученных через предобученный SASRec или LightGCN);
3. сглаживание распределений айтемов по центроидам кодбуков.

Еще одно отличие от TIGER — для того чтобы генерировать валидные коды, используются префиксные деревья по аналогии со статьей How to Index Item IDs for Recommendation Foundation Models.

Отдельное спасибо авторам хочется выразить за подробный ablation study числа кодов в иерархии квантизации: они отмечают, что увеличение числа кодов не всегда улучшает работу модели из-за накопления ошибки при авторегрессивном инференсе без teacher forcing. Очень полезны и данные о числах эмбеддингов в кодбуках.

Несмотря на большой вклад статьи в развитие семантической квантизации, у этой техники всё ещё остаются нерешенные проблемы. Для его реализации нужны:

1. предобученная контентная модель (в их случае это LLaMA-7B);
2. предобученная коллаборативная модель (например, SASRec или LightGCN);
3. другой подход к экспериментам — сейчас они, как правило, проводятся на открытых датасетах без time-split, из-за этого применимость метода в индустрии пока под вопросом.

@RecSysChannel
Разбор подготовил Сергей Макеев
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4🔥2
Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems

Сейчас в RecSys много говорят о семантических ID для кодирования айтемов. У нас в «Рекомендательной» уже были материалы о разных алгоритмах с этой техникой:

Recommender Systems with Generative Retrieval
From Features to Transformers: Redefining Ranking for Scalable Impact
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
Learnable Item Tokenization for Generative Recommendation

Но также вспомним классические методы кодирования айтемов. Один из популярных и очень мощных на практике — Multisize Unified Embeddings. Он предоставляет способ кодирования набора категориальных признаков произвольной кардинальности в единый вектор.

Как это работает.

Пусть дан набор айтемов D={x₁,…,x_N}. Каждый из них описан T категориальными признаками x = [v₁,…,v_T], где vₜ∈Vₜ.

Классические подходы к кодированию

1. Collisionless (без коллизий)
– Для каждого признака t и каждого его значения vₜ хранится отдельный вектор-эмбеддинг.
– Плюс: нет коллизий.
– Минус: память растёт пропорционально сумме кардинальностей всех Vₜ.

2. Hash Table (feature hashing)
– Каждое значение одного признака хешируется в таблицу размера M.
– Плюс: фиксированный объём памяти, независимо от числа значений.
– Минус: внутрипризнаковые коллизии искажают градиенты и ухудшают качество.

Подход Unified Table

Авторы предлагают объединить всё в одну общую хеш-таблицу размера M, но использовать для каждого признака свою хеш-функцию hₜ:
– Плюс: только одна таблица, всего два гиперпараметра (M и параметры хеша).
– Минус: появляются межпризнаковые коллизии, когда значения разных признаков попадают в один и тот же бакет.

Полученные эмбеддинги всех признаков конкатенируют, а затем подают в последующую нейросеть.

Теоретический анализ из статьи показывает:
– Межпризнаковые коллизии (случай t≠s, когда hₜ(v) и hₛ(u) уходят в один бакет) нейтрализуются последующей нейросетью: для каждой группы модель учит почти ортогональные проекции. Такие коллизии не влияют на качество.
– Внутрипризнаковые коллизии (разные v₁,v₂∈Vₜ хешируются в один бакет) создают устойчивое смещение градиента и ухудшают качество решаемой задачи.

Улучшение: Multisize Unified Table

Для каждого признака t вместо одного хеша используют сразу k независимых хеш-функций hₜ¹…hₜᵏ→[1…M].
– «Плохие» внутрипризнаковые коллизии почти исчезают;
– Объём памяти остаётся таким же, как в Unified Table.

Итог

Multisize Unified Embeddings дают качество, сопоставимое с отдельными таблицами эмбеддингов, но требуют в разы меньше памяти и отлично масштабируются на web-scale.

@RecSysChannel
Разбор подготовил Артём Матвеев
Please open Telegram to view this post
VIEW IN TELEGRAM
👍137🙏5
Что делают в мире: LLM & RecSys. Часть 2/2

В одном из предыдущих постов мы обсуждали, что LLM оказывает значительное влияние на RecSys, и это проявляется не только в переносе архитектурных решений, но и в непосредственном применении языковых моделей. Сегодня обсудим несколько примечательных статей, вышедших в последние месяцы и демонстрирующих, как применение языковых моделей способно улучшать качество рекомендаций.

Real-time Ad retrieval via LLM-generative Commercial Intention for Sponsored Search Advertisin

Статья от Tencent, в которой LLM используются для кандидатогенерации в рекламе. Исследования последних лет показывали эффективность LLM в этом направлении, но подходы сводились к следующему: в офлайне строятся индексы документов, а в онлайне на основе запроса LLM генерирует подходящий индекс. Такой подход концептуально неплох, но имеет ряд недостатков с точки зрения как качества, так и эффективности инференса. Tencenet же делают следующее: в офлайне с помощью LLM генерируют «коммерческие предложения» (CI) для рекламного корпуса, строят динамический индекс формата {CI: Рекламные объявления} так, что одному CI ставится в соответствие сразу пачка объявлений. В онлайне же — отдельной затюненной LLM генерирует CI для запроса и по соответствующему CI достаёт объявления-кандидаты из офлайн-хранилища. Такой формат хранения ключей позволяет значительно лучше утилизировать способности LLM к обработке, внезапно, естественного языка и отлично себя показывает на онлайн-метриках: на различных поверхностях прирост GMV составил от 5,02% до 6,37%.

The Blessing of Reasoning: LLM-Based Contrastive Explanations in Black-Box Recommender Systems

Гигантская статья с участием небезызвестной Minmin Chen. Представим, что нам удалось построить хорошую рекомендательную модель, которая прекрасно работает в продакшене. Но как для самих исследователей, так и для внешнего мира (и внутренних заказчиков) может быть интересно и важно, почему система приняла именно такое решение. Это банально интересно, позволяет лучше понять аудиторию, да и просто это отличные вводные для улучшений в будущем. К сожалению, ответить на вопрос почему крайне сложно, особенно если модель нейросетевая — сложность архитектуры просто не позволяет связать входы и выходы модели и составить понятную интерпретацию. Но буквально по соседству продолжается бурное развитие LLM — с глубоким знанием о мире и потрясающей способностью к рассуждению. Мы можем делегировать reasoning-моделям задачу «понимания» пользователя и поиск наиболее важных точек соприкосновения между ним и товаром-кандидатом, чтобы получить обоснование релевантности. Авторы показывают, что помимо хорошей объясняющей способности, добавление в рекомендательную систему знания LLM о мире также позволяет добиться лучшего качества на публичных датасетах.

LLM-Alignment Live-Streaming Recommendation

Статья от Kuaishou, где авторы пытаются объединить RecSys, LLM, мультимодальность — и всё это упаковать в реалтаймовый сценарий. Сначала происходит подготовка языковой модели для стриминга: используют 100B модель для разметки 30-секундных видеофрагметов, на основе которых тюнят 7B-модель для быстрого инференса, чтобы в реалтайме строить высокоинформативные эмбеддинги, которые далее передаются рекомендательной модели. LLM-эмбеддинги выравнивают с рекомендательными id-based-эмбеддингами с помощью отдельного гейтинг-механизма, чтобы получить итоговое представление, связывающее рекомендательный сигнал автора, пользователя и LLM-знание о происходящем на стриме. Полученный единый эмбеддинг переводят в Semantic ID и используют в итоговой модели ранжирования. A/B-эксперимент показал рост времени просмотра на двух стриминговых платформах на 0,07% и 0,17%, число лайков на 2,5% и 2,8% соответственно на стадии ранжирования. При этом особенно сильный рост числа показов наблюдается для контент-мейкеров с хвоста распределения, с числом подписчиков до порядка 100~1000.

@RecSysChannel
Обзор подготовил Руслан Кулиев
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍42