ZDF (один из крупнейших броадкастеров в Германии) рассказывает как они используют наши модельки для того чтобы уменьшить Popularity Bias (На 5:15 прямая отсылка к нашей статье как источник вдохновения).
Одна из проблем академического рисерча заключается в том что он не всегда напрямую связан с продакшеном, поэтому я всегда кайфую когда кто-то использует наши результаты в проде и публикует результаты A/B тестов.
https://youtu.be/Ar7cz4c80s4?si=UL8Ubd4rp1nBTBhJ&t=315
Одна из проблем академического рисерча заключается в том что он не всегда напрямую связан с продакшеном, поэтому я всегда кайфую когда кто-то использует наши результаты в проде и публикует результаты A/B тестов.
https://youtu.be/Ar7cz4c80s4?si=UL8Ubd4rp1nBTBhJ&t=315
YouTube
Enhancing Recommendation Quality of the SASRec Model by Mitigating Popularity Bias
by Venkata Harshit Koneru (ZDF), Xenija Neufeld (Accso – Accelerated Solutions GmbH), Sebastian Loth (ZDF) and Andreas Grün (ZDF)
Abstract:
ZDF is a Public Service Media (PSM) broadcaster in Germany that uses recommender systems on its streaming service…
Abstract:
ZDF is a Public Service Media (PSM) broadcaster in Germany that uses recommender systems on its streaming service…
🔥12❤1
Forwarded from ML — это ОК
🎤После стольких лет (шести!) на ридинг-группе наконец-то будет полезный доклад. 20 марта Дарья Тихонович, наша гостья из МТС, представит библиотеку RecTools. Недавно библиотека получила большое обновление, в котором популярные рекомендательные трансформеры прокачаны до уровня SOTA-статей.
SASRec можно обучать из коробки в парадигме fit/recommend, а можно кастомизировать так, что даже Саша Петров не узнает. Приходите послушать Дарью в 18:00.
Зум: ссылка
Номер: 777 282 2791
Код: 1
SASRec можно обучать из коробки в парадигме fit/recommend, а можно кастомизировать так, что даже Саша Петров не узнает. Приходите послушать Дарью в 18:00.
Зум: ссылка
Номер: 777 282 2791
Код: 1
🔥19😁9
Сегодня начинаю работу в индустрии. Угадаете компанию ? Подсказка в названии канала 😉
UPD: Угадали.
Буду пилить рекомендашки и поиск в TripAdvisor, а конкретнее в Viator.
UPD: Угадали.
Буду пилить рекомендашки и поиск в TripAdvisor, а конкретнее в Viator.
🔥24👏9❤2
Netflix опубликовали интересный блогпост:
Foundation Model for Personalized Recommendation
(https://netflixtechblog.medium.com/foundation-model-for-personalized-recommendation-1a0bd8e02d39)
Основная идея – в Netflix много разных рекомендательных алгоритмов (например, «Continue Watching» или «Top Picks for You»). Авторы предлагают вместо того, чтобы обучать модель с нуля для каждого отдельного алгоритма, сначала обучить большую поведенческую модель, а потом уже файнтюнить её под конкретные задачи. Несмотря на то, что идея в целом не новая (я сам работал над похожим подходом в больших компаниях), в этой статье интересны детали.
Авторы описывают подход на основе трансформеров (аналогично SASRec), но с большим количеством улучшений:
Incremental Training. Вместо того, чтобы переобучать модель с нуля, авторы переиспользуют веса «вчерашней» модели. Эмбеддинги новых айтемов предлагают инициализировать как взвешенную сумму уже существующих похожих айтемов, но говорят, что способ инициализации весов не критичен.
- Метаинформация. Учат отдельные эмбеддинги для жанров, тональности, сюжетных линий, а затем конкатенируют их и смешивают с обученным эмбеддингом айтемов через специальный «mixing layer». Он определяет, как именно сочетать контентные и коллаборативные эмбеддинги в зависимости от того, насколько «старый» айтем.
- Токены – это не только сами айтемы, но и разные признаки самого действия (длительность просмотра, локаль, тип устройства), а также признаки айтемов (жанр, страна).
- Большинство токенов – категориальные фичи, но некоторые требуют тщательной обработки. Например, токены, относящиеся ко времени, нужно аккуратно парсить, чтобы использовать одновременно относительное и абсолютное время.
- Токены делятся на «Request-Time Features» (доступные во время интеракции, например, тип устройства) и «Post-Action Features» (например, длительность просмотра). Их смешивают вместе для получения наилучшего результата.
- Модель предсказывает не 1 токен вперёд, а сразу N токенов; это помогает лучше улавливать длинные зависимости.
- Прежде чем предсказать сам айтем, модель сначала предсказывает его признаки (жанр, язык и т.д.). Это позволяет сузить пространство выбора и делает модель более устойчивой (с моей точки зрения, это чем-то похоже на «reasoning»).
- Авторы рассуждают о том, чтобы мёржить частые токены с помощью BPE, но я не до конца понял, применяют они это на практике или нет.
- Так как токенов много и описан каждый экшен, используются механизмы работы с длинными последовательностями (sparse attention) и sliding window для эффективного использования всех доступных данных.
- Size Matters – Больше параметров модели приводит к лучшим результатам. Однако улучшения нелинейны; судя по приведённой картинке, рост логарифмический. Тут нужно учесть, что у Netflix практически бесконечное количество данных, и на меньших датасетах совершенно не факт, что тренд сохранится.
В целом блогпост мне понравился. К сожалению, не хватает большого количества деталей и не очевидно, насколько каждая описанная идея влияет на финальный результат, но это и не научная статья, чтобы приводить подобные детали. Многие идеи уже были известны, но классно, что Netflix собрали их в едином решении (опять же, интересно именно то, что используют большие компании в продакшене).
—
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
Foundation Model for Personalized Recommendation
(https://netflixtechblog.medium.com/foundation-model-for-personalized-recommendation-1a0bd8e02d39)
Основная идея – в Netflix много разных рекомендательных алгоритмов (например, «Continue Watching» или «Top Picks for You»). Авторы предлагают вместо того, чтобы обучать модель с нуля для каждого отдельного алгоритма, сначала обучить большую поведенческую модель, а потом уже файнтюнить её под конкретные задачи. Несмотря на то, что идея в целом не новая (я сам работал над похожим подходом в больших компаниях), в этой статье интересны детали.
Авторы описывают подход на основе трансформеров (аналогично SASRec), но с большим количеством улучшений:
Incremental Training. Вместо того, чтобы переобучать модель с нуля, авторы переиспользуют веса «вчерашней» модели. Эмбеддинги новых айтемов предлагают инициализировать как взвешенную сумму уже существующих похожих айтемов, но говорят, что способ инициализации весов не критичен.
- Метаинформация. Учат отдельные эмбеддинги для жанров, тональности, сюжетных линий, а затем конкатенируют их и смешивают с обученным эмбеддингом айтемов через специальный «mixing layer». Он определяет, как именно сочетать контентные и коллаборативные эмбеддинги в зависимости от того, насколько «старый» айтем.
- Токены – это не только сами айтемы, но и разные признаки самого действия (длительность просмотра, локаль, тип устройства), а также признаки айтемов (жанр, страна).
- Большинство токенов – категориальные фичи, но некоторые требуют тщательной обработки. Например, токены, относящиеся ко времени, нужно аккуратно парсить, чтобы использовать одновременно относительное и абсолютное время.
- Токены делятся на «Request-Time Features» (доступные во время интеракции, например, тип устройства) и «Post-Action Features» (например, длительность просмотра). Их смешивают вместе для получения наилучшего результата.
- Модель предсказывает не 1 токен вперёд, а сразу N токенов; это помогает лучше улавливать длинные зависимости.
- Прежде чем предсказать сам айтем, модель сначала предсказывает его признаки (жанр, язык и т.д.). Это позволяет сузить пространство выбора и делает модель более устойчивой (с моей точки зрения, это чем-то похоже на «reasoning»).
- Авторы рассуждают о том, чтобы мёржить частые токены с помощью BPE, но я не до конца понял, применяют они это на практике или нет.
- Так как токенов много и описан каждый экшен, используются механизмы работы с длинными последовательностями (sparse attention) и sliding window для эффективного использования всех доступных данных.
- Size Matters – Больше параметров модели приводит к лучшим результатам. Однако улучшения нелинейны; судя по приведённой картинке, рост логарифмический. Тут нужно учесть, что у Netflix практически бесконечное количество данных, и на меньших датасетах совершенно не факт, что тренд сохранится.
В целом блогпост мне понравился. К сожалению, не хватает большого количества деталей и не очевидно, насколько каждая описанная идея влияет на финальный результат, но это и не научная статья, чтобы приводить подобные детали. Многие идеи уже были известны, но классно, что Netflix собрали их в едином решении (опять же, интересно именно то, что используют большие компании в продакшене).
—
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
❤19🔥3
А вот и запись доклада от @blondered про трансформеры в RecTools; с приличным количеством ссылок на мой research 🙂
Forwarded from ML — это ОК
Media is too big
VIEW IN TELEGRAM
🎥Запись ридинг-группы от 20 марта 2025 года. Дарья Тихонович рассказала про библиотеку RecTools.
👍8🔥1
Кирилл тут нашел запись keynote Ed Chi на LargeRecsys+VideoRecsys воркшопе. Я это выступление слушал на РекСисе вживую и мне тоже оно зашло, но мне в первую очередь понравилось не рассказ про Semantic ID, а идея про "великое объединение". Смысл идеи в том что поиск, персональный поиск, рекомендации и реклама это одно и тоже, и в целом нет смысла делать отдельные модели для каждой из этих задач. Такое объединение это явно большой тренд в РекСисе; на эту же тему были доклады от Netflix и Spotify на основном треке конференции, и классный доклад от spotify на трэке про генеративные рекомендательные системы. Я в общем с этой идеей согласен; мне кажется что большой разницы между поиском и рекомендациями нету.
Кстати, если вы еще не подписаны на Кирилла, то подпишитесь, он там интересное постит.
Кстати, если вы еще не подписаны на Кирилла, то подпишитесь, он там интересное постит.
❤3💯1
Forwarded from Information Retriever
Видеозапись воркшопа LargeRecsys x VideoRecSys c RecSys 2024.
Оказывается, на ютуб уже выложили часть выступлений с воркшопа LargeRecsys x VideoRecSys!
В том числе выложили и выступление от Ed Chi, с которого начался весь хайп семантических айдишников. Я в день самого выступления уже писал краткий tdlr, но советую всё равно его посмотреть. Там будет и увлекательный экскурс в историю рекомендаций и генеративных моделей, и рассказ про связь рексистем с распределением Больцмана, и демка Project Astra. А ещё, они не все свои наработки по семантическим айдишникам опубликовали :)
Также на канале доступно выступление от Derek Cheng (с наработками от той же гугловской рекомендательной группы), в котором мимолётно упоминаются DCN-v3 и DCN-v4, а также есть рассказы про HSTU и про инференс рекомендательных нейросетей.
Надо смотреть! Ссылка на весь плейлист.
Если интересно получить больше контекста, можно почитать:
* пост про Ed Chi
* мои заметки по докладу про ранжирование в Ютубе с прошлой итерации этого воркшопа
* серию постов про RecSys 2024
Оказывается, на ютуб уже выложили часть выступлений с воркшопа LargeRecsys x VideoRecSys!
В том числе выложили и выступление от Ed Chi, с которого начался весь хайп семантических айдишников. Я в день самого выступления уже писал краткий tdlr, но советую всё равно его посмотреть. Там будет и увлекательный экскурс в историю рекомендаций и генеративных моделей, и рассказ про связь рексистем с распределением Больцмана, и демка Project Astra. А ещё, они не все свои наработки по семантическим айдишникам опубликовали :)
Также на канале доступно выступление от Derek Cheng (с наработками от той же гугловской рекомендательной группы), в котором мимолётно упоминаются DCN-v3 и DCN-v4, а также есть рассказы про HSTU и про инференс рекомендательных нейросетей.
Надо смотреть! Ссылка на весь плейлист.
Если интересно получить больше контекста, можно почитать:
* пост про Ed Chi
* мои заметки по докладу про ранжирование в Ютубе с прошлой итерации этого воркшопа
* серию постов про RecSys 2024
YouTube
Keynote: The Future of Discovery Assistance - Ed Chi | VideoRecSys Workshop | RecSys 2024
"The Future of Discovery Assistance" Keynote Talk by Ed Chi (Google DeepMind,) at the Large-Scale Video Recommender Systems Workshop (VideoRecSys) 2024.
It was organized by: Khushhall Chandra Mahajan, Amey Porobo Dharwadker, Saurabh Gupta and Brad Schumitsch.…
It was organized by: Khushhall Chandra Mahajan, Amey Porobo Dharwadker, Saurabh Gupta and Brad Schumitsch.…
👍5
https://link.springer.com/chapter/10.1007/978-3-031-88714-7_4
Моя статья с со-авторами из Amazon наконец опубликована! Основная идея - трансформеры не очень хорошо подходят для рекомендаций повторяющихся интеракций, поэтому им надо немного в этом помочь.
Полный обзор напишу на днях, а пока можно почитать самим:)
Также буду презентовать эту статью на ECIR 8го апреля. Если будете на ECIR - приходите послушать)
Моя статья с со-авторами из Amazon наконец опубликована! Основная идея - трансформеры не очень хорошо подходят для рекомендаций повторяющихся интеракций, поэтому им надо немного в этом помочь.
Полный обзор напишу на днях, а пока можно почитать самим:)
Также буду презентовать эту статью на ECIR 8го апреля. Если будете на ECIR - приходите послушать)
SpringerLink
CountNet: Utilising Repetition Counts in Sequential Recommendatio
Neural network-based sequential recommendation models, such as SASRec and GRU4Rec, struggle with highly repetitive recommendations due to a problem known as the SoftMax bottleneck: it is hard to model a multi-modal probability distribution, which is common…
👍17❤6🔥3
Прилетел в Лукку на ECIR в Италию, и первая вещь которую которую узнал - мою с соавторами (Крэйг Макдональд, у и Никола Тонелотто статью приняли на SIGIR (A* конференция, пожалуй главная конференция по поиску). По совпадению, SIGIR в этом году тоже в Италии.
Хороший финальный аккорд для моей диссертации; это был последний неопубликованный кусочек. Теперь каждая глава диссертации опубликована; саму диссертацию я тоже отправил рецензентам на днях.
Хороший финальный аккорд для моей диссертации; это был последний неопубликованный кусочек. Теперь каждая глава диссертации опубликована; саму диссертацию я тоже отправил рецензентам на днях.
🔥21🎉5
ECIR в этом году проходит в церквях и часовнях. Сегодня презентовал статью в церкви. Очень необычно!
🔥16🙏6❤1
Best Paper Award на ECIR в этом году ушел к колегам по Университету Глазго (Manish Chandra, Debasis Ganguly, Iadh Ounis) за статью по подбопру количества примеров которые нужно давать LLM в промпте в in context learning.
Я статью еще не читал, но выглядит интересно и релевантно мой работе.
Iadh Ounis это кстати мой 2-й научный руководитель.
Ссылка на статью:
https://arxiv.org/abs/2403.06402
Я статью еще не читал, но выглядит интересно и релевантно мой работе.
Iadh Ounis это кстати мой 2-й научный руководитель.
Ссылка на статью:
https://arxiv.org/abs/2403.06402
👍10