ML — это ОК

Вашему вниманию предлагается очередной разбор статьи с #recsys23 UNCOVERING USER INTEREST FROM BIASED AND NOISED WATCH TIME IN VIDEO RECOMMENDATION https://arxiv.org/abs/2308.08120

При работе с рекомендациями видео часто стоит задача спрогнозировать время, в течение которого пользователь будет просматривать ролик (watch time). На этот показатель, помимо собственно интереса пользователя к видео, влияют и другие факторы:

- Duration Bias. Чем больше длительность видео, тем больше будет watch time. Это приводит к тому, что рекомендер будет чаще предлагать длинные видео, вне зависимости от реального интереса пользователя.
- Noisy Watching. Пользователям нужно некоторое время, чтобы понять, нравится видео или нет. Поскольку пользователи доверяют рекомендательным системам и вообще падки на кликбейт, то часто наблюдается такой паттерн: пользователь запускает рекомендованное видео, далее в течение нескольких секунд понимает, что оно не нравится, и закрывает его. При этом в системе залогируется ненулевой watch time, на котором потом будет учиться рекомендательная модель.

На графиках проиллюстрированы эти эффекты. Слева – рост watch time при увеличении duration для понравившихся видео, а справа – существенно отличные от нуля времена просмотров для непонравившихся видео.

Авторы анализируют существующие подходы к предсказанию времени просмотра: Play Complete Rate (PCR), Watch Time Gain (WTG), Duration-Deconfounded Quantile-based Method (D2Q). Эти методы используют эвристические модификации watch time в качестве показателя пользовательского интереса. Их недостаток в том, что они требуют выполнения условий, которые нарушаются в реальных задачах.

В статье предложен новый подход Debiased and Denoised Watch Time Correction (D2Co). Видео группируются по длительности, затем строятся распределения времени просмотра внутри каждой группы. Оказывается, что эти распределения носят бимодальный характер. Поэтому делается допущение, что watch time можно приблизить моделью гауссовой смеси (Gaussian Mixture Model) из двух компонент:
- первая отвечает за duration-biased watch time;
- вторая — за noisy watching составляющую.
При этом авторы делают смелое допущение (wild assumption), что эти компоненты имеют нормальные распределения. Для получения чистого пользовательского интереса к видео эти компоненты выучиваются и удаляются из watch time.

Работа модели проверялась на двух датасетах (WeChat, KuaiRand) с видео длительностью от 5 от 240 секунд. Для определения «реального» пользовательского интереса использовались лайки, комментарии, а также длинные просмотры. В качестве рекомендательных моделей брались матричные факторизации на PyTorch. Новая модель сравнивалась с упомянутыми выше (PCR, WTG, D2Q) по метрикам GroupAUC и nDCG@K.

На всех тестах новая модель показала прирост в метриках, но незначительный — в третьем знаке после запятой. Кроме того, авторы провели А/B-тестирование, которое также показало небольшой прирост.

С одной стороны, предложенный подход помогает очистить время просмотра от «мусорных» компонент и оставить в нём только чистый пользовательский интерес. Алгоритм легко реализовать, но потребуется время на подбор гиперпараметров. С другой стороны, прирост в метриках небольшой, и кажется, что в большинстве случаев можно ограничиться простой WTG-моделью, дополненной эвристиками для удаления выбросов. Теоретически этот подход применим не только к видео, но и, например, к рекомендациям длинных текстов, хотя для них гораздо сложнее определить «время просмотра» 📖.

🆒6👍1

779 views10:55