Анализ данных (Data analysis)

⭐️ Как работает коллаборативная фильтрация?

Коллаборативная фильтрация – метод, используемый в рекомендательных системах, для прогнозирования неизвестных предпочтений одного пользователя по известным предпочтениям других пользователей. Наиболее часто применяется для повышения продаж, конверсии, эффективности публикации информационных материалов и других метрик в электронной коммерции.
Метод основан на предположении о том, что пользователи, которые одинаково оценивали какие-либо товары (услуги) в прошлом, склонны давать похожие оценки другим товарам в будущем. Исходя из этого допущения, рекомендательная система будет предлагать те товары, которыми интересовалась аудитория, а конкретный пользователь еще нет. В этом и будет проявляться коллаборация – прогнозы составляются индивидуально для каждого, хотя используемая для них информация собрана от многих участников.

На задачу рекомендательной системы можно смотреть как на заполнение пропусков в матрице оценок товаров пользователями. Для этого применяют два основных подхода, основанные на сходстве пользователей (user-based collaborative filtering) и похожести предлагаемых продуктов (item-based collaborative filtering).

В общем виде алгоритм состоит из следующих шагов:

Найти, насколько другие пользователи (продукты) похожи на пользователя (продукт), для которого необходимо выдать рекомендацию.
По оценкам других пользователей (продуктов) предсказать, какую оценку даст исследуемый пользователь определенному продукту, учитывая с большим весом тех пользователей (продукты), которые больше похожи на данный.
В качестве меры похожести часто используют косинусную меру, коэффициент корреляции Пирсона, евклидово расстояние, коэффициент Танимото и манхэттенское расстояние.

Разработчики коллаборативной фильтрации применяют различные решения для учета явности и неявности оценок и предпочтений пользователей. Примером явной оценки является количество звезд, поставленных зрителем после просмотра фильма в онлайн-кинотеатре Okko, или нажатие кнопки “дизлайк” у статьи Яндекс Дзен. В наше динамичное время, как правило, объем неявных оценок превышает явную обратную связь, поэтому высокий потенциал для повышения качества рекомендаций несет именно неявный рейтинг, когда есть все основания полагать, что пользователь воспользовался услугой, но не захотел сообщить своё мнение о ней. В этом случае рекомендательная система может попытаться спрогнозировать оценку по другим метрикам, например времени чтения статьи или просмотра видео. Недосмотренный фильм, как и статья, которая удержала на себе внимание не больше 5 секунд, скорее всего не смогли понравиться.

Важно понимать, что результативность коллаборативной фильтрации может быть низкой, когда рекомендательная система еще не накопила достаточного набора данных о новом пользователе или товаре. Эта ситуация называется проблемой холодного старта. Она может проявляться так же для непопулярных товаров и неактивных пользователей.

➡️ Коллаборативная фильтрация и ее реализация

@data_analysis_ml

👍14🔥3

4.65K views12:13