В модели хищник-жертва рассматривается динамика популяций волков и заек. Чем больше заек, тем больше еды для волков. Волки кушают заек и размножаются. Со временем волков становится так много, что заек всем не хватает — и волки начинают вымирать от голода (и одиночества). А зайки, наоборот, плодиться. Размеры популяций так осциллируют, пока не наступит равновесие. Математики Лотка и Вольтерра изобрели эту модель 100 лет назад, а в 2023 исследователи из Израильского института Technion прикрутили ее к рекомендациям.
В их статье борьба ведется между полезностью рекомендаций для пользователя и его когнитивным бюджетом. Чтобы увеличить полезность, пользователь часто запрашивает новые рекомендации — но на их потребление тратится когнитивный бюджет. Когда бюджет истощается, падает и частота потребления рекомендаций, а за ней падает и полезность. Зато с уменьшением частоты появляется возможность восстановить когнитивный бюджет. Со временем, как и у заек с волками, наступает равновесие. Полезность, характеризующая это равновесие, и есть long-term user engagement, который все рекомендательные сервисы стараются увеличить. Для этого можно прокачивать алгоритмы рекомендаций, но авторы статьи предлагают дополнительный трюк.
Можно время от времени показывать пользователю уведомление с просьбой сделать перерыв: “Вы смотрите эти мемасики уже 16 часов, сходите поспите”. Помимо того что это классный пиар (следим за душевным благополучием пользователя!), оказывается, что, управляя частотой таких уведомлений, можно увеличить long-term engagement. Математика модели достаточно сложная, но для базовой реализации нужно только собрать данные для разных частот уведомлений и обучить на них рекомендательные модели. После этого задача нахождения персональной оптимальной частоты для каждого пользователя решается аналитически! Так что готовьте свои бэклоги.
Кажется, учёные долго наслаждались новым техническим аппаратом — машинным обучением — и гуманитарная сторона науки о рекомендациях ушла на второй план. Теперь, когда машинное обучение перестало давать новые результаты, исследователи черпают вдохновение в гуманитарных дисциплинах. В этом году я читал несколько статей про динамику рекомендательных систем, использующих идеи из психологии. В этих статьях все эксперименты проводятся на синтетических данных, потому что наблюдать рекомендательные системы в динамике у ученых возможности нет. Предсказываю, что в будущем компании (такие как ОК) будут больше с этим помогать.
В их статье борьба ведется между полезностью рекомендаций для пользователя и его когнитивным бюджетом. Чтобы увеличить полезность, пользователь часто запрашивает новые рекомендации — но на их потребление тратится когнитивный бюджет. Когда бюджет истощается, падает и частота потребления рекомендаций, а за ней падает и полезность. Зато с уменьшением частоты появляется возможность восстановить когнитивный бюджет. Со временем, как и у заек с волками, наступает равновесие. Полезность, характеризующая это равновесие, и есть long-term user engagement, который все рекомендательные сервисы стараются увеличить. Для этого можно прокачивать алгоритмы рекомендаций, но авторы статьи предлагают дополнительный трюк.
Можно время от времени показывать пользователю уведомление с просьбой сделать перерыв: “Вы смотрите эти мемасики уже 16 часов, сходите поспите”. Помимо того что это классный пиар (следим за душевным благополучием пользователя!), оказывается, что, управляя частотой таких уведомлений, можно увеличить long-term engagement. Математика модели достаточно сложная, но для базовой реализации нужно только собрать данные для разных частот уведомлений и обучить на них рекомендательные модели. После этого задача нахождения персональной оптимальной частоты для каждого пользователя решается аналитически! Так что готовьте свои бэклоги.
Кажется, учёные долго наслаждались новым техническим аппаратом — машинным обучением — и гуманитарная сторона науки о рекомендациях ушла на второй план. Теперь, когда машинное обучение перестало давать новые результаты, исследователи черпают вдохновение в гуманитарных дисциплинах. В этом году я читал несколько статей про динамику рекомендательных систем, использующих идеи из психологии. В этих статьях все эксперименты проводятся на синтетических данных, потому что наблюдать рекомендательные системы в динамике у ученых возможности нет. Предсказываю, что в будущем компании (такие как ОК) будут больше с этим помогать.
🔥17
ML — это ОК
What is Big Data? Hadoop Nerdcore Rap Music Video Данное видео показывает, как примерно пройдёт наша ридинг группа 10 августа в 17:00. Михаил Марюфич, руководитель OK Data Platform, расскажет о том, как масштабировать HDFS до экзабайтного размера. Разберём…
Привет! Напоминаем, сегодня в 17:00 МСК, пройдет очередная ридинг группа.
Михаил Марюфич, руководитель OK Data Platform, расскажет о том, как масштабировать HDFS до экзабайтного размера. Разберём статьи от Uber и LinkedIn.
Ждем всех в zoom по ссылке
Михаил Марюфич, руководитель OK Data Platform, расскажет о том, как масштабировать HDFS до экзабайтного размера. Разберём статьи от Uber и LinkedIn.
Ждем всех в zoom по ссылке
🔥11
Media is too big
VIEW IN TELEGRAM
Запись ридинг группы 10.08
"Как масштабировать HDFS до экзабайтного размера"
"Как масштабировать HDFS до экзабайтного размера"
🔥11✍2🆒2❤1
Помните финал фильма Изгой-Один? Повстанец через щель в заклинившей двери дрожащей рукой передает на спасательный корабль чертежи “Звезды Смерти”, пока к нему приближается крушащий все на своем пути Дарт Вейдер . Примерно так я представляю себе момент загрузки на arXiv статьи Methodologies for Improving Modern Industrial Recommender Systems. Повстанец – автор статьи Shusen Wang, уволившийся из крупной китайской социальной сети, где занимался рекомендательными системами. Дарт Вейдер – тоталитарный энтерпрайз, который не хочет, чтобы его секреты были раскрыты. Может, я преувеличиваю, но статья – must read для тех, кто занимается индустриальными рекомендерами, особенно в социальных сетях (это мы!).
Каждый раздел статьи рассказывает про один компонент large-scale рекомендера (видимо, других в Китае не бывает). Как он может быть устроен, какие идеи работают, а какие — не взлетают. Это нетипичная научная статья: в ней нет экспериментов, таблиц и графиков. Но читая её, понимаешь, что советы проверены реальной жизнью. Вот неполный список того, что можно узнать:
- Как отбирать позитивные и негативные примеры при обучении отборщика кандидатов.
- Какие архитектуры отборщика кандидатов лучше, чем two-tower на персептронах.
- Какие трюки в ранкерах обязательны, какие желательны, а какие бесполезны: pre-ranking, multi-tasking, debiasing, mixture-of-experts, online дообучение.
- Стратегии по diversity.
- Как учесть в рекомендере поведение новых и неактивных пользователей.
- Как с помощью моделей вдохновить пользователей создавать посты, приводить аудиторию со сторонних сервисов.
В общем, пока Дарт Вейдер не удалил эту статью, я сохранил её на компьютер, записал на компакт-диск, распечатал и выучил наизусть. Чтобы пользоваться.
Каждый раздел статьи рассказывает про один компонент large-scale рекомендера (видимо, других в Китае не бывает). Как он может быть устроен, какие идеи работают, а какие — не взлетают. Это нетипичная научная статья: в ней нет экспериментов, таблиц и графиков. Но читая её, понимаешь, что советы проверены реальной жизнью. Вот неполный список того, что можно узнать:
- Как отбирать позитивные и негативные примеры при обучении отборщика кандидатов.
- Какие архитектуры отборщика кандидатов лучше, чем two-tower на персептронах.
- Какие трюки в ранкерах обязательны, какие желательны, а какие бесполезны: pre-ranking, multi-tasking, debiasing, mixture-of-experts, online дообучение.
- Стратегии по diversity.
- Как учесть в рекомендере поведение новых и неактивных пользователей.
- Как с помощью моделей вдохновить пользователей создавать посты, приводить аудиторию со сторонних сервисов.
В общем, пока Дарт Вейдер не удалил эту статью, я сохранил её на компьютер, записал на компакт-диск, распечатал и выучил наизусть. Чтобы пользоваться.
🔥10😁4
Работа с popularity bias в рекомендациях — ещё одна вещь, похожая на подростковый секс: все говорят, что делали это, но это они только говорят. Поговорим и мы на ридинг-группе 24 августа в 17:00. Рассказывать про статью Countering Popularity Bias By Regularizing Score Differences с прошлогоднего Recsys будет Петр Погорелов, ML-инженер в ОК.
😁11✍3🔥2
Сегодня наша команда проводит OK Tech Talk: «ML в production». Докладчики — сотрудники ОК, Дзена и VK Predict.
Обсуждаем, как снизить отправку пушей и не просадить продуктовые метрики, какие технические и продуктовые проблемы решает схема item2item и как с помощью no-code auto ML-платформы автоматизировать большую часть работы разработчика.
Обсуждаем, как снизить отправку пушей и не просадить продуктовые метрики, какие технические и продуктовые проблемы решает схема item2item и как с помощью no-code auto ML-платформы автоматизировать большую часть работы разработчика.
🔥25👍2❤1
Потихоньку разбираем ссылки из статьи, про которую писали в одном из предыдущих постов. В статье решается проблема недостатка данных для айтемов из “хвоста”. Это айтемы, которые пользователи оценивают слишком редко, чтобы получить для них качественный эмбеддинг в стандартной двухбашенной архитектуре отборщика кандидатов. Как обычно, в таких случаях на помощь приходят признаки айтемов — они используются не только для предсказания коллаборативного сигнала (как в LightFM), но и для аугментации в contrastive learning. Расстояние между эмбеддингами двух аугментаций одного айтема, должно быть маленьким, а расстояние между аугментациями разных айтемов — большим. Не слишком свежая идея, но авторы приводят рецепты, как завести её на практике и результаты A/B-экспериментов в рекомендере приложений Google Play Store. Например, качество рекомендаций новых приложений улучшилось на 4,5%. Особенно оценят статью те, кто занимается item2item рекомендерами (кстати, в ОК таких рекомендеров как минимум четыре).
👍5❤1🔥1
ML — это ОК
Работа с popularity bias в рекомендациях — ещё одна вещь, похожая на подростковый секс: все говорят, что делали это, но это они только говорят. Поговорим и мы на ридинг-группе 24 августа в 17:00. Рассказывать про статью Countering Popularity Bias By Regularizing…
Напоминаем, через 20 минут начнется очередная ридинг группа.
Пётр Погорелов, ML-инженер в ОК, расскажет о том, как бороться проблемой popularity bias в рекомендательных системах.
Ссылка на встречу
Пётр Погорелов, ML-инженер в ОК, расскажет о том, как бороться проблемой popularity bias в рекомендательных системах.
Ссылка на встречу
🔥7
Приглашаем на Dark Geometry Fest
Место: БЦ Skylight, Ленинградский проспект, 39с79, Москва
Дата и время: 9 сентября, 13:00 — 20:00
Разберём, как многообразия помогают в машинном обучении, обсудим занимательное геометрическое доказательство одного известного факта из теории чисел и попробуем понять, как устроена теорема Торелли о восстановлении кривой по паре якобиан-дивизор.
От команды ОК на фестивале выступит Саша Тараканов, программист-исследователь.
Расписание фестиваля
13:00 — 14:00 - Экскурсия по офису VK (20 мест)
13:30 — 14:00 - Сбор всех участников, приветственный кофе-брейк
14:00 — 14:15 - Вступительное слово от организатора Арсения Райко
14:15 — 15:15 - Тараканов Александр (доцент ФКН НИУ ВШЭ) расскажет о многообразиях, графах и их применении в машинном обучении.
15:15 — 15:30 - Кофе-брейк
15:30 — 16:30 - Баженов Дмитрий (мехмат МГУ) представит элементарное геометрическое доказательство того, как простые числа, которые дают остаток 1 при делении на 4, могут быть представлены в виде суммы двух квадратов.
16:30 — 17:30 - Обед
17:30 — 19:45 - Анжелика Андронова (матфак НИУ ВШЭ) расскажет о теореме Торелли про восстановление кривой по паре якобиан-дивизор. Несмотря на всю сложность её формулировки, мы попробуем проникнуться этой темой и понять, что всё не так страшно, как кажется на первый взгляд.
19:45 — 20:00 - Заключительное слово
Если хотите прийти на фест, пожалуйста, зарегистрируйтесь по ссылке
Место: БЦ Skylight, Ленинградский проспект, 39с79, Москва
Дата и время: 9 сентября, 13:00 — 20:00
Разберём, как многообразия помогают в машинном обучении, обсудим занимательное геометрическое доказательство одного известного факта из теории чисел и попробуем понять, как устроена теорема Торелли о восстановлении кривой по паре якобиан-дивизор.
От команды ОК на фестивале выступит Саша Тараканов, программист-исследователь.
Расписание фестиваля
13:00 — 14:00 - Экскурсия по офису VK (20 мест)
13:30 — 14:00 - Сбор всех участников, приветственный кофе-брейк
14:00 — 14:15 - Вступительное слово от организатора Арсения Райко
14:15 — 15:15 - Тараканов Александр (доцент ФКН НИУ ВШЭ) расскажет о многообразиях, графах и их применении в машинном обучении.
15:15 — 15:30 - Кофе-брейк
15:30 — 16:30 - Баженов Дмитрий (мехмат МГУ) представит элементарное геометрическое доказательство того, как простые числа, которые дают остаток 1 при делении на 4, могут быть представлены в виде суммы двух квадратов.
16:30 — 17:30 - Обед
17:30 — 19:45 - Анжелика Андронова (матфак НИУ ВШЭ) расскажет о теореме Торелли про восстановление кривой по паре якобиан-дивизор. Несмотря на всю сложность её формулировки, мы попробуем проникнуться этой темой и понять, что всё не так страшно, как кажется на первый взгляд.
19:45 — 20:00 - Заключительное слово
Если хотите прийти на фест, пожалуйста, зарегистрируйтесь по ссылке
🔥8
Спасибо всем, кто был с нами в прошлую пятницу на OK Tech Talk «ML в production».
Со всеми, кто хочет посмотреть, как прошел наш митап, делимся:
- Фотографии OK Tech Talk
- Презентации и записи выступлений
До новых встреч 😊
Со всеми, кто хочет посмотреть, как прошел наш митап, делимся:
- Фотографии OK Tech Talk
- Презентации и записи выступлений
До новых встреч 😊
❤10
Вы уже устали от статьи Methodologies for Improving Modern Industrial Recommender Systems? Мы нет.
Поэтому на ридинг-группе 7 сентября в 17:00 разберём её в подробностях. Ведущим будет Николай Рябых, руководитель команды рекомендаций ОК. Ссылку на звонок, как обычно, скинем в день встречи.
Поэтому на ридинг-группе 7 сентября в 17:00 разберём её в подробностях. Ведущим будет Николай Рябых, руководитель команды рекомендаций ОК. Ссылку на звонок, как обычно, скинем в день встречи.
👍5🔥5
Допустим, у вас есть платформа для прослушивания подкастов. Задача: найти среди новых подкастов потенциально интересные широкой аудитории. Например, чтобы продвигать их на главной странице. Как решать такую задачу? Первое, что приходит в голову – собрать выборку с данными по “быстрым” метрикам подкастов (например, за первый день после выпуска), докинуть контентных признаков и обучить модель, которая предскажет долгосрочный успех. Исследователи из Spotify в своей статье утверждают, что такой подход не работает. Во-первых, ранние метрики дают нечестное преимущество подкастам знаменитостей и популярных блогеров, которые и так все послушают. Во-вторых, контент – слабый предиктор популярности. Намного лучше работает подход pure-exploration bandits.
Стандартные бандиты минимизируют cumulative regret, балансируя exploration и exploitation. Задача pure-exploration бандитов – найти лучшее действие, потратив фиксированный бюджет только на exploration. Предложенный в статье алгоритм ISHA не побеждает другие алгоритмы по метрикам – в экспериментах он на втором-третьем месте. Но зато ISHA лучше подходит для реальных систем: в отличие от конкурентов ему не нужно мгновенно знать награду после выбора действия. Это важно, потому что на практике между показом рекомендации и реакцией пользователя неизбежно есть задержка. Если мы готовы ждать реакцию сутки, ISHA отрабатывает за две недели, а лучшие по метрике алгоритмы SR и ECBT за год и 1000 лет соответственно. Думаю, в 3023 году людям не будут интересны перспективные подкасты из 2023. Разве что историкам.
На идею этой статьи можно посмотреть шире. Рекомендации – область, в которой мы можем не только строить модели, но и взаимодействовать с пользователями для контролируемого сбора данных. Мы делаем это в A/B экспериментах или реализуя exploration в продакшен рекомендерах. Но сегодняшняя статья подсказывает, что нужно идти дальше: механизмы работы с данными не достаточно “прикрутить сбоку” – их нужно закладывать в архитектуру системы при проектировании.
Стандартные бандиты минимизируют cumulative regret, балансируя exploration и exploitation. Задача pure-exploration бандитов – найти лучшее действие, потратив фиксированный бюджет только на exploration. Предложенный в статье алгоритм ISHA не побеждает другие алгоритмы по метрикам – в экспериментах он на втором-третьем месте. Но зато ISHA лучше подходит для реальных систем: в отличие от конкурентов ему не нужно мгновенно знать награду после выбора действия. Это важно, потому что на практике между показом рекомендации и реакцией пользователя неизбежно есть задержка. Если мы готовы ждать реакцию сутки, ISHA отрабатывает за две недели, а лучшие по метрике алгоритмы SR и ECBT за год и 1000 лет соответственно. Думаю, в 3023 году людям не будут интересны перспективные подкасты из 2023. Разве что историкам.
На идею этой статьи можно посмотреть шире. Рекомендации – область, в которой мы можем не только строить модели, но и взаимодействовать с пользователями для контролируемого сбора данных. Мы делаем это в A/B экспериментах или реализуя exploration в продакшен рекомендерах. Но сегодняшняя статья подсказывает, что нужно идти дальше: механизмы работы с данными не достаточно “прикрутить сбоку” – их нужно закладывать в архитектуру системы при проектировании.
🔥7👍2
ML — это ОК
Вы уже устали от статьи Methodologies for Improving Modern Industrial Recommender Systems? Мы нет. Поэтому на ридинг-группе 7 сентября в 17:00 разберём её в подробностях. Ведущим будет Николай Рябых, руководитель команды рекомендаций ОК. Ссылку на звонок…
Привет! Напоминаем, что сегодня в 17:00 МСК пройдет очередная ридинг-группа. Ссылка на встречу
Идентификатор конференции:
920 3695 0643
Код доступа: 7SDKuk
Идентификатор конференции:
920 3695 0643
Код доступа: 7SDKuk
🔥1
ML — это ОК
Приглашаем на Dark Geometry Fest Место: БЦ Skylight, Ленинградский проспект, 39с79, Москва Дата и время: 9 сентября, 13:00 — 20:00 Разберём, как многообразия помогают в машинном обучении, обсудим занимательное геометрическое доказательство одного известного…
Привет!
Сегодня в офисе ВК проходит Dark Geometry Fest.
Подключайтесь к трансляции в 14:00 МСК.
Ссылка на трансляцию
Сегодня в офисе ВК проходит Dark Geometry Fest.
Подключайтесь к трансляции в 14:00 МСК.
Ссылка на трансляцию
Media is too big
VIEW IN TELEGRAM
Запись ридинг-группы 07.09.23
Ведущий — Николай Рябых, руководитель команды рекомендаций ОК
Ведущий — Николай Рябых, руководитель команды рекомендаций ОК
🔥8❤1
Наша ридинг-группа в последнее время какая-то неразнообразная: из пяти встреч только одна была не про рекомендательные системы (а про инфраструктуру для рекомендательных систем 😅). Мы хотели это исправить, но пока не получается – в пятницу 22 сентября в 16.00 поговорим про разнообразие в рекомендациях и алгоритм Determinantal Point Processes. Коля Анохин, ведущий специалист по машинному обучению ОК, будет эээ ведущим.
😁14🔥5
📖Ссылка на сегодняшнюю ридинг-группу в 16:00: https://shorturl.at/bcdBJ
В программе: разнообразие рекомендаций, Николас Кейдж, Вольфганг Паули, Мэйби Бэйби и Дукалис.
Приходите!
В программе: разнообразие рекомендаций, Николас Кейдж, Вольфганг Паули, Мэйби Бэйби и Дукалис.
Приходите!
🔥7
Media is too big
VIEW IN TELEGRAM
Запись ридинг группы 2023-09-22: Practical Diversified Recommendations on YouTube with Determinantal Point Processes
🔥8
Разбираем RecSys 2023! 🧑🔬👩🔬
Проведём две сессии в слоты 16.00-18.00 5 и 6 октября. В программе уже 20 статей, помимо нашей команды рассказать про свои работы с RecSys придут сами авторы: Александр Петров, Алексей Васильев и Антон Кленицкий.
Запись как обычно будет, но онлайн всегда интереснее. Бронируйте слоты на встречу в следующий четверг и пятницу.
Зум
Проведём две сессии в слоты 16.00-18.00 5 и 6 октября. В программе уже 20 статей, помимо нашей команды рассказать про свои работы с RecSys придут сами авторы: Александр Петров, Алексей Васильев и Антон Кленицкий.
Запись как обычно будет, но онлайн всегда интереснее. Бронируйте слоты на встречу в следующий четверг и пятницу.
Зум
👍11🔥3