ML for Value / Ваня Максимов

Упрощай и властвуй: RecSys в одну стадию

Недавно на весь рекомендательный мир прогремел новый тех репорт модели OneRec от китайского аналога тиктока Kuaishou. Они заменили многостадийную рексистему на одну генеративную нейронку и получили приличный рост метрик. Но пока все еще стоит вопрос о массовой применимости такой модели.

Мои коллеги из Яндекс Лавки недавно тоже отказались от кандидатогенерации. Теперь их catboost в рантайме скорит весь ассортимент даркстора (до 5000 SKU), укладываясь в 300 мс. И это уже может быть массово полезно очень многим!

📈 Внутри статьи — рассказ о том, как инженеры Лавки избавлялись от лишних признаков, по-хитрому готовили фичи, оптимизировали рантайм катбуст, и что всё это в итоге дало.

Как знать, может скоро мы все окажемся в мире без кандидатогенерации!

👍29🔥9❤7

3.79K viewsedited 06:38

Хранить нельзя списать: Юнит экономика, ч2
Начнем разбирать издержки с той самой статьи расходов, которая часто и рушит бизнес: хранение товара. Просто следите за руками

Спрос = f(price)

Ст-ть хранения = g(спрос) = g(f(price)) =
= Средний обьем в мес, м2 * ставка аренды
+ Средний обьем в мес, руб * ставка депозита (связка с оборачиваемостью?)
+ max(Средний срок хранения, дни - Срок годности; 0) * себестоимость товара

Прибыль = Спрос * (цена продажи - цена закупки) - Стоимость хранения --> max(price)

Мало того, что нужно получить зависимость g(f(price)). Так эта ж* g() еще и очень сложно устроена!
Вот есть у нас прогноз спроса = f(price). Он в штуках, а не в м2. Он - это не обьем хранения. Он не знает о текущих остатках на складах и сколько нужно закупить товара до некоторого оптимального обьема хранения. Он еще не знает, что закупать товар можно только коробками по 12-20 штук

Если спрос маленький (до 10 штук), то его колбасит по полноценному Пуассону. И любая ошибка прогноза (очень вероятная) приводит к покупке не 1 коробки, а 2ух коробок - здравствуйте х2 издержки хранения (списания)

😈О как..
Какое-то "хранение" превратилось в нелинейную комбинаторную невыпуклую и черт еще знает какую заадчу математической оптимизации

Допустим, мы знаем текущий сток(обьем хранения) на складе. И у нас есть прогноз спроса. Казалось бы, закупаем c учетом округлени до коробки round(Спрос - Сток) и все дела?

Типичная ошибка навичка. Мы ведь не решаем задачу продать весь сток поскорее, а хотим побольше прибыли заработать. Если товар на складе закончился, а заказы поступают - мы недополучаем прибыль от этих заказов.

Поэтому появился термин Старховые запасы. Из приятного - можно решать задачи прогноза спроса и определения страховых запасов почти независимо!

Обьем закупки = round(Спрос + Страховой запас - Сток)
Средний обьем хранения = (Сток + Спрос + 2 * Страховой запас + доп хранение из-за округления) / период между поставками

А дальше есть 2 пути
- Зубодробительно решать задачу математически, например, вот так
- Делать симуляции типа Монте-Карло, тк округления "по коробкам" все равно здорово ломают математику

Как бы я ни любил красивую математику, порекомендую заняться симуляцией

💡 Несколько интересных выводов из опыта таких симуляций :
- При маленьком обьеме спроса (до 10 штук товара за период между закупками) ловить нечего - нужно продавать много и вкладываться в рекламу
- Чем меньше размер "коробки" вы можете закупить, тем лучше
- Следите за сроками годности товаров. Фрэш со сроком годности 4 дня и меньше - кровавый океан
- Редкие поставки с большим лагом во времени очень круто растят стоимость хранения
- Если не считать, сколько товара закупать, то можно легко погореть только на хранении)) Хотя казалось бы, это просто фикс ставка за склад в месяц
- Вы удивитесь, но с маржинальностью товара = (цена - закупка) / цена менее 100% у небольшого продавца шансов на прибыль нет. Гораздо эффективнее будет положить деньги на закупку товара на депозит под 16-18%

Это была аналитика для ~~селлеров~~ ml-щиков бесплатно, без регистрации и смс

Подготовлено каналом @ml4value

Please open Telegram to view this post

VIEW IN TELEGRAM

❤29🔥16👍14🤯2

4.88K viewsedited 07:51

ML for Value / Ваня Максимов

Разнообразие рекомендаций: Sampled MMR
В рекомендательных системах есть 2 проблемы: ~~дураки и дороги~~ слишком много товаров и их однотипность. Например, у вас есть миллионы книг - хочется получить топ-10 самых релевантных от разных авторов/жанров

Чтобы обрабатывать большие каталоги товаров мы часто сэмплируем что-либо: товары, пользователей, негативы и тп.

Для борьбы с однотипностью используем методы повышения разнообразия, например Maximal Marginal Relevance (MMR). В нем при составлении списка рекомендаций мы штрафуем каждый следующий товар за похожесть по эмбеддингу на товары в списке до него. Эффектно, но долго. На практике для списков длиннее 10 скорее не работает.

Логичным выглядит скрестить сэмплирование и MMR. Что и сделали ребята из T-Bank AI Research - получился алгоритм Sampled MMR

Отличия Sаmpled MMR от классических MMR, DPP:
– Благодаря сэмплированию гораздо быстрее на длинных списках: почти х10 на списках из топ-200 товаров

– Обещают даже более высокое покрытие каталога и разнообразие между юзерами за счет все того же сэмплирования

– По парето-границе размена релевантности на разнообразие обходит MMR, DPP

Из приятного есть параметр “температуры” для управления степенью разнообразия и код на гитхабе

Кстати, Sampled MMR придумали ребята из T-Bank AI Research - можно узнать детали у них на Turbo ML Conf в Москве уже 19 июля

👍23🔥12❤4🤣1

5.52K viewsedited 07:32

ML for Value / Ваня Максимов

Один АВ-тест в год или положить прод?

Всем хочется простого, человеческого счастья, чистого кода и стабильности ML-систем. Но это требует много времени и навыков. Поэтому в таких системах проводить изменения сложно и обычно катают один АВ-тест в год: не преувеличиваю, видел такого немало

Другая крайность - костыль на костыле в коде, АВ-тесты текут рекой, но половина из них невалидны

Сам я адепт быстрых изменений-костылей, но и за валидность АВ. Поэтому очень верю в концепцию двух репозиториев: research и prod. И я сам приложил руку к такой практике в паре компаний, и так уже работает во многих местах. Например, ML-cпецы финтеха Точка Банк недавно писали про это пост с докладом, где довольно хорошо раскрыли эту тему с примерами про масштабирование sklearn, тайпингами transformers и другими не всегда очевидными деталями.

В research код не такой красивый и быстрый, зато понятный и быстроизменяемый. В пределе research код вообще может возвращать csv-шку, которая заливается в прод на время А/В. И если эксперимент зеленый, то дорабатывается полноценное решение уже в prod репозитории с нормальными таймингами, стабильностью и регулярным обучением моделей

Самая большая сложность - внедрить правила / контракты, по которым эти репозитории дружат друг с другом. А не Jupyter notebook переписывать на Go с нуля каждый раз. Но если помучиться и сделать это, то дальше вас ждёт дивный новый мир, где research + prod = мощная коллаборация

А вы за какой вариант?

🌚 - Только стабильность prod кода и тайминги сразу, только хардкор
🔥 - За быстрые эксперименты, пусть и .csv. Если дает метрики, то по существующим договорённостям перенесём в prod решение с небольшими доработками
⚡️- Вжух-вжух и в продакшен, дальше видно будет. Мир быстро меняется: может за полгода выйдет gpt-6 и мы перепишем все с нуля

🔥40⚡8🌚4🗿1

4.11K views12:03

ML for Value / Ваня Максимов

Мои экс-коллеги из WB проводят RecSys Meetup!)

Обещают рассказать много всего передового: трансформеры, semantic IDs, балансировка интересов пользователей и продавцов, связь онлайн и оффлайн метрик рекома

А если подетальнее, то в программе:
- Semantic IDs: архитектура и наш опыт внедрения
- Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования
- Счастье пользователя vs счастье продавца. Онлайн-доранжирование и байесовская оптимизация в товарных рекомендациях
- Как мы обучаем CLIP-ы для текстовых тегов

Митап пройдет 28 августа в 18:00 оффлайн и онлайн

Для участия оффлайн нужна регистрация по ссылке

🔥18❤9🥴7🤣6👍3

3.75K views11:03

ML for Value / Ваня Максимов

Хуже = лучше

Моя команда в Я.Маркете внедрила метрику дискаверийности (новизны) рекомендаций товаров. И в этом полугодии мы пробуем ее активно растить

Естественно, посмотрели статьи про рост beyond accuracy метрик, внедрили успешные подходы из них, запустили А/В и …

научились стат значимо метрику дискавери снижать 🌚

И меня это очень порадовало

Теперь мы точно знаем, что влияет на метрику в минус - будем делать ровно наоборот и вероятно получим рост! Так что «красные» А/В тесты с падением метрик - часто гораздо полезнее кучи «серых» тестов без изменения метрик

А вообще, вопросиков к современным статьям очень много (особенно в recsys). Неправильный train-test split, подбор метрик под результаты, специально недотюненные бейзлайны, …

Поэтому я обожаю reproducibility reports (впору уж писать свой), где независимые авторы пробуют повторить результаты из статей - и пишут свои менее biased выводы. Один из самых известных в recsys Turning Dross into gold loss: is Bert4Rec really better than SasRec? пару лет назад позволил внедрить SasRec-like модели почти во всех доменах и компаниях

В общем, проверяйте даже «общепринятые» подходы и радуйтесь, если смогли подвинуть ваши метрики даже вниз - отсюда появляется куча идей, как подвинуть их уже вверх 👆

🔥28👍16❤7😁4

4.24K views06:47

ML for Value / Ваня Максимов

Где деньги, Лебовски?

Этот вопрос беспокоит меня больше всего в моих начинаниях. Не зря ж канал назван ml4value.
И наконец я нашел целое рисерч направление, которое занимается деньгами/прибылью от рекомендаций:

🧑‍💻

💵

Economic recsys research

Что лично мне интересно в этой сфере
- Как балансировать рекламу и релевантность? В маркетплейсах до 30% прибыли идет от рекламы в рекомендациях, в соцсетях - до 80%
- Правильно посчитать и учесть юнит экономику товара сразу в ML модели (желательно в лосс функции)
- Какие механики апселла (продаем более дорогой и маржинальный товар) хорошо работают? Как их визуально отображать? Например, продать не просто чайник за 4к, а умный чайник xiaomi за 7к
- Как и где удачнее всего делать кросс-селл новых категорий: не только аксессуары/сопутка, но и продажа бандлов (например, не 1 джинсы, а сразу образ из 4 вещей)
- Где во всей этой битве маржинальности счастье пользователя / релевантность, и как ее посчитать?

Очень верю, что в ближайшие пару лет мир сильно продвинется в ответах на эти вопросы. Тренд по числу публикаций положительный, но
но все еще выходит всего по 15-20 статей за год 🥶

Короче, Economic recsys research - интересная, прибыльная, но пока достаточно сырая сфера. Почти все крутится поверх переранжирования / аукциона над маленьким топом рекомеднаций (20-100 товаров) и "с этим товаром покупают"

Какие проблемы в области
Problem №1: Нет нормальных открытых датасетов с юнит экономикой товаров. Даже с ценами товаров в данных большая проблема
Problem №2: Большинство рисерчей валидируются на симуляциях, а не в АВ. Моя практика показывает, что в вопросах юнит экономики оффлайн метрики часто расходятся с онлайном

Поэтому многие прорывы делатся внутри компаний под достаточно строгим NDA
Но если интересно познакомиться со сферой, то все же кое-что просачивается и на arxiv: https://arxiv.org/pdf/2308.11998

На картинках к посту - как раз скрины из этого овервью: о каких темах в области пишут, где успешно внедрено, и на каких датасетах валидируются. Датасеты эти использовать не советую, а остальное - норм)

Буду теперь двигать Economic recsys research в массы 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥14❤4

4.95K views13:01

ML for Value / Ваня Максимов

Осенний сезон конференци обьявляю открытым!

Традиционно в сентября-ноябре проходит много конференций по ML. Успел уже выступить на NDA части PML conf: рассказывал, как рекомендациями растить действия в новых для юзера категориях, и зачем это вообще нужно

Были прикольные доклады про рекомендации в я.картах и про маршрутизацию роверов-доставщиков (обожаю ml в оффлайне)

Хайлайтом PML preparty имхо стало название команды рекома в я.картах "Группа магии дискавери" 🪄✨

P.S. Очень жду в этом сезоне побольше докладов про эффективность и зарабатывание денег от ML (и особенно LLM) внедрений - пока таких явно не хватает. Если вы раскаазываете (или только планируете) что-то про денежки от ML - пишите, пересечемся на ближайших конференциях!)

🔥13❤5👍5🦄3🥱1

4.16K views13:52

ML for Value / Ваня Максимов

Вы не готовы, пацаны

Прочитал сегодня очередной пост про быстрые итерации, lean startup, все дела. Ощущение, что уже все хотят проверять по 300к гипотез в наносекунду. Но, по факту, мало кто к этому готов

2 А/В в месяц ломают хребет B2B-стартапам
Возникают риски для клиентов - нестабильный продукт, нужно обьяснять изменение метрик даже третьего порядка.
Внезапно оказывается, что эксперименты могут стоить денег! Не только потенциальная потеря метрик, но и косты на те же GPU. А минимальный бюджет на них выделить забыли
А еще и логгировать все данные нужно корректно: если у вас теряется 10% логов, тооо замерить эффект в +5% вряд ли получится

20 А/В - тестируют аналитическую культуру средних компаний
Неожиданно, но 20 А/В в месяц означает, что в среднем каждый день нужно принимать решение по завершившемуся АВ.
Это означает: корректно разводить аудиторию между АВ, пофиксить баги в сборе данных, сделать автоматические скрипты расчета всех метрик, договориться что все в компании смотрят на однин и тот же набор метрик и версию расчета конверсии, договориться о размене метрик...
Ну и самое главное: научиться по готовому анализу быстро принимать бинарное решение: катим в прод / нет.
А нет, погодите, еще при выкатке в прод фиксить все конфликты, накопившиеся за период экспа + костыли эксперимента превращать в продакшен-код:)

200 А/В - проверяют все процессы в IT-гигантах
Столько экспериментов в месяц означает, что их массово проводят все команды: продукт, маркетинг, логистика и тп. Следить за всеми невозможно. Тут придется налаживать процессы на уровне всей компании, чтобы проверка гипотез была полезной, а не запутывала все еще больше

Влияют ли эксперименты разных команд друг на друга? Одни катают экспы по 5 дней, другие только на сегменте ios, третьи показывают в копеечном экспе +30% выручки -- а каким экспериментам мы вообще можем доверять?
Придется построить плафторму А/В. Придется договариваться о метриках. Придется говорить, что в А/В маркетинг принес +3% клиентов, а не атрибуцировал к открывшим пуш 60% заказов

А вам оно надо? 😂

В общем, lean startup и быстрая проверка гипотез - это здорово, я сам очень топлю за это. Но будьте готовы, что нужно вложить немало усилий и денег, чтобы все это действительно приносило пользу

❤️ - В моей компании идет 200+ АВ тестов в месяц
🔥- 20-200 АВ
👍 - 2-20 АВ
😀 - Живем без АВ и счастливы

😁60❤45👍35🔥14🥴6

2.91K viewsedited 10:10

ML for Value / Ваня Максимов

LLM ради денег, а не хайпа

Наконец, многие начали задумываться, приносят ли LLM-проекты реальную прибыль (пора перименовываться в LLM4Value 💀). По ощущениям:

~5% LLM и правда приносят прибыль
~20% примерно также эффективны по деньги-качество как и более простые решение (да-да, регулярки)
~75% адски жгут бюджеты и веру в скорый AGI

Хочется поскорее узнать о набитых шишках и провальных llm-инвестициях, чтобы не наступать на грабли

Конференция Conversations обещает быть как раз таким местом: много докладов про экономику LLM-проектов
5 декабря, оффлайн в Москве и онлайн отовсюду

Какие анонсы докладов меня заинтриговали:

- GenAI в разработке: как внедрять генеративные технологии в вашей самой дорогой команде и считать профит в деньгах и других метриках. Григорий Бездольный, Axenix
- LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов. Иван Четвериков, Raft
Как я и говорил, деньги-то начинают считать!)

- Автоматизация на грани: почему LLM-проекты терпят фиаско и как этого избежать? Дмитрий Легчиков, 2ГИС
Надеюсь на доклад в факап-митап стиле. Обычно фейлы идут из-за "классических" проблем с данными (нет нормального val dataset, итераций улучшения), таргетом (да-да, для llm его надо еще более строго определять) и несходимости экономики LLM-проекта

- AI-боты вместо звонков: как управлять диалогом с помощью LLM и масштабировать клиентский сервис. Александр Жариков, МТС
Имхо, ai чат-боты в поддержке - одна из немногих сфер положительного ROI от LLM

Еще будут доклады от Яндекс, Т-Банк, Just AI, Plata card и не только.

Полную программу можете посмотреть на сайте.
И там же взять билет со скидкой 10% по промокоду CVS25mlVm

Реклама. ООО «Маинд Крафт» ИНН: 7813286694 erid: 2W5zFJhLDUU

1❤5👍3👎3🔥1

2.56K views10:01

ML for Value / Ваня Максимов

LLM х RecSys = ?

Почти все продакшен рекомендации состоят из 2ух частей: стабильные предпочтения пользователя + рекомендации по последним взаимодействиям

До недавних пор основной прогресс был за счет последних взаимодействий

-> Переход к real-time рекомендациям
-> Похожие товары на последние клики
-> SLIM/EASE по последним действиям
-> SASRec
-> Даже модный HSTU в основном опирается на последние действия

При этом стабильные предпочтения моделировались простым подходом вроде ALS над покупками за последний год - и было норм. Но в 2025 году вышло штук 5 статей от крупных компаний про учет стабильных предпочтений юзера через LLM с приличными приростами бизнес-метрик

И в вот этот кейс применения LLM я вполне верю (и он даже самоокупается!):

- Стабильные предпочтения пользователя по определению редко меняются.
Можно прогонять LLM лишь раз в неделю и только по юзерам с новыми действиями = не так много запросов к LLM + тайминги ответа не важны

- Нетривиальная связь покупки товара Х и интереса юзера.
Например, купил палатку -> вероятно, есть интерес ко всему походному (одежда, экипировка, сублиматы и тп), а не только палатки и вокруг них (условно, колышки для палатки и ночной фонарь в нее). ALS такую взаимосвязь не выучит, а LLM - вполне

- Особенность рексис
Как правило, за год-два почти все товары (и их item_id) в базе обновляются. Фактически это означает, что модели, завязанные на item_id очень быстро устаревают = плохо работают с учетом интереса юзера на горизонте 1-3 года. И в этом проблема ALS.
Но LLM работают с текстом (название + описание), который все еще актуален и спустя 3 года — это позволяет LLM лучше «пережить» обновление товаров (и item_id) с течением времени

В совокупности, эти 3 фактора привели к буму LLM в рекомендациях в 2025г. Но почти только в рекомендациях на основе стабильных предпочтений. В учете недавней истории все еще царят SASRec и HSTU

Занятные статьи про LLM для учета стабильных предпочтений в рексис: RecGPT от Taobao, моделька от LinkedIn, и отчасти PLUM от Google

В общем, некоторый LLM-прорыв имеется 🚀

arXiv.org

RecGPT Technical Report

Recommender systems are among the most impactful applications of artificial intelligence, serving as critical infrastructure connecting users, merchants, and platforms. However, most current...

👍26❤12🤯4👎3🙉3

3.47K viewsedited 08:41

ML for Value / Ваня Максимов

➡️ Навигация по каналу v3

На связи Ваня Максимов @Ivan_maksimov - AI & Analytics Head в Яндекс.Маркете, 10+ лет в DS

Сложилось сразу 2 фактора: канал дорос до 5.5К подписчиков и наступило аж 400 дней на новом месте работы -- пора сделать апдейт про канал и меня

Чем я занимаюсь?
Магия дискавери: помогаю найти неочевидные и полезные товары в Я.Маркете.
На фотках к посту 3 неочевидных товара, которые я нашел в своих же рекомендациях

Кстати, "магия дискавери" - реальное название одной команды в я.картах!

Поформальнее, руковожу командами AI для персонализации и продуктовыми аналитиками:
60% - рексис: DL + классика + аналитика
20% - поиск и crm: персональное ранжирование + аналитика
15% - content intelligence с LLM, скажем так
5% - реклама

До этого из области RecSys построил с нуля все рекомендации в Delivery Club, внедрил R&D в Wildberries
А еще активно зарабатывал деньги для компаний классическим ML: оптимизация цен и промо-акций, автоматический заказ товаров на склады, планирование смен курьеров. Ну и конечно А/В тестировал все это дело! Довелось даже построить 2 платформы А/В: в Delivery Club и Лавке

На канале пишу о том, как преодолеть путь от ML модели до реального Value для бизнеса. И какие грабли я собрал на этом пути за 10 лет

👍 Самые залайканные / обсуждаемые посты с хэштегами
- Как впихнуть все интересы пользователя в один экран приложения? Новинки в DL RecSys: ARGUS-1B #recsys
- Серия про оптимизацию цен на товары #pricing
- Прогноз спроса и метрики регрессии: от RMSE до WAPE. Сколько товаров заказать на склад? #timeseries
- 13 способов ускорить АВ тест или “не CUPED-ом единым” #ab
- 70% фейлят ML system design собеседование #hiring #system_design
- Что тебя ждет при переходе team lead —> head of ML #career

💡Написать мне: @Ivan_maksimov
Можно позвать меня рассказать что-то интересное на конференции или в вашей компании, обсудить занятную ml-задачу, или проконсультироваться на счет ml-проекта

👍27🔥14❤4✍4😢2

1.91K views07:56

ML for Value / Ваня Максимов

ML for Value / Ваня Максимов pinned a photo

08:44

About

Blog

Apps

Platform