WB Space
1.13K subscribers
295 photos
4 videos
4 files
119 links
WB Space — канал про технологии в области машинного обучения в Wildberries. Рассказываем, как при помощи ML маркетплейс становится лучше для продавцов и покупателей, делимся анонсами и полезным материалами от экспертов.
Download Telegram
#заглянем_под_капот

HML/NLP&RecSys — еще одно из направлений Горизонтального ML 🖥

Команда занимается задачами, связанными с текстами, рекомендациями и персонализацией. Помимо этого решения могут быть использованы в любых смежных областях, от классического ML до алгоритмов из квантовой физики.

Например, сейчас в проде находятся несколько проектов. Расскажем о двух из них: нейросетевом алгоритме для исправления опечаток, MMR & DPP. Подробности уже на карточках ⬆️

🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
#мнение_эксперта #AiConf
Мультимодальные рекомендации
в Wildberries


Степан Евстифеев, Lead направления мультимодальных рекомендаций, рассказал про внутренний трансформер, который использует информацию из картинки, текста и атрибутов карточки товара.

Wildberries — один из крупнейших маркетплейсов в России. Обучить «академический» SASRec на реальных данных уже не выйдет. Что делать тогда?


О чем еще рассказал Степан?
Введение в мультимодальные рекомендации
Актуальная архитектура рекомендаций на главной странице сейчас
Как добавить мультимодальность в SASRec
Какие есть нюансы в реализации
Алгоритмы постпроцессинга для увеличения разнообразия выдачи

Презентация доклада доступна по ссылке 🖥

Больше о рекомендациях Wildberries:
🌟 @wildrecsys
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Может ли TF-IDF после тюнига стать основой «поисковика» релевантных товаров и побить BERT4Rec в ретро-тесте рекомендательной системы?

Рассказал Коновалов Андрей, Data Scientist персональных рекомендаций Wildberries, в статье на Хабре.

Больше о рекомендациях Wildberries:
🌟 @wildrecsys
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥63🤨3🙏1
#мнение_эксперта #AiConf

Привет! Делимся видеозаписями докладов Wildberries с прикладной конференции по Data Science AiConf 2024 🎤

Мультимодальные рекомендации
в Wildberries

Степан Евстифеев, Lead направления мультимодальных рекомендаций
YouTube
Тезисы

WildBERT: развитие трансформерных архитектур для персонализации Wildberries
Иванов Евгений, Lead RecSys ML Engineer
YouTube
Тезисы

Больше о рекомендациях Wildberries:
🌟 @wildrecsys
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥4👍2
Перезапускаем рубрику #дайджест_wbs: теперь больше деталей к каждому из инфоповодов!

Читайте пилотный выпуск и оставляйте реакции на новый формат 🔥💜👍

➡️ Pixtral-Large-Instruct-2411 — новая модель от Mistral
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).

Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).

➡️ Релиз Stability AI : модели ControlNet для Stable Diffusion 3.5 Large
Теперь можно точно контролировать генерацию изображений:
Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
Blur: обеспечивает качественное увеличение изображений через обработку фрагментов.

Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.

➡️ Nvidia Labs представили SANA
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).

Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.

Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.

➡️ Smol course — практический курс от Huggingface
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.



Комментарии подготовили ML- и DS-специалисты Wildberries 💘

Подписывайтесь, чтобы быть в курсе новостей:
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥4👍2
Разберем еще несколько инфоповодов в рамках рубрики #дайджест_wbs 👇

➡️ OpenAI выпустили модель o1-Pro
Теперь возможно написание более качественного кода, создание искусственных данных, которые в построении собственных моделей смогут улучшить их производительность в целом.

➡️ Google представили новые языковые модели PaliGemma 2
Модели мультиязычны и были обучены в том числе на большом корпусе русского языка. Сильные VLM-модели для своего скейла и, возможно, одни из самых сильных для многих языков кроме английского.

Был дообучен визуальный энкодер ViT-SO400M (который стал де-факто стандартом во многих задачах CV) с несколькими языковыми декодерами и на разных разрешениях изображений. До этого публично доступными были только веса энкодеров до 336x336 пикселей, теперь же есть размеры 448x448, 896x896.

В отличие от предыдущих моделей, выходом является не единственный агрегированный вектор, а вектора всех визуальных токенов, так что для внедрения подобной модели в продакшен CV необходимо дообучать агрегацию.

➡️ OLMo 2 — новое поколение полностью открытых языковых моделей
7 и 13 миллиарда параметров, обученные на объемах данных до 5 триллионов токенов. Эти модели демонстрируют производительность, сопоставимую или превосходящую аналоги с открытым исходным кодом, такие как Llama 3.1, на академических тестах на английском языке.

Вместе с поколением моделей сам репозиторий предоставляет возможность реализовать двухступенчатое обучение моделей, где на первом этапе используется огромный объем веб-данных, а на втором — целенаправленные высококачественные данные для улучшения точности.

➡️ NVIDIA анонсировала GenAI-модель Fugatto для генерации звука
Это новая модель для синтеза и трансформации звуков, которая использует уникальную технику ComposableART. Она позволяет не только генерировать привычные звуки, но и создавать совершенно новые, например, «саксофон, который лает».



Комментарии подготовили ML- и DS-специалисты Wildberries 💘

Подписывайтесь, чтобы быть в курсе новостей:
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍2
Современные подходы к мэтчингу товаров с использованием LLM

Виталий Кулиев, Data Science Tech Lead Wildberries, на конференции HighLoad++ 2024 рассказал про примеры использования LLM для извлечения атрибутов товаров и их дальнейшего мэтчинга 🎙

Мэтчинг товаров (выяснение, являются ли два товара одинаковыми) важен для бизнеса Wildberries и других маркетплейсов. Используемые в нем современные LLM (large language model) органично дополняют классические алгоритмы машинного обучения.


Доклад будет полезен всем, кто интересуется применением LLM (GPT-4o, Llama 3, InternVL2, Qwen2.5, Qwen2-VL) для решения продуктовых задач.

Приятного просмотра!
#мнение_эксперта

Кстати, на YouTube-канале Виталия вы найдете больше видео про ML, AI, DS и другие технологии 🌐


🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍4
#wb_в_деле
В течение 2024 мы активно рассказывали про Data Science Wildberries: о внутреннем устройстве юнита, спикерах, докладах на конференциях и статьях. Даже собирались в офисе компании на очный ML Meetup 🔥

И в качестве итогов года собрали в одном месте материалы об интересных проектах и решениях команды 🔄

Посмотреть:
Применение ML в продуктах и внутренних процессах Wildberries: YouTube
WildBERT — развитие трансформерных архитектур для персонализации Wildberries: YouTube
Оптимизация работы маркетплейса с помощью языковых моделей: YouTube
Современные подходы к мэтчингу товаров с использованием LLM: YouTube
Графовые нейронные сети в рекомендациях: YouTube
Мультиязычный текстовый энкодер в похожих товарах: YouTube
Жаргон и именованные сущности в спеллчеке в Поиске: YouTube
Retrieval-recsys: как использовать Sentence Transformer для персональных рекомендаций: YouTube
Advanced RAG Pipelines: YouTube
Как мы боролись со спамом в отзывах: YouTube
LLM читает отзывы на маркетплейсе за вас: YouTube
Мультимодальные рекомендации в Wildberries: YouTube
Быстрый matching товаров на маркетплейсе Wildberries: YouTube
Создание MLOps-платформы для десятка команд на основе Airflow: YouTube

Почитать:
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях: Habr
Графовые сети в рекомендательных системах: Habr

О каких направлениях, проектах или решениях DS Wildberries вы бы хотели узнать больше? Делитесь в комментариях 💬


🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥4👍1
С наступающим Новым годом 🔴

За прошедший год здесь было опубликовано множество интересных материалов, посвященных ML, DS, RecSys и другим направлениям.

Благодарим вас за поддержку, обратную связь и активное участие в жизни канала WB Space. Оставайтесь с нами в новом году — будет еще интереснее!

Команда Wildberries 💘


🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6🍾3