WB Space
1.13K subscribers
295 photos
4 videos
4 files
119 links
WB Space — канал про технологии в области машинного обучения в Wildberries. Рассказываем, как при помощи ML маркетплейс становится лучше для продавцов и покупателей, делимся анонсами и полезным материалами от экспертов.
Download Telegram
🔍Начался осенний сезон конференций — где послушать доклады Wildberries & Russ про ИИ, ML, MLOps?

Наших экспертов можно будет найти на Pactical ML Conf, Стачке, Smart Data и других ивентах в ближайшие недели. Присоединяйтесь — будет интересно!

🔥 — приду на конфы офлайн
🆒 — подключусь к онлайну
⚡️ — жду видеозаписи докладов

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍4🆒432
Универсальные модели в видеоаналитике: единый фундамент для множества задач

Камеры видят все. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надежно и без тонны ручной работы это происходит


Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ, рассказал, как комбинация Self-supervised, Zero-Shot, мультимодальности позволила создать универсальную архитектуру для видеоаналитики на складах и ПВЗ:
архитектура единого Backbone и подход к его self-supervised обучению
Zero-Shot и мультимодальные методы для автоматизации разметки
масштабирование решения под десятки задач без переобучения.

Подробности — в статье!

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2🆒1
CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса

Никита Романов, Tech Lead продуктов «Поиск по фото» и «Похожие по фото», рассказал, как получилось сделать поиск, понимающий картинки, текст и контекст 🔎

Хайлайты статьи:
YOLO+OCR извлечение объектов и текста с изображений
SigLIP 2 эмбеддинги для сравнения картинок и запросов
Qdrant → векторная база, 400 млн объектов, latency ~250 мс
LLM/VLM → генерация тегов и уточнений к запросу
MRL-подход → +3 % к метрикам без новых данных

Узнать больше — хабростатья...

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥7🆒51
Делимся экспертизой и опытом со студентами: 18 октября совместно с МИФИ провели образовательный интенсив по AI&DS 🤓

Участники получили опыт работы с реальным кейсом в ML-соревновании на платформе WB Space. Кстати, следите за новостями: скоро появятся первые открытые соревнования на платформе!

Подробнее о том, как прошла встреча, читайте ниже ↓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍3
Forwarded from WB Level Up
МИФИ х RWB: образовательный интенсив по AI&DS 🏆

18 октября студенты МИФИ узнали больше о направлении Data Science в Wildberries & Russ и попробовали применить свои знания на практике, ориентируясь на реальные задачи компании.

1️⃣ Эксперты Wildberries & Russ — Head of DS Александр Сидоров и CV Engineer Олег Хохлов — рассказали студентам о применении DS/ML/AI в e-commerce, проектах компании, сложностях и вызовах в задачах, а также вариантах их решения.

2️⃣ 25 студентов приняли участие в соревновании на платформе WB Space, где решили задачу многоклассовой классификации и создали модель, которая может автоматически определять категорию каждой карточки товара, используя её текстовое описание и изображение.

Формат интенсива МИФИ x RWB стал идеальной связкой: сначала студенты погрузились в экспертизу и реальные процессы от практиков, затем сразу же закрепили знания в ML-соревновании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥51
#дайджест_wbs возвращается! Рассказываем о новинках последних недель:

👆 Новая версия модели Qwen3‑VL
Это мультимодальная нейросеть, совмещающая обработку изображений, видео и OCR при поддержке контекста до 256 тыс. токенов (и до 1 млн при необходимости).
После обновления появилась бо́льшая масштабируемость: теперь библиотеки llama.cpp поддерживают GGUF-формат этих моделей, что облегчает запуск локально.
Это классный шаг для визуально-лексических моделей, предлагающий использование VL-архитектур как в исследовательских, так и в прикладных задачах.

👆 Hugging Face выпустили The Smol Training Playbook
Подробное (более 200 страниц) руководство по созданию современных LLM объясняет, что, почему и как. В руководстве описано, как выбрать архитектуру, данные и инфраструктуру.
В чем плюс? Информация по обучению лежит в одном месте, дает системный фреймворк принятия решений, а реальные примеры чужих «ошибок» помогают избежать своих. Однако читается не моментально, материала много и он не рассчитан на новичков в сфере.

👆 «Sleep Mode» появился в библиотеке vLLM
Новая функция позволяет сервировать несколько больших моделей на одном GPU без повторной полной загрузки: при переключении модели она переходит в «спящий» режим (offload в CPU RAM или сброс весов), и пробуждается за доли секунды.
Переключение стало в 18-200× быстрее, а время инференса на 61-88% меньше, чем при холодной загрузке. Это важно на GPU с ограниченной памятью и при работе с несколькими моделями: теперь можно быстро менять модели без длительной задержки и большого расхода ресурсов.


Комментарии подготовили ML- и DS-специалисты Wildberries 💘
🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95🆒4
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Как команда персональных рекомендациях Wildberries развивает WildBERT: от офлайновой модели на заказах до nearline-инференса и гибридной выдачи?

Иван Ващенко, Lead по развитию нейросетевых моделей в персональных рекомендациях, в статье на Хабре рассказал:
➡️ как устроен Head-to-Head A/B-подход
➡️ какие гипотезы дали прирост GMV, а какие не сработали и почему
➡️ как добавляли признаки пользователя, повышали разнообразие выдачи и запускали BERT в онлайне поверх Kafka и Triton.

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🤔21🆒1
Wildberries & Russ на фестивале Cookie Fest 2025

🏆 На Дне IT-карьеры Cookie Fest команда Wildberries & Russ провела хакатон на собственной платформе для соревнований. Студенты старших курсов технических и IT-направлений решали задачу поиска дубликатов товаров: разрабатывали ML-модели для точного определения дубликатов товаров по названиям, описаниям и фотографиям.

10 декабря подвели итоги среди 90 участников хакатона: топ-3 решения разделили денежные призы и получили фирменный мерч, а топ-10 — памятные подарки от компании ⭐️

Как это было? Смотри фотоотчет и видео с награждения призеров!

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4👍2
Начнем неделю с полезного? Собрали для вас интересные новости в #дайджест_wbs 👇

➡️ GPT-5.2 от OpenAI
Шаг вперед в reasoning и reliability: улучшены кодинг, аналитика, работа с большими документами и визуальными входами. Модель стабильнее, быстрее и показывает лучшие результаты на ключевых бенчмарках по сравнению с прошлым поколением и аналогами.

➡️ Transformers v5 от Hugging Face
Ставка на полную совместимость: теперь библиотека сфокусирована на PyTorch, перешла на модульную архитектуру и внедрила квантование как нативную функцию, добавив специализированные ядра для ускорения. Это удобно: можно обучить модель в Unsloth/Axolotl и тут же запустить в vLLM или локально через llama.cpp без лишней боли.

➡️ Gemini 3 Deep Think от Google
Это режим с улучшенным рассуждением для сложных задач в математике, науке и логике. Технология использует параллельное рассуждение для одновременной проверки нескольких гипотез, достигая рекордных 45.1% в ARC-AGI-2 (с кодом) и 41.0% в Humanity's Last Exam. Модель глубоко анализирует варианты, опираясь на успехи олимпиадных систем Google.

➡️ Qwen-Image-i2L от DiffSynth-Studio
Инструмент умеет генерировать LoRA-веса прямо из одного изображения. Четыре варианта (Style, Coarse, Fine, Bias) позволяют сохранять стили и содержание, ускоряя создание кастомных генеративных моделей.

💫 Paper2Slides стал open source
Проект автоматически превращает научные статьи в структурированные презентации, извлекая ключевые идеи, формулы и иллюстрации. Подходит для ресерча и быстрых докладов.


Комментарии подготовили ML- и DS-специалисты Wildberries 💘

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍32
Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

В новой Хабр-статье Татьяна Кутузова, ML Engineer в Trust & Safety, рассказала, как команда подошла к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения.

А еще:
🟣 CV-классификация в условиях сильного дисбаланса классов и редких positive-примеров
🟣 формирование датасета: реальные фото товаров и изображения генеративных моделей
🟣 анализ ошибок через confusion matrix вместо ориентации на агрегированные метрики
🟣 выбор метрик под задачу: precision, recall, specificity, F-beta, пороги
🟣 разрыв между offline-валидацией и реальным качеством модели в продакшне

Читать статью!

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🆒3👍1
С наступающим Новым годом!

🚗 Пусть 2026-й принесет баланс между сложными инженерными задачами, интересными проектами и жизнью вне работы. Желаем здоровья, энергии на масштабные идеи, понятных метрик, устойчивых систем и только полезных неожиданностей — в жизни и в продакшне.

Отдельно благодарим всех, кто был с нами в этом году: читал посты, делился мнениями, участвовал в митапах и просто оставался в канале. Для нас это важно и ценно.

Команда Wildberries & Russ 💘

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
9🎉6🍾4
2026 год уже начался, а мы так и не подвели итоги 2025! В прошлом году эксперты Wildberries & Russ активно делились подробностями проектов, актуальных решений и подходов в ML / DS / AI: например, в статьях на Хабре 😱

Собрали для вас интересные тексты:
📎 CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса
📎 Неочевидные подробности обучения двухбашенных моделей
📎 Современные подходы к матчингу товаров с использованием LLM. Опыт в e-commerce
📎 Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования
📎 Универсальные модели в видеоаналитике: единый фундамент для множества задач
📎 Быстрый матчинг товаров на маркетплейсе Wildberries
📎 Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Приятного чтения! Следите за постами в канале, чтобы не пропустить подборку видеозаписей докладов наших спикеров ⭐️

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍5
О чем рассказывали эксперты Wildberries & Russ в 2025?

Перед стартом сезона конференций v.2026, вспомним, где выступали наши спикеры в прошлом году. Делимся несколькими видеозаписями ⬇️

🔴 «Кластерные рекомендации и интересы в персонализации: как не разориться на инфраструктуре при постоянном росте количества пользователей» | Евгений Иванов, Lead RecSys MLE
🔴 «Горизонтальный ML: в чем особенности создания и развития команды без собственного продукта?» | Олег Дурандин, Head of HML
🔴 «Эффективный подход к контролю качества моделей антифрода» | Юлиан Гилязев, DS в команде репутации пользователей
🔴 "Building an MLOps Platform for 300+ ML/DS Specialists on Top of Airflow" | Александр Широков, Роман Хоменко, Тарасов Алексей, MLOps Team, RecSys
🔴 «Знаешь что это за слово? а оно есть», или как всегда быть в курсе модных словечек в спеллчеке в Поиске» | Аня Текучева, DS в HML (NLP/RecSys)
🔴 «Мультимодальная модерация на высокой скорости: LLM и VLM в реальном проде» | Екатерина Крюкова, DS Team Lead
🔴 «Агентный подход к матчингу товаров с помощью LLM» | Виталий Кулиев, DS Tech Lead
🔴 «Инкремент vs Эксперимент. Как снизить неопределённость при разработке ML-моделей» | Андрей Тюняткин, ML/DS Team Lead на Портале Продавца
🔴 «Видеосегментация процессов на складе» | Геворг Оганесян, DS в команде видеоаналитики
🔴 «Организация регулярных ML-пайплайнов как часть MLOps-платформы для десятка команд» | Даниил Понизов, Team Lead MLOps
🔴 «От текстового энкодера к росту GMV: как улучшить товарные рекомендации» | Илья Бадекин, DS в команде товарных рекомендаций

Не забыли и про записи наших митапов:
⭐️ Trust & Safety AI Meetup: VK, YouTube
⭐️ RecSys Meetup: VK, YouTube

Приятного просмотра!

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3🆒2
#дайджест_wbs: какие обновления в Data Science за время праздников запомнились больше всего? Ловите нашу подборку 👇

🌟 DeepSeek предложили новую вариацию трансформера
DeepSeek вводит manifold-constrained hyper-connections: в методе расширенные residual-пути проецируются на ограниченное пространство, что сохраняет идентичность сигнала и предотвращает взрыв градиентов, обеспечивая более стабильное и масштабируемое обучение моделей с десятками миллиардов параметров.

🌟 Tencent выпустила WeDLM-8B-Instruct
Это открытая LLM с диффузионным декодированием. Модель генерирует ответы параллельно, работает в 3–6 раз быстрее и на ряде бенчмарков превосходит другие 8B-модели, показывая потенциал нового подхода к ускорению языковых моделей.

🌟 Technology Innovation Institute выпустили компактную Falcon H1R 7B
Модель обучали с использованием cold-start supervised fine-tuning и RL с GRPO, что позволило быстро сформировать базовые reasoning-навыки и затем целенаправленно улучшить качество рассуждений без роста параметров, тем самым приблизив 7B-модель к уровню существенно более крупных LLM.

🌟 OpenAI запускает ChatGPT Health
Это раздел, который помогает готовиться к приему врача и разбираться с повседневными вопросами здоровья. Система не использует данные для обучения, разработана при участии более 260 врачей и проходит оценки по клиническим стандартам.
Интересная фича — возможность загрузить все свои медицинских данных, от снимков и анализов до результатов тренировок с часов.

Комментарии подготовили ML- и DS-специалисты Wildberries 💘

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍2