#мнение_эксперта #AiConf
Привет! Делимся видеозаписями докладов Wildberries с прикладной конференции по Data Science AiConf 2024🎤
Мультимодальные рекомендации
в Wildberries
Степан Евстифеев, Lead направления мультимодальных рекомендаций
YouTube
Тезисы
WildBERT: развитие трансформерных архитектур для персонализации Wildberries
Иванов Евгений, Lead RecSys ML Engineer
YouTube
Тезисы
Больше о рекомендациях Wildberries:
🌟 @wildrecsys
🌟 @wb_space
📹 @wb_tech
Привет! Делимся видеозаписями докладов Wildberries с прикладной конференции по Data Science AiConf 2024
Мультимодальные рекомендации
в Wildberries
Степан Евстифеев, Lead направления мультимодальных рекомендаций
YouTube
Тезисы
WildBERT: развитие трансформерных архитектур для персонализации Wildberries
Иванов Евгений, Lead RecSys ML Engineer
YouTube
Тезисы
Больше о рекомендациях Wildberries:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍2
Перезапускаем рубрику #дайджест_wbs: теперь больше деталей к каждому из инфоповодов!
Читайте пилотный выпуск и оставляйте реакции на новый формат🔥 💜 👍
➡️ Pixtral-Large-Instruct-2411 — новая модель от Mistral
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).
Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).
➡️ Релиз Stability AI : модели ControlNet для Stable Diffusion 3.5 Large
Теперь можно точно контролировать генерацию изображений:
▪ Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
▪ Blur: обеспечивает качественное увеличение изображений через обработку фрагментов.
Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.
➡️ Nvidia Labs представили SANA
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).
Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.
Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.
➡️ Smol course — практический курс от Huggingface
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
Подписывайтесь, чтобы быть в курсе новостей:
🌟 @wb_space
📹 @wb_tech
Читайте пилотный выпуск и оставляйте реакции на новый формат
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).
Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).
Теперь можно точно контролировать генерацию изображений:
▪ Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
▪ Blur: обеспечивает качественное увеличение изображений через обработку фрагментов.
Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).
Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.
Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.
Комментарии подготовили ML- и DS-специалисты Wildberries
Подписывайтесь, чтобы быть в курсе новостей:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍2
Разберем еще несколько инфоповодов в рамках рубрики #дайджест_wbs 👇
➡️ OpenAI выпустили модель o1-Pro
Теперь возможно написание более качественного кода, создание искусственных данных, которые в построении собственных моделей смогут улучшить их производительность в целом.
➡️ Google представили новые языковые модели PaliGemma 2
Модели мультиязычны и были обучены в том числе на большом корпусе русского языка. Сильные VLM-модели для своего скейла и, возможно, одни из самых сильных для многих языков кроме английского.
Был дообучен визуальный энкодер ViT-SO400M (который стал де-факто стандартом во многих задачах CV) с несколькими языковыми декодерами и на разных разрешениях изображений. До этого публично доступными были только веса энкодеров до 336x336 пикселей, теперь же есть размеры 448x448, 896x896.
В отличие от предыдущих моделей, выходом является не единственный агрегированный вектор, а вектора всех визуальных токенов, так что для внедрения подобной модели в продакшен CV необходимо дообучать агрегацию.
➡️ OLMo 2 — новое поколение полностью открытых языковых моделей
7 и 13 миллиарда параметров, обученные на объемах данных до 5 триллионов токенов. Эти модели демонстрируют производительность, сопоставимую или превосходящую аналоги с открытым исходным кодом, такие как Llama 3.1, на академических тестах на английском языке.
Вместе с поколением моделей сам репозиторий предоставляет возможность реализовать двухступенчатое обучение моделей, где на первом этапе используется огромный объем веб-данных, а на втором — целенаправленные высококачественные данные для улучшения точности.
➡️ NVIDIA анонсировала GenAI-модель Fugatto для генерации звука
Это новая модель для синтеза и трансформации звуков, которая использует уникальную технику ComposableART. Она позволяет не только генерировать привычные звуки, но и создавать совершенно новые, например, «саксофон, который лает».
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
Подписывайтесь, чтобы быть в курсе новостей:
🌟 @wb_space
📹 @wb_tech
Теперь возможно написание более качественного кода, создание искусственных данных, которые в построении собственных моделей смогут улучшить их производительность в целом.
Модели мультиязычны и были обучены в том числе на большом корпусе русского языка. Сильные VLM-модели для своего скейла и, возможно, одни из самых сильных для многих языков кроме английского.
Был дообучен визуальный энкодер ViT-SO400M (который стал де-факто стандартом во многих задачах CV) с несколькими языковыми декодерами и на разных разрешениях изображений. До этого публично доступными были только веса энкодеров до 336x336 пикселей, теперь же есть размеры 448x448, 896x896.
В отличие от предыдущих моделей, выходом является не единственный агрегированный вектор, а вектора всех визуальных токенов, так что для внедрения подобной модели в продакшен CV необходимо дообучать агрегацию.
7 и 13 миллиарда параметров, обученные на объемах данных до 5 триллионов токенов. Эти модели демонстрируют производительность, сопоставимую или превосходящую аналоги с открытым исходным кодом, такие как Llama 3.1, на академических тестах на английском языке.
Вместе с поколением моделей сам репозиторий предоставляет возможность реализовать двухступенчатое обучение моделей, где на первом этапе используется огромный объем веб-данных, а на втором — целенаправленные высококачественные данные для улучшения точности.
Это новая модель для синтеза и трансформации звуков, которая использует уникальную технику ComposableART. Она позволяет не только генерировать привычные звуки, но и создавать совершенно новые, например, «саксофон, который лает».
Комментарии подготовили ML- и DS-специалисты Wildberries
Подписывайтесь, чтобы быть в курсе новостей:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3👍2
Современные подходы к мэтчингу товаров с использованием LLM
Виталий Кулиев, Data Science Tech Lead Wildberries, на конференции HighLoad++ 2024 рассказал про примеры использования LLM для извлечения атрибутов товаров и их дальнейшего мэтчинга🎙
Доклад будет полезен всем, кто интересуется применением LLM (GPT-4o, Llama 3, InternVL2, Qwen2.5, Qwen2-VL) для решения продуктовых задач.
Приятного просмотра!
#мнение_эксперта
Кстати, на YouTube-канале Виталия вы найдете больше видео про ML, AI, DS и другие технологии🌐
➿ ➿ ➿ ➿ ➿
🌟 @wb_space
📹 @wb_tech
Виталий Кулиев, Data Science Tech Lead Wildberries, на конференции HighLoad++ 2024 рассказал про примеры использования LLM для извлечения атрибутов товаров и их дальнейшего мэтчинга
Мэтчинг товаров (выяснение, являются ли два товара одинаковыми) важен для бизнеса Wildberries и других маркетплейсов. Используемые в нем современные LLM (large language model) органично дополняют классические алгоритмы машинного обучения.
Доклад будет полезен всем, кто интересуется применением LLM (GPT-4o, Llama 3, InternVL2, Qwen2.5, Qwen2-VL) для решения продуктовых задач.
Приятного просмотра!
#мнение_эксперта
Кстати, на YouTube-канале Виталия вы найдете больше видео про ML, AI, DS и другие технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤4👍4
#wb_в_деле
В течение 2024 мы активно рассказывали про Data Science Wildberries: о внутреннем устройстве юнита, спикерах, докладах на конференциях и статьях. Даже собирались в офисе компании на очный ML Meetup🔥
И в качестве итогов года собрали в одном месте материалы об интересных проектах и решениях команды🔄
Посмотреть:
◼ Применение ML в продуктах и внутренних процессах Wildberries: YouTube
◼ WildBERT — развитие трансформерных архитектур для персонализации Wildberries: YouTube
◼ Оптимизация работы маркетплейса с помощью языковых моделей: YouTube
◼ Современные подходы к мэтчингу товаров с использованием LLM: YouTube
◼ Графовые нейронные сети в рекомендациях: YouTube
◼ Мультиязычный текстовый энкодер в похожих товарах: YouTube
◼ Жаргон и именованные сущности в спеллчеке в Поиске: YouTube
◼ Retrieval-recsys: как использовать Sentence Transformer для персональных рекомендаций: YouTube
◼ Advanced RAG Pipelines: YouTube
◼ Как мы боролись со спамом в отзывах: YouTube
◼ LLM читает отзывы на маркетплейсе за вас: YouTube
◼ Мультимодальные рекомендации в Wildberries: YouTube
◼ Быстрый matching товаров на маркетплейсе Wildberries: YouTube
◼ Создание MLOps-платформы для десятка команд на основе Airflow: YouTube
Почитать:
◼ Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях: Habr
◼ Графовые сети в рекомендательных системах: Habr
О каких направлениях, проектах или решениях DS Wildberries вы бы хотели узнать больше? Делитесь в комментариях💬
➿ ➿ ➿ ➿ ➿
🌟 @wb_space
📹 @wb_tech
В течение 2024 мы активно рассказывали про Data Science Wildberries: о внутреннем устройстве юнита, спикерах, докладах на конференциях и статьях. Даже собирались в офисе компании на очный ML Meetup
И в качестве итогов года собрали в одном месте материалы об интересных проектах и решениях команды
Посмотреть:
◼ Применение ML в продуктах и внутренних процессах Wildberries: YouTube
◼ WildBERT — развитие трансформерных архитектур для персонализации Wildberries: YouTube
◼ Оптимизация работы маркетплейса с помощью языковых моделей: YouTube
◼ Современные подходы к мэтчингу товаров с использованием LLM: YouTube
◼ Графовые нейронные сети в рекомендациях: YouTube
◼ Мультиязычный текстовый энкодер в похожих товарах: YouTube
◼ Жаргон и именованные сущности в спеллчеке в Поиске: YouTube
◼ Retrieval-recsys: как использовать Sentence Transformer для персональных рекомендаций: YouTube
◼ Advanced RAG Pipelines: YouTube
◼ Как мы боролись со спамом в отзывах: YouTube
◼ LLM читает отзывы на маркетплейсе за вас: YouTube
◼ Мультимодальные рекомендации в Wildberries: YouTube
◼ Быстрый matching товаров на маркетплейсе Wildberries: YouTube
◼ Создание MLOps-платформы для десятка команд на основе Airflow: YouTube
Почитать:
◼ Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях: Habr
◼ Графовые сети в рекомендательных системах: Habr
О каких направлениях, проектах или решениях DS Wildberries вы бы хотели узнать больше? Делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥4👍1
С наступающим Новым годом 🔴
За прошедший год здесь было опубликовано множество интересных материалов, посвященных ML, DS, RecSys и другим направлениям.
Благодарим вас за поддержку, обратную связь и активное участие в жизни канала WB Space. Оставайтесь с нами в новом году — будет еще интереснее!
Команда Wildberries💘
➿ ➿ ➿ ➿ ➿
🌟 @wb_space
📹 @wb_tech
За прошедший год здесь было опубликовано множество интересных материалов, посвященных ML, DS, RecSys и другим направлениям.
Благодарим вас за поддержку, обратную связь и активное участие в жизни канала WB Space. Оставайтесь с нами в новом году — будет еще интереснее!
Команда Wildberries
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥6🍾3
#дайджест_wbs
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег👇
➡️ Релиз Deepseek-V3
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
➡️ VLM с ризонингом от Qwen
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
➡️ HuggingFace выпустили smolagents
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
🌟 @wb_space
📹 @wb_tech
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
Комментарии подготовили ML- и DS-специалисты Wildberries
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥4🤔1
Быстрый матчинг товаров на маркетплейсе Wildberries
Как проходит поиск потенциальных дублей, зачем использовать двухэтапную модель точности с Bi- и Cross-энкодерами, и причем тут community detection?
В новой статье Павел Саликов, Senior ML-Engineer Wildberries, рассказал какую задачу и на каких данных решает matching товаров на маркетплейсе.
Также поделился подробностями архитектуры подхода и показателями метрик эффективности. Кстати, в статье есть результаты последних релизов: например, прирост по выручке за последний год примерно в два раза!
Подробности читайте на Хабре✅
➿ ➿ ➿ ➿ ➿
🌟 @wb_space
📹 @wb_tech
Как проходит поиск потенциальных дублей, зачем использовать двухэтапную модель точности с Bi- и Cross-энкодерами, и причем тут community detection?
В новой статье Павел Саликов, Senior ML-Engineer Wildberries, рассказал какую задачу и на каких данных решает matching товаров на маркетплейсе.
Также поделился подробностями архитектуры подхода и показателями метрик эффективности. Кстати, в статье есть результаты последних релизов: например, прирост по выручке за последний год примерно в два раза!
Подробности читайте на Хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍9🆒3
#взгляд_изнутри
Как и чем связаны маркетплейс и большие языковые модели? Ответ точно знает команда Core LLM Wildberries🌐
Кстати, эмбеддер Core LLM используется в пайплайне от DSCA — в сервисе, который помогает отвечать на вопросы о товарах. На карточках рассказываем подробно о том, как устроено направление внутри юнита Data Science👍
🌟 @wb_space
📹 @wb_tech
Как и чем связаны маркетплейс и большие языковые модели? Ответ точно знает команда Core LLM Wildberries
Решения Core LLM — часть пазла, который встраивается в множество проектов и продуктов команд WB. Помимо прочего, здесь много экспериментов, поиска нестандартных решений и проверки различных гипотез.
Кстати, эмбеддер Core LLM используется в пайплайне от DSCA — в сервисе, который помогает отвечать на вопросы о товарах. На карточках рассказываем подробно о том, как устроено направление внутри юнита Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2🆒2