Yandex for ML
14.6K subscribers
694 photos
47 videos
1 file
313 links
Yandex for ML — канал для ML-сообщества от Яндекса, митапы, активности и место встречи специалистов в сфере анализа данных.

Чат → https://t.iss.one/+OsKnLNG-7DE1ZTFi
Youtube → https://youtube.com/@YandexforML

По вопросам @Ekaterina_Lyagina

___
Download Telegram
👷 ICLR 2025: что почитать

ICLR — топ-2 среди мировых конференций по AI, ML и DS. Мы уже делились собственными публикациями, а в этом посте коротко расскажем о самых запоминающихся материалах.

🔛 Авторы подборки — Алексей Спасёнов и Кирилл Никоров из ML-команды Мультимедиа Поиска Яндекса. Листайте карточки или читайте большой обзор на Хабре.

P. S. А вот ссылки на все статьи, упомянутые в карточках:

⚪️ Multi‑Field Adaptive Retrieval
⚪️ In Search of Forgotten Domain Generalization
⚪️ On the Convergence of No‑Regret Dynamics in Information Retrieval Games with Proportional Ranking Functions
⚪️ TULIP. Token‑length Upgraded CLIP
⚪️ Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large‑Scale Product Retrieval Evaluation
⚪️ Interpreting the Second‑Order Effects of Neurons in CLIP
⚪️ TeaserGen: Generating Teasers for Long Documentaries

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍147🔥1
🔗 Новинки ICLR, скрытые гемы для путешествий от Алисы, гуманоидные роботы
и рекомендации без кандидатогенерации — всё это в новом ML-дайджесте


🚙 Куда сходить

⚪️ 27 июля — AI Dev Day. Первый митап Яндекса про AI для разработки. Поговорим о том, как агенты ускоряют процессы, помогают работать с кодом и автоматизируют рутинные задачи

🌎 Что случилось

⚪️ Нейросеть Алиса нашла самые необычные места в Яндекс Картах. В её путеводителе по России есть пещерные города, православная церковь в виде пирамиды, парк с мамонтами и музей с ледяными скульптурами

⚪️ YFM Qwen теперь в реалтайме. Модель развёрнута в облаке с API и совместима с OpenAI. С её помощью можно решать задачи с рассуждениями, строить агенты и реализовывать кодовые сценарии

📖 Что почитать

⚪️ Что такое ARGUS и что у него под капотом. Ребята из команды Кирилла Хрыльченко рассказывают, как с помощью нейросетей масштабировать рекомендательные трансформеры до миллиарда параметров и успешно внедрить их в сервисы

⚪️ Инсайды о двуногих роботах Яндекса. Как они прошли эволюцию от состояния «дёргается и падает» до «ходит плавно 500 шагов подряд»

⚪️ Как мы оптимизируем код в рекомендациях Яндекс Лавки. Марк Нарусов, ML-разработчик группы рекомендательных сервисов в Лавке, рассказал, как его команда решила отказаться от кандидатогенерации (и почему это пошло на пользу)

⚪️ ICLR 2025: большой обзор новинок. Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса рассказали о свежих направлениях исследований в AI, ML и DS. В подборке: текстовые модели, теория игр, MLLM и многое другое. Основные хайлайты выложили в карточках у нас в канале

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥3
🧿 Как выглядит архитектура индексации миллиарда векторов

С нами связался Александр Зевайкин, руководитель группы разработки ядра распределённой отказоустойчивой базы данных YDB. Недавно ребята добавили туда поиск по векторным индексам. Это очень важная, но сложная в реализации фича: чтобы выкатить её в прод, нужно решить проблемы с производительностью и масштабируемостью.

👷 Как нам всё же удалось спроектировать решение, которое может выдержать нагрузку при поиске в миллиарды объектов — читайте в наших новых архитектурных ML-карточках.

Недавно Александр выступил с докладом, в котором подробно показал, какие варианты архитектуры ребята успели перепробовать, прежде чем всё завелось. Посмотреть его можно здесь.

🔳 А ребята из Yandex Cloud скоро проведут вебинар по реализации сценария RAG на своей СУБД. Тема — «Семантический поиск на базе YDB и LangChain». Регистрируйтесь!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6🔥2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Yandex Robotics Day уже 16 августа!

На складах многих крупных компаний трудятся роботы Яндекса: наши железные друзья помогают быстро проводить инвентаризацию, собирать посылки и перемещать заказы. Чтобы всё работало как надо, специалисты Яндекс Роботикс постоянно улучшают софт устройств. Именно об этом они расскажут на митапе:

⚪️ Серёжа Стариков, руководитель подгруппы Телеметрия. Выступит с докладом про коммуникационную платформу Yandex Robotics и её применение

⚪️ Дима Мовчан, руководитель команды навыков робота. Расскажет о создании умной роборуки с помощью imitation learning и RL

⚪️ Максим Пшибло, тимлид команды разработки ядра Yandex RMS. Объяснит, как управлять несколькими роботами с помощью Yandex Robotics Management System и какие алгоритмы ей необходимы

↔️ А ещё в программе:

⚪️ Презентация нового робота
⚪️ Выставка механических трудяг, которые уже вовсю работают на складах
⚪️ Нетворкинг и афтерпати с экспертами Яндекс Роботикс

🔳 Регистрируйтесь по ссылке и зовите коллег!

🌠 Мероприятие бесплатное. Количество офлайн-мест ограничено — пожалуйста, дождитесь нашего подтверждения в почте.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
8
🛎 Открылась регистрация на big tech night

big tech night — «Ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda 12 сентября в Москве откроют двери своих офисов для тех, кто любит технологии.

Присоединяйтесь, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время. В программе — доклады, экскурсии-погружения, лаборатория софт-скилов, роботы, гик-вечеринка и многое другое.

Всего будет 5 треков докладов, каждый привязан к конкретной площадке:

⚪️ Next-Gen Development — офис Яндекса
⚪️ Мультиагентные системы в продукте и бизнес-процессах — офис Сбера
⚪️ Архитектура и управление сложными системами — офис X5
⚪️ AI для SDLC: от кода до прода — офис Т-Банка
⚪️ Создание инфраструктуры для разработки и управление ей — офис Lamoda

Как зарегистрироваться:

🔛 Зайти на этот сайт
🔛 Выбрать 3 локации, которые вы хотите посетить за ночь

Но помните, что первая локация — ключевая. Начать обязательно нужно будет с неё. Здесь вы получите велком-пак big tech night с бейджем и браслетом участника. Он позволит пройти на остальные площадки. Второй и третий офисы можно будет поменять местами, если потребуется.

💻 А ещё можно подключиться онлайн, если вы не в столице.

🛄 Будем ждать вас в офисе Яндекса!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7👀5
📕 Новый мозг для робота: VLA и LLM

В 2024 году большие языковые модели начали дешифровать хаос реального мира: распознавать объекты, объяснять намерения и даже писать код для микроконтроллеров. В эволюции роботов это примерно то же самое, что литийионные аккумуляторы в индустрии ноутбуков.

Раньше всё приходилось делать вручную. LLM же открыли окно возможностей: робот понимает команду (даже в свободной форме), раскладывает её на план действий, анализирует свои ошибки и обучается в прямом эфире. Та же модель, которая распознаёт кота на фото, теперь помогает роботу опознать чашку и понять, что с ней делать.

В статье рассказываем:

⚪️ Чем GPT-мозг круче старой цепочки perception → planning → control
⚪️ Зачем скрещивать Classic Stack, RL-контроллеры и VLA (Vision‑Language‑Action)
⚪️ Как прокачать робота от базовых движений до полноценного помощника

🔳 Читайте статью на Хабре. Внутри: архитектура решения для тех, кто работает с роботами, и всех, кто интересуется технологиями будущего.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥6👏3
Media is too big
VIEW IN TELEGRAM
🎼 Как мы создали виртуального диктора и научили его читать

В прошлом году на Practical ML Conf было много крутых выступлений. Например, доклад Степана Комкова из службы синтеза речи Яндекса о том, как ребята разрабатывали виртуального рассказчика для Букмейта.

Степан рассказал, как родилась эта идея, как команда её воплотила и какие у службы синтеза планы на будущее. В видео показываем принцип устройства базовой модели, а о предыстории и деталях написали ниже

⚪️ Букмейт в числах — это примерно 250 тысяч книг

За год до начала нашего проекта пользователи прослушали около 4 миллионов часов аудиокниг через обычную читалку в браузере. Мы восприняли это как сигнал: нужно дать людям возможность слушать как можно больше книжек в хорошем качестве.

⚪️ Как это сделать?

Профессиональные дикторы — удовольствие дорогое, а базовый синтез речи требует ручной полировки. Поэтому мы решили разработать автоматизированного виртуального рассказчика, который сэкономит нам как время, так и деньги.

⚪️ Проблема в том, что сгенерированная речь сильно утомляет

Поэтому перед нами встало сразу несколько задач: научить виртуального рассказчика читать немонотонно, с паузами, имитацией дыхания и разнообразными интонациями и эмоциями. В общем, синтез должен быть по-человечески неидеальным.

⚪️ Так мы положили начало проекту

В прошлом году мы запустили виртуального рассказчика. Сначала использовали Tacotron с контекстным контролем через PnG BERT, который помогал согласовывать интонацию между предложениями и избегать монотонности. Сейчас же мы переходим на next-gen-методы: модель Tortoise, где GPT-подобная архитектура генерирует токены звука, а кодек превращает их в аудиодорожку.

🔳 Полный доклад Степана ищите в VK Видео и на ютубе — там же будет плейлист с другими выступлениями прошлого года.

🛄 А мы уже открыли регистрацию на PML Conf 2025. Скорее заполняйте форму: чем раньше вы это сделаете, тем больше у вас будет шансов попасть на офлайн.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍2