Yandex for ML

👷

ICLR 2025: что почитать

ICLR — топ-2 среди мировых конференций по AI, ML и DS. Мы уже делились собственными публикациями, а в этом посте коротко расскажем о самых запоминающихся материалах.

🔛 Авторы подборки — Алексей Спасёнов и Кирилл Никоров из ML-команды Мультимедиа Поиска Яндекса. Листайте карточки или читайте большой обзор на Хабре.

P. S. А вот ссылки на все статьи, упомянутые в карточках:

⚪️

Multi‑Field Adaptive Retrieval

⚪️

In Search of Forgotten Domain Generalization

⚪️

On the Convergence of No‑Regret Dynamics in Information Retrieval Games with Proportional Ranking Functions

⚪️

TULIP. Token‑length Upgraded CLIP

⚪️

Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large‑Scale Product Retrieval Evaluation

⚪️

Interpreting the Second‑Order Effects of Neurons in CLIP

⚪️

TeaserGen: Generating Teasers for Long Documentaries

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤7🔥1

4.63K views11:34

Yandex for ML

🔗

Новинки ICLR, скрытые гемы для путешествий от Алисы, гуманоидные роботы
и рекомендации без кандидатогенерации — всё это в новом ML-дайджесте

🚙 Куда сходить

⚪️

27 июля — AI Dev Day. Первый митап Яндекса про AI для разработки. Поговорим о том, как агенты ускоряют процессы, помогают работать с кодом и автоматизируют рутинные задачи

🌎 Что случилось

⚪️

Нейросеть Алиса нашла самые необычные места в Яндекс Картах. В её путеводителе по России есть пещерные города, православная церковь в виде пирамиды, парк с мамонтами и музей с ледяными скульптурами

⚪️

YFM Qwen теперь в реалтайме. Модель развёрнута в облаке с API и совместима с OpenAI. С её помощью можно решать задачи с рассуждениями, строить агенты и реализовывать кодовые сценарии

📖 Что почитать

⚪️

Что такое ARGUS и что у него под капотом. Ребята из команды Кирилла Хрыльченко рассказывают, как с помощью нейросетей масштабировать рекомендательные трансформеры до миллиарда параметров и успешно внедрить их в сервисы

⚪️

Инсайды о двуногих роботах Яндекса. Как они прошли эволюцию от состояния «дёргается и падает» до «ходит плавно 500 шагов подряд»

⚪️

Как мы оптимизируем код в рекомендациях Яндекс Лавки. Марк Нарусов, ML-разработчик группы рекомендательных сервисов в Лавке, рассказал, как его команда решила отказаться от кандидатогенерации (и почему это пошло на пользу)

⚪️ ICLR 2025: большой обзор новинок. Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса рассказали о свежих направлениях исследований в AI, ML и DS. В подборке: текстовые модели, теория игр, MLLM и многое другое. Основные хайлайты выложили в карточках у нас в канале

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍6🔥3

4.89K views10:01

Yandex for ML

🧿

Как выглядит архитектура индексации миллиарда векторов

С нами связался Александр Зевайкин, руководитель группы разработки ядра распределённой отказоустойчивой базы данных YDB. Недавно ребята добавили туда поиск по векторным индексам. Это очень важная, но сложная в реализации фича: чтобы выкатить её в прод, нужно решить проблемы с производительностью и масштабируемостью.

👷 Как нам всё же удалось спроектировать решение, которое может выдержать нагрузку при поиске в миллиарды объектов — читайте в наших новых архитектурных ML-карточках.

Недавно Александр выступил с докладом, в котором подробно показал, какие варианты архитектуры ребята успели перепробовать, прежде чем всё завелось. Посмотреть его можно здесь.

🔳 А ребята из Yandex Cloud скоро проведут вебинар по реализации сценария RAG на своей СУБД. Тема — «Семантический поиск на базе YDB и LangChain». Регистрируйтесь!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍6🔥2🦄1

4.79K views12:03

Yandex for ML

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🤖

Yandex Robotics Day уже 16 августа!

На складах многих крупных компаний трудятся роботы Яндекса: наши железные друзья помогают быстро проводить инвентаризацию, собирать посылки и перемещать заказы. Чтобы всё работало как надо, специалисты Яндекс Роботикс постоянно улучшают софт устройств. Именно об этом они расскажут на митапе:

⚪️ Серёжа Стариков, руководитель подгруппы Телеметрия. Выступит с докладом про коммуникационную платформу Yandex Robotics и её применение

⚪️ Дима Мовчан, руководитель команды навыков робота. Расскажет о создании умной роборуки с помощью imitation learning и RL

⚪️ Максим Пшибло, тимлид команды разработки ядра Yandex RMS. Объяснит, как управлять несколькими роботами с помощью Yandex Robotics Management System и какие алгоритмы ей необходимы

↔️ А ещё в программе:

⚪️ Презентация нового робота
⚪️ Выставка механических трудяг, которые уже вовсю работают на складах
⚪️ Нетворкинг и афтерпати с экспертами Яндекс Роботикс

🔳 Регистрируйтесь по ссылке и зовите коллег!

🌠

Мероприятие бесплатное. Количество офлайн-мест ограничено — пожалуйста, дождитесь нашего подтверждения в почте.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8

3.71K views09:01

Yandex for ML

🛎

Открылась регистрация на big tech night

big tech night — «Ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda 12 сентября в Москве откроют двери своих офисов для тех, кто любит технологии.

Присоединяйтесь, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время. В программе — доклады, экскурсии-погружения, лаборатория софт-скилов, роботы, гик-вечеринка и многое другое.

Всего будет 5 треков докладов, каждый привязан к конкретной площадке:

⚪️ Next-Gen Development — офис Яндекса
⚪️ Мультиагентные системы в продукте и бизнес-процессах — офис Сбера
⚪️ Архитектура и управление сложными системами — офис X5
⚪️ AI для SDLC: от кода до прода — офис Т-Банка
⚪️ Создание инфраструктуры для разработки и управление ей — офис Lamoda

Как зарегистрироваться:

🔛 Зайти на этот сайт
🔛 Выбрать 3 локации, которые вы хотите посетить за ночь

Но помните, что первая локация — ключевая. Начать обязательно нужно будет с неё. Здесь вы получите велком-пак big tech night с бейджем и браслетом участника. Он позволит пройти на остальные площадки. Второй и третий офисы можно будет поменять местами, если потребуется.

💻 А ещё можно подключиться онлайн, если вы не в столице.

🛄 Будем ждать вас в офисе Яндекса!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍7👀5

3.65K views10:04

Yandex for ML

📕

Новый мозг для робота: VLA и LLM

В 2024 году большие языковые модели начали дешифровать хаос реального мира: распознавать объекты, объяснять намерения и даже писать код для микроконтроллеров. В эволюции роботов это примерно то же самое, что литийионные аккумуляторы в индустрии ноутбуков.

Раньше всё приходилось делать вручную. LLM же открыли окно возможностей: робот понимает команду (даже в свободной форме), раскладывает её на план действий, анализирует свои ошибки и обучается в прямом эфире. Та же модель, которая распознаёт кота на фото, теперь помогает роботу опознать чашку и понять, что с ней делать.

В статье рассказываем:

⚪️ Чем GPT-мозг круче старой цепочки perception → planning → control
⚪️ Зачем скрещивать Classic Stack, RL-контроллеры и VLA (Vision‑Language‑Action)
⚪️ Как прокачать робота от базовых движений до полноценного помощника

🔳 Читайте статью на Хабре. Внутри: архитектура решения для тех, кто работает с роботами, и всех, кто интересуется технологиями будущего.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥6👏3

2.82K views09:45

🎼

Как мы создали виртуального диктора и научили его читать

В прошлом году на Practical ML Conf было много крутых выступлений. Например, доклад Степана Комкова из службы синтеза речи Яндекса о том, как ребята разрабатывали виртуального рассказчика для Букмейта.

Степан рассказал, как родилась эта идея, как команда её воплотила и какие у службы синтеза планы на будущее. В видео показываем принцип устройства базовой модели, а о предыстории и деталях написали ниже

⚪️

Букмейт в числах — это примерно 250 тысяч книг

За год до начала нашего проекта пользователи прослушали около 4 миллионов часов аудиокниг через обычную читалку в браузере. Мы восприняли это как сигнал: нужно дать людям возможность слушать как можно больше книжек в хорошем качестве.

⚪️

Как это сделать?

Профессиональные дикторы — удовольствие дорогое, а базовый синтез речи требует ручной полировки. Поэтому мы решили разработать автоматизированного виртуального рассказчика, который сэкономит нам как время, так и деньги.

⚪️

Проблема в том, что сгенерированная речь сильно утомляет

Поэтому перед нами встало сразу несколько задач: научить виртуального рассказчика читать немонотонно, с паузами, имитацией дыхания и разнообразными интонациями и эмоциями. В общем, синтез должен быть по-человечески неидеальным.

⚪️

Так мы положили начало проекту

В прошлом году мы запустили виртуального рассказчика. Сначала использовали Tacotron с контекстным контролем через PnG BERT, который помогал согласовывать интонацию между предложениями и избегать монотонности. Сейчас же мы переходим на next-gen-методы: модель Tortoise, где GPT-подобная архитектура генерирует токены звука, а кодек превращает их в аудиодорожку.

🔳 Полный доклад Степана ищите в VK Видео и на ютубе — там же будет плейлист с другими выступлениями прошлого года.

🛄 А мы уже открыли регистрацию на PML Conf 2025. Скорее заполняйте форму: чем раньше вы это сделаете, тем больше у вас будет шансов попасть на офлайн.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍2

1.55K views12:00

About

Blog

Apps

Platform