Machine learning Interview
34.1K subscribers
1.39K photos
108 videos
13 files
953 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях

Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.

Главное нововведение

Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.

🧠 Архитектура

1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи

2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация

🛠️ Тренировка

1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL

2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями

🎨 Возможности

Генерация и взаимодействие через речь
Генерация и редактирование изображений
Понимание изображений и видео
Аудиовизуальное рассуждение
10+ мультимодальных задач

🔥 Результаты

Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%

🌍 Open Source

Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
11👍6
⚡️ Вышел подробный гайд по Gemini 3 - новой флагманской модели Google DeepMind, которая в ряде задач уже опережает другие топовые решения.

Внутри разбор возможностей модели, примеры создания реальных приложений, рекомендации по настройке промтов и системных режимов.

Добавлены готовые сниппеты на Python и JS - копируй и сразу запускай. Осваиваем автоматизацию и перенос рутины на Gemini 3 по ссылке.


https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high&hl=ru
5👍3🥰2
Media is too big
VIEW IN TELEGRAM
Успей зарегистрироваться на масштабный ИТ-фест от МТС 🔥

21 ноября на True Tech Champ тебя ждет насыщенный день со зрелищной битвой роботов, нетворкингом и прокачкой навыков.

В программе:

📝 Доклады о ИИ-технологиях. Специалисты MWS AI, Skoltech, Яндекса и Unitree Robotics расскажут о трансформерах для управления автомобилями, работе с RAG-системами и физическими агентами.
📝 Воркшоп по работе с ИИ-агентами от канадского разработчика и автора книги AI Agents in Action Майкла Ланэма.
📝 Воркшоп по разработке игр с помощью AI плагина MWS DevTools Agent.
🛻 Шоу-битва роботов. Камеры от первого лица, профессиональные комментаторы создадут вайб больших видов спорта. На огромных экранах МТС Live Холл ты увидишь, как роботы будут проходить 3 уровня препятствий: запутанные лабиринты, офф-роад маршруты, парящие платформы — и сразятся в битве на выживание.


◻️ 20+ площадок с активностями. Попробуй родео и оседлай механического быка, пройди лазерный лабиринт, как настоящий спецагент, выведи на ринг своего робопаука и протестируй другие ИТ-челленджи.
🔴 В завершение дня — афтепати со звездным хедлайнером.

Фестиваль бесплатный, он пройдет 21 ноября в Москве и онлайн.
Смотри подробную программу на сайте и регистрируйся — количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3😐3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Создание видео с LongCat-Video

LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.

🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.

📌 GitHub: https://github.com/meituan-longcat/LongCat-Video

#python
🔥5👍21🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️

28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.

На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.

Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.

Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
31👍1🔥1
🤖 AITradeGame - Симулятор торговли с ИИ

AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.

🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.

📌 GitHub: https://github.com/chadyi/AITradeGame
👍112🥰2
🔥 Представляем AMO-Bench - новый бенчмарк, который проверяет границы логического мышления LLM на уровне задач IMO.

AMO-Bench включает:
• 50 полностью оригинальных задач, созданных экспертами
• подтверждённый уровень сложности — не ниже международной математической олимпиады
• гибридный алгоритм автопроверки с точностью 99.2%
• размеченные человеком цепочки рассуждений для глубокого анализа моделей

Главные результаты:
Модель Kimi-k2-Thinking от Kimi_Moonshot показала лучший результат — 56%.
Следом идут GPT-5-thinking (high) и Qwen3-235B-A22B-Thinking-2507.
Большинство остальных моделей не дотягивают даже до 40%.

AMO-Bench открыт для всех — попробуйте и помогите продвинуть границы reasoning-возможностей больших моделей.

😊 Open-Source:
HuggingFace: https://huggingface.co/datasets/meituan-longcat/AMO-Bench
GitHub: https://github.com/meituan-longcat/AMO-Bench
Paper: https://arxiv.org/abs/2510.26768
Project Page: https://amo-bench.github.io
4👍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source

⚡️Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.

➡️Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.

🔘Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].

➡️Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].

➡️Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.

🔘Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].

➡️K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео)
. Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.

Все модели линейки доступны на GitHub, Gitverse и HuggingFace.

Читайте подробнее в техническом репорте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥3😱3
🤖 Google представила Nested Learning — новую парадигму ИИ, которая учится как человек и не забывает прошлые знания

Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.

Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.

Это позволяет модели:

- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает

Что это даёт?

1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.

2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.

3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.

📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning

#google
🔥8
Когда data-pipelines рушатся, а BI не обновился к утру, виноваты обычно не модели — а инфраструктура.

Сломанный пайплайн, несвоевременное обновление данных или внезапное изменение схемы — каждый ML-инженер сталкивался с ситуацией, когда вместо улучшения моделей приходится разбираться с проблемами в данных.

Для таких моментов создали бота-генератор оправданий. Он предлагает стильные объяснения для случаев, когда:
— данные для обучения застряли в очередях
— фичи оказались несогласованными
— мониторинг моделей показывает аномалии

А если всё ещё дебажите ETL в проде — загляните в Telegram-бота. Протестируйте разные варианты оправданий и делитесь самыми точными с командой — это поможет взглянуть на проблему под новым углом и найти нестандартное решение.
😁9
🌍🗣️ Omnilingual ASR: Многоязычное распознавание речи для 1600+ языков

Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.

🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.

📌 GitHub: https://github.com/facebookresearch/omnilingual-asr

#python
😁4👍2
🍌Nano Banan хороша!

Промпт: "Make an infographic that explains how the transformer LLM works"

https://aistudio.google.com/
👍6🔥21