Machine learning Interview

🎥 Создание видео с LongCat-Video

LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.

🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.

📌 GitHub: https://github.com/meituan-longcat/LongCat-Video

#python

🔥5👍2❤1🥱1

1.89K views10:45

Machine learning Interview

This media is not supported in your browser

VIEW IN TELEGRAM

Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️

28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.

На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.

Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.

Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!

❤3⚡1👍1🔥1

1.82K views12:38

Machine learning Interview

🤖 AITradeGame - Симулятор торговли с ИИ

AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.

🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.

📌 GitHub: https://github.com/chadyi/AITradeGame

👍11❤2🥰1

1.9K views14:40

Machine learning Interview

🔥 Представляем AMO-Bench - новый бенчмарк, который проверяет границы логического мышления LLM на уровне задач IMO.

AMO-Bench включает:
• 50 полностью оригинальных задач, созданных экспертами
• подтверждённый уровень сложности — не ниже международной математической олимпиады
• гибридный алгоритм автопроверки с точностью 99.2%
• размеченные человеком цепочки рассуждений для глубокого анализа моделей

Главные результаты:
Модель Kimi-k2-Thinking от Kimi_Moonshot показала лучший результат — 56%.
Следом идут GPT-5-thinking (high) и Qwen3-235B-A22B-Thinking-2507.
Большинство остальных моделей не дотягивают даже до 40%.

AMO-Bench открыт для всех — попробуйте и помогите продвинуть границы reasoning-возможностей больших моделей.

😊 Open-Source:
HuggingFace: https://huggingface.co/datasets/meituan-longcat/AMO-Bench
GitHub: https://github.com/meituan-longcat/AMO-Bench
Paper: https://arxiv.org/abs/2510.26768
Project Page: https://amo-bench.github.io

❤4👍3🔥2

1.68K views09:02

Machine learning Interview

1:43

This media is not supported in your browser

VIEW IN TELEGRAM

Kandinsky 5.0 — новая линейка визуальных моделей в open source

⚡️Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.

➡️Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.

🔘

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].

➡️

Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].

➡️Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.

🔘

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].

➡️K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.

Все модели линейки доступны на GitHub, Gitverse и HuggingFace.

Читайте подробнее в техническом репорте.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥3😱2

1.4K views14:00

Machine learning Interview

🤖 Google представила Nested Learning — новую парадигму ИИ, которая учится как человек и не забывает прошлые знания

Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.

Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.

Это позволяет модели:

- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает

Что это даёт?

1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.

2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.

3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.

📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning

#google

🔥7

1.46K views15:52

Machine learning Interview

Когда data-pipelines рушатся, а BI не обновился к утру, виноваты обычно не модели — а инфраструктура.

Сломанный пайплайн, несвоевременное обновление данных или внезапное изменение схемы — каждый ML-инженер сталкивался с ситуацией, когда вместо улучшения моделей приходится разбираться с проблемами в данных.

Для таких моментов создали бота-генератор оправданий. Он предлагает стильные объяснения для случаев, когда:
— данные для обучения застряли в очередях
— фичи оказались несогласованными
— мониторинг моделей показывает аномалии

А если всё ещё дебажите ETL в проде — загляните в Telegram-бота. Протестируйте разные варианты оправданий и делитесь самыми точными с командой — это поможет взглянуть на проблему под новым углом и найти нестандартное решение.

😁8

1.39K viewsedited 17:05

Machine learning Interview

🌍🗣️ Omnilingual ASR: Многоязычное распознавание речи для 1600+ языков

Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.

🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.

📌 GitHub: https://github.com/facebookresearch/omnilingual-asr

#python

GitHub

GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages

Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages - facebookresearch/omnilingual-asr

😁4👍1

1.22K views19:15

About

Blog

Apps

Platform