This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
👍5❤2🔥1💔1
🔥AI VK & Pro — топовый ивент по рекомендательным системам
Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча
Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше
Диджей-сеты, активности и стиль
Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча
Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше
Диджей-сеты, активности и стиль
👍3❤🔥2❤1🔥1
🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.
Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
👍8❤5🔥2
KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥
Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.
✨ Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами
Огромный шаг для Document AI и мультимодальных рабочих процессов!
🟢 Models : https://huggingface.co/models?search=microsoft/kosmos-2.5
🟢 Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5
#AI #HuggingFace #Microsoft #DocumentAI
Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.
✨ Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами
Огромный шаг для Document AI и мультимодальных рабочих процессов!
#AI #HuggingFace #Microsoft #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1