Python Community

🚀 Open-source прорыв: PrismAudio

Вышла модель PrismAudio и она уже забирает SOTA в генерации аудио из видео (V2A)

Что важно:

- 518M модель, принята на ICLR 2026
- обходит все аналоги по качеству звука
- быстрее конкурентов: ~0.63s на инференс

Главная фишка:

модель думает не одним блоком, а разбивает задачу на 4 части:

- смысл (что происходит)
- время (когда звучит)
- эстетика (как звучит)
- пространство (где звучит)

И обучается через RL прямо внутри этого процесса

Результат:

- топ по всем метрикам (CLAP, MOS и др.)
- лучше MMAudio, ThinkSound и HunyuanVideo
- стабильно работает даже вне обучающего датасета

Плюс: выпустили новый бенчмарк AudioCanvas - 800+ сценариев со звуками

Model: https://modelscope.ai/models/iic/PrismAudio
Demo: https://modelscope.cn/studios/iic/PrismAudio
Paper: https://modelscope.ai/papers/2511.18833
GitHub: https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

🐍 Python полезные ресурсы ( ) ()

@Python_Community_ru

🔥2

274 views13:04

About

Blog

Apps

Platform