This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Open-source прорыв: PrismAudio
Вышла модель PrismAudio и она уже забирает SOTA в генерации аудио из видео (V2A)
Что важно:
- 518M модель, принята на ICLR 2026
- обходит все аналоги по качеству звука
- быстрее конкурентов: ~0.63s на инференс
Главная фишка:
модель думает не одним блоком, а разбивает задачу на 4 части:
- смысл (что происходит)
- время (когда звучит)
- эстетика (как звучит)
- пространство (где звучит)
И обучается через RL прямо внутри этого процесса
Результат:
- топ по всем метрикам (CLAP, MOS и др.)
- лучше MMAudio, ThinkSound и HunyuanVideo
- стабильно работает даже вне обучающего датасета
Плюс: выпустили новый бенчмарк AudioCanvas - 800+ сценариев со звуками
Model: https://modelscope.ai/models/iic/PrismAudio
Demo: https://modelscope.cn/studios/iic/PrismAudio
Paper: https://modelscope.ai/papers/2511.18833
GitHub: https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
🐍 Python полезные ресурсы ( ) ()
@Python_Community_ru
Вышла модель PrismAudio и она уже забирает SOTA в генерации аудио из видео (V2A)
Что важно:
- 518M модель, принята на ICLR 2026
- обходит все аналоги по качеству звука
- быстрее конкурентов: ~0.63s на инференс
Главная фишка:
модель думает не одним блоком, а разбивает задачу на 4 части:
- смысл (что происходит)
- время (когда звучит)
- эстетика (как звучит)
- пространство (где звучит)
И обучается через RL прямо внутри этого процесса
Результат:
- топ по всем метрикам (CLAP, MOS и др.)
- лучше MMAudio, ThinkSound и HunyuanVideo
- стабильно работает даже вне обучающего датасета
Плюс: выпустили новый бенчмарк AudioCanvas - 800+ сценариев со звуками
Model: https://modelscope.ai/models/iic/PrismAudio
Demo: https://modelscope.cn/studios/iic/PrismAudio
Paper: https://modelscope.ai/papers/2511.18833
GitHub: https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
🐍 Python полезные ресурсы ( ) ()
@Python_Community_ru
🔥2