MiniCPM-V 4.5 🚀
Свежий релиз от OpenBMB — мультимодальная модель, которая умеет понимать картинки, несколько изображений подряд и даже видео. Главное: запуск возможен прямо на телефоне 📱
Что внутри:
✨ Достигает SOTA результатов в задачах vision+language
✨ 96× сжатие видеотокенов → можно анализировать длинные ролики с высоким FPS
✨ Два режима работы: быстрые ответы (Fast) или глубокие рассуждения (Deep)
✨ Мощный OCR для документов
✨ Поддержка более чем 30 языков
🔗 Подробнее: https://huggingface.co/openbmb/MiniCPM-V-4_5
@data_analysis_ml
Свежий релиз от OpenBMB — мультимодальная модель, которая умеет понимать картинки, несколько изображений подряд и даже видео. Главное: запуск возможен прямо на телефоне 📱
Что внутри:
✨ Достигает SOTA результатов в задачах vision+language
✨ 96× сжатие видеотокенов → можно анализировать длинные ролики с высоким FPS
✨ Два режима работы: быстрые ответы (Fast) или глубокие рассуждения (Deep)
✨ Мощный OCR для документов
✨ Поддержка более чем 30 языков
🔗 Подробнее: https://huggingface.co/openbmb/MiniCPM-V-4_5
@data_analysis_ml
❤10👍7🔥4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Marvis-TTS 🔥🚀
Новая локальная TTS-модель, которая работает в реальном времени прямо на потребительских устройствах: Apple Silicon, iPhone, iPad и других.
В отличие от классических моделей, требующих полный ввод текста или жертвующих скоростью, Marvis генерирует речь потоково — звук появляется по мере обработки текста.
Моделька создаёт эффект живого диалога.
Основные особенности:
- Потоковое озвучивание без задержек
- Отсутствие неестественных пауз и обрывов
- Учет полного контекста текста для связного и выразительного голоса
Установить модель можно командой:
- HF: https://huggingface.co/collections/Marvis-AI/marvis-tts-250m-v01-68adf13f5f59206e3910502a
- Github: https://github.com/Marvis-Labs/marvis-tts
@data_analysis_ml
Новая локальная TTS-модель, которая работает в реальном времени прямо на потребительских устройствах: Apple Silicon, iPhone, iPad и других.
В отличие от классических моделей, требующих полный ввод текста или жертвующих скоростью, Marvis генерирует речь потоково — звук появляется по мере обработки текста.
Моделька создаёт эффект живого диалога.
Основные особенности:
- Потоковое озвучивание без задержек
- Отсутствие неестественных пауз и обрывов
- Учет полного контекста текста для связного и выразительного голоса
Установить модель можно командой:
pip install -U mlx-audio
- HF: https://huggingface.co/collections/Marvis-AI/marvis-tts-250m-v01-68adf13f5f59206e3910502a
- Github: https://github.com/Marvis-Labs/marvis-tts
@data_analysis_ml
❤8👍6🔥6
Что на кону:
- Контракт до 2030 года переписывается, чтобы инвесторы могли получить долю в компании и в будущем выйти на IPO
- В центре обсуждений доступ к API: сейчас модели OpenAI эксклюзивно хостятся в Azure, и Microsoft фактически контролирует доступ. OpenAI же хочет добавить и другие облака — Google Cloud и AWS
- Microsoft настаивает на расширенном доступе к интеллектуальной собственности: видеть не только готовые модели, но и процесс их обучения
- Самый жёсткий спор — AGI-клаузула: сейчас OpenAI может ограничить доступ Microsoft при объявлении достижения AGI. Microsoft требует убрать этот пункт, но OpenAI хочет сохранить рычаги
Итог этих переговоров определит и долю Microsoft в OpenAI — ожидается 30–35%, после уже вложенных $13 млрд.
Именно этот узел решит, как будут распределяться контроль и будущее влияние в гонке за ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🥰3🥴1