Теперь можно парсить почти любой документ одной моделью на 1.7B параметров.
Она называется dots-ocr. Одна система, которая умеет работать с текстом, таблицами, формулами, изображениями и PDF на 100+ языках.
Без отдельного OCR-пайплайна. Без моделей под конкретные задачи.
100% исходный код👏
👉 @PythonPortal
Она называется dots-ocr. Одна система, которая умеет работать с текстом, таблицами, формулами, изображениями и PDF на 100+ языках.
Без отдельного OCR-пайплайна. Без моделей под конкретные задачи.
100% исходный код
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👍9
Клонируй любой голос по 5-секундному аудиоклипу.
VoxCPM это open-source проект, который делает TTS принципиально иначе.
большинство TTS-систем сначала переводят речь в дискретные токены. это становится бутылочным горлышком и ограничивает, насколько “живым” может быть звук.
VoxCPM вообще пропускает токенизацию. он моделирует аудио в непрерывном пространстве через end-to-end diffusion autoregressive архитектуру.
в итоге получается речь, которая реально звучит по-человечески.
вот что в нем особенного:
> контекстно-зависимая генерация: читает текст и сам подбирает нужную просодию, эмоцию и темп. ручной тюнинг не нужен.
> zero-shot клонирование голоса: даешь короткий аудиоклип, и он ловит не только тембр, но и акцент, ритм и эмоциональный окрас.
модель обучали на 1.8 млн часов билингвальных данных (английский и китайский)
* поддерживает streaming synthesis
* работает и с full fine-tuning, и с LoRA
* простой Python API:
VoxCPM1.5 гоняет на 44.1kHz sampling rate и имеет 800M параметров. поэтому звук заметно более четкий и натуральный.
лицензия Apache-2.0
👉 @PythonPortal
VoxCPM это open-source проект, который делает TTS принципиально иначе.
большинство TTS-систем сначала переводят речь в дискретные токены. это становится бутылочным горлышком и ограничивает, насколько “живым” может быть звук.
VoxCPM вообще пропускает токенизацию. он моделирует аудио в непрерывном пространстве через end-to-end diffusion autoregressive архитектуру.
в итоге получается речь, которая реально звучит по-человечески.
вот что в нем особенного:
> контекстно-зависимая генерация: читает текст и сам подбирает нужную просодию, эмоцию и темп. ручной тюнинг не нужен.
> zero-shot клонирование голоса: даешь короткий аудиоклип, и он ловит не только тембр, но и акцент, ритм и эмоциональный окрас.
модель обучали на 1.8 млн часов билингвальных данных (английский и китайский)
* поддерживает streaming synthesis
* работает и с full fine-tuning, и с LoRA
* простой Python API:
pip install voxcpmVoxCPM1.5 гоняет на 44.1kHz sampling rate и имеет 800M параметров. поэтому звук заметно более четкий и натуральный.
лицензия Apache-2.0
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8💊6👍2😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Задеплой любую ML-модель как MCP-сервер.
LitServe: самый простой способ выкатывать агентов, RAG и вообще любые ML-модели. Теперь есть поддержка MCP.
Полностью open-source.
👉 @PythonPortal
LitServe: самый простой способ выкатывать агентов, RAG и вообще любые ML-модели. Теперь есть поддержка MCP.
Полностью open-source.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3