This media is not supported in your browser
VIEW IN TELEGRAM
💡 Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование.
- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.
💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing
- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.
💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing
❤6🔥2👍1
💾 Генеральный директор Western Digital заявил, что жёсткие диски остаются центральным элементом хранения данных для ИИ: примерно 80% данных гиперскейлеров хранятся на HDD, 10% — на SSD и ещё 10% — на лентах.
Такое распределение объясняется экономикой и энергопотреблением: диски примерно в 5–6 раз дешевле SSD при больших объёмах и потребляют меньше ватт на терабайт.
В дата-центрах данные распределяют по уровням: «горячие» — на флэше, «тёплые и холодные» — на HDD, архивные — на ленте. Это оптимальный баланс стоимости и производительности.
Однако спрос на хранение для ИИ настолько вырос, что производители не успевают удовлетворять рынок: время ожидания дисков сверхвысокой ёмкости (32 ТБ+) растягивается от нескольких месяцев до года.
pcguide.com/news/hard-drives-far-from-obsolete-says-western-digital-ceo-and-ai-is-one-big-reason-why/
Такое распределение объясняется экономикой и энергопотреблением: диски примерно в 5–6 раз дешевле SSD при больших объёмах и потребляют меньше ватт на терабайт.
В дата-центрах данные распределяют по уровням: «горячие» — на флэше, «тёплые и холодные» — на HDD, архивные — на ленте. Это оптимальный баланс стоимости и производительности.
Однако спрос на хранение для ИИ настолько вырос, что производители не успевают удовлетворять рынок: время ожидания дисков сверхвысокой ёмкости (32 ТБ+) растягивается от нескольких месяцев до года.
pcguide.com/news/hard-drives-far-from-obsolete-says-western-digital-ceo-and-ai-is-one-big-reason-why/
🔥9❤5👍1
Модель лидирует среди моделей до 1 млрд параметров и кодирует запросы в 7 раз быстрее на обычных CPU.
В отличие от декодеров, которые читают текст слева направо и не могут пересматривать ранние токены, ModernVBERT использует двунаправленный текстовый энкодер, обученный на маскировании слов, и небольшой визуальный модуль.
Каждое изображение страницы разбивается на патчи, которые отображаются в то же пространство, что и текст, а затем объединяются с токенами слов.
Механизм позднего взаимодействия (late interaction) сохраняет векторы всех токенов, позволяя каждому токену запроса находить наиболее точное соответствие. Эта комбинация двунаправленного внимания и позднего взаимодействия превосходит декодерные архитектуры при извлечении документов.
Более высокое разрешение страниц и короткая «high-resolution cooldown» фаза повышают точность поиска, хотя могут ухудшить работу с обычными изображениями. Добавление пар «только текст» в контрастивное обучение помогает модели эффективно объединять текстовое и визуальное пространство.
ColModernVBERT - остаётся компактной, демонстрирует высокие показатели на бенчмарках и работает эффективно даже на стандартных CPU.
Интересное чтиво: https://arxiv.org/abs/2510.01149
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍3
🚀 Примеры и руководства по моделям DeepMind Gemini
Репозиторий содержит небольшие примеры, фрагменты кода и руководства, демонстрирующие эксперименты с моделями Gemini от Google DeepMind. Здесь вы найдете полезные образцы для интеграции и использования различных функций Gemini, включая работу с OpenAI SDK и Google Search.
🚀 Основные моменты:
- Примеры использования Gemini с OpenAI и Google Search
- Руководства по функциям и агентам
- Скрипты для работы с браузером и генерации контента
- Интеграция с LangChain и PydanticAI
📌 GitHub: https://github.com/philschmid/gemini-samples
#python
Репозиторий содержит небольшие примеры, фрагменты кода и руководства, демонстрирующие эксперименты с моделями Gemini от Google DeepMind. Здесь вы найдете полезные образцы для интеграции и использования различных функций Gemini, включая работу с OpenAI SDK и Google Search.
🚀 Основные моменты:
- Примеры использования Gemini с OpenAI и Google Search
- Руководства по функциям и агентам
- Скрипты для работы с браузером и генерации контента
- Интеграция с LangChain и PydanticAI
📌 GitHub: https://github.com/philschmid/gemini-samples
#python
👍4❤1🔥1