Forwarded from Machinelearning
Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон.
Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0).
Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты.
В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели.
Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным.
# Set up the env
cd wavehax
pip install -e .
# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp
# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib
# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax
# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000
@ai_machinelearning_big_data
#AI #ML #Vocoder #Wavehax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤7🔥2
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍5🔥3🏆2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 С помощью ComfyUI + Jupyter Notebook теперь можно копировать стиль от рисунка к рисунку
🍇runpod: https://github.com/camenduru/sdxl-line-art-style-transfer-tost
🍊запускаем jupyter с помощью https://modelslab: https://github.com/camenduru/sdxl-line-art-style-transfer-jupyter
🍊 workflow: https://github.com/camenduru/sdxl-line-art-style-transfer-tost/blob/main/sdxl-line-art-style-transfer.json
@data_analysis_ml
🍇runpod: https://github.com/camenduru/sdxl-line-art-style-transfer-tost
🍊запускаем jupyter с помощью https://modelslab: https://github.com/camenduru/sdxl-line-art-style-transfer-jupyter
🍊 workflow: https://github.com/camenduru/sdxl-line-art-style-transfer-tost/blob/main/sdxl-line-art-style-transfer.json
@data_analysis_ml
👍11❤5🔥2🤣2🥱1🥴1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/golang_interview
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/golang_interview
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
❤6👍4💔1
📕 Свежий интерактивный учебник по работе с Ollama с использованием Qwen 2.5 14B! 3 главы готовы и еще больше на подходе 🔥
Учение был вдохновлен урокам от Anthropic.
📌 Github
@data_analysis_ml
Учение был вдохновлен урокам от Anthropic.
📌 Github
@data_analysis_ml
❤6🔥4🤣3🥴1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥7❤6😁3
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 GaussianSpeech: Гауссовские аватары, управляемые звуком
«По входному аудио GaussianSpeech может синтезировать фотореалистичные 3D-согласованные говорящие аватары человеческой головы.
Метод позволяет генерировать реалистичные и высококачественные анимации, включая внутреннюю часть рта: зубы, морщины и блики в глазах»
🔗 Статья: https://arxiv.org/abs/2411.18675
🔗 Проект: https://shivangi-aneja.github.io/projects/gaussianspeech/
@data_analysis_ml
«По входному аудио GaussianSpeech может синтезировать фотореалистичные 3D-согласованные говорящие аватары человеческой головы.
Метод позволяет генерировать реалистичные и высококачественные анимации, включая внутреннюю часть рта: зубы, морщины и блики в глазах»
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥7👍4🥴3😐2😢1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
ConsisID может генерировать видео, используя входное изображение и текстовый промыт! 🤩 🚀
Apache 2.0 Лицензия.
🔗 Hf: https://huggingface.co/spaces/BestWishYsh/ConsisID-preview-Space
🔗 Github: github.com/PKU-YuanGroup/ConsisID
🔗 Demo: https://huggingface.co/spaces/BestWishYsh/ConsisID-preview-Space
@data_analysis_ml
Apache 2.0 Лицензия.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4👍2🤣1
⚡️ LLaMA-O1 🦙 Новый член семейства моделей O1
Команда выпустила: базовую и тюненную модель; наборы данных для работы и точной настройки и демонстрацию 🔥
https://huggingface.co/collections/qq8933/llama-o1-1129-datasets-models-codes-and-papers-674d4083d393cca8324d7b61
@data_analysis_ml
Команда выпустила: базовую и тюненную модель; наборы данных для работы и точной настройки и демонстрацию 🔥
https://huggingface.co/collections/qq8933/llama-o1-1129-datasets-models-codes-and-papers-674d4083d393cca8324d7b61
@data_analysis_ml
👍11🔥7❤5🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4👍3
Forwarded from Machinelearning
HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.
HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.
Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.
Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.
⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.
bathroom
:# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive
# Windows only
SET DISTUTILS_USE_SDK=1
# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs
# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x --test_only
@ai_machinelearning_big_data
#AI #ML #HDR-GS #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥3
EuroLLM-9B: Мощная многоязычная модель для европейских языков! 🌍🤖
Основные характеристики:
🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС
🏆 Высочайшая производительность: конкурирует с Gemma и Mistral
✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных.
✅ Открытый исходный код: Доступен на Hugging Face!
https://huggingface.co/utter-project/EuroLLM-9B
Основные характеристики:
🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС
🏆 Высочайшая производительность: конкурирует с Gemma и Mistral
✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных.
✅ Открытый исходный код: Доступен на Hugging Face!
https://huggingface.co/utter-project/EuroLLM-9B
❤7🔥6👍4🤣1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Fish Speech v1.5 - многоязычная модель преобразования текста в речь и клонирования голоса с низкой задержкой 🔥
🌟 Fish Speech V1.5: обновление Text-To-Speech модели.
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
▶️ Языковая структура обучающего корпуса версии 1.5:
🟢 Английский (en) >300 тыс. часов
🟢 Китайский (zh) >300 тыс. часов
🟢 Японский (ja) >100 тыс. часов
🟢 Немецкий (de) ~20 тыс. часов
🟢 Французский (fr) ~20 тыс. часов
🟢 Испанский (es) ~20 тыс. часов
🟢 Корейский (ko) ~20 тыс. часов
🟢 Арабский (ar) ~20 тыс. часов
🟠 Русский (ru) ~20 тыс. часов
🟢 Голландский (nl) <10 тыс. часов
🟢 Итальянский (it) <10 тыс. часов
🟢 Польский (pl) <10 тыс. часов
🟢 Португальский (pt) <10 тыс. часов
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
> Всего 500 миллионов параметров
> Обучена на 1 миллионе часов аудио
> Поддерживает 13 языков
> Низкая задержка (<150 мс)
> Открытая модель 🤗
> Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты)
📌 Лицензирование: CC-BY-NC-SA-4.0 License.
🟡 Модель
🟡 Demo
🟡 Документация
🟡 Сообщество в Discord
🖥 GitHub
@data_analysis_ml
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
> Всего 500 миллионов параметров
> Обучена на 1 миллионе часов аудио
> Поддерживает 13 языков
> Низкая задержка (<150 мс)
> Открытая модель 🤗
> Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤5🔥3