🔉 AudioSeal is the state of art audio watermarking model
Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.
Инструмент прост в настройке и работает молниеносно.
Audioseal обеспечивает самые современные характеристики распознавания как естественной, так и синтетической речи, обеспечивает незначительное изменение качества сигнала и устойчив ко многим типам редактирования аудио.
Audioseal значительно превосходит существующие модели по скорости обнаружения.
▪Github: https://github.com/facebookresearch/audioseal
▪Paper: https://arxiv.org/abs/2401.17264
▪Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
▪HF: https://huggingface.co/facebook/audioseal
#audio
@ai_machinelearning_big_data
Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.
Инструмент прост в настройке и работает молниеносно.
Audioseal обеспечивает самые современные характеристики распознавания как естественной, так и синтетической речи, обеспечивает незначительное изменение качества сигнала и устойчив ко многим типам редактирования аудио.
Audioseal значительно превосходит существующие модели по скорости обнаружения.
pip install audioseal
▪Github: https://github.com/facebookresearch/audioseal
▪Paper: https://arxiv.org/abs/2401.17264
▪Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
▪HF: https://huggingface.co/facebook/audioseal
#audio
@ai_machinelearning_big_data
👍25🔥7❤5👾1
Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
Предусмотрено два режима взаимодействия:
Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:
Инференс на transformers в cli возможен в нескольких режимах:
# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers
# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt
# run Gradio web UI
python demo/web_demo_audio.py
📌Лицензирование : Apache 2.0
▪Страница проекта
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в Discord
▪Demo
▪Github [ Stars: 618 | Issues: 7 | Forks: 17]
@ai_machinelearning_big_data
#AI #LLM #ML #Qwen2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤8🔥6🎉4
Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.
Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".
Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.
Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.
Поля метаданных:
@ai_machinelearning_big_data
#AI #ML #LAION #Audio #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤8🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MiniMax продолжают жечь и выпускают генератор речи
🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка
Попробовать можно здесь →https://minimax.io/audio
@ai_machinelearning_big_data
#audio #ai #ml #MiniMax
🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка
Попробовать можно здесь →https://minimax.io/audio
@ai_machinelearning_big_data
#audio #ai #ml #MiniMax
❤62👍28🔥22❤🔥4