227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🔉 AudioSeal is the state of art audio watermarking model

Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.

Инструмент прост в настройке и работает молниеносно.

Audioseal обеспечивает самые современные характеристики распознавания как естественной, так и синтетической речи, обеспечивает незначительное изменение качества сигнала и устойчив ко многим типам редактирования аудио.

Audioseal значительно превосходит существующие модели по скорости обнаружения.


pip install audioseal


Github: https://github.com/facebookresearch/audioseal
Paper: https://arxiv.org/abs/2401.17264
Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
HF: https://huggingface.co/facebook/audioseal

#audio

@ai_machinelearning_big_data
👍25🔥75👾1
🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Предусмотрено два режима взаимодействия:
🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;
🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢Qwen2-Audio-7B

🟢Qwen2-Audio-7B-Instruct

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;
🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);
🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);
🟠инференс голосового чата.


▶️Локальный запуск с GradioUI:


# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt

# run Gradio web UI
python demo/web_demo_audio.py



📌Лицензирование : Apache 2.0


Страница проекта
Коллекция моделей на HF
Arxiv
Сообщество в Discord
Demo
Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI #LLM #ML #Qwen2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍288🔥6🎉4
🌟 LAION-DISCO-12M: большой датасет музыки с Youtube.

Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.

Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".

Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.

Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.

Поля метаданных:

🟢song_id - идентификатор трека;
🟢title - название;
🟢artist_names - имя исполнителя;
🟢artist_ids - идентификатор исполнителя;
🟢album_name - название альбома;
🟢album_id - идентификатор альбома;
🟢isExplicit - признак наличия ненормативной лексики;
🟢views - количество просмотров;
🟢duration - продолжительность трека.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #LAION #Audio #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
👍288🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MiniMax продолжают жечь и выпускают генератор речи

🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка

Попробовать можно здесь →https://minimax.io/audio

@ai_machinelearning_big_data


#audio #ai #ml #MiniMax
62👍28🔥22❤‍🔥4