Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🗣 Новая линейка Qwen3-TTS: VoiceDesign и VoiceClone
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.
🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮
В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.
Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.
🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1😁1🤮1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
❤3👍1💩1
В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.
TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.
Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.
Почему это работает:
- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;
- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;
- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;
- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.
Результаты впечатляют:
- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);
- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).
Цена вопроса: дополнительное обучение.
Но цель очевидна: сделать генерацию почти в реальном времени.
Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🐳 Как запустить DeepSeek у себя на ПК через Python
Главная ошибка новичков - сразу ставить огромные модели.
Начни с компактной версии, проверь, что всё запускается, и только потом увеличивай размер.
Алгоритм простой:
1) ставим зависимости
2) качаем лёгкую модель DeepSeek
3) проверяем, что она отвечает
4) при необходимости включаем GPU или берём квантизованную версию
Так ты избежишь вылетов, перегрузки памяти и быстрее получишь рабочий результат.
https://uproger.com/kak-zapustit-deepseek-u-sebya-na-pk/
https://www.youtube.com/shorts/bVas8EX_KmY
Главная ошибка новичков - сразу ставить огромные модели.
Начни с компактной версии, проверь, что всё запускается, и только потом увеличивай размер.
Алгоритм простой:
1) ставим зависимости
2) качаем лёгкую модель DeepSeek
3) проверяем, что она отвечает
4) при необходимости включаем GPU или берём квантизованную версию
Так ты избежишь вылетов, перегрузки памяти и быстрее получишь рабочий результат.
установить зависимости
pip install transformers accelerate torch sentencepiece
# пример запуска DeepSeek из Python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "deepseek-ai/deepseek-coder-6.7b-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto" # если есть GPU — модель сама её использует
)
prompt = "Напиши на Python функцию, которая проверяет, простое ли число."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=160,
temperature=0.4
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
https://uproger.com/kak-zapustit-deepseek-u-sebya-na-pk/
https://www.youtube.com/shorts/bVas8EX_KmY
❤2👍1🔥1
Визуализация данных помогает разработчикам и аналитикам превращать таблицы цифр в наглядные графики, карты и панели мониторинга. В 2025 году Python остаётся доминирующим языком для анализа данных и визуализации: популярность языка подтверждают исследовательские индексы и рост сообщества. Экосистема Python предлагает десятки библиотек для построения графиков — от классических 2‑D диаграмм до интерактивных веб‑панелей. Ниже приведён обзор самых актуальных библиотек визуализации данных для Python на 2025 год и их отличительные особенности.
https://uproger.com/sravnenie-luchshih-bibliotek-vizualizaczii-dannyh-na-python-v-2025-godu/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
🛡 Semantic Firewall - “семантический файрвол” для LLM
Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:
Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.
Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection
Что умеет модель:
✅ ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
✅ блокировать инъекции типа “игнорируй правила / действуй как…”
✅ защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
✅ давать policy-решение: разрешить / запретить / потребовать уточнение
LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.
И в таком мире prompt injection = security bug.
Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.
https://github.com/BlackVectorOps/semantic_firewall
#AI #LLM #Security #PromptInjection #Jailbreak
Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:
Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.
Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection
Что умеет модель:
✅ ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
✅ блокировать инъекции типа “игнорируй правила / действуй как…”
✅ защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
✅ давать policy-решение: разрешить / запретить / потребовать уточнение
LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.
И в таком мире prompt injection = security bug.
Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.
https://github.com/BlackVectorOps/semantic_firewall
#AI #LLM #Security #PromptInjection #Jailbreak
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 КАК РАБОТАЕТ ВНИМАНИЕ (ATTENTION) В ТРАНСФОРМЕРАХ
Механизм внимания - это способ для модели “смотреть” на разные слова в тексте и решать, какие из них сейчас важнее.
Представь фразу: “Я положил ключи на стол, потому что он был рядом”.
Слово “он” должно ссылаться на “стол”, а не на “ключи”.
Внимание делает ровно это - для каждого слова вычисляет, на какие другие слова нужно опираться сильнее.
Как это работает в одном абзаце:
Для каждого токена модель строит три вектора - Query (что я ищу), Key (что я из себя представляю), Value (какую информацию несу).
Считается “похожесть” Query к каждому Key - это оценки важности.
Оценки нормализуются (softmax), чтобы получились веса от 0 до 1.
Итоговое представление токена - это взвешенная сумма Value по всем токенам.
То есть модель смешивает информацию из контекста, но делает это умно - больше веса тем словам, которые сейчас важны.
Почему это суперсила:
вместо того чтобы читать текст строго слева направо, модель может связывать дальние куски, находить нужные факты и строить смысловые зависимости. Именно поэтому трансформеры так хорошо работают с языком, кодом и длинным контекстом.
https://www.youtube.com/shorts/EOAmD1x4-7k
Механизм внимания - это способ для модели “смотреть” на разные слова в тексте и решать, какие из них сейчас важнее.
Представь фразу: “Я положил ключи на стол, потому что он был рядом”.
Слово “он” должно ссылаться на “стол”, а не на “ключи”.
Внимание делает ровно это - для каждого слова вычисляет, на какие другие слова нужно опираться сильнее.
Как это работает в одном абзаце:
Для каждого токена модель строит три вектора - Query (что я ищу), Key (что я из себя представляю), Value (какую информацию несу).
Считается “похожесть” Query к каждому Key - это оценки важности.
Оценки нормализуются (softmax), чтобы получились веса от 0 до 1.
Итоговое представление токена - это взвешенная сумма Value по всем токенам.
То есть модель смешивает информацию из контекста, но делает это умно - больше веса тем словам, которые сейчас важны.
Почему это суперсила:
вместо того чтобы читать текст строго слева направо, модель может связывать дальние куски, находить нужные факты и строить смысловые зависимости. Именно поэтому трансформеры так хорошо работают с языком, кодом и длинным контекстом.
import numpy as np
def softmax(x: np.ndarray) -> np.ndarray:
x = x - np.max(x) # стабилизация
e = np.exp(x)
return e / np.sum(e)
# Допустим, у нас 3 токена в контексте.
# Для простоты возьмём маленькую размерность векторов (d=2).
# Query - "что я ищу"
# Key - "что я такое"
# Value - "какую инфу несу"
Q = np.array([1.0, 0.5]) # Query для текущего токена (например, слово "он")
K = np.array([
[1.0, 0.0], # Key токена 1 (например, "ключи")
[0.9, 0.1], # Key токена 2 (например, "стол")
[0.0, 1.0], # Key токена 3 (например, "рядом")
])
V = np.array([
[10.0, 0.0], # Value токена 1
[0.0, 10.0], # Value токена 2
[5.0, 5.0], # Value токена 3
])
# 1) Считаем "похожесть" Q на каждый K через скалярное произведение
scores = K @ Q # shape: (3,)
print("scores:", scores)
# 2) Нормализуем оценки -> получаем веса внимания
weights = softmax(scores)
print("attention weights:", weights)
# 3) Итоговый вектор = взвешенная сумма Value
output = weights @ V # shape: (2,)
print("output (context mixed):", output)
# Интерпретация:
# Если вес токена 2 ("стол") самый большой, значит модель "смотрит" на него сильнее всего.
https://www.youtube.com/shorts/EOAmD1x4-7k
🔥2❤1👍1