This media is not supported in your browser
VIEW IN TELEGRAM
🖼️ EditThinker: теперь редакторы изображений могут «думать» итеративно!
Новая рамка от Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
📌 Liquid AI представила LFM2 - семейство Liquid Foundation Models (350M–8.3B), оптимизированное для работы на устройствах: до 2× быстрее на CPU при префилле и декоде, при этом показывает сильные результаты на бенчмарках. Подходит для edge-приложений с ограниченной памятью.
https://huggingface.co/papers/2512.05965
Новая рамка от Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
📌 Liquid AI представила LFM2 - семейство Liquid Foundation Models (350M–8.3B), оптимизированное для работы на устройствах: до 2× быстрее на CPU при префилле и декоде, при этом показывает сильные результаты на бенчмарках. Подходит для edge-приложений с ограниченной памятью.
https://huggingface.co/papers/2512.05965
❤2
🚀 Model Context Protocol (MCP) - протокол, который с самого начала развивался открыто, делает большой шаг.
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
❤3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
ARC Prize зафиксировали рекорд GPT-5.2 Pro (X-High). Модель достигла точности 90,5% при стоимости вычислений $11,64 за задачу. Тесты ARC-AGI - это уникальные задачи, требующие навыков обобщения и логики, что исключает возможность запоминания паттернов из обучающей выборки.
Несмотря на успех, экономика процесса пока отстает от идеала. Стоимость решения одной задачи все еще в 58 раз превышает целевой показатель бенчмарка ($0,20), а до человеческого уровня (100% точности) сохраняется разрыв. На более сложном наборе ARC-AGI-2 модель показала результат 54,2%.
ARC Prize в сети Х
Спецификация Really Simple Licensing (RSL), позволяющая издателям диктовать условия лицензирования для ИИ-краулеров, получила статус официального стандарта. Технически, это расширение файла
robots.txt, которое дает возможность указывать правила компенсации за парсинг контента.RSL получил поддержку со стороны гигантов: стандарт внедрили Cloudflare, Akamai и Fastly. Это превращает RSL из простой декларации в рабочий механизм — провайдеры смогут блокировать на уровне CDN тех ботов, которые игнорируют условия лицензии.
Еще одна важная особенность версии 1.0 — гранулярный контроль видимости. Теперь ресурсы могут запретить использование своих материалов в генеративных ответах, сохраняя при этом позиции в классической поисковой выдаче.
rslstandard.org
Компании объявили о соглашении, которое меняет правила игры в сфере авторского права в ИИ. Начиная со следующего года, Sora сможет официально использовать образы Микки Мауса, Йоды и других героев студии. В рамках сделки Disney получает долю в OpenAI размером в $1 млрд, а ее инженеры - приоритетный доступ к API ChatGPT для внутренних разработок.
Для Disney, известной своей жесткой позицией по защите авторских прав это стратегический разворот. Вместо безуспешных попыток полностью запретить генерацию своих персонажей, корпорация решила возглавить процесс и монетизировать его.
Стороны обещают внедрить жесткие фильтры безопасности, а на Disney+ появится раздел с фанатскими видео, созданными в Sora.
openai.com
DeepMind представила апдейт для моделей синтеза речи Gemini Flash TTS и Pro TTS, заменяющий майские версии этого года. Разделение по задачам осталось прежним: Flash для real-time приложений, а Pro - для максимального качества.
Теперь модели жестче придерживаются системных промптов, задающих тон, настроение и ролевую модель спикера. Добавили контекстно-зависимое управление темпом: алгоритм автоматически замедляет речь на плотной информации и ускоряется там, где это уместно, либо строго следует явно заданным таймингам.
Также инженеры стабилизировали работу мульти-спикерных диалогов: голоса собеседников больше не «плывут» и остаются четко различимыми.
blog.google
Компания опубликовала исследование об эволюции взаимодействия с ИИ-ассистентом за последний год. Данные показывают смену аудитории: если в январе среди запросов доминировало программирование, то к концу года вектор сместился в сторону социальных тем. Это подтверждает выход технологии в мейнстрим - пользователи всё чаще видят в ИИ не просто умный поиск, а полноценного советчика.
Отчет также подсвечивает зависимость запросов от контекста. Мобильные устройства закрепили за собой роль карманных консультантов по здоровью и психологии. Время суток тоже влияет на содержание: глубокой ночью растет доля философских и экзистенциальных бесед.
Для разработчиков эти метрики важны: следующее поколение ассистентов должно уметь адаптироваться не только под текст запроса, но и под устройство и время обращения.
microsoft.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🚀 Parallax Runtime: GPU Acceleration for C++ Algorithms
Parallax Runtime позволяет автоматически ускорять параллельные алгоритмы C++ на любых GPU с поддержкой Vulkan без изменения кода. Это решение исключает зависимость от конкретных вендоров и CUDA, обеспечивая универсальную производительность.
🚀 Основные моменты:
- - Поддержка всех GPU с Vulkan 1.2+
- - Умное управление памятью с синхронизацией
- - Низкие накладные расходы благодаря прямому доступу к Vulkan
- - Открытый исходный код (Apache 2.0)
📌 GitHub: https://github.com/parallax-compiler/parallax-runtime
#cpp
Parallax Runtime позволяет автоматически ускорять параллельные алгоритмы C++ на любых GPU с поддержкой Vulkan без изменения кода. Это решение исключает зависимость от конкретных вендоров и CUDA, обеспечивая универсальную производительность.
🚀 Основные моменты:
- - Поддержка всех GPU с Vulkan 1.2+
- - Умное управление памятью с синхронизацией
- - Низкие накладные расходы благодаря прямому доступу к Vulkan
- - Открытый исходный код (Apache 2.0)
📌 GitHub: https://github.com/parallax-compiler/parallax-runtime
#cpp
❤1👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🗣 Новая линейка Qwen3-TTS: VoiceDesign и VoiceClone
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.
VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.
Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках
Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером
VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.
Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
• Qwen Chat: https://chat.qwen.ai
• Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo
@ai_machinelearning_big_data
#AI #TTS #voicecloning
Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.
🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮
В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.
Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.
🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1😁1🤮1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
❤3👍1💩1
В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.
TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.
Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.
Почему это работает:
- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;
- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;
- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;
- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.
Результаты впечатляют:
- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);
- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).
Цена вопроса: дополнительное обучение.
Но цель очевидна: сделать генерацию почти в реальном времени.
Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🐳 Как запустить DeepSeek у себя на ПК через Python
Главная ошибка новичков - сразу ставить огромные модели.
Начни с компактной версии, проверь, что всё запускается, и только потом увеличивай размер.
Алгоритм простой:
1) ставим зависимости
2) качаем лёгкую модель DeepSeek
3) проверяем, что она отвечает
4) при необходимости включаем GPU или берём квантизованную версию
Так ты избежишь вылетов, перегрузки памяти и быстрее получишь рабочий результат.
https://uproger.com/kak-zapustit-deepseek-u-sebya-na-pk/
https://www.youtube.com/shorts/bVas8EX_KmY
Главная ошибка новичков - сразу ставить огромные модели.
Начни с компактной версии, проверь, что всё запускается, и только потом увеличивай размер.
Алгоритм простой:
1) ставим зависимости
2) качаем лёгкую модель DeepSeek
3) проверяем, что она отвечает
4) при необходимости включаем GPU или берём квантизованную версию
Так ты избежишь вылетов, перегрузки памяти и быстрее получишь рабочий результат.
установить зависимости
pip install transformers accelerate torch sentencepiece
# пример запуска DeepSeek из Python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "deepseek-ai/deepseek-coder-6.7b-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto" # если есть GPU — модель сама её использует
)
prompt = "Напиши на Python функцию, которая проверяет, простое ли число."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=160,
temperature=0.4
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
https://uproger.com/kak-zapustit-deepseek-u-sebya-na-pk/
https://www.youtube.com/shorts/bVas8EX_KmY
❤2👍1🔥1
Визуализация данных помогает разработчикам и аналитикам превращать таблицы цифр в наглядные графики, карты и панели мониторинга. В 2025 году Python остаётся доминирующим языком для анализа данных и визуализации: популярность языка подтверждают исследовательские индексы и рост сообщества. Экосистема Python предлагает десятки библиотек для построения графиков — от классических 2‑D диаграмм до интерактивных веб‑панелей. Ниже приведён обзор самых актуальных библиотек визуализации данных для Python на 2025 год и их отличительные особенности.
https://uproger.com/sravnenie-luchshih-bibliotek-vizualizaczii-dannyh-na-python-v-2025-godu/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
🛡 Semantic Firewall - “семантический файрвол” для LLM
Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:
Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.
Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection
Что умеет модель:
✅ ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
✅ блокировать инъекции типа “игнорируй правила / действуй как…”
✅ защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
✅ давать policy-решение: разрешить / запретить / потребовать уточнение
LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.
И в таком мире prompt injection = security bug.
Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.
https://github.com/BlackVectorOps/semantic_firewall
#AI #LLM #Security #PromptInjection #Jailbreak
Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:
Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.
Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection
Что умеет модель:
✅ ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
✅ блокировать инъекции типа “игнорируй правила / действуй как…”
✅ защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
✅ давать policy-решение: разрешить / запретить / потребовать уточнение
LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.
И в таком мире prompt injection = security bug.
Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.
https://github.com/BlackVectorOps/semantic_firewall
#AI #LLM #Security #PromptInjection #Jailbreak