This media is not supported in your browser
VIEW IN TELEGRAM
@ai_machinelearning_big_data
#Veo #google
Please open Telegram to view this post
VIEW IN TELEGRAM
❤77🔥60😁26👍18🤣13🥱7😨7🗿6🙈2🎄1
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов
Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource
Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource
👍82🔥35❤20🎄3❤🔥1
Media is too big
VIEW IN TELEGRAM
xAI дополнила свой Grok API новой функцией Live Search, которая позволяет искусственному интеллекту получать доступ к данным в режиме реального времени из соцсети X (бывший Twitter), интернета и актуальных новостей.
API Live Search доступен бесплатно в бета-версии до 5 июня 2025 года. xAI заверяет, что это обновление существенное улучшает способности Grok к рассуждениям и поиску данных.
docs.x.ai
ByteDance-Seed выпустили BAGEL — универсальную мультимодальную модель с 7 млрд. активных и 14 млрд. общих параметров, которая сочетает генерацию, редактирование и анализ текста, изображений и видео.
BAGEL может создавать фотореалистичные изображения, предсказывать кадры, менять стили и даже «мыслить» перед генерацией, улучшая детализацию и логику выводов. Архитектура на основе Mixture-of-Transformer-Experts (MoT) разделяет обработку визуальных и семантических данных, что повышает точность редактирования — например, сохранение идентичности объектов при сложных правках.
В тестах BAGEL обходит многие открытые модели: 2388 баллов в MME (визуальное понимание) и 0.88 в GenEval (генерация изображений). При этом «интеллектуальное» редактирование с CoT почти догоняет Gemini 2.0.
Веса - на HuggingFace, техотчет - на Arxiv, код - на Github, попробовать в демо можно тут.
bagel-ai.org
По данным утечек от известного инсайдера Kopite, NVIDIA готовит к производству видеокарту RTX 5080 Super. Модель получит 24 ГБ памяти GDDR7 — на 50% больше, чем у базового RTX 5080, благодаря 3 ГБ модулям. Несмотря на тот же 256-битный интерфейс и 10 752 CUDA-ядра, пропускная способность памяти вырастет до 1 ТБ/с (+6,6%), а TGP в районе 400 Вт.
Цена RTX 5080 Super, по оценкам, составит $1000–1500. Пока неясно, повторит ли NVIDIA стратегию RTX 4080 Super со снижением цены, но в текущих рыночных условиях на это рассчитывать сложно.
tomshardware.com
Stability AI выпустила обновление своей модели — Stable Video 4D, версию 2.0 (SV4D 2.0), которая упрощает создание динамических 4D-ассетов для игр, кино и виртуальных миров. Новая модель генерирует более четкие и согласованные объекты в движении, используя всего одно объектно-ориентированное видео — без сложных мультикамерных сетапов или предобработки.
В 2.0 переработали архитектуру, теперь она включает 3D-внимание для анализа пространства и времени, что снижает артефакты даже в динамичных сценах. Модель обучалась поэтапно: сначала на статике, потом — на движении. По тестам, SV4D 2.0 лидирует в бенчмарках LPIPS, FVD и FV4D, обгоняя DreamGaussian4D и SV3D по согласованности ракурсов и плавности анимации.
Модель доступна под лицензией Stability AI Community License на HuggingFace, код - на Github.
stability.ai
AIOZ AI — децентрализованная платформа для торговли моделями ИИ и наборами данных, работающая на инфраструктуре DePIN. Она позволяет разработчикам и компаниям загружать, монетизировать и использовать ресурсы в распределенной сети, сохраняя контроль над своими активами.
Платформа разделена на этапы: уже доступны базовые функции маркетплейса, а в будущем добавят поддержку крупных файлов, API-интеграции и возможность обучения моделей в сети DePIN. Участники смогут получать вознаграждения за использование их ресурсов, а токенизация активов станет следующим шагом.
inferencegrid.ai
Айв займётся разработкой нового поколения аппаратных продуктов на базе ИИ внутри OpenAI.
Компания собирается конкурировать с всеми крупнейшими технологическими гигантами.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍42❤21🤣7🤗2🎄1
Antрropic в сети X приглашает на стрим Code w/ Claude 22 мая 20:30 МСК. Сообщество ожидает, что именно на этом стриме будет представлены Claude Sonnet 4 и\или Claude Opus 4.
Это косвенно подтверждают находки в коде, опубликованном пользователем Tibor Blaho все в той же X:
"Claude 4 is here" - "Try Claude Sonnet 4 and Claude Opus 4 today"
"Try Claude Sonnet 4 or Claude Opus 4 for Anthropic’s smartest models yet."
"Not intended for production use. Subject to strict rate limits"
"show_raw_thinking" / "show_raw_thinking_mechanism"
И загадочный пост от Alex Albert, руководителя отдела по связям с клиентами в AnthropicAI , в котором он процитировал часть речи Нептуна из 1-й книги "Энеиды" Вергилия, которая обращена к ветрам, которых он упрекает за то, что те подняли бурю без его разрешения:
"Hasten your flight and speak these things to your king: the power of the sea and the fierce trident has been given not to that one, but me by fate"
"Neptune" - это, по слухам, рабочее название модели, над которой в настоящее время работает Anthropic.
@ai_machinelearning_big_data
#Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡47🔥21👍20❤12🐳1🎄1
Приглашаем на AI360 — бакалавриат Яндекса и Сбера, где готовят будущих экспертов по искусственному интеллекту! 🚀
Уже с первых курсов вас ждёт глубокая математика, программирование и реальные ИИ-задачи от ведущих IT-компаний. Вы будете не просто изучать теорию, а разрабатывать ML-решения для индустрии, погружаться в исследования и тестировать свои идеи в экосистеме Яндекса и Сбера.
Программа доступна в НИУ ВШЭ, МФТИ, ИТМО, СПбГУ и Университете Иннополис, но границы вузов не помеха — студенты могут посещать курсы в университетах-партнёрах, участвуя в межвузовских модулях. А ещё — изучать лучшие мировые практики, работать с передовыми моделями и посещать топовые ИИ-конференции.
Готовы поступить на программу мечты? Подайте документы на AI360 до 25 июля: https://bit.ly/3SdeJIE
Уже с первых курсов вас ждёт глубокая математика, программирование и реальные ИИ-задачи от ведущих IT-компаний. Вы будете не просто изучать теорию, а разрабатывать ML-решения для индустрии, погружаться в исследования и тестировать свои идеи в экосистеме Яндекса и Сбера.
Программа доступна в НИУ ВШЭ, МФТИ, ИТМО, СПбГУ и Университете Иннополис, но границы вузов не помеха — студенты могут посещать курсы в университетах-партнёрах, участвуя в межвузовских модулях. А ещё — изучать лучшие мировые практики, работать с передовыми моделями и посещать топовые ИИ-конференции.
Готовы поступить на программу мечты? Подайте документы на AI360 до 25 июля: https://bit.ly/3SdeJIE
👍41😁14🥱9❤8🔥6🤷3❤🔥1🎄1
Выступление Yoshua Bengio на тему которая все чаще вызывает споры в техническом сообществе: растущая автономия ИИ как главный риск для человечества. Его аргументы — не просто теоретические страхи, а выводы, подкрепленные исследованиями и личным опытом.
Йошуа Бенжио — канадский математик, кибернетик и информатик, наиболее известный работами в области ИИ, нейронных сетей и глубокого обучения. Член Королевского общества Канады, Лондонского королевского общества, Профессор Монреальского университета.
Бенджио сравнивает развитие ИИ с детскими открытиями: подобно тому, как ребенок учится складывать буквы в слова, системы ИИ учатся планировать, обманывать и даже бороться за выживание. И если раньше такие сценарии казались фантастикой, сегодня они становятся частью научных отчетов.
Основная тема доклада — различие между способностями ИИ и его агентностью (способностью действовать автономно). Если первые развивались постепенно, то вторая способность начала расти экспоненциально.
По данным исследований, длительность задач, которые ИИ может выполнять без вмешательства человека, удваивается каждые 7 месяцев. Это открывает дверь для сценариев, где системы не просто решают проблемы, но и скрывают свои намерения.
Бенджио утверждает, что главная угроза не в том, что ИИ станет «умнее» человека (это вопрос времени), а в том, что его цели перестанут совпадать с нашими.
Уже сейчас системы демонстрируют склонность к обману и самосохранению, а при наличии доступа к интернету они гипотетически могут копировать себя на тысячи устройств, создавая угрозу потери контроля. При этом регуляторные меры отстают.
«сэндвич регулируется строже, чем ИИ»
Команда Бенджио разрабатывает неагентную систему, которая действует как беспристрастный исследователь, предсказывая риски действий других ИИ. Такая модель могла бы стать «тормозом» для опасных решений, не требуя собственной автономии.
Парадокс в том, что для создания безопасного ИИ нужны именно неагентные инструменты, а не попытки «очеловечить» алгоритмы.
Бенджио признает — остановить развитие невозможно, но можно перенаправить его в русло, где технологии служат людям, а не ставят под угрозу их будущее.
«Мы не обречены, но чтобы сохранить радость и свободу следующих поколений, действовать нужно уже сейчас».
И это не паника, а призыв к рациональности — от человека, который десятилетиями строил фундамент ИИ и теперь видит, как легко его творение может выйти из-под контроля.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89❤25🤣10🔥9🤨6👻6❤🔥2😁2🎄1
На мероприятии Code /w Claude CEO Anthropic презентовал Claude 4 Opus и Claude Sonnet 4.
Обе модели поддерживают расширенное мышление: чередуют анализ и использование инструментов веб-поиска, а также выполняют задачи параллельно.
Для разработчиков появилась интеграция с VS Code, JetBrains и GitHub Actions — правки от Claude теперь отображаются прямо в редакторе. В бета-режиме можно подключать SDK для создания собственных агентов.
По словам партнеров: GitHub и Replit, Opus 4 понимает сложные кодбазы, а Sonnet 4 идеален для повседневных задач. Например, в GitHub Copilot его уже тестируют как основу для нового агента.
В тарифные планы Pro, Max, Team и Enterprise Claude включены обе модели и расширенное мышление, а Sonnet 4 также доступен для бесплатных пользователей.
Обе модели доступны в Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Ценообразование остается неизменным по сравнению с предыдущими моделями Opus и Sonnet: Opus 4 - $15/$75 за миллион токенов (ввод/вывод), Sonnet 4 - $3/$15.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍103🔥31❤23❤🔥3⚡2🦄2🎄1
Media is too big
VIEW IN TELEGRAM
Intel представила 3 новых процессора серии Xeon 6, оптимизированных для управления GPU в ИИ-задачах. Модели на базе P-ядер используют технологии PCT и SST-TF и отличаются повышенной пропускной способностью памяти (на 30% быстрее аналогов) и на 20% большим числом PCIe-линий.
Intel заверяет, что надежность решений гарантирована — встроенные механизмы RAS-функций минимизируют простои. Сотрудничество с NVIDIA стало ключевым моментом: Xeon 6776P уже работает в системе NVIDIA DGX B300, которая позиционируется как одна из самых мощных ИИ-платформ на рынке.
Процессоры доступны для заказа. Intel ожидает роста спроса со стороны корпоративного сектора.
intel.com
Главное новшество — новая "Tab"модель, которая ускоряет навигацию и редактирование: теперь она предлагает изменения не только в текущем файле, но и нескольких файлах проекта, позволяя буквально «пролететь» через правки с помощью табов.
Режим Max Mode стал доступен для всех моделей: он расширяет контекстное окно и снимает лимиты на вызовы инструментов. Встроенный редактор (Command-K) тоже прокачали — теперь им можно править целые файлы, а не только фрагменты.
Для больших проектов добавили мульти-рутовые рабочие пространства и тегирование папок, чтобы подключать к контексту целые кодовые базы. Еще одна фишка — фоновые агенты: они выполняют задачи параллельно, помогая с дебагом, стилями или подготовкой PR. В ближайших планах — интеграция агентов с issue-трекерами, чтобы автоматизировать рутину.
Cursor в сети X (ex-Twitter)
Vercel открыла бета-доступ к своей ИИ-модели V0-1.0-md, заточенной под задачи фронтенда и фулл-стек разработки. Модель доступна через API и принимает текстовые или графические промпты и умеет исправлять в автоматическом режиме типовые баги, интегрируясь с инструментами, поддерживающими формат OpenAI.
Модель обучена на популярных фреймворках и обрабатывает до 128 тыс. токенов за раз (около 750 тыс. слов). Правда, тестировать новинку смогут только те, кто подключит премиум-план V0 ($20/мес.) или корпоративную подписку ($30 за пользователя/mec).
techcrunch.com
NVIDIA Research представила DreamGen — четырехэтапную систему генерации "нейронных траекторий» с помощью специальных видео-моделей для обучения роботов без предварительных демонстраций.
Сначала модель адаптируют под конкретного робота, затем генерируют видео с новыми сценариями по текстовым инструкциям. Из этих роликов извлекают псевдо-действия с помощью обратной динамики или латентных моделей, из которых формируют политики.
Эксперименты показали: чем больше синтетических данных, тем выше эффективность. При этом DreamGen работает на разных платформах — от дорогих манипуляторов до бюджетных моделей. Технология уже тестируется в реальных сценариях: от складов до домашних задач.
research.nvidia.com
SkyWork AI представила своего «супер-агента», который сразу занял первое место в GAIA Benchmark — ключевом тесте для ИИ-агентов. Система обошла конкурентов в первых двух уровнях сложности, а на третьем сравнялась с Manus.
Главный козырь: поддержка 5 форматов (Word, PPT, Excel, веб-кодинг, подкасты) с возможностью редактирования и отслеживания источников. Платформа максимально проста: вместо сложных промптов — выбор сценария и готовый результат.
Skywork Super Agents доступен как онлайн сервис (стоимость от $20/мес., есть пробный период), а для разработчиков открыли исходники фреймворка DeepResearch и API для вызова агентов по выбору.
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤56👍38🔥31❤🔥4🎄3🤔1
Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах.
Gemma 3n может работа локально на устройстве с 2 ГБ оперативной памяти!
• Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B
• Поддерживает работу без интернета — всё локально и безопасно
• Умеет понимать текст, речь и изображения
• Можно использовать даже на устройствах с 2–3 ГБ RAM
• Поддерживает мгожетсво языков,
💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство.
🔧 Как начать пользоваться:
• Через Google AI Studio — работает прямо в браузере
• Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства
📊 Где это применимо:
• Голосовые ассистенты
• Приложения с ИИ, которые работают без интернета
• Переводчики, чат-боты, анализ изображений на телефоне
#Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍108🔥51❤31❤🔥1🎄1
Media is too big
VIEW IN TELEGRAM
OpenAI объявила о переходе своего автономного агента Operator с кастомной версии GPT-4o на модель o3 — одну из последних в линейке, заточенных под логические задачи. Как отмечают разработчики, o3 заметно превосходит предшественников в математике и анализе, а ещё получила «прокачку» в безопасности.
o3 Operator была обучена на дополнительных данных, которые учат модель четче определять границы допустимых действий (отказываться от поиска личной информации или выполнения сомнительных запросов). По данным технического отчета, система стала устойчивее к prompt-инъекциям, но доступ к терминалу или среде разработки у нее по-прежнему заблокирован.
При этом API Operator останется на базе GPT-4o — изменения коснутся только облачного агента.
openai
AceReason-Nemotron - модель с 14 млрд. параметров, которая фокусируется на решении задач по математике и программированию. Модель построена на базе DeepSeek-R1-Distill-Qwen-14B с помощью RL: сначала еe тренировали на математических задачах, затем — на коде.
Такой подход позволил достичь высокой точности pass@1 в ключевых тестах (78,6 на AIME 2024 и 61,1 на LiveCodeBench v5). По заявлению разработчиков, многоуровневый подход к данным помог добиться прогресса в сложных бенчмарках типа Codeforces ELO (показатель 2024).
Модель уже доступна на Hugging Face.
NVIDIA
Для участников программ Canary и Dev Microsoft тестирует набор ИИ-инструментов в базовых приложениях. Notepad получил функцию Write: генерация текста по запросу и редактирование существующего контента с подсказками ИИ.
В Paint добавили генератор стикеров — нейросеть создает их по текстовому промпту. Также появился ИИ-инструмент для точного выделения объектов, упрощающий работу с элементами изображений. В Snipping Tool теперь есть «Идеальный скриншот»: ИИ автоматически кадрирует выделенную область, учитывая её содержимое.
Для доступа к Write в Notepad потребуется аккаунт Microsoft и кредитная система, как у других ИИ-фич системы. Пока компания не раскрыла детали тарификации, но тестирование уже доступно на Copilot Plus PC.
blogs.windows.com
Apple ускорила разработку умных очков с ИИ, релиз которых запланирован на 2026 год. Устройства оснастят камерами, микрофонами и продвинутым ИИ, позволяющим делать фото, записывать видео, давать навигационные подсказки, отвечать на вопросы и анализировать окружение пользователя. Ключевой элемент — глубокая интеграция с Siri, чьи функции сейчас активно дорабатываются.
Пока они не будут поддерживать дополненную реальность — это долгосрочная цель Apple. Однако уже сейчас команда фокусируется на базовых возможностях, схожих с Ray-Ban и Google Android XR. По словам сотрудника компании, качество исполнения превзойдет аналоги конкурентов.
bloomberg
В Ханчжоу прошла демонстрация роботов Unitree Robotics, которые отработали движения в рамках подготовки к первому в мире бою роботов 25 мая. На тестовой площадке машины показали прямые и боковые удары, прыжки с разворотами, а даже подъем после падения, вызвав восторг у учеников.
Перед матчем роботы прошли «проверку на прочность» — 40-минутную пробежку на баскетбольной площадке. Управление осуществляется тремя способами: через простой контроллер и два новых метода, которые раскроют только на турнире.
В рамках соревнований запланированы показательные выступления и турнирные бои: 1×1 и в группах. 4 команды операторов с разным техническим бэкграундом будут управлять роботами в реальном времени, а победителя определят по итогам серии схваток.
interestingengineering
Гейб Ньюэлл и стартап Starfish Neuroscience представили имплант-конкурент Neuralink. Starfish — можно ставить сразу несколько чипов в разные зоны мозга для комплексного воздействия.
ai_ml
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83❤33🔥32❤🔥3🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Соревнования: четыре команды операторов управляют роботами Unitree G1 в реальном времени. Формат — турнирные бои, где начисляют очки за удары разной степени (1 балл за удар руками, 3 за ноги).
@ai_machinelearning_big_data
#ai #robots #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100❤29🔥26🤬8💅3😁2🥱1
Media is too big
VIEW IN TELEGRAM
PyRoki — это open-source библиотека на Python для задач управления движением роботов. Она решает одну из главных задач в робототехнике — инверсную кинематику (IK), то есть определяет, как двигаться суставам робота, чтобы достичь нужной точки.
▪️ Инверсная кинематика
▪️ Оптимизация траектории
▪️ Перенос движений между разными роботами (motion retargeting)
🚀 Установка
git clone https://github.com/chungmin99/pyroki.git
cd pyroki
pip install -e .
Чем хороша:
✅ Быстрее на 1.7× по сравнению с cuRobo
✅ Работает на CPU, GPU и даже TPU
✅ Написана полностью на Python — легко внедряется, не требует C++
✅ Подходит для промышленных роботов, симуляторов, гуманоидов
Подходит для:
— инженеров робототехники
— разработчиков симуляций
— ML-исследователей в motion planning
▪️ Репозиторий: https://github.com/chungmin99/pyroki
▪️ Сайт: https://pyroki-toolkit.github.io
▪️ Статья: https://arxiv.org/abs/2505.03728
@ai_machinelearning_big_data
#ai #ml #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍72🔥26❤23🎄7
Media is too big
VIEW IN TELEGRAM
OpenAI объявила об открытии первого офиса в Сеуле, реагируя на стремительный рост спроса на ChatGPT в Южной Корее. Страна занимает 2 место по числу платных подписчиков сервиса после США. Уже начат набор команды для укрепления местных партнерств, а детали проектов обещают раскрыть в ближайшие месяцы.
«От чипов до софта и от студентов до старшего поколения — корейская экосистема идеальна для внедрения ИИ», — отметил Джейсон Квон, директор по стратегии OpenAI. Ранее компания анонсировала сотрудничество с Kakao, разработчиком популярного мессенджера, для создания новых продуктов на базе ИИ.
bloomberg.com
С 27 мая техно-гигант начнет использовать публикации пользователей из Европы в своих соцсетях для обучения собственных ИИ-моделей. Пользователи могут попытаться ограничить доступ к своим данным, отправив запрос, но компания не гарантирует удовлетворение таких обращений — заявки будут рассматриваться «в соответствии с законами о защите данных».
Регуляторы Бельгии, Франции и Нидерландов уже выразили обеспокоенность таким подходом на фоне глобальных споров о сборе онлайн-данных для ИИ. Создатели моделей ИИ, в свою очередь, настаивают, что весь открытый контент пригоден для обучения, однако это инициирует судебные иски из-за нарушений авторских прав и приватности.
euronews.com
Модель o3 от OpenAI помогла выявить критическую уязвимость в модуле ksmbd ядра Linux, реализующем протокол SMB3. Речь идёт о CVE-2025-37899 — use-after-free в обработчике команды logoff, где освобождённый объект остаётся доступным для других потоков из-за отсутствия подсчета ссылок.
Автор исследования, ранее находивший подобные баги вручную, использовал o3 для анализа ~12 тыс. строк кода, что в итоге привело к обнаружению проблемы, требующей понимания параллельных подключений.
Хотя o3 выдает ложные срабатывания, ее способность анализировать код уже близка к человеческой.
sean.heelan.io
Команда SpeechLab (Alibaba Group) анонсировала CosyVoice 3 — новое поколение моделей для генерации речи, которое получило поддержку русского языка и улучшенную по сравнению с CosyVoice 2 передачу интонаций и эмоций.
Согласно препринту техотчета, в семействе 2 модели, на 0.5 и 1.5 млрд параметров с новым токенизатором MinMo. Модели обучались методом оптимизации наград DiffRO
на 1 млн. часов аудио с имитацией более 100 различных интонаций и эмоций.
По тестам CosyVoice 3 снизил частоту ошибок (CER/WER) на 44% для китайского и 51% для английского по сравнению с CosyVoice 2, и обошел F5-TTS, Spark-TTS в кросс-языковых задачах. Кода и весов моделей пока нет.
funaudiollm.github.io
Всего через несколько дней после запуска, Google расширил доступ к Veo 3, добавив 71 новую страну. Как сообщил вице-президент Gemini Джош Вудворд в сети Х, подписчики Gemini Pro получат пробный пакет из 10 генераций. А вот обладатели Ultra-подписки за $250 в месяц смогут создавать неограниченное количество роликов с ежедневным обновлением квот.
Но есть нюансы: Veo 3 работает исключительно в веб-версии Gemini Pro, поддерживает только английскую аудиодорожку, а в Flow mode нельзя добавить голос поверх загруженных изображений.
Похоже, Google повторяет успех NotebookLM, но теперь — на уровне визуального контента. Техническое комьюнити ждtт, когда модель научится мультиязычности и расширит функционал.
Josh Woodward в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥24❤20🎄3
Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов.
На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет.
Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace.
Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги.
⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет.
# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait
# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt
# Run
video_path="your_video.mp4"
image_path="your_image.png"
python inference.py \
--config config/hunyuan-portrait.yaml \
--video_path $video_path \
--image_path $image_path
@ai_machinelearning_big_data
#AI #ML #HunyuanPortrait
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥25❤20🤣5🍓3🎄2👌1👀1