Media is too big
VIEW IN TELEGRAM
Китайские военные провели испытания автономных четвероногих роботов, способных действовать скоординированными группами в условиях боевых действий.
Каждая машина передвигается со скоростью до 15 км/ч, несёт полезную нагрузку до 25 кг и преодолевает препятствия высотой до 30 см. За подвижность на неровном рельефе отвечают 12 независимых сочленений.
Роботы оснащены системами ИИ и обмениваются сенсорными данными в реальном времени, что позволяет стае действовать как единое целое.
Внутри группы роботы распределены по специализациям:
Несмотря самостоятельность, финальную команду на открытие огня отдает человек-оператор.
Управлять машинами можно голосом или через специальные перчатки с датчиками, считывающими жесты рук. В сеть стаи также интегрированы дроны — это расширяет радиус действия и создает связку наземных и воздушных единиц для работы в сложных сценариях.
Видеоматериал представляет собой постановочные военные учения. Ролик снят и распространён государственными СМИ Китая - Global Times и Shanghai Media Group.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔61🔥34👀19😨15💯11❤9👏6🤨4👨💻1🤝1
🚀 OpenAI представила GPT-5.5
Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.
GPT 5.5 хороша в многоступенчатых задачах.
И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.
Модель стала дороже: ~$5 / $30 за млн токенов.
Уже раскатывают на всех платных подписчиков.
Тестим! 🔥
https://openai.com/index/introducing-gpt-5-5/
Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.
GPT 5.5 хороша в многоступенчатых задачах.
И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.
Модель стала дороже: ~$5 / $30 за млн токенов.
Уже раскатывают на всех платных подписчиков.
Тестим! 🔥
https://openai.com/index/introducing-gpt-5-5/
🔥135❤25👏19🤩16🥱10👍6💯4🤣3🤨2
🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Антропии и ОпенАи будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала суперлешевой, и от это уже не отмотаешь.
В релизе есть упоминания - «950 supernodes» это отсылка к Huawei Atlas 950 SuperPoD, новой инференс-инфраструктуре Huawei на чипах Ascend. DeepSeek говорят, что во второй половине 2026 года, когда эти суперноды запустят в масштабе, цена Pro заметно упадёт. То есть они планируют гонять инференс не на Nvidia, а на китайском железе Huawei.
Тариф Pro стоит $0.145 за вход и $3.48 за выход на миллион токенов.
Flash - $0.028 за вход и $0.28 за выход, что делает его неверятно дешевым для модели, которая заявляет уровень конкуренции с передовыми системами.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Антропии и ОпенАи будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала суперлешевой, и от это уже не отмотаешь.
В релизе есть упоминания - «950 supernodes» это отсылка к Huawei Atlas 950 SuperPoD, новой инференс-инфраструктуре Huawei на чипах Ascend. DeepSeek говорят, что во второй половине 2026 года, когда эти суперноды запустят в масштабе, цена Pro заметно упадёт. То есть они планируют гонять инференс не на Nvidia, а на китайском железе Huawei.
Тариф Pro стоит $0.145 за вход и $3.48 за выход на миллион токенов.
Flash - $0.028 за вход и $0.28 за выход, что делает его неверятно дешевым для модели, которая заявляет уровень конкуренции с передовыми системами.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
1❤227👍80🔥64😁6
Media is too big
VIEW IN TELEGRAM
xAI открыла API-доступ к голосовому агенту grok-voice-think-fast-1.0, который позиционируется для клиентского сервиса и телемаркетинга.
В бенчмарке τ-Voice Bench на дуплексный режим с шумом, акцентами и перебиваниями, модель набрала 67,3%, оставив позади gpt-realtime-1.5 (35,3%), gemini-3.1-flash-live-preview-thinking-high(43,8%).
Архитектура поддерживает фоновый инференс без задержки ответа на 25+ языках, включая русский. Модель разработана совместно со Starlink, провайдер уже использует её в клиентской поддержке.
Протестировать новую модель можно в xAI Playground.
x.ai
ChatGPT for Clinicians - версия ассистента на базе GPT-5.4, адаптированная под клинические задачи. Сервис бесплатно доступен верифицированным медработникам в США. На внутренних тестах от практикующих врачей клиническая модель обошла по точности базовый GPT-5.4, сторонние решения и самих врачей.
Модель должна снять с врачей административную рутину: разбор профильной литературы, направления, инструкции пациентам, отчёты со ссылками на рецензируемые источники. Чаты не используются для обучения следующих моделей, поддержка HIPAA доступна опционально.
Вместе с релизом OpenAI открыла набор данных HealthBench Professional для оценки ИИ в здравоохранении.
openai.com
Microsoft открыла общий доступ к агентным функциям Copilot в Word, Excel и PowerPoint. Раньше ассистент жил в боковой панели и отвечал на вопросы - теперь он действует в приложениях и сам меняет содержимое файлов.
Обновленный Copilot может переформатировать и переписать текст, собрать сводную таблицу или применить формулу в Excel, сверстать презентацию по корпоративному шаблону. Все правки агента можно просмотреть, скорректировать или откатить до применения.
Функция уже работает по умолчанию на подписках Microsoft 365 Copilot, Premium, Personal и Family.
microsoft.com
Обновление принесло крупные изменения - модель больше не собирает объект за один проход: сначала формирует общую структуру, затем на её основе прорабатывает грани, стенки и сложную топологию.
За текстурирование отвечает PBR-модель с архитектурой MoE. VLM анализирует физические свойства поверхностей на исходном изображении, поэтому материалы адекватно реагируют на смену освещения в сцене.
В системе появилась декомпозиция: Seed3D 2.0 разделяет объект на функциональные и подвижные элементы и выгружает их с кинематическими связями в формате URDF. Ассеты экспортируются напрямую в игровые движки и физические симуляторы. Доступ открыт на платформе ByteDance.
bytedance.com
Бывший сотрудник OpenAI, проработавший у Сэма Альтмана 7 лет, открыл исследовательскую лабораторию Core Automation. Заявленная цель - автоматизировать процесс разработки ИИ.
Команда будет работать над новыми алгоритмами обучения за пределами RL и над архитектурами, которые масштабируются лучше трансформеров. Планируется, что небольшая группа инженеров плюс автономные ИИ-агенты закроют объём, который сегодня тянут крупные корпорации.
Core Automation встаёт в один ряд с Safe Superintelligence Ильи Суцкевера и Thinking Machines Lab Миры Мурати, стартапами выходцев из OpenAI, которые ищут архитектурную альтернативу подходу "больше параметров, больше железа".
Jerry Tworek в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96❤24🔥16👏7🤩5🎉2🗿1
Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.
При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.
Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.
Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.
Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.
Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.
Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.
Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.
В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).
Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.
Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.
На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.
Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #Research #Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔72👍41👏27❤14🔥7🤓7🤣2✍1😎1
Media is too big
VIEW IN TELEGRAM
Формат DESIGN.md, изначально созданный для ИИ-инструмента Stitch, позволяет упаковать визуальные правила бренда в единый машиночитаемый файл.
Структура DESIGN.md совмещает точные значения переменных в формате YAML (цвета, размеры шрифтов, отступы) с простыми текстовыми заметками, объясняющими логику их применения.
Опираясь на разметку, агенты могут генерировать UI-компоненты в строгом соответствии с корпоративным стилем компании, а также автоматически проверять готовый дизайн на соответствие стандартам доступности WCAG.
Проект опубликован на GitHub под лицензией Apache 2.0 и пока находится в стадии альфа-тестирования.
В комплекте разработчики выпустили CLI-утилиту для валидации файлов, их сравнения и быстрого экспорта в W3C DTCG или Tailwind.
Создать кастомный DESIGN.md можно бесплатно на платформе Stitch.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👌66❤30👍19🤔12🔥8👏8🎉5
Ресерчеры из AI VK и ИТМО предложили новый метод дообучения generative retrieval моделей, который позволяет учитывать новые данные без полного переобучения в случае, когда для этапа токенизации используется коллаборативный сигнал из логов взаимодействий.
Telegram
AI VK Hub
🔁 Generative retrieval с коллаборативными Semantic ID: как обновлять токены без полного переобучения
Владимир Байкалов, ведущий исследователь в AI VK и коллеги из ИТМО выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество…
Владимир Байкалов, ведущий исследователь в AI VK и коллеги из ИТМО выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество…
🤓101👍40🤔16❤10🤣5🔥4😁4😍1
На днях одновременно опубликованы 2 исследования, с разных сторон описывающие, как ИИ распределяется между профессиями.
Опрос Financial Times и компании Focaldata, охвативший 4 000 работников в США и Великобритании, и отчёт Anthropic, основанный на ответах 81 000 пользователей Claude, во многом пересекаются.
По данным FT, более 60% наиболее высокооплачиваемых работников используют ИИ ежедневно - против лишь 16% среди низкооплачиваемых.
Юристы, бухгалтеры и IT-специалисты обращаются к этим инструментам примерно одинаково вне зависимости от стажа, но значительно чаще, чем их коллеги из менее квалифицированных групп в тех же отраслях, например кассиры, кладовщики и операторы поддержки.
Anthropic добавляет к этим наблюдениям данные о том, как технологию воспринимают те, кто непосредственно пользуется ИИ.
В профессиях, где Claude выполняет значительную долю задач, сотрудники чаще опасаются сокращений: программисты переживают заметно сильнее, чем, например, учителя начальной школы.
Наибольший прирост производительности заявляют работники высокооплачиваемых должностей, но часть низкооплачиваемых (от оператора колл-центра до курьера, запустившего онлайн-магазин) также сообщают об ощутимом ускорении работы.
FT выяснил, что самыми активными пользователями ИИ оказались не студенты, а работники около 30 со сложившимся профессиональным опытом. Эксперты полагают, что модели лучше раскрываются в руках тех, у кого уже есть экспертиза.
Опрос Anthropic указывает в ту же сторону: сотрудники на ранних этапах карьеры заметно чаще говорят об угрозе замещения, а о личной выгоде от ИИ сообщают 60% из них против 80% среди старших коллег.
И FT, и Anthropic отмечают опасение, что часть задач, на которых прежде учились начинающие работники, теперь делегируется ИИ более опытными сотрудниками.
Воронка найма для начинающих сужается, нарабатывать базу негде.
Означают ли эти данные устойчивое социальное расслоение или временную асимметрию, характерную для начала любой технологической волны, - в этом мнения аналитиков расходятся.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔127👍35❤23💯19👏12🤓9😁7🔥2😢2🤬1😭1
После проекта Vend, в котором Claude управлял мини-магазином в офисе Anthropic, компания провела новый эксперимент - Project Deal.
На этот раз попытались выяснить, способны ли ИИ-агенты самостоятельно заключать сделки, представляя интересы людей на рынке подержанных вещей.
В декабре 2025 года 69 сотрудников компании в течение недели участвовали в закрытом аналоге он-лайн барахолки Craigslist.
Каждый сотрудник предварительно прошёл интервью с Claude, где рассказал, что готов продать и купить и на каких условиях.
На основе этих ответов для каждого участника был сгенерирован индивидуальный системный промпт, после чего агенты получили по $100 вышли на площадку в корпоративном Slack.
Люди в процесс не вмешивались: агенты сами размещали объявления, вели переговоры и заключали сделки на естественном языке.
По итогу эксперимента было заключено 186 сделок общим объёмом чуть более $4000. Общий ассортимент составил более чем 500 товаров: от сноуборда до пакета с шариками для пинг-понга.
Справедливость сделок участники оценили в среднем на 4 балла по шкале от 1 до 7, где крайние значения означали перекос в пользу одной или другой стороны.
Всего было запущено 4 версии рынка: одну реальную (на основе которой и должен был состояться обмен вещами) и 3 дополнительные. В двух все агенты работали на модели Opus 4.5, в двух других участники случайным образом получали менее мощную Haiku 4.5.
По большинству объективных показателей Opus превосходил Haiku, однако сотрудники, представленные более слабой моделью, своего проигрыша не замечали.
В последнее время экономисты все чаще выдвигают теории о мире, в котором ИИ будет совершать многие или большинство сделок от имени людей.
Авторы Project Deal допускают, что подобная агентная торговля может выйти за пределы лабораторных условий уже в обозримом будущем.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔95👍71❤20👀13🥱12👏9😐9🔥6🤷♂4🙈2😁1