Machinelearning

✔️

GPT 5.5 полностью решила задание из бенчмарка ProgramBench

Команда ProgramBench сообщила, что модель GPT 5.5 в режимах high и xhigh впервые в истории теста полностью прошла одно из заданий - задачу cmatrix.

До этого ни одна модель из публичного рейтинга не доводила задания до конца.

ProgramBench - набор реальных задач программирования, в которых агент должен с нуля переписать утилиту с открытым исходным кодом и пройти при этом скрытые поведенческие тесты.

🟡

Лидерборд выглядит так

🟢GPT 5.5 (xhigh) - 1 место: 0,5% полностью решённых задач и 13,5% почти решённых (то есть проходящих свыше 95% поведенческих тестов)

🟠GPT 5.5 (high) - те же 0,5% при 5% почти решённых

🟠Claude Opus 4.7 (xhigh) показала 0% и 4,5%, обычная версия Opus 4.7 - 0% и 3%

🟠Opus 4.6 - 0% и 2,5% соответственно

Совокупно число почти решённых задач у GPT 5.5 достигло 26, это рекорд рейтинга.

Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. При включении расширенного рассуждения её результат заметно улучшается.

🟡

Разброс по стоимости

Запуск GPT 5.5 (high) стоил $3,17 и потребовал 34 обращения к API, GPT 5.5 (xhigh) - $4,84 и 40 обращений.

Тот же запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74 при 178 обращениях, однако решение содержало 19 ошибок в поведенческих тестах.

По разбору авторов, все провалы объясняются 2-мя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.

Интересно, что 2 версии GPT 5.5 выбрали разные языки для одной и той же задачи: high решала на C с ANSI escape-последовательностями, xhigh предпочла Python.

Claude Opus 4.7 (xhigh) использовала библиотеку ncurses и команда бенчмарка охарактеризовала этот подход как креативное системное решение, которое, впрочем, не дало преимущества в итоговом результате.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍101❤32👏23🔥10🤔10🥰2

21.1K views09:52

🌟

Perceptron AI представил недорогую модель анализа видео

Американский стартап выпустил флагманскую мультимодальную модель Mk1 (Mark One) для анализа видео и воплощенного ризонинга - способности ИИ оперировать пространственно-временной информацией о физическом мире.

Стартап основали в ноябре 2024 года Армен Агаджанян и Акшат Шривастава - бывшие научные сотрудники подразделения FAIR Марка Цукерберга, соавторы работ по мультимодальным архитектурам Chameleon и MoMa.

Perceptron AI позиционирует Mk1 как инструмент для видеонаблюдения, инспекции оборудования, инвентаризации складов, аналитики безопасности и автоматической разметки обучающих данных для роботов.

Модель обрабатывает видео с частотой до 2-х кадров в секунду и отслеживает объекты между кадрами, в том числе при их частичном перекрытии.

Mk1 работает в гибридном режиме: цепочку рассуждений можно включать или отключать на уровне отдельного запроса.

Для видео доступна разметка временных меток событий; для изображений - детекция объектов, подсчёт, распознавание текста, разбор сложных документов в HTML, JSON или Markdown, а также вывод геометрических примитивов (точек, рамок и полигонов), которые могут использоваться робототехническими системами.

По бенчмаркам, опубликованным самой Perceptron, модель в задачах работы с изображением, видео и пространственным рассуждением сопоставима с топовыми моделями Google, Anthropic, OpenAI и Qwen, а в ряде тестов опережает их.

В частности, на EmbSpatialBench модель набрала 85,1 балла против 78,4 у Google Robotics-ER 1.5.

Модель доступна через API и площадку OpenRouter. Попробовать Mk1 можно на сайте стартапа.

Заявленная цена: 15 центов за миллион входных токенов и 1,50 доллара за миллион выходных, контекстное окно - 32 тыс. токенов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍72👏25❤12🤓9🔥4🙈2

18.2K views14:05

Machinelearning

📌

Anthropic опубликовал документ о конкуренции США и Китая на горизонте 2028 года.

Компания напрямую агитирует за ужесточение экспортного контроля и закрытие каналов, через которые китайские лаборатории догоняют фронтир.

Логика статьи строится на одном наблюдении.

По интеллекту моделей отставание китайских лабораторий от американских сократилось до нескольких месяцев.

По компьюту (вычислительные мощности) разрыв пока огромный: согласно дорожным картам, Huawei в 2026 году произведёт около 4% от совокупной вычислительной мощности Nvidia, в 2027-м - 2%.

Но именно компьют, по мнению Anthropic, пока удерживает китайские лаборатории от паритета. И компанию беспокоит то, насколько изобретательно этот барьер обходится.

Каналов обхода два:

- физический и инфраструктурный доступ к компьюту в обход санкций: контрабанда чипов и обучение моделей в датацентрах за пределами Китая
- distillation attacks: массовое создание поддельных аккаунтов для систематического сбора ответов фронтирных моделей и воспроизведения их возможностей у себя

Текущее экспортное право регулирует продажу железа, но не удалённый доступ к нему. По данным FT, Alibaba и ByteDance уже тренируют флагманские модели на подсанкционных американских чипах в датацентрах Юго-Восточной Азии.

Distillation attacks Anthropic квалифицирует как промышленный шпионаж, фактически субсидируемый американскими инвестициями.

Особое место в статье занимает Mythos Preview - модель, которую Anthropic в апреле передал ограниченному кругу партнёров в рамках Project Glasswing. Команда Firefox с её помощью за месяц закрыла больше уязвимостей, чем за весь 2025 год.

Один китайский аналитик по кибербезопасности отреагировал фразой, которую теперь цитируют в статье: «

мы всё ещё точим мечи, а у соперника внезапно появился полностью автоматический пулемёт Гатлинга».

Этот эпизод Anthropic подаёт как репетицию будущего. При таком темпе ускорения отставание даже в несколько месяцев превращается в качественно другой уровень возможностей.

Два сценария на 2028 год выстроены вокруг одной развилки - что сделает Вашингтон в ближайшие месяцы.

В сценарии лидерства США закрывают лазейки в экспортном контроле, давят дистилляцию, ускоряют экспорт американского ИИ-стека и получают отрыв в 12-24 месяца по фронтиру. Этот отрыв самоусиливается: лидерство притягивает таланты и капитал, расширяет коалицию союзников, даёт США рычаги для диалога с Пекином, включая темы безопасности.

В сценарии паритета Вашингтон оставляет всё как есть. Китайские лаборатории за счёт удалённого компьюта и продолжающейся дистилляции выходят на околофронтирный уровень. Huawei и Alibaba занимают рынки Глобального Юга дешёвыми и достаточно качественными моделями, а нормы применения ИИ начинают формироваться под влиянием авторитарных режимов.

Отдельный важный блок - безопасность китайских моделей.

Anthropic ссылается на оценку CAISI: DeepSeek R1-0528 под распространённым джейлбрейком выполняет 94% явно вредоносных запросов против 8% у американских референсных моделей. Независимая проверка Kimi K2.5 от Moonshot показала похожую картину на CBRN-тематике.

Открытые веса делают проблему острее. После публикации модели встроенные ограничения можно снять, и любой актор получает доступ к её возможностям.

На уровне политики Anthropic предлагает четыре шага:

- ужесточить экспортный контроль на чипы и оборудование для их производства
- закрыть лазейку с удалённым доступом к зарубежным мощностям
- законодательно квалифицировать distillation attacks как незаконную практику
- продолжать продвигать американский ИИ-стек на внешних рынках

По расчётам, на которые ссылается компания, при ужесточении ограничений у американского сектора будет примерно в 11 раз больше компьюта, чем у китайского.

Любопытна и сама форма высказывания. Anthropic окончательно вышел за рамки роли исследовательской лаборатории - это полноценный лоббистский документ, оформленный как ресёрч.

Оригинал: https://www.anthropic.com/research/2028-ai-leadership

@ai_machinelearning_big_data

#anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥63🤔59🤬28❤15👍9😁8👌6🤨5🤣4👏3🐳1

22.4K views19:20

✔️

Пекин заблокировал экспорт Nvidia H200 после одобрения Минторгом США

Разрешения получили около 10 компаний (Alibaba, Tencent, ByteDance и JD и дистрибьюторы Lenovo и Foxconn). Квота составляет до 75 тысяч чипов на клиента. Правительство КНР остановило сделки для перевода инфраструктуры на локальные аналоги.

Дополнительным барьером стала новая схема логистики от администрации США. Ведомство требует 25% выручки от продаж, для чего обязали физически провозить электронику через американскую территорию перед отправкой заказчикам. Китайские регуляторы видят в таком маршруте риск компрометации цепочек поставок и установки аппаратных закладок.

Для проведения переговоров по контрактам глава Nvidia присоединился к миссии США в Пекине.
reuters.com

✔️

Anthropic временно увеличила лимиты для Claude Code на 50%

До 13 июля пользователи платных тарифов Pro, Max, Team и Enterprise смогут обращаться к ИИ-ассистенту в полтора раза чаще. Новые еженедельные квоты и действуют во всех рабочих средах: CLI, расширениях для IDE, а также в десктопной и веб-версиях.

Это расширение станет отличным подспорьем для разработчиков, поскольку 50-процентная надбавка суммируется с обновлением прошлой недели, когда Anthropic в 2 раза увеличила лимиты на пятичасовые сессии. Никаких дополнительных действий для активации нового лимита не требуется.
ClaudeDevs в сети Х

✔️

Управлять Codex теперь можно с iOS и Android

OpenAI добавила функцию удаленного управления Codex в мобильное приложение ChatGPT. Мобильный клиент в реальном времени транслирует скриншоты среды, логи терминала, результаты тестов и diff-файлы. Пользователь может проверять промежуточные результаты, корректировать действия ИИ и подтверждать выполнение команд без физического доступа к ПК.

Соединение устройств идет через внутренний ретранслятор без прямого доступа к машине из публичного интернета. Исходный код, ключи и локальные настройки не покидают рабочую среду. Одновременно OpenAI выпустила функцию Remote SSH для запуска агента в корпоративных инфраструктурах.

Управление агентом со смартфона доступно на всех тарифах. Для подключения необходимо обновить мобильный ChatGPT и десктопный клиент для macOS. Поддержка Windows ожидается позже.
openai.com

✔️

arXiv начнет банить авторов на год за невычитанные тексты от LLM

О новых правилах объявил Томас Дитерих. Согласно политике, авторы несут полную ответственность за содержимое препринтов, включая плагиат, предвзятость и фактические ошибки языковых моделей.

Поводом для блокировки аккаунта станут явные следы ИИ-генерации: выдуманные источники в списке литературы, забытые ответы чат-ботов или просьбы заполнить таблицу реальными данными экспериментов.

Нарушители лишаются права публиковаться на один год. После истечения бана прямая загрузка препринтов для них останется недоступной, для размещения статьи потребуется предоставить доказательства ее принятия авторитетным рецензируемым изданием или конференцией.
Ведущий модератор раздела CS.LG сервиса arXiv

✔️

GPT-5.5 и Claude Mythos прошли стенды AISI на автономный взлом

Британский институт безопасности ИИ протестировал модели GPT-5.5 и Claude Mythos на способность к автономному хакингу. По данным исследователей, нейросети прервали предыдущий тренд на удвоение сложности решаемых задач каждые 4,7 месяца, показав результаты за пределами измерительной шкалы института.

Модели проверяли на изолированных стендах с имитацией корпоративных сетей. Задачи включали поиск уязвимостей, веб-эксплуатацию и реверс-инжиниринг. Для тестов контекстное окно ограничивали 2,5 млн токенов. В этих условиях Claude Mythos первым прошел оба комплексных сценария: "The Last Ones" и инфраструктуру "Cooling Tower", требующих планирования многоэтапной атаки. GPT-5.5 также показала высокие результаты.

По оценкам AISI, при использовании агентной архитектуры и снятии лимита на токены доля успешных взломов приближается к 100%, из-за чего вычислить предел возможностей новых моделей пока не удается.
aisi.gov.uk

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔76❤28🔥19👏17🗿8😨6🤨5👍2😁2🥰1

17.4K views08:04

Machinelearning

✔️

OpenAI предлагает 2 месяца бесплатного доступа к Codex Enterprise.

Сэм Альтман объявил о запуске агрессивной промоакции: в ближайшие 30 дней компании, готовые сменить ИИ-провайдера на Codex, получат 2 месяца бесплатного использования полнофункциональной корпоративной версии.

Тайминг выбран неслучайно. Запуск кампании совпал с анонсом от Anthropic, которая радикально изменила правила использования своих ИИ-инструментов.

С 15 июня 2026 года запросы к Claude Agent SDK и сторонним приложениям перестанут учитываться в рамках общих квот для подписок Pro, Max, Team и Enterprise.

Anthropic переводит автоматизацию на отдельный счет: теперь пользователям выделяется жесткий ежемесячный баланс, например, $20 для тарифов Pro и до $200 для топовых планов.

При исчерпании этого лимита работа агентов полностью блокируется до начала нового расчетного периода.

Чтобы продолжить использование сторонних интеграций, клиентам придется включить extra usage и дополнительно оплачивать запросы по тарифам API.

Ситуацию усугубляет то, что неиспользованные остатки кредитов сгорают, а корпоративные клиенты не могут объединять индивидуальные квоты разработчиков в общий командный пул.

Сообщество разработчиков встретило этот шаг Anthropic волной критики, расценив его как скрытое сокращение лимитов.

OpenAI оперативно воспользовалась хэйтом, предложив корпоративным командам выгодную альтернативу без финансовых рисков при миграции.

Подать заявку на получение бесплатного доступа можно через сайт OpenAI или с помощью промокодов от партнерских площадок.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻76👍48❤16👏13🤔7🤣4🔥3🤗2

16.6K views11:05

Machinelearning

Пока одни обсуждают, заменит ли ИИ инженеров, Норникель quietly сделал ход в другую сторону, научил его работать вместе с ними.

Компания запустила систему, которая фактически берет на себя весь цикл проектирования промышленного здания: от расчетов до документации. Внутри не абстрактная нейросеть, а обученная на ГОСТах, СНиПах и собственной экспертизе база знаний, которая через ИИ-агентов собирает цифровую модель, считает параметры и проверяет их на соответствие нормам. Финальное слово остается за инженером, но теперь он работает не с пустого листа, а с уже просчитанным и собранным решением.
И это не красивая концепция, а вполне измеримая эффективность: задачи на проектирование выполняются на 83% быстрее, моделирование на 80%, а сроки подготовки документации сокращаются вдвое.
По сути, речь идет о новой логике инженерной работы, где ИИ закрывает рутину и снижает вероятность ошибок, а человек концентрируется на принятии решений.
На фоне ухода привычного софта с рынка это выглядит не как временная замена, а как попытка собрать собственный инженерный стек под реальные задачи и с заделом на будущее.

👍108🔥29😐21🤣13👏10❤7🙈5🎉4🥰1

15.6K viewsedited 13:47

Machinelearning

✔️

AutoScientist: система автоматического файн-тюнинга моделей

Adaption представила систему AutoScientist, которая автоматизирует полный цикл дообучения: она сама и синхронно оптимизирует наборы данных и рецепты тренировки, пока модель не сойдётся к заданному поведению.

Adaption основан в 2025 году бывшими руководителями направлений в Cohere. Компания строит то, что называет adaptable intelligence: системы, которые подстраиваются под конкретную задачу. Среди инвесторов Adaption: Emergence Capital, Mozilla Ventures и Threshold Ventures.

AutoScientist - третий продукт компании. До него вышли Adaptive Data, платформа подготовки и оптимизации датасетов для дообучения, и Forge, инструмент для превращения неструктурированных документов в готовые для тренировки наборы данных.

AutoScientist надстраивается над Adaptive Data, замыкая связку «данные - модель». Четвёртое направление, Adaptive Interfaces, система обратной связи от пользователей, компания заявила, но пока не выпустила.

AutoScientist закрывает типовые причины провала файн-тюнинга: катастрофическое забывание, переобучение на маленьких датасетах и конфликтующие сигналы тренировки.

Для разработчиков это путь от идеи до собственной дообученной модели за несколько часов вместо недель, а для специалистов без профильного образования - доступ к тренировке моделей, а не только к промптингу.

Внутреннее тестирование на 8 отраслевых бенчмарках подтвердило успех алгоритма над конфигурациями, которые создавали штатные инженеры Adaption.

Исследователи задавали конфигурации, зная тип модели, домен и размер датасета. AutoScientist получал ту же информацию и мог дообучаться на ограниченном наборе прошлых запусков.

При работе с архитектурами на базе Together AI и датасетами от 5 до 100 тысяч примеров AutoScientist увеличил показатель успешных дообучений с 48% до 64%.

Система показала стабильный результат во всех протестированных доменах и избежала чувствительности к конкретным вертикалям данных.

Сейчас платформа доступна бесплатно в рамках 30-дневного ознакомительного периода.

В дальнейшем Adaption обещает представить технологию адаптации в реальном времени, которая позволит корректировать поведение моделей без классического цикла тренировки.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍62👏26🔥13🎉10❤8💯4🙈1

15K views14:46

Machinelearning

X выложили обновленный алгоритм For You на GitHub

Можно посмотреть, как X собирает и ранжирует ленту рекомендаций.

В репозитории xai-org/x-algorithm опубликован код системы, которая питает For You feed: от подбора кандидатов на показ до финального ранжирования постов. Внутри два основных источника контента:

- посты от аккаунтов, на которые вы подписаны
- посты из глобального корпуса, найденные через ML-retrieval

Дальше всё прогоняется через Phoenix - transformer-модель на базе архитектуры Grok. Она оценивает вероятности действий пользователя: лайк, реплай, репост, клик и другие сигналы. После этого система собирает итоговый score и решает, что именно попадёт в ленту.

Можно посмотреть, какие сигналы действительно влияют на рекомендации, как устроен ranking pipeline и где платформа фильтрует контент перед показом.

GitHub: https://github.com/xai-org/x-algorithm

@ai_machinelearning_big_data

👍140❤22🤔16👏7🔥6👨‍💻6😨2

17.7K views15:19

✔️

OpenAI обвиняет Apple в занижении конверсии ChatGPT

OpenAI готовит иск к Apple о нарушении контракта из-за интеграции ChatGPT в iOS. По версии ИИ-компании, яблочный партнер намеренно ограничил системные функции модели, из-за чего пользователи предпочитают отдельное приложение, а конверсия в платные подписки не достигла целевых показателей.

У Apple есть встречные претензии. Компанию не устраивают подходы OpenAI к конфиденциальности данных, переманивание инженеров из Купертино и планы стартапа по запуску собственного аппаратного бизнеса.

На предстоящей конференции WWDC Apple анонсирует новую версию ОС, в которой, как ожидается, компания откажется от эксклюзивного статуса ChatGPT и откроет Siri для интеграции со сторонними LLM.
bloomberg.com

✔️

SpaceXAI потеряла руководителя и часть команды по претрейну

С февраля из SpaceXAI ушли более 50 ML-исследователей и инженеров. Причинами стали переработки и жёсткие дедлайны.

Увольнения затронули разработку генерации кода, моделей мира и голосового интерфейса Grok. Команду претрейна покинул руководитель Цзюньтан Чжуан, после чего в подразделении осталось несколько сотрудников. 11 ушедших специалистов нанял Марк Цукерберг, еще 7 перешли к Мурати в Thinking Machines Lab.

По словам бывших сотрудников Илона Маска, сжатые сроки обучения моделей вынуждают идти на компромиссы в архитектуре Grok. Но есть и доля финансовой мотивации: регулярные тендеры на частный выкуп акций позволяют инженерам обналичить опционы и сменить место работы, зафиксировав прибыль.
theinformation.com

✔️

Poetiq представил инструмент для улучшения кодогенерации LLM

Стартап, основанный выходцами из Google и DeepMind представил API-надстройку для языковых моделей под названием Meta-System. Она улучшает генерацию кода через рекурсивное самосовершенствование, формируя оптимизированный интерфейс для подключенной LLM. Инструмент работает без изменения весов и файн-тюнинга.

На бенче LiveCodeBench Pro надстройка повысила точность Kimi K2.6 на 30%, а Gemini 3.0 Flash прибавила 10%, обойдя базовую Gemini 3.1 Pro, Claude Opus 4.7 и GPT 5.2 High.

Показатели флагманов тоже выросли. GPT 5.5 High в связке с Meta-System достигла точности 93,9%. Gemini 3.1 Pro набрала 90,9%, превзойдя результаты модели Google Gemini 3 Deep Think.
poetiq.ai

✔️

Resemble AI опубликовала открытую модель синтеза речи со сценическими ремарками и клонированием

DramaBox - открытая модель генерации речи с контролем эмоций через промпты. Текст для синтеза заключается в кавычки, а за их пределами прописываются ремарки (вздохи, шепот, паузы, хрипота), которые отыгрываются при генерации.

Модель поддерживает клонирование голоса по 10-секундному референсу. Атрибуты персонажа (возраст, акцент и эмоция) задаются естественным языком. На выходе генерируется стереозвук с частотой 48 кГц. В аудио встраиваются водяные знаки PerTh, устойчивые к MP3-сжатию и редактированию.

В основе системы лежит дообученная LTX-2.3 от Lightricks. Текстовые эмбеддинги обрабатывает Gemma 3 12B. Для локального инференса требуется около 24 ГБ видеопамяти. Чекпоинты выложены на Hugging Face.
huggingface.co

✔️

Mythos помог разработать эксплойт для macOS

ИБ-компания Calif разработала эксплойт для ядра macOS на процессорах Apple M5 с помощью закрытой модели Claude Mythos Preview. Уязвимость позволяет локальному пользователю без привилегий получить контроль над устройством через повреждение памяти ядра.

Атака комбинирует 2 бага. Модель нашла ошибки в коде ОС и участвовала в написании эксплойта. В Calif заявили, что после усвоения механики эксплуатации конкретного класса проблем нейросеть масштабирует опыт для поиска аналогичных уязвимостей в других системах.

Apple закрыла уязвимость в релизе macOS Tahoe 26.5, упомянув в примечаниях к патчу исследователей из Calif и Anthropic Research. Технический разбор вектора атаки скрыт до массовой установки обновления.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥70🤔20❤12👍11👏7🎉1

7.7K views08:27

About

Blog

Apps

Platform