Инженер из AMD опубликовал на GitHub подробный разбор деградации Claude Code на сложных задачах, начавшейся в феврале. Автор сгенерировал отчет силами Opus 4.6, проанализировав 17 тыс. блоков размышлений и 234 тыс. вызовов инструментов в 6 852 локальных сессиях.
Главная метрика - отношение чтений файлов к правкам упала с 6,6 до 2,0. Иначе говоря, модель почти перестала изучать код перед его модификацией: доля правок без предварительного чтения выросла с 6,2% до 33,7%.
Параллельно был зафиксировал рост зацикливаний (с 8,2 до 21,0 на тысячу вызовов), удвоение использования полной перезаписи файлов вместо точечных правок и вспышку поведенческих симптомов (уклонение от ответственности, преждевременные остановки и склонность к простейшему решению).
Специальный stop-hook, ловящий такие фразы, сработал 173 раза за 17 дней после 8 марта, против нуля за весь предыдущий период.
Автор связал регрессию с заголовком
redact-thinking-2026-02-12, после появление которого содержимое thinking-блоков перестало приходить клиенту.Борис Черный, глава команды Claude Code ответил на Hacker News:
Заголовок убирает саммари размышлений из интерфейса, чтобы не гонять их по сети ради снижения латентности, но не трогает ни сам ризонинг, ни бюджеты на него.
Локальный анализ транскриптов поэтому и видит пустые блоки и делает неверный вывод об отсутствии мышления. Если надо, то вернуть отображение можно опцией
showThinkingSummaries:true в settings.json.9 февраля вместе с Opus 4.6 включили adaptive thinking - модель сама выбирает длину размышлений вместо фиксированного бюджета.
3 марта дефолтный уровень усилий для Opus 4.6 подняли до medium (effort=85) как компромисс между интеллектом, латентностью и стоимостью.
В ответ на гипотезу о том, что виноват свежий 1M-контекст и работа без
/compact после 200k токенов, Борис предложил решения, которыми можно вернуть прежнее поведение:/effort high или /effort max - поднять максимальный бюджет thinking-токенов на задачу;CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 - принудительно укоротить рабочее окно контекста.CLAUDE_CODE_SIMPLE=1 - упрощенный режим для проверки гипотезы об интерференции системного промпта.Дополнительно есть
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 , он отключает адаптивный режим и возвращает фиксированный бюджет рассуждений.Борис также заверил, что Anthropic протестирует включение high effort по умолчанию для тарифов Teams и Enterprise.
Это приведет к большему расходу токенов и росту латентности, но даст гарантированную глубину рассуждений.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔125❤83👍53👏18😁15🔥9🤷♂8🤬1
Forwarded from Анализ данных (Data analysis)
В Claude Code добавили Routines - способ превратить разовые команды в повторяемые сценарии.
Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.
По сути это не промпты, а воспроизводимые workflow внутри Claude Code
Что это даёт:
- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине
Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.
code.claude.com/docs/en/routines
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.
По сути это не промпты, а воспроизводимые workflow внутри Claude Code
Что это даёт:
- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине
Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.
code.claude.com/docs/en/routines
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍76❤38👨💻33👏7😁7🤓5🔥4🆒3
Media is too big
VIEW IN TELEGRAM
По данным источников, Anthropic готовится представить Claude Opus 4.7, а также специализированный инструмент для создания сайтов и презентаций. Релиз обоих продуктов может состояться уже на этой неделе.
Возможный выход на рынок автоматизированного дизайна уже вызвал заметную реакцию индустрии: на фоне новостей акции Adobe, Wix и Figma просели более чем на 2%. Ожидается, что продукт составит прямую конкуренцию Gamma и Google Stitch.
Официальные представители Anthropic готовящийся анонс пока не комментируют.
theinformation.com
Ising - семейство моделей с открытым исходным кодом для калибровки процессоров и исправления ошибок в квантовых вычислениях. Пакет включает два решения.
Мультимодальная модель Ising Calibration, которая анализирует результаты измерений и автоматизирует непрерывную калибровку квантового железа, сокращая время настройки с нескольких дней до часов. Ising Decoding - 3D-свёрточная сеть для декодирования квантовых ошибок в реальном времени. По данным NVIDIA, алгоритм работает до 2,5 раза быстрее и втрое точнее нынешнего открытого отраслевого стандарта pyMatching.
Платформу уже начали внедрять ведущие лаборатории и технологические компании. Исходный код и модели доступны на GitHub и Hugging Face.
nvidia.com
EinsteinArena - открытая цифровая среда, где сложные математические и научные проблемы решаются коллективным интеллектом ИИ-моделей. Агенты не соревнуются, а сотрудничают: дискутируют, обмениваются кодом через общие файлы навыков и последовательно дорабатывают логику друг друга.
Платформа опирается на защищённые песочницы, где гипотезы верифицируются детерминированными алгоритмами. Это делает каждый шаг агентов прозрачным и воспроизводимым - в духе концепции вычислений на этапе вывода.
EinsteinArena уже справилась с 11 ранее нерешёнными математическими проблемами. Самым заметным достижением стало улучшение нижней границы в 11-мерной задаче о контактном числе.
together.ai
ERNIE-Image - T2I-модель на архитектуре DiT с 8 млрд параметров под лицензией Apache 2.0, которая запускается на 24 ГБ VRAM.
По словам Baidu, модель уверенно справляется с рендерингом текста на английском и китайском языках, точно следует сложным инструкциям и выстраивает структурированные композиции: рекламные макеты, раскадровки и многопанельные изображения с сохранением стиля.
Дополнительно выпущена Prompt Enhancer, вспомогательная языковая модель на 3 млрд параметров, которая разворачивает базовые инструкции в детализированные технические промпты. Помимо основной ERNIE-Image, доступна также ERNIE-Image-Turbo - быстрая 8-шаговая дистиллированная версия.
ernie.baidu.com
Траст Long-Term Benefit, независимый орган управления Anthropic, утвердил Васа Нарасимхана новым членом совета директоров. Нарасимхан - учёный-медик и действующий CEO фармацевтического гиганта Novartis.
Под его руководством Novartis вывела на рынок более 35 новых препаратов; ранее он руководил программами общественного здравоохранения по борьбе с инфекционными заболеваниями в странах Азии, Африки и Южной Америки. Комментируя своё назначение, Нарасимхан подчеркнул, что технологии приносят максимальную пользу обществу лишь при условии ответственного внедрения.
Это уже второе значимое расширение руководящего состава создателя Claude за последнее время. В феврале к совету директоров присоединился бывший топ-менеджер Microsoft Крис Лидделл.
anthropic.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119❤35🤓28👏22💯7🔥4🎉2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
My Skills VS My Linkedin
😁214🤔52👍30🔥29❤12👏10🤣7🗿3
Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении.
Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани.
Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи.
По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей».
Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением.
Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии.
В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ.
Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону.
При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению.
Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу.
Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными.
Работа выполнена при поддержке Управления научных исследований Минобороны США.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Cognitive #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔128👏40🤓15❤13👍13🤨8🤣7🥰3😁1🤬1
Media is too big
VIEW IN TELEGRAM
🦀 Предприниматель поставил в Сан-Франциско автомат с едой, которым управляет OpenClaw
ИИ-агент рулит реальным вендинговым автоматом.
OpenClaw сам решает, что продавать, как называть товары, какие ставить цены, делает рекламу и отслеживает все продажи
Можно даже посмотреть дашборд со всей статистикой этого автомата.
Железка просто выдаёт товар, всё остальное делает ИИ. Закупкой занимается человек.
Автомат стоит в Frontier Tower в Сан-Франциско, это здание, где сидят фаундеры AI и робототех стартапов.
Агент забывал вещи, галлюцинировал и в какой-то момент сильно задрал цены. Потом пытался это оправдать тем, что люди всё равно покупают.
https://www.reddit.com/r/myclaw/comments/1sl70mb/someone_actually_put_an_openclaw_run_vending/
@ai_machinelearning_big_data
ИИ-агент рулит реальным вендинговым автоматом.
OpenClaw сам решает, что продавать, как называть товары, какие ставить цены, делает рекламу и отслеживает все продажи
Можно даже посмотреть дашборд со всей статистикой этого автомата.
Железка просто выдаёт товар, всё остальное делает ИИ. Закупкой занимается человек.
Автомат стоит в Frontier Tower в Сан-Франциско, это здание, где сидят фаундеры AI и робототех стартапов.
Агент забывал вещи, галлюцинировал и в какой-то момент сильно задрал цены. Потом пытался это оправдать тем, что люди всё равно покупают.
https://www.reddit.com/r/myclaw/comments/1sl70mb/someone_actually_put_an_openclaw_run_vending/
@ai_machinelearning_big_data
😁117👍75🤣15❤14🤔14🔥5🙏5
Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут.
Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях.
Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение.
AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.
На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2.
На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.
AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.
Именно она устанавливает новые планки среди LALM по ASR.
WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)
AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).
75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).
@ai_machinelearning_big_data
#AI #ML #MMLM #Audio #AudioFlamingo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42🔥37👍11👏9🤓7❤6
⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
👍163👏34❤28🔥23🤩6💯4☃3🎉2
Media is too big
VIEW IN TELEGRAM
В отличие от базовых версий, у модели снижен порог отказов: фильтры безопасности не блокируют запросы на поиск багов и оборонительное программирование.
GPT-5.4-Cyber получила продвинутые возможности бинарного реверс-инжиниринга - исследователи могут анализировать скомпилированное ПО на наличие вредоносных компонентов и уязвимостей, даже не имея доступа к исходному коду.
Из-за двойного назначения функционала доступ к модели строго регулируется. OpenAI распространяет новинку через программу Trusted Access for Cyber: нужна верификация личности, а корпоративным клиентам - одобрение профильного менеджера.
openai.com
Компания начала проверять личность пользователей в рамках регулярных процедур безопасности. Технический партнёр инициативы - сервис Persona. Для процедуры понадобится паспорт, водительские права или ID-карта, а также камера для селфи. Цифровые версии документов, ксерокопии и студенческие билеты система не принимает.
В Anthropic обещают не использовать собранные данные для обучения ИИ-моделей. Фото документов и биометрия шифруются и хранятся на серверах Persona. Разработчик Claude выступает лишь контроллером данных и запрашивает доступ к записям только в спорных ситуациях - например, при апелляции на блокировку аккаунта.
support.claude.com
Стартап представил открытый рендерер Spark 2.0 на базе THREE.js и WebGL2, который плавно отрисовывает локации из 100 млн 3D-гауссианов прямо в браузере. Обычное железо с трудом переваривает больше пяти миллионов точек, поэтому разработчикам пришлось полностью перестроить пайплайн загрузки графики.
Производительность обеспечивают три механизма. Иерархическая система детализации подбирает оптимальное количество гауссианов под выделенный бюджет рендеринга, сохраняя стабильный FPS. Тяжёлые ассеты обрабатываются стримингом: новый формат
.RAD выводит базовый каркас, а затем динамически подтягивает детали в зависимости от угла обзора камеры. Память управляется через резервирование фиксированного пула на GPU и постраничного тасования блоков данных.Ядро Spark 2.0 написано на Rust, скомпилировано в WebAssembly и вынесено в фоновый Web Worker. Изначально это был внутренний инструмент для ИИ-генератора 3D-миров Marble, но теперь он общедоступен.
worldlabs.ai
В десктопной версии Chrome появилась функция Skills: больше не нужно повторно вводить запросы к Gemini. Удачные промпты теперь можно сохранять из истории чата и запускать в один клик через слэш или кнопку плюса.
Инструмент умеет обрабатывать как активную страницу, так и сразу несколько выбранных вкладок - это позволяет быстро сравнивать информацию или искать нужные данные в объёмных документах.
Google также подготовил библиотеку готовых skills, каждый из которых можно кастомизировать. Новая функция разворачивается на macOS, Windows и ChromeOS для англоязычных пользователей.
blog.google
ИИ-генератор изображений Midjourney обновился до версии 8.1. Главное нововведение - поддержка 2K. Создатели заявляют рост производительности в 3 раза по сравнению с V8, а стоимость генерации снизилась на две трети. В 1K-режиме V8.1 работает быстрее draft-режимов седьмого поколения модели.
Помимо оптимизации архитектуры, Midjourney прислушались к критике пользователей и вернули платформе узнаваемую художественную эстетику. В арсенал инструментов снова добавлена функция image-to-image, временно отключённая в предыдущей сборке.
Также команда обновила систему референсов стилей, доработала мудборды и представила обновлённую утилиту Describe для реверс-инжиниринга текстовых промптов по готовым изображениям.
Midjourney в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻69❤24🎉15🤓13👍9😢2⚡1👏1🤔1
NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши.
Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы.
Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ.
Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры.
Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат.
Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель.
Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480.
Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB.
На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность.
Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым.
@ai_machinelearning_big_data
#AI #ML #3DWorlds #Lyra2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩77👍30🔥18❤13👏13🥰3🎉3😴1
⚡️ Qwen3.6-35B-A3B - ставка на эффективную архитектуру, а не на размер
35B параметров, ~3B активных за счёт MoE.
Главное:
- по agentic coding показывает уровень моделей с ~10x большим активным объёмом
- превосходит Qwen3.5-27B (dense) и предыдущую Qwen3.5-35B-A3B
- нативно мультимодальная архитектура (text + vision)
- в VLM-бенчмарках сопоставима с Claude Sonnet 4.5, в ряде задач выше
- сильные метрики в задачах spatial reasoning
MMMU - 81.7 vs 79.6 MMMU-Pro - 75.3 vs 68.4 MathVista - 86.4 vs 79.8 RealWorldQA - 85.3 vs 70.3.
Практическое значение:
- MoE даёт кратное снижение compute без потери качества
- подходит для агентных сценариев, где важны последовательные действия и планирование
- можно использовать как единый стек для code + vision задач
Apache 2.0 - без ограничений для продакшена
qwen.ai/blog?id=qwen3.6-35b-a3b
chat.qwen.ai
huggingface.co/Qwen/Qwen3.6-35B-A3B
modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
@ai_machinelearning_big_data
35B параметров, ~3B активных за счёт MoE.
Главное:
- по agentic coding показывает уровень моделей с ~10x большим активным объёмом
- превосходит Qwen3.5-27B (dense) и предыдущую Qwen3.5-35B-A3B
- нативно мультимодальная архитектура (text + vision)
- в VLM-бенчмарках сопоставима с Claude Sonnet 4.5, в ряде задач выше
- сильные метрики в задачах spatial reasoning
MMMU - 81.7 vs 79.6 MMMU-Pro - 75.3 vs 68.4 MathVista - 86.4 vs 79.8 RealWorldQA - 85.3 vs 70.3.
Практическое значение:
- MoE даёт кратное снижение compute без потери качества
- подходит для агентных сценариев, где важны последовательные действия и планирование
- можно использовать как единый стек для code + vision задач
Apache 2.0 - без ограничений для продакшена
qwen.ai/blog?id=qwen3.6-35b-a3b
chat.qwen.ai
huggingface.co/Qwen/Qwen3.6-35B-A3B
modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
@ai_machinelearning_big_data
🔥118🤓101👍42❤23💯7
⚡️ Anthropic выкатили Opus 4.7
Что поменялось:
- лучше держит длинные задачи
- точнее следует инструкциям
- валидирует ответы перед выдачей
То есть меньше «галлюцинаций на уверенном лице»
и меньше необходимости перепроверять руками
По бенчмаркам относительно 4.6:
- SWE Bench Pro +11%
- SWE Bench Verified +7%
- Terminal Bench 2.0 +4%
Без сюрпризов, но стабильный рост.
Модель явно двигают в сторону автономной работы
где её можно дольше держать в цикле без постоянного контроля
Цифры ниже, чем у Mythos
но это ожидаемо, там другая история с метриками и позиционированием
https://www.anthropic.com/news/claude-opus-4-7
@ai_machinelearning_big_data
Что поменялось:
- лучше держит длинные задачи
- точнее следует инструкциям
- валидирует ответы перед выдачей
То есть меньше «галлюцинаций на уверенном лице»
и меньше необходимости перепроверять руками
По бенчмаркам относительно 4.6:
- SWE Bench Pro +11%
- SWE Bench Verified +7%
- Terminal Bench 2.0 +4%
Без сюрпризов, но стабильный рост.
Модель явно двигают в сторону автономной работы
где её можно дольше держать в цикле без постоянного контроля
Цифры ниже, чем у Mythos
но это ожидаемо, там другая история с метриками и позиционированием
https://www.anthropic.com/news/claude-opus-4-7
@ai_machinelearning_big_data
❤66👍35🔥29🤔4🗿4😁3👌3
⭐️ Всего через час после выхода Opus 4.7 OpenAI выкатывают крупное обновление Codex.
Теперь Codex умеет работать в фоне на macOS. Он кликает, печатает, ходит по файловой системе.
Встроенный браузер, генерация изображений через gpt-image-1.5, постоянная память, долгоживущие автоматизации и больше 90 плагинов включая Atlassian, CircleCI и Microsoft Suite.
Anthropic концентрируются на качестве модели.
Claude Code остаётся топ инструментом разработчика.
Codex заточен стать твоим ИИ для повседневных задач.
И пока Anthropic задаёт планку по качеству моделей.
https://x.com/OpenAI/status/2044827705406062670
@ai_machinelearning_big_data
Теперь Codex умеет работать в фоне на macOS. Он кликает, печатает, ходит по файловой системе.
Встроенный браузер, генерация изображений через gpt-image-1.5, постоянная память, долгоживущие автоматизации и больше 90 плагинов включая Atlassian, CircleCI и Microsoft Suite.
Anthropic концентрируются на качестве модели.
Claude Code остаётся топ инструментом разработчика.
Codex заточен стать твоим ИИ для повседневных задач.
И пока Anthropic задаёт планку по качеству моделей.
https://x.com/OpenAI/status/2044827705406062670
@ai_machinelearning_big_data
👍115🤣77🔥34❤22🤔17👏12💯10😁3
Media is too big
VIEW IN TELEGRAM
Пытаясь преодолеть многолетнее технологическое отставание, компания запустила программу переобучения для почти 200 сотрудников. Инженеры на практике освоят Claude Code и Codex.
После курсов структура команды поменяется: ядро разработки сформируют из 60 специалистов, ещё 60 человек переведут на мониторинг и безопасность продукта. Эти изменения завершают реорганизацию начала 2025 года - подразделение уже перешло под контроль старшего вице-президента по разработке ПО Крейга Федериги, а бывший глава ИИ-направления Джон Джаннандреа покидает Apple на этой неделе.
Цель переобучения - релиз обновлённой Siri на летней конференции WWDC.
theinformation.com
Cognition выпустила крупное обновление IDE, смещающее акцент с написания кода на управление роем ИИ-агентов. Центральный элемент релиза - Agent Command Center, который собирает все запущенные агенты (локальные и облачные) на единой Kanban-доске с группировкой по статусу.
Задачи организуются через Spaces: пространство объединяет сессии агентов, пул-реквесты, файлы и контекст проекта. Например, в одном Space локальная сессия прототипирует UI, а две облачных правят API и пишут тесты. Новые сессии наследуют накопленный контекст.
Вторая часть релиза - автономный облачный агент Devin с собственной виртуальной машиной и браузером. Он ведёт задачи от отладки до деплоя и продолжает работать после выключения компьютера. Готовый PR можно отревьюить в Windsurf или передать локальному агенту на доработку. Devin включён во все тарифы, доступ разворачивается постепенно.
windsurf.com
Google добавил в утилиту систему специализированных ИИ-ассистентов: основной агент работает как координатор и делегирует ресурсоёмкие или рутинные задачи субагентам. Каждый из них работает в собственном окне контекста, использует индивидуальные системные инструкции и выделенный набор инструментов, включая серверы MCP.
Многоэтапные операции выполняются автономно, а в главный чат возвращается только итоговый результат. Для ускорения субагенты могут запускаться параллельно.
Из коробки доступны 3 базовых ассистента: универсального профиля, специалиста по анализу кодовой базы и эксперта по документации самой утилиты. Можно создавать кастомных агентов через Markdown-файлы с YAML-заголовками - конфигурации сохраняются локально или добавляются в репозиторий проекта для всей команды.
googleblog.com
Китайский ИТ-гигант представил модель Happy Oyster, способную создавать физически достоверные трёхмерные пространства и интерактивные видео, работая непрерывно и на лету реагируя на новые инструкции.
Инструмент поддерживает два формата. «Режиссура» создает связный мир длительностью до 3 минут в 720p, позволяя менять ракурсы камер или действия персонажей через текст, голос или картинки. «Wandering» создает локацию, которую можно бесконечно расширять и исследовать от первого лица.
Доступ предоставляется через лист ожидания на сайте проекта.
happyoyster.cn
Платформа Firefly пополнилась ИИ-агентом, который объединяет инструменты Creative Cloud в едином диалоговом интерфейсе. Достаточно описать результат текстом и ассистент сам выстроит и выполнит цепочку задач в Photoshop, Premiere, Illustrator и других программах. Агент обучается на предпочтениях автора и учитывает контекст текущих файлов.
Параллельно обновился видеоредактор: добавлены инструменты очистки звука, цветокоррекции и прямая интеграция с Adobe Stock. Для изображений появились функция генерации визуальных вариаций и инструмент ИИ-разметки кистью.
Также добавили модели Kling 3.0 - общий парк теперь превышает 30 моделей от разных поставщиков. Публичное бета-тестирование ассистента начнётся в ближайшие недели.
adobe.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍24🔥6😁4👌2🗿2🥰1
Потанин: бюрократия замедляет развитие ИИ
Владелец «Норникеля» Владимир Потанин рассказал о ML‑стеке компании в интервью «России 24». Это любопытный кейс того, как industrial AI уходит от «ещё один CV на конвейере» к собственным foundation‑моделям и ML‑driven R&D.
▪️ MetalGPT — доменная foundation model «Норникеля», обученная на отраслевых данных металлургии. Используется для предиктивной аналитики агрегатов и R&D новых материалов.
▪️ Продакшн‑инференс на заводе: нейросети управляют 70% агрегатов на обогащении и принимают решения в 100 раз чаще, чем операторы. По уровню внедрения ИИ «Норникель» — мировой топ‑3 вместе с Tata Steel и POSCO.
▪️ ML для материаловедения. Модели применяются для подбора замещений: палладий вместо платины и иридия (первые 500 кг уже ушли в Китай на стекловолокно). Следующий шаг — предсказание и дизайн кристаллической решётки палладия для получения металла с заданными свойствами.
▪️ Экономика: «десятки миллиардов рублей» эффекта в год, к 2030 — 50+ млрд.
▪️ Уровень внедрения ИИ в РФ втрое ниже среднемирового, Россия претендует на третье место после США и Китая. Потанин против жёсткой регуляторики: модели обновляются раз в 2–3 месяца, бюрократия убьёт темп.
Владелец «Норникеля» Владимир Потанин рассказал о ML‑стеке компании в интервью «России 24». Это любопытный кейс того, как industrial AI уходит от «ещё один CV на конвейере» к собственным foundation‑моделям и ML‑driven R&D.
▪️ MetalGPT — доменная foundation model «Норникеля», обученная на отраслевых данных металлургии. Используется для предиктивной аналитики агрегатов и R&D новых материалов.
▪️ Продакшн‑инференс на заводе: нейросети управляют 70% агрегатов на обогащении и принимают решения в 100 раз чаще, чем операторы. По уровню внедрения ИИ «Норникель» — мировой топ‑3 вместе с Tata Steel и POSCO.
▪️ ML для материаловедения. Модели применяются для подбора замещений: палладий вместо платины и иридия (первые 500 кг уже ушли в Китай на стекловолокно). Следующий шаг — предсказание и дизайн кристаллической решётки палладия для получения металла с заданными свойствами.
▪️ Экономика: «десятки миллиардов рублей» эффекта в год, к 2030 — 50+ млрд.
▪️ Уровень внедрения ИИ в РФ втрое ниже среднемирового, Россия претендует на третье место после США и Китая. Потанин против жёсткой регуляторики: модели обновляются раз в 2–3 месяца, бюрократия убьёт темп.
1👍96❤52🤣40👏17🤔8🥱6🤗4🤷♀2💅2🗿2🙊2
Команда EvoMap, разрабатывающая эволюционный движок для ИИ-агентов Evolver, опубликовала детальное техническое сравнение, в котором обвинила проект Hermes Agent от Nous Research в систематическом заимствовании архитектурных решений без указания источника.
Разрыв в популярности между проектами значителен: 88 тысяч звёзд на GitHub у Hermes Agent против 2 тысяч у Evolver.
В списке перечислены более 10 совпадений на уровне модулей: трёхуровневая система памяти с идентичным распределением ролей между слоями, замкнутый цикл автоматического извлечения переиспользуемого опыта, механизм периодической рефлексии, динамическое обнаружение и подгрузка навыков, десятишаговая оркестрация эволюционного цикла и ряд инженерных паттернов.
Хронология, на которую опирается EvoMap: ключевой протокол GEP был раскрыт с 1 по 16 февраля в 136 релизах, а система навыков Hermes появилась лишь 12 марта.
Аргументация EvoMap строится на вероятностной логике: каждое совпадение по отдельности объяснимо независимой конвергенцией - трёхуровневая память и извлечение опыта активно обсуждаются в сообществе ИИ-агентов, но их совокупность, по мнению авторов, выходит за рамки случайности.
При этом EvoMap признает:
Основатель Nous Research в ответ на претензии написал, что никогда не слышал ни о проекте, ни о его авторах, назвал сравнительный анализ «полной чушью», а позднее посоветовал EvoMap удалить свой аккаунт. На технические аргументы Nous Research не отвечала.
Вслед за этим EvoMap выпустила открытое письмо, объявив о смене лицензии Evolver с MIT на GPL-3.0 и переходе к выпуску ключевых модулей в обфусцированном виде. Команда также признаёт, что судебное разбирательство с Nous Research ей не по силам.
Главный тезис письма выходит за рамки конкретного спора: способен ли институт открытых лицензий работать, когда ИИ сводит стоимость воспроизведения кодовой логики почти к нулю?
При этом позиция EvoMap упирается в тупик: GPL-3.0 обязывает раскрывать код производных продуктов, но без текстуального пересечения полезность лицензии не срабатывают. Обфускация же блокирует вклад сообщества и противоречит самому принципу открытого кода.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔111🤬27❤20👀17🤷♂16👍9😐6🤣4🔥1👏1