Forwarded from Russian OSINT
Цукерберг одобрил решение установить ПО для отслеживания действий своих сотрудников в США, чтобы фиксировать их движения мыши, клики и нажатия клавиш с целью обучения своих моделей искусственного интеллекта.
Данная инициатива является частью масштабной реструктуризации компании с упором на искусственный интеллект, которая сопровождается планами по увольнению 10% сотрудников по всему миру.
Руководство Meta утверждает, что собранная информация не будет использоваться для оценки эффективности работы персонала, а послужит исключительно для реализации концепции будущего, в котором ИИ-агенты будут выполнять основную работу, а люди — лишь контролировать, направлять и помогать им совершенствоваться.
Журналисты отмечают иронию происходящего: сотрудники Meta теперь сами являются подопытными
*Meta (соцсети Facebook, Instagram) запрещена в РФ как
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики HuggingFace с помощью Opus 4.7 переписали WebGPU-ядро, которое ускорило инференс Qwen3.5 в 13 раз с помощью операции fused LinearAttention! 🤯
Агентная оптимизация ядер,- уже реальность.
Уже доступно в 🤗 Transformers.js v4.2.0!
💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.
#opus #huggingface #qwen #transformers
------
@tsingular
Агентная оптимизация ядер,- уже реальность.
Уже доступно в 🤗 Transformers.js v4.2.0!
💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.
#opus #huggingface #qwen #transformers
------
@tsingular
OpenAI выпустил GPT-5.5: первая модель после GPT-4.5 собранная с нуля
OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.
📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.
💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.
🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.
🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.
#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular
OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.
📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.
💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.
🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.
🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.
#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular
🔥31 11 3⚡2❤1 1
DeepSeek V4: триллион параметров, миллион токенов, MIT-лицензия
DeepSeek V4 вышел с двумя моделями: Pro (1,6T параметров, 49B активных) и Flash (284B, 13B активных), обе с контекстом 1M токенов. Лицензия MIT.
1M контекст теперь стандарт всех сервисов DeepSeek, включая веб и приложение.
Ценник по API:
- V4-Flash: $0,14/$0,28 ($0.028/1M cache hit)
- V4-Pro: $1,74/$3,48 ($0,145/1M cache hit)
⚙️ Архитектура: MoE с тремя нововведениями.
Engram: условная память O(1) для статических фактов, хранится в DRAM, разгружает GPU на 20-25%.
Manifold-Constrained Hyper-Connections: ограничение матриц смесей бипвирхорным многогранником через Sinkhorn-Knopp, стабильность обучения при 1T+.
DeepSeek Sparse Attention: сжатие по токенам + DSA-внимание, убирает квадратичную стоимость на длинных контекстах.
Предобучение на 32T токенов, постобучение через калибровку доменных экспертов (SFT+RL/GRPO) с последующей on-policy дистилляцией.
📊 Бенчмарки V4-Pro-Max vs фронтвар:
Агентский кодинг (terminal, computer use)-> GPT-5.5
Production software engineering (SWE-Bench)-> Opus 4.7 и DS-V4-Pro практически вровень
Олимпиадная математика + чистые алгоритмы -> DeepSeek-V4-Pro-Max
Long context retrieval на полный 1M-> GPT-5.5 (MRCR v2), но Opus 4.7 лучше на CorpusQA
Reasoning на знаниях (GPQA, HLE)-> Opus 4.7
Factual QA (SimpleQA) -> DeepSeek-V4-Pro-Max
🤖 Агентная специализация: V4 оптимизирован под Claude Code, OpenClaw, OpenCode, CodeBuddy. Внутри DeepSeek V4-Pro уже используют как основную модель для Agentic Coding — по оценкам сотрудников превосходит Sonnet 4.5, приближается к Opus 4.6 вне thinking-режима, но уступает Opus 4.6 в thinking-режиме.
🔬 Три режима рассуждения:
Non-Think (быстрый),
Think High (логический анализ),
Think Max (максимум).
HMMT 2026 Feb: Flash Non-Think даёт 40,8, Flash-Max даёт 94,8. Разница в 54 пункта за thinking budget. FP4+FP8 mixed: эксперты в FP4, остальное в FP8.
API:
💼 Зачем бизнесу:
Внутренний бенчмарк DeepSeek: стоимость решения SWE-bench задачи на V4 ~$0,03 vs ~$0,72 на Opus.
Массовая автогенерация кода, анализ длинных документов, чат-боты на контекстах 1M — V4 это структурное снижение себестоимости.
Ну т.е. если нужно вдолгую что-то поисследовать и порешать за копейки - DeepseekV4 может вполне сгодится.
Но если результат нужен быстро, - Opus4.7 или GPT-5.5 лидеры
пробовать тут:
https://chat.deepseek.com
Конечно, очевидный плюс, - по факту в веб бесплатный аналог Opus 4.6
API, кстати, отвечает шустро
Ждём ответку от Google. У них скоро ежегодная конфа Google I/O - Gemini 4 может выкатят или, как сейчас модно, - 3.5
#DeepSeek #OpenSource #Китай
------
@tsingular
DeepSeek V4 вышел с двумя моделями: Pro (1,6T параметров, 49B активных) и Flash (284B, 13B активных), обе с контекстом 1M токенов. Лицензия MIT.
1M контекст теперь стандарт всех сервисов DeepSeek, включая веб и приложение.
Ценник по API:
- V4-Flash: $0,14/$0,28 ($0.028/1M cache hit)
- V4-Pro: $1,74/$3,48 ($0,145/1M cache hit)
⚙️ Архитектура: MoE с тремя нововведениями.
Engram: условная память O(1) для статических фактов, хранится в DRAM, разгружает GPU на 20-25%.
Manifold-Constrained Hyper-Connections: ограничение матриц смесей бипвирхорным многогранником через Sinkhorn-Knopp, стабильность обучения при 1T+.
DeepSeek Sparse Attention: сжатие по токенам + DSA-внимание, убирает квадратичную стоимость на длинных контекстах.
Предобучение на 32T токенов, постобучение через калибровку доменных экспертов (SFT+RL/GRPO) с последующей on-policy дистилляцией.
📊 Бенчмарки V4-Pro-Max vs фронтвар:
Агентский кодинг (terminal, computer use)-> GPT-5.5
Production software engineering (SWE-Bench)-> Opus 4.7 и DS-V4-Pro практически вровень
Олимпиадная математика + чистые алгоритмы -> DeepSeek-V4-Pro-Max
Long context retrieval на полный 1M-> GPT-5.5 (MRCR v2), но Opus 4.7 лучше на CorpusQA
Reasoning на знаниях (GPQA, HLE)-> Opus 4.7
Factual QA (SimpleQA) -> DeepSeek-V4-Pro-Max
🤖 Агентная специализация: V4 оптимизирован под Claude Code, OpenClaw, OpenCode, CodeBuddy. Внутри DeepSeek V4-Pro уже используют как основную модель для Agentic Coding — по оценкам сотрудников превосходит Sonnet 4.5, приближается к Opus 4.6 вне thinking-режима, но уступает Opus 4.6 в thinking-режиме.
🔬 Три режима рассуждения:
Non-Think (быстрый),
Think High (логический анализ),
Think Max (максимум).
HMMT 2026 Feb: Flash Non-Think даёт 40,8, Flash-Max даёт 94,8. Разница в 54 пункта за thinking budget. FP4+FP8 mixed: эксперты в FP4, остальное в FP8.
API:
deepseek-v4-pro / deepseek-v4-flash, старые имена deepseek-chat и deepseek-reasoner устареют 24.07.2026.💼 Зачем бизнесу:
Внутренний бенчмарк DeepSeek: стоимость решения SWE-bench задачи на V4 ~$0,03 vs ~$0,72 на Opus.
Массовая автогенерация кода, анализ длинных документов, чат-боты на контекстах 1M — V4 это структурное снижение себестоимости.
Ну т.е. если нужно вдолгую что-то поисследовать и порешать за копейки - DeepseekV4 может вполне сгодится.
Но если результат нужен быстро, - Opus4.7 или GPT-5.5 лидеры
пробовать тут:
https://chat.deepseek.com
Конечно, очевидный плюс, - по факту в веб бесплатный аналог Opus 4.6
API, кстати, отвечает шустро
Ждём ответку от Google. У них скоро ежегодная конфа Google I/O - Gemini 4 может выкатят или, как сейчас модно, - 3.5
#DeepSeek #OpenSource #Китай
------
@tsingular
👀12🐳7🔥5🎉4❤3🍓1 1 1
забавно. по API, когда DeepSeek готовит ответ, - в размышлениях он себя видит как Мы.
Типа, - Нас спросили.
Т.е. он и свои MoE видит как коллектив, работающий над задачей и у этого совета экспертов есть "делегат"-ассистент, который за всех и отвечает.
такой "капитан команды Что? Где? Когда?"
- Уважаемые Знатоки, внимание вопрос:
- Отвечать будет капитан Очевидность
#DeepSeek #MoE
———
@tsingular
Типа, - Нас спросили.
Т.е. он и свои MoE видит как коллектив, работающий над задачей и у этого совета экспертов есть "делегат"-ассистент, который за всех и отвечает.
такой "капитан команды Что? Где? Когда?"
- Уважаемые Знатоки, внимание вопрос:
- Отвечать будет капитан Очевидность
#DeepSeek #MoE
———
@tsingular
⚡25🤣13✍7🍓1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree добавили мобильности.
Колеса, ролики, коньки.
Фляк на роликах вообще убил
Хейтеры скажут,- нейрорендер
#Unitree #роботы
------
@tsingular
Колеса, ролики, коньки.
Фляк на роликах вообще убил
Хейтеры скажут,- нейрорендер
#Unitree #роботы
------
@tsingular
1⚡10❤3👾3
Forwarded from Наука и Техника: Промпт
Мы живём в удивительное время: чувак написал приложение, чтобы посмотреть фильм с ребёнком.
Парень рассказал, что в аэропорту хотел включить видео на ноутбуке, но столкнулся с банальной проблемой: у него одни наушники, у ребёнка — другие.
Вместо того чтобы искать переходники или страдать, он просто написал своё приложение, которое раздаёт звук сразу на несколько устройств.
Сделал это буквально на коленке с помощью ИИ — теперь он спокойно смотрит фильмы вдвоём с одного ноутбука.
Парень рассказал, что в аэропорту хотел включить видео на ноутбуке, но столкнулся с банальной проблемой: у него одни наушники, у ребёнка — другие.
Вместо того чтобы искать переходники или страдать, он просто написал своё приложение, которое раздаёт звук сразу на несколько устройств.
Сделал это буквально на коленке с помощью ИИ — теперь он спокойно смотрит фильмы вдвоём с одного ноутбука.
🔥41🤯11⚡7
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥12✍6⚡2❤1
Forwarded from Data Secrets
SakanaAI выпускают систему оркестрации агентов Sakana Fugu
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
🔥13❤1
Deepseek v4 flash уже в олламе cloud:
Можно попробовать на агентах, кто на подписке
ollama run deepseek-v4-flash:cloud
#Deepseek
------
@tsingular
Можно попробовать на агентах, кто на подписке
ollama run deepseek-v4-flash:cloud
#Deepseek
------
@tsingular
⚡14✍6❤4👍1🔥1
Media is too big
VIEW IN TELEGRAM
Алибаба готовит к релизу новую "Модель мира"
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока со времён первого дня беты DALL-E. Наконец получил инвайт в Happy Oyster (Alibaba) и провёл день, тестируя его возможности.
Мы слышали о «World Models» и Project Genie от Google месяцами, но это конкретная реализация. Другой подход по сравнению с инструментами вроде Marble Studio. Пока большинство моделей анимируют плоское изображение, Happy Oyster трактует творения как реальные физические пространства.
Под капотом: вместо простого предсказания пикселей модель интерпретирует изображения Flux и Midjourney как 3D-латентные среды. Она предсказывает геометрию и освещение в реальном времени на основе пользовательского ввода (WASD). Это позволяет перемещаться по изображению без потери пространственной согласованности.
Я не просто смотрел на свои изображения — я ходил сквозь них. Видеть, как статичное искусство становится исследуемым миром — ощущается как рождение нового медиума.
Автор: Damien Miri
Ещё примеры: Youtube
#Alibaba #WorldModels #HappyOyster
———
@tsingular
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока со времён первого дня беты DALL-E. Наконец получил инвайт в Happy Oyster (Alibaba) и провёл день, тестируя его возможности.
Мы слышали о «World Models» и Project Genie от Google месяцами, но это конкретная реализация. Другой подход по сравнению с инструментами вроде Marble Studio. Пока большинство моделей анимируют плоское изображение, Happy Oyster трактует творения как реальные физические пространства.
Под капотом: вместо простого предсказания пикселей модель интерпретирует изображения Flux и Midjourney как 3D-латентные среды. Она предсказывает геометрию и освещение в реальном времени на основе пользовательского ввода (WASD). Это позволяет перемещаться по изображению без потери пространственной согласованности.
Я не просто смотрел на свои изображения — я ходил сквозь них. Видеть, как статичное искусство становится исследуемым миром — ощущается как рождение нового медиума.
Автор: Damien Miri
Ещё примеры: Youtube
#Alibaba #WorldModels #HappyOyster
———
@tsingular
🔥24 9🤯4 3❤1😐1
Google Agents CLI — CLI, который учит кодинг-агентов строить агентов
Google выпустил Agents CLI, - и это уже не просто очеред... (попались :) )
короче, - это CLI + набор скиллов, которые превращают Gemini CLI, Claude Code, Codex и любых других ассистенты в экспертов по сборке и деплою агентов на ADK.
⚙️ Прокачиваем агента:
И вот ваш основной агент уже научился собирать ADKшных агентов.
Агент узнает про ADK Python API, методологию пайплайнов, правила кода, как деплоить на Agent Runtime / Cloud Run / GKE, как собирать трейсы и как регистрировать в Gemini Enterprise.
🔧 Скиллы под капотом (7 штук):
- workflow (жизненный цикл),
- adk-code (ADK API + оркестрация),
- scaffold (генерация проектов),
- eval (метрики + LLM-as-judge + траектории),
- deploy (Agent Runtime/Cloud Run/GKE/CI-CD),
- publish (Gemini Enterprise),
- observability (Cloud Trace + логи).
🧪 CLI как самостоятельный инструмент: работает и без кодинг-агента. scaffold, eval run, deploy, infra, data-ingestion — всё из терминала.
💼 Зачем бизнесу: Стандартизация. Вместо того чтобы каждый агент-разработчик осваивал ADK, Cloud Run, Cloud Trace, IAM, CI/CD и Gemini Enterprise по отдельности — один CLI закрывает весь пайплайн от
🔮 Будущее: Google делает ставку на агентную платформу как экосистему. Agents CLI — это мост между кодинг-агентами (Gemini CLI, Codex, Claude Code) и Google Cloud. Open-source, скиллы по открытой спецификации Agent Skills, совместимость с
Вопрос времени когда подобное появится аналогичное от AWS и Azure.
Github
Кстати, - крайне рекомендую изучить для сборки собственных навыков деплоя агентами в корпоративной среде.
#Google #AgentsCLI #ADK #AgentPlatform #Gemini #DevOps #GoogleCloud
───
@tsingular
Google выпустил Agents CLI, - и это уже не просто очеред... (попались :) )
короче, - это CLI + набор скиллов, которые превращают Gemini CLI, Claude Code, Codex и любых других ассистенты в экспертов по сборке и деплою агентов на ADK.
⚙️ Прокачиваем агента:
uvx google-agents-cli setup
И вот ваш основной агент уже научился собирать ADKшных агентов.
Агент узнает про ADK Python API, методологию пайплайнов, правила кода, как деплоить на Agent Runtime / Cloud Run / GKE, как собирать трейсы и как регистрировать в Gemini Enterprise.
🔧 Скиллы под капотом (7 штук):
- workflow (жизненный цикл),
- adk-code (ADK API + оркестрация),
- scaffold (генерация проектов),
- eval (метрики + LLM-as-judge + траектории),
- deploy (Agent Runtime/Cloud Run/GKE/CI-CD),
- publish (Gemini Enterprise),
- observability (Cloud Trace + логи).
🧪 CLI как самостоятельный инструмент: работает и без кодинг-агента. scaffold, eval run, deploy, infra, data-ingestion — всё из терминала.
agents-cli scaffold enhance добавляет CI/CD и RAG в существующий проект.💼 Зачем бизнесу: Стандартизация. Вместо того чтобы каждый агент-разработчик осваивал ADK, Cloud Run, Cloud Trace, IAM, CI/CD и Gemini Enterprise по отдельности — один CLI закрывает весь пайплайн от
scaffold до publish. Снижает порог входа для корпоративных команд.🔮 Будущее: Google делает ставку на агентную платформу как экосистему. Agents CLI — это мост между кодинг-агентами (Gemini CLI, Codex, Claude Code) и Google Cloud. Open-source, скиллы по открытой спецификации Agent Skills, совместимость с
gh skill. Вопрос времени когда подобное появится аналогичное от AWS и Azure.
Github
Кстати, - крайне рекомендую изучить для сборки собственных навыков деплоя агентами в корпоративной среде.
#Google #AgentsCLI #ADK #AgentPlatform #Gemini #DevOps #GoogleCloud
───
@tsingular
🔥7👍3⚡2❤1🎄1 1 1
Forwarded from Data Secrets
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем☕️
www.anthropic.com/engineering/april-23-postmortem
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем
www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16⚡5 5❤4🔥2 2
CGIT_Vines
Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.
Telegram
Технозаметки Малышева
Алибаба готовит к релизу новую "Модель мира"
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока…
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока…
А прикольно состарилось.
всего 2 года, как что-то там не укладывалось в голове, и вот уже у нас волна моделей мира.
Та же история с Дипсиком, кстати, - что контекст на 1 миллион тепень норма.
Пару лет назад всем хватало 8К :)
Как вам идея, что через пару лет 10М контекста будут нормой? укладывается в голове ? :)
#worldmodels
———
@tsingular
всего 2 года, как что-то там не укладывалось в голове, и вот уже у нас волна моделей мира.
Та же история с Дипсиком, кстати, - что контекст на 1 миллион тепень норма.
Пару лет назад всем хватало 8К :)
Как вам идея, что через пару лет 10М контекста будут нормой? укладывается в голове ? :)
#worldmodels
———
@tsingular
🔥16🤯5 4⚡1❤1 1
MIT MathNet — 30 000 олимпиадных задач по математике в открытом доступе
MIT CSAIL совместно с KAUST и HUMAIN собрали MathNet — крупнейший датасет доказательных математических задач. 30 000+ задач и решений из 47 стран, 17 языков, 143 соревнований. В 5 раз больше любого предыдущего аналога.
🏛 Архитектура: 1 595 PDF-томов (25 000+ страниц). Основа — личная коллекция Navid Safaei, который с 2006 года вручную сканировал буклеты национальных олимпиад. В отличие от AoPS (форумные решения), MathNet использует только официальные буклеты с рецензированными решениями.
🌍 Покрытие: Не только США и Китай, как во всех прошлых датасетах, — 6 континентов, 17 языков. Монгольские, румынские, бразильские задачи. Текстовые и графические формулировки. 4 десятилетия.
🤖 AI-бенчмарк: Результаты сложнее, чем «золото IMO». GPT-5 — лучший среди протестированных — набрал лишь 69.3% на основном бенчмарке (6 400 задач). Каждый третий олимпиадный уровень — мимо. Задачи с рисунками — провал у всех моделей. Open-source модели показали 0% на монгольском.
🔍 Retrieval benchmark: Модели ищут структурно похожие задачи. Лучшая нашла эквивалент с первого раза только в 5% случаев. DeepSeek-V3.2-Speciale при качественном retrieval получал +12 п.п., но плохой retrieval ухудшал результат в 22% случаев.
💼 Зачем бизнесу: Датасет — публичное достояние (open access). Для AI-команд: реалистичный бенчмарк математического рассуждения, который не затачивался под LLM. Для EdTech: 30К задач с рецензированными решениями на 17 языках — материал для адаптивного обучения.
🔮 Будущее: MathNet ставит вопрос: «настоящий» прогресс ИИ в математике или переобучение на узкий пул англо-китайских задач? Когда модель решает 69% — это впечатляет. Когда 0% на монгольском — напоминает, что reasoning ≠ memorization.
#MIT #MathNet #AI #математика #LLM #бенчмарки #образование #OpenData
───
@tsingular
MIT CSAIL совместно с KAUST и HUMAIN собрали MathNet — крупнейший датасет доказательных математических задач. 30 000+ задач и решений из 47 стран, 17 языков, 143 соревнований. В 5 раз больше любого предыдущего аналога.
🏛 Архитектура: 1 595 PDF-томов (25 000+ страниц). Основа — личная коллекция Navid Safaei, который с 2006 года вручную сканировал буклеты национальных олимпиад. В отличие от AoPS (форумные решения), MathNet использует только официальные буклеты с рецензированными решениями.
🌍 Покрытие: Не только США и Китай, как во всех прошлых датасетах, — 6 континентов, 17 языков. Монгольские, румынские, бразильские задачи. Текстовые и графические формулировки. 4 десятилетия.
🤖 AI-бенчмарк: Результаты сложнее, чем «золото IMO». GPT-5 — лучший среди протестированных — набрал лишь 69.3% на основном бенчмарке (6 400 задач). Каждый третий олимпиадный уровень — мимо. Задачи с рисунками — провал у всех моделей. Open-source модели показали 0% на монгольском.
🔍 Retrieval benchmark: Модели ищут структурно похожие задачи. Лучшая нашла эквивалент с первого раза только в 5% случаев. DeepSeek-V3.2-Speciale при качественном retrieval получал +12 п.п., но плохой retrieval ухудшал результат в 22% случаев.
💼 Зачем бизнесу: Датасет — публичное достояние (open access). Для AI-команд: реалистичный бенчмарк математического рассуждения, который не затачивался под LLM. Для EdTech: 30К задач с рецензированными решениями на 17 языках — материал для адаптивного обучения.
🔮 Будущее: MathNet ставит вопрос: «настоящий» прогресс ИИ в математике или переобучение на узкий пул англо-китайских задач? Когда модель решает 69% — это впечатляет. Когда 0% на монгольском — напоминает, что reasoning ≠ memorization.
#MIT #MathNet #AI #математика #LLM #бенчмарки #образование #OpenData
───
@tsingular
🔥12❤3⚡3 2 1
Forwarded from IT is my job
С современными технологиями практически безразлично, на каком языке писать книгу. И я решил это проверить.
Сдав экзамен Anthropic Claude Certified Architect, я понял, что знания, которые я получил в процессе почти трёхлетней подготовки, внезапно собрались в логичную структуру повествования. Поэтому пока сын занимался футболом, я начал гулять вокруг поля и надиктовывать главы будущей книги в виде голосовых заметок.
Потом они были переведены, отредактированы, обогащены точными фактами и красиво оформлены. В итоге меньше чем за месяц пылающим пером и современными инструментами была написана эта книга. А потом я подумал, что раз мы оснащены такими прекрасными технологиями, то можно её и перевести обратно на русский и поделиться со всеми.
Скачать можно в предыдущем посте: https://t.iss.one/itismyjob/76
Сдав экзамен Anthropic Claude Certified Architect, я понял, что знания, которые я получил в процессе почти трёхлетней подготовки, внезапно собрались в логичную структуру повествования. Поэтому пока сын занимался футболом, я начал гулять вокруг поля и надиктовывать главы будущей книги в виде голосовых заметок.
Потом они были переведены, отредактированы, обогащены точными фактами и красиво оформлены. В итоге меньше чем за месяц пылающим пером и современными инструментами была написана эта книга. А потом я подумал, что раз мы оснащены такими прекрасными технологиями, то можно её и перевести обратно на русский и поделиться со всеми.
Скачать можно в предыдущем посте: https://t.iss.one/itismyjob/76
🔥15👍7 4 2✍1⚡1