This media is not supported in your browser
VIEW IN TELEGRAM
Google открывает AI Studio для подписчиков Pro и Ultra
Google расширил лимиты подписчикам платных тарифов AI Pro и Ultra в AI Studio. Плюсом открыл доступ к моделям Nano Banana Pro и Gemini Pro без отдельной настройки API-ключей.
🚀 Прототипирование без проблем: Раньше для экспериментов нужен был API-ключ и отслеживание расходов. Теперь подписчики Google One AI получают AI Studio как часть пакета — идея превращается в приложение за минуты.
⚡️ Модельная линейка: Nano Banana Pro + Gemini Pro доступны сразу. Nano для edge-задач и мобильных приложений, Gemini Pro для сложных мультимодальных пайплайнов.
💳 Billing bridge: Те, кто выбрал free tier, теперь могут перейти на Google AI plan без интеграции платёжной системы. Предсказуемые затраты для прототипирования, но для production по-прежнему рекомендуются pay-per-request API keys.
На фоне того, что Антропик вырезал claudecode из дешёвой подписки для новых подписчиков - это прям огонь.
#Google #AIStudio #Gemini #dev
───
@tsingular
Google расширил лимиты подписчикам платных тарифов AI Pro и Ultra в AI Studio. Плюсом открыл доступ к моделям Nano Banana Pro и Gemini Pro без отдельной настройки API-ключей.
🚀 Прототипирование без проблем: Раньше для экспериментов нужен был API-ключ и отслеживание расходов. Теперь подписчики Google One AI получают AI Studio как часть пакета — идея превращается в приложение за минуты.
⚡️ Модельная линейка: Nano Banana Pro + Gemini Pro доступны сразу. Nano для edge-задач и мобильных приложений, Gemini Pro для сложных мультимодальных пайплайнов.
💳 Billing bridge: Те, кто выбрал free tier, теперь могут перейти на Google AI plan без интеграции платёжной системы. Предсказуемые затраты для прототипирования, но для production по-прежнему рекомендуются pay-per-request API keys.
На фоне того, что Антропик вырезал claudecode из дешёвой подписки для новых подписчиков - это прям огонь.
#Google #AIStudio #Gemini #dev
───
@tsingular
👍8🔥6⚡3❤1
💀 Anthropic Mythos: Несанкционированная группа получила доступ к самой защищаемой модели мира
Bloomberg сообщает: приватный онлайн-форум взломан через подрядчика третьей стороны.
⚙️ Вектор атаки: Группа из Discord-сервера, специализирующегося на незапущенных моделях, использовала комбинацию методов: анализ публичных сервисов Anthropic (GitHub), угадывание формата URL по паттернам других моделей, и ключевое — эксплуатация прав доступа сотрудника подрядчика.
Социальная инженерия + OSINT + инсайд.
🔍 Позиция Anthropic: Компания подтвердила расследование, но заявила об отсутствии доказательств влияния на собственные системы. Форумчане утверждают, что используют Mythos «для экспериментов, а не для злонамеренных действий».
Утешение сомнительное: доступ уже есть, мотивация может смениться быстро.
Пока из эффектов Мифоса на безопасность только утечки. С момента появления и до сих пор. Когда уже пользу начнут извлекать хотя бы для себя?!
#Anthropic #Mythos #кибербезопасность #AI #утечки #ProjectGlasswing #cybersecurity
───
@tsingular
Bloomberg сообщает: приватный онлайн-форум взломан через подрядчика третьей стороны.
⚙️ Вектор атаки: Группа из Discord-сервера, специализирующегося на незапущенных моделях, использовала комбинацию методов: анализ публичных сервисов Anthropic (GitHub), угадывание формата URL по паттернам других моделей, и ключевое — эксплуатация прав доступа сотрудника подрядчика.
Социальная инженерия + OSINT + инсайд.
🔍 Позиция Anthropic: Компания подтвердила расследование, но заявила об отсутствии доказательств влияния на собственные системы. Форумчане утверждают, что используют Mythos «для экспериментов, а не для злонамеренных действий».
Утешение сомнительное: доступ уже есть, мотивация может смениться быстро.
Пока из эффектов Мифоса на безопасность только утечки. С момента появления и до сих пор. Когда уже пользу начнут извлекать хотя бы для себя?!
#Anthropic #Mythos #кибербезопасность #AI #утечки #ProjectGlasswing #cybersecurity
───
@tsingular
👍6😁3👻3⚡2❤1
Kimi-k2.6 через ollama в 8 раз медленнее, чем glm-5.1
при этом замечены смысловые неточности в генерируемом русском тексте.
Может она и хороша для программирования и для агентской работы, но точно не быстрее и точно не для русского языка.
#kimi #glm #ollama
———
@tsingular
при этом замечены смысловые неточности в генерируемом русском тексте.
Может она и хороша для программирования и для агентской работы, но точно не быстрее и точно не для русского языка.
#kimi #glm #ollama
———
@tsingular
✍12💯3⚡2😭2👍1
SpaceX договорился купить Cursor за $60 млрд или заплатить $10 млрд за партнёрство
SpaceX объявил сделку с Cursor, платформой для AI-кодинга. Условие: либо приобрести стартап за $60 млрд позже в этом году, либо выплатить $10 млрд за совместную работу. Объявление приурочено к грядущему IPO SpaceX, которое готовится стать крупнейшим в истории.
🚀 Цена вопроса: Cursor недавно вёл раунд на $2 млрд при оценке $50 млрд (Andreessen Horowitz, Nvidia, Thrive Capital). SpaceX предлагает премию в 20% к этой оценке за полный контроль, либо $10 млрд за партнёрство.
Это не стандартная breakup fee, а инвестиция в совместную разработку моделей.
⚡️ Синергия инфраструктуры: SpaceX объединит продукт Cursor и его аудиторию из экспертных инженеров с суперкомпьютером Colossus (миллион эквивалентов H100) в Мемфисе.
Цель — «самые полезные модели в мире». Musk получает доступ к лидирующему инструменту vibe coding, Cursor — доступ к вычислительным мощностям, которых нет ни у одного конкурента.
А главное, - сможет тренировать свои модели на логах разработки и ответах моделей конкурентов!
🔀 Корпоративная матрёшка: SpaceX уже поглотил xAI в феврале (оценка сделки $1.25 трлн). Теперь Cursor может стать частью этого конгломерата. Два руководителя инжиниринга Cursor (Andrew Milich и Jason Ginsberg) присоединились к SpaceX ещё в марте. Сделка выглядит как заранее спланированная интеграция, а не импульсивное приобретение.
💼 Зачем бизнесу: Рынок AI-инструментов для разработки накаляется. OpenAI выпустил Codex, Google создал «ударную группу» под руководством Сергея Брина для догона Anthropic, Anthropic развивает Claude для кодинга. Musk покупает готовую аудиторию и продукт вместо конструирования конкурента с нуля. AI-кодинг становится стратегическим активом уровня M&A, который требует поглощений и интеграций.
🔮 Будущее: Если IPO SpaceX пройдёт при оценке ~$1.75 трлн с привлечением $75 млрд, Cursor станет внутренним AI-ядром публичной компании. Мы увидим интеграцию Grok + Cursor + SpaceX: код для спутников, нейросети для анализа данных полётов, AI-ассистенты для инженеров. Экосистема Musk превращается в вертикально интегрированного AI-гиганта, где каждый актив подпитывает остальные.
#SpaceX #Cursor #xAI #ElonMusk #IPO #AI #кодинг #M&A #Colossus
───
@tsingular
SpaceX объявил сделку с Cursor, платформой для AI-кодинга. Условие: либо приобрести стартап за $60 млрд позже в этом году, либо выплатить $10 млрд за совместную работу. Объявление приурочено к грядущему IPO SpaceX, которое готовится стать крупнейшим в истории.
🚀 Цена вопроса: Cursor недавно вёл раунд на $2 млрд при оценке $50 млрд (Andreessen Horowitz, Nvidia, Thrive Capital). SpaceX предлагает премию в 20% к этой оценке за полный контроль, либо $10 млрд за партнёрство.
Это не стандартная breakup fee, а инвестиция в совместную разработку моделей.
⚡️ Синергия инфраструктуры: SpaceX объединит продукт Cursor и его аудиторию из экспертных инженеров с суперкомпьютером Colossus (миллион эквивалентов H100) в Мемфисе.
Цель — «самые полезные модели в мире». Musk получает доступ к лидирующему инструменту vibe coding, Cursor — доступ к вычислительным мощностям, которых нет ни у одного конкурента.
А главное, - сможет тренировать свои модели на логах разработки и ответах моделей конкурентов!
🔀 Корпоративная матрёшка: SpaceX уже поглотил xAI в феврале (оценка сделки $1.25 трлн). Теперь Cursor может стать частью этого конгломерата. Два руководителя инжиниринга Cursor (Andrew Milich и Jason Ginsberg) присоединились к SpaceX ещё в марте. Сделка выглядит как заранее спланированная интеграция, а не импульсивное приобретение.
💼 Зачем бизнесу: Рынок AI-инструментов для разработки накаляется. OpenAI выпустил Codex, Google создал «ударную группу» под руководством Сергея Брина для догона Anthropic, Anthropic развивает Claude для кодинга. Musk покупает готовую аудиторию и продукт вместо конструирования конкурента с нуля. AI-кодинг становится стратегическим активом уровня M&A, который требует поглощений и интеграций.
🔮 Будущее: Если IPO SpaceX пройдёт при оценке ~$1.75 трлн с привлечением $75 млрд, Cursor станет внутренним AI-ядром публичной компании. Мы увидим интеграцию Grok + Cursor + SpaceX: код для спутников, нейросети для анализа данных полётов, AI-ассистенты для инженеров. Экосистема Musk превращается в вертикально интегрированного AI-гиганта, где каждый актив подпитывает остальные.
#SpaceX #Cursor #xAI #ElonMusk #IPO #AI #кодинг #M&A #Colossus
───
@tsingular
🔥11⚡6❤4🏆1
Геймдев можно агентизировать смело.
ассеты можно генерить автоматом и не переживать за косяки
по шаблону
#Image #GPT #gamedev
———
@tsingular
ассеты можно генерить автоматом и не переживать за косяки
по шаблону
#Image #GPT #gamedev
———
@tsingular
🔥17 8⚡2✍1😐1
Forwarded from Russian OSINT
Исследователь Александр Ханфф обнаружил, что приложение Claude Desktop для macOS от компании Anthropic тайно и без согласия пользователей устанавливает незадокументированный мост Native Messaging.В ходе отладки он нашел в папке своего браузера
com.anthropic.claude_browser_extension.json), который заранее дает разрешение трем конкретным расширениям chrome-native-host) вне защищенной «песочницы» браузера на уровне привилегий пользователя. Утверждается, что скрытая установка бэкдора происходит в момент установки десктопного приложения, даже если пользователь никогда не устанавливал сами браузерные расширения Claude.При установке и запуске Claude Desktop (macOS) приложение автоматически (без какого-либо уведомления, галочки или запроса согласия) создаёт в папках браузеров файл: ~/Library/Application Support/[Browser]/NativeMessagingHosts/com.anthropic.claude_browser_extension.json
— возмущается исследователь.
Приложение целенаправленно и массово внедряет этот манифест в системные пути семи различных браузеров на базе Chromium (Chrome, Edge, Brave, Arc, Chromium, Vivaldi, Opera), причем создает нужные папки даже для тех браузеров, которые вообще не установлены на компьютере. Журналы (логи) самого Claude Desktop подтверждают эти действия.
В случае активации хотя бы одним из указанных расширений этот мост предоставляет Anthropic пугающе широкие возможности по контролю над браузером. Согласно собственной документации компании, функционал включает использование текущих авторизованных сессий пользователя (без необходимости повторного входа на сайты), чтение отрендеренного DOM-дерева и автоматическое заполнение форм. На практике это означает, что мост способен считывать в виде простого текста пароли в момент их ввода, номера кредитных карт и расшифрованные личные сообщения прямо с экрана, обходя защиту HTTPS и сводя на нет изоляцию между различными пользовательскими профилями.
По мнению исследователя, наличие такого «спящего» бэкдора создает критические угрозы безопасности компьютера, значительно расширяя поверхность атаки. Если хотя бы одно из трех разрешенных расширений будет скомпрометировано (например, через атаку на цепочку поставок, взлом аккаунта разработчика или вредоносное обновление), злоумышленники получат прямой доступ к выполнению кода вне песочницы браузера на устройстве жертвы. Ситуация усугубляется тем, что по собственным данным Anthropic расширение Claude для Chrome уязвимо к атакам типа «инъекция промпта» (с вероятностью успеха до 23,6%), что дает потенциальный вектор атаки от вредоносного веб-сайта прямо к операционной системе.
⚖️Ханфф утверждает, что подобные действия нарушают статью 5(3) Директивы ЕС о конфиденциальности электронных коммуникаций (ePrivacy Directive), которая требует получения явного согласия пользователя перед сохранением информации на его устройстве, за исключением случаев, когда это строго необходимо для предоставления услуги. Исследователь пока не подал официальную жалобу в регулирующие органы, но заявляет, что планирует сделать это, если Anthropic не примет должные меры.
👆Anthropic пока никак не отреагировали.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Услышал на звонке:
— У меня было два правильных решения в жизни. Жениться и скачать Claude Code.
— У меня было два правильных решения в жизни. Жениться и скачать Claude Code.
😁27✍6🔥6
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
Большинство думает, что проблема в LLM или плохом промпте. На практике всё проще. Модель не видит правильные связи между таблицами.
Пример. Запрос вроде “какие издатели получили выплаты выше 5000”. Векторный поиск подтянет publisher и royalty_ledger. Всё логично. Но пропустит vendor_agreement, ту самую таблицу, которая их связывает.
В итоге SQL выглядит валидно. Но возвращает ноль строк.
Это системная проблема всех решений на embeddings. Они ищут по смыслу, но не понимают структуру базы.
Нормальный подход другой. Схему нужно рассматривать как граф.
Таблицы это узлы. Foreign keys это связи. Запрос решается не поиском похожих слов, а обходом графа и поиском join-пути.
Именно так работает QueryWeaver.
Он строит граф базы и при запросе сам находит весь путь, включая промежуточные таблицы. Даже если это цепочка из нескольких шагов.
На практике это выглядит так. В тесте с базой на 60 таблиц он разобрал 5-шаговый запрос через цепочку superpower → capability_matrix → stakeholder_registry → resource_requisition → budget_allocation.
Векторный поиск увидел только начало и конец. Всё между ними потерял, потому что “stakeholder” никак не связан по смыслу с “superpower”.
Графу на это всё равно. Он просто находит единственный путь между сущностями.
И это меняет всё.
Open-source, можно развернуть у себя и наконец получить text-to-SQL, который реально работает.
https://github.com/FalkorDB/QueryWeaver
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10✍8⚡3
Forwarded from Анализ данных (Data analysis)
Kimi K2.6 теперь можно запускать почти на чём угодно
Модель на 1 триллион параметров ужали до 340 ГБ через Dynamic GGUF. Ключевые слои оставили в более высокой точности, остальное оптимизировали.
В итоге получился компромисс, который реально работает.
Больше не нужен только кластер на сотни GPU.
Сейчас это выглядит так.
Запуск на CPU, GPU и даже SSD-сетапах.
Скорость больше 40 токенов в секунду на конфигурациях с ~350 ГБ RAM или VRAM.
Полная точность доступна при 610 ГБ.
По сути, это один из первых кейсов, когда модель такого масштаба становится доступной вне датацентров.
Если тренд продолжится, граница между локальными и облачными моделями начнёт быстро стираться.
Гайд: https://unsloth.ai/docs/models/kimi-k2.6
GGUF: https://huggingface.co/unsloth/Kimi-K2.6-GGUF
Модель на 1 триллион параметров ужали до 340 ГБ через Dynamic GGUF. Ключевые слои оставили в более высокой точности, остальное оптимизировали.
В итоге получился компромисс, который реально работает.
Больше не нужен только кластер на сотни GPU.
Сейчас это выглядит так.
Запуск на CPU, GPU и даже SSD-сетапах.
Скорость больше 40 токенов в секунду на конфигурациях с ~350 ГБ RAM или VRAM.
Полная точность доступна при 610 ГБ.
По сути, это один из первых кейсов, когда модель такого масштаба становится доступной вне датацентров.
Если тренд продолжится, граница между локальными и облачными моделями начнёт быстро стираться.
Гайд: https://unsloth.ai/docs/models/kimi-k2.6
GGUF: https://huggingface.co/unsloth/Kimi-K2.6-GGUF
🔥29 8⚡4😁1
GoogleResearch ReasoningBank: агенты учатся на собственных ошибках
Часто LLM-агентам приходится повторять одно и то же по несколько раз.
Для решения этой проблемы Google Research представил фреймворк, который заставляет агентов извлекать уроки из провалов и позволяет из сырых логов построить обобщённые стратегии.
🧠 Память о провалах: ReasoningBank строит банк памяти из двух источников: удачные траектории дают подтверждённые стратегии, неудачные — контрфактические сигналы и ловушки. Каждый элемент памяти содержит заголовок, описание и содержание с рассуждениями. Оценка успеха/провала через LLM-as-a-Judge.
⚙️ MaTTS, масштабирование с памятью: Комбинация ReasoningBank с test-time scaling. Параллельное масштабирование (k траекторий на одну задачу) создаёт контрастные сигналы: спонтанные совпадения отфильтровываются, устойчивые паттерны усиливаются.
Последовательное масштабирование фиксирует промежуточные инсайты из итеративного улучшения.
📊 Результаты: На WebArena прирост SR на +8.3% относительно агента без памяти, на SWE-Bench-Verified на +4.6%. Сокращение шагов до 1.4 на задачу. С MaTTS (k=5) ещё +3% SR.
На Gemini-2.5-Pro достигнут SR 53.9% на WebArena против 46.7% без памяти.
💼 Зачем бизнесу: Агентные системы в продакшене повторяют одни и те же ошибки.
ReasoningBank даёт механизм самообучения без дообучения модели: агент эволюционирует в рантайме, накапливая стратегическую память.
Для компаний, запускающих автономных агентов в поддержку, DevOps и аналитику, это прямой путь к сокращению стоимости итераций при росте качества.
🔮 Будущее: Memory-driven scaling — новая размерность для агентных систем. Банки рассуждений станут стандартным слоем инфраструктуры, как RAG сегодня.
И стать основой для обучения моделей следующего поколения.
Не просто рассуждающие модели, а модели сразу с опытом работы с инструментами с размышлениями.
paper | GitHub
#ReasoningBank #GoogleResearch #агенты #памятьИИ #LLM #самообучение
------
@tsingular
Часто LLM-агентам приходится повторять одно и то же по несколько раз.
Для решения этой проблемы Google Research представил фреймворк, который заставляет агентов извлекать уроки из провалов и позволяет из сырых логов построить обобщённые стратегии.
🧠 Память о провалах: ReasoningBank строит банк памяти из двух источников: удачные траектории дают подтверждённые стратегии, неудачные — контрфактические сигналы и ловушки. Каждый элемент памяти содержит заголовок, описание и содержание с рассуждениями. Оценка успеха/провала через LLM-as-a-Judge.
⚙️ MaTTS, масштабирование с памятью: Комбинация ReasoningBank с test-time scaling. Параллельное масштабирование (k траекторий на одну задачу) создаёт контрастные сигналы: спонтанные совпадения отфильтровываются, устойчивые паттерны усиливаются.
Последовательное масштабирование фиксирует промежуточные инсайты из итеративного улучшения.
📊 Результаты: На WebArena прирост SR на +8.3% относительно агента без памяти, на SWE-Bench-Verified на +4.6%. Сокращение шагов до 1.4 на задачу. С MaTTS (k=5) ещё +3% SR.
На Gemini-2.5-Pro достигнут SR 53.9% на WebArena против 46.7% без памяти.
💼 Зачем бизнесу: Агентные системы в продакшене повторяют одни и те же ошибки.
ReasoningBank даёт механизм самообучения без дообучения модели: агент эволюционирует в рантайме, накапливая стратегическую память.
Для компаний, запускающих автономных агентов в поддержку, DevOps и аналитику, это прямой путь к сокращению стоимости итераций при росте качества.
🔮 Будущее: Memory-driven scaling — новая размерность для агентных систем. Банки рассуждений станут стандартным слоем инфраструктуры, как RAG сегодня.
И стать основой для обучения моделей следующего поколения.
Не просто рассуждающие модели, а модели сразу с опытом работы с инструментами с размышлениями.
paper | GitHub
#ReasoningBank #GoogleResearch #агенты #памятьИИ #LLM #самообучение
------
@tsingular
🔥12✍6⚡3❤2
О а вот и подтверждение подъехало по оценке появления этого бесячего паттерна, - "Это уже не X, но Y"
Уже глаз дёргается от него.
Иногда по 5 раз за абзац встречается, как явный признак генерации с помощью ИИ.
Кажется, что это и есть вариант водяных знаков, потому что даже промптами тяжело такой стиль убирается.
Причём люди же заражаются этим стилем и уже скоро можно будет по таким признакам определить в каком году был написан документ, даже если его писал человек.
#ИИслоп
———
@tsingular
Уже глаз дёргается от него.
Иногда по 5 раз за абзац встречается, как явный признак генерации с помощью ИИ.
Кажется, что это и есть вариант водяных знаков, потому что даже промптами тяжело такой стиль убирается.
Причём люди же заражаются этим стилем и уже скоро можно будет по таким признакам определить в каком году был написан документ, даже если его писал человек.
#ИИслоп
———
@tsingular
😁24💯2❤1✍1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
По следам обсуждений в чате :)
Вредные советы
mp3 и аккорды для гитары сразу в комментарии
#вредный #музыка
———
@tsingular
Вредные советы
mp3 и аккорды для гитары сразу в комментарии
#вредный #музыка
———
@tsingular
Forwarded from Russian OSINT
Цукерберг одобрил решение установить ПО для отслеживания действий своих сотрудников в США, чтобы фиксировать их движения мыши, клики и нажатия клавиш с целью обучения своих моделей искусственного интеллекта.
Данная инициатива является частью масштабной реструктуризации компании с упором на искусственный интеллект, которая сопровождается планами по увольнению 10% сотрудников по всему миру.
Руководство Meta утверждает, что собранная информация не будет использоваться для оценки эффективности работы персонала, а послужит исключительно для реализации концепции будущего, в котором ИИ-агенты будут выполнять основную работу, а люди — лишь контролировать, направлять и помогать им совершенствоваться.
Журналисты отмечают иронию происходящего: сотрудники Meta теперь сами являются подопытными
*Meta (соцсети Facebook, Instagram) запрещена в РФ как
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики HuggingFace с помощью Opus 4.7 переписали WebGPU-ядро, которое ускорило инференс Qwen3.5 в 13 раз с помощью операции fused LinearAttention! 🤯
Агентная оптимизация ядер,- уже реальность.
Уже доступно в 🤗 Transformers.js v4.2.0!
💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.
#opus #huggingface #qwen #transformers
------
@tsingular
Агентная оптимизация ядер,- уже реальность.
Уже доступно в 🤗 Transformers.js v4.2.0!
💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.
#opus #huggingface #qwen #transformers
------
@tsingular
OpenAI выпустил GPT-5.5: первая модель после GPT-4.5 собранная с нуля
OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.
📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.
💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.
🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.
🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.
#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular
OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.
📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.
💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.
🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.
🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.
#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular
🔥31 11 3⚡2❤1 1