Data Secrets

⚡️

Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест для эвала агентов

В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред.

Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента.

Вот здесь примеры, как тест проходит Gemini 3.1: с некоторыми задачками она справляется нормально, с некоторыми – очень плохо.

Самостоятельно поиграть можно здесь.

Ключевые проверяемые способности – самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться.

В общем, команда продолжает выискивать именно то, что делает интеллект человека по-настоящему сильным, и что пока недоступно моделям.

Ну и стартовало традиционное соревнование по обновленной версии. Призовой фонд на этот раз – 2 миллиона долларов.

Хотя больше интересно, когда опубликуют лидерборд фронтиров

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥104❤22👍16😁3😎2✍1☃1❤‍🔥1

20.3K viewsedited 21:20

Data Secrets

Хотя больше интересно, когда опубликуют лидерборд фронтиров

Нашелся лидерборд: https://arcprize.org/leaderboard

Кратко:
– Gemini 3.1 Pro: 0.2% за 2.2к$
– Opus 4.6: 0.2% за 8.9к$ (!)
– GPT-5.4: 0.3% за 5.2к$
– Grok 4.20: 0.0% за 3.8к$ (хаха)

😁214🔥20❤11🤯4🗿1

17.8K views22:28

Data Secrets

Отрывок из новой статьи Теренса Тао ⬆️

А вот отрывок из сопутствующего блога:

Один из аргументов для теоремы 1.4 был предложен мне ChatGPT, так как я ранее не знал о теореме двух констант Неванлинны. <> Затем ChatGPT доказал первое из двух утверждений, лежащих в основе теоремы. Также для нахождения доказательства теоремы 1.4 через лемму 1.1 использовались AlphaEvolve и ChatGPT Pro.

Такая вот новая реальность: ChatGPT доказывает утверждения для лучшего математика в мире. Фактически, это чуть не соавторство.

Please open Telegram to view this post

VIEW IN TELEGRAM

😎117👍44❤29😁7🤯5🔥4

17.7K viewsedited 07:16

Data Secrets

Google перепридумали квантование: их алгоритм TurboQuant может стать новым стандартом эффективности LLM В современных моделях проблема памяти не только в числе параметров, но и в том, что модель постоянно таскает за собой огромное количество векторов – в…

Да.

2😁215❤69🔥34🤨4

17K views10:28

Data Secrets

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Вайбкодить теперь можно даже виртуальную реальность

Google выкатили Vibe Coding XR – платформу для генерации AR/VR интерфейсов из промпта.

Под капотом, конечно, Gemini, но генерирует моделька уже не просто код, а пространство + объекты + физику + интерактивность.

На самом деле, операции тут происходят даже не с кодом, а со смысловыми блоками XR Blocks. Так что в строгом смысле слова это не вайбкодинг, а вайб-билдинг.

Пока что выпустили в виде исследовательского прототипа (те потрогать нельзя), но это уже сильный шаг. Google, видимо, все еще надеются продвинуть Android XR и повоевать за рынок с Apple Vision Pro. А как мы знаем, если Google захотят – Google сделают.

research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/

🔥81👏13🤯10👍5😁43❤22

16.9K views12:49

Data Secrets

Ускорьте работу с ИИ и генеративными моделями с новыми видеокартами в облаке Selectel — H100, H200, RTX 6000 Pro, L4.

✅Почасовая аренда, быстрый запуск и гибкая настройка под задачи любой сложности.

Посмотреть цены и арендовать сервер 👉 https://slc.tl/wabpm

Реклама. АО "Селектел". erid:2W5zFJKK4zV

😁23🗿15👍11🤓3

15.7K views14:02

Data Secrets

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Meta* представили TRIBE v2 – открытый симулятор человеческого мозга

Это модель, которая предсказывает, как будет активироваться мозг человека, когда он что-то видит, слышит или читает. То есть TRIBE v2 – это искусственный макет того, как человек воспринимает мир. Типа API к биологическому мозгу ☕️

Самое удивительное: TRIBE v2 работает точнее МРТ(fMRI). То есть если измерить мозговую активность одного человека, она в большинстве случаев будет менее точно отображать типичную (усредненную по группе) реакцию мозга на раздражитель, чем моделька. Все дело в том, что индивидуальный МРТ довольно шумный, а TRIBE v2 предсказывает более стабильный сигнал для самых разных ситуаций.

Под капотом при этом нет ничего особенного: просто мультимодальная сборка из трех разных энкодеров для звука, видео и текста (для видео кстати используют V-JEPA 2) + трансформер, который учится отображать эмбеддинги в нейронную активность ~20к точек на коре мозга.

Есть еще интересный момент со Scaling Laws. Где трансформер – там и масштабирование, и тут тоже оказалось, что качество предсказания мозга растет с размером модели и данных.

А это значит, что у подхода большое будущее. Сейчас модель объясняет ~54% вариации сигнала, в отдельных областях – до 80%. Это уже довольно много, и даже близко к верхнему пределу fMRI как измерения. Но получается, что благодаря scaling laws следующие модели могут не просто упираться в этот предел, а фактически выйти за него в смысле восстановления более чистого сигнала, чем дает сам fMRI.

Демо, статья, код и сама модель здесь: aidemos.atmeta.com/tribev2/

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤯133🔥54❤32👍5😁4🍓33🤨1🫡11

16.4K views15:48

Data Secrets

Google выпустили Gemini 3.1 Flash Live

Это аудио‑first модель, которая ориентирована на лайв диалоги и голосовые интерфейсы.

Обещают максимально естественную речь и минимальную задержку. Модель может отличать нюансы диалога по тону и темпу голоса (например, может поменять стиль ответа, если вы выказываете раздражение).

Контекст у новой модели держится примерно в два раза дольше, чем у прошлой версии Gemini Live, то есть она довольна хороша в длинных диалогах.

По другим бенчмаркам (устойчивость к шуму, многошаговый tool call из аудио ввода, следование инструкциям, логика диалога) Gemini 3.1 Flash Live также сильно скакнула относительно предыдущей модели и выбилась в уверенные лидеры.

Для потребителей эта моделька будет лежать в основе Search Live и Gemini Live.

Сейчас поболтать с ней уже можно в Gemini app или через Live API (цена относительно Gemini 2.5 Flash Live не изменилась)

❤74👍31🔥192

15.8K views06:04

Data Secrets

Anthropic скоро выпустят новую модель под кодовым названием Claude Mythos (или Capybara)

Fortune опубликовали эксклюзивный материал: они откопали утекшие внутренние документы стартапа, которые случайно оказались в публичном кэше данных компании.

В указанных документах говорится, что компания готовится к выпуску новой модели и хочет действовать с особой осторожностью, потому что модель «представляет беспрецедентные риски для кибербезопасности».

Как вы помните, в сети уже несколько раз всплывали новости о том, что Claude так или иначе используется для кибератак. Если верить сливу, и Claude Mythos – это действительно очередной скачок в способностях, то рисков станет еще больше.

Сообщается даже, что компания собирается изначально выпускать модель в ограниченном доступе для security‑команд, чтобы они могли использовать ее для усиления защиты кодовых баз и подготовки к атакам, которые в последствие Mythos сам может провоцировать.

1🔥149😁503818❤7👍4🤔4

17.5K views08:41

Data Secrets

Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзойдет объем текста, который человечество накопило за последние 500 лет

Другими словами, ИИ понадобиться всего 5-10 лет, чтобы нагнать и перегнать человечество в плане количества написанного текста.

Оказалось, кстати, что 2025 стал первым годом, когда ИИ сгенерировал больше текста, чем люди. Подсчеты, конечно, очень приблизительные, – но все же.

164😁5738❤11🤔6👍2🔥2🫡2💘1

16.7K views14:41

OpenAI построена Альтманом на манипуляциях

Вчера вышел крайне занятный подкаст Стивена Бартлетта с журналисткой Карен Хао. Хао несколько лет занимается расследованием происходящего в OpenAI. Она даже написала об этом книгу «Empire of AI».

Она утверждает, что в рамках расследования провела более 300 интервью (в том числе 90+ с нынешними и бывшими сотрудниками OpenAI). Вот какие интересные детали ей удалось выяснить:

➖ В 2015 году риторика стартапа была полностью переделана под Маска, чтобы получить его инвестиции и влияние. До 2015 года Альтман вообще не говорил об угрозе ИИ для человечества, а затем резко начал использовать язык, очень похожий на язык Маска про экзистенциальный риск ИИ. Маск и сам считает, что Сэм просто зеркалил его взгляды, чтобы завоевать доверие.

➖ Тот же прием Альтман использует по сей день. Хао утверждает, что OpenAI абсолютно по-разному определяют термин AGI в зависимости от аудитории, которой его продают. Конгрессу – как систему, способную решать глобальные проблемы, потребителям – как самого лучшего персонального помощника, Microsoft – как систему, которая приносит много денег.

➖ С Маском история тоже якобы кончилась именно с руки Альтмана. Оказывается, что много лет назад при первом обсуждении перехода к for-profit почти все фаундеры склонялись к тому, чтобы CEO новой структуры стал Маск. Но Альтман лично переубедил Брокмана, а затем и Суцкевера, что Илон слишком «непредсказуем» для этой роли. После этого Маск ушел.

Ну и, кроме того, еще несколько уже известных нам подробностей: про угрозы критикующим журналистам, обязательное подписание сотрудниками отказов от доли в компании и про уходы ключевых сотрудников из-за абьюза со стороны руководства.

Конечно, не забываем, что все это – журналистская интерпретация, подтвержденная только анонимными источниками. Но дыма без огня не бывает, верно?

И кстати, Маск прокомментировал подкаст так: «Scam Altman is super good at scamming»

Please open Telegram to view this post

VIEW IN TELEGRAM

1132😁62❤23👍1613🤔5🔥1

14.5K views10:57

Data Secrets

NeuralDeep Skills: локальная база агентных навыков под ру-сервисы

Всем, кто пользуется агентами, 100% известна такая вещь, как skills.sh. Это огромная база скиллов агентов под любые сервисы. Ставишь – и агент уже умеет с ними работать из коробки.

Так вот, в российском сообществе давно напрашивался аналог под локальный стек. И его сделал наш друг и коллега по тг – Валерий @neuraldeep. Он в целом регулярно делает разные практичные штуки для разработчиков, и это как раз одна из них.

Итак, встречайте: neuraldeep.ru/

Это база, в которой будут собраны скиллы для работы с самими разными ру-сервисами. Туда уже залили интеграции под инструменты Яндекс, Битрикс24, 1С и другое, чем многие пользуются каждый день.

– Установка все так же происходит одной командой, все привычно и понятно
– Проект опенсорсный: туда можно просто прийти и залить свой скилл через GitHub (формат claude-skill)
– Есть модерация и базовые проверки безопасности

Из этого вполне может получиться что-то вроде стандартного слоя для агентных интеграций под рф-рынок. Если работаете с агентами – заходите попробовать или даже поучаствовать.

Проект -> neuraldeep.ru/
Гитхаб -> https://github.com/vakovalskii/neuraldeep
Следите за обновлениями в канале Валеры -> @neuraldeep

1❤93👍42🗿25🔥154😁3🤯31

21.1K views15:53

Data Secrets

Фаундер GitLab Сид Сийбранди «собрал» себе лечение от рака с помощью ИИ

В 2022 году у него диагностировали редкую форму рака позвоночника. После операции, химии и радиотерапии болезнь вернулась, а стандартные опции лечения фактически закончились.

И тут Сид, как настоящий инженер, решил подойти к лечению как к решению задачи.

По факту, он собрал вокруг себя небольшую биотех компанию из агентов. Он накопил максимально полный набор данных о себе – генетика, анализы, сканы – и начал работать с этим как с исследовательским проектом. ИИ помогал структурировать информацию, искать гипотезы и искать релевантные статьи.

В итоге лечение превратилось в цикл проверки гипотез. Инженер быстрыми итерациями параллельно тестировал по несколько подходов, постоянно корректируя стратегию. По сути R&D-пайплайн, только применный к собственной болезни.

По текущему статусу Сид в ремиссии. Эта история, конечно, не только про ИИ, но и про наличие денег и связей. ИИ тут скорее послужил катализатором. Но все же сам факт того, что подобное возможно в наше время – поражает.

Сид, кстати, сам описал весь процесс и подход, можно почитать вот тут -> https://sytse.com/cancer/

3❤201🔥60👍37😁7🤨5🦄4

13.4K views10:16

About

Blog

Apps

Platform