Data Secrets

Китайцы не отстают и тоже выпустили модель, которая выиграла* золото на IMO

Она называется Seed-Prover и по ней, в отличие от моделей от Google и OpenAI, вышла подробная статья. Так что разбираемся 👇

Архитектурно Seed-Prover ну ооочень напоминает недавно вышедший DeepSeek-Prover-V2 (разбор мы делали вот тут). Модель точно также использует Lean (программу для формальной верификации доказательств) и разбивает крупную задачу на доказательство кучи мелких лемм.

Единственное отличие: в DeepSeek Prover система сначала намечает пайплайн и решает, какие леммы нужно доказать (дедукция) ; а здесь в начале без какого-либо плана доказывается много разнообразных фактов, которые модель считает полезными, и только потом из них собирается нечто общее (индукция).

Такой подход может показаться менее системным, но на самом деле он позволяет легко масштабировать test-time. С ростом бюджета ризонинга модель просто генерирует в начале все больше и больше лемм и/или тратит на их доказательство больше времени. Ну а чем больше полезных правильно доказанных фактов – тем вероятнее потом модель соберет из них верный ответ.

По метрикам: SOTA на MiniF2F-test, PutnamBench, Past IMO, CombiBench и MiniCTX-v2. Причем где-то приросты на 3-4х. Довольно мощно, ByteDance – хороши.

* Выиграла с поправкой. Модели от Google и OpenAI соревновались в основном зачете, а ByteDance пригласили в дополнительный (потому что а основном не допускается использование таких систем, как Lean). Плюс, за отведенное время Seed-Prover решил всего 4 задачи из 6, а пятую доделывал уже вне зачета. Но все равно – результат!

Статья | GitHub

1❤70👍42🔥17👏2😁2🤯1

17K views08:36

Data Secrets

20 августа — последний день приёма статей по AI и последняя возможность получить приз 1 000 000 рублей! 🗓

Вы ещё успеваете войти в историю AI Journey 2025, представить свою работу по искусственному интеллекту и машинному обучению, получить признание и ценные призы:

✔️ публикацию в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics

✔️ 1 000 000 рублей за лучшее исследование

Статья должна быть абсолютно оригинальна и написана на русском или английском языке.

Узнать о правилах и направить статью можно здесь – не упустите эту возможность!

🤨24❤13🗿9👍6😁1

16.4K views10:28

Data Secrets

Сэм Альтман продолжает раздувать хайп вокруг GPT-5

Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5».

Когда-нибудь мы дождемся. Главное верить 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁116❤21🔥148👍7🗿43🤯2🤔1🦄1

16.8K views12:21

Data Secrets

Коротко о сложившейся ситуации

3😁212😎16🔥10👻4❤3👍33🤯2🗿11

17.1K views12:23

Data Secrets

От неоднозначных задач до трёхмерных сцен: российские исследователи выкатили два мощных результата от одной команды

Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах.

⚪️

AmbiK — самый большой в своем классе набор данных для проверки робототехнических систем на умение легко понимать просьбы людей. Датасет разработали исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера. Существующие решения либо рискуют выполнить задачу неправильно, либо надоедают пользователю бесконечными уточняющими вопросами по самым очевидным вещам, разрушая саму идею удобного взаимодействия. А значит их нужно научить пользоваться здравым смыслом и контекстом. AmbiK как раз помогает оценить качество такого обучения.

В него входит две тысячи задач с разметкой по типу неоднозначности для действий на кухне (у ближайших конкурентов — 600). Авторы бенча сразу же проверили существующие алгоритмы — они пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев.

⚪️

3DGraphLLM — метод, разработанный исследователями AIRI и МФТИ, помогает языковым моделям понимать топологию и смысл трёхмерных сцен. Созданный подход к кодированию графа 3D-сцены используется в связке с популярными моделями Vicuna и LLAMA3, но его можно легко адаптировать и для других LLM.

Модель уже тестировалась на данных, собранных в Центре робототехники Сбера. По качеству распознавания объектов она вырвалась вперёд среди 12 SOTA-решений, и обрабатывает запросы в 2-4 раза быстрее, чем GPT4Scene.

Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше 🔍

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤107🔥62👍36🗿10⚡7😁3🏆3🕊22👏1😎1

17.2K views15:17

Data Secrets

Google релизнули MLE-STAR: ML-инженера из коробки

Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее.

Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:

1. Запускаем, получаем метрики.
2. Дальше начинаем менять разные части кода и следим за динамикой метрик
3. Дорабатываем несколько кусочков, которые влияют на результат больше всего и начинаем с начала.

Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов).

Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%.

Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте.

Ах, да, забыли добавить: ML-щики – ВСЁ.

5163😁79🔥27❤16👍85🤯3👌2⚡1

20.4K views17:10

Data Secrets

В сеть утекли Spotify плейлисты селебрити: в том числе Сэма Альтмана, Андрея Карпаты, Ильи Суцкевера и других

Некий персонаж объявил, что провел расследование и нашел реальные аккаунты знаменитостей в Spotify. Он год парсил их плейлисты и теперь сделал целый сайт, на котором любой желающий может просмотреть, что слушают самые влиятельные люди планеты.

В числе попавших под раздачу также: Марк Андерсен, Александр Ванг (новый глава ИИ в Meta), Ян Лекун, Гэрри Тан (CEO Y-Combinator) и еще много-много политиков, бизнесменов и звезд.

Настроение с утра сразу: 👩‍❤️‍👨

UPD: у Суцкевера в плейлисте обнаружилась «Полковнику никто не пишет» от Би-2 🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁22437🗿18❤15🔥7👍4🐳3💘2😎2

18.1K viewsedited 06:50

Data Secrets

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

♟️ Google совместно с Kaggle анонсировали Game Arena – новую платформу, на которой модели будут соревноваться в стратегических играх

Идея похожа на привычную LMArena, только тут агенты будут сравниваться уже не просто по ответам на вопросы. Вместо этого они будут играть друг с другом в шахматы, Go и другие игры. По результатам матчей будет формироваться таблица лидеров.

Что-то такое напрашивалось уже очень давно, потому что игры – вообще один из лучших видов бенчмарков. Google это тоже отмечают:

Игры помогают нам понять, как модели справляются со сложными задачами ризонинга. Многие игры служат прокси-сервером для реальных навыков и могут проверить способности модели в таких областях, как стратегическое планирование, адаптация и память.

Самое интересное: сегодня Google в честь открытия Game арены начинают показательный турнир по шахматам. Ведущие модели будут играть друг с другом по настоящему регламенту.

Финал пройдет 7 августа, трансляции будут каждый день тут.

Принимаем ваши ставки 🤠

Please open Telegram to view this post

VIEW IN TELEGRAM

4❤119🔥46👍2114👏3🤯3❤‍🔥1😁1

18.6K views09:11

Data Secrets

Кажется, не только OpenAI скоро порадует нас релизом

Лид команды Gemini API и AI Studio внезапно оставил в своем X недвусмысленное «Нас ждет великая неделя!».

Ух 😅

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤯133🔥53❤30😁1010👍54❤‍🔥1🤨1

17K views11:50

Data Secrets

Российские разрабы создали новый фреймворк, который сокращает расходы на разметку данных для языковых моделей в 3 раза

Команда из Т-Технологий, Высшей Школы Экономики, AIRI, Сбера и Университета “Иннополис” сделали ATGen. Он использует метод активного обучения и теперь модель может сама выбирать, что учить в первую очередь. По итогу модель требует размечать всего 33% от стандартного объема при выборке данных, а в наборе уже присутствует удобный интерфейс, включая поддержку OpenAI. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.

Разработку показали на конференции ACL 2025 в Вене и уже залили на GitHub.

Для тех, кто работает с кастомными LLM — мастхэв 👩‍❤️‍👨

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥212❤56🤯17👍6😁6🗿54⚡32

18.1K viewsedited 13:55

Google зарелизили Genie 3, новую версию их известной модели симуляции мира

Суть: по текстовому запросу модель может сгенерировать полноценное интерактивное 3D-пространство с разрешением 720p и частотой 24 FPS, по которому можно погулять.

Отдельно разработчики хвастаются долгосрочной памятью. То есть даже если ты отвернулся или немного отошел, ландшафт и объекты сохраняются такими же при возврате взгляда. Звучит просто, но на практике добиться этого совсем нетривиально.

Еще интересно, что изменять состояния мира (погоду, объектную сцену, добавлять персонажей) можно прямо во время симуляции. И при этом, если Genie 2 выдерживала не более 10-20 секунд симуляции, третья версия вывозит уже несколько минут.

Зачем это нам? Во-первых, конечно, игры. Во-вторых, что более важно, обучение роботов и агентов.

Короче, крутой релиз с крутым потенциалом. Такое любим

deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

2🔥169❤45👍25🤯764⚡1😁1

18.7K views14:58

Data Secrets

OpenAI наконец-то выпустили свою опенсорс-модель

А точнее, даже две. Как мы и писали ранее, это два ризонера на 20 и 120B (MoE, только текст). Каждая из моделей может работать в трех модах: низкий бюджет ризонинга, средний и высокий.

По метрикам – сами видите. Та, что побольше (она, кстати, запускается на одной H100), по основным бенчмаркам приближается к o4-mini. Та, что поменьше (она хорошо подходит для локального запуска, влезает в 16gb), больше похожа на o3.

Блогпост | GitHub | Демо | Веса

Кто куда, а мы побежали скачивать

5👍116🔥57👏14❤10😁7❤‍🔥1🏆1👀1🤝1🦄1

17.8K viewsedited 17:35

Data Secrets

Еще один релиз, который не должен остаться незамеченным – Claude Opus 4.1

Да, вчера Anthropic релизнули новую модель. Правда, перебить хайп OpenAI им не удалось (там все-таки первый опенсорс за 6 лет, хах), но модель получилась интересная.

Посмотрите на приросты относительно майского Opus 4: на SWE-bench метрика увеличилась на (целых!) два процента. На AIME 25 это плюс 2.5%, а на агентских задачках – +4.

Может показаться, что это небольшие приросты, но на самом деле это не так. Особенно для насыщенных бенчмарков, которые освоены уже более чем на 50-60%. В оставшихся процентах всегда таится длинный хвост распределения, так что даже +0.1% метрики – уже достижение и на практике может заролять.

Кстати, антропики пообещали «еще много масштабных обновлений моделей» в ближайшее время.

А пока новый Opus уже раскатили на всех платных пользователей, а также в Claude Code.

1👍87❤37🔥20😁4👨‍💻3🗿3❤‍🔥1🤨1

16.1K views04:40

Data Secrets

Сжатая сводка новостей для тех, кто не успевает за происходящим

5🏆155😁95🤯26👍10🦄5⚡4❤2🔥1

15.5K views06:38

Data Secrets

Твой шанс попасть в ИТ — совершенно бесплатно.

«Школа 21» от Сбера — это бесплатная школа цифровых технологий. Здесь нет преподавателей, лекций и зубрёжки. Всё — через практику и работу в команде.

📌 Что внутри:
— кампусы, которые работают 24/7 в Москве, Уфе, Казани, Новосибирске, Белгороде, Липецке, Нижнем Новгороде и других городах России.
— возможность совмещать с работой или учебой в вузе.
— сюда поступают независимо от образования: 50% участников пришли без опыта в ИТ.
— гарантированная стажировка в ИТ-компании.
— востребованные профессии: разработчик, devops/sre-инженер, data scientist, qa-инженер, специалист по кибербезопасности, бизнес- и системный аналитик.

⏳ Не упускай возможность — подавай заявку прямо сейчас: https://21-school.ru/

Реклама. Заказчик АНО «Школа 21» ИНН 7736316133

1🗿53❤24👍13🔥11🤔553🤨2😁1👌1🤝1

16K views08:02

About

Blog

Apps

Platform