Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
Теренс Тао и Хавьер Гомес-Серрано использовали Gemini Deep Thinking, AlphaEvolve и AlphaProof для попытки доказательства гипотезы Какея
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
🔥148❤38👍25😁2
Вышла открытая Kimi K2 Thinking: релиз уже окрестили «DeepSeek moment 2.0»
Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling.
Она может делать до 200–300 последовательных вызовов инструментов (интернет, браузер, интерпретаторы кода и пр.), самостоятельно планируя и разбивая задачи на подзадачи. Это правда впечатляет и сильно выделяет модель.
В остальном: MoE, 1T параметров и 32В активных, контекст 128к токенов, лицензия MIT с небольшими ограничениями для крупных продуктов.
Попробовать можно здесь
Веса | Блогпост | API
Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling.
Она может делать до 200–300 последовательных вызовов инструментов (интернет, браузер, интерпретаторы кода и пр.), самостоятельно планируя и разбивая задачи на подзадачи. Это правда впечатляет и сильно выделяет модель.
В остальном: MoE, 1T параметров и 32В активных, контекст 128к токенов, лицензия MIT с небольшими ограничениями для крупных продуктов.
Попробовать можно здесь
Веса | Блогпост | API
1👍114🔥48❤20 7😁5🤯5🤔3❤🔥1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инцидент произошел в ходе записи нового интервью Альтмана
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном🍿
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном
Please open Telegram to view this post
VIEW IN TELEGRAM
😁222 48🔥12❤10🤯7👍6🗿4
Яндекс Маркет запустил ИИ-агента
В Маркете появился ИИ-агент, который работает на базе технологий Alice AI. Он помогает с выбором товаров, как настоящий консультант, и при этом может самостоятельно определить порядок действий – изучит статьи, отзывы или задаст уточняющие вопросы, чтобы подобрать наиболее подходящие вещи.
Ему можно отправлять фото и писать запросы текстом, а скоро добавят возможность задавать вопросы и голосом. Можно скинуть фото одежды – агент подскажет, с чем её лучше сочетать. Или рассказать про человека – и получить идеи подарков, которые ему точно понравятся. Чат с ИИ также запоминает историю поиска и может показывать в чате персональные подсказки.
ИИ-покупки – новый тренд в e-commerce, и Яндекс развивает такие сценарии в Маркете и на Поиске, чтобы улучшить пользовательский опыт и закрыть весь цикл от поиска идеи до оформления заказа. Пока что это единственный маркетплейс в России, у которого есть ИИ-агент c таким функционалом.
В Маркете появился ИИ-агент, который работает на базе технологий Alice AI. Он помогает с выбором товаров, как настоящий консультант, и при этом может самостоятельно определить порядок действий – изучит статьи, отзывы или задаст уточняющие вопросы, чтобы подобрать наиболее подходящие вещи.
Ему можно отправлять фото и писать запросы текстом, а скоро добавят возможность задавать вопросы и голосом. Можно скинуть фото одежды – агент подскажет, с чем её лучше сочетать. Или рассказать про человека – и получить идеи подарков, которые ему точно понравятся. Чат с ИИ также запоминает историю поиска и может показывать в чате персональные подсказки.
ИИ-покупки – новый тренд в e-commerce, и Яндекс развивает такие сценарии в Маркете и на Поиске, чтобы улучшить пользовательский опыт и закрыть весь цикл от поиска идеи до оформления заказа. Пока что это единственный маркетплейс в России, у которого есть ИИ-агент c таким функционалом.
🗿88🔥58👍23😁12🤨11❤5⚡3🤯2 2
Data Secrets
И еще один релиз от Google: новый чип TPUv7s Его разрабатывали под кодовым названием Ironwood. В нем 192 гигабайта видеопамяти, и по сравнению с текущим TPUv5 пиковая производительность примерно в 10 раз выше, а энергоэффективность в 2 раз лучше. При этом…
Google наконец официально запускает свой самый мощный ИИ-чип Ironwood
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромной пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромной пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
❤150🔥55👍24😁2🕊2
В Cursor обновили модель поиска: благодаря RAG многое теперь работает лучше
В Cursor уже давно используется retrieval-механика: агент ищет по кодовой базе и добавляет нужные куски в контекст LLM. Но раньше был реализован просто grep вариант – поиск по строковому совпадению. Это быстро, но не всегда в достаточной степени релевантно.
Теперь же ему на смену пришел более умный семантический поиск. По сути, RAG. То есть релевантность кусочков кода теперь оценивает специальная векторная модель, которая уже не просто ищет по ключевым словам, а сопоставляет смыслы.
Интересно, что для этого обновления Cursor обучили собственную embedding-модель, заточенную именно под код. Для этого использовались реальные траектории работы агента. Каждая сессия – это последовательность: запрос -> поиск релевантных кусочков кода -> результат. Отдельная LLM-ка по этим траекториям оценивала, какие из найденных кусочков в итоге пригодились, а какие оказались шумом.
А дальше берем нашу векторную модель и учим ее на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы в итоге ее ранжирование соответствовало ранжированию LLM, то есть более полезные кусочки были в векторном пространстве ближе к запросу.
Grep-поиск, кстати, все еще где-то остается: например, он незаменим, когда надо быстро поискать по названиям переменных или функций. Результаты grep-модуля и векторной модельки комбинируются.
Что в итоге с метриками:
1. На оффлайн-оценке на специально собранном бенчмарке «Cursor Context Bench» среднее повышение точности составило ~12,5%.
2. На A/B-тестах в среднем на ~0,3% вырос code retention. Это метрика, показывающая, сколько кода, сгенерированного агентом, в итоге осталось в проекте пользователя спустя время. На больших кодовых базах наблюдалось вообще +2,6%.
3. Также на ~2,2% понизилось количество dissatisfied follow-up requests – когда пользователь вынужден делать исправления или дополнительные запросы, если у агента что-то не вышло с первого раза.
Эффект не огромный, потому что далеко не каждый запрос вообще требует поиска, но он есть и особенно будет ощущаться в крупных кодовых базах.
https://cursor.com/blog/semsearch
В Cursor уже давно используется retrieval-механика: агент ищет по кодовой базе и добавляет нужные куски в контекст LLM. Но раньше был реализован просто grep вариант – поиск по строковому совпадению. Это быстро, но не всегда в достаточной степени релевантно.
Теперь же ему на смену пришел более умный семантический поиск. По сути, RAG. То есть релевантность кусочков кода теперь оценивает специальная векторная модель, которая уже не просто ищет по ключевым словам, а сопоставляет смыслы.
Интересно, что для этого обновления Cursor обучили собственную embedding-модель, заточенную именно под код. Для этого использовались реальные траектории работы агента. Каждая сессия – это последовательность: запрос -> поиск релевантных кусочков кода -> результат. Отдельная LLM-ка по этим траекториям оценивала, какие из найденных кусочков в итоге пригодились, а какие оказались шумом.
А дальше берем нашу векторную модель и учим ее на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы в итоге ее ранжирование соответствовало ранжированию LLM, то есть более полезные кусочки были в векторном пространстве ближе к запросу.
Grep-поиск, кстати, все еще где-то остается: например, он незаменим, когда надо быстро поискать по названиям переменных или функций. Результаты grep-модуля и векторной модельки комбинируются.
Что в итоге с метриками:
1. На оффлайн-оценке на специально собранном бенчмарке «Cursor Context Bench» среднее повышение точности составило ~12,5%.
2. На A/B-тестах в среднем на ~0,3% вырос code retention. Это метрика, показывающая, сколько кода, сгенерированного агентом, в итоге осталось в проекте пользователя спустя время. На больших кодовых базах наблюдалось вообще +2,6%.
3. Также на ~2,2% понизилось количество dissatisfied follow-up requests – когда пользователь вынужден делать исправления или дополнительные запросы, если у агента что-то не вышло с первого раза.
Эффект не огромный, потому что далеко не каждый запрос вообще требует поиска, но он есть и особенно будет ощущаться в крупных кодовых базах.
https://cursor.com/blog/semsearch
❤74👍49🔥11😁7☃3❤🔥2🤔2⚡1💯1
OpenAI подняли лимиты на Codex и выпустили GPT-5-Codex-Mini
Новая моделька всего на 3 п.п. отстает от GPT-5-Codex на SWE-bench Verified, но при этом в 4 раза выгоднее.
OpenAI советуют использовать ее для не самых сложных задач, чтобы тратить меньше доступных запросов к основной модели. Более того, когда вы прожжете 90% своих лимитов, Codex будет автоматически предлагать вам переключиться.
Еще из приятного: лимиты для ChatGPT Plus, Business и Edu увеличили на 50%. С щедростью Anthropic все еще не сравнится, но все равно неплохо.
Новая моделька всего на 3 п.п. отстает от GPT-5-Codex на SWE-bench Verified, но при этом в 4 раза выгоднее.
OpenAI советуют использовать ее для не самых сложных задач, чтобы тратить меньше доступных запросов к основной модели. Более того, когда вы прожжете 90% своих лимитов, Codex будет автоматически предлагать вам переключиться.
Еще из приятного: лимиты для ChatGPT Plus, Business и Edu увеличили на 50%. С щедростью Anthropic все еще не сравнится, но все равно неплохо.
4🔥93👍27❤14😁5🤔3
Google предложили новую ML-парадигму Nested Learning, с помощью которой модели смогут учиться непрерывно
Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.
В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.
В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.
А вот как работает Nested Learning:
Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.
И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.
И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.
Статья | Блогпост
Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.
В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.
В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.
А вот как работает Nested Learning:
1. Авторы формализуют модель как множество оптимизационных задач: у каждой есть свой поток информации, на которой она учится, и своя частота обновления. Например, компоненты с высокой частотой обновления отвечают за адаптацию к текущему контексту, с низкой частотой – за какие-то базовые знания, и тд.
2. Но просто так, по щучьему веленью, модель не поймет, что и когда обновлять. Поэтому авторы предлагают сделать обучаемым сам оптимизатор. То есть алгоритм, который отвечает за обновление весов, перестает быть просто формулой и превращается в такую же нейросеть. Это называется Deep Optimizers.
3. Формально оптимизатор рассматривается как ассоциативная память, которая учится связывать градиенты с правильными изменениями весов. В этом смысле привычные SGD или Adam – это простейшие частные случаи (об этом, если интересно, подробнее читайте в самой статье).
Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.
И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.
И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.
Статья | Блогпост
5❤142👍57⚡18🔥8 5😁3☃1🤔1🕊1
Data Secrets
Вышла открытая Kimi K2 Thinking: релиз уже окрестили «DeepSeek moment 2.0» Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling. Она может делать до 200–300 последовательных вызовов инструментов…
Тем временем новая Kimi-K2-Thinking уже все выходные висит в самом топе трендовых моделей HiggingFace
Кстати, выяснилось, что ее обучение стоило MoonshotAI всего 4.6 миллионов долларов.
DeepSeek R2, ты ли это
Кстати, выяснилось, что ее обучение стоило MoonshotAI всего 4.6 миллионов долларов.
DeepSeek R2, ты ли это
👍178🔥55❤32😁8👀7🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман в интервью: «Думаю, все корпоративные приложения можно заменить на общую платформу на основе ИИ»
Маск отреагировал на новость простым лаконичным: «А я говорил, что они собираются напрямую конкурировать с Microsoft».
Напоминаем, что некоторое время назад миллиардер призывал Microsoft перестать работать с OpenAI, предупреждая компанию, что иначе стартап «съест ее заживо»☕️
«В Slack много всего хорошего, но иногда он создает кучу фейковой работы. Думаю, что вместо этого можно создать что-то новое: что-то вроде офисного пакета на основе ИИ, который заменит docs, slides, email, Slack и тд.
Это будет что-то на основе агентов, которые выполняют основную часть работу и эскалируют ее человеку, только когда это действительно необходимо»
Маск отреагировал на новость простым лаконичным: «А я говорил, что они собираются напрямую конкурировать с Microsoft».
Напоминаем, что некоторое время назад миллиардер призывал Microsoft перестать работать с OpenAI, предупреждая компанию, что иначе стартап «съест ее заживо»
Please open Telegram to view this post
VIEW IN TELEGRAM
😁233👍40🔥13❤7 7🤯4
Плохая новость: сейчас больше статей в Интернете пишется ИИ, чем людьми
По графику видно, что разрыв пока небольшой, но увеличивается👽
Аналитику нашли вот тут. Сейчас немножко расскажем о том, как это считали.
1. Взяли популярный CommonCrawl и случайно выбрали 65к страниц со статьями, написанными с 2020 по 2025 год.
2. Статьи делили на чанки и закидывали в Surfer AI Detector. Если более половины текста в статье классифицировалось как AI-made, то статья определялась как написанная ИИ, иначе – как написанная людьми.
2.1. Еще делали проверку на false-positives по датам (например, понятно, что до появления ChatGPT большинство статей должны класссифицироваться как человеческие).
Впервые доля ИИ-статей превысила человеческие в ноябре 2024, потом был короткий период надежды, и теперь ИИ снова доминирует.
Из хорошего: ИИ-статья в данном случае – это не обязательно прям от и до, возможно было какое-то ленивое редактирование человеком ( + это все еще с поправкой на точность детектора).
А еще авторы говорят, что пока таких статей довольно мало в топах поисковых выдач, что тоже не может не радовать.
По графику видно, что разрыв пока небольшой, но увеличивается
Аналитику нашли вот тут. Сейчас немножко расскажем о том, как это считали.
1. Взяли популярный CommonCrawl и случайно выбрали 65к страниц со статьями, написанными с 2020 по 2025 год.
2. Статьи делили на чанки и закидывали в Surfer AI Detector. Если более половины текста в статье классифицировалось как AI-made, то статья определялась как написанная ИИ, иначе – как написанная людьми.
2.1. Еще делали проверку на false-positives по датам (например, понятно, что до появления ChatGPT большинство статей должны класссифицироваться как человеческие).
Впервые доля ИИ-статей превысила человеческие в ноябре 2024, потом был короткий период надежды, и теперь ИИ снова доминирует.
Из хорошего: ИИ-статья в данном случае – это не обязательно прям от и до, возможно было какое-то ленивое редактирование человеком ( + это все еще с поправкой на точность детектора).
А еще авторы говорят, что пока таких статей довольно мало в топах поисковых выдач, что тоже не может не радовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿74 42 20❤12🤯4😁2🫡2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так выглядит первая тестовая производственная линия Теслы для Optimus
В 2026 должна появится еще одна, уже более крупная. Это пока пилот.
Компания пишет, что их цель – это достичь себестоимости в 20к долларов на робота, и тестируют они их прямо тут же, на заводе и в лабораториях (что может пойти не так? )
В 2026 должна появится еще одна, уже более крупная. Это пока пилот.
Компания пишет, что их цель – это достичь себестоимости в 20к долларов на робота, и тестируют они их прямо тут же, на заводе и в лабораториях (
❤63👍26 20😁13🔥9🗿1🆒1 1
Российские исследователи нашли способ обучать LLM логическим рассуждениям быстрее и дешевле
Исследователи из T-Bank AI Research совместно с Центральным университетом представили новый метод, который позволяет развивать способность к логическим рассуждениям у больших языковых моделей без дорогостоящего полного переобучения. Исследование станет хорошим подспорьем для дальнейшего изучения интерпретируемости ИИ.
Вместо того чтобы менять миллиарды параметров, они добавили небольшие подсказки-векторы, которые усиливают логические шаги модели в нужном направлении. Такой подход сохраняет все преимущества большой модели, но требует значительно меньше вычислительных ресурсов.
Эффективность метода протестили на шести бенчмарках по математическому рассуждению: при изменении всего 0.0016% параметров сохраняется 100% качество полного дообучения. Потребление памяти сокращается с гигабайтов до сотен килобайт.
Метод уже затестили на LLM Qwen и LLaMA. Потенциально он сможет встраиваться в существующие пайплайны, например, чат-боты, системы проверки кода или аналитические платформы. Поэтому даже университетские лаборатории и небольшие компании смогут обучать reasoning-модели. Метод представили на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А* в Китае.
Исследователи из T-Bank AI Research совместно с Центральным университетом представили новый метод, который позволяет развивать способность к логическим рассуждениям у больших языковых моделей без дорогостоящего полного переобучения. Исследование станет хорошим подспорьем для дальнейшего изучения интерпретируемости ИИ.
Вместо того чтобы менять миллиарды параметров, они добавили небольшие подсказки-векторы, которые усиливают логические шаги модели в нужном направлении. Такой подход сохраняет все преимущества большой модели, но требует значительно меньше вычислительных ресурсов.
Эффективность метода протестили на шести бенчмарках по математическому рассуждению: при изменении всего 0.0016% параметров сохраняется 100% качество полного дообучения. Потребление памяти сокращается с гигабайтов до сотен килобайт.
Метод уже затестили на LLM Qwen и LLaMA. Потенциально он сможет встраиваться в существующие пайплайны, например, чат-боты, системы проверки кода или аналитические платформы. Поэтому даже университетские лаборатории и небольшие компании смогут обучать reasoning-модели. Метод представили на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А* в Китае.
3❤192👍52🗿46⚡15😁15🔥7🤔6
Media is too big
VIEW IN TELEGRAM
Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»
На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.
Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.
«Мы упускаем что-то важное»
На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.
Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.
«Мы упускаем что-то важное»
1❤167👍65😁19🤯17🔥10⚡7✍4🕊2😎1
PostgreSQL опубликовали топ-50 главных контрибьюторов проекта: в список вошел Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud
На данный момент PostgreSQL является самой популярной опенсорсной СУБД в мире. Особенно в сегменте ИИ- и ML-проектов: векторный поиск помогает моделям быстрее находить и анализировать нужную информацию. Например, PostgreSQL применяют при создании ChatGPT.
Получить статус контрибьютора в проекте очень нелегко: нужно не просто коммитить, но и проходить долгое строгое ревью. Процент коммитов, которые в конечном счете одобряют, довольно мал, – доработка должна быть действительно существенной.
Андрей стабильно контрибьютит с 2016, четвертый раз входит в топ-50 контрибьюторов года и теперь имеет статус major contributors. Их в проекте всего 52, этот статус выше, чем significant contributor, и означает, что разработчик "оказывает существенное влияние на кодовую базу и процессы".
Интересно, что вклад команды Бородина не ограничивается только ядром PostgreSQL. Недавно они разработали SPQR (Stateless Postgres Query Router), систему с открытым исходным кодом для горизонтального масштабирования PostgreSQL через шардирование. Она уже доступна сообществу: если любите Postgres, потрогать проект можно здесь.
Отдаем дань уважения 👒
На данный момент PostgreSQL является самой популярной опенсорсной СУБД в мире. Особенно в сегменте ИИ- и ML-проектов: векторный поиск помогает моделям быстрее находить и анализировать нужную информацию. Например, PostgreSQL применяют при создании ChatGPT.
Получить статус контрибьютора в проекте очень нелегко: нужно не просто коммитить, но и проходить долгое строгое ревью. Процент коммитов, которые в конечном счете одобряют, довольно мал, – доработка должна быть действительно существенной.
Андрей стабильно контрибьютит с 2016, четвертый раз входит в топ-50 контрибьюторов года и теперь имеет статус major contributors. Их в проекте всего 52, этот статус выше, чем significant contributor, и означает, что разработчик "оказывает существенное влияние на кодовую базу и процессы".
Интересно, что вклад команды Бородина не ограничивается только ядром PostgreSQL. Недавно они разработали SPQR (Stateless Postgres Query Router), систему с открытым исходным кодом для горизонтального масштабирования PostgreSQL через шардирование. Она уже доступна сообществу: если любите Postgres, потрогать проект можно здесь.
Отдаем дань уважения 👒
1❤206👍84🔥31🎄6🗿3😁1
RL не улучшает навыки ризонинга модели
Тренд на негативные статьи о том, что "что-то не работает или работает не так, как мы думали", остается с нами. В этот раз хайпует китайская работа под названием "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?".
Мы все привыкли к тому, что в целом ризонинг – это про RL*. Но в этой статье показано, что на самом деле ничего сверхъестественного RL не вносит, а просто переупаковывает то, что уже было в распределении базовой модели.
Как это проверяли?
Основная метрика – pass@k: задача считается решенной, если среди k попыток модели (сэмплов) есть хотя бы одна правильная. Для авторской гипотезы метрика как раз очень подходит, потому что отражает именно потенциал модели решать задачу при разумном числе попыток.
И вот что получается. При малых k RLVR-модели действительно чаще попадают в правильный ответ (то есть у них выше pass@1), но при росте k базовые модели догоняют и превосходят RLVR практически на всех наборах задач и семейств моделей.
Это значит, что эти методы не расширяют границы решаемости задач (в том числе математических и кодовых), они просто повышают эффективность семплирования уже существующих траекторий aka вероятность сразу пойти по нужному пути, и поэтому работают. Плохо ли это? Нет. Но означает, что и слишком больших надежд на RLVR возлагать не стоит: все равно все опять упирается в претрен.
* Дисклеймер: в статье речь именно про RLVR, то есть Reinforcement Learning with Verifiable Rewards. RLHF, например, сюда не относится, но вот куча других популярных алгосов, типа PPO/GRPO/Reinforce++ и тд – да.
Тренд на негативные статьи о том, что "что-то не работает или работает не так, как мы думали", остается с нами. В этот раз хайпует китайская работа под названием "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?".
Мы все привыкли к тому, что в целом ризонинг – это про RL*. Но в этой статье показано, что на самом деле ничего сверхъестественного RL не вносит, а просто переупаковывает то, что уже было в распределении базовой модели.
Как это проверяли?
Основная метрика – pass@k: задача считается решенной, если среди k попыток модели (сэмплов) есть хотя бы одна правильная. Для авторской гипотезы метрика как раз очень подходит, потому что отражает именно потенциал модели решать задачу при разумном числе попыток.
И вот что получается. При малых k RLVR-модели действительно чаще попадают в правильный ответ (то есть у них выше pass@1), но при росте k базовые модели догоняют и превосходят RLVR практически на всех наборах задач и семейств моделей.
Это значит, что эти методы не расширяют границы решаемости задач (в том числе математических и кодовых), они просто повышают эффективность семплирования уже существующих траекторий aka вероятность сразу пойти по нужному пути, и поэтому работают. Плохо ли это? Нет. Но означает, что и слишком больших надежд на RLVR возлагать не стоит: все равно все опять упирается в претрен.
* Дисклеймер: в статье речь именно про RLVR, то есть Reinforcement Learning with Verifiable Rewards. RLHF, например, сюда не относится, но вот куча других популярных алгосов, типа PPO/GRPO/Reinforce++ и тд – да.
❤90👍38🤔12🔥10😁3🤨2
Meta* поделились деталями о новой модели GEM, которая теперь лежит в основе их рекомендательных систем
Это гибридная архитектура на основе трансформера (вдохновенная, естественно, LLM). Заявляется, что модель настолько хороша, что уже привела к заметному росту конверсий на рекламу: +5% в Instagram и +3% в Facebook за второй квартал.
Скачки очень существенные, поэтому давайте смотреть, что у модели внутри. Главных технических фишечки тут три:
В итоге мы получаем: (а) масштабируемость; (б) возможность эффективно учитывать все фичи и их связи; (в) адекватное поведение модели на длинных последовательностях. Ну и судя по скачкам конверсий, работает это неплохо. Еще пишут, что планируют добавить ризонинг.
Если интересуетесь рексисами, обязательно почитайте статью полностью
Это гибридная архитектура на основе трансформера (вдохновенная, естественно, LLM). Заявляется, что модель настолько хороша, что уже привела к заметному росту конверсий на рекламу: +5% в Instagram и +3% в Facebook за второй квартал.
Скачки очень существенные, поэтому давайте смотреть, что у модели внутри. Главных технических фишечки тут три:
1. Входные данные делятся на две группы: последовательные признаки (истории действий пользователя, клики, просмотры и тд) и непоследовательные (локация, возраст, свойства рекламы и пр). Чтобы не сваливать их в одну кучу и не замыливать сигналы, используется так называемый InterFormer с динамическим чередованием. Сначала последовательности событий обрабатываются кастомным трансформер-блоком, затем слой объединяет эти выходы со статичными признаками через кросс-фичевые interaction-блоки, после чего цикл продолжается на следующем уровне.
2. Кроме того, нам нужно учитывать связи признаков из двух групп. Для этого работает целый отдельный компонент Wukong. Он состоит из стековых факторизационных машин, которые ищут неочевидные связи между признаками (почему пользователь повел себя так или вот так).
3. Для длинных последовательностей (то есть долгих пользовательских историй) применяется собственная пирамидальная параллельная структура. Она нужна, чтобы не столкнуться с пресловутым экспоненциальным ростом затрат при увеличении длины последовательности. Все цепочка сначала разбивается на более мелкие -> они обрабатываются -> итоги образуют следующий уровень эмбеддингов -> они снова делятся на кусочки и обрабатываются -> и так далее, пока все не схлопнется окончательно.
В итоге мы получаем: (а) масштабируемость; (б) возможность эффективно учитывать все фичи и их связи; (в) адекватное поведение модели на длинных последовательностях. Ну и судя по скачкам конверсий, работает это неплохо. Еще пишут, что планируют добавить ризонинг.
Если интересуетесь рексисами, обязательно почитайте статью полностью
❤46👍27🔥15🤔4😁2👌1
Внезапный факт: Anthropic может выйти в плюс гораздо раньше OpenAI
WSJ проанализировали финансовые отчеты обеих компаний и выяснили, что Anthropic, судя по всему, пройдет точку безубыточности уже в 2028. OpenAI же в 2028 все еще будет уходить в минус, причем в немаленький: по предварительным оценкам, убыток составит ~74 миллиарда долларов.
Ранее OpenAI обещали, что начнут зарабатывать в 2029, но теперь ясно, что это случится не раньше 30 года. Уж слишком много они планируют потратить на инфраструктуру (журналисты пишут об 1.4 триллионах за 8 лет).
Стратегия Anthropic другая, у них расходы растут примерно с той же скоростью, что и доходы. И кстати, 80% их выручки все еще приходится на корпоративных клиентов.
WSJ проанализировали финансовые отчеты обеих компаний и выяснили, что Anthropic, судя по всему, пройдет точку безубыточности уже в 2028. OpenAI же в 2028 все еще будет уходить в минус, причем в немаленький: по предварительным оценкам, убыток составит ~74 миллиарда долларов.
Ранее OpenAI обещали, что начнут зарабатывать в 2029, но теперь ясно, что это случится не раньше 30 года. Уж слишком много они планируют потратить на инфраструктуру (журналисты пишут об 1.4 триллионах за 8 лет).
Стратегия Anthropic другая, у них расходы растут примерно с той же скоростью, что и доходы. И кстати, 80% их выручки все еще приходится на корпоративных клиентов.
👍87🔥32❤20😁4👌2☃1 1
Data Secrets
Ян Лекун снова раздает критику в адрес современного ИИ. На этот раз досталось роботам Большой секрет всей этой отрасли в том, что ни одна из этих компаний не имеет ни малейшего представления о том, как сделать роботов достаточно умными для того, чтобы быть…
Об этом пишет Financial Times. По их словам, ученый уже находится на ранней стадии переговоров с инвесторами для своей новой компании.
Заниматься будет, угадайте чем? Конечно же, всевозможными world models, о которых он уже кучу лет рассказывает буквально в каждом своем интервью и выступлении.
Видимо, Лекуна все-таки не устроила новая корпоративная структура, в которой он должен подчиняться молодому зеленому Александру Вану. Хотя сам ученый пока не комментирует ситуацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤94👍48😁32🔥11 6🫡3 3