У нас тут снова два релиза за один вечер (когда они уже научатся договариваться о датах?):
Выдает до 370 токенов в секунду в режиме high thinking, стоит всего $0.25/М input и $1.50/М output. По качеству примерно на уровне GPT-5 mini, даже немного лучше.
Обе модельки уже раскатили, так что можно тестить
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥120❤41👍32🔥9✍3😁3🎉3🤯1👌1 1
Claude Opus 4.6 решил задачу Дональда Кнута, с которой сам маэстро не справился
Сейчас легендарному Дональну Кнуту 88 лет, но он продолжает работать и даже писать. Конкретно сейчас он занят написанием четвертого тома The Art of Computer Programming (а именно, третьей его части). Этот том полностью посвящен комбинаторным задачам.
И вот вчера, внезапно, на сайте Стэнфорда появляется статья его авторства, которая начинается буквально со слов "ШОК! ШОК!".
Оказалось, что Claude Opus 4.6 решил сложную задачу, над которой сам Кнут и его друзья работали неделями. Задача связана с поиском гамильтоновых циклов. Формулировка для тех, кому интересно:
Она возникла как раз во время написания новой книги. Сам Кнут работал над ней несколько недель, но нашел решение только для случая m = 3. Его коллега Filip Stappers затем попробовал исследовать задачу вычислительно и эмпирически нашел разложения для m от 4 до 16.
Решение в общем виде никому из них найти не удалось, пока Stappers не задал задачу Claude Opus 4.6. Бот думал примерно час и нашел конструкцию, которая работает для всех нечетных m.
С подачи Кнута задача получила название "Claude’s Cycles", и вот что он пишет об этом результате:
cs.stanford.edu/~knuth/papers/claude-cycles.pdf
Сейчас легендарному Дональну Кнуту 88 лет, но он продолжает работать и даже писать. Конкретно сейчас он занят написанием четвертого тома The Art of Computer Programming (а именно, третьей его части). Этот том полностью посвящен комбинаторным задачам.
И вот вчера, внезапно, на сайте Стэнфорда появляется статья его авторства, которая начинается буквально со слов "ШОК! ШОК!".
Оказалось, что Claude Opus 4.6 решил сложную задачу, над которой сам Кнут и его друзья работали неделями. Задача связана с поиском гамильтоновых циклов. Формулировка для тех, кому интересно:
Рассматривается ориентированный граф, вершинами которого являются все возможные тройки целых чисел i, j и k от 0 до m−1. Из каждой вершины выходят три дуги: одна ведет в вершину, где увеличивается i на единицу по модулю m, вторая – где увеличивается j на единицу по модулю m, и третья – где увеличивается k на единицу по модулю m. Всего в таком графе m³ вершин и у каждой вершины по три исходящих дуги. Требуется найти общий способ, который для любого m больше 2 разбивает все дуги этого графа на три направленных цикла, причtм каждый из них должен проходить через все вершины ровно один раз, то есть быть гамильтоновым циклом.
Она возникла как раз во время написания новой книги. Сам Кнут работал над ней несколько недель, но нашел решение только для случая m = 3. Его коллега Filip Stappers затем попробовал исследовать задачу вычислительно и эмпирически нашел разложения для m от 4 до 16.
Решение в общем виде никому из них найти не удалось, пока Stappers не задал задачу Claude Opus 4.6. Бот думал примерно час и нашел конструкцию, которая работает для всех нечетных m.
С подачи Кнута задача получила название "Claude’s Cycles", и вот что он пишет об этом результате:
"Похоже, мне придется пересмотреть свои взгляды на генеративный ИИ. <> Подход Claude к решению был очень впечатляющим. <> Думаю, дух Клода Шеннона гордится, что его имя теперь связано с такими прорывами. Браво, Клод!"
cs.stanford.edu/~knuth/papers/claude-cycles.pdf
1❤341👍106🔥65🤯15 15😁7❤🔥6
Инженеры, это для вас: мы нашли очень прикольную игру, в которой можно проверить свои знания по ML и DS
DS-специалисты из Авито придумали геймифицированный челлендж по Data Science и Machine Learning. Игра доступна абсолютно каждому, и вот из чего она состоит:
Этап 1 — базовые вопросы по Python и ML
Этап 2 — ситуативные вопросы на основе реальных кейсов
Этап 3 — «Марио» (да-да, чем лучше сыграете, тем больше подсказок заработаете)
Этап 4 — хардовые вопросы и сложный кейс по одному из направлений на выбор
Дизайн выполнен как комикс, так что вы кайфанёте. Очень полезно, чтобы вспомнить основы, проверить себя и просто интересно провести время.
Приятный бонус: если вы попадёте в топ-5, то до 20 марта получите бокс с мерчем Авито в подарок🎁
DS-специалисты из Авито придумали геймифицированный челлендж по Data Science и Machine Learning. Игра доступна абсолютно каждому, и вот из чего она состоит:
Этап 1 — базовые вопросы по Python и ML
Этап 2 — ситуативные вопросы на основе реальных кейсов
Этап 3 — «Марио» (да-да, чем лучше сыграете, тем больше подсказок заработаете)
Этап 4 — хардовые вопросы и сложный кейс по одному из направлений на выбор
Дизайн выполнен как комикс, так что вы кайфанёте. Очень полезно, чтобы вспомнить основы, проверить себя и просто интересно провести время.
Приятный бонус: если вы попадёте в топ-5, то до 20 марта получите бокс с мерчем Авито в подарок
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿37👍8🤨6❤4😁4🔥2🤓2🤔1🤯1
Более 2.5 миллионов человек заявили, что они отменили подписку на ChatGPT из-за последних событий
По крайней мере, такие данные зафиксировал сайт quitgpt.org/. Он был специально создан, чтобы бойкотировать стартап за сделку с Пентагоном.
Сколько из перечисленных 2.5 миллионов подписавших петицию действительно перешли на другой ИИ – неизвестно.
Так или иначе, 2.5 миллиона – это все еще только около 0.3% от еженедельных пользователей бота.
По крайней мере, такие данные зафиксировал сайт quitgpt.org/. Он был специально создан, чтобы бойкотировать стартап за сделку с Пентагоном.
Сколько из перечисленных 2.5 миллионов подписавших петицию действительно перешли на другой ИИ – неизвестно.
Так или иначе, 2.5 миллиона – это все еще только около 0.3% от еженедельных пользователей бота.
😁210👍41🤯32 14🔥13❤10 10🦄5🤔3⚡2😎1
Т-Банк инвестирует в школьное IT-образование через поддержку учителей
Бигтех открыл прием заявок на четвертый сезон Всероссийского грантового конкурса «Вклад в поколение» для преподавателей математики, информатики и физики. Цель программы - оказать учителям финансовую и методическую поддержку.
Победившим в конкурсе педагогам откроют доступ к курсам образовательной платформы “Т-Образование”, закрытому сообществу и выдадут гранты по 200 тысяч рублей на любые цели. Выплачивать будут по 25 тысяч в месяц в течение учебного года. За все годы Т-Банк выделил на поддержку учителей более 120 млн рублей, гранты уже получили 380 преподавателей из 66 регионов.
Бигтех открыл прием заявок на четвертый сезон Всероссийского грантового конкурса «Вклад в поколение» для преподавателей математики, информатики и физики. Цель программы - оказать учителям финансовую и методическую поддержку.
Победившим в конкурсе педагогам откроют доступ к курсам образовательной платформы “Т-Образование”, закрытому сообществу и выдадут гранты по 200 тысяч рублей на любые цели. Выплачивать будут по 25 тысяч в месяц в течение учебного года. За все годы Т-Банк выделил на поддержку учителей более 120 млн рублей, гранты уже получили 380 преподавателей из 66 регионов.
🔥58👍35❤17😁17🤨7🤔5🗿4⚡1🕊1
В OpenAI разрабатывают альтернативу GitHub
Об этом пишут Reuters. Инженеры стартапа якобы начали сталкиваться с большим количеством сбоев и неудобств при использовании Github, и поэтому было принято решение разрабатывать свой собственный сервис с похожим функционалом.
Пока нет ни слова о том, при чем тут ИИ, и будет ли он интегрирован в инструмент. И вообще, деталей пока мало: известно только, что проект на ранней стадии разработки.
Возможно, продукт так и останется исключительно внутренним, но в компании также обсуждают возможность продавать его пользователям, – а это уже заявка на прямую конкуренцию с Microsoft☕️
Об этом пишут Reuters. Инженеры стартапа якобы начали сталкиваться с большим количеством сбоев и неудобств при использовании Github, и поэтому было принято решение разрабатывать свой собственный сервис с похожим функционалом.
Пока нет ни слова о том, при чем тут ИИ, и будет ли он интегрирован в инструмент. И вообще, деталей пока мало: известно только, что проект на ранней стадии разработки.
Возможно, продукт так и останется исключительно внутренним, но в компании также обсуждают возможность продавать его пользователям, – а это уже заявка на прямую конкуренцию с Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Агент Cursor решил одну из задач First Proof challenge лучше, чем люди
First Proof challenge – это набор из 10 математических задач, составленный 11 известными математиками (включая лауреата Филдсовской премии Мартина Хайрера).
Задачи там из областей алгебраической комбинаторики, спектральной теории графов, топологии, стохастического анализа и тд. Они имитируют реальную работу академиков лучших университетов мира.
Задачки были составлены всего лишь месяц назад и открыто не публикуются во избежании лика данных в трейн моделей.
И вот сегодня CEO Cursor заявил, что их агент (для кодинга, на секундочку) справился с одной из этих задач, и нашел при этом лучшее решение, чем люди.
Это подтверждают математики: подход агента действительно отличается от существующего и улучшает доказательство до новой константы.
Что интересно, тут использовалась ровно та же система, с помощью которой Cursor с нуля завайбкодили браузер (пост об этом вот тут). Она автономно работала над задачей четыре дня, не получая никаких подсказок.
Под капотом там, кстати, не один, а десятки агентов на основе разных моделей, которые динамически планируют действия и работают над подзадачами.
First Proof challenge – это набор из 10 математических задач, составленный 11 известными математиками (включая лауреата Филдсовской премии Мартина Хайрера).
Задачи там из областей алгебраической комбинаторики, спектральной теории графов, топологии, стохастического анализа и тд. Они имитируют реальную работу академиков лучших университетов мира.
Задачки были составлены всего лишь месяц назад и открыто не публикуются во избежании лика данных в трейн моделей.
И вот сегодня CEO Cursor заявил, что их агент (для кодинга, на секундочку) справился с одной из этих задач, и нашел при этом лучшее решение, чем люди.
Это подтверждают математики: подход агента действительно отличается от существующего и улучшает доказательство до новой константы.
Что интересно, тут использовалась ровно та же система, с помощью которой Cursor с нуля завайбкодили браузер (пост об этом вот тут). Она автономно работала над задачей четыре дня, не получая никаких подсказок.
Под капотом там, кстати, не один, а десятки агентов на основе разных моделей, которые динамически планируют действия и работают над подзадачами.
🔥179❤38❤🔥23 23👍13🤨7😁2 1
This media is not supported in your browser
VIEW IN TELEGRAM
Notebook LM от Google теперь умеет создавать целые документалки из ваших источников
Они выкатили фичу Cinematic Video Overview. Если прошлая версия Video Overviews создавала только статические слайды, то тут вы получите на выходе полностью анимированный иммерсивный ролик.
Gemini 3 работает как режиссер, Nano Banana Pro генерирует референсы, и Veo 3 занимается видео-анимацией.
Выглядит прямо занятно. Конечно, это пока лишь скромный зачаток, но представьте: если сегодня NotebookLM превращает документы вот в такие кинематографические обзоры, то через пару лет мы сможем за минуты генерировать целые фильмы по любой теме. Вообразите эффект на образование.
Ну а пока фича доступна, к сожалению, только аккаунтам Ultra и только на английском.
Они выкатили фичу Cinematic Video Overview. Если прошлая версия Video Overviews создавала только статические слайды, то тут вы получите на выходе полностью анимированный иммерсивный ролик.
Gemini 3 работает как режиссер, Nano Banana Pro генерирует референсы, и Veo 3 занимается видео-анимацией.
Выглядит прямо занятно. Конечно, это пока лишь скромный зачаток, но представьте: если сегодня NotebookLM превращает документы вот в такие кинематографические обзоры, то через пару лет мы сможем за минуты генерировать целые фильмы по любой теме. Вообразите эффект на образование.
Ну а пока фича доступна, к сожалению, только аккаунтам Ultra и только на английском.
❤150🔥65👍26🤨4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Как фактчекнуть любой пост в Telegram за несколько секунд
Telegram – один из главных источников новостей. Но вместе с новостями тут всегда много шума и хайпа, а точности иногда меньше, чем хотелось бы. Особенно по теме ИИ.
Поэтому заинтересованному читателю почти каждый раз приходится идти перепроверять.
Так вот: делимся с вами лайфхаком, как сделать это прямо в Telegram за несколько секунд. Достаточно вызвать бот Алисы AI и попросить модель фактчекнуть текст. Вот промпт, который обычно используем мы:
Бот быстро проведет вебсерч и ответит в том же чате (при этом добавлять бота в чат не требуется, он работает абсолютно везде).
А еще @alisa неплохо умеет рисовать. Пользуйтесь!
Telegram – один из главных источников новостей. Но вместе с новостями тут всегда много шума и хайпа, а точности иногда меньше, чем хотелось бы. Особенно по теме ИИ.
Поэтому заинтересованному читателю почти каждый раз приходится идти перепроверять.
Так вот: делимся с вами лайфхаком, как сделать это прямо в Telegram за несколько секунд. Достаточно вызвать бот Алисы AI и попросить модель фактчекнуть текст. Вот промпт, который обычно используем мы:
@alisa проверь факты в этом тексте: что правда, что требует уточнения, что ложно. Приведи объяснения и достоверные источники.
Бот быстро проведет вебсерч и ответит в том же чате (при этом добавлять бота в чат не требуется, он работает абсолютно везде).
А еще @alisa неплохо умеет рисовать. Пользуйтесь!
1🤨247🗿96😁53 22❤13👍13🔥6🫡4✍3🤔2
Data Secrets
по итогу Nvidia инвестировали в три раза меньше, чем планировали, так что их вложение вовсе не означает, что между ними и OpenAI все гладко.
Что и требовалось доказать: Дженсен Хуанг во всеуслышание заявил, что его недавние инвестиции в OpenAI и Anthropic, вероятно, будут последними для обоих
Хотя он мягко объясняет это скорым возможным IPO компаний, аналитики больше верят в другие причины, и, в первую очередь, в опасения Nvidia по поводу пузыря.
Сделки с OpenAI в основном имеют циркулярный характер: Nvidia дают денег, а OpenAI несут их обратно в Nvidia. Проще говоря, Nvidia боится попасть под раздачу, когда пузырь схлопнется, и вскроется отсутствие независимого роста компании.
Это не говоря уже про регуляторные риски: SEC вообще в какой-то момент могут расценить это как мошенничество и фиктивный оборот бизнеса. Поэтому сейчас Nvidia логично выбирают стратегию расширения экосистемы, а не дополнительных вложений.
Ну а с Anthropic ситуация осложняется, конечно, из-за ситуации с администрацией Трампа.
Хотя он мягко объясняет это скорым возможным IPO компаний, аналитики больше верят в другие причины, и, в первую очередь, в опасения Nvidia по поводу пузыря.
Сделки с OpenAI в основном имеют циркулярный характер: Nvidia дают денег, а OpenAI несут их обратно в Nvidia. Проще говоря, Nvidia боится попасть под раздачу, когда пузырь схлопнется, и вскроется отсутствие независимого роста компании.
Это не говоря уже про регуляторные риски: SEC вообще в какой-то момент могут расценить это как мошенничество и фиктивный оборот бизнеса. Поэтому сейчас Nvidia логично выбирают стратегию расширения экосистемы, а не дополнительных вложений.
Ну а с Anthropic ситуация осложняется, конечно, из-за ситуации с администрацией Трампа.
1😁123 27👍15❤5🐳4🔥2🦄2 2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
В сети появилось видео, как проходит работа сотрудников c Claude Code в стартапе, привлекшем миллиарды $.
4😁349 42😎27❤9💯7🤯3🔥2 2🤗1
Сбер продолжает линию опенсорса — выложили код и веса Green-VLA
Немного контекста: в начале февраля техрепорт по Green-VLA стал лучшей работой недели на Hugging Face, в нем авторы рассказали, как учили антропоморфа Грина манипулировать предметами в реальном мире. Помимо описания всех этапов обучения, они пообещали выложить все наработки в открытый доступ, что и произошло сегодня.
Чем вообще важен этот релиз:
1️⃣ Модель превосходит по качеству устоявшихся лидеров в области (π0.5 от Physical Intelligence) и выбивает SOTA-метрики на робототехнических бенчах, таких как Fractal и Bridge
2️⃣ Архитектурно это VLM (Qwen3-VL-4B) с дополнительным трансформером, который с помощью flow-matching предсказывает действия робота в реальном времени
3️⃣ Базовые веса обучены на большом количестве робототехнических и веб-данных, модель уже из коробки отлично понимает инструкции, различает объекты и может управлять разными роботами
Это самая важная часть релиза, если вы хотите научить робота манипулировать объектами, например для работы на складе, то достаточно лишь небольшого дообучения модели под вашего робота!
Код и веса уже выложили, так что можно тестить
Немного контекста: в начале февраля техрепорт по Green-VLA стал лучшей работой недели на Hugging Face, в нем авторы рассказали, как учили антропоморфа Грина манипулировать предметами в реальном мире. Помимо описания всех этапов обучения, они пообещали выложить все наработки в открытый доступ, что и произошло сегодня.
Чем вообще важен этот релиз:
Это самая важная часть релиза, если вы хотите научить робота манипулировать объектами, например для работы на складе, то достаточно лишь небольшого дообучения модели под вашего робота!
Код и веса уже выложили, так что можно тестить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118😁45🗿22🔥15❤10❤🔥4⚡2🤓1🫡1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили Symphony – опенсорсный оркестратор для агентов
https://github.com/openai/symphony
По сути, это фреймворк для автономной работы над задачами. Вы соединяете Symphony с доской тасок, агент следит за ней, подхватывает новые задачи и запускает под них отдельный run с агентами, работающими в изолированной копии репозитория.
То есть Symphony полностью самостоятельно проходит путь от созданной задачи до PR через планирование, написание кода и тестирование. Человеку останется только ревью и аппрув, с самим агентом можно не нянчиться.
Считай, полноценный джун👉
Работать может на любой модели, лицензия Apache 2.0
https://github.com/openai/symphony
По сути, это фреймворк для автономной работы над задачами. Вы соединяете Symphony с доской тасок, агент следит за ней, подхватывает новые задачи и запускает под них отдельный run с агентами, работающими в изолированной копии репозитория.
То есть Symphony полностью самостоятельно проходит путь от созданной задачи до PR через планирование, написание кода и тестирование. Человеку останется только ревью и аппрув, с самим агентом можно не нянчиться.
Считай, полноценный джун
Работать может на любой модели, лицензия Apache 2.0
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥149🤯37❤22😁2👨💻1👾1
Когда в 2023-м все начали говорить про агентов, под этим чаще всего подразумевали цепочку промптов с фиксацией контекста, а про инфраструктуру, как правило, даже не задумывались. Сейчас кто-то по-прежнему считает, что агенты — это окошечки с LLM, а развернутая на единственной ноде модель — это подходящая инфраструктура для агентской системы. На самом деле это, конечно, не так.
Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты.
В последнем обновлении Yandex AI Studio интересен не столько факт, что появилась модель DeepSeek V3.2, сколько то, как под нее оптимизировали инференс. Модель работает в режиме prefill/decode, где prefill-ноды оптимизированы под быстрый прогон длинных контекстов, а decode-ноды — под устойчивую генерацию с низким и стабильным показателем Time Between Tokens. Чтобы это работало, пришлось научиться передавать KV-кэши между серверами в реальном времени, а это гигабайты данных.
Дальше — больше. Введена иерархия кэшей (GPU → CPU → распрелеленный слой), а балансировщик теперь «знает», где уже хранятся закешированные фрагменты контекста, и отправляет запрос туда, где cache hit rate будет выше.
Возможно, именно здесь и начинается взрослая эпоха для агентных систем — не промпт-цепочки, а полноценные цифровые организмы, у которых есть память, тело и дисциплина.
Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты.
В последнем обновлении Yandex AI Studio интересен не столько факт, что появилась модель DeepSeek V3.2, сколько то, как под нее оптимизировали инференс. Модель работает в режиме prefill/decode, где prefill-ноды оптимизированы под быстрый прогон длинных контекстов, а decode-ноды — под устойчивую генерацию с низким и стабильным показателем Time Between Tokens. Чтобы это работало, пришлось научиться передавать KV-кэши между серверами в реальном времени, а это гигабайты данных.
Дальше — больше. Введена иерархия кэшей (GPU → CPU → распрелеленный слой), а балансировщик теперь «знает», где уже хранятся закешированные фрагменты контекста, и отправляет запрос туда, где cache hit rate будет выше.
Поверх этого слоя появились приватные эндпоинты и правила модерации ответов моделей, что особенно актуально при работе с опенсорс моделями в корпоративном контуре. Добавили и новый подход к тарификации: появились токены инструментов и токены кеширования. Первые участвуют при вызове встроенных инструментов (File Search, Web Search, MCP), вторые — при повторном использовании уже обработанных фрагментов запроса. Всё это стоит в четыре раза дешевле обычных токенов и делает длинные агентские сценарии экономически осмысленными.
Возможно, именно здесь и начинается взрослая эпоха для агентных систем — не промпт-цепочки, а полноценные цифровые организмы, у которых есть память, тело и дисциплина.
🗿92🔥35🤨17👍11❤7 5🤔4🤯2👾1
Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use. Последним хвастаются особенно.
Кроме того, модель стала эффективнее: использует меньше токенов при рассуждении и отвечает быстрее. Но есть нюанс: теперь она стоит немножко дороже.
Что еще интересного:
– Модель теперь можно остановить посередине ответа и добавить дополнительные инструкции.
– Контекст теперь до 1 миллиона токенов (наконец-то!)
– В Codex появился /fast мод, который ускорит генерацию в 1.5x (это та же модель и тот же уровень рассуждений, просто быстрее). Правда, в таком режиме каждый токен будет учитываться в лимитах за два.
https://openai.com/index/introducing-gpt-5-4/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96😁35🔥19🎉10🦄8 6🗿5 4👍2👾1
Google предложили, как обучать LLM становиться умнее по ходу диалога
Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой информации. Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи.
С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации. У людей, кстати, такое мышление развито хорошо.
Здесь исследователи предлагают интересный подход. Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм. То есть:
1. Строится обычный автомат Байеса, который знаком всем, кто изучал классический ML. Он решает задачу, просто обновляя вероятность разных гипотез по формуле.
2. LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы.
Результаты получились интересные.
Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные. На основной задаче рекомендаций качество заметно увеличилось.
Во-вторых, появилось обобщение. То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали.
Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает. В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления.
research.google/blog/teaching-llms-to-reason-like-bayesians/
Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой информации. Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи.
С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации. У людей, кстати, такое мышление развито хорошо.
Здесь исследователи предлагают интересный подход. Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм. То есть:
1. Строится обычный автомат Байеса, который знаком всем, кто изучал классический ML. Он решает задачу, просто обновляя вероятность разных гипотез по формуле.
2. LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы.
Например, нам нужно понять, какие фильмы любит пользователь – боевики, комедии или драмы:
– В начале вероятности равные, по 33%.
– Мы советуем ему три фильма разных жанров, и он выбирает боевик. Мы также знаем вероятность выбора боевика при условии предпочтении каждого из жанров (например, 80%, 20% и 30%).
– Алгоритм на основе всего этого обновляет вероятности по формуле и получается, что они равны уже 62%, 23% и 15%.
– Такие априорные и апостериорные вероятности показывают LLMке.
– Постепенно она учится вести себя как алгоритм.
Результаты получились интересные.
Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные. На основной задаче рекомендаций качество заметно увеличилось.
Во-вторых, появилось обобщение. То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали.
Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает. В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления.
research.google/blog/teaching-llms-to-reason-like-bayesians/
1❤127❤🔥34👍23🔥8🤯3🤗3 3😁2👾1
Media is too big
VIEW IN TELEGRAM
Cursor теперь может мониторить вашу кодовую базу автономно и постоянно
Теперь там есть возможность настроить ИИ‑агентов, которые автоматически выполняют задачи в вашей базе по расписанию или по событиям (push, Slack, PagerDuty и т.п.).
Каждый такой агент крутится в отдельной cloud‑sandbox, может ходить в твой репозиторий, CI, Slack и внешние сервисы через MCP (Model Context Protocol).
То есть при срабатывании триггера поднимается изолированная среда, в нее подтягивается свежий код, и агент выполняет нужный сценарий. Настройки могут быть максимально гибкими.
Внутри уже есть типовые шаблоны: ежедневные дайджесты изменений в базе, поиск уязвимостей и простых багов, обновление документации. Пробуем!
cursor.com/blog/automations
Теперь там есть возможность настроить ИИ‑агентов, которые автоматически выполняют задачи в вашей базе по расписанию или по событиям (push, Slack, PagerDuty и т.п.).
Каждый такой агент крутится в отдельной cloud‑sandbox, может ходить в твой репозиторий, CI, Slack и внешние сервисы через MCP (Model Context Protocol).
То есть при срабатывании триггера поднимается изолированная среда, в нее подтягивается свежий код, и агент выполняет нужный сценарий. Настройки могут быть максимально гибкими.
Внутри уже есть типовые шаблоны: ежедневные дайджесты изменений в базе, поиск уязвимостей и простых багов, обновление документации. Пробуем!
cursor.com/blog/automations
😁7❤5👍3🔥3