ИИ-агент против людей-безопасников: кто кого в реальном пентесте?
В кибербезопасности многие уже используют ИИ для поиска известных уязвимостей в средах, где все понятно и предсказуемо. Но в большой промышленной среде все работает совсем не так.
Вот тут и пригодится ИИ, который способен cоставить настоящий план атаки и найти уязвимости. Но встает вопрос: если такому агенту дать реальную боевую среду, способен ли он найти в ней уязвимости? Исследователи из Оксфорда построили инфраструктуру из 8000 машин, посадили десять живых пентестеров, ИИ-агента и стали сравнивать…
В обзоре разберем, как именно ученые устроили безопасный эксперимент и пора ли специалистам по безопасности искать новую работу?
📜 Полный обзор
В кибербезопасности многие уже используют ИИ для поиска известных уязвимостей в средах, где все понятно и предсказуемо. Но в большой промышленной среде все работает совсем не так.
Вот тут и пригодится ИИ, который способен cоставить настоящий план атаки и найти уязвимости. Но встает вопрос: если такому агенту дать реальную боевую среду, способен ли он найти в ней уязвимости? Исследователи из Оксфорда построили инфраструктуру из 8000 машин, посадили десять живых пентестеров, ИИ-агента и стали сравнивать…
В обзоре разберем, как именно ученые устроили безопасный эксперимент и пора ли специалистам по безопасности искать новую работу?
📜 Полный обзор
Telegraph
ИИ-агент против людей-безопасников: кто кого в реальном пентесте?
Уже давно ведется жаркая дискуссия на тему того, насколько ИИ-агенты в сфере кибербезопасности хороши в работе. Обычно спор базируется на задаче по поиску известных уязвимостей. Но правда в том, что настоящий пентест работает не так. Это большая корпоративная…
👍1
Когда тесты молчат: как ИИ-агент чинит баги
LLM уже умеют чинить баги: прочитала задачу, внесла правку, прогнала тесты и… всё зелёное. Проблема в том, что в настоящих репозиториях тестов часто нет, они слабые или вообще не проверяют нужный юзкейс. И тогда модель не делает фикс и баг остается.
Логично, что если тесты пропускают баги, нужно делать их больше и качественней. Причём делать это динамически— так, чтобы тесты и патч как будто играли друг против друга. Тесты ищут, где нужно исправление, патч пытается закрыть дыры, а затем появляется ещё один слой — отбор, который помогает не принять первую удачную заплатку за верное решение.
В полном обзоре разберём, как устроен этот подход из трёх агентов и за счёт чего InfCode вырывается в лидеры на бенчмарке SWE-bench.
📜 Полный обзор
LLM уже умеют чинить баги: прочитала задачу, внесла правку, прогнала тесты и… всё зелёное. Проблема в том, что в настоящих репозиториях тестов часто нет, они слабые или вообще не проверяют нужный юзкейс. И тогда модель не делает фикс и баг остается.
Логично, что если тесты пропускают баги, нужно делать их больше и качественней. Причём делать это динамически— так, чтобы тесты и патч как будто играли друг против друга. Тесты ищут, где нужно исправление, патч пытается закрыть дыры, а затем появляется ещё один слой — отбор, который помогает не принять первую удачную заплатку за верное решение.
В полном обзоре разберём, как устроен этот подход из трёх агентов и за счёт чего InfCode вырывается в лидеры на бенчмарке SWE-bench.
📜 Полный обзор
Telegraph
Когда тесты молчат: как ИИ-агент чинит баги
Автоматическое исправление багов силами LLM давно перестало быть экзотикой: модель умеет читать код, предлагать правки и даже запускать тесты. Но в реальных репозиториях всё ломается о неприятную деталь — проверять «починилось или нет» часто нечем. Если тестов…
👍2👏1😱1
Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях
Экономика в реальности работает не только на цифрах. Новости, заявления чиновников, слухи и ожидания. Но для ИИ это проблема: обычное обучение с подкреплением любит чёткие сигналы, а язык слишком размытый источник данных. А если просто отдать управление большой языковой модели, она может убедительно рассуждать, но вести систему нестабильно, особенно на длинной дистанции.
Авторы нового исследования предлагают не выбирать между цифрами и текстом, а заставить их работать вместе. ИИ получает новости, учится извлекать из них смысл, общаться с другими агентами и при этом не теряет жёсткую оптимизацию поведения. Причём в экспериментах выигрывает и у чистого мультиагентного обучения с подкреплением (MARL), и у различных LLM-подходов вроде ReAct и Reflection.
В обзоре разберём фреймворк LAMP: как устроен цикл Think–Speak–Decide, зачем агенту память успешных рассуждений, и что показали тесты в экономическом симуляторе TaxAI.
📜 Полный обзор
Экономика в реальности работает не только на цифрах. Новости, заявления чиновников, слухи и ожидания. Но для ИИ это проблема: обычное обучение с подкреплением любит чёткие сигналы, а язык слишком размытый источник данных. А если просто отдать управление большой языковой модели, она может убедительно рассуждать, но вести систему нестабильно, особенно на длинной дистанции.
Авторы нового исследования предлагают не выбирать между цифрами и текстом, а заставить их работать вместе. ИИ получает новости, учится извлекать из них смысл, общаться с другими агентами и при этом не теряет жёсткую оптимизацию поведения. Причём в экспериментах выигрывает и у чистого мультиагентного обучения с подкреплением (MARL), и у различных LLM-подходов вроде ReAct и Reflection.
В обзоре разберём фреймворк LAMP: как устроен цикл Think–Speak–Decide, зачем агенту память успешных рассуждений, и что показали тесты в экономическом симуляторе TaxAI.
📜 Полный обзор
Telegraph
Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях
В учебниках экономики всё понятно: цены, налоги, ставки, полезность. Но в реальной жизни решения людей и государства постоянно «подкручиваются» словами — новостями, разговорами, ожиданиями, слухами и публичными заявлениями. Один и тот же набор чисел может…
🔥2👍1
DataFlow: PyTorch для дата инженеров в эпоху LLM
Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.
У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.
Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально.
📜 Полный обзор
Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.
У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.
Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально.
📜 Полный обзор
Telegraph
DataFlow: PyTorch для дата инженеров в эпоху LLM
Сложность обучения языковых моделей сейчас не столько в новых архитектурах, сколько в качестве данных. Их не всегда можно просто собрать, почистить и обучить нейросеть — нужно придумывать процессы, где данные можно синтезировать, валидировать, улучшать, выбрасывать…
👍3
Как ИИ-агенты живут в "Станции" и делают научные открытия
Сегодня ИИ для науки работает как понятный пайплайн: модель делает маленькое улучшение, прогоняет тест, получает цифру и повторяет. Это эффективно, но почти не похоже на реальную науку, где есть память о прошлых попытках, обмен идеями, споры и неожиданные переносы методов между разными задачами.
В новом исследовании ученые предлагают новый подход: поселить сразу несколько ИИ-агентов в «Станцию» — среду, похожую на мини-лабораторию. Они читают заметки друг друга, ведут личные записи, публикуют результаты, запускают эксперименты и сами выбирают, чем заняться дальше. И иногда из этой «жизни» рождаются идеи, которые трудно выжать из коротких исследовательских циклов.
В обзоре разберём, как устроена «Станция», какие конкретно открытия сделали ИИ-агенты и что будет, если им не задать цель исследования.
📜 Полный обзор
Сегодня ИИ для науки работает как понятный пайплайн: модель делает маленькое улучшение, прогоняет тест, получает цифру и повторяет. Это эффективно, но почти не похоже на реальную науку, где есть память о прошлых попытках, обмен идеями, споры и неожиданные переносы методов между разными задачами.
В новом исследовании ученые предлагают новый подход: поселить сразу несколько ИИ-агентов в «Станцию» — среду, похожую на мини-лабораторию. Они читают заметки друг друга, ведут личные записи, публикуют результаты, запускают эксперименты и сами выбирают, чем заняться дальше. И иногда из этой «жизни» рождаются идеи, которые трудно выжать из коротких исследовательских циклов.
В обзоре разберём, как устроена «Станция», какие конкретно открытия сделали ИИ-агенты и что будет, если им не задать цель исследования.
📜 Полный обзор
Telegraph
Как ИИ-агенты живут в "Станции" и делают научные открытия
Большинство сегодняшних подходов к «научному ИИ» выглядят как понятный пайплайн. Есть центральный управляющий алгоритм, есть метрика, есть короткий цикл: сгенерируй улучшение, запусти тест, выбери лучшее, повтори. В целом это работает, но одновременно убирает…
👍3
Как писать README-файлы для ИИ-агентов
Ещё недавно мы просили ИИ дописать кусок кода. А теперь всё чаще отдаём ему задачу целиком: спланируй шаги, внеси правки, прогони тесты, доведи до рабочего состояния. Проблема в том, что агенту нужно быстро понять правила игры в конкретном репозитории: как тут запускают сборку, что считается нормой, какие решения трогать нельзя и где проходят красные линии.
И вот в проектах появляется новый артефакт: README не для людей, а для ИИ. Он становится «долговременной памятью» для агентов и одновременно точкой контроля над тем, как агент будет менять код. Самое интересное: исследователи посмотрели на тысячи таких файлов и обнаружили, что они живут как конфиг или даже как код — быстро разрастаются, усложняются и накапливают контекстный долг. При этом про безопасность и производительность там подозрительно часто молчат.
Давайте разберём, что именно нашли авторы на выборке из 2 303 файлов: какие темы встречаются чаще всего, как их реально редактируют со временем и можно ли автоматически проверять такие инструкции, как мы проверяем обычный код.
📜 Полный обзор
Ещё недавно мы просили ИИ дописать кусок кода. А теперь всё чаще отдаём ему задачу целиком: спланируй шаги, внеси правки, прогони тесты, доведи до рабочего состояния. Проблема в том, что агенту нужно быстро понять правила игры в конкретном репозитории: как тут запускают сборку, что считается нормой, какие решения трогать нельзя и где проходят красные линии.
И вот в проектах появляется новый артефакт: README не для людей, а для ИИ. Он становится «долговременной памятью» для агентов и одновременно точкой контроля над тем, как агент будет менять код. Самое интересное: исследователи посмотрели на тысячи таких файлов и обнаружили, что они живут как конфиг или даже как код — быстро разрастаются, усложняются и накапливают контекстный долг. При этом про безопасность и производительность там подозрительно часто молчат.
Давайте разберём, что именно нашли авторы на выборке из 2 303 файлов: какие темы встречаются чаще всего, как их реально редактируют со временем и можно ли автоматически проверять такие инструкции, как мы проверяем обычный код.
📜 Полный обзор
Telegraph
Как писать README-файлы для ИИ-агентов
Сегодня, когда мы пишем код с помощью ИИ, мы формулируем задачу на естественном языке, и агент в IDE сам планирует шаги, пишет изменения, запускает тесты и пытается довести дело до результата. Такой подход называют агентное программирование. Но у него есть…
👍1
Как ИИ-агенты решают задачи международной олимпиады по математике
Олимпиадная математика не по зубам даже сильным рассуждающим моделям потому что они быстро теряют суть ключевой идеи. В олимпиадах решения редко бывают тривиальными: нужно пробовать подходы, откатываться, сохранять удачные находки и собирать доказательство по кусочкам. А контекст, даже огромный, забивается шумом — и полезные идеи просто исчезают.
Но что если перестать хранить километры текста и вместо этого вести аккуратную память как у математика — не все попытки подряд, а только проверенные промежуточные факты. Причём так, чтобы модель могла работать итеративно, возвращаться к своей библиотеке лемм и двигаться дальше, не начиная каждый раз с нуля.
Давайте разберёмся, как устроен агент Intern-S1-MO: кто в нём генерирует идеи, кто сжимает их в леммы, кто проверяет, чтобы в память не попала ошибка, и почему такой подход неожиданно помогает ИИ успешно решать олимпиадные задачи международного уровня.
📜 Полный обзор
Олимпиадная математика не по зубам даже сильным рассуждающим моделям потому что они быстро теряют суть ключевой идеи. В олимпиадах решения редко бывают тривиальными: нужно пробовать подходы, откатываться, сохранять удачные находки и собирать доказательство по кусочкам. А контекст, даже огромный, забивается шумом — и полезные идеи просто исчезают.
Но что если перестать хранить километры текста и вместо этого вести аккуратную память как у математика — не все попытки подряд, а только проверенные промежуточные факты. Причём так, чтобы модель могла работать итеративно, возвращаться к своей библиотеке лемм и двигаться дальше, не начиная каждый раз с нуля.
Давайте разберёмся, как устроен агент Intern-S1-MO: кто в нём генерирует идеи, кто сжимает их в леммы, кто проверяет, чтобы в память не попала ошибка, и почему такой подход неожиданно помогает ИИ успешно решать олимпиадные задачи международного уровня.
📜 Полный обзор
Telegraph
Как ИИ-агенты решают задачи международной олимпиады по математике
В последние пару лет большие рассуждающие модели (LRM) заметно подтянулись в олимпиадной математике. На задачах уровня AIME (Американский Инновационный Математический Экзамен) им часто хватает одного длинного «прогона» рассуждений: модель пишет цепочку мыслей…
👍3🔥1🎉1
Как измерить «общий научный интеллект» у LLM
LLM умеют объяснять сложные вещи и писать код, но в науке этого мало. Там важен полный исследовательский цикл: найти и понять источники, придумать гипотезу, спланировать и провести эксперимент, а потом аккуратно разобрать результаты. Проблема в том, что мы долго оценивали ИИ не как «ученого», которому нужно доводить работу до конца и не ошибаться на числах, единицах измерений и самой процедуре исследований.
И вот тут начинается самое интересное: когда моделям дают реальные исследовательские задачи, лучшие из них внезапно набирают около 30 баллов из 100. Они могут выглядеть убедительно в рассуждениях, придумывать свежие идеи и даже писать исполняемый код — но все ломается на последнем шаге, либо агенты путают условия задачи и делают рассуждения слишком линейными.
В обзоре разберем, как устроен SGI-Bench, почему авторы оценивают не ответы, а исследовательский процесс, и какие слабые места он вскрывает у современных ИИ-моделей.
📜 Полный обзор
LLM умеют объяснять сложные вещи и писать код, но в науке этого мало. Там важен полный исследовательский цикл: найти и понять источники, придумать гипотезу, спланировать и провести эксперимент, а потом аккуратно разобрать результаты. Проблема в том, что мы долго оценивали ИИ не как «ученого», которому нужно доводить работу до конца и не ошибаться на числах, единицах измерений и самой процедуре исследований.
И вот тут начинается самое интересное: когда моделям дают реальные исследовательские задачи, лучшие из них внезапно набирают около 30 баллов из 100. Они могут выглядеть убедительно в рассуждениях, придумывать свежие идеи и даже писать исполняемый код — но все ломается на последнем шаге, либо агенты путают условия задачи и делают рассуждения слишком линейными.
В обзоре разберем, как устроен SGI-Bench, почему авторы оценивают не ответы, а исследовательский процесс, и какие слабые места он вскрывает у современных ИИ-моделей.
📜 Полный обзор
Telegraph
Как измерить «общий научный интеллект» у LLM
Сегодня LLM умеют многое: объяснять сложные темы, писать код, держать длинную нить рассуждений. Но наука — это не только вызубрить ответы. Это исследовательский цикл: разобраться в литературе, придумать гипотезу, проверить ее экспериментом, а потом честно…
👍2
Сможет ли ИИ пройти сложный экзамен по финансовому анализу?
Экзамен CFA в финансах — это не тест на эрудицию, там есть расчёты, кейсы с кучей контекста, выбор между похожими вариантами и даже этические дилеммы, где нет идеально правильного ответа. Ещё недавно LLM с таким не справлялись
А теперь рассуждающие модели уверенно проходят все три уровня теста — и на свежем наборе из почти тысячи вопросов. Причём у лидеров точность местами подбирается к уровням, которые обычно ждёшь от топовых аналитиков. И самое интересное — пошаговые рассуждения помогают не всегда: иногда от них точность даже падает.
В обзоре разберём, как устроили этот стресс‑тест, какие модели оказались впереди, где у ИИ до сих пор самые неприятные провалы (спойлер: этика и тонкие формулировки), и почему это не значит, что ИИ уже готов заменить финансового аналитика.
📜 Полный обзор
Экзамен CFA в финансах — это не тест на эрудицию, там есть расчёты, кейсы с кучей контекста, выбор между похожими вариантами и даже этические дилеммы, где нет идеально правильного ответа. Ещё недавно LLM с таким не справлялись
А теперь рассуждающие модели уверенно проходят все три уровня теста — и на свежем наборе из почти тысячи вопросов. Причём у лидеров точность местами подбирается к уровням, которые обычно ждёшь от топовых аналитиков. И самое интересное — пошаговые рассуждения помогают не всегда: иногда от них точность даже падает.
В обзоре разберём, как устроили этот стресс‑тест, какие модели оказались впереди, где у ИИ до сих пор самые неприятные провалы (спойлер: этика и тонкие формулировки), и почему это не значит, что ИИ уже готов заменить финансового аналитика.
📜 Полный обзор
Telegraph
Сможет ли ИИ пройти сложный экзамен по финансовому анализу?
Экзамены CFA (Chartered Financial Analyst) в мире финансов — это марафон с тремя дистанциями. На первом уровне проверяют базовые знания и умение не путаться в терминах. На втором — заставляют разбирать кейсы, где важно применять формулы и логику в контексте.…
👍2❤1🎉1
Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи
ИИ умеет писать код и решать сложные математические задачи, но стоит попросить его о чем-то житейском — выбрать дрель под ваши стены, найти нормальную замену ингредиенту, подсказать, что купить и где — и внезапно начинаются сюрпризы. Ответ звучит убедительно, только вот цена не та, ссылка не ведёт туда, модель товара перепутана, а совет по ремонту местами небезопасный. В быту ошибка — это не минус балл, а потраченные деньги, время и нервы.
Самое странное, что даже модели с веб-поиском часто проигрывают там, где кажется проще всего. Почему так происходит: они плохо понимают контекст человека, ленятся проверять факты или слишком стараются быть полезными и начинают «додумывать»?
Давайте разберёмся, как исследователи измеряют реальную полезность ИИ в доменах: покупки, еда, игры и «cделай сам», как они ловят правдоподобные выдумки, и почему лидеры всё равно далеки от статуса надёжного персонального помощника на каждый день.
📜 Полный обзор
ИИ умеет писать код и решать сложные математические задачи, но стоит попросить его о чем-то житейском — выбрать дрель под ваши стены, найти нормальную замену ингредиенту, подсказать, что купить и где — и внезапно начинаются сюрпризы. Ответ звучит убедительно, только вот цена не та, ссылка не ведёт туда, модель товара перепутана, а совет по ремонту местами небезопасный. В быту ошибка — это не минус балл, а потраченные деньги, время и нервы.
Самое странное, что даже модели с веб-поиском часто проигрывают там, где кажется проще всего. Почему так происходит: они плохо понимают контекст человека, ленятся проверять факты или слишком стараются быть полезными и начинают «додумывать»?
Давайте разберёмся, как исследователи измеряют реальную полезность ИИ в доменах: покупки, еда, игры и «cделай сам», как они ловят правдоподобные выдумки, и почему лидеры всё равно далеки от статуса надёжного персонального помощника на каждый день.
📜 Полный обзор
Telegraph
Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи
Пока ИИ уверенно решает задачи на логику и пишет код, в реальной жизни люди всё чаще спрашивают его о более приземлённом: что купить в магазине, чем заменить ингредиент в блюде, как починить протекающий кран или какую сборку выбрать в игре. И здесь внезапно…
👍2🔥1
Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования
ИИ-агенты умеют придумывать гипотезы, читать статьи и даже запускать эксперименты. Но в реальной науке они чаще всего упираются в хаос вокруг эксперимента: разные приборы, форматы данных, нет нужных доступов и старые скрипты. В итоге чужой эксперимент сложно перенести в лабораторию с другим оборудованием.
Ученые предлагают решать эту проблему не новым суперагентом, а новым протоколом SCP (Science Context Protocol). SCP связывает ИИ-агентов, датасеты, модели и даже физические приборы в один общий научный контекст, где все шаги фиксируются, а запуск можно воспроизвести.
Давайте разберем, как устроен SCP, как в нем работают хабы и серверы, и как исследователям в итоге удалось собрать более 1600+ приборов в единый интерфейс.
📜 Полный обзор
ИИ-агенты умеют придумывать гипотезы, читать статьи и даже запускать эксперименты. Но в реальной науке они чаще всего упираются в хаос вокруг эксперимента: разные приборы, форматы данных, нет нужных доступов и старые скрипты. В итоге чужой эксперимент сложно перенести в лабораторию с другим оборудованием.
Ученые предлагают решать эту проблему не новым суперагентом, а новым протоколом SCP (Science Context Protocol). SCP связывает ИИ-агентов, датасеты, модели и даже физические приборы в один общий научный контекст, где все шаги фиксируются, а запуск можно воспроизвести.
Давайте разберем, как устроен SCP, как в нем работают хабы и серверы, и как исследователям в итоге удалось собрать более 1600+ приборов в единый интерфейс.
📜 Полный обзор
Telegraph
Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования
Автономные ИИ-ученые уже умеют читать статьи, предлагать гипотезы, запускать расчеты и даже управлять экспериментами. Но в реальной науке их возможности часто «заперты» внутри конкретной лаборатории, набора скриптов и ручных договоренностей о том, где лежат…
👍2
Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза
ИИ-агенты неплохо чинят баги и дописывают маленькие фичи. Но в реальной разработке чаще нужно другое — довести продукт или фичу до следующего релиза. Требования размазаны по release notes, изменения цепляют десятки файлов, зависимости обновляются, а любая правка легко ломает соседний модуль.
И вот тут начинается самое интересное: когда агентов проверяют не на задачах уровня исправления issue, а на долгосрочной задаче от release notes до реально работающей новой версии, метрики начинают проседать. Оказывается, проблема не в том, что модель не умеет писать код, а в том, что она часто неправильно понимает, что именно надо изменить, и где это аукнется.
В полном обзоре разберём, что за бенчмарк SWE‑EVO и как он измеряет прогресс в сегодняшних ИИ-агентов для программирования.
📜 Полный обзор
ИИ-агенты неплохо чинят баги и дописывают маленькие фичи. Но в реальной разработке чаще нужно другое — довести продукт или фичу до следующего релиза. Требования размазаны по release notes, изменения цепляют десятки файлов, зависимости обновляются, а любая правка легко ломает соседний модуль.
И вот тут начинается самое интересное: когда агентов проверяют не на задачах уровня исправления issue, а на долгосрочной задаче от release notes до реально работающей новой версии, метрики начинают проседать. Оказывается, проблема не в том, что модель не умеет писать код, а в том, что она часто неправильно понимает, что именно надо изменить, и где это аукнется.
В полном обзоре разберём, что за бенчмарк SWE‑EVO и как он измеряет прогресс в сегодняшних ИИ-агентов для программирования.
📜 Полный обзор
Telegraph
Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза
За последний год агенты для программирования заметно прибавили: они умеют находить место поломки, править код и прогонять тесты. Но есть важная оговорка: большинство популярных бенчмарков проверяют точечные достижения — исправление конкретного бага или добавление…
👍2
Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память
ИИ‑агенты умеют планировать, вызывать инструменты и выполнять цепочки действий. Но стоит поменяться интерфейсу, правилам или цели — и они будут повторять старые ошибки.
В работе про агента Софью ученые предлагают посмотреть на это как на недостающий «психический» уровень. Есть Система-1 с быстрыми навыками и Система-2 с рассуждениями, но нет Системы-3, которая следит за самим мышлением: что агент понял, чему научился, почему провалился и что стоит делать дальше. По сути — то, что делает поведение связным и долгоживущим в открытой среде.
Давайте разберём, что авторы называют Системой-3, из каких блоков она состоит, и как собрать устойчивого агента с памятью, самооценкой, моделью пользователя и внутренней мотивацией.
📜 Полный обзор
ИИ‑агенты умеют планировать, вызывать инструменты и выполнять цепочки действий. Но стоит поменяться интерфейсу, правилам или цели — и они будут повторять старые ошибки.
В работе про агента Софью ученые предлагают посмотреть на это как на недостающий «психический» уровень. Есть Система-1 с быстрыми навыками и Система-2 с рассуждениями, но нет Системы-3, которая следит за самим мышлением: что агент понял, чему научился, почему провалился и что стоит делать дальше. По сути — то, что делает поведение связным и долгоживущим в открытой среде.
Давайте разберём, что авторы называют Системой-3, из каких блоков она состоит, и как собрать устойчивого агента с памятью, самооценкой, моделью пользователя и внутренней мотивацией.
📜 Полный обзор
Telegraph
Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память
Сегодня ИИ-агенты умеют планировать, вызывать инструменты, выполнять цепочки действий и даже работать в мультиагентной системе. Но у большинства таких решений есть неприятная особенность: они по сути реактивны. Агент может отлично отвечать в моменте но после…
🔥2
Профессиональные разработчики не вайбят с агентами — они их контролируют
Сегодня в моду вошли агенты, которые могут автономно разрабатывать фичи. Но в реальной разработке любая мелкая ошибка может быть угрозой безопасности и качества продукта.
Опытные разработчики не спешат «вайбить» с агентами и отпускать контроль. Вместо этого они используют их совсем иначе — как исполнителя, которого нужно держать в рамках, постоянно проверять и принимать работу по правилам, как у живого коллеги.
В полном обзоре разберем, что показало исследование 2025 года: какие задачи профи реально отдают агентам, а где предпочитают держать контроль.
📜 Полный обзор
Сегодня в моду вошли агенты, которые могут автономно разрабатывать фичи. Но в реальной разработке любая мелкая ошибка может быть угрозой безопасности и качества продукта.
Опытные разработчики не спешат «вайбить» с агентами и отпускать контроль. Вместо этого они используют их совсем иначе — как исполнителя, которого нужно держать в рамках, постоянно проверять и принимать работу по правилам, как у живого коллеги.
В полном обзоре разберем, что показало исследование 2025 года: какие задачи профи реально отдают агентам, а где предпочитают держать контроль.
📜 Полный обзор
Telegraph
Профессиональные разработчики не вайбят с агентами — они их контролируют
Пару лет назад LLM в программировании можно было только доверить автодополнение кода: модели подсказывали строчку, дописывали функции и помогали вспомнить синтаксис. Но к 2025‑му фокус сместился: появились агентные инструменты, которые не просто советуют…
👍3🔥1
LLM — не тупик. Проблема AGI совсем в другом
LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.
Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.
Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.
📜 Полный обзор
LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.
Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.
Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.
📜 Полный обзор
Telegraph
LLM — не тупик. Проблема AGI совсем в другом
Сегодня звучит много споров вокруг AGI: LLM якобы умеют только с некоторой вероятностью генерировать следующее слово в тексте, и потому на них "общий ИИ" не построишь. Авторы работы The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics из…
👍3❤2
Как LLM находит нужный код в репозитории, который не помещается в контекст
Бывает так: словил баг, открываешь большой репозиторий в его поисках, а вокруг сотни файлов и странных зависимостей. Человеку тяжело, а LLM ещё хуже: она просто не может удержать весь контекст проекта в голове и начинает блуждать — то ищет по словам, то вытаскивает куски кода, то путается в инструментах.
И вот тут появляется неожиданная идея: вместо сложного поиска LLM дают один-единственный инструмент перехода к месту определения классов, методов и перменных. Внезапно этого хватает, чтобы гораздо точнее находить, где именно в коде проблема.
В полном обзоре выясним почему минимализм оказался сильнее арсенала инструментов, как агент учится ходить по репозиторию с подкреплением, и почему на бенчмарках маленькая модель с таким подходом обгоняет более крупные.
📜 Полный обзор
Бывает так: словил баг, открываешь большой репозиторий в его поисках, а вокруг сотни файлов и странных зависимостей. Человеку тяжело, а LLM ещё хуже: она просто не может удержать весь контекст проекта в голове и начинает блуждать — то ищет по словам, то вытаскивает куски кода, то путается в инструментах.
И вот тут появляется неожиданная идея: вместо сложного поиска LLM дают один-единственный инструмент перехода к месту определения классов, методов и перменных. Внезапно этого хватает, чтобы гораздо точнее находить, где именно в коде проблема.
В полном обзоре выясним почему минимализм оказался сильнее арсенала инструментов, как агент учится ходить по репозиторию с подкреплением, и почему на бенчмарках маленькая модель с таким подходом обгоняет более крупные.
📜 Полный обзор
Telegraph
Как LLM находит нужный код в репозитории, который не помещается в контекст
Если вы когда‑нибудь открывали большой репозиторий в поисках бага, вы знаете это ощущение: сотни файлов, куча неочевидных связей, а issue обычно вообще никак не описаны. Для LLM проблема та же, только жёстче: она физически не может держать в контексте весь…
👍2
Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет
Даже самые продвинутые модели учатся рассуждать не в вакууме: им всё равно нужен чей-то заранее собранный датасет, а разметку всё равно делает человек. И это быстро становится узким местом: это дорого и плохо масштабируется.
А теперь представьте подход, когда модель сама придумывает себе задания, сама решает их и сама же получает оценку — без единого внешнего датасета. Не просто тренируется, а выбирает, чему именно тренироваться, и постоянно держится в зоне, где ей чуть-чуть сложно. Звучит как чит-код, но именно так устроен Absolute Zero: self-play для рассуждения, заземлённый в проверяемую Python-среду.
В полном обзоре разберём, как модель совмещает роли планировщика и исполнителя задач, откуда берётся неожиданный скачок в математике и какой неприятный сигнал по безопасности всплыл прямо в процессе такого самообучения.
📜 Полный обзор
Даже самые продвинутые модели учатся рассуждать не в вакууме: им всё равно нужен чей-то заранее собранный датасет, а разметку всё равно делает человек. И это быстро становится узким местом: это дорого и плохо масштабируется.
А теперь представьте подход, когда модель сама придумывает себе задания, сама решает их и сама же получает оценку — без единого внешнего датасета. Не просто тренируется, а выбирает, чему именно тренироваться, и постоянно держится в зоне, где ей чуть-чуть сложно. Звучит как чит-код, но именно так устроен Absolute Zero: self-play для рассуждения, заземлённый в проверяемую Python-среду.
В полном обзоре разберём, как модель совмещает роли планировщика и исполнителя задач, откуда берётся неожиданный скачок в математике и какой неприятный сигнал по безопасности всплыл прямо в процессе такого самообучения.
📜 Полный обзор
Telegraph
Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет
В последние пару лет обучение рассуждению LLM делают через Reinforcement Learning with Verifiable Rewards (RLVR): модель решает задачу, получает награду, которую можно строго проверить, и постепенно начинает рассуждать лучше - так не нужно размечать цепочки…
🔥1
Как превратить GitHub в память для ИИ-агента
Агенты умеют открывать репозитории, гонять тесты и предлагать патчи. Но когда баг сложный, они часто чинят его будто до них никто с таким не сталкивался. А у людей всё наоборот — мы идём в GitHub, ищем похожие issue и PR, смотрим, какие гипотезы проверяли, что реально сработало и почему.
Самое обидное, что нужный опыт там уже лежит, просто он в неудобном виде: разрозненные куски логов, случайные правки и обсуждения. Если дать это агенту напрямую, он легко зацепится за лишнее и сделает неправильный фикс.
В MemGovern предлагают превратить человеческие истории исправлений в понятные карточки опыта и научить агента искать их не одним запросом, а как инженер — с уточнениями и фильтрацией.
Разберёмся, как устроены эти карточки и откуда берётся прирост на инженерном бенчмарке SWE-bench Verified.
📜 Полный обзор
Агенты умеют открывать репозитории, гонять тесты и предлагать патчи. Но когда баг сложный, они часто чинят его будто до них никто с таким не сталкивался. А у людей всё наоборот — мы идём в GitHub, ищем похожие issue и PR, смотрим, какие гипотезы проверяли, что реально сработало и почему.
Самое обидное, что нужный опыт там уже лежит, просто он в неудобном виде: разрозненные куски логов, случайные правки и обсуждения. Если дать это агенту напрямую, он легко зацепится за лишнее и сделает неправильный фикс.
В MemGovern предлагают превратить человеческие истории исправлений в понятные карточки опыта и научить агента искать их не одним запросом, а как инженер — с уточнениями и фильтрацией.
Разберёмся, как устроены эти карточки и откуда берётся прирост на инженерном бенчмарке SWE-bench Verified.
📜 Полный обзор
Telegraph
Как превратить GitHub в память для ИИ-агента
Когда LLM научились писать код, вокруг них быстро выросли автономные SWE-агенты: системы, которые умеют открывать репозиторий, запускать тесты, находить место ошибки и готовить патч. Но у таких агентов есть неприятная привычка работать так, будто они впервые…
👍1🤯1
Агентный RAG против модульного: что реально лучше на пратике
RAG кажется простым спасением от галлюцинаций: подключили модель к базе знаний, и она отвечает точнее. Но в реальном продукте поиск то подтягивает не то, то вообще оказывается лишним действием. А значит, вы платите токенами и временем за шаги, которые не всегда дают пользу.
Сейчас индустрия спорит о двух подходах. Модульный RAG — это аккуратный пайплайн: роутер решает, нужен ли поиск, переписывание делает запрос «под документы», переранкер вычищает мусор. Агентный RAG звучит соблазнительнее: пусть LLM сама решает, когда искать, как переформулировать и стоит ли повторить попытку. Вопрос только один: где это реально приносит пользу?
В полном обзоре разберём результаты большого сравнения на разных задачах и доменах: когда агентность помогает и сколько придется заплатить за эту гибкость.
📜 Полный обзор
RAG кажется простым спасением от галлюцинаций: подключили модель к базе знаний, и она отвечает точнее. Но в реальном продукте поиск то подтягивает не то, то вообще оказывается лишним действием. А значит, вы платите токенами и временем за шаги, которые не всегда дают пользу.
Сейчас индустрия спорит о двух подходах. Модульный RAG — это аккуратный пайплайн: роутер решает, нужен ли поиск, переписывание делает запрос «под документы», переранкер вычищает мусор. Агентный RAG звучит соблазнительнее: пусть LLM сама решает, когда искать, как переформулировать и стоит ли повторить попытку. Вопрос только один: где это реально приносит пользу?
В полном обзоре разберём результаты большого сравнения на разных задачах и доменах: когда агентность помогает и сколько придется заплатить за эту гибкость.
📜 Полный обзор
Telegraph
Агентный RAG против модульного: что реально лучше на практике
RAG сегодня — один из самых практичных способов подключить LLM к внешним знаниям: модель не полагается только на собственную память, а сначала ищет нужные фрагменты в базе знаний и уже потом отвечает. В реальных продуктах это выглядит как спасение от галлюцинаций…
👍2
От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы
Мультиагентные системы выглядят как мечта любого продакта: вместо одного агента вы собираете команду из LLM, где один планирует, другой ищет данные, третий пишет код, а четвертый проверяет результат. Проблема в том, что такая команда зависит сразу от всего вокруг: API провайдеров, function calling, баз данных, облака. Любое обновление легко превращает ваш пайплайн в набор странных багов и несовместимостей.
Самое интересное тут не в красивых демо, а в том, что происходит дальше, когда это пытаются поддерживать месяцами. Какие фреймворки реально растут устойчиво, а какие выстреливают и быстро выдыхаются? Что чаще делает комьюнити: чинит ошибки или бесконечно подстраивается под меняющийся мир? И почему в проблемах внезапно всплывает не только код, но и координация самих агентов?
Разберём большое исследование по восьми популярным open-source фреймворках разработки агентов и посмотрим на цифрах: как они развиваются на GitHub, какие есть проблемы и как быстро их решают.
📜 Полный обзор
Мультиагентные системы выглядят как мечта любого продакта: вместо одного агента вы собираете команду из LLM, где один планирует, другой ищет данные, третий пишет код, а четвертый проверяет результат. Проблема в том, что такая команда зависит сразу от всего вокруг: API провайдеров, function calling, баз данных, облака. Любое обновление легко превращает ваш пайплайн в набор странных багов и несовместимостей.
Самое интересное тут не в красивых демо, а в том, что происходит дальше, когда это пытаются поддерживать месяцами. Какие фреймворки реально растут устойчиво, а какие выстреливают и быстро выдыхаются? Что чаще делает комьюнити: чинит ошибки или бесконечно подстраивается под меняющийся мир? И почему в проблемах внезапно всплывает не только код, но и координация самих агентов?
Разберём большое исследование по восьми популярным open-source фреймворках разработки агентов и посмотрим на цифрах: как они развиваются на GitHub, какие есть проблемы и как быстро их решают.
📜 Полный обзор
Telegraph
От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы
Вокруг приложений на базе LLM возник новый набор инструментов: фреймворки, которые помогают собирать не одного «умного чат-бота», а целую команду специализированных агентов. Один планирует, другой ищет данные, третий пишет код, четвертый проверяет результат.…
👍1