Dataism Science Hub

Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи

ИИ умеет писать код и решать сложные математические задачи, но стоит попросить его о чем-то житейском — выбрать дрель под ваши стены, найти нормальную замену ингредиенту, подсказать, что купить и где — и внезапно начинаются сюрпризы. Ответ звучит убедительно, только вот цена не та, ссылка не ведёт туда, модель товара перепутана, а совет по ремонту местами небезопасный. В быту ошибка — это не минус балл, а потраченные деньги, время и нервы.

Самое странное, что даже модели с веб-поиском часто проигрывают там, где кажется проще всего. Почему так происходит: они плохо понимают контекст человека, ленятся проверять факты или слишком стараются быть полезными и начинают «додумывать»?

Давайте разберёмся, как исследователи измеряют реальную полезность ИИ в доменах: покупки, еда, игры и «cделай сам», как они ловят правдоподобные выдумки, и почему лидеры всё равно далеки от статуса надёжного персонального помощника на каждый день.

📜 Полный обзор

Telegraph

Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи

Пока ИИ уверенно решает задачи на логику и пишет код, в реальной жизни люди всё чаще спрашивают его о более приземлённом: что купить в магазине, чем заменить ингредиент в блюде, как починить протекающий кран или какую сборку выбрать в игре. И здесь внезапно…

👍2🔥1

142 views10:00

Dataism Science Hub

Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования

ИИ-агенты умеют придумывать гипотезы, читать статьи и даже запускать эксперименты. Но в реальной науке они чаще всего упираются в хаос вокруг эксперимента: разные приборы, форматы данных, нет нужных доступов и старые скрипты. В итоге чужой эксперимент сложно перенести в лабораторию с другим оборудованием.

Ученые предлагают решать эту проблему не новым суперагентом, а новым протоколом SCP (Science Context Protocol). SCP связывает ИИ-агентов, датасеты, модели и даже физические приборы в один общий научный контекст, где все шаги фиксируются, а запуск можно воспроизвести.

Давайте разберем, как устроен SCP, как в нем работают хабы и серверы, и как исследователям в итоге удалось собрать более 1600+ приборов в единый интерфейс.

📜 Полный обзор

Telegraph

Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования

Автономные ИИ-ученые уже умеют читать статьи, предлагать гипотезы, запускать расчеты и даже управлять экспериментами. Но в реальной науке их возможности часто «заперты» внутри конкретной лаборатории, набора скриптов и ручных договоренностей о том, где лежат…

👍2

147 views14:27

Dataism Science Hub

Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза

ИИ-агенты неплохо чинят баги и дописывают маленькие фичи. Но в реальной разработке чаще нужно другое — довести продукт или фичу до следующего релиза. Требования размазаны по release notes, изменения цепляют десятки файлов, зависимости обновляются, а любая правка легко ломает соседний модуль.

И вот тут начинается самое интересное: когда агентов проверяют не на задачах уровня исправления issue, а на долгосрочной задаче от release notes до реально работающей новой версии, метрики начинают проседать. Оказывается, проблема не в том, что модель не умеет писать код, а в том, что она часто неправильно понимает, что именно надо изменить, и где это аукнется.

В полном обзоре разберём, что за бенчмарк SWE‑EVO и как он измеряет прогресс в сегодняшних ИИ-агентов для программирования.

📜 Полный обзор

Telegraph

Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза

За последний год агенты для программирования заметно прибавили: они умеют находить место поломки, править код и прогонять тесты. Но есть важная оговорка: большинство популярных бенчмарков проверяют точечные достижения — исправление конкретного бага или добавление…

👍2

154 views20:50

Dataism Science Hub

Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память

ИИ‑агенты умеют планировать, вызывать инструменты и выполнять цепочки действий. Но стоит поменяться интерфейсу, правилам или цели — и они будут повторять старые ошибки.

В работе про агента Софью ученые предлагают посмотреть на это как на недостающий «психический» уровень. Есть Система-1 с быстрыми навыками и Система-2 с рассуждениями, но нет Системы-3, которая следит за самим мышлением: что агент понял, чему научился, почему провалился и что стоит делать дальше. По сути — то, что делает поведение связным и долгоживущим в открытой среде.

Давайте разберём, что авторы называют Системой-3, из каких блоков она состоит, и как собрать устойчивого агента с памятью, самооценкой, моделью пользователя и внутренней мотивацией.

📜 Полный обзор

Telegraph

Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память

Сегодня ИИ-агенты умеют планировать, вызывать инструменты, выполнять цепочки действий и даже работать в мультиагентной системе. Но у большинства таких решений есть неприятная особенность: они по сути реактивны. Агент может отлично отвечать в моменте но после…

🔥2

111 views19:26

Dataism Science Hub

Профессиональные разработчики не вайбят с агентами — они их контролируют

Сегодня в моду вошли агенты, которые могут автономно разрабатывать фичи. Но в реальной разработке любая мелкая ошибка может быть угрозой безопасности и качества продукта.

Опытные разработчики не спешат «вайбить» с агентами и отпускать контроль. Вместо этого они используют их совсем иначе — как исполнителя, которого нужно держать в рамках, постоянно проверять и принимать работу по правилам, как у живого коллеги.

В полном обзоре разберем, что показало исследование 2025 года: какие задачи профи реально отдают агентам, а где предпочитают держать контроль.

📜 Полный обзор

Telegraph

Профессиональные разработчики не вайбят с агентами — они их контролируют

Пару лет назад LLM в программировании можно было только доверить автодополнение кода: модели подсказывали строчку, дописывали функции и помогали вспомнить синтаксис. Но к 2025‑му фокус сместился: появились агентные инструменты, которые не просто советуют…

👍3🔥1

88 views19:35

Dataism Science Hub

LLM — не тупик. Проблема AGI совсем в другом

LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.

Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.

Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.

📜 Полный обзор

Telegraph

LLM — не тупик. Проблема AGI совсем в другом

Сегодня звучит много споров вокруг AGI: LLM якобы умеют только с некоторой вероятностью генерировать следующее слово в тексте, и потому на них "общий ИИ" не построишь. Авторы работы The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics из…

👍3❤2

115 viewsedited 20:30

Dataism Science Hub

Как LLM находит нужный код в репозитории, который не помещается в контекст

Бывает так: словил баг, открываешь большой репозиторий в его поисках, а вокруг сотни файлов и странных зависимостей. Человеку тяжело, а LLM ещё хуже: она просто не может удержать весь контекст проекта в голове и начинает блуждать — то ищет по словам, то вытаскивает куски кода, то путается в инструментах.

И вот тут появляется неожиданная идея: вместо сложного поиска LLM дают один-единственный инструмент перехода к месту определения классов, методов и перменных. Внезапно этого хватает, чтобы гораздо точнее находить, где именно в коде проблема.

В полном обзоре выясним почему минимализм оказался сильнее арсенала инструментов, как агент учится ходить по репозиторию с подкреплением, и почему на бенчмарках маленькая модель с таким подходом обгоняет более крупные.

📜 Полный обзор

Telegraph

Как LLM находит нужный код в репозитории, который не помещается в контекст

Если вы когда‑нибудь открывали большой репозиторий в поисках бага, вы знаете это ощущение: сотни файлов, куча неочевидных связей, а issue обычно вообще никак не описаны. Для LLM проблема та же, только жёстче: она физически не может держать в контексте весь…

👍2

106 views18:57

Dataism Science Hub

Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

Даже самые продвинутые модели учатся рассуждать не в вакууме: им всё равно нужен чей-то заранее собранный датасет, а разметку всё равно делает человек. И это быстро становится узким местом: это дорого и плохо масштабируется.

А теперь представьте подход, когда модель сама придумывает себе задания, сама решает их и сама же получает оценку — без единого внешнего датасета. Не просто тренируется, а выбирает, чему именно тренироваться, и постоянно держится в зоне, где ей чуть-чуть сложно. Звучит как чит-код, но именно так устроен Absolute Zero: self-play для рассуждения, заземлённый в проверяемую Python-среду.

В полном обзоре разберём, как модель совмещает роли планировщика и исполнителя задач, откуда берётся неожиданный скачок в математике и какой неприятный сигнал по безопасности всплыл прямо в процессе такого самообучения.

📜 Полный обзор

Telegraph

Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

В последние пару лет обучение рассуждению LLM делают через Reinforcement Learning with Verifiable Rewards (RLVR): модель решает задачу, получает награду, которую можно строго проверить, и постепенно начинает рассуждать лучше - так не нужно размечать цепочки…

🔥1

84 views20:00

Dataism Science Hub

Как превратить GitHub в память для ИИ-агента

Агенты умеют открывать репозитории, гонять тесты и предлагать патчи. Но когда баг сложный, они часто чинят его будто до них никто с таким не сталкивался. А у людей всё наоборот — мы идём в GitHub, ищем похожие issue и PR, смотрим, какие гипотезы проверяли, что реально сработало и почему.

Самое обидное, что нужный опыт там уже лежит, просто он в неудобном виде: разрозненные куски логов, случайные правки и обсуждения. Если дать это агенту напрямую, он легко зацепится за лишнее и сделает неправильный фикс.

В MemGovern предлагают превратить человеческие истории исправлений в понятные карточки опыта и научить агента искать их не одним запросом, а как инженер — с уточнениями и фильтрацией.

Разберёмся, как устроены эти карточки и откуда берётся прирост на инженерном бенчмарке SWE-bench Verified.

📜 Полный обзор

Telegraph

Как превратить GitHub в память для ИИ-агента

Когда LLM научились писать код, вокруг них быстро выросли автономные SWE-агенты: системы, которые умеют открывать репозиторий, запускать тесты, находить место ошибки и готовить патч. Но у таких агентов есть неприятная привычка работать так, будто они впервые…

👍1🤯1

95 views20:59

Dataism Science Hub

Агентный RAG против модульного: что реально лучше на пратике

RAG кажется простым спасением от галлюцинаций: подключили модель к базе знаний, и она отвечает точнее. Но в реальном продукте поиск то подтягивает не то, то вообще оказывается лишним действием. А значит, вы платите токенами и временем за шаги, которые не всегда дают пользу.

Сейчас индустрия спорит о двух подходах. Модульный RAG — это аккуратный пайплайн: роутер решает, нужен ли поиск, переписывание делает запрос «под документы», переранкер вычищает мусор. Агентный RAG звучит соблазнительнее: пусть LLM сама решает, когда искать, как переформулировать и стоит ли повторить попытку. Вопрос только один: где это реально приносит пользу?

В полном обзоре разберём результаты большого сравнения на разных задачах и доменах: когда агентность помогает и сколько придется заплатить за эту гибкость.

📜 Полный обзор

Telegraph

Агентный RAG против модульного: что реально лучше на практике

RAG сегодня — один из самых практичных способов подключить LLM к внешним знаниям: модель не полагается только на собственную память, а сначала ищет нужные фрагменты в базе знаний и уже потом отвечает. В реальных продуктах это выглядит как спасение от галлюцинаций…

👍2

81 views19:59

Dataism Science Hub

От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы

Мультиагентные системы выглядят как мечта любого продакта: вместо одного агента вы собираете команду из LLM, где один планирует, другой ищет данные, третий пишет код, а четвертый проверяет результат. Проблема в том, что такая команда зависит сразу от всего вокруг: API провайдеров, function calling, баз данных, облака. Любое обновление легко превращает ваш пайплайн в набор странных багов и несовместимостей.

Самое интересное тут не в красивых демо, а в том, что происходит дальше, когда это пытаются поддерживать месяцами. Какие фреймворки реально растут устойчиво, а какие выстреливают и быстро выдыхаются? Что чаще делает комьюнити: чинит ошибки или бесконечно подстраивается под меняющийся мир? И почему в проблемах внезапно всплывает не только код, но и координация самих агентов?

Разберём большое исследование по восьми популярным open-source фреймворках разработки агентов и посмотрим на цифрах: как они развиваются на GitHub, какие есть проблемы и как быстро их решают.

📜 Полный обзор

Telegraph

От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы

Вокруг приложений на базе LLM возник новый набор инструментов: фреймворки, которые помогают собирать не одного «умного чат-бота», а целую команду специализированных агентов. Один планирует, другой ищет данные, третий пишет код, четвертый проверяет результат.…

👍1

52 views20:41

Dataism Science Hub

Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Мы уже привыкли, что одни LLM отвечают почти без ошибок, а другие путаются на тех же задачах. И долго казалось, что секрет reasoning‑моделей в том, что они просто пишут больше шагов и дольше думают. Но на практике удлинить рассуждение недостаточно — качество от этого не всегда растёт.

В свежей работе исследователи предлагают более интересную версию: сильные модели не столько думают дольше, сколько думают по-другому. Их рассуждение начинает выглядеть как мини-обсуждение внутри одной головы: один ход предлагают, другой оспаривают, третий проверяет, потом все сходятся на решении. И похоже, именно этот внутренний спор и делает ответы надёжнее.

В полном обзоре разберём, как это измеряли на тысячах задач, какие разговорные паттерны отличают reasoning‑модели от обычных, и почему подталкивание модели в сторону такого диалогового режима заметно повышает точность ответа.

📜 Полный обзор

Telegraph

Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Мы привыкли думать, что reasoning-модели сильнее просто потому, что они пишут более длинные рассуждения и тратят больше вычислений перед ответом. В работе Reasoning Models Generate Societies of Thought авторы предлагают более любопытное объяснение: такие…

🔥1

17 views20:46

About

Blog

Apps

Platform