NGI | Влад Корнышев про AI и создание AI-продуктов

Что посеешь, то и пожнешь: почему новые модели OpenAI галлюцинируют чаще старых

Помните, я как-то упоминал исследование Google DeepMind? Они тогда еще подсветили интересный момент: OpenAI активно использует автоматизацию для исследований в области ИИ. Google напирал на то, что правильное применение автоматизации - это ускорение исследований, а не полное перекладывание на машину цикла обучения моделей. Подход OpenAI они как раз критиковали. Мол, так можно наплодить ошибок.

Вспомним еще пару моментов. В статье DeepSeek про их метод обучения SPCT (когда модель сама себя критикует и учится на этом) тоже отмечались риски: увеличение предвзятости (bias) и галлюцинаций. Логика простая: если в исходных данных была ошибка, то при самообучении количество таких ошибок будет только множиться. А в статье "AI 2027", о которой я также писал, предсказывался сценарий, где OpenBrain, автоматизировав создание ИИ, получил на выходе AI с проблемой рассогласования целей (Missalignment).

К чему я это все? А к тому, что очень похожую картину мы сейчас наблюдаем с последними моделями от OpenAI - o3 и o4-mini. Их позиционируют как state-of-the-art, особенно в задачах, требующих "рассуждений". Но вот незадача: согласно последним данным, галлюцинируют они чаще, чем их предшественники.

Смотрите сами на результаты внутренних тестов OpenAI на бенчмарке PersonQA (проверка знаний о людях):
- o3: галлюцинирует в 33% случаев.
- o1 и o3-mini (предыдущие "reasoning" модели): 16% и 14.8% соответственно.
- o4-mini: вообще 48%!

То есть, модели, заточенные под агентский ИИ, под задачи, где нужно не просто выдать текст, а "подумать", построить цепочку рассуждений, совершают больше ошибок. Сама OpenAI в своем отчете признает, что пока "требуется больше исследований", чтобы понять, почему так происходит. (Не видят слона в комнате). Одна из гипотез: модели стали делать больше утверждений в целом, и среди них, естественно, растет как число верных, так и число неверных. Подобное также отмечают и исследователи Transluce.

И это огромная проблема.

Чтобы агентский ИИ был реально полезен, количество ошибок нужно не увеличивать, а сокращать. Мы же хотим использовать ИИ для работы в реальном мире, верно? А теперь представьте: вы - обычный айтишник, собрались в отпуск и решили делегировать планирование ИИ-агенту, сказав “Я хочу хорошо отдохнуть в Монако”. А он возьми и сгаллюцинируй: забронировал вам с карты пару мишленовских ресторанов, яхту и отель, на который уйдут все сбережения. Вроде цель "сделать крутой отдых" достигнута, но какой ценой? 🙂

И это еще самое безобидное. Представьте, что такому "галлюцинирующему" агенту доверят более серьезные задачи: управление бизнес-процессами, научные расчеты, решение социальных проблем. Последствия могут быть куда масштабнее. Некоторые исследователи предполагают, что проблема может быть в методах обучения с подкреплением, которые используются для o-серии и могут усиливать проблемы, обычно сглаживаемые на других этапах.

Нам постоянно говорят, что ИИ сделает жизнь лучше, автоматизирует рутину. Но чтобы этого достичь, нельзя бежать впереди паровоза в безумной гонке за AGI. Если ставка делается на самообучение без должного контроля, то количество предвзятостей и галлюцинаций рискует расти в геометрической прогрессии, и человек просто потеряет контроль.

Очень надеюсь, что текущие "сырые" модели - это все же эксперимент, и OpenAI предпримет меры. Хотя, глядя на действия Альтмана, скорее верится в то, что финансовые показатели и хайп вокруг "гонки вооружений" важнее надежности и безопасности.

Разбор статьи Google DeepMind "An Approach to Technical AGI Safety and Security"

Вот и обещанный разбор статьи от DeepMind. На написание ушло несколько больше времени, так как не хотел ограничиваться поверхностным анализом, поэтому получилась целая статья…

👍2🤔2❤1

424 viewsVlad Kornyshev, 14:39

NGI | Влад Корнышев про AI и создание AI-продуктов

0:27

Media is too big

VIEW IN TELEGRAM

В общем, навайбкодил :)

Пока думаю над форматом. Вдохновлялся, думаю, сами знаете чем 😁

P.S. Делал в Cursor, и, все-таки, сравнивая Cursor и Bolt, в Bolt мне больше нравится делать сайты. Режим Агента в Cursor вобще не зашел, часто творит дичь. + постоянное переключение между браузером и IDE - тоже такая себе штука. + в плане точечного редактирования и работы с адаптивами Bolt выигрывает.

🔥4👍1

388 viewsVlad Kornyshev, edited 02:56

NGI | Влад Корнышев про AI и создание AI-продуктов

🚀

NGI дайджест за неделю (№5)

1. Как получить набор лучших ИИ-инструментов за $200 вместо $14 000+ - рассказываю про подписку от Ленни, которая дает доступ к AI-тулам. Промокоды на курсор закончились, но подписка все еще выгодна

2. Разбираем предложение от Ленни: стоит ли оно того? - объяснил, почему подписка не скам, что может быть полезно, что нет и кому стоит брать

3. Поигрался с Google Veo 2: лучшая, но далеко неидеальная модель для генерации видео - делюсь впечатлениями про модель Гугла для генерации видео, к которой у меня появился доступ

4. Affine - симбиоз Notion и Miro, напичканный AI - рассказываю как я нашел лучшую, на мой взгляд, альтернативу Notion, в котором есть и AI и функции Miro

5. Про Vibe Coding - здесь рекомендую подписаться на канал моего коллеги, в котором много информации по ИИ-программированию, или так называемом Вайб Кодинге.

6. Как работают иностранцы: мой опыт кросскультурной коммуникации - рассказал про свой опыт работы с иностранцами, в комментариях подписчики поделились своим. Собираем базу отзывов 🙂

7. Экономим на подписках: как использовать все LLM эффективно и тратить меньше - поделился своим подходом к экономии на LLM и парой приложений и сервисов, которые в этом помогут

8. Опрос о необходимости разработки курса по ИИ-программированию - в рамках обоих моих тренингов у меня есть модуль по ИИ-программированию. Работая над уроком понял, что материала там вполне хватает на отдельный курс, который можно было бы пройти в более спокойном темпе. Если вам интересно такое, проголосуйте в опросе и я запущу фокус-группу в ближайшее время.

9. Что посеешь, то и пожнешь: почему новые модели OpenAI галлюцинируют чаще старых - разбираю, что не так с послежними моделями с опорой на самые свежие исследования

Прошлый дайджест тут

Please open Telegram to view this post

VIEW IN TELEGRAM

NGI | Влад Корнышев про AI и создание AI-продуктов

Как получить набор лучших ИИ-инструментов за $200 вместо $14 000+

Ленни Рачицкий - один из немногих продактов, за которыми я слежу, запустил аукцион невиданной щедрости. Для контекста: Ленни - основатель стартапа Localmind, который был в 2012 году приобретен…

👍7

419 viewsVlad Kornyshev, edited 09:01

NGI | Влад Корнышев про AI и создание AI-продуктов