📈 ТехноТренды: Технологии, Тренды, IT
1.14K subscribers
123 photos
23 videos
7 files
225 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Умеет ли думать искусственный интеллект? Статья Apple вызвала бурную дискуссию в индустрии

LRM — большая «рассуждающая» (reasoning) модель — маркетинговый термин, в который разработчики вкладывают свое понимание, а публика свое. При этом процесс ризонинга на самом деле изучен очень мало. Считается, что чем больше бюджет токенов, тем выше качество ответов. Но не всё так однозначно ©.

Иллюзия мышления?

Накануне очередной конференции WWDC эксперты Apple выпустили статью «The Illusion of Thinking», посвященную результатам тестирования передовых LRM, таких как OpenAI o1 и o3, DeepSeek R1, Claude 3.7 Sonnet и др. в сравнении с обычными LLM.

Целью тестов было проверить, как работает ризонинг на простых алгоритмических головоломках: «Ханойская башня», «Переправа через реку» и «Мир блоков». Условия задач постепенно усложнялись, оценивалось качество «мышления» при увеличении нагрузки.

Тесты показали следующее:

1️⃣ Резкое падение точности по мере усложнения задач. При превышении определенного уровня сложности (например, при добавлении очередного диска в Ханойской башне) способность моделей решать задачи падает до нуля.

2️⃣ Столкнувшись с трудной задачей, LRM резко сокращают затраты ресурсов на рассуждения — как ленивые студенты, пасующие перед трудностями. Здесь есть нюансы:
• С простыми задачами «нерассуждающие» LLM часто справляются лучше. LRM склонны к overthinking’у: быстро получив правильный ответ, не фиксируют его и продолжают «думать», пока не израсходуют бюджет токенов.
• На задачах средней сложности LRM выигрывают благодаря механизмам цепочек рассуждений.
• На сложных задачах падает эффективность всех моделей, что говорит о фундаментальных ограничениях масштабируемости.

3️⃣ Неспособность следовать четким алгоритмам. Даже имея алгоритм решения задачи, модели терпят неудачу на тех же уровнях сложности.

4️⃣ Непоследовательность ризонинга. Модели могут успешно решить «Ханойскую башню» с множеством шагов, но провалиться на более простой «Переправе».

Исследователи Apple делают вывод: системы ИИ не обладают истинной способностью к рассуждению. Их работа основана на запоминании паттернов и статистическом прогнозировании, а не на универсальном логическом анализе. Пресловутый AGI всё еще остаётся фантастикой.

Или иллюзия иллюзии?

Конкуренты нашли, что ответить. Вышла контр-статья с критикой методов исследования Apple. Если кратко — тестировщики намеренно «валили» LRM:
• автоматическая система оценки засчитывала ответ, только если модель явно перечисляла все шаги решения, и игнорировала решения без «росписи» действий;
• в тестах присутствовали заведомо нерешаемые задачи (например, о переправе N ≥ 6 для трехместной лодки), но модели всё равно получали нулевой балл за «провал»;
• моделям выдавали слишком мало токенов, что мешало полноценно рассуждать. И т.д.

Забавно, что один из двух соавторов дисса — Claude Opus от Anthropic. LRM вписалась за LRM ))

Главное — вовремя задать вопрос

Исследование Apple вышло хоть и спорным, но очень своевременным, чтобы вернуть наше внимание к некоторым ключевым темам.

👉 То, что называется «рассуждениями» ИИ, по сути является высокоразвитой формой спекуляции шаблонами. (Это было понятно и раньше, но маркетинг всех оглушил). Необходимо более критично оценивать «связность» и «логичность» выводов моделей, искать объективные критерии оценки, изучать механизмы самокоррекции моделей, выявлять фундаментальные недостатки и явные ограничения масштабирования.

👉 Концепция «сопутствующего интеллекта» как сценарий на ближайшее будущее более реалистична, чем гипотетический AGI. Ограничения LRM актуализируют необходимость участия человека в работе ИИ.

👉 Достижение AGI, как очевидно, невозможно за счет простого масштабирования LRM. Прежде надо разобраться, что реально происходит в «уме» нейросетей, понять причины ограниченности моделей, а потом уже, возможно, создать более надежный и по-настоящему мыслящий ИИ.

#ИИ #LRM #исследования

🚀 ©ТехноТренды
👍1