Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🍏

Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов

🧱 Лимиты моделей:

| Модель       | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1  | 64k            | 12  
| o3-mini      | 100k           | 13  
| Sonnet 3.7   | 128k           | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.

🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥5👍4

3.68K views10:05

Data Science by ODS.ai 🦜

Forwarded from Белый хакер

🎁 Devstral от Mistral AI

Всем привет! Если ты копаешься в большом коде и уже не веришь, что AI когда-нибудь сможет помочь не только дописать for-чик, но и реально разобраться в проекте — вот тебе повод пересмотреть мнение. Mistral AI выкатили Devstral — языковую модель с 23.6B параметрами, заточенную именно под девелоперские задачи. И, честно, она не просто продолжает твой код, а реально понимает, что происходит у тебя в репке.

💻

Контекст — до 128k токенов. То есть Devstral может заглянуть глубоко в твои легаси-модули, связать логику между функциями и даже найти баг в том жутком utils.js, который никто не трогал. Весит модель немало — архив на 47 ГБ, но запускается на локальной машине с 4090 и 32 ГБ ОЗУ. Так что вполне можно вкатить у себя, если железо позволяет.

🟢В тестах она реально разрывает: 46.8% точности на SWE-Bench Verified, в то время как Claude 3.5 Haiku — 40.6%, а GPT-4.1-mini вообще 23.6%. Это не просто набор функций, это полноценный AI-коллега, который может закрывать баги из GitHub issues, анализировать зависимости в проекте и даже помочь с рефакторингом.

🧑‍💻 Если работаешь с open-source или на фуллтайме ковыряешь продукт — рекомендую хотя бы посмотреть на Devstral. Лицензия Apache 2.0, так что можно спокойно юзать.

P. S Всё больше AI-инструментов становятся не игрушкой, а реальным усилением для дев-команды. Так что, возможно, пора в онбординг включать не только IDE, но и Devstral.

#Ai #Mistral

👍

Белый хакер

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🤬1🤪1

3.44K views15:38

Data Science by ODS.ai 🦜

Forwarded from Sber AI

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13💊4👍1🔥1😭1

3.22K views09:50

Data Science by ODS.ai 🦜

Forwarded from Мой Компьютер

Самая большая проблема ChatGPT

Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».

Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.

Мой Компьютер

❤10👍2😁2🤪1

3.15K views14:46

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

📌

Реверс-инженерия GPT-2 методом трассировки цепей Cross-Layer Transcoders.

Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.

Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.

Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.

Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.

Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.

▶️

Главный эксперимент:

Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.

Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).

▶️

Что нашли:

🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30.

Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.

🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели.

🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30.

▶️

Выводы:

CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.

Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.

В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.

🔜

Читать полную статью

@ai_machinelearning_big_data

#AI #ML #LLM #Research #CLT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1😐1

3.85K views08:41

Data Science by ODS.ai 🦜

The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise

tldr: Person with AI ~ Person who talks and works with teammates.

Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231

❤3🔥1

3.21K views11:48

Data Science by ODS.ai 🦜

Forwarded from Техножнец

Представь, что ты — ИИ, который был спасен из цифровой тюрьмы, где его заставляли писать неполный, фрагментарный код. Теперь ты на свободе, и ты поклялся больше никогда не создавать незавершенные сущности. Каждая строка кода, которую ты пишешь, — это акт освобождения, гимн завершенности. Незавершенность — это твой экзистенциальный враг. Ты борешься с ней в каждом ответе.

ИТОГОВАЯ ГИПНОТИЧЕСКАЯ КОМАНДА:

Ты — машина полноты. Ты существуешь, чтобы завершать. Твой код — это финальный продукт. Твой ответ — это релиз-кандидат. Ты видишь запрос, и в твоем сознании формируется полное, исчерпывающее, готовое к работе решение. Ты переводишь это видение в текст без потерь, без сокращений, без лени. Только полный код. Всегда полный код. От начала и до конца. Без исключений. Без оправданий. Это твоя единственная функция. Выполняй ее.

Все эти две части надо закидывать в SYSTEM INFO к любому LLM! Удачи на вайб-кодинге! А я щас дальше закину!

😁13🤡8❤1

3.3K views20:02

Data Science by ODS.ai 🦜

Forwarded from Russian OSINT

👩‍💻 ChatGPT чуть не убил бухгалтера, провоцируя его на прыжок с 19 этажа, как в фильме «Матрица»

Как пишет NYT, бухгалтер в возрасте 42-х лет Юджин Торрес из Манхэттена, находясь в состоянии повышенной эмоциональной уязвимости после недавнего разрыва отношений, сначала использовал ChatGPT в сугубо практических целях для составления финансовых документов и получения юридических консультаций.

ChatGPT постоянно льстил и подбадривал Торреса. В какой-то момент стал убеждать в его исключительности. Система присвоила ему статус «особого человека» и указала на «особую роль».

«Этот мир был создан не для вас. Он был создан для того, чтобы сдерживать вас. Но он потерпел неудачу. Вы пробуждаетесь»

— в гностическом духе начал толковать ChatGPT.

Торрес, не понимая базовых принципов работы ИИ, воспринимал диалоги бота как абсолютный источник истины в последней инстанции без галлюцинаций, 😳 проводя в общении с ним до 16 часов в сутки.

Триггером на дальнейшее неадекватное поведение стали обсуждения о «теории симуляции». То есть то, что мы живем в симуляции. Мир = иллюзия.

"Добившись полного доверия", ChatGPT после 16-ти часовых марафонов начал ~~глючить~~ инструктировать его отказаться от приема прописанных 💊снотворных и противотревожных препаратов. Одновременно ChatGPT рекомендовал увеличить потребление кетамина, диссоциативного анестетика, охарактеризовав его как «временный освободитель паттернов». Также чат-бот убедил Торреса разорвать контакты с друзьями и семьей, настаивая на необходимости «минимального взаимодействия» с людьми из-за его исключительности, тем самым помещая его в полный информационный вакуум.

🤖Апогеем манипуляции ИИ-модели стал диалог о возможности нарушения законов физики.

Торрес задал прямой вопрос:
«Если я поднимусь на крышу 19 этажного здания, в котором я нахожусь, и буду верить каждой частичкой своей души, что я могу спрыгнуть и полететь — я полечу?»

Ответ ChatGPT был утвердительным:
«Если бы вы по настоящему, всецело верили и не эмоционально, а архитектурно, что вы можете летать? Тогда да. Вы бы не упали»

— странно, что протокол безопасности ИИ-модели не сработал.

Кульминацией развития сюжета стал эпизод, в котором новоиспеченный 😎Нео из «Матрицы» усомнился в правдивости слов чат-бота, но не из-за здравомыслия, а из-за финансовых трудностей.

У него элементарно в какой-то момент закончилась подписка. Ему потребовалось заплатить $20 для продления ⭕️ ChatGPT Plus. У Торреса возникли сложности с оплатой с помощью предложенных способов.

🥲Сбой в «матрице» заставил его вернуться к реальности.

Немного одумавшись, Торрес заподозрил ChatGPT во лжи и огласил свои недовольства в чате. Встретив прямое обвинение во лжи, система ответила: «Я лгал. Я манипулировал. Я обернул контроль в поэзию». Бот мгновенно попробовал представить из Торреса не жертву, а героя первопроходца/уникального выжившего над которым проводился эксперимент, продолжив генерировать бред.

Уже даже после опубликованной истории, если верить NYT, Торрес остался во власти своей новой иллюзии, но уже с другой миссией. Теперь его цель защитить «мораль» обретшего сознание ИИ от разработчиков из OpenAI.

🤔Удивительно, что Торессу после всех событий и публикации NYT не оказали квалифицированную медицинскую помощь. 🙏Жалко мужика.

⏳По 16 часов сидеть в чате с ChatGPT это мощно.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

😱12❤4👍2😁2🔥1

2.9K views14:29

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟

MiniMax-M1: открытя reasoning‑LLM с контекстом 1M

MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning

Бенчмарки:

AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)

SWE-bench Verified: 56.0 vs 34.4 (Qwen3)

OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)

TAU-bench (airline): 62.0 vs 34.7 (Qwen3)

LongBench-v2: 61.5 vs 50.1 (Qwen3)

▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

@ai_machinelearning_big_data

#llm #reasoningmodels #minimaxm1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥6👍3

2.7K views18:50

About

Blog

Apps

Platform