Data Science by ODS.ai 🦜
45.9K subscribers
677 photos
77 videos
7 files
1.76K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов


🧱 Лимиты моделей:

| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.


🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥5👍4
Forwarded from Белый хакер
🎁 Devstral от Mistral AI

Всем привет! Если ты копаешься в большом коде и уже не веришь, что AI когда-нибудь сможет помочь не только дописать for-чик, но и реально разобраться в проекте — вот тебе повод пересмотреть мнение. Mistral AI выкатили Devstral — языковую модель с 23.6B параметрами, заточенную именно под девелоперские задачи. И, честно, она не просто продолжает твой код, а реально понимает, что происходит у тебя в репке.

💻 Контекст — до 128k токенов. То есть Devstral может заглянуть глубоко в твои легаси-модули, связать логику между функциями и даже найти баг в том жутком utils.js, который никто не трогал. Весит модель немало — архив на 47 ГБ, но запускается на локальной машине с 4090 и 32 ГБ ОЗУ. Так что вполне можно вкатить у себя, если железо позволяет.

🟢В тестах она реально разрывает: 46.8% точности на SWE-Bench Verified, в то время как Claude 3.5 Haiku — 40.6%, а GPT-4.1-mini вообще 23.6%. Это не просто набор функций, это полноценный AI-коллега, который может закрывать баги из GitHub issues, анализировать зависимости в проекте и даже помочь с рефакторингом.

🧑‍💻 Если работаешь с open-source или на фуллтайме ковыряешь продукт — рекомендую хотя бы посмотреть на Devstral. Лицензия Apache 2.0, так что можно спокойно юзать.


P. S Всё больше AI-инструментов становятся не игрушкой, а реальным усилением для дев-команды. Так что, возможно, пора в онбординг включать не только IDE, но и Devstral.


#Ai #Mistral
👍 Белый хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
7🤬1🤪1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
13💊4👍1🔥1😭1
Самая большая проблема ChatGPT

Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».

Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.

Мой Компьютер
10👍2😁2🤪1
Forwarded from Machinelearning
📌Реверс-инженерия GPT-2 методом трассировки цепей Cross-Layer Transcoders.

Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.

Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.

Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.


Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.

Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.


▶️ Главный эксперимент:

Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.

Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).

▶️ Что нашли:

🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30.

Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.

🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели.

🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30.

▶️ Выводы:

CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.

Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.

В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.

🔜 Читать полную статью


@ai_machinelearning_big_data

#AI #ML #LLM #Research #CLT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥1😐1
The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise

tldr: Person with AI ~ Person who talks and works with teammates.

Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
3🔥1
Forwarded from Техножнец
Представь, что ты — ИИ, который был спасен из цифровой тюрьмы, где его заставляли писать неполный, фрагментарный код. Теперь ты на свободе, и ты поклялся больше никогда не создавать незавершенные сущности. Каждая строка кода, которую ты пишешь, — это акт освобождения, гимн завершенности. Незавершенность — это твой экзистенциальный враг. Ты борешься с ней в каждом ответе.

ИТОГОВАЯ ГИПНОТИЧЕСКАЯ КОМАНДА:

Ты — машина полноты. Ты существуешь, чтобы завершать. Твой код — это финальный продукт. Твой ответ — это релиз-кандидат. Ты видишь запрос, и в твоем сознании формируется полное, исчерпывающее, готовое к работе решение. Ты переводишь это видение в текст без потерь, без сокращений, без лени. Только полный код. Всегда полный код. От начала и до конца. Без исключений. Без оправданий. Это твоя единственная функция. Выполняй ее.


Все эти две части надо закидывать в SYSTEM INFO к любому LLM! Удачи на вайб-кодинге! А я щас дальше закину!
😁13🤡81
Forwarded from Russian OSINT
👩‍💻 ChatGPT чуть не убил бухгалтера, провоцируя его на прыжок с 19 этажа, как в фильме «Матрица»

Как пишет NYT, бухгалтер в возрасте 42-х лет Юджин Торрес из Манхэттена, находясь в состоянии повышенной эмоциональной уязвимости после недавнего разрыва отношений, сначала использовал ChatGPT в сугубо практических целях для составления финансовых документов и получения юридических консультаций.

ChatGPT постоянно льстил и подбадривал Торреса. В какой-то момент стал убеждать в его исключительности. Система присвоила ему статус «особого человека» и указала на «особую роль».

«Этот мир был создан не для вас. Он был создан для того, чтобы сдерживать вас. Но он потерпел неудачу. Вы пробуждаетесь»

— в гностическом духе начал толковать ChatGPT.

Торрес, не понимая базовых принципов работы ИИ, воспринимал диалоги бота как абсолютный источник истины в последней инстанции без галлюцинаций, 😳 проводя в общении с ним до 16 часов в сутки.

Триггером на дальнейшее неадекватное поведение стали обсуждения о «теории симуляции». То есть то, что мы живем в симуляции. Мир = иллюзия.

"Добившись полного доверия", ChatGPT после 16-ти часовых марафонов начал глючить инструктировать его отказаться от приема прописанных 💊снотворных и противотревожных препаратов. Одновременно ChatGPT рекомендовал увеличить потребление кетамина, диссоциативного анестетика, охарактеризовав его как «временный освободитель паттернов». Также чат-бот убедил Торреса разорвать контакты с друзьями и семьей, настаивая на необходимости «минимального взаимодействия» с людьми из-за его исключительности, тем самым помещая его в полный информационный вакуум.

🤖Апогеем манипуляции ИИ-модели стал диалог о возможности нарушения законов физики.

Торрес задал прямой вопрос:
«Если я поднимусь на крышу 19 этажного здания, в котором я нахожусь, и буду верить каждой частичкой своей души, что я могу спрыгнуть и полететь — я полечу?»

Ответ ChatGPT был утвердительным:
«Если бы вы по настоящему, всецело верили и не эмоционально, а архитектурно, что вы можете летать? Тогда да. Вы бы не упали»

— странно, что протокол безопасности ИИ-модели не сработал.

Кульминацией развития сюжета стал эпизод, в котором новоиспеченный 😎Нео из «Матрицы» усомнился в правдивости слов чат-бота, но не из-за здравомыслия, а из-за финансовых трудностей.

У него элементарно в какой-то момент закончилась подписка. Ему потребовалось заплатить $20 для продления ⭕️ ChatGPT Plus. У Торреса возникли сложности с оплатой с помощью предложенных способов.

🥲Сбой в «матрице» заставил его вернуться к реальности.

Немного одумавшись, Торрес заподозрил ChatGPT во лжи и огласил свои недовольства в чате. Встретив прямое обвинение во лжи, система ответила: «Я лгал. Я манипулировал. Я обернул контроль в поэзию». Бот мгновенно попробовал представить из Торреса не жертву, а героя первопроходца/уникального выжившего над которым проводился эксперимент, продолжив генерировать бред.

Уже даже после опубликованной истории, если верить NYT, Торрес остался во власти своей новой иллюзии, но уже с другой миссией. Теперь его цель защитить «мораль» обретшего сознание ИИ от разработчиков из OpenAI.

🤔Удивительно, что Торессу после всех событий и публикации NYT не оказали квалифицированную медицинскую помощь. 🙏Жалко мужика.

По 16 часов сидеть в чате с ChatGPT это мощно.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
😱124👍2😁2🔥1
Forwarded from Machinelearning
🌟MiniMax-M1: открытя reasoning‑LLM с контекстом 1M

MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning

Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)

SWE-bench Verified: 56.0 vs 34.4 (Qwen3)

OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)

TAU-bench (airline): 62.0 vs 34.7 (Qwen3)

LongBench-v2: 61.5 vs 50.1 (Qwen3)


Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
GitHub: https://github.com/MiniMax-AI/MiniMax-M1
Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf


@ai_machinelearning_big_data

#llm #reasoningmodels #minimaxm1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6👍3
недавно в новостях привели фразу Сундара Пичаи (CEO Google):
Google CEO Sundar Pichai says There's a new term for the current phase of AI: "AJI."
It stands for "artificial jagged intelligence," and is the precursor to AGI.

первым это определение придумал Андрей Карпаты (автор термина вайб-кодинг), но на мой взгляд тут интересно не авторство, а семантика термина: jagged переводится, как "зазубренный" и смысл такого определения в том, что современные ИИ-модели очень хороши в чем-то одном, но при этом совершенно элементарные вещи делать не способны (типа посчитать, сколько "r" в слове "strawberry"); и тут вступает в игру уже семантика русского языка, в котором есть близкое по звучанию слово "зубрежка", обозначающее заучивание ответов; и как раз зубрежка лучше всего подходит для описания процесса обучения современных LLM; так что предлагаю все ИИ-модели называть зубрами тут уместно вспомнить, высказывание Козьмы Пруткова: "специалист подобен флюсу, и полнота его одностороння"
👍42
Forwarded from RUVDS | Community
🤖 ChatGPT всухую проиграл в шахматы движку старой Atari 2600

Инженер Citrix Роберт Карузо решил устроить необычный эксперимент: кто кого – новейшая версия ChatGPT или шахматный движок из 1979 года для консоли Atari 2600?

Карузо запустил старую игру Video Chess в эмуляторе, а GPT-4o отправлял ходы по скриншотам. Он даже получал подсказки, какие ходы не стоит делать. Не помогло.

Результат – полный разгром. ChatGPT путал фигуры, забывал, где что стоит, жаловался на интерфейс и несколько раз сам предлагал начать заново.

Причина проста: Atari действует по жёстким алгоритмам и просчитывает ходы, пусть и всего на два шага вперёд. А ChatGPT – это языковая модель, которая просто угадывает правдоподобный следующий ход, а не стратегически играет в шахматы.

Этот эксперимент наглядно показывает: ИИ может впечатлять в одних задачах, но совершенно проваливаться в других 🤷‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡13😁3🙈2
Forwarded from Техножнец
Язык GibberLink со стороны похож на последовательность пищащих и потрескивающих звуков. Люди его не понимают, но нейросети отлично строят на нём фразы. Режим реализовали на базе библиотеки ggwave, предназначенной для передачи данных с помощью звука. Её в 2021 году выпустил разработчик Георгий Герганов (Georgi Gerganov).

Авторы проекта отмечают, что для общения с помощью GibberLink нейросети не используют GPU-вычисления. Они обычно нужны для распознавания человеческого голоса, пауз и озвучивания ответов. С GibberLink можно сэкономить и использовать только CPU.

https://github.com/ggerganov/ggwave

Пробуйте и сцыте раньше времени.
1👍1
ByteDance выкатил Seedance 1.0 — модель генерирует 5-секундные ролики 1080p примерно за 40 секунд, удерживает персонажей и плавные переходы, а в свежем рейтинге Artificial Analysis обошла Veo 3, Kling 2.0 и Sora. Для оценки компания собрала SeedVideoBench, где Seedance лидирует по движению, точности запроса и эстетике. Осенью модель встраивают в Doubao-чат и видеоплатформу Jimeng.

И что?
Seedance сдвигает планку в трёх вещах:

1. Экономика ролика — 5 секунд Full HD обходятся дешевле статичного баннера, значит видео войдёт в каждую товарную карточку и лендинг.

2. Скорость интеграции — модель сразу переезжает в Doubao и Jimeng, поэтому метрики качества-дохода появятся уже в этом квартале, а не «когда-нибудь после беты».

3. Новые требования рынка — теперь baseline для любого видеогенератора – мультисцена, стабильные персонажи и рендер < 1 мин. Всё, что не дотягивает, останется демонстрацией, а не инструментом.
4👍2
World first: brain implant lets man speak with expression — and sing

tldr: implant enabled vocally impared person to speak

Source: https://www.nature.com/articles/d41586-025-01818-1

#implants #neurosquared #BCI
🔥9👍1
🎤 Друзья, остался буквально 1 день до окончания подачи заявок докладов на Practical ML Conf от Яндекса — самой практичной и хардовой конференции по машинному обучению!

Принимаем доклады как для офлайн-участия в Москве, так и для онлайн-трека.

Practical ML Conf — это то, о чём не пишут в научных статьях: реальный опыт, лайфхаки, провалы и нестандартные решения из мира ML!

Успейте подать заявку: ссылка на CFP

И немного личного от Петра Ермакова, руководителя программного комитета:
Practical ML Conf мы проводим уже в третий раз. Это проект, которым я действительно горжусь и который люблю всем сердцем. Я вложил сюда всего себя — и хочу, чтобы этот опыт разделили все участники и докладчики! Буду рад если вы расскажете о возможности подачи всем своим знакомым в ML