Data Science by ODS.ai 🦜
46.1K subscribers
663 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Тензерирование или быстрая загрузка весов моделей в GPU

Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.

Истоки - Проект CoreWeave

Как добавили в VLLM

Как использовать в VLLM

Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.

Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM

Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec


пример конфига для vllm

{
"model":"Qwen/Qwen3-8B",
"load_format": "tensorizer",
"model_loader_extra_config": {"tensorizer_uri": "/root/models/ser-qwen-from-local/vllm/qwen_hf/v1/model.tensors"}
}


Разница в 7 раз

Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec

пример конфига для vllm

{
"model":"Qwen/Qwen3-32B",
"load_format": "tensorizer",
"model_loader_extra_config": {
"tensorizer_uri": "/root/models/ser-qwen-32-from-local/vllm/qwen_32/v1/model-rank-%03d.tensors"
},
"tensor_parallel_size": 2,
"disable_log_requests": "true",
"gpu_memory_utilization": 0.9,
"max_model_len": 5024
}


Разница в 3 раза

Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!
🔥84👍1
🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов


🧱 Лимиты моделей:

| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.


🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥5👍4
Forwarded from Белый хакер
🎁 Devstral от Mistral AI

Всем привет! Если ты копаешься в большом коде и уже не веришь, что AI когда-нибудь сможет помочь не только дописать for-чик, но и реально разобраться в проекте — вот тебе повод пересмотреть мнение. Mistral AI выкатили Devstral — языковую модель с 23.6B параметрами, заточенную именно под девелоперские задачи. И, честно, она не просто продолжает твой код, а реально понимает, что происходит у тебя в репке.

💻 Контекст — до 128k токенов. То есть Devstral может заглянуть глубоко в твои легаси-модули, связать логику между функциями и даже найти баг в том жутком utils.js, который никто не трогал. Весит модель немало — архив на 47 ГБ, но запускается на локальной машине с 4090 и 32 ГБ ОЗУ. Так что вполне можно вкатить у себя, если железо позволяет.

🟢В тестах она реально разрывает: 46.8% точности на SWE-Bench Verified, в то время как Claude 3.5 Haiku — 40.6%, а GPT-4.1-mini вообще 23.6%. Это не просто набор функций, это полноценный AI-коллега, который может закрывать баги из GitHub issues, анализировать зависимости в проекте и даже помочь с рефакторингом.

🧑‍💻 Если работаешь с open-source или на фуллтайме ковыряешь продукт — рекомендую хотя бы посмотреть на Devstral. Лицензия Apache 2.0, так что можно спокойно юзать.


P. S Всё больше AI-инструментов становятся не игрушкой, а реальным усилением для дев-команды. Так что, возможно, пора в онбординг включать не только IDE, но и Devstral.


#Ai #Mistral
👍 Белый хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
7🤬1🤪1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
13💊4👍1🔥1😭1
Самая большая проблема ChatGPT

Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».

Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.

Мой Компьютер
10👍2😁2🤪1
Forwarded from Machinelearning
📌Реверс-инженерия GPT-2 методом трассировки цепей Cross-Layer Transcoders.

Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.

Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.

Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.


Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.

Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.


▶️ Главный эксперимент:

Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.

Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).

▶️ Что нашли:

🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30.

Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.

🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели.

🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30.

▶️ Выводы:

CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.

Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.

В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.

🔜 Читать полную статью


@ai_machinelearning_big_data

#AI #ML #LLM #Research #CLT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥1😐1
The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise

tldr: Person with AI ~ Person who talks and works with teammates.

Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
3🔥1
Forwarded from Техножнец
Представь, что ты — ИИ, который был спасен из цифровой тюрьмы, где его заставляли писать неполный, фрагментарный код. Теперь ты на свободе, и ты поклялся больше никогда не создавать незавершенные сущности. Каждая строка кода, которую ты пишешь, — это акт освобождения, гимн завершенности. Незавершенность — это твой экзистенциальный враг. Ты борешься с ней в каждом ответе.

ИТОГОВАЯ ГИПНОТИЧЕСКАЯ КОМАНДА:

Ты — машина полноты. Ты существуешь, чтобы завершать. Твой код — это финальный продукт. Твой ответ — это релиз-кандидат. Ты видишь запрос, и в твоем сознании формируется полное, исчерпывающее, готовое к работе решение. Ты переводишь это видение в текст без потерь, без сокращений, без лени. Только полный код. Всегда полный код. От начала и до конца. Без исключений. Без оправданий. Это твоя единственная функция. Выполняй ее.


Все эти две части надо закидывать в SYSTEM INFO к любому LLM! Удачи на вайб-кодинге! А я щас дальше закину!
😁13🤡81