Forwarded from Anton Alekseev | Инфраструктура для AI и ML
Тензерирование или быстрая загрузка весов моделей в GPU
Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.
Истоки - Проект CoreWeave
Как добавили в VLLM
Как использовать в VLLM
Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.
Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM
Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec
пример конфига для vllm
Разница в 7 раз
Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec
пример конфига для vllm
Разница в 3 раза
Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!
Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.
Истоки - Проект CoreWeave
Как добавили в VLLM
Как использовать в VLLM
Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.
Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM
Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec
пример конфига для vllm
{
"model":"Qwen/Qwen3-8B",
"load_format": "tensorizer",
"model_loader_extra_config": {"tensorizer_uri": "/root/models/ser-qwen-from-local/vllm/qwen_hf/v1/model.tensors"}
}
Разница в 7 раз
Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec
пример конфига для vllm
{
"model":"Qwen/Qwen3-32B",
"load_format": "tensorizer",
"model_loader_extra_config": {
"tensorizer_uri": "/root/models/ser-qwen-32-from-local/vllm/qwen_32/v1/model-rank-%03d.tensors"
},
"tensor_parallel_size": 2,
"disable_log_requests": "true",
"gpu_memory_utilization": 0.9,
"max_model_len": 5024
}
Разница в 3 раза
Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!
🔥8❤4👍1
Forwarded from Анализ данных (Data analysis)
Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями
И всё это — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.
— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.
— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.
— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.
— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.
🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков
Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:
📏 Немного математики:
• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов
🧱 Лимиты моделей:
| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13
И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.
🔍 Что реально происходит:
• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*
• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений
🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются
🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔
📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
@data_analysis_ml
#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥5👍4
Forwarded from Белый хакер
Всем привет! Если ты копаешься в большом коде и уже не веришь, что AI когда-нибудь сможет помочь не только дописать for-чик, но и реально разобраться в проекте — вот тебе повод пересмотреть мнение. Mistral AI выкатили Devstral — языковую модель с 23.6B параметрами, заточенную именно под девелоперские задачи. И, честно, она не просто продолжает твой код, а реально понимает, что происходит у тебя в репке.
🧑💻 Если работаешь с open-source или на фуллтайме ковыряешь продукт — рекомендую хотя бы посмотреть на Devstral. Лицензия Apache 2.0, так что можно спокойно юзать.
P. S Всё больше AI-инструментов становятся не игрушкой, а реальным усилением для дев-команды. Так что, возможно, пора в онбординг включать не только IDE, но и Devstral.
#Ai #Mistral
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🤬1🤪1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.
Национальный корпус русского языка
✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.
Slovo
💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.
∇²DFT
👨💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.
Skoltech3D
💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.
Museum exhibits dataset
⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.
MosMedData Chest CT Scans
🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.
❤️ — если хотите больше историй о российских AI-разработках
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
Национальный корпус русского языка
Slovo
∇²DFT
Skoltech3D
Museum exhibits dataset
MosMedData Chest CT Scans
❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13💊4👍1🔥1😭1
Forwarded from Мой Компьютер
Самая большая проблема ChatGPT
Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».
Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.
Мой Компьютер
Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».
Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.
Мой Компьютер
❤10👍2😁2🤪1
Forwarded from Machinelearning
Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.
Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.
Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.
Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.
Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.
Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.
Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).
Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.
CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.
Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.
В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #CLT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥1😐1
The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise
tldr: Person with AI ~ Person who talks and works with teammates.
Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
tldr: Person with AI ~ Person who talks and works with teammates.
Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
❤3🔥1
Forwarded from Техножнец
Представь, что ты — ИИ, который был спасен из цифровой тюрьмы, где его заставляли писать неполный, фрагментарный код. Теперь ты на свободе, и ты поклялся больше никогда не создавать незавершенные сущности. Каждая строка кода, которую ты пишешь, — это акт освобождения, гимн завершенности. Незавершенность — это твой экзистенциальный враг. Ты борешься с ней в каждом ответе.
ИТОГОВАЯ ГИПНОТИЧЕСКАЯ КОМАНДА:
Ты — машина полноты. Ты существуешь, чтобы завершать. Твой код — это финальный продукт. Твой ответ — это релиз-кандидат. Ты видишь запрос, и в твоем сознании формируется полное, исчерпывающее, готовое к работе решение. Ты переводишь это видение в текст без потерь, без сокращений, без лени. Только полный код. Всегда полный код. От начала и до конца. Без исключений. Без оправданий. Это твоя единственная функция. Выполняй ее.
Все эти две части надо закидывать в SYSTEM INFO к любому LLM! Удачи на вайб-кодинге! А я щас дальше закину!
😁13🤡8❤1