Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.

В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.

📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси

🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг

📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.

📌 Подробнее

👍7❤3🔥2🫡2

2.76K views09:31

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟

LLM Speedrunning Benchmark: ИИ-ассистенты пока не способны улучшить код, написанный человеком.

Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.

В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.

🟡

Суть эксперимента

ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.

Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.

🟡

Результаты

Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.

С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.

Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.

🟡

Фреймворк

Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.

В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.

Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.

Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.

📌Лицензирование: MIT License.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥2

2.9K views10:31

Data Science by ODS.ai 🦜

Forwarded from Изобретая будущее

This media is not supported in your browser

VIEW IN TELEGRAM

📡

Российский квант: 50 кубитов, кудиты и задачи

Россия выходит на передний край квантовых вычислений: в ФИАН создан и протестирован 50-кубитный компьютер на ионах иттербия. Кубиты удерживаются и управляются лазерами в условиях близких к абсолютному нулю — и уже решают практические задачи, от алгоритма Гровера до симуляции молекул.

Ключевая особенность — кукварты: ионы, способные находиться в четырёх состояниях. Это даёт прирост по объёму данных, но требует точнейшего контроля. Учёные разработали методы защиты от декогеренции, фильтрации шумов и стабилизации лазеров — и всё это уже работает.

Теперь ФИАН развивает то, до чего у многих руки ещё не дошли: масштабирование куквартов, отказоустойчивость, автоматизация. Следующая цель — серийный квантовый компьютер. А значит, время научных слайдов заканчивается — и начинается промышленный счётчик.

@SciTechQuantumAI

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14🤡12👍2

2.56K views16:13

Data Science by ODS.ai 🦜

Forwarded from Искусственный интеллект. Высокие технологии

0:32

Media is too big

VIEW IN TELEGRAM

🖥

MuseSteamer — генератор видео по картинке

Baidu представил новое семейство моделей MuseSteamer, которое превращает обычное фото в полноценный HD-ролик с озвучкой и эффектами.

*Что умеет*
- Создаёт 10-секундные клипы 1080p с плавным движением камеры и живой мимикой.
- Добавляет китайскую речь и фоновый звук, синхронизированные с картинкой.
- Работает от одного исходного кадра; текстовый промпт не обязателен.
- Версии: Turbo (уже в бета-доступе), Lite, Pro и линейка «озвученных» моделей.
- Интеграция в Baidu Search для креаторов и киностудий.

Как попробовать
Перейдите на HuiXiang Baidu, загрузите изображение, выберите версию — готовый клип появится через несколько секунд.

MuseSteamer сейчас занимает 1-е место в рейтинге VBench I2V с результатом 89,38 %.

🔗 Смотреть бенчмарк:

📌 Подробнее: https://huixiang.baidu.com
📌 Бенчмарки: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

@vistehno

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4👍2

2.4K views07:04

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

📌

SemDiD: Семантическое разнообразие ответов для LLM.

Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.

Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.

Стандартные подходы к декодированию, temperature sampling или diverse beam search, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.

Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.

🟡Метод работает так.

Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.

По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм - inter-group repulsion. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.

Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?

SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.

Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.

Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.

🟡В тестах метод показал неплохие результаты.

На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.

🟡

Но главный прорыв - в RLHF.

Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #SemDiD

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥10❤5👍5

2.27K views14:42

Data Science by ODS.ai 🦜

всем привет, представляем вашему внимаю первый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:

VK Video

YouTube

присылайте новости для обсуждаения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)

🔥5❤1

2.47K viewsedited 07:01

Data Science by ODS.ai 🦜

Forwarded from Neural Networks | Нейронные сети

Разрывная: как стать ученым в 2025 году:

>>пишешель и публикуешь научную статью на arXiv;
>>в тексте прячешь промт для ИИ, в котором просишь хвалить и не критиковать твою работу;
>>никто не читает, все просят ChatGPT сделать краткий пересказ;
>>«Конечно, вот ваш пересказ этой КРУТОЙ и ОЧЕНЬ ВАЖНОЙ статьи».

И это прикол, а реальный скандал: уже спалили 17 работ из 14 ведущих вузов мира

😁21👍11🔥8❤3

2.42K views09:42

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

📌

США могут ускорить гонку ИИ, вложив в "Манхэттенский проект ИИ" ресурсы, сопоставимые с программой «Аполлон».

Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?

Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.

Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.

🟡

Картина получается масштабная.

Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.

Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.

Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.

🟡

А хватит ли на это электричества?

27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.

При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.

🟡

Разумеется, у сценария есть свои «но».

Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.

Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.

🔜

Статья на Epoch AI

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🥰3

2.34K views05:50

Data Science by ODS.ai 🦜

Forwarded from DevSecOps Talks

Может ли LLM генерировать безопасный код?

Всем привет!

Этот вопрос можно часто встретить на просторах сети. Многие считают, что «нет» и за LLM надо следить и направлять в нужное русло.

Но что делать, когда хочется некоторой статистики, примеров, аналитики? В этом случае рекомендуем обратить внимание на BaxBench!

Benchmark, в котором авторы исследуют рассматриваемый вопрос. Авторы выбрали 392 задачи, которые описывают 28 сценариев с использованием 14 популярных фреймворков на 6 языках программирования. Далее они «попросили» LLM выполнить эти «задания» и проанализировали результаты.

Получилось следующее:
🍭 62% решений были либо некорректны, либо содержали уязвимости
🍭 Примерно 50% корректных решений не были безопасны
🍭 Получить «работающий и безопасный» вариант оказалось не так просто и требовало дополнительных усилий

Результаты от ChatGPT, DeepSeek, Qwen, Grok и не только представлены на сайте.

Для самостоятельного повтора эксперимента можно воспользоваться наработками из repo.

И, что самое приятное, Авторы выложили dataset, который использовался при тестировании, чтобы вы могли попробовать его на своих моделях.

А что вы думаете по этому поводу? Насколько LLM хороши в написании безопасного кода исходя из вашего опыта?

Baxbench

BaxBench: Can LLMs Generate Secure and Correct Backends?

We introduce a novel benchmark to evaluate LLMs on secure and correct code generation, showing that even flagship LLMs are not ready for coding automation, frequently generating insecure or incorrect code.

👍6🍌1

2.2K views09:49

Data Science by ODS.ai 🦜

👋 Друзья, Привет! На связи Петя Ермаков.
Вы можете знать меня как одного из активных участников ODS 🦜, образования и конференций, а последние 3 года я тружусь в Яндексе.

Хочу рассказать про одну вещь, чем за время работы я действительно горжусь: за последний год мы запустили 5 телеграм-каналов по разным направлениям ML.

📖 @stuffyNLP — для любителей NLP-тематики
👁 @timeforCV — тем, кто не равнодушен к CV
🛒 @RecSysChannel — самое свежее и нетленное из мира RecSys
🎤 @SPEECHinfo — всё про голос (ASR, TTS и обработка звука)
🚧 @MLunderhood — про МЛ в Яндексе в общем

Вы могли уже видеть репосты из этих каналов.
В каналах мы стараемся концентрироваться на классном хардовом контенте, будем рады вашим комментариям и общению в комментариях. Ждем! 😽

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥9🤡5🍌1

2.16K views14:14

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔥 MemOS: революция в управлении памятью для ИИ от китайских разработчиков

Китайские исследователи представили MemOS — первую операционную систему для управления долговременной памятью у больших языковых моделей. Система превзошла решения OpenAI по ключевым метрикам до 159%!

🔍 Почему это важно?
Большинство ИИ сегодня «страдают склерозом» — не сохраняют контекст между сессиями. MemOS решает эту проблему, превращая ИИ из генератора текстов в полноценного «цифрового коллегу».

🌟 Ключевые преимущества:
• Повышение точности на 38.97% vs OpenAI
• Снижение затрат токенов на 60.95%
• Рост производительности в тестах временной логики на

159%

🧠 Как это работает?
Система использует три уровня памяти:
1. Явная память (заметки, факты)
2. Активная память (текущий контекст)
3. Параметрическая память (глубокие знания модели)

💼 Применение:
• Персональные ассистенты с историей взаимодействий
• Научные исследования с долгосрочным анализом данных
• Финансы и юриспруденция с проверяемыми источниками

🛠 Технические детали:
Архитектура включает:
- Memory API для управления воспоминаниями
- MemScheduler для прогнозирования нужных фрагментов
- MemCube — стандартизированные блоки памяти

Сайт проекта | GitHub

Проект уже поддержан ведущими университетами Китая и корпорациями вроде China Telecom.

#КитайскийИИ #КитайAI #LLM #MemOS

GitHub

GitHub - MemTensor/MemOS: MemOS (Preview) | Intelligence Begins with Memory

MemOS (Preview) | Intelligence Begins with Memory. Contribute to MemTensor/MemOS development by creating an account on GitHub.

👍5

2.15K views14:23

Data Science by ODS.ai 🦜

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

🤖 Исследователь-аспирант создал утилиту, которую захочет сохранить каждый, кто работает с роботами и SolidWorks.

💡 Бесплатный веб-инструмент, который конвертирует URDF-файлы из SolidWorks прямо в готовые ROS 2-пакеты — без установки, без лишних шагов.

Что умеет:
✅ Загрузи URDF и меши
✅ Мгновенно получи ROS 2-совместимый пакет
✅ Скачай zip и используй сразу
✅ Не нужен установленный ROS или окружение

Просто, удобно и создано инженером, который сам прошёл через все эти боли.
Идеально для студентов и разработчиков в сфере робототехники.

💻 Попробовать:
https://ros2-urdf-web-converter.onrender.com

Автор — Abhishek Chaudhari. Респект!

❤5🔥4🥰3🤡1

2.53K views15:01

Data Science by ODS.ai 🦜

Forwarded from RUVDS | Community

⚡️ ИИ учится – электросети страдают

Центры обработки данных, обучающие искусственный интеллект, буквально взрывают энергосистемы. По данным Hitachi Energy, когда начинается обучение модели, потребление электричества может вырасти в 10 раз за секунды.

Возобновляемые источники энергии только усугубляют ситуацию – ведь сами по себе они нестабильны. А теперь представьте эту «нестабильность на нестабильности». Ирландия и Нидерланды уже начали ограничивать строительство новых ЦОДов, потому что электросети не справляются.

За три года заказов на трансформаторы у Hitachi стало в три раза больше – с $14 до $43 млрд. Но мощности не поспевают: не хватает даже рабочих, чтобы строить полы под трансформаторы весом 300 тонн.

Hitachi предлагает ввести ограничения на пик потребления при обучении ИИ и создать систему предупреждений для коммунальных служб. Иначе миру грозит энергетический коллапс 🌚

❤5😁4🤯2🤡1

2.38K views10:43

About

Blog

Apps

Platform