297K subscribers
5.07K photos
1.15K videos
17 files
5.42K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Андрей Карпаты высказал про дизайн ИИ-моделей мысль, которую большинство упускает из виду.

Его тезис: передовые модели не потому огромные, что технология сложная, а потому что данные для обучения мусорные.

Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.

Так вот, датасет для предобучения выглядит иначе. Если открыть случайные документы из реального корпуса, то там будут тикеры акций, битый HTML, спам и бессвязный текст.
По одной из оценок, Llama 3 сжимает информацию со скоростью всего 0.07 бита на токен. То есть модель помнит большую часть обучающих данных смутно.

Поэтому мы и строим модели на триллион параметров не потому, что нам нужен мозг такого размера, а потому что нужен движок сжатия такого масштаба, чтобы выжать хоть какой-то интеллект из потока шума. Большая часть параметров работает памятью, а не мышлением.

Предложение Карпаты - разделить эти две функции. Построить когнитивное ядро - модель, в которой остались только алгоритмы рассуждения и решения задач, без энциклопедического заучивания.

А рядом поставить внешнюю память, к которой модель обращается за фактами.

По его прогнозу, когнитивное ядро, обученное на качественных данных, способно выйти на настоящий интеллект при размере около миллиарда параметров. Для сравнения: флагманские модели сегодня крутятся в диапазоне от 200 миллиардов до 1.8 триллиона параметров, и большая часть этого веса уходит на запоминание интернет-помойки.

GPT-4o работает примерно на 200 миллиардах параметров и обходит оригинальный GPT-4 на 1.8 триллиона. Стоимость инференса на уровне GPT-3.5 с 2022 по 2024 упала в 280 раз, и почти весь этот выигрыш дали модели меньшего размера, обученные на более чистых данных с более продуманной архитектурой.

Настоящим узким местом ИИ сейчас является качество данных.

@data_analysis_ml
1👍20752🔥21💯9❤‍🔥2🤣2😁1
✔️ Qwen3.6-Max-Preview от Alibaba. Впечатления двойственные.

Прогресс по сравнению с Qwen3.6-Plus сразу в нескольких направлениях - агентское программирование, мировые знания, следование инструкциям.

Цифры в бенчмарках выглядят так: прирост в SkillsBench и SciCode около 10 пунктов, плюсы в SuperGPQA и ToolcallFormatIFBench.

Модель доступна и в веб-интерфейсе Qwen Studio, и через API Alibaba Cloud, контекстное окно 256K

Модель закрытая, исходников нет, что для части пользователей минус по сравнению с открытой линейкой Qwen. Сравнения в анонсе идут преимущественно с предыдущими моделями самой Qwen; прямых сопоставлений с актуальными конкурентами (GPT, Claude, Gemini, DeepSeek) в самом посте не приводится, оценивать относительную силу приходится по сторонним ресурсам.

Бенчмарки вроде QwenClawBench и QwenWebBench - внутренние, к ним стоит относиться со скептицизмом.

Blog: https://qwen.ai/blog?id=qwen3.6-max-preview
Qwen Studio: https://chat.qwen.ai/?models=qwen3.6-max-preview
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.6-max-preview&serviceSite=international

@ai_machinelearning_big_data

#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔106👍37👏18🔥1110🤨5😐2
✔️ KIMI K2.6 за ночь обогнала LM Studio на маке!

В блоге о запуске новой модели Kimi есть история, от которой немного отвисает челюсть.

Моделька сама, без человека, поставила себе на мак Qwen3.5-0.8B и решила, что дефолтный инференс её не устраивает. Дальше она села писать свой, причём не на привычном питоне или C++, а на Zig.

В итоге скорость генерации выросла примерно с 15 до 193 токенов в секунду. То есть больше чем в десять раз.

И это оказалось на 20 процентов быстрее, чем LM Studio, которой пользуются тысячи людей именно для локального запуска моделей.

Больше 4000 вызовов инструментов, 12 часов непрерывной работы и 14 итераций, пока всё не сошлось.

Метрики K2.6 выглядят пртилично: SOTA среди опенсорса на HLE с тулзами, сильные результаты на SWE-Bench Pro, BrowseComp и математических бенчах с питоном.

Но запоминается больше всего этот эпизод с Zig. Потому что одно дело проходить тесты, и совсем другое- взять незнакомый язык и переписать на нём чужой рантайм так, чтобы он обогнал популярный продукт.

🔗 API: https://platform.moonshot.ai
🔗 Tech blog: https://kimi.com/blog/kimi-k2-6
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6

@ai_machinelearning_big_data

#KIMI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥216🤔4028👏22😁14👍13🎉10❤‍🔥2🗿2🥱1
⚡️ Apple объявила о смене CEO: Тима Кука на посту сменит Джон Тернус

Компания сообщила о первой за почти 15 лет смене первого лица компании. С 1 сентября пост генерального директора займёт Джон Тернус, старший вице-президент по аппаратной инженерии.

Тим Кук, возглавлявший корпорацию с 2011 года, перейдёт на позицию исполнительного председателя совета директоров. До конца лета он останется в роли CEO и будет участвовать в передаче дел.

Тернусу 50 лет, в Apple он работает около четверти века и отвечал за разработку iPhone, iPad, Mac, Apple Watch, AirPods и гарнитуры Vision Pro. При вступлении в должность он станет 8-м по счету генеральным директором и войдёт в совет директоров.

Нынешний неисполнительный председатель Артур Левинсон получит статус ведущего независимого директора. Главой аппаратного направления станет Джонни Сружи, прежде руководивший подразделением аппаратных технологий.

Под руководством Кука капитализация Apple выросла более чем в 20 раз и на 21 апреля достигла 4 трлн долларов, а годовая выручка приблизилась к 400 млрд.

Согласно отчётности, компенсация Кука за прошлый год составила 74,6 млн долларов; Forbes оценивает его состояние примерно в 3 млрд.

В своем заявлении Кук назвал работу на посту CEO «величайшей привилегией своей жизни». Он пришёл в Apple в 1998 году, когда компания была близка к банкротству, и в 2011 году сменил Стива Джобса.


По данным компании, решение совета было принято в пятницу и стало неожиданностью для индустрии - аналитики ожидали продолжения полномочий Кука ещё как минимум год.

Месяцем ранее в интервью Good Morning America сам Кук называл разговоры о своём уходе лишь слухами.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔70👍53👏1911🎉9🤩9🔥81🤣1
Media is too big
VIEW IN TELEGRAM
✔️ В Codex появилась запись экрана как рабочая память агента

OpenAI добавила функцию Chronicle в Codeх, которая работает в фоне и записывает экран. Агент превращает записи в Markdown-саммари и сохраняет локально, так Codex собирает контекст: какими инструментами пользуется разработчик, над чем работает. Исходные видео удаляются через 6 часов.

Функция в бете, доступна только подписчикам ChatGPT Pro на macOS везде, кроме ЕС, Великобритании и Швейцарии. Включается вручную в настройках персонализации, запрашивает системное разрешение на захват экрана.

OpenAI предупреждает: Chronicle быстро выжигает лимиты API, хранит базу на диске без шифрования и расширяет возможность для prompt-инъекций - любая веб-страница со скрытыми инструкциями в поле захвата становится вектором атаки.
developers.openai.com

✔️ В сети появилась открытая библиотека курсов от ведущих вузов и научных организаций

SourceCraft и «Центр технологий для общества» Yandex Cloud запустили библиотеку учебных материалов. В подборке - модули от 20 вузов, среди них МФТИ, ВШЭ, МАИ и Школа анализа данных. Отдельным блоком есть курсы по ML и оптимизации от лауреатов Yandex ML Prize.

Библиотекой могут пользоваться вузы: брать материалы целиком или отдельными модулями для образовательного процесса. В фокусе - практико-ориентированное обучение в области ML, ИИ‑ассистентов, анализа данных, облачных технологий. Преподаватели также могут присоединиться к инициативе.

✔️ Alibaba обновила модель Fun-ASR до версии 1.5

Среди поддерживаемых языков - более 30, включая русский, английский, немецкий и японский.

Главное в релизе - code-switching: модель распознаёт несколько языков в одном аудиопотоке без переключения режима. Помимо транскрибации, добавили постобработку: автоматическая пунктуация и форматирование дат, чисел и валют. Для азиатского направления теперь доступно более 20 региональных диалектов и распознавание классической китайской поэзии.

API открыт на Alibaba Cloud Model Studio по схеме pay-as-you-go. Час аудио стоит $0.32 за пределами Китая и от $0.16 на материке. Разработчикам дают бесплатные квоты на тесты.
Tongyi Lab в сети Х

✔️ GitHub запретил оплату сервисов с помощью предоплаченных карт

Платформа прекратила поддержку предоплаченных кредитных и дебетовых карт. Ограничение затрагивает как регулярные подписки, так и счета с оплатой по мере потребления ресурсов. Теперь для расчетов принимаются только стандартные банковские карты, PayPal и идентификаторы подписок Azure.

При этом GitHub параллельно усилил антифрод-систему: пользователи отмечают, что иногда даже привязка легитимного кошелька PayPal может спровоцировать автоматические ограничения.

Ужесточение мер - попытка пресечь массовую регистрацию фиктивных аккаунтов. Долгое время предоплаченные карты использовались для обхода лимитов и теневого доступа к GitHub Actions и Codespaces. Ожидается, что новые барьеры сделают эксплуатацию инфраструктуры платформы технически сложной и экономически невыгодной для ферм ботов.
github.com

✔️ HappyHorse-1.0 выйдет в закрытое бета-тестирование 27 апреля.

Alibaba Cloud объявила о запуске тестирования модели для генерации видео HappyHorse-1.0. Доступ к API будет постепенно открываться через платформу Alibaba Cloud, а первыми опробовать возможности инструмента смогут приглашенные корпоративные клиенты.

Проект создавался силами подразделения ATH Innovation в тесном сотрудничестве с командами Tongyi Lab и Taotian Technology. После завершения закрытого тестирования полноценный коммерческий релиз HappyHorse-1.0 запланирован на май этого года.
yicai.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115👏3423🤔19😎8💯3🔥2💘1
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ OpenAI, по неподтвержденным данным, сменила базовую модель GPT-5.4 Pro

О переходе можно судить по комментарию инженера компании Эрика Митчелла и по наблюдениям пользователей платных тарифов, отдельного пресс-релиза OpenAI не выпускала.

В сети Х сразу отметили, что время ответа на сложные запросы сократилось примерно с часа до 15–20 минут — то есть в 3 раза и более.

Также наблюдается улучшение в кодинге, построении интерфейсов и работе с SVG-графикой.

🟡В сообществе обсуждаются 2 гипотезы.

Первая - OpenAI перевела GPT-5.4 Pro на более компактную и экономичную версию, чтобы снизить издержки и ускорить выдачу.

Вторая - компания тестирует на Pro-тарифе раннюю итерацию следующего флагмана, известного под внутренним кодовым именем Spud.

Сэм Альтман в конце марта говорил, что предварительное обучение Spud завершено, а до релиза остаётся «несколько недель».


Независимо подтвердить эти оценки на момент публикации невозможно.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔7030👍18🎉15🔥8👏3
⚡️ OpenAI закрыла платформу Prism

OpenAI прекратила работу сервиса Prism, предназначенного для совместной подготовки научных статей.

С 20 апреля пользователи соцсети X сообщают, что доступ к продукту больше невозможен, при этом никто из них не получил уведомления о необходимости экспортировать свои материалы. Теперь восстановить код LaTeX из последней сгенерированной PDF-версии удаётся только через Codex.

Prism был запущен 27 января этого года. Сервис работал на модели GPT-5.2, поддерживал коллективную работу над текстами и интеграцию с LaTeX. В основу продукта легла облачная LaTeX-платформа Crixet, которую OpenAI приобрела годом ранее.

Предположительно, закрытие Prism стало частью серии решений OpenAI о сворачивании непрофильных направлений. В прошлую пятницу было расформировано подразделение OpenAI for Science: его сотрудники перешли в другие исследовательские команды, а руководитель направления Кевин Вейл покинул компанию.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔99😢69🤨1311😐8🔥5😁5👍4🤬3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Tencent выкатили sandbox для AI-агентов

Cube Sandbox - это попытка переосмыслить, как вообще запускать изолированные окружения для агентов.

Не через тяжёлые контейнеры и не через костыльные VM, а через максимально лёгкий runtime на базе RustVMM и KVM.

Запуск холодного инстанса меньше 60 мс.

При этом каждый sandbox живёт на своём ядре.

Потребление памяти тоже выглядит дико. Меньше 5 МБ на инстанс.

Это позволяет держать тысячи параллельных sandbox’ов на одной ноде без боли. Для агентных систем это ключевая вещь. Чем дешевле и быстрее изоляция, тем проще масштабировать оркестрацию.

Отдельный ход - полная совместимость с E2B SDK.

Меняешь endpoint и всё. Никаких переписываний, никаких миграций. Такой уровень «plug and play» редко встречается в infra.
По факту это выглядит как инфраструктурный кирпич под новую волну AI-агентов.

Когда у тебя не один агент, а сотни, которые что-то исполняют, тестируют, ломают и снова запускают.

https://github.com/TencentCloud/CubeSandbox.git

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥45🤩2812🦄2
Новая модель генерации изображений от OpenAI выглядит потрясно.

Больше всего удивляет не качество само по себе, а уровень сложности, который она тянет.

Такое ощущение, что может обрабатывать в разы больше деталей и сцен, при этом почти не теряя в скорости.

Промпт незамысловатый - сгенерируй на картинку на русском, сколько ошибок найдете ?)

@ai_machinelearning_big_data
🤩10747👍32👏28🔥21🤔12🐳2🗿1
🌟 HyperFrames: фреймворк для агентов, превращающий HTML в видео

HeyGen выложила проект HyperFrames, который рендерит HTML-композиции в видеофайлы и ориентирован на ИИ-агентов: если модель умеет писать HTML и CSS, она теперь умеет собирать видео.

HeyGen - популярная ИИ-платформа, которая специализируется на создании видеороликов с использованием аватаров и синтеза голоса.


Проект позиционируется как мост между генеративным ИИ и веб-разработкой. Видеопроизводство становится таким же воспроизводимым, как деплой фронтенда, и теперь не требует ни специального софта, ни облачных сервисов.

Композиция в HyperFrames - это обычный HTML-файл с data-атрибутами. Без React и без проприетарных DSL.

Анимации можно писать на GSAP, векторную графику подключать через Lottie, 3D-сцены - через WebGL и Three.js. Паттерн Frame Adapter позволяет подключить любой анимационный рантайм на выбор.

Рендеринг выполняется локально через Puppeteer и FFmpeg с детерминированным результатом на выходе: одинаковый вход даёт идентичный выход.

CLI по умолчанию неинтерактивный - команды рассчитаны на запуск агентом, а не человеком.


Вместе с фреймворком HeyGen поставляет skills для Claude Code, Cursor, Gemini CLI и Codex, которые регистрируются в агенте как slash-команды.

Из требований - Node.js 22+ и FFmpeg.

В каталоге есть готовые блоки и компонены: шейдерные переходы, оверлеи для соцсетей, анимированные графики, кинематографические эффекты.


📌Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Framework #HyperFrames #HeyGen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩103👏24👨‍💻2414🔥8🎉8
🌟 Google выпустила Deep Research и Deep Research Max

Компания представила 2 новых автономных агента в Gemini API - Deep Research и Deep Research Max. Оба построены на Gemini 3.1 Pro и доступны через Interactions API.

Главное изменение по сравнению с декабрьским превью - поддержка MCP: теперь агент умеет выходить за пределы открытого веба и работать с закрытыми корпоративными источниками данных.

🟢Deep Research оптимизирован под скорость и низкую стоимость. Он заменяет декабрьскую preview-версию и предназначен для интерактивных сценариев, где ответ нужен быстро.

🟠Deep Research Max использует расширенный test-time compute, итеративно рассуждает, ищет и уточняет финальный отчёт.

Типичный сценарий: асинхронные фоновые процессы, например ночной cron-job, готовящий аналитикам к утру набор подробных аналитических отчётов.


По внутренним замерам Google, Max консультируется с заметно большим числом источников и точнее взвешивает противоречивые свидетельства, чем декабрьская версия. Все отчёты полностью сопровождаются ссылками (от документов SEC до открытых рецензируемых журналов).

Инструменты агента можно включать одновременно: Google Search, URL Context, Code Execution, File Search и произвольные удалённые MCP-серверы. Веб при желании отключается (тогда поиск идёт только по пользовательским данным). В качестве опорных данных принимаются PDF, CSV, изображения, аудио и видео.

Отдельное новшество - нативная генерация графиков и инфографики прямо в теле отчёта через HTML или Nano Banana, без внешних библиотек.

Для интерактивных интерфейсов предусмотрен стриминг промежуточных рассуждений и результатов в реальном времени.

Появился и режим совместного планирования: план исследования можно просмотреть и скорректировать до того, как агент начнёт его выполнять.

Deep Research и Deep Research Max доступны в режиме public preview на платных тарифах Gemini API.

В ближайшее время оба агента появятся в Google Cloud для корпоративных клиентов.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍20🔥12👏3
Media is too big
VIEW IN TELEGRAM
⚡️ OpenAI выпустила ChatGPT Images 2.0

Новая модель работает как полноценный графический движок: позволяет итеративно редактировать визуал через диалог, удерживает контекст предыдущих шагов и точечно меняет детали без полной перегенерации кадра.

Обновление принесло два режима. Instant ориентирован на скорость отклика, Thinking работает медленнее, так как сначала выстраивает логику сцены. Images 2.0 поддерживает разрешения до 2K, соотношения сторон от 3:1 до 1:3 и выдаёт до 8 вариантов за прогон.

Базовые функции открыты всем пользователям ChatGPT и по API. Thinking доступен на тарифах Plus и Pro.
openai.com

✔️ GitHub закрыл регистрацию в платных тарифах Copilot и ужесточил лимиты по токенам

Регистрация новых пользователей в тарифах Pro, Pro+ и Student приостановлена - для подключения теперь доступен только базовый Copilot Free. Действующим подписчикам урезали доступ к флагманским моделям: семейство Claude Opus убрали из Pro, а в Pro+ оставили только Opus 4.7.

Лимиты теперь рассчитываются для каждой сессии и недели по формуле "потреблённые токены, умноженные на коэффициент модели". При исчерпании лимита токенов система принудительно переведёт пользователя на базовую модель Auto до конца расчётного периода.

Плагины для VS Code и Copilot CLI заранее предупреждают о приближении к порогу отключения. Несогласные с новыми условиями могут отменить подписку и запросить полный возврат средств за апрель до 20 мая.
github.blog

✔️ Google сформировала спецподразделение для доработки внутренних ИИ-агентов

Команду ведущих исследователей и инженеров лично курируют сооснователь Google Сергей Брин и CTO DeepMind. Задача - радикально улучшить способности моделей к генерации сложного кода и созданию автономных ИИ-агентов. Решение принято из-за отставания от Anthropic: там ИИ пишет почти 100% их внутреннего кода, тогда как в Google - около 50%.

Фокус сместился с внешних коммерческих API на закрытые решения, которые целенаправленно обучаются на специфической кодовой базе Google. Сотрудников обязали активнее применять корпоративного ассистента Jetski, внедрив метрики отслеживания его использования.

Цель - достичь эффекта "взлёта ИИ", при котором агенты смогут самостоятельно проводить эксперименты, писать софт и автоматизировать рутинную работу по созданию следующих поколений моделей.
theinformation.com

✔️ Цукерберг переманил ещё двух основателей Thinking Machines Lab

Стартап Миры Мурати продолжает терять кадры. Империя Марка Цукерберга наняла ещё троих специалистов TML, включая двух сооснователей - Марка Джена и Инхай Лу. Всего из TML к Цукербергу уже перешли семь человек из команды основателей, включая разработчика флагманского продукта Tinker Джошуа Гросса.

Ситуация парадоксальная: несмотря на потерю инженерного костяка, TML продолжает привлекать сильных исследователей, а текущий технический директор Сумит Чинтала ранее перешёл к Мурати именно от Цукерберга.

Тем не менее, уход специалистов, отвечающих за превращение исследований в готовые продукты, наносит стартапу ощутимый удар. TML делает ставку на академический вес, а авторы Llama планомерно консолидируют инженерную экспертизу.
businessinsider.com

✔️ Бывший глава Stability AI запустил систему для проверки научных теорий

Эмад Мостак анонсировал первый продукт своего стартапа Intelligent Internet. Инструмент Logos - это система логического вывода, которая поможет декомпозировать сложные научные проблемы до уровня фундаментальных правил, делая каждый шаг доказательства доступным для публичной верификации.

Пока Logos тестируется на задачах из физики, но в будущем обещают добавить поддержку математики, биологии и экономики.

В первой демонстрации на примере теории относительности алгоритм показал, что существование фиксированной максимальной скорости можно вывести, опираясь только на базовый принцип относительности, без условия о постоянстве скорости света.
ii.inc

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7124🔥10❤‍🔥3
✔️ Anthropic тестирует исключение Claude Code для новых Pro-подписчиков

Anthropic убрала Claude Code из описания подписки Pro на странице тарифов.

Пользователи заметили это в 21 апреля, и уже через несколько часов компания объяснила, что речь идёт об эксперименте на небольшой группе новых пользователей, а не о массовом изменении плана.

Напротив Claude Code в колонке Pro теперь стоит крестик вместо галочки, а фраза о том, что инструмент входит в тариф, исчезла. При этом страница Claude Code и CLI-клиент по-прежнему показывают доступ для Pro, то есть правки внесены не везде, что и породило волнения в сети и путаницу.

Глава отдела развития Anthropic Амол Авасаре уточнил в X, что тест затрагивает около 2% новых регистраций и не касается действующих подписчиков Pro и Max.

По его словам, за год с запуска Max характер использования подписок изменился радикально: Claude Code встроили в Max, и он взлетел после релиза Opus 4, появился Cowork, а длительные асинхронные агенты стали повседневным сценарием. Под такую нагрузку текущие тарифы изначально не проектировались.


Anthropic уже несколько месяцев подряд закручивает гайки действуя по аналогии с тем, как энергокомпании снижают нагрузку на сеть. Причина банальна: стоимость подписки кратно ниже рыночной цены реально расходуемых токенов (по оценкам - иногда в 10 и более раз). С тем же дисбалансом уже столкнулись GitHub и Google.

На Reddit и в соцсетях подписчики восприняли эксперимент болезненно. Главная претензия, впрочем, не к самому изменению, а к коммуникации: правки на странице тарифов увидели все, хотя тест должен был затронуть лишь 2% пользователей.

Авасаре пообещал, что если эксперимент приведёт к пересмотру подписок для действующих клиентов, их уведомят заранее, "не скриншотом в X или на Reddit" (с).


Это сообщение он, впрочем, опубликовал именно в X.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔70🤬23👍1813😢10🔥3💔3😁1🌭1
🌟 Ai2 представил способ обновлять навыки LLM по одному, без полного ретрейна

Институт Аллена выпустил BAR - рецепт посттрейна, в котором доменные эксперты обучаются по отдельности, а затем собираются в единую MoE-модель через обучаемый роутер.

Метод снимает давнюю проблему: как добавить модели новый навык, не переобучая её целиком и не разрушая то, что она уже умела.


Замена код-эксперта на версию, обученную на более качественных данных с RL, даёт +16.5 пунктов на кодинге при почти нулевом влиянии на другие домены. Добавление RL к существующему math-эксперту - +13 пунктов.

Стоимость обновления одного домена масштабируется линейно, а не квадратично, как в монолитном пайплайне, где любое улучшение требует прогона всех доменов заново

Основа BAR - прогрессивное размораживание общих параметров по стадиям. На mid-training они остаются заморожены, а на этапе SFT размораживаются эмбеддинги и хэд: без этого эксперт не умеет вводить новые специальные токены (например, для вызова функций).

На RLVR размораживается всё, включая внимание. Каждый эксперт при этом учится на смеси доменных и общих SFT-данных: чистый доменный SFT ломает следование инструкциям и общие знания.

После обучения эксперты сливаются простым усреднением разошедшихся общих параметров, а роутер дообучается на стратифицированной 5%-й выборке SFT-данных.

Тестовая модель BAR-5x7B на основе Olmo 2 7B с экспертами по математике, коду, tool use и безопасности набирает 49.1 балла против 47.8 у монолитного переобучения на стадии посттрейна и 46.7 у BTX, где эксперты обучаются как полностью независимые плотные модели.


Ai2 выложил полный набор чекпоинтов, на которых валидировался метод: исходную 7B-модель как точку старта, базовый двухэкспертный MoE, а также промежуточные и финальные версии доменных экспертов - по математике и программированию в двух вариантах (после SFT и после SFT+RLVR), плюс экспертов по tool-use и безопасности, обученных только через SFT. Завершает набор итоговая пятиэкспертная MoE-модель с обученным роутером, объединяющая все домены.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Train #BAR #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58🤓32👍13👏128💯5😁1