Machinelearning

✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard

Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.

Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.

В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.

Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.

Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.

Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.

Доступ к Ernie 5.1 открыт через онлайн-площадки компании.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🏆54🔥44❤24🎉19👏12🤓8👍7💯2🌭1

19K views11:55

Machinelearning

🌟

Poolside открыл публичный доступ к кодинг-моделям

Стартап Poolside открыл публичный доступ к своим кодинг-моделям линейки Laguna.

До этого компания работала только с клиентами из государственного и публичного сектора. Релиз подготовила команда ~60 человек.

Poolside - стартап в области генеративного ИИ для разработки ПО, основанный в апреле 2023 года.

Компанию возглавляют бывший технический директор GitHub, курировавший запуск Copilot, и ex-основатель source{d} - одной из первых компаний, применивших ИИ для анализа кода.

🟡

Флагман - проприетарная MoE-модель Laguna M.1 (225B-A23B).

SWE-bench Pro - 46,9%
SWE-bench Verified - 72,5%
Terminal-Bench 2.0 - 40,7%

Laguna M.1 доступна через API и OpenRouter. На ограниченное время - бесплатно.

🟡

Открытая модель - Laguna XS.2 (33B-A3B)

SWE-bench Pro - 44,5%
Verified - 68,2%
Terminal-Bench 2.0 - 30,1%.

Заявлены: поддержка NVIDIA TensorRT-LLM и NVFP4-версия для Blackwell.

Laguna XS.2 распространяется по лицензии Apache 2.0 через API, OpenRouter, Ollama и на HuggingFace.

Говорят, что локально запускается на Mac с 36 ГБ памяти

Вместе с моделями Poolside предлагает агентную обвязку на базе Agent Client Protocol, на которой тестировались модели и проводился RL.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔66👏21❤20🎉10👍7👌7🔥1🤝1

17.1K views15:03

Machinelearning

📌

Модели при длительной работе с документами в среднем теряют около четверти их содержимого

Команда Microsoft Research опубликовала препринт, в который демонстрирует, что современные LLM при долгом редактировании документов вносят редкие, но серьёзные искажения.

Для проведения эксперимента был создан бенчмарк DELEGATE-52 из 310 рабочих сценариев в 52 областях, от программирования и кристаллографии до нотной записи и генеалогии.

Методика тестирования основана на принципе обратимости: модель получает задание изменить документ, а затем - обратную инструкцию, которая должна вернуть его к исходному виду. Чем сильнее итоговый файл отличается от оригинала, тем больше накопленных ошибок.

В эксперименте прогнали 19 моделей, включая GPT-5.4, Claude 4.6 и Gemini 3.1 Pro на документах в 3–5 тысяч токенов и контекстом до 12 тысяч токенов.

По результатам эксперимента, после 20 последовательных правок эти 3 модели в среднем повреждают около 25% содержимого документа, а среднее значение по всей выборке составило около 50% потерь.

Лучший результат показала Gemini 3.1 Pro: она признана готовой к делегированию (≥98% сохранения исходного содержания) только в 11 из 52 областей.

Единственная область, где большинство моделей справляется почти без потерь, — программирование на Python: 17 из 19 моделей сохраняют код практически без искажений.

Хуже всего модели работают с тестом и редкими форматами: рецептами, художественной прозой, нотами и финансовыми отчетами.

Дополнительные тесты показали, что подключение агентских инструментов поиска, выполнения кода, прямой правки файлов - в базовой реализации не улучшает результат, а в среднем добавляет около 6% потерь.

Авторы заметили, что объём документа, длина взаимодействия и наличие посторонних файлов в контексте также ухудшают качество, причём эти эффекты, накапливаются и со временем усиливают друг друга.

По наблюдениям, потери распределены неравномерно: чаще всего модель работает почти безупречно, но раз в несколько шагов допускает резкий сбой и теряет 10–30% содержимого за одну итерацию. Такое поведение объясняет около 80% всех зафиксированных потерь.

Слабые модели чаще удаляют фрагменты целиком, топовые - искажают то, что остаётся в документе.

📌Лицензирование: MIT License

🟡

Arxiv

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #DELEGATE52 #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔51👍35😇28👏13❤12👀11🤣3🔥1

19.4K views16:01

Machinelearning

Энтузиаст собрал «Википедию», где всё на 100% выдумано ИИ

Проект называется Halupedia.

На сайте нет заранее написанных статей. Каждая страница появляется только в тот момент, когда ты её открываешь. Правило одно: эта вселенная существует только пока на неё кто-то смотрит.

Выглядит всё почти как Wikipedia: шрифты, верстка, академический тон, ссылки, случайная статья через stumble. Только есть маленький нюанс - ничего из этого не существовало до клика.

Примеры статей там уже сами по себе прекрасны:

- Великая перепись голубей 1887 года
- Министерство слегка неправильных карт
- Халдическая арифметика - раздел математики, где запрещено вычитание
- Армунд, картограф рек - человек, который нанес на карту 14 000 лиг рек, не вставая со стула
- Общество по предотвращению ненужных вторников

На странице ещё показывается, сколько людей читают статью прямо сейчас. Обычно там фраза в духе: «вы один сейчас изучаете этот фолиант».

Но лучший поинт - описание от автора:

«Энциклопедия вселенной, которая не существует, пока вы её не посетите».

Бэкенд тоже в тему: open-source репозиторий vibeserver с описанием «маленький веб-сервер, который придумывает вещи ровно вовремя».

Мы построили крупнейшую базу знаний в истории человечества, а потом кто-то сделал её кривое галлюцинирующее отражение и выложил в открытый интернет.

Вот это уже нормальное использование ИИ.

halupedia.com

@ai_machinelearning_big_data

2🔥112🤣85❤25👍21🤓10🎉7🙉4🤨3😁2💔1🤗1

74.1K viewsedited 17:43

Machinelearning

✔️

Конгресс США начал расследование против Сэма Альтмана

Комитет по надзору Палаты представителей США направил официальное письмо Сэму Альтману с требованием раскрыть детали его личных инвестиций и финансовые связи с топ-менеджментом.

Власти подозревают, что ресурсы OpenAI могли использоваться для искусственного завышения капитализации компаний, в которых CEO имеет личную долю.

Главным поводом для расследования стала ситуация вокруг разработчика термоядерных реакторов Helion.

В 2021 году Альтман вложил в него $375 млн из собственных средств, а позже предложил OpenAI инвестировать в проект еще $500 млн. Эта сделка могла увеличить оценку Helion в шесть раз - до $35 млрд.

Согласно документам комитета, сотрудники OpenAI были настолько встревожены инициативой, что избегали ее обсуждения в корпоративном Slack из-за страха перед возможным судебным преследованием.

Расследование также выявило непубличные связи внутри руководства компании: выяснилось, что президент OpenAI Грег Брокман владеет долями в двух стартапах Альтмана и имеет процент в его семейном фонде.

Конгресс обязал OpenAI до 22 мая провести брифинг с участием главного юрисконсульта и предоставить всю внутреннюю переписку с 2015 года, касающуюся конфликтов интересов.

Отдельно законодатели запросили доступ к отчета аудиторского комитета, созданного советом директоров OpenAI после скандального увольнения и возвращения Альтмана в 2023 году.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍168🤔62😐39❤19🤨12😁9🔥7🙈4👏3💔2

18.7K views06:31

Machinelearning

LLM — это не новая профессия — это апгрейд к твоей текущей.
Backend, ML, DevOps — добавляешь LLM → растёшь в задачах, деньгах и грейде

Записывайся на новый поток курса LLM-инженер от AI Talent Hub и GIGASCHOOL🚀

Сейчас уже недостаточно просто знать RAG, рынок ищет тех, кто умеет собирать сложные AI-системы и доводить их до продакшена. Поэтому мы пересобрали программу, сохранили фундаментальную базу и усилили практическую часть, чтобы ты смог:

📁 Освоить стек LLM-инженера: трансформеры, RAG (retrieval, reranking, eval), агенты, LLMOps, vLLM/SGLang, observability
📁 Вырости в грейде: перейти от простых интеграций к проектированию AI-систем с учётом latency, cost и scaling
📁 Пройти весь цикл создания LLM-продукта: от дообучения (QLoRA, PEFT) до production-сервиса с нагрузкой и мониторингом
📁 Получить фундамент по LLM: освоить, как устроены модели, механика инференса и оптимизации - не только вызов API
📁 Освоить редкие навыки: AI Red Teaming и обеспечением безопасности агентных систем
📁 Работать с реальными инженерными задачами: observability, оценка качества
📁 Учиться у практикующих экспертов из индустрии, которые собирают и развивают AI-системы в продакшене

Что будет в твоём GitHub:
✔️ Опыт дообученния LLM/энкодер под домен
✔️RAG над корпоративной базой
✔️Мультиагентная система
✔️Production-сервис в Docker
✔️Observability и отчет по безопасности

Формат: онлайн-семинары
Старт: 4 июня
Длительность: 6 месяцев

До четверга — самая низкая цена, дальше повышение

🔜

Посмотреть программу и попасть в поток

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩66🔥31👍17😁15❤7👌5👏4🙊3🤣1

15.9K views08:04

✔️

OpenAI анонсировала платформу проактивной киберзащиты

Компания запустила инициативу Daybreak для задач киберзащиты и анализа ПО. В основе - собственные LLM, где Codex используется в качестве управляющего агентного каркаса.

Daybreak анализирует объемные кодовые базы и незнакомые архитектуры, выявляет уязвимости, проводит секьюрити-ревью и оценивает риски зависимостей. Инструмент встроен напрямую в цикл разработки для моделирования угроз и валидации патчей.

Из-за рисков двойного назначения платформа использует жесткие механизмы верификации. В ближайшие недели OpenAI совместно с госсектором и ИБ-партнерами начнет поэтапный релиз новых специализированных моделей для кибербезопасности.
openai.com

✔️

В Claude Code появился дашборд для управления параллельными агентами.

CLI-утилита получила консольный дашборд Agent View, который позволяет запускать фоновые задачи и контролировать их через единый интерфейс без использования мультиплексоров.

В дашборде отображаются статусы процессов (в работе, завершено, ожидание ввода). Встроенная функция Peek позволяет просматривать последние ответы и передавать промпты без открытия полного транскрипта чата.

Разработчики могут делегировать агентам создание PR, запуск долгих задач или поиск по кодовой базе, не прерывая свой основной контекст в терминале. Функция доступна для пользователей Claude API и подписчиков платных тарифов.
claude.com

✔️

Thinking Machines Lab анонсировал мультимодальную модель непрерывного взаимодействия

Стартап Мирs Мурати представил ИИ-архитектуру, которая обрабатывает аудио, видео и текст единым потоком, считывая входящие данные микро-шагами по 200 мс. Генерацию ответа можно прерывать, корректировать голосом или показать новые объекты.

Система построена на двухуровневой архитектуре. За удержание диалога отвечает MoE-модель на 276B параметров, из которых при генерации активны 12B. Параллельно асинхронная фоновая модель забирает на себя задачи сложного логического вывода, веб-поиска и вызова инструментов.

Ограниченный доступ к превью-версии откроют в ближайшие месяцы. До конца года запланирован публичный релиз и выход более крупных версий модели.
thinkingmachines.ai

✔️

Google анонсировала Gemini Intelligence для Android

Cистема на базе ИИ-агентов Gemini Intelligence для Android автоматизирует многосоставные задачи в приложениях - от бронирования поездок до переноса списков из заметок в корзину магазина.

Интеграция затронет базовые компоненты ОС. В Chrome появится опциональная функция обобщения веб-страниц и автозаполнения форм. В клавиатуру Gboard добавят инструмент Rambler, который на конвертирует неструктурированную мультиязычную речь в форматированный текст. Также заявлен генератор Create My Widget для создания кастомных виджетов рабочего стола по текстовому промпту.

Первыми доступ к системе получат смартфоны Samsung Galaxy S26 и Google Pixel 10, релиз которых ожидается летом. До конца года Google планирует развернуть инструменты на смарт-часах, ноутбуках, гарнитурах и в автомобильных медиасистемах.
blog.google

✔️

Artificial Analysis представил первый бенчмарк для кодинг-агентов

Индекс замеряет производительность по 3-м метрикам: генерация кода (SWE-Bench-Pro-Hard-AA), работа в терминале (Terminal-Bench v2) и ответы на технические вопросы (SWE-Atlas-QnA).

В первой редакции рейтинга Cursor CLI с Opus 4.7 набрал 61 балл, обойдя на 1 пункт OpenAI Codex (GPT-5.5) и Anthropic Claude Code (с Opus 4.7). При использовании одинаковой модели решение Cursor точнее нативного Claude Code, но уступает в скорости и цене: 7,8 минуты и $1,47 за задачу против 5,8 минуты и $1,24 у агента Anthropic.

Самым дешевым вариантом оказался встроенный в Cursor движок Composer 2 - всего 7 центов за выполнение теста. Deepseek v4 Pro (35 центов) и Kimi K2.6 (76 центов) тоже довольно бюджетны, но проигрывают лидерам в скорости: 18 и 41,5 минуты на задачу соответственно.
artificialanalysis.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍71🤓15🤩13❤10🎉9🗿1

16.2K views09:01

Machinelearning

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Anthropic собрала юридический стек поверх Claude Opus 4.7

Компания выпустила набор инструментов для юристов: 20+ MCP-коннекторов и 12 плагинов под отдельные практики.

Claude работает внутри Microsoft Word, Outlook, Excel и PowerPoint и умеет переносить контекст: правки к договору в Word не нужно заново объяснять при составлении сопроводительного письма в Outlook.

Коннекторы дают доступ к Docusign, iManage, NetDocuments, Relativity, Everlaw, Datasite, Box, Thomson Reuters CoCounsel и базам прецедентов Free Law Project и Midpage.

Плагины покрывают корпоративное право, M&A, трудовые споры, приватность, регуляторику, интеллектуальную собственность и ведение судебного производства.

При установке каждый плагин проходит короткое сетап-интервью и подстраивается под стандарты компании, цепочку согласований и стиль оформления.

По словам Anthropic, плагины ускоряют поиск прецедентов, сверку договоров с базой знаний и первичный комплаенс.

Всё доступно корпоративным пользователям в Claude Cowork.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍85🎉22🔥15👏12❤8🤩4🥰1🤬1

19.4K views11:36

Machinelearning

Устройтесь в Яндекс за выходные: 30–31 мая

Если вы ML- или DL-инженер с опытом в доменных областях NLP, CV, RecSys и Classic ML, участвуйте в Weekend Offer ML. Это один из наймовых ивентов Яндекса: вы проходите все секции онлайн в ускоренном режиме и сразу получаете обратную связь.

Как всё устроено:

🔴 до 20 мая — регистрация;

🔴 30 мая — две технические секции, вместо трёх в обычном найме;

🔴 31 мая — финальное интервью с командами и офер.

Если хотите работать в одной из команд Яндекса — R&D, Поиск с Алисой AI, Яндекс Карты, Алиса и Умные устройства, Рекламные технологии Яндекса — регистрируйтесь!

Подробности и полезные ссылки — на сайте: https://yandex.ru/project/events/wo-ml-0526. После регистрации с вами свяжется рекрутер и расскажет все детали.

👏43🎉17🤣16👍14🤬7💯3🙈2🗿2💔1

16.6K views13:04

Machinelearning

🌟

TwELL от Sakana AI и NVIDIA: до 30% к инференсу и −24% VRAM на H100

Sakana AI и NVIDIA представили TwELL - формат данных и набор CUDA-ядер под неструктурированную разреженность в LLM.

На H100 это даёт до 30% к инференсу, до 24% к скорости обучения и более чем 24% снижения пикового VRAM при трейне.

Работа заявлена на ICML 2026.

В FFN-блоках современных LLM для каждого токена реально работает малая доля скрытых активаций - остальное болтается около нуля и впустую тратит вычисления.

Если поверх ReLU добавить вспомогательный L1-лосс на скрытые активации прямо во время обучения, долю нулей можно загнать выше 95% без видимой просадки на downstream-задачах.

Проблема в том, что, что тензорные ядра H100 заточены под плотные матричные умножения и тайлинг. Если скормить им обычный ELLPACK, то теоретическая экономия убивается накладными расходами: построчная упаковка не ложится на тайловую структуру, появляются синхронизации между CTA и лишний трафик в HBM.

🟡

Вот тут и решает TwELL

Колонки активаций гейта бьются на горизонтальные тайлы. Внутри каждого тайла лежат только ненулевые значения и их индексы в локальном ELL-формате.

Размер тайла подобран так, чтобы каждая CTA паковала свой кусок прямо в разделяемой памяти без синхронизаций между блоками и без лишних обращений к глобальной памяти.

Дальше - 2 разных ядра:

🟢

Инференс

Up- и down-проекции выполняются в одном ядре. Плотная матрица скрытых активаций вообще не материализуется: ядро пробегается по упакованным нулям, подтягивает только нужные строки Wu и Wd и считает скалярное произведение.

🟠

Обучение

Гибридное представление: каждая строка либо ужимается в один глобально выровненный разреженный блок, либо в редких случаях переполнения падает в плотный резерв. Результат - обратный проход без единого умножения двух плотных матриц.

Интересный момент: даже без учёта разреженности кастомные TwELL-ядра вышли чуть быстрее плотных матмулов из PyTorch и CuDNN, в основном за счёт переиспользования ядер, совмещения загрузки данных с вычислениями и оптимизированных шаблонов доступа к памяти.

🟡

Цифры на H100 (замер по модели 1.5B)

🟢до 30% ускорения на пакетном инференсе;
🟢до 24% ускорения на обучении;
🟢пиковый VRAM при обучении падает более чем на 24%;
🟢энергопотребление GPU - примерно на 3% ниже.

🟡

Скейлинг

Считали на моделях 0.5B–2B. При фиксированном L1 у 2B доля ненулевых активаций на 38% меньше, чем у 0.5B (крупнее модель, охотнее уходит в разреженность).

На 2B инференс быстрее на 20.5%, обучение - на 21.9%, и в память влезает вдвое больший микробатч.

🟡

Очевидные минусы

Кастомные CUDA-ядра привязаны к NVIDIA: альтернативное железо и PyTorch - мимо.

Эксперименты упираются в 2B, как поведёт себя более крупная модель, никто не проверял.

📌Лицензирование: MIT License

🟡

Блогпост

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #TwELL #SakanaAI #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM