223K subscribers
3.83K photos
640 videos
17 files
4.46K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 DAPO: алгоритм RL-обучения от ByteDance.

ByteDance опубликовала техотчет и код проекта DAPO — RL-алгоритма для больших языковых моделей, который смог преодолеть ограничения классических методов: коллапс энтропии (PPO и GRPO), зашумление из-за отброса длинных ответов, "мертвые зоны" в данных (группы ответов с одинаковым вознаграждением) и жесткая привязка к KL-дивергенции (традиционный RLHF).

DAPO включил в себя сразу 4 инновационных метода:

🟢Clip-Higher - решает проблему коллапса энтропии, разделяя диапазон клиппинга на нижний (low=0.2) и верхний (high=0.28). Это позволяет увеличивать вероятность маловероятных токенов, сохраняя разнообразие генерации, и предотвращает преждевременную фиксацию политики в локальном оптимуме.

🟢Dynamic Sampling - устраняет «мёртвые зоны» обучения, отфильтровывая группы ответов с одинаковой наградой (0 или 1), которые не генерируют полезные градиенты. Метод динамически дополняет батч примерами, где есть хотя бы один верный и один неверный ответ, сохраняя стабильность обновлений, что в результате сокращает время сходимости даже с учетом увеличения объема генерации на 20-30%.

🟢Token-Level Policy Gradient Loss - взвешивает вклад каждого токена в длинных цепочках рассуждений. Вместо усреднения по ответу градиенты рассчитываются для каждого токена, что предотвращает подавление значимых паттернов в длинных решениях. Например, 100-токенный ответ влияет на loss в 5 раз сильнее, чем 20-токенный, стимулируя целевую модель к структурированным рассуждениям.

🟢Overlong Reward Shaping - заменяет бинарное пенальти за превышение длины на постепенную штрафную функцию. Ответы длиной до 16К токенов получают полную награду, а в интервале 16-20К токенов штраф линейно растёт от 0 до -1. В итоге - снижается шум, позволяя модели учиться на частично корректных длинных решениях, вместо их полного отбрасывания.

Экспериментально обученная с применением DAPO Qwen2.5-32B достигла рекордных 50 баллов на тесте AIME 2024, обойдя DeepSeek-R1-Zero-Qwen-32B (47 баллов) при 2х меньшем числе шагов обучения, а отказ от штрафа за расхождение Кульбака-Лейблера позволил целевой модели свободнее развивать сложные цепочки рассуждений.

DAPO, помимо опенсорсной доступности а репозитории на Github, интегрирован в фреймворк verl, а мониторинг поможет отследать ключевые метрики — длину ответов, динамику наград и энтропию.

Веса тестовой Qwen2.5-32B и, возможно, других базовых моделей, обученных с DAPO разработчики обещают опубликовать в ближайшем будущем. Попробовать обучение алгоритмом можно специально подготовленным скриптом, с опубликованными вместе датасетами DAPO-Math-17k и валидационным сетом AIME 2024.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #ByteDance #DAPO
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥218🤓4🤔3👾3💅1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Перед вами недавно снятое видео с "испытательных полигонов" Unitree, демонстрирует головокружительную скорость развития человекоподобных-роботов.

Unitree постоянно совершенствуют алгоритмы управления, позволяя роботу обучаться и осваивать всё более сложные и точные движения.

Модель G1 обладает 23 степенями свободы, это гарантирует исключительную устойчивость и координацию.

Робот оснащён 3D-лидаром, камерой глубины и комплектом микрофонов с функцией шумоподавления для надёжного распознавания голосовых команд.

Его «сердцем» является 8-ядерный процессор, обеспечивающий такую высокую манёвренность ❤️

G1 оборудован легко заменяемой батареей ёмкостью 9000 мА·ч, что позволяет ему работать до двух часов, с возможностью оперативной замены источника питания. Максимальная скорость робота достигает 7,2 км/ч.

При росте 1,32 метра и весе 35 кг, гуманоидный робот может компактно складываться, занимая пространство в контейнере размером всего 69 × 44 × 30 см.

На этапе первичного обучения G1 использует симулятор Isaac от Nvidia, который с помощью методов обучения с подкреплением помогает осваивать сложнейшие алгоритмы поведения в контролируемой цифровой среде.

Затем отработанные действия плавно переносятся в физическую модель с использованием процесса Sim2Real, что обеспечивает высокую точность выполнения движений в реальном мире.

Unitree выпустила открытый датаяет, предназначенный для повышения эффективности управления и координации движений человекоподобных роботов.

Набор данных, созданный с применением технологии захвата движения LAFAN1, полностью совместим с гуманоидными системами Unitree.

Он включает усовершенствованный алгоритм перенаправления, который оптимизирует планирование движений через интерактивную обработку и обратную кинематику с учётом ограничений позы, сочленений суставов и параметров скорости.

Кстати, цена такого робота начинается от 16к$

https://www.unitree.com/g1

@ai_machinelearning_big_data


#ai #robots #news #unitree #ArtificialIntelligence #HumanoidRobot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥4716😨6
✔️ Apple реорганизовывает подразделение ИИ.

Создатель Vision Pro, Майк Роквелл возглавит разработку Siri, перейдя под управление Крэга Федериги, главы софтверного подразделения. Джон Джаннандреа, ранее курировавший Siri, сохранит контроль над исследованиями в области ИИ, но потеряет влияние на ключевой потребительский продукт.

CEO APPLE Тим Кук очень недоволен динамикой выполнения планов ИИ. Некоторые функции, изначально запланированные на июнь 2024 года, еще не реализованы - полное обновление Siri станет возможным с выходом iOS 20 в 2027 году.
bloomberg.com

✔️ Solidigm выпускает eSSD с жидкостным охлаждением.

Solidigm представила первое в мире решение eSSD с жидкостным охлаждением для серверов — D7-PS1010 E1.S, которое открывает перспективу для будущих серверов с полностью жидкостным охлаждением. Традиционные решения прямого жидкостного охлаждения eSSD не могут адекватно охлаждать обе стороны накопителя и не поддерживают горячую замену.

Разработка Solidigm преодолевает эти ограничения, устраняя необходимость в конструкциях стоек высотой 1U и сокращая расходы на кондиционирование и охлаждение воздуха в ЦОДах. Продукт будет выпущен во второй половине этого года.
tomshardware.com

✔️ Cloudflare создала ИИ-лабиринт для борьбы с краулерами.

Cloudflare представила новый инструмент «AI Labyrinth», нацеленный усложнить жизнь автоматизированным системам, сканирующим веб-ресурсы. Вместо традиционной блокировки нежелательных запросов "Лабиринт" генерирует с помощью ИИ правдоподобные, но бессмысленные для обучения модели страницы. В результате - краулеры тратят ресурсы на сбор «мусорных» данных, не нарушая при этом репутацию сайтов или их SEO-показатели.

Новый функционал уже доступен клиентам платформы в панели управления. Эксперты отмечают, что подобные технологии могут спровоцировать «гонку вооружений» между защитниками и злоумышленниками, но Cloudflare намерена продолжать совершенствовать систему, делая её элементы незаметнее для алгоритмов.
theregister.com

✔️ Oracle запускает AI Agent Studio для автоматизации бизнес-процессов.

Oracle анонсировала AI Agent Studio — платформу для разработки, внедрения и управления ИИ-агентами в рамках облачного пакета Fusion Applications. Решение позволяет клиентам и партнерам создавать кастомных агентов, оптимизирующих бизнес-задачи: от обработки заказов до планирования ресурсов.

Студия предлагает выбор языковых моделей (включая Llama и Cohere), инструменты тестирования и встроенную безопасность, для соответствие корпоративным стандартам. Агенты могут работать как автономно, так и в командах, с контролем этапов через утверждения. Подробности — на oracle.com/applications
oracle.com

✔️ HART от MIT и NVIDIA: ускорение генерации изображений в 9 раз.

Исследователи из MIT и NVIDIA представили HART - метод, объединяющий преимущества авторегрессионных и диффузионных моделей для генерации изображений. В отличие от медленных диффузионных систем (например, DALL-E), требующих 30+ итераций для денойза, и быстрых, но неточных авторегрессионных алгоритмов, HART использует гибридную архитектуру. Авторегрессионная модель формирует общую структуру изображения, а компактная диффузионная — дорабатывает детали за 8 шагов, компенсируя потери данных через остаточные токены.

Благодаря этому, HART генерирует изображения, сопоставимые по качеству с моделями на 2 млрд. параметров, но в 9 раз быстрее и с экономией 31% ресурсов.. В будущем HART планируют адаптировать для видео, аудио и мультимодальных задач, усилив совместимость с LLM. Проект поддержаkb MIT-IBM Watson AI Lab, Amazon Science Hub и NSF.
news.mit

✔️ Исходный код AlexNet опубликован в открытом доступе

AlexNet — это ИИ для распознавания изображений, перевернувшая мир в 2012 году.

Ее разработали Илья Суцкевер, Алекс Крижевский и лауреат Нобелевской премии Джеффри Хинтон.
По данным Google Scholar, статья об архитектуре AlexNet была процитирована свыше 170 тысяч раз, что делает её одной из самых часто цитируемых работ в истории информатики.
GitHub

✔️Sora стала безлимитной для всех, у кого есть подписка Сhatgpt

@ai_machinelearning

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6133🔥14🤨6💘2🥰1🤔1
🤖 Modern Robotics Course: Открытый курс по современной робототехнике.

Курс содержит лекции, учебные заметки, алгоритмы и практические задания, что позволяет последовательно изучать тему – от основ кинематики до сложных вопросов управления и планирования роботов.

🌟 Что внутри?
Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
Практика: Примеры кода на Python и C++ для управления роботами.
Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
Задания: Реальные практические задачи (например, управление манипулятором робота).

🌟 Для кого?
Начинающие робототехники: Освоить кинематику, динамику, управление.
Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
Технологические энтузиасты

С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).

✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением.

✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla.

⭐️ Преимущества перед другими открытыми курсами
🟠 Акцент на практике: Минимум абстракций — максимум кода.
🟠Совместимость с ROS: Стандарт для промышленной робототехники.
🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы.

➡️ Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода.

P.S. А для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡

✔️ Github
✔️ Введение в курс
✔️Видео лекции

#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90👍3812🗿4🤔1
📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование


@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8926🔥20🤣9🌭7😁2😭1
⚡️ Цены на профессиональную линейку Nvidia RTX Pro Blackwell.

Американский ритейлер Connections опубликовал цены на серию RTX Pro Blackwell от Nvidia.

Флагманская модель RTX Pro 6000 стоит 8565 долларов, это на 26% дороже предыдущего поколения RTX 6000 Ada. В прайсе также перечислены еще невыпущенные модели RTX Pro 4000/4500/5000:

🟢RTX Pro 5000 — 4569 долларов;
🟢RTX Pro 4500 — 2623 доллара;
🟢RTX Pro 4000 — 1546 долларов.

Цены, традиционно для американского ритейла, указаны до налогов, которые в каждом штате разные.

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🥰137🤬4
🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения.

Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.

🟢Основные моменты работы модели:
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).

🟢Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали.

🟢Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара.


⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук.

Установка:
git clone [email protected]:aigc3d/LHM.git
cd LHM


📌Лицензирование: Apache 2.0 License.

🟡Github
🟡Проект
🟡Демка (периодически отваливается из-за наплыва пользователей)
🟡Статья
🟡Видео

@ai_machinelearning_big_data


#ml #opensource #3dgenerator #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8026🔥15🦄6😁4👏2🆒1