Forwarded from Neural Networks | Нейронные сети
Как форма тела влияет на движения персонажа?
Видео » https://youtu.be/XrOTgZ14fJg
Статья » https://mrl.snu.ac.kr/publications/ProjectMorphCon/MorphCon.html
#АнализДанных #machinelearning #ML #neuralnetworks #bigdata #нейронныесети
🔗 Learning Body Shape Variation in Physics-based Characters
🎥 This AI Can Deal With Body Shape Variation!
👁 1 раз ⏳ 322 сек.
🎥 This AI Can Deal With Body Shape Variation!
👁 1 раз ⏳ 322 сек.
➰ Источник ВК
Видео » https://youtu.be/XrOTgZ14fJg
Статья » https://mrl.snu.ac.kr/publications/ProjectMorphCon/MorphCon.html
#АнализДанных #machinelearning #ML #neuralnetworks #bigdata #нейронныесети
🔗 Learning Body Shape Variation in Physics-based Characters
🎥 This AI Can Deal With Body Shape Variation!
👁 1 раз ⏳ 322 сек.
❤️ Check out Weights & Biases and sign up for a free demo here: https://www.wandb.com/papers
❤️ Their mentioned instrumentation is available here: https://app.wandb.ai/lavanyashukla/cnndetection/reports/Detecting-CNN-Generated-Images--Vmlldzo2MTU1Mw
📝 The paper "Learning Body Shape Variation in Physics-based Characters" is available here:
https://mrl.snu.ac.kr/publications/ProjectMorphCon/MorphCon.html
🙏 We would like to thank our generous Patreon supporters who make Two Minute Papers possible:
Aleksandr🎥 This AI Can Deal With Body Shape Variation!
👁 1 раз ⏳ 322 сек.
❤️ Check out Weights & Biases and sign up for a free demo here: https://www.wandb.com/papers
❤️ Their mentioned instrumentation is available here: https://app.wandb.ai/lavanyashukla/cnndetection/reports/Detecting-CNN-Generated-Images--Vmlldzo2MTU1Mw
📝 The paper "Learning Body Shape Variation in Physics-based Characters" is available here:
https://mrl.snu.ac.kr/publications/ProjectMorphCon/MorphCon.html
🙏 We would like to thank our generous Patreon supporters who make Two Minute Papers possible:
Aleksandr➰ Источник ВК
YouTube
This AI Can Deal With Body Shape Variation!
❤️ Check out Weights & Biases and sign up for a free demo here: https://www.wandb.com/papers
❤️ Their mentioned instrumentation is available here: https://app.wandb.ai/lavanyashukla/cnndetection/reports/Detecting-CNN-Generated-Images--Vmlldzo2MTU1Mw
📝 The…
❤️ Their mentioned instrumentation is available here: https://app.wandb.ai/lavanyashukla/cnndetection/reports/Detecting-CNN-Generated-Images--Vmlldzo2MTU1Mw
📝 The…
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.
Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co
OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.
Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.
OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com
MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.
Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com
AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.
Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.
Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com
В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.
По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡3👍2❤1
Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4⚡3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.
Особенности:
✔️ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Особенности:
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
git clone https://github.com/run-llama/notebookllama
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡7❤4👍4
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5⚡1👍1
Forwarded from Machinelearning
В журнале Nature опубликована работа о новой модели DeepSeek-R1, которая показывает, что LLM можно научить рассуждать без заранее подготовленных человеческих подсказок. Обычно для обучения таким системам используют «цепочки мыслей» — примеры пошагового рассуждения, составленные людьми. В DeepSeek-R1 от этого отказались: модель получает единственную награду — правильный конечный ответ.
Для обучения применили алгоритм Group Relative Policy Optimization (GRPO). С его помощью базовая версия, названная DeepSeek-R1-Zero, постепенно сама научилась стратегиям проверки своих решений, рефлексии и смены подхода в зависимости от задачи. Иными словами, система начала вырабатывать собственные приёмы мышления, а не копировать человеческие.
Результаты впечатляют. На математическом бенчмарке AIME точность выросла с 15% на старте до 78% после обучения, а с использованием механизма самопроверки — до 87%. Это выше среднего результата реальных участников. В задачах программирования и тестах по STEM-дисциплинам DeepSeek-R1 также обогнал сопоставимые по размеру модели и даже приблизился к гораздо более крупным системам. Более компактные версии, созданные методом дистилляции, сохраняют большую часть этих возможностей.
Есть и недостатки: модель иногда пишет менее читаемые ответы, смешивает языки и пока что хуже работает в областях за пределами логики и математики. Но сам подход доказывает: ИИ способен учиться рассуждать без дорогой и трудоёмкой разметки данных.
Этот прорыв открывает новый этап развития искусственного интеллекта. В будущем такие модели смогут самостоятельно находить эффективные пути решения задач, что особенно важно для науки, инженерии и образования. DeepSeek-R1 показывает, что «чистое подкрепление» может стать реальной альтернативой традиционному обучению с человеческими примерами.
nature
Сразу две компании — OpenAI и Google — сообщили о победах на престижном международном соревновании по программированию ICPC. По данным инсайдов, их модели впервые показали уровень, сопоставимый с лучшими командами из людей, и даже превзошли их.
Команда OpenAI заявила, что их модель решила 12 из 12 задач. Из них GPT-5 с первой попытки справился с 11 заданиями, а самое сложное было закрыто с помощью ещё не представленной reasoning-модели, которая также направляла решения по другим задачам. Это фактически идеальный результат, который ранее был недостижим даже для лучших университетских команд.
Google выступил с собственным достижением: продвинутая версия Gemini 2.5 Deep Think решила 10 из 12 задач и, по заявлениям компании, справилась хотя бы с одной задачей, которую не смогла решить ни одна из команд людей. Это указывает на то, что новые архитектуры начинают находить нестандартные ходы, которые выходят за пределы привычного человеческого опыта.
Если данные подтвердятся, ICPC 2025 войдёт в историю как момент, когда модели искусственного интеллекта впервые официально обошли лучшие команды программистов-людей в соревновании мирового уровня. Это событие может стать переломным: теперь ИИ рассматривается не просто как ассистент, а как полноценный участник и даже лидер в задачах, требующих абстрактного мышления, алгоритмического анализа и математической строгости.
Такие достижения поднимают новые вопросы: стоит ли ИИ допускать к соревнованиям наравне с людьми, как использовать его для обучения программистов и где пройдёт граница между «человеческой» и «машинной» интеллектуальной работой. Одно ясно — в мире алгоритмов начинается новая эра, и ICPC стал её яркой отправной точкой.
IBM представила granite-docling-258M — компактную модель, которая совмещает несколько функций: это не только конвертер документов, но и система для вопросно-ответных задач по содержимому файлов. Модель поддерживает несколько языков и распространяется под лицензией Apache 2.0.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡3👍2🔥1
Forwarded from Machinelearning
В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля.
Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют.
«Reinforcement learning ужасен. Просто всё, что было до него, ещё хуже.»
Карпаты отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают.
Главное, по его словам, впереди - не сингулярность, а тихое делегирование мышления алгоритмам.
«ИИ лишит человечество возможности принимать решения. Мы перестанем думать и выбирать сами.»
Карпати считает, что нынешние агенты — «полное г…», а настоящего AGI стоит ждать не раньше чем через 10 лет.
Он боится не бунта машин, а того, что люди незаметно перестанут быть разумными - просто передав все решения системам, которые “знают лучше”.
Полное интервью
Исследователи из Epoch AI проверили, насколько современные модели действительно умеют «думать» в математике.
Они использовали тест FrontierMath — 290 задач, которые требуют не запоминания формул, а настоящего рассуждения и способности к обобщению.
Результаты оказались отрезвляющими.
Даже GPT-5, одна из самых мощных моделей на сегодня, смогла решить только 29 % задач в одном прогоне.
После 32 запусков (чтобы компенсировать случайность) показатель вырос до 46 %, но затем перестал расти.
Даже если объединить результаты десятков моделей - от ChatGPT Agent и Gemini 2.5 Deep Think до o4-mini, совокупная решаемость достигает лишь 57 %.
По оценкам авторов, даже при бесконечных попытках предел будет меньше 70 %.
Итог: несмотря на огромный прогресс, современные LLM остаются далеки от настоящего "AGI" - они всё ещё плохо справляются с глубинным рассуждением и гибким решением задач, где нужно не память, а мышление.
Исследователи сообщили о тревожном эффекте - у больших языковых моделей (LLM) может развиваться “Brain Rot”, то есть постепенное «когнитивное разложение».
Причина - постоянное дообучение на низкокачественных и “вирусных” текстах из интернета, что приводит к стойкому снижению способностей к рассуждению, работе с длинным контекстом и безопасному поведению.
Главный симптом - “отсутствие мышления” (thought-skipping): модель перестаёт рассуждать шаг за шагом и начинает выдавать поверхностные ответы, а в некоторых случаях даже приобретает “тёмные” черты личности - нарциссизм, агрессию и низкую склонность к сотрудничеству.
Даже сильные методы коррекции, лишь частично устраняют последствия, что делает отбор обучающих данных ключевым фактором безопасности при развитии ИИ.
openreview
Это компактная языковая модель (~1 млрд параметров) и несмотря на размер, она превосходит Gemma 3 1B и Llama 3.2 1B в задачах рассуждения, знаний и работы с длинным контекстом - до 128 000 токенов.
Внутри гибридное внимание (локальное + глобальное в соотношении 3:1, окно 512) это низкую задержку и экономию KV-памяти.
Подробнее
Инструмент, в который встроено более 100 опенсорсных моделей от ведущих разработчиков.
Внутри: модели от OpenAI, Qwen, Google, Nvidia, DeepSeek и десятков других. Система сама выбирает оптимальную модель под конкретный запрос.
Попробовать
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍5⚡3🔥2❤1