NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.
X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.
#StateoftheArt
X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.
#StateoftheArt
DeepLearning.AI представил бесплатный видеокурс Building an AI-Powered Game длиной 1 час. Преподаватели Ники Биркнер из Together AI и Ник Уолтон, сооснователь Latitude & AI Dungeon, покажут, как примененять LLM в разработке игр на реальных примерах.
На курсе вы узнаете, как:
1. применять промт-инжениринг для создания игрового мира с процендурно-генерируемым контентом;
2. создавать игровой прототип, включающий core-механику пользовательский интерфейс, систему загрузки игрового мира;
3. гарантировать безопасную игровую среду, используя Llama Guard и настраиваемые политики контента;
4. добавлять сюжетные элементы и компоненты игрового мира с помощью моделей ИИ.
Курс предназначен для разработчиков начального уровня подготовки и выше.
#Development
На курсе вы узнаете, как:
1. применять промт-инжениринг для создания игрового мира с процендурно-генерируемым контентом;
2. создавать игровой прототип, включающий core-механику пользовательский интерфейс, систему загрузки игрового мира;
3. гарантировать безопасную игровую среду, используя Llama Guard и настраиваемые политики контента;
4. добавлять сюжетные элементы и компоненты игрового мира с помощью моделей ИИ.
Курс предназначен для разработчиков начального уровня подготовки и выше.
#Development
OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.
Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.
Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.
#AIapps
Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.
Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.
#AIapps
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
На CES 2025 Nvidia представила микросервисы NIM для локального запуска ИИ-пайплайнов и новую серию RTX 50.
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs, Meta и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs, Meta и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt