Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.
Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.
Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.
Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.
Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.
Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Tokenizer #Cosmos
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46❤14👍4⚡1🥰1
Media is too big
VIEW IN TELEGRAM
🚀 Cosmos-Predict2 — новая открытая версия видео-модели для Physical AI от NVIDIA!
Cosmos-Predict2 — ключевая часть экосистемы World Foundation Models (WFMs), созданная для Physical AI. Модель умеет предсказывать будущее состояние визуального мира, используя текст и видео. Cosmos разработан для ускорения обучения моделей, которые понимают физику, среду и действия — от автономных автомобилей до роботов. Выглядит очень интересно.
Это самое мощное поколение моделей в экосистеме Cosmos. Модель заметно улучшена по сравнению с Predict1:
🎯 лучшее качество видео
🧠 точнее соответствует текстовому описанию
🎥 более реалистичная динамика движения
📊 Cosmos-Predict2 превосходит другие open-source видео foundation-модели.
▪ Веса
▪ Полный код для инференса и обучения (с туториалами)
@ai_machinelearning_big_data
#Cosmos #NVIDIA
Cosmos-Predict2 — ключевая часть экосистемы World Foundation Models (WFMs), созданная для Physical AI. Модель умеет предсказывать будущее состояние визуального мира, используя текст и видео. Cosmos разработан для ускорения обучения моделей, которые понимают физику, среду и действия — от автономных автомобилей до роботов. Выглядит очень интересно.
Это самое мощное поколение моделей в экосистеме Cosmos. Модель заметно улучшена по сравнению с Predict1:
🎯 лучшее качество видео
🧠 точнее соответствует текстовому описанию
🎥 более реалистичная динамика движения
📊 Cosmos-Predict2 превосходит другие open-source видео foundation-модели.
▪ Веса
▪ Полный код для инференса и обучения (с туториалами)
@ai_machinelearning_big_data
#Cosmos #NVIDIA
❤52🔥39👍23