Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.
Allegro основана на трех ключевых технологиях:
Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.
В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.
Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.
Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4
⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.
⚠️ С использованием параметра
--enable_cpu_offload
, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.
# Run inference
python single_inference.py
# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42
@ai_machinelearning_big_data
#AI #ML #Text-to-Video #DiT #Allegro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤7🔥5🎉4
Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:
Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.
Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.
GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.
Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью
top-k
маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.
Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #HunyuanLarge #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍18🔥8😁4🗿2
Чат-бот "Xbox Support Virtual Agent" разработан, чтобы помочь игрокам Xbox решать проблемы, связанные с поддержкой игр. Участники программы Xbox Insiders в США могут начать тестирование нового чат-бота с искусственным интеллектом на сайте support.xbox.com.
Xbox Support Virtual Agent будет отвечать на вопросы, касающиеся поддержки консолей Xbox и игр. Чат-бот будет отображаться в виде анимированного персонажа с искусственным интеллектом, который реагирует на вопросы, или в виде красочного шара Xbox.
theverge.com
VeloRAIN (Robust AI Networking) — новая архитектура, использующая ИИ и ML для повышения производительности и безопасности распределенных рабочих нагрузок ИИ.
VeloRAIN будет обладать возможностями: обнаружение ИИ-приложений с помощью машинного обучения, повышение эффективности сети и оптимизация трафика, а также динамическая, управляемая через ИИ, структура политик для приложений.
Новые функции упростят идентификацию и приоритизацию периферийных ИИ-приложений, обеспечат повышенное качество обслуживания и улучшат пользовательский опыт для современных приложений.
broadcom.com
Это приобретение укрепит позиции Siemens как ведущей технологической компании и лидера в области промышленного ПО. Объединение возможностей Altair в области моделирования, высокопроизводительных вычислений, науки о данных и ИИ с Siemens Xcelerator позволит создать самый полный в мире портфель решений для проектирования и моделирования на базе ИИ.
Siemens ожидает значительный синергетический эффект от перекрестных продаж взаимодополняющих портфелей, а также от предоставления Altair полного доступа к глобальной сети Siemens и ее промышленной клиентской базе. Altair, основанная в 1985 году, вышла на биржу Nasdaq в 2017 году и имеет штаб-квартиру в городе Трой, штат Мичиган. Из более чем 3500 сотрудников компании около 1400 работают в сфере исследований и разработок.
aerospacemanufacturinganddesign.com
M5Stack Module LLM - это новое устройство от компании, которое обеспечивает управление с помощью искусственного интеллекта без доступа к Интернету. Модуль оснащен SoC AX630C, 4 ГБ памяти LPDDR4, 32 ГБ хранилища и нейронным процессором NPU с производительностью 3,2 TOPS (INT8) или 12,8 TOPS (INT4).
Модуль имеет встроенный микрофон, динамик, слот для карт microSD и порт USB OTG. M5Stack Module LLM совместим с контроллерами CoreMP135, CoreS3 и Core2. Модуль поставляется с предустановленной языковой моделью Qwen2.5-0.5B. В будущем он будет поддерживать модели Qwen2.5-1.5B, Llama3.2-1B и InternVL2-1B.
M5Stack Module LLM стоит 49,90 долларов США.
cnx-software.com
NVIDIA представила новый ИИ-шаблон AI Blueprint для поиска и обобщения видео, который позволит разработчикам создавать ИИ-агентов, способных анализировать визуальный контент и отвечать на вопросы пользователей.
Шаблон, являющийся частью платформы NVIDIA Metropolis, объединяет технологии CV и GenAI. ИИ-агенты, созданные с помощью этого шаблона, могут анализировать видеоархивы, выявлять нарушения техники безопасности на складах, определять дорожно-транспортные происшествия и генерировать отчеты для экстренных служб.
NVIDIA сотрудничает с Accenture, Dell Technologies и Lenovo, чтобы сделать этот шаблон доступным для предприятий и городов по всему миру.
blogs.nvidia.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤5🔥4
В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.
Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.
В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.
@ai_machinelearning_big_data
#AI #ML #tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤4
Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:
Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции.
Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.
Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.
Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100.
Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.
Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.
Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.
⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе)
+0, +60, +120, +180, +240, +300
.⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.
# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1
# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh
# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite
# Open in browser link https://127.0.0.1:8080/
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥8🥰4😁3❤2
Акции Nvidia достигли отметки в $139,93, что привело к рыночной капитализации в $3,43 трлн, превысив показатель Apple в $3,38 трлн. Microsoft Corp., которую Nvidia обогнала в прошлом месяце, имеет рыночную капитализацию в $3,06 трлн. С конца 2022 года акции Nvidia выросли более чем на 850%.
Рост компании обусловлен ее доминирующим положением на рынке чипов, используемых для ИИ. Nvidia обеспечивает около четверти роста индекса S&P 500 в этом году, составляя 7% от его веса. Аналитики прогнозируют, что выручка Nvidia более чем удвоится в текущем финансовом году и вырастет еще на 44% в следующем.
bloomberg.com
Команда из Токийского университета науки (TUS) разработала ML-модель, которая проанализировала базу данных из 100 образцов катодов на основе оксидов переходных металлов (NaMeO2) с 68 различными составами.
Модель выявила Na [Mn0.36Ni0.44Ti0.15Fe0.05] O2 как оптимальный состав для достижения максимальной плотности энергии. Для проверки точности прогнозов модели были синтезированы образцы с этим составом, и тесты показали соответствие экспериментальных данных прогнозам. Этот метод может значительно ускорить разработку Na-ion аккумуляторов, перспективной альтернативой Li-ion благодаря доступности натрия и более низкой стоимости.
techexplorist.com
Китай больше не может конкурировать в производстве высокотехнологичных микрочипов из-за санкций США, которые запрещают ему приобретать системы EUV-литографии, необходимые для создания чипов с технологическим процессом 5 нм и меньше.
TSMC (Тайвань) и Intel (США) устанавливают новейшие системы EUV-литографии с высокой числовой апертурой (High-NA EUV) от ASML для запуска производства чипов 1 нм к 2030 году, Китай ограничен системами ArF (Deep Ultra-Violet) предыдущего поколения, которые позволяют создавать чипы только до 5 нм.
Системы High-NA EUV, увеличивающие плотность транзисторов на кристалле в 2,9 раза, стоят не менее 350 млн. долл. за штуку. Хотя Китай пытается разработать собственное оборудование для литографии, этот процесс идет медленнее, чем планировалось.
asiatimes.com
Magnetic-One - система с открытым исходным кодом, доступная разработчикам, в том числе для коммерческих целей, по специальной лицензии Microsoft.
Система основана на агенте-оркестраторе, который управляет 4 другими агентами: Websurfer, FileSurfer, Coder и ComputerTerminal. Websurfer может управлять веб-браузерами на основе Chromium, FileSurfer читает локальные файлы, Coder пишет код, а ComputerTerminal предоставляет консоль для выполнения программ Coder.
Оркестратор распределяет задачи между агентами, отслеживает их прогресс и может корректировать план действий при возникновении ошибок. Хотя Magnetic-One был разработан для использования с GPT-4o, он не зависит от конкретной языковой модели.
microsoft.com
NVIDIA представила на конференции Conference for Robot Learning (CoRL) в Мюнхене ряд новинок, которые позволят разработчикам значительно ускорить свою работу над роботами с поддержкой ИИ.
Среди новинок - общедоступная среда обучения роботов NVIDIA Isaac Lab; 6 новых рабочих процессов обучения роботов-гуманоидов для Project GR00T, инициативы по ускорению разработки роботов-гуманоидов; а также новые инструменты для разработки моделей мира для обработки и курирования видеоданных - токенизатор NVIDIA Cosmos и NVIDIA NeMo Curator для обработки видео.
Токенизатор Cosmos обеспечивает визуальную токенизацию, разбивая изображения и видео на токены с высокой степенью сжатия. Cosmos работает до 12 раз быстрее, чем современные токенизаторы, а NeMo Curator обеспечивает обработку видео до 7 раз быстрее, чем неоптимизированные конвейеры.
blogs.nvidia.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍15🔥3
Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций.
Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B.
Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF:
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
@ai_machinelearning_big_data
#AI #ML #SLM #Huggingface #SmolLM2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥7❤3