227K subscribers
3.79K photos
631 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Hunyuan-Large: MoE-модель с 389 млрд. параметров.

Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:

🟢Hunyuan-Large;
🟢Hunyuan-Large-Instruct
🟢Hunyuan-Large-Instruct-FP8

Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.

Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.

GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.

Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью top-k маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.

Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.

Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MoE #HunyuanLarge #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍18🔥8😁4🗿2
🌟 Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению.

Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:

🟢Hunyuan3D-1 Lite - облегченная версия многовидовой генерации;
🟢Hunyuan3D-1 Standard - стандартная версия многовидовой генерации;
🟢Hunyuan3D-1 Sparse view reconstruction - модель реконструкции с ограниченным набором видов.

▶️ Ключевые особенности Hunyuan3D-1.0:

🟠Генерация 3D-модели занимает всего 10 секунд для облегченной версии и 25 секунд для стандартной версии;

🟠Высокая детализация текстур и геометрии;

🟠Динамическая регулировка CFG в процессе генерации;

🟠Модуль суперразрешения повышает разрешение трехплоскостных карт для создания детализированных аспектов 3D-формы;

🟠Использование функции знаковых расстояний (SDF) позволяет преобразовать неявную репрезентацию 3D-формы в явную сетку с помощью алгоритма Marching Cubes.

▶️ Пайплайн Hunyuan3D-1.0:

Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции.

Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.

▶️ Как обучалась Hunyuan3D-1.0:

Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.

Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100.

▶️ Оценка Hunyuan3D-1.0:

Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.

Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.


Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.

⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе) +0, +60, +120, +180, +240, +300.

⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.


▶️Локальный запуск с GradioUI:

# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1

# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh

# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite

# Open in browser link https://127.0.0.1:8080/


📌Лицензирование: Tencent Hunyuan Non-Commercial License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥8🥰4😁32
⚡️ HunyuanVideo: модели генерации видео по тексту от Tencent.

Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.

Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.

Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.

HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:

🟢Режим Normal улучшает понимание моделью намерений пользователя, способствуя более точной интерпретации промпта.

🟢Режим Master улучшает описание композиции, освещения сцены генерации и движения камеры, что на выходе дает видео с более высоким визуальным качеством.

HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.

Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.

▶️Планы развития HunyuanVideo:

🟠Бенчмарк Penguin Video;
🟠Web Demo (Gradio);
🟠Поддержка ComfyUI;
🟠Поддержка Diffusers;
🟠Модель и код инференса Image-to-Video версии.

⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.

▶️Установка и инференс T2V в 720р:

# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo

# Install pip dependencies
python -m pip install -r requirements.txt

# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/[email protected]

# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results


📌Лицензирование: Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель HunyuanVideo
🟡Модель HunyuanVideo-PromptRewrite
🟡Техотчет
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #Text2Video #Tencent #HunyuanVideo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥259👍5🎉2
⚡️Tencent выпустили новую версию модели для генерации 3D из текста и изображения - Hunyuan3D 2.0.

Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна ​​для создания правильной геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.

GitHub
HF
Demo

@ai_machinelearning_big_data


#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥1311😁4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 TrajectoryCrafter (Moving-Camera Diffusion) — свежий инструмент от Tencent, который предлагает новый подход к перенаправлению траекторий камеры в монохромных видео.

Как работает модель:
🌟 Инициализация:
начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать.

Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео.

🌟 Диффузионный процесс:
Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены).

Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам.

🌟 Генерация итоговой траектории:
После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики.

Установка:
git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafter


🖥 Github
🟡Статья
🟡Проект
🟡Demo
🟡Video

@ai_machinelearning_big_data


#opensource #ml #ai #cameracontrol #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3818🔥8💯2
🌟 InstantCharacter — новый фреймворк от Hunyuan (Tencent) для стилизации любых персонажей.

Традиционные методы файн‑тюнинга моделей под конкретный образ персонажа обычно либо:
💬 деградируют качество генерации при сохранении идентичности (UNet‑подходы),
💬 либо требуют отдельного, ресурсоёмкого обучения для каждого персонажа

InstantCharacter решает обе проблемы сразу:
Высокое качество
- Построен на базе DiT-моделей, которые по качеству превосходят классические UNet‑архитектуры.

🔥 Гибкая персонализация.
Китайцы сделали адаптер с каскадными энкодерами‑трансформерами, который модулирует признаки персонажа и взаимодействует с латентным пространством DiT.

✔️ Масштабируемость
Фреймворк обучен и на огромном датасете - более 10 миллионов примеров, поделённых на парные и непарные (текст+изображение) примеры.

Трёхэтапное обучение:
🟢Предварительное обучение на низком разрешении без пар.
🟢Дообучениена парных примерах для консистентности.
🟢Финальная донастройка для текстового управления генерациями.

Результаты:
🟢на демке выдает высокое качество, персонажи плавно переходят в различыне стили и меняют позы.
🟢высокая консистентность и сохранение мелких деталей персонажа.
🟢легко управляется промптами без потери качества.

В сравнении с предыдущими подходами InstantCharacter задает высокую планку качества в задачах character-driven image generation.

🔜Попробуйте демку
🔜Project
🔜Аrxiv
🔜Github

@ai_machinelearning_big_data

#Hunyuan #Tencent #InstantCharacter
#OpenSource #AI #CharacterCustomization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5925🔥16
🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5824🔥16👏7
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.

Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.

В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.

Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.

Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.

Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.

Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.

⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.

Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.


📌Лицензирование кода : Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6116🔥10🥰5🤨2
✔️ Релиз Hunyuan 3D 2.1!

Первая полностью open-source, готовая к продакшену PBR 3D генеративная модель!

PBR (Physically Based Rendering) - это технология, при которой внешний вид 3D-объектов рассчитывается с учётом реальных физических законов взаимодействия света и поверхности.

Модель выдает кинематографичное качество: синтез PBR-материалов — кожа, бронза и другие поверхности выглядят фотореалистично с красивыми эффектами освещения.

Open source: доступны веса модели, код для обучения и инференса, пайплайны — всё можно доработать под себя.

Запускается даже на потребительских GPU (Модель тестировалась на GPU A100 с Python 3.10 и PyTorch 2.5.1+cu124.) — с моделью создавать 3D-контент могут не только студии, но и любые разработчики и малые команды.

Модель: https://huggingface.co/tencent/Hunyuan3D-2.1
Github: https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1
Hunyuan 3D Creation Engine: https://3d.hunyuan.tencent.com

@ai_machinelearning_big_data


#Hunyuan3D #OpenSource #3DCreation #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
65🔥40👍25🥰7
📌 Tencent выложила открытую модель — Hunyuan-A13B-Instruct на Hugging Face

💡 Особенности:
• 13 млрд параметров
• Поддержка длинного контекста — до 32,000 токенов
• Заточена на диалоги, код и reasoning
• Использует архитектуру SwiGLU, Multi-Query Attention, RoPE и другие современные оптимизации

📌 Хорошие результаты на бенчмарках:

🟠CMATH, GSM8k, MATH — >91 балла
🟠MBPP (код): 83.86 — топ-1
🟠EvalPlus (code reasoning): 78.64 — топ-2

📉 Слабые результаты на:

🟠SuperGPQA: 41.32
🟠GPQA: 49.12
🟠MultiPL-E: 69.33

Модель Hunyuan-A13B-Instruct:

🟢Конкурирует с Qwen3-A22B и DeepSeek R1 в большинстве задач

🟢Особенно сильна в reasoning, математике, кодировании и агентных задачах

🟢Слаба в General QA (GPQA, SuperGPQA)

✔️ По ряду метрик лучше моделей большего размера (Qwen2.5-72B)

Лицензия: Hunyuan Community License Agreement

🔗 Модель доступна на Hugging Face: https://huggingface.co/tencent/Hunyuan-A13B-Instruct

@ai_machinelearning_big_data

#ml #ai #Hunyuan #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4113🔥12🥰6🌭1