Machinelearning

🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

git clone [email protected]:fuxiao0719/GeoWizard.git

cd

GeoWizard conda create -n geowizard python

=

3.9

conda activate geowizard pip install -r requirements.txt

cd

geowizard

🟡

Страничка GeoWizard

🖥

GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]

🟡

Hugging Face

🟡

Arxiv

@ai_machinelearning_big_data

#Normal #3D #Depthmap #Generative #Ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍14❤4👏1

10.4K views09:22

Machinelearning

🌟

AuraFlow v0.1 — релиз новой open-source большой генеративной модели с собственной архитектурой.

Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)

Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.

В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.

При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.

⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)

Рекомендации по построению промптов от разработчиков:

- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.

🟡

Демо HF

🟡

Модель на HF

🟡

Страница проекта

🟡

Workflow для ComfyUI

@ai_machinelearning_big_data

#Generative #ComfyUI #AuraFlow #Diffusers #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤6🔥6

10.4K views11:55

Machinelearning

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Stable Video 4D: Модель для динамической генерации видео с разных ракурсов.

Stable Video 4D - модель генерации видео от Stability AI, способная преобразовывать одиночное видео объекта в несколько новых видео с различных ракурсов с поддержкой согласованности внешнего вида объекта по пространственным и временным осям..

Модель использует комбинацию из четырех визуальных энкодеров (SigLIP, CLIP, DINOv2 и OpenCLIP ConvNeXt) и пространственный агрегатор зрения для создания 5 кадров для каждого из 8 ракурсов примерно за 40 секунд.

В Stable Video 4D пользователю доступны параметры:

🟢

Входное видео: загрузка одиночного видео объекта, которое будет использоваться как основа для генерации новых ракурсов. Поддерживаемые форматы — .gif, .mp4 или секвенция кадров в формате .png\.jpeg\.jpg;

🟢

3D-позиции камеры: указание конкретных ракурсов и углов обзора, с которых модель должна сгенерировать новые видео;

🟢

Количество кадров: по умолчанию модель генерирует 5 кадров для каждого ракурса, но этот параметр может быть изменен;

🟢

Количество ракурсов: стандартно модель создает 8 новых ракурсов, но пользователь может настроить это количество в зависимости от своих потребностей;

🟢

Количество шагов оптимизации: регулировка количества шагов, затрачиваемое на 4D-оптимизацию, чем больше шагов - тем лучше результат.

▶️Технические рекомендации по запуску официально не публиковались, но в сообществе пользователей подтверждают о возможности запуска Stable Video 4D на 16 GB VRAM.

▶️Для локального запуска необходимы модели:

🟠

Stable Video 3D_U

🟠

Stable Video 3D_P

🟠

Stable Video 4D

▶️Локальный запуск Stable Video 4D:

с автозагрузкой моделей и дефолтными параметрами

python scripts/sampling/simple_video_sample_4d.py --input_path assets/test_video1.mp4 --output_folder outputs/sv4d

с настраиваемыми параметрами

python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video> --<sv3d_version> -- <elevations_deg> -- <num_steps> --output_folder_path <output/folder/path>

📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму

🟡

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 25K | Issues: 239 | Forks: 2.6K]

@ai_machinelearning_big_data

#AI #StabilityAI #ML #Generative #SV4D