GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
git clone [email protected]:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9
conda activate geowizard
pip install -r requirements.txt
cd
geowizard
@ai_machinelearning_big_data
#Normal #3D #Depthmap #Generative #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍14❤4👏1
Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)
Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.
В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.
При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.
⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)
Рекомендации по построению промптов от разработчиков:
- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.
@ai_machinelearning_big_data
#Generative #ComfyUI #AuraFlow #Diffusers #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤6🔥6
Stable Video 4D - модель генерации видео от Stability AI, способная преобразовывать одиночное видео объекта в несколько новых видео с различных ракурсов с поддержкой согласованности внешнего вида объекта по пространственным и временным осям..
Модель использует комбинацию из четырех визуальных энкодеров (SigLIP, CLIP, DINOv2 и OpenCLIP ConvNeXt) и пространственный агрегатор зрения для создания 5 кадров для каждого из 8 ракурсов примерно за 40 секунд.
В Stable Video 4D пользователю доступны параметры:
с автозагрузкой моделей и дефолтными параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path assets/test_video1.mp4 --output_folder outputs/sv4d
с настраиваемыми параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video> --<sv3d_version> -- <elevations_deg> -- <num_steps> --output_folder_path <output/folder/path>
@ai_machinelearning_big_data
#AI #StabilityAI #ML #Generative #SV4D
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥8❤5