227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

git clone [email protected]:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9

conda activate geowizard
pip install -r requirements.txt
cd
geowizard



🟡 Страничка GeoWizard
🖥 GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

#Normal #3D #Depthmap #Generative #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍144👏1
🌟 AuraFlow v0.1 — релиз новой open-source большой генеративной модели с собственной архитектурой.

Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)

Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.

В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.

При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.

⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)

Рекомендации по построению промптов от разработчиков:
- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.


🟡 Демо HF
🟡 Модель на HF
🟡 Страница проекта
🟡 Workflow для ComfyUI

@ai_machinelearning_big_data

#Generative #ComfyUI #AuraFlow #Diffusers #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍246🔥6
⚡️ Stable Video 4D: Модель для динамической генерации видео с разных ракурсов.

Stable Video 4D - модель генерации видео от Stability AI, способная преобразовывать одиночное видео объекта в несколько новых видео с различных ракурсов с поддержкой согласованности внешнего вида объекта по пространственным и временным осям..

Модель использует комбинацию из четырех визуальных энкодеров (SigLIP, CLIP, DINOv2 и OpenCLIP ConvNeXt) и пространственный агрегатор зрения для создания 5 кадров для каждого из 8 ракурсов примерно за 40 секунд.

В Stable Video 4D пользователю доступны параметры:

🟢Входное видео: загрузка одиночного видео объекта, которое будет использоваться как основа для генерации новых ракурсов. Поддерживаемые форматы — .gif, .mp4 или секвенция кадров в формате .png\.jpeg\.jpg;

🟢3D-позиции камеры: указание конкретных ракурсов и углов обзора, с которых модель должна сгенерировать новые видео;

🟢Количество кадров: по умолчанию модель генерирует 5 кадров для каждого ракурса, но этот параметр может быть изменен;

🟢Количество ракурсов: стандартно модель создает 8 новых ракурсов, но пользователь может настроить это количество в зависимости от своих потребностей;

🟢Количество шагов оптимизации: регулировка количества шагов, затрачиваемое на 4D-оптимизацию, чем больше шагов - тем лучше результат.


▶️Технические рекомендации по запуску официально не публиковались, но в сообществе пользователей подтверждают о возможности запуска Stable Video 4D на 16 GB VRAM.

▶️Для локального запуска необходимы модели:

🟠Stable Video 3D_U
🟠Stable Video 3D_P
🟠Stable Video 4D

▶️Локальный запуск Stable Video 4D:

с автозагрузкой моделей и дефолтными параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path assets/test_video1.mp4 --output_folder outputs/sv4d


с настраиваемыми параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video> --<sv3d_version> -- <elevations_deg> -- <num_steps> --output_folder_path <output/folder/path>



📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму


🟡Страница проекта
🟡Модель на HF
🟡Video на YT
🟡Сообщество в Discord
🟡Arxiv
🖥Github [ Stars: 25K | Issues: 239 | Forks: 2.6K]


@ai_machinelearning_big_data

#AI #StabilityAI #ML #Generative #SV4D
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥85