Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)
Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.
В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.
При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.
⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)
Рекомендации по построению промптов от разработчиков:
- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.
@ai_machinelearning_big_data
#Generative #ComfyUI #AuraFlow #Diffusers #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤6🔥6