VAI – Telegram

VAI

Как я тренировал LoRA на себе

Сразу скажу — локальные решения здесь не разбираю. Они сложнее, требуют мощного железа и много времени (думаю мало людей, кто захочет слушать занудные посты про ноды). Расскажу про максимально простые способы.🔥

Из онлайн-сервисов использовал два:

📌 Krea (платный, но обучает модель за ~5 минут). Krea вообще, один из таких сервисов, как по мне, который должен быть у каждого, кто занимается генеративным ИИ.

📌 Weights (бесплатный, но медленный — в очереди на обучение ждал сутки, но тут никаких проблем, закинул на обучение, через день-два вернулся и забрал. Само обучение заняло ~30 минут)

Есть и др. сервисы, тут как обычно на вкус и цвет. 🧐

Оба используют модель Flux. Разницы в качестве не заметил, но почти все мои примеры сделаны через Krea.

Подготовка датасета:

Для обучения я собрал датасет из 30 фотографий(в Krea можно до 50):

📌 разные ракурсы, мимика, прически, очки, одежда и тд.

📌 нормальное освещение (без засветов и теней)

📌 лицо хорошо читается, без размытия

📌 нейтральный фон, без лишнего шума

📌 если нужно, убрать артефакты или изъяны, чтобы нейронка их не переносила, стоит доработать в Photoshop

Подготовка изображений:

📌 все фото обрезал до квадрата (1024×1024, больше не стоит можно и 512х512), голова — по центру кадра.

Для подготовки использовал Birme — удобный онлайн-инструмент: загружаешь пачку фото, задаешь соотношение сторон, отцентровываешь голову по кадру и экспортируешь архивом. 2 минуты — и готово. 🫡

Обучение:

📌 затем загружаю подготовленные изображения в Krea или Weights

📌 в настройках указываю ключевое слово или фразу, по которой в будущем буду вызывать эту LoRa в генерации

📌 запускаю обучение LoRA

После обучения получаю готовую LoRA. Использовать её можно сразу — но только в онлайне данных сервисов, скачать нельзя.

Что делаю дальше?

📌 иду на Pinterest, ищу визуальный референс по настроению. Хороший сервис для вдохновения

📌 загружаю картинку в JoyCaption Pre-Alpha. Хороший сервис для генерации промта по изображению

📌 если нужно, корректирую промт (цвет, свет, детали). Если знание английского позволяет, можно редактировать напрямую. Если нет — поможет Google или Яндекс Переводчик.

📌 возвращаюсь в Krea или Weights загружаю свою LoRA(она появится в стилях) и вставляю промт — получаю результат

Потом можно прогнать через апскейл (писал про них раньше), чтобы по итогу получить идеальное изображение.

Достаточно просто и не сложно.

🤫

Пробуйте!

🙌

P.S.Теперь у меня есть свой датасет, и я могу делать с собой всё, что захочу! У меня никогда не было столько фотографий, сколько я нагенерировал за один вечер — а я ведь показал далеко не всё!)

P.P.S.В следующий раз расскажу про двойную LoRA — как объединять сразу несколько моделей.

P.P.P.S.Всех с праздником!!!🤗

@VAI_ART
#VAI_Practice

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5👍4

718 viewsedited 08:29

VAI

ГЕНЕРАЦИЯ В 3D

Настало время показать, что и в 3d всё обстоит довольно хорошо. А то все 2d, хотя я изначально 3d-шник:)🙌

Да, процессы пока не идеальны, но уже сейчас можно добиться очень достойного результата в работе.

Давно собирался рассказать и про 3d. Как раз по плану был пост про возможности генеративного 3d — многие визуально недооценивают те перспективы, которые там открываются.
Первоначально хотел показать работу в Tripo3D и Prism, но неделю назад вышло кое-что куда более интересное: Hunyuan выпустили новую модель версии 2.5, и это действительно сильное событие в 3d-сфере, которое невозможно обойти стороной.

Генерация 3d по изображениям вышла на новый уровень. Думаю, это и так видно по примеру (в комментариях прикрепил прогресс от концепта до финальной модели и пролетку).

Генерируются и хардсерф, и органика — с очень хорошим соблюдением форм.
На данный момент эта модель уже закрывает хороший блок задач — это генерация базовой формы объекта, причём готовность этой формы — 70–80%.

Да, кто-то скажет: а как же сетка? А как развертка?

🤨

Здесь всё зависит от цели. Если объект не предполагает анимации, его можно просто прогнать через диссеймет — автоматическую переработку сетки с сохранением формы (там, где геометрия важна, сетка почти не меняется. А где нет — оптимизируется до предела).
Для рендера или под обрисовку такой подход подходит на 80–90%. Большую часть задач можно решить прямо внутри этого пайплайна.

Да, остаётся момент: если объект нужен для анимации или на него будет фокус в игровой сцене — придётся делать и ретопологию, и UV-развертку, и дорабатывать текстуры (можно запечь текстуры для дальнейшей доработки с ИИ-модели на модель с ретопологией).

И я думаю: через полгода-год мы увидим уже более универсальные инструменты.
Ведь ретопология и развертка — это в первую очередь технические задачи, а LLM с такими задачами справляются отлично (они уже пишут код, управляют симуляциями и тд.).
Тот же GPT, если попросить «показать сетку» на изображении, сделает это почти идеально, потому что понимает правила её построения.

Осталось только это всё объединить в единый пайплайн!

3d-шники на низкий старт?😅

Генерация концепта и 3d модели заняли 20 минут со всеми корректировками. Правки модели текстуры заняли еще в районе часа.

Очень давно я был на проекте, на котором сделал под сотню подобных персонажей и раньше это занимало 1-2 дня (на уровне форм). Сейчас 2 часа:). Это я еще концепт не посчитал, на который также обычно уходило 1-3 дня (в зависимости от сложности) 🫡

P.S. В Hunyuan 2.5 есть бесплатные генерации.

P.P.S. Всё на китайском, но можно включить автоматический перевод страницы в браузере — на русский или английский. Я сам зарегистрировался методом тыка 😅 Можно выбрать регистрацию по почте:
● вводим e-mail
● нажимаем кнопку, чтобы сервис сам сгенерировал пароль и отправил его на почту
● копируем пароль
● вставляем — и всё, готово!

@VAI_ART
#VAI_General

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4

701 viewsedited 07:09

VAI

ИИ — это не разум.🧐

Всё, что сегодня называется искусственным интеллектом — это по сути система, которая угадывает следующее слово, символ, токен. GPT, Claude, Gemini и другие LLM не думают. У них нет сознания, мышления или внутреннего понимания мира. Они просто учились на огромных объёмах текста и научились очень хорошо имитировать рассуждение. Но именно имитировать.

Мы наблюдаем инструмент, создающий видимость интеллекта. Он может писать тексты, поддерживать диалог, генерировать код или образы — но делает это без понимания. Это не интеллект, а его иллюзия.

Название «искусственный интеллект» появилось не просто так. С самого начала идея заключалась в том, чтобы попытаться повторить то, как работает человеческий разум. Алгоритмы, которые лежат в основе нейросетей, действительно чем-то похожи на работу нейронов в мозге — в этом смысле название оправдано. Но важно понимать: это только внешнее сходство. Современные ИИ-системы не думают, не понимают и не осознают. Они просто обрабатывают данные и выдают результат, который выглядит разумно.

Сейчас идёт инженерная гонка: больше параметров, больше данных, больше вычислений. Но суть остаётся прежней. Мы не ближе к пониманию мышления, чем пять лет назад. Просто научились лучше имитировать.

По-настоящему сильный ИИ не появится в GPT-6. Он не родится из миллиарда новых параметров. Он появится тогда, когда мы сделаем сдвиг в понимании разума. Когда научимся моделировать не шаблон, а смысл. Не форму, а мышление. Только тогда появится не просто инструмент, а нечто действительно мыслящее.💪💪💪

@VAI_ART
#VAI_Notes

👍8❤2🦄2

651 viewsedited 07:12

VAI

Двойная LoRA

Ранее я уже делился одним из вариантов, как обучать LoRA. В этом посте добавлю ещё немного практической информации. 🫡

Как сгенерировать изображение с двумя людьми?
На самом деле, тут нет ничего сверхсложного — всё примерно так же, как и с генерацией одного человека.

Предположим, что вы обучили две отдельные LoRA-модели на двух разных людях. К сожалению, существующие инструменты пока не умеют одновременно применять несколько LoRA в одной генерации. Но это не проблема — есть рабочее решение.

📌 Сначала генерируем изображение с двумя персонажами. К одному из персонажей подключаем одну из готовых LoRA и описываем его. Второго также лучше заранее описать в промпте: пол, телосложение, одежду и другие важные детали персонажа — это упростит дальнейшее редактирование. Но не обязательно, так как потом можно будет заменить всего персонажа целиком.

📌После генерации переходим в режим редактирования — inpaint (писал про него тут).

📌 Выделяем нужную зону для замены. Например, если вас устраивает поза, одежда и общая композиция, но нужно изменить лицо второго персонажа — выделяем область головы (включая волосы). Можно выделить и всего человека, тогда ИИ заменит исходя из описания полностью.

📌 Добавляем уточняющий промпт, например:
woman with long blond hair

📌И самое главное — подключаем LoRA второго человека (также в стилях).

ИИ встроит нужное лицо в уже сгенерированное изображение, ориентируясь на вашу LoRA и промпт. 🙌

Работает это не так стабильно, как генерация по одной LoRA, и может не получиться с первого раза. Но со второй или третьей попытки результат обычно получается достаточно хороший.
Таким способом можно собирать изображения с 2, 3, 4 и более людьми. 💪

На обложке к посту ~~наконец то поймал Слая~~ использована только моя LoRA. Для известных людей можно вообще не обучать — датасеты уже давно есть у большинства моделей.

@VAI_ART
#VAI_Practice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

665 views07:51

VAI

Всех с праздником!

Пообщался с ChatGPT на тему Второй мировой войны — и в итоге получился небольшой визуальный сет. От лица солдата.

@VAI_ART
#VAI_Gallery

👍11❤3

683 views08:38

VAI

Будущее науки_ ИИ в действии.wav

17.2 MB

Подкасты Notebooklm

Интересный симбиоз: можно взять статью, загрузить её в NotebookLM — и получить подкаст, созданный на основе текста.🔥🔥🔥

Я провел быстрое исследование по ИИ-технологиям с акцентом на их влияние на науку и технологии (звучит уже почти волшебно). Делился результатами вот здесь — писал про глубокое исследование.

Да, в некоторых местах слышны мелкие шероховатости, но в целом всё звучит весьма достойно.

Если лень читать длинные статьи — просто загружаете нужный материал (поддерживаются разные форматы), и получаете звуковой файл, который удобно слушать в дороге или во время тренировок.

Сейчас есть ограничения — до 500 000 слов или 200 МБ.

Реально крутая штука — попробуйте сами и послушайте, насколько это хорошо звучит.💪

P.S. Нужен VPN.

@VAI_ART
#VAI_News

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1

657 viewsedited 09:03

VAI

Ребята с Data Secrets выпустили большой конспект по LLM моделям. Много интересной и полезной информации. Для тех, кто хочет глубже разбираться и понимать как устроен ИИ.

548 viewsedited 18:20

VAI

Forwarded from Data Secrets

Конспект LLM.pdf

38.1 MB

Большой коспект по LLM от нашей команды

👍

Мы долго трудились и наконец готовы представить вам наш большой авторский конспект по языковым моделям. Почти 50 страниц, 7 разделов и все, что нужно, чтобы понять, как работают современные LLM. Внутри:

➖ Краткая история LLM от перцептрона до ризонинг-моделей
➖ Необходимая математика: линал и матанализ на пальцах
➖ Все про механизм внимания и трансформеры от А до Я
➖ Дотошное объяснения процесса предобучения
➖ Практический гайд "Как самостоятельно затюнить модель"
➖ RL – с нуля до ризонинга

Все – в иллюстрациях, схемах и интуитивно понятных примерах.

Сохраняйте, делитесь с друзьями и ставьте ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10😱1

592 views18:20

VAI

Закроем (по крайней мере на время) тему создания изображений с нужным персонажем.
Но перед этим - ещё один интересный инструмент, который появился совсем недавно.🔥

Я специально не писал раньше про такие функции, как Character References - они есть, например, в Leonardo или в Midjourney (сейчас уже убрали).

Суть простая: загружаешь одно фото - и ИИ пытается распознать и воспроизвести персонажа.
В теории - это очень удобный способ.
На практике - узнаваемость была слабой.

☹️

Иногда получалось сделать образ, похожий на оригинал, но, когда я пытался воспроизвести себя - выходили вообще другие люди.
Возможно, многое зависит от выразительности и уникальности черт лица.

И вот, как только я выпустил пост про обучение LoRA - Midjourney выкатывает новую функцию - Omni References.
Она уже работает намного лучше. Причём не только на людях, но и на объектах, технике, животных и тд.
На примере людей хорошо получается, если использовать близкий ракурс (close-up) - при дальних планах ИИ всё ещё может уводить в другие черты.

Как говорил раньше - в плане художественности у Midjourney пока нет конкурентов.
Можно сравнить с тем же Flux: видно, насколько в MJ кадры выразительнее, насыщеннее, «живее».
А теперь это ещё и удобно: достаточно одного фото, и можно создавать что угодно - от реализма до аниме. 😎

Как использовать:

 📌 В веб-версии:
Перетащи нужное изображение в поле prompt
Помести его в контейнер omni-reference
Настрой степень влияния слайдером Omni-Weight.

📌 В Discord:
Просто добавь в промпт:
 – oref URL - ссылка на изображение 
 – ow 100 - уровень влияния (можно от 0 до 1000)

📌 Omni-Weight управляет точностью:
 - 0 - почти не влияет
 - 1000 - максимально точно вставляет объект из референса

📌 Написать промт.

Со временем всё становится проще и будет становиться ещё проще.
Что интересно: я заметил, что даже при загрузке фотографии анфас, модель может сгенерировать узнаваемый профиль.
Как она это делает - непонятно, но очень интересно. 🧐

@VAI_ART
#VAI_General

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3🔥3👌1

678 views08:46

About

Blog

Apps

Platform