Tensor Banana

Flux Kontext с промптами

1. Колоризация старых фото: colorize this photo
2. Колоризация манги: colorize this manga
3. снять одежду: remove clothes, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover
4. апскейл фото: upscale this image, make it crisp, add details
5. объект с разных ракурсов: Same character but in the 3 positions, front, side and back.
6. real2anime: turn this photo into Ghibli Studio anime
7. anime2real: make it realistic
8. замена текста: Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA' Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе.
9. сменить пол: turn her into a man, but keep facial features the same. big cheekbones
10. перенос объектов с разных фото:

add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet

11. на обложку журнала: Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover
12. лего: turn them into Lego style
13. убрать вотермарки: remove watermarks
14. пиксельарт/8bit: turn this into 8-bit NES art

- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд

официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications

воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras

потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev

Если есть еще интересные кейсы - кидайте в комменты.

👍52🔥14🤝6❤2✍2

6.9K views09:58

Float - липс синк и говорящая голова на реал-тайм скорости

- на вход картинка 512х512
- лицо должно занимать 60% кадра и смотреть прямо. Если есть обрезка головы, например, макушка, на выходе будут сильные артефакты
- нет video2video, на вход только картинка
- поддерживает 7 эмоций, можно задавать вручную: 'angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise' (гнев", "отвращение", "страх", "радость", "нейтральность", "грусть", "удивление"). По умолчанию использует смешанные эмоции.
- аниме лица не анимирует
- скорость на 3090 почти реалтайм: 39 секунд аудио за 41 секунду обработки
- жрет всего 3.3 гига VRAM при 20 секундах аудио
- в комфи ставится через manager по URL без всяких танцев с бубном

Надо бы сделать в комфи авто-вырезалку квадратного портрета с последующей склейкой обратно поверх исходного лица.

код: https://github.com/set-soft/ComfyUI-FLOAT_Optimized

ноды для comfy: https://github.com/set-soft/ComfyUI-FLOAT_Optimized

видео примеры: https://deepbrainai-research.github.io/float/

🔥25👍6🤡3❤2😁2

3.93K views15:27

Tensor Banana

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU

- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.

Установка под виндой

(для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry  
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере

По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md

гитхаб: https://github.com/voicekit-team/T-one

HF: https://huggingface.co/t-tech/T-one

1👍32🔥6❤5🤔3

3.57K views11:33

Tensor Banana