Tensor Banana

Float - липс синк и говорящая голова на реал-тайм скорости

- на вход картинка 512х512
- лицо должно занимать 60% кадра и смотреть прямо. Если есть обрезка головы, например, макушка, на выходе будут сильные артефакты
- нет video2video, на вход только картинка
- поддерживает 7 эмоций, можно задавать вручную: 'angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise' (гнев", "отвращение", "страх", "радость", "нейтральность", "грусть", "удивление"). По умолчанию использует смешанные эмоции.
- аниме лица не анимирует
- скорость на 3090 почти реалтайм: 39 секунд аудио за 41 секунду обработки
- жрет всего 3.3 гига VRAM при 20 секундах аудио
- в комфи ставится через manager по URL без всяких танцев с бубном

Надо бы сделать в комфи авто-вырезалку квадратного портрета с последующей склейкой обратно поверх исходного лица.

код: https://github.com/set-soft/ComfyUI-FLOAT_Optimized

ноды для comfy: https://github.com/set-soft/ComfyUI-FLOAT_Optimized

видео примеры: https://deepbrainai-research.github.io/float/

🔥25👍6🤡3😁2❤1

3.75K views15:27

Tensor Banana

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU

- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.

Установка под виндой

(для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry  
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере

По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md

гитхаб: https://github.com/voicekit-team/T-one

HF: https://huggingface.co/t-tech/T-one

1👍30🔥6❤5🤔3

3.18K views11:33

Tensor Banana