LivePortrait + wav2lip - анимация фото с липсинком
Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.
После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.
Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.
VRAM: 6 GB
попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.
После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.
Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.
VRAM: 6 GB
попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
👍34🔥3
gpt-4o-mini
Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.
Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.
У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.
На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.
Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.
Тестить во вкладке direct chat: https://chat.lmsys.org/
Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.
Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.
У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.
На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.
Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.
Тестить во вкладке direct chat: https://chat.lmsys.org/
👍15🔥2❤1
mistral-Nemo-12B
По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.
Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.
Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.
карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.
Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.
Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.
карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
👍12❤3
talk-llama-fast v0.2.0 (аудио-видео-чат с несколькими ИИ персонажами)
Сежий релиз
1. Добавлена поддержка gemma-2 и mistral-nemo-12B.
2. Добавлена поддержка нескольких GPU. Не устанавливайте эти 3 параметра, если у вас всего 1 видеокарта:
'--main-gpu 0' - установите идентификатор основной GPU: 0, 1, ...
'--split-mode none' - 'none' или 'layer'. режим tensor split не поддерживается (он медленный)
'--tensor-split 0.5,0.5' - как разделенить слоя по GPU, список чисел с плавающей запятой, в сумме должно быть 1.0.
3. Добавлен режим instruct-mode с пресетами. Это необязательный эксперитментальный параметр, возможны баги.
'--instruct-preset gemma' где gemma - это имя файла '\instruct_presets\gemma.json'
Режим инструкций помогает сделать ответы более продолжительными и полезными. Вы можете найти правильный пресет инструкций для каждой модели в карточке модели на Huggingface или в SillyTavern - Форматирование - Режим инструкций.
Пример диалога в файле описания персонажа также должен быть отформатирован с использованием тегов режима инструкций. Я добавил пресеты инструкций gemma и mistral, они лежат в папке instruct_presets.
4. Добавлен '-debug' для печати всего контекстного диалога после каждого ответа LLM. Помогает посмотреть, не случилось ли что-то с форматированием.
Добавил также exe для старых процессоров без avx2, надеюсь будет работать.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.2.0
Сежий релиз
1. Добавлена поддержка gemma-2 и mistral-nemo-12B.
2. Добавлена поддержка нескольких GPU. Не устанавливайте эти 3 параметра, если у вас всего 1 видеокарта:
'--main-gpu 0' - установите идентификатор основной GPU: 0, 1, ...
'--split-mode none' - 'none' или 'layer'. режим tensor split не поддерживается (он медленный)
'--tensor-split 0.5,0.5' - как разделенить слоя по GPU, список чисел с плавающей запятой, в сумме должно быть 1.0.
3. Добавлен режим instruct-mode с пресетами. Это необязательный эксперитментальный параметр, возможны баги.
'--instruct-preset gemma' где gemma - это имя файла '\instruct_presets\gemma.json'
Режим инструкций помогает сделать ответы более продолжительными и полезными. Вы можете найти правильный пресет инструкций для каждой модели в карточке модели на Huggingface или в SillyTavern - Форматирование - Режим инструкций.
Пример диалога в файле описания персонажа также должен быть отформатирован с использованием тегов режима инструкций. Я добавил пресеты инструкций gemma и mistral, они лежат в папке instruct_presets.
4. Добавлен '-debug' для печати всего контекстного диалога после каждого ответа LLM. Помогает посмотреть, не случилось ли что-то с форматированием.
Добавил также exe для старых процессоров без avx2, надеюсь будет работать.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.2.0
GitHub
Release 0.2.0 · Mozer/talk-llama-fast
Added support for gemma-2 and mistral-nemo.
Added multiple gpu support. Don't set those 3 params if you have just 1 gpu.
--main-gpu 0 - set main gpu id with kv-cache: 0, 1, ...
--split-mode...
Added multiple gpu support. Don't set those 3 params if you have just 1 gpu.
--main-gpu 0 - set main gpu id with kv-cache: 0, 1, ...
--split-mode...
403🔥22👍10
Llama 3.1 8B, 70B, 405B
Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.
Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.
По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.
В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.
Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.
Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.
Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)
Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main
Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.
Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.
По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.
В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.
Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.
Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.
Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)
Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main
👍20