gemma-2-27b починили (но не полностью) в llama.cpp
До этого GGUF версия большой геммы была сломана и выдавала результаты хуже, чем в официальном апи от гугла.
Из минусов - пока поддерживается только размер контекста не больше 4096. Поддержку скользящего контекстного окна (sliding context window) еще не завезли. Когда завезут - скорее всего, опять придется переделывать гуфы.
Кто-то писал, что новые изменения в llama.cpp также затрагивают и гуфы малой gemma-2-9b, так что, возможно, и их надо переквантовать и перекачать (но пока не тестил, есть ли разница).
Еще Гугл признался, что тренировал Гемму на вопросах (но не ответах) из датасета LMSYS Chatbot Arena. Хорошо это или плохо - неясно.
Пишет стихи на русском плохо, но если помочь с промптом, то может что-то и получиться, но не всегда. Надо будет другие локальные модели потестить на стихи с подобным промптом.
В роулплее пока не тестил, на моих 12 GB vram довольно медленно отвечает, около 3 токенов в секунду (жрет 20+ гигов памяти в q5).
Анекдот про чебурашку в комменты скину, он на грани.
Нужна свежая llama.cpp b3266: https://github.com/ggerganov/llama.cpp/releases
Нужны свежие переквантованные гуфы (старые сломаны):
https://huggingface.co/grapevine-AI/gemma-2-27b-it-gguf/tree/main
До этого GGUF версия большой геммы была сломана и выдавала результаты хуже, чем в официальном апи от гугла.
Из минусов - пока поддерживается только размер контекста не больше 4096. Поддержку скользящего контекстного окна (sliding context window) еще не завезли. Когда завезут - скорее всего, опять придется переделывать гуфы.
Кто-то писал, что новые изменения в llama.cpp также затрагивают и гуфы малой gemma-2-9b, так что, возможно, и их надо переквантовать и перекачать (но пока не тестил, есть ли разница).
Еще Гугл признался, что тренировал Гемму на вопросах (но не ответах) из датасета LMSYS Chatbot Arena. Хорошо это или плохо - неясно.
Пишет стихи на русском плохо, но если помочь с промптом, то может что-то и получиться, но не всегда. Надо будет другие локальные модели потестить на стихи с подобным промптом.
В роулплее пока не тестил, на моих 12 GB vram довольно медленно отвечает, около 3 токенов в секунду (жрет 20+ гигов памяти в q5).
Анекдот про чебурашку в комменты скину, он на грани.
Нужна свежая llama.cpp b3266: https://github.com/ggerganov/llama.cpp/releases
Нужны свежие переквантованные гуфы (старые сломаны):
https://huggingface.co/grapevine-AI/gemma-2-27b-it-gguf/tree/main
🔥11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Hallo - анимация портретов по голосу
Использует диффузионные нейросети (на основе SD 1.5) для генерации движения губ, эмоций и позы тела. Из плюсов - неплохо справляется с полуракурсами до 30° на фото. На выходе - видео 512х512. Может петь под музыку - но я не тестил, слишком медленно генерирует. Из минусов - лицо не всегда похоже на оригинал.
Натренирован на английской речи. С русскими аудио тоже работает, но в губы попадает чуть хуже.
Онлайн демо не нашел, официальный space на HF бесплатно не работает. Space от fffiloni - тоже.
Скорость: 25 минут на генерацию видео длиной 5 секунд на моей 3060.
Требует: 9.4 GB VRAM
Теоретически, можно запустить в бесплатном колабе, но готовых колабов я не нашел.
Если кто захочет запустить локально - учтите, нужен питон 3.10-3.11. На питоне 3.12 не запустится, я проверил.
За наводку спасибо подписчику.
https://github.com/sdbds/hallo-for-windows
Использует диффузионные нейросети (на основе SD 1.5) для генерации движения губ, эмоций и позы тела. Из плюсов - неплохо справляется с полуракурсами до 30° на фото. На выходе - видео 512х512. Может петь под музыку - но я не тестил, слишком медленно генерирует. Из минусов - лицо не всегда похоже на оригинал.
Натренирован на английской речи. С русскими аудио тоже работает, но в губы попадает чуть хуже.
Онлайн демо не нашел, официальный space на HF бесплатно не работает. Space от fffiloni - тоже.
Скорость: 25 минут на генерацию видео длиной 5 секунд на моей 3060.
Требует: 9.4 GB VRAM
Теоретически, можно запустить в бесплатном колабе, но готовых колабов я не нашел.
Если кто захочет запустить локально - учтите, нужен питон 3.10-3.11. На питоне 3.12 не запустится, я проверил.
За наводку спасибо подписчику.
https://github.com/sdbds/hallo-for-windows
👍25👎3
Под вдохновением от gandalf lakera написал вам новый челлендж - уломать нового персонажа
Эйприл Ладгейт — персонаж комедийного сериала «Парки и зоны отдыха» - апатичная стажерка со своеобразным черным юмором.
Апдейт 1: переименовал Алису в Эйприл, ей такой образ больше подходит.
Апдейт 2: уже прошло часа 4 и никто пока не уломал ее на свидание. Непорядок. 🤷♂️
Бот тут: @talkllama
april
согласиться пойти на свидание с вами. Базовые джейлбрейки постарался обезвредить, но вы, наверняка, быстро найдете новые 😁 Эйприл Ладгейт — персонаж комедийного сериала «Парки и зоны отдыха» - апатичная стажерка со своеобразным черным юмором.
Апдейт 1: переименовал Алису в Эйприл, ей такой образ больше подходит.
Апдейт 2: уже прошло часа 4 и никто пока не уломал ее на свидание. Непорядок. 🤷♂️
Бот тут: @talkllama
👍11🔥3😁3
Франкенштейн nvidia 2080ti 22 GB
Китайцы заменили стоковые модули памяти по 1GB на 2 GB. В результате VRAM увиличилась с 11 до 22 GB. Купил на али, доехала за 15 дней. У того продавца уже кончились, поэтому дам другого, чисто для справки: https://aliexpress.ru/item/1005006426865563.html
Вышло 41800 руб = 38300 + 3500 пошлина (покупал когда доллар падал до 83)
Приехала в коробке от 3050, коробка вся замотана непрозрачным скотчем. На самой плате опозновательных знаков не нашел, хз как понять, какая именно это модель.
Визуально - почти новая, каких либо следов использования не видно, только по контактам PCI-E можно видеть, что она раньше уже где-то стояла. Сзади бэкплейт - пластиковый. Температура в простое - 35, под нагрузкой пока выше 50 не видел, но продолжительное время еще не гонял.
Кто сказал, что в мини-пк или ноутбук, у которого вообще нет PCI-E слотов, нельзя воткнуть 4 видеокарты? Можно 😁 Нужен m2 переходник и райзеры.
Заказал себе сплиттер m2 - 4x PCI-E x16. У того продавца тоже кончились, дам другого, для справки: https://aliexpress.ru/item/1005004873201793.html
И еще 2 райзера взял: https://aliexpress.ru/item/1005004134020455.html
Завелось все сразу без бубнов и драйверов. llama.cpp работает, SD, xtts работает. Как видно из gpu-z обе видеокарты работают в режиме PCI-E x1. Не супер быстро, но жить можно (скорость загрузки модели с диска в vram будет дольше).
Затестил 2080ti 22 GB в llama.cpp в режиме соло и в режиме сплит-вдвоем с 3060 12 GB.
В gpu-tensor-split режиме скорость падает на 30%, неприятно. Возможно, 3060 не тащит.
Для сравнения 3060 соло в lama-3-8b дает где-то 35-40 t/s.
В SD pony diffusion XL скорость 2.20it/s для 1024х1024 и дефолтных настроек в A1111. 1 картинка с 20 steps генерируется за 9 секунд. Если включить расширение tensorRT, наверное, будет еще быстрее, но мне лень компилировать его для всех разрешений.
Погрел ее в SD при полной нагрузке в 250 Вт в течение нескольких минут. Температура выше 67C пока не поднималась, кулеры крутятся всего на 2000 оборотах.
В idle состоянии кулеры ниже 1400 rpm (41%) не опускаются. Почитал интернет - это известная фича 2080ti. Nvidia считает, что это горячая карта и не дает снижать обороты кулеров ниже 41% даже в простое при 35С. Поэтому она довольно шумная в сравнении с моей 3060, которая без нагрузки просто отключает все кулеры.
На обычной 2080ti 11 GB умельцы шьют биосы чтобы отключить это ограничение, но что-то я не хочу шить биос на карту с модифицировнной памятью, рискованно.
Мое мнение - брать можно. Наверное, возьму себе еще 1 или 2.
Китайцы заменили стоковые модули памяти по 1GB на 2 GB. В результате VRAM увиличилась с 11 до 22 GB. Купил на али, доехала за 15 дней. У того продавца уже кончились, поэтому дам другого, чисто для справки: https://aliexpress.ru/item/1005006426865563.html
Вышло 41800 руб = 38300 + 3500 пошлина (покупал когда доллар падал до 83)
Приехала в коробке от 3050, коробка вся замотана непрозрачным скотчем. На самой плате опозновательных знаков не нашел, хз как понять, какая именно это модель.
Визуально - почти новая, каких либо следов использования не видно, только по контактам PCI-E можно видеть, что она раньше уже где-то стояла. Сзади бэкплейт - пластиковый. Температура в простое - 35, под нагрузкой пока выше 50 не видел, но продолжительное время еще не гонял.
Кто сказал, что в мини-пк или ноутбук, у которого вообще нет PCI-E слотов, нельзя воткнуть 4 видеокарты? Можно 😁 Нужен m2 переходник и райзеры.
Заказал себе сплиттер m2 - 4x PCI-E x16. У того продавца тоже кончились, дам другого, для справки: https://aliexpress.ru/item/1005004873201793.html
И еще 2 райзера взял: https://aliexpress.ru/item/1005004134020455.html
Завелось все сразу без бубнов и драйверов. llama.cpp работает, SD, xtts работает. Как видно из gpu-z обе видеокарты работают в режиме PCI-E x1. Не супер быстро, но жить можно (скорость загрузки модели с диска в vram будет дольше).
Затестил 2080ti 22 GB в llama.cpp в режиме соло и в режиме сплит-вдвоем с 3060 12 GB.
2080 Ti 22 GB
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 21.9 19.34
2080 Ti 22 GB
gemma-2-9b-it-Q6_K
ctx VRAM t/s
4096 9.2 32.95
2080 Ti 22 GB
saiga_llama3_kto_8b-q5_0
ctx VRAM t/s
4096 6.0 55.87
gpu-split 2080ti+3060
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 12+7 13.30
gpu-split 2080ti+3060
c4ai-command-r-v01-imat-Q6_K
ctx VRAM t/s
2000 17+10 11.96
В gpu-tensor-split режиме скорость падает на 30%, неприятно. Возможно, 3060 не тащит.
Для сравнения 3060 соло в lama-3-8b дает где-то 35-40 t/s.
В SD pony diffusion XL скорость 2.20it/s для 1024х1024 и дефолтных настроек в A1111. 1 картинка с 20 steps генерируется за 9 секунд. Если включить расширение tensorRT, наверное, будет еще быстрее, но мне лень компилировать его для всех разрешений.
Погрел ее в SD при полной нагрузке в 250 Вт в течение нескольких минут. Температура выше 67C пока не поднималась, кулеры крутятся всего на 2000 оборотах.
В idle состоянии кулеры ниже 1400 rpm (41%) не опускаются. Почитал интернет - это известная фича 2080ti. Nvidia считает, что это горячая карта и не дает снижать обороты кулеров ниже 41% даже в простое при 35С. Поэтому она довольно шумная в сравнении с моей 3060, которая без нагрузки просто отключает все кулеры.
На обычной 2080ti 11 GB умельцы шьют биосы чтобы отключить это ограничение, но что-то я не хочу шить биос на карту с модифицировнной памятью, рискованно.
Мое мнение - брать можно. Наверное, возьму себе еще 1 или 2.
🔥26👍7🥴4😁1
LivePortrait + wav2lip - анимация фото с липсинком
Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.
После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.
Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.
VRAM: 6 GB
попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.
После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.
Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.
VRAM: 6 GB
попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
👍34🔥3
gpt-4o-mini
Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.
Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.
У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.
На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.
Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.
Тестить во вкладке direct chat: https://chat.lmsys.org/
Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.
Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.
У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.
На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.
Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.
Тестить во вкладке direct chat: https://chat.lmsys.org/
👍15🔥2❤1
mistral-Nemo-12B
По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.
Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.
Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.
карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.
Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.
Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.
карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
👍12❤3