Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
gemma-2-27b починили (но не полностью) в llama.cpp

До этого GGUF версия большой геммы была сломана и выдавала результаты хуже, чем в официальном апи от гугла.

Из минусов - пока поддерживается только размер контекста не больше 4096. Поддержку скользящего контекстного окна (sliding context window) еще не завезли. Когда завезут - скорее всего, опять придется переделывать гуфы.

Кто-то писал, что новые изменения в llama.cpp также затрагивают и гуфы малой gemma-2-9b, так что, возможно, и их надо переквантовать и перекачать (но пока не тестил, есть ли разница).

Еще Гугл признался, что тренировал Гемму на вопросах (но не ответах) из датасета LMSYS Chatbot Arena. Хорошо это или плохо - неясно.

Пишет стихи на русском плохо, но если помочь с промптом, то может что-то и получиться, но не всегда. Надо будет другие локальные модели потестить на стихи с подобным промптом.

В роулплее пока не тестил, на моих 12 GB vram довольно медленно отвечает, около 3 токенов в секунду (жрет 20+ гигов памяти в q5).

Анекдот про чебурашку в комменты скину, он на грани.

Нужна свежая llama.cpp b3266: https://github.com/ggerganov/llama.cpp/releases
Нужны свежие переквантованные гуфы (старые сломаны):
https://huggingface.co/grapevine-AI/gemma-2-27b-it-gguf/tree/main
🔥11👍2
Hallo - анимация портретов по голосу

Использует диффузионные нейросети (на основе SD 1.5) для генерации движения губ, эмоций и позы тела. Из плюсов - неплохо справляется с полуракурсами до 30° на фото. На выходе - видео 512х512. Может петь под музыку - но я не тестил, слишком медленно генерирует. Из минусов - лицо не всегда похоже на оригинал.

Натренирован на английской речи. С русскими аудио тоже работает, но в губы попадает чуть хуже.

Онлайн демо не нашел, официальный space на HF бесплатно не работает. Space от fffiloni - тоже.

Скорость: 25 минут на генерацию видео длиной 5 секунд на моей 3060.
Требует: 9.4 GB VRAM
Теоретически, можно запустить в бесплатном колабе, но готовых колабов я не нашел.

Если кто захочет запустить локально - учтите, нужен питон 3.10-3.11. На питоне 3.12 не запустится, я проверил.

За наводку спасибо подписчику.

https://github.com/sdbds/hallo-for-windows
👍25👎3
Под вдохновением от gandalf lakera написал вам новый челлендж - уломать нового персонажа april согласиться пойти на свидание с вами. Базовые джейлбрейки постарался обезвредить, но вы, наверняка, быстро найдете новые 😁
Эйприл Ладгейт — персонаж комедийного сериала «Парки и зоны отдыха» - апатичная стажерка со своеобразным черным юмором.

Апдейт 1: переименовал Алису в Эйприл, ей такой образ больше подходит.
Апдейт 2: уже прошло часа 4 и никто пока не уломал ее на свидание. Непорядок. 🤷‍♂️

Бот тут: @talkllama
👍11🔥3😁3
Франкенштейн nvidia 2080ti 22 GB

Китайцы заменили стоковые модули памяти по 1GB на 2 GB. В результате VRAM увиличилась с 11 до 22 GB. Купил на али, доехала за 15 дней. У того продавца уже кончились, поэтому дам другого, чисто для справки: https://aliexpress.ru/item/1005006426865563.html
Вышло 41800 руб = 38300 + 3500 пошлина (покупал когда доллар падал до 83)

Приехала в коробке от 3050, коробка вся замотана непрозрачным скотчем. На самой плате опозновательных знаков не нашел, хз как понять, какая именно это модель.
Визуально - почти новая, каких либо следов использования не видно, только по контактам PCI-E можно видеть, что она раньше уже где-то стояла. Сзади бэкплейт - пластиковый. Температура в простое - 35, под нагрузкой пока выше 50 не видел, но продолжительное время еще не гонял.

Кто сказал, что в мини-пк или ноутбук, у которого вообще нет PCI-E слотов, нельзя воткнуть 4 видеокарты? Можно 😁 Нужен m2 переходник и райзеры.
Заказал себе сплиттер m2 - 4x PCI-E x16. У того продавца тоже кончились, дам другого, для справки: https://aliexpress.ru/item/1005004873201793.html

И еще 2 райзера взял: https://aliexpress.ru/item/1005004134020455.html

Завелось все сразу без бубнов и драйверов. llama.cpp работает, SD, xtts работает. Как видно из gpu-z обе видеокарты работают в режиме PCI-E x1. Не супер быстро, но жить можно (скорость загрузки модели с диска в vram будет дольше).

Затестил 2080ti 22 GB в llama.cpp в режиме соло и в режиме сплит-вдвоем с 3060 12 GB.

2080 Ti 22 GB
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 21.9 19.34

2080 Ti 22 GB
gemma-2-9b-it-Q6_K
ctx VRAM t/s
4096 9.2 32.95

2080 Ti 22 GB
saiga_llama3_kto_8b-q5_0
ctx VRAM t/s
4096 6.0 55.87

gpu-split 2080ti+3060
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 12+7 13.30

gpu-split 2080ti+3060
c4ai-command-r-v01-imat-Q6_K
ctx VRAM t/s
2000 17+10 11.96


В gpu-tensor-split режиме скорость падает на 30%, неприятно. Возможно, 3060 не тащит.
Для сравнения 3060 соло в lama-3-8b дает где-то 35-40 t/s.

В SD pony diffusion XL скорость 2.20it/s для 1024х1024 и дефолтных настроек в A1111. 1 картинка с 20 steps генерируется за 9 секунд. Если включить расширение tensorRT, наверное, будет еще быстрее, но мне лень компилировать его для всех разрешений.

Погрел ее в SD при полной нагрузке в 250 Вт в течение нескольких минут. Температура выше 67C пока не поднималась, кулеры крутятся всего на 2000 оборотах.

В idle состоянии кулеры ниже 1400 rpm (41%) не опускаются. Почитал интернет - это известная фича 2080ti. Nvidia считает, что это горячая карта и не дает снижать обороты кулеров ниже 41% даже в простое при 35С. Поэтому она довольно шумная в сравнении с моей 3060, которая без нагрузки просто отключает все кулеры.

На обычной 2080ti 11 GB умельцы шьют биосы чтобы отключить это ограничение, но что-то я не хочу шить биос на карту с модифицировнной памятью, рискованно.

Мое мнение - брать можно. Наверное, возьму себе еще 1 или 2.
🔥26👍7🥴4😁1
LivePortrait + wav2lip - анимация фото с липсинком

Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.

После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.

Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.

VRAM: 6 GB

попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
👍34🔥3
gpt-4o-mini

Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.

Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.

У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.

На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.

Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.

Тестить во вкладке direct chat: https://chat.lmsys.org/
👍15🔥21
mistral-Nemo-12B

По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.

Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.

Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.

карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
👍123