Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Под вдохновением от gandalf lakera написал вам новый челлендж - уломать нового персонажа april согласиться пойти на свидание с вами. Базовые джейлбрейки постарался обезвредить, но вы, наверняка, быстро найдете новые 😁
Эйприл Ладгейт — персонаж комедийного сериала «Парки и зоны отдыха» - апатичная стажерка со своеобразным черным юмором.

Апдейт 1: переименовал Алису в Эйприл, ей такой образ больше подходит.
Апдейт 2: уже прошло часа 4 и никто пока не уломал ее на свидание. Непорядок. 🤷‍♂️

Бот тут: @talkllama
👍11🔥3😁3
Франкенштейн nvidia 2080ti 22 GB

Китайцы заменили стоковые модули памяти по 1GB на 2 GB. В результате VRAM увиличилась с 11 до 22 GB. Купил на али, доехала за 15 дней. У того продавца уже кончились, поэтому дам другого, чисто для справки: https://aliexpress.ru/item/1005006426865563.html
Вышло 41800 руб = 38300 + 3500 пошлина (покупал когда доллар падал до 83)

Приехала в коробке от 3050, коробка вся замотана непрозрачным скотчем. На самой плате опозновательных знаков не нашел, хз как понять, какая именно это модель.
Визуально - почти новая, каких либо следов использования не видно, только по контактам PCI-E можно видеть, что она раньше уже где-то стояла. Сзади бэкплейт - пластиковый. Температура в простое - 35, под нагрузкой пока выше 50 не видел, но продолжительное время еще не гонял.

Кто сказал, что в мини-пк или ноутбук, у которого вообще нет PCI-E слотов, нельзя воткнуть 4 видеокарты? Можно 😁 Нужен m2 переходник и райзеры.
Заказал себе сплиттер m2 - 4x PCI-E x16. У того продавца тоже кончились, дам другого, для справки: https://aliexpress.ru/item/1005004873201793.html

И еще 2 райзера взял: https://aliexpress.ru/item/1005004134020455.html

Завелось все сразу без бубнов и драйверов. llama.cpp работает, SD, xtts работает. Как видно из gpu-z обе видеокарты работают в режиме PCI-E x1. Не супер быстро, но жить можно (скорость загрузки модели с диска в vram будет дольше).

Затестил 2080ti 22 GB в llama.cpp в режиме соло и в режиме сплит-вдвоем с 3060 12 GB.

2080 Ti 22 GB
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 21.9 19.34

2080 Ti 22 GB
gemma-2-9b-it-Q6_K
ctx VRAM t/s
4096 9.2 32.95

2080 Ti 22 GB
saiga_llama3_kto_8b-q5_0
ctx VRAM t/s
4096 6.0 55.87

gpu-split 2080ti+3060
gemma-2-27b-it-Q5_K_M
ctx VRAM t/s
4096 12+7 13.30

gpu-split 2080ti+3060
c4ai-command-r-v01-imat-Q6_K
ctx VRAM t/s
2000 17+10 11.96


В gpu-tensor-split режиме скорость падает на 30%, неприятно. Возможно, 3060 не тащит.
Для сравнения 3060 соло в lama-3-8b дает где-то 35-40 t/s.

В SD pony diffusion XL скорость 2.20it/s для 1024х1024 и дефолтных настроек в A1111. 1 картинка с 20 steps генерируется за 9 секунд. Если включить расширение tensorRT, наверное, будет еще быстрее, но мне лень компилировать его для всех разрешений.

Погрел ее в SD при полной нагрузке в 250 Вт в течение нескольких минут. Температура выше 67C пока не поднималась, кулеры крутятся всего на 2000 оборотах.

В idle состоянии кулеры ниже 1400 rpm (41%) не опускаются. Почитал интернет - это известная фича 2080ti. Nvidia считает, что это горячая карта и не дает снижать обороты кулеров ниже 41% даже в простое при 35С. Поэтому она довольно шумная в сравнении с моей 3060, которая без нагрузки просто отключает все кулеры.

На обычной 2080ti 11 GB умельцы шьют биосы чтобы отключить это ограничение, но что-то я не хочу шить биос на карту с модифицировнной памятью, рискованно.

Мое мнение - брать можно. Наверное, возьму себе еще 1 или 2.
🔥26👍7🥴4😁1
LivePortrait + wav2lip - анимация фото с липсинком

Для этой анимации - снял свое лицо на 20 секунд. Минимум движений головы. Побольше морганий. Говорить/открывать рот не рекомендую - почему-то рот не анимировался открытым + губы становились тонкими, возможно, у вас получится лучше.
В качестве картинки лучше брать лицо, смотрящее прямо, без поворотов. Селфи анимируются чуть хуже.

После генерации в LivePortrait я снизил разрешение видео до 350х350 (wav2lip не любит большое разрешение) и закинул в wav2lip-hq.

Получается не так круто как у HeyGen Expressive Photo Avatar, но зато локально и бесплатно.

VRAM: 6 GB

попробовать https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait: https://github.com/KwaiVGI/LivePortrait
LivePortrait workflow для comfy https://github.com/kijai/ComfyUI-LivePortraitKJ
wav2lip demo: https://bhaasha.iiit.ac.in/lipsync/
👍34🔥3
gpt-4o-mini

Внезапно вышла gpt-4o-mini, официального анонса от openAI пока не нахожу, но есть англоязычные статьи от крупных зарубежных изданий.
Есть слух, что она заменит бесплатную chatgpt-3.5, и соответственно, тоже будет бесплатной для всех.

Цены по API: gpt-4o-mini $0.15/0.60 (за 1M вход/выход), что дешевле, чем llama-3-70b: $0.52/0.75. По стоимости сравнима с mixtral 8x7B. Доступна по апи на openrouter.

У меня в аккаунте пока не появилась, поэтому тестил на арене. Апдейт: уже появилась в аккаунте на сайте chatgpt.

На арене генерирует очень быстро, наверное, одна из самых быстрых, что я там видел.

Русский язык - очень достойный, явных речевых ошибок пока не замечал. По интеллекту пока сказать трудно, нужно ждать бенчмарки, но пока я их тоже не нашел. Стихи на русском писать пытается, но получается чуть хуже, чем у старшей gpt-4o, рифма есть не всегда.

Тестить во вкладке direct chat: https://chat.lmsys.org/
👍15🔥21
mistral-Nemo-12B

По метрикам чуть лучше gemma-2-9B. Качество русского, на первый взгляд, неплохое, но сам в роулплее пока не тестил. Гуфы еще не работают.
Контекстное окно: 128K. Обещают улучшенную поддержку русского и на 30% более эффективную токенизацию благодаря новому токенизатору Tekken 😁. Будет генерировать текст быстрее за меньшее число токенов.

Пока что не загружается в самой свежей ламе b3412: unknown pre-tokenizer type: 'mistral-bpe'. Видимо, придется ждать пока завезут поддержку нового текенизатора. Открытых issues/PR не нашел.

Если хотите потестить локально - то тогда загружайте в exl2 в oobabooga. На популярных LLM АПИ сервисах ее пока нет, но уже есть в spaces на HF. Тестил с температурой 0.7, а это говорит о том, что русский она знает неплохо, где-то на уровне gemma-2-9b. Апдейт: разработчики рекомендуют ставить температуру 0.3.

карточка модели https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
exl2 для oobabooga: https://huggingface.co/turboderp/Mistral-Nemo-Instruct-12B-exl2
Рабочих гуфов пока нету, потом добавлю.
затестить в чате от nvidia: https://build.nvidia.com/nv-mistralai/mistral-nemo-12b-instruct
или тут: https://huggingface.co/spaces/vilarin/Mistral-Nemo
и тут (медленнее) https://huggingface.co/spaces/0x7o/Mistral-Nemo-Instruct
👍123
talk-llama-fast v0.2.0 (аудио-видео-чат с несколькими ИИ персонажами)

Сежий релиз

1. Добавлена поддержка gemma-2 и mistral-nemo-12B.

2. Добавлена поддержка нескольких GPU. Не устанавливайте эти 3 параметра, если у вас всего 1 видеокарта:

'--main-gpu 0' - установите идентификатор основной GPU: 0, 1, ...
'--split-mode none' - 'none' или 'layer'. режим tensor split не поддерживается (он медленный)
'--tensor-split 0.5,0.5' - как разделенить слоя по GPU, список чисел с плавающей запятой, в сумме должно быть 1.0.

3. Добавлен режим instruct-mode с пресетами. Это необязательный эксперитментальный параметр, возможны баги.

'--instruct-preset gemma' где gemma - это имя файла '\instruct_presets\gemma.json'

Режим инструкций помогает сделать ответы более продолжительными и полезными. Вы можете найти правильный пресет инструкций для каждой модели в карточке модели на Huggingface или в SillyTavern - Форматирование - Режим инструкций.

Пример диалога в файле описания персонажа также должен быть отформатирован с использованием тегов режима инструкций. Я добавил пресеты инструкций gemma и mistral, они лежат в папке instruct_presets.


4. Добавлен '-debug' для печати всего контекстного диалога после каждого ответа LLM. Помогает посмотреть, не случилось ли что-то с форматированием.

Добавил также exe для старых процессоров без avx2, надеюсь будет работать.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.2.0
403🔥22👍10
Llama 3.1 8B, 70B, 405B

Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.

Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.

По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.

В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.

Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.

Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.

Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)

Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main
👍20