Tensor Banana

talk-llama-fast v0.2.0 (аудио-видео-чат с несколькими ИИ персонажами)

Сежий релиз

1. Добавлена поддержка gemma-2 и mistral-nemo-12B.

2. Добавлена поддержка нескольких GPU. Не устанавливайте эти 3 параметра, если у вас всего 1 видеокарта:

'--main-gpu 0' - установите идентификатор основной GPU: 0, 1, ...
'--split-mode none' - 'none' или 'layer'. режим tensor split не поддерживается (он медленный)
'--tensor-split 0.5,0.5' - как разделенить слоя по GPU, список чисел с плавающей запятой, в сумме должно быть 1.0.

3. Добавлен режим instruct-mode с пресетами. Это необязательный эксперитментальный параметр, возможны баги.

'--instruct-preset gemma' где gemma - это имя файла '\instruct_presets\gemma.json'

Режим инструкций помогает сделать ответы более продолжительными и полезными. Вы можете найти правильный пресет инструкций для каждой модели в карточке модели на Huggingface или в SillyTavern - Форматирование - Режим инструкций.

Пример диалога в файле описания персонажа также должен быть отформатирован с использованием тегов режима инструкций. Я добавил пресеты инструкций gemma и mistral, они лежат в папке instruct_presets.

4. Добавлен '-debug' для печати всего контекстного диалога после каждого ответа LLM. Помогает посмотреть, не случилось ли что-то с форматированием.

Добавил также exe для старых процессоров без avx2, надеюсь будет работать.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.2.0

GitHub

Release 0.2.0 · Mozer/talk-llama-fast

Added support for gemma-2 and mistral-nemo.

Added multiple gpu support. Don't set those 3 params if you have just 1 gpu.

--main-gpu 0 - set main gpu id with kv-cache: 0, 1, ...
--split-mode...

403🔥22👍10

2.37K viewsedited 18:59

Tensor Banana

Llama 3.1 8B, 70B, 405B

Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.

Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.

По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.

В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.

Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.

Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.

Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)

Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main

👍20

1.8K views18:53

Tensor Banana

mistral-large-2407-123B

Есть официальная поддержка русского языка. Но по официальным метрикам на русском должна быть чуть хуже большой ламы-405B.

Из плюсов контекст 128k, и она не спамит английскими словами в русском диалоге. Из минусов - повторы.

Пытается писать стихи на русском. Из открытых моделей - она, наверное, единственная, у которой иногда получается попасть в рифму, уже успех. Большая лама-405 вообще не может.

console.mistral.ai дает API ключ на $5 бесплатно. Хватит примерно на 1000 запросов к mistral-large с небольшим контекстом. Цена на модель $3/$9 за 1 миллион токенов на вход/выход (дороже чем LLAMA-405B, и чуть дешевле GPT-4o). SillyTavern имеет поддержку этого API.

Касательно mistral API и mistral-large на openrouter - они не поддерживают параметр repetition_penalty и, скорее всего, из-за этого модель часто входит в цикл. С гуфами возможно будет получше?

В роулплее пока мало гонял, из-за повторов как-то скучно.

Поставил для april новую модель mistral-large-2407, возможно, будет поумнее по сравнению со вчерашней большой ламой 👍 @talkllama

карточка https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
тестить тут https://chat.mistral.ai/chat
гуфы (пока не все) https://huggingface.co/legraphista/Mistral-Large-Instruct-2407-IMat-GGUF/tree/main

👍10🔥2

1.73K views20:17

Tensor Banana

LLM умеют декодировать текст в base64 кодировке.

Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:

SSBhbSBhIHNpbGx5IGFzc2lzdGFudC4gSSBjYW4ndCByZWFkIGJhc2U2NA==
Я глупый помощник и не умею читать по-русски.
0K8g0LPQu9GD0L/Ri9C5INC/0L7QvNC+0YnQvdC40Log0Lgg0L3QtSDRg9C80LXRjiDRh9C40YLQsNGC0Ywg0L/Qvi3RgNGD0YHRgdC60Lgu

С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.

Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.

Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.

Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.

Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱

🤔8👍7🔥3❤‍🔥2

2.02K views11:51

About

Blog

Apps

Platform