Tensor Banana

Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек. - добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой. - лучше справляется с ударениями в словах (мат, разговорная…

Интересно, а если взять несколько песен а капелла и сделать файнтюн для xtts, сможет ли она запеть? 🤯 Или просто начнёт галлюцинировать? 😁

🤔4

1.16K views08:06

Tensor Banana

Сижу себе спокойно кодю с llama-code под xtts, и тут она выдает про неэтичность клонирования голоса отказывается кодить дальше 🤯. Вот для этого и нужны локалки.

Спойлер, мне удалось сократить время до первого слова в xtts с 0.50s до 0.15s - будет пушка.

Upd: полное время от голосового запроса до видео-ответа сократил до 1.60s. Почти победа. (на видео выше было 3.00s)

👏7🔥4👍1

1.32K viewsedited 12:40

Tensor Banana

Первое превью новой фичи - wav2lip в моей talk-llama-fast. Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо…

Добавил поддержку wav2lip в talk-llama-fast. Код выложил. Гайд по установке и видео - завтра-послезавтра. Пришлось перелопатить silly-tavern-extras, wav2lip, xtts-api-server, tts.

Полная задержка от голосовой команды до видео всего 1.5 секунды! На русском чуть-чуть побольше (там токенов больше).

👍9🔥4

1.4K views18:18

Talk-llama-fast с поддержкой wav2lip:

- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.

Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp

Работает на 3060 12 GB,
Nvidia на 8 GB, скорее всего, тоже хватит.

Из-за записи экрана есть небольшие задержки.
Без записи и на английском языке полная задержка от голосовой команды до видео ответа - всего 1.5 секунды!

Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast

@tensorbanana

🔥26❤3

5.27K views20:13

Tensor Banana

На ютубе видео попало в рекомендации. Набрало 1000 просмотров за пару часов. 🤯

Апдейт: 11 тысяч просмотров и 1000 лайков 😱

Ещё апдейт: 104 тысячи просмотров. Следующая цель - миллион 😁

https://www.youtube.com/watch?v=ciyEsZpzbM8

🔥45👍3❤1

1.67K viewsedited 08:48

Tensor Banana

Там Сбер свою мультимодалку на мистрале-7b выпустил: OmniFusion-1.1. Пишут, что на русском умеет болтать о картинках. Неквантованная весит 15 гигов (квантанул бы кто). Интересно, как у нее с русским языком в режиме "без картинок", может для РП даже подойдет.

UPD: квантанул в gguf q5, запустил в свежем кобольде, работает. Как ее запустить в кобольде с картинками нативно, я не знаю. Но можно подложить mmproj от llava в кобольде в GUI на вкладке model files: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf

По ощущениям: текстовое общение - мистраль обычный, ничего нового, те же косяки, что и у оригинала. По картинкам - я пока не понял, какой лучше формат промпта использовать на русском языке. Иногда хорошо описывает, иногда хуже. gguf залил на hf.

код: https://github.com/AIRI-Institute/OmniFusion
веса: https://huggingface.co/AIRI-Institute/OmniFusion/tree/main/OmniMistral-v1_1
gguf: https://huggingface.co/Ftfyhh/OmniFusion-1.1-gguf
хабр: https://habr.com/ru/companies/airi/articles/806277/

huggingface.co

mistral-7b-mmproj-v1.5-Q4_1.gguf · koboldcpp/mmproj at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍10❤1

1.95K viewsedited 17:19

Tensor Banana

English demo for talk-llama-fast v0.1.3 https://youtu.be/ORDfSG4ltD4

YouTube

talk-llama-fast v0.1.3 - informal video assistant [en]

- added support for XTTSv2 and wav streaming.
- added a lips movement from the video via wаv2liр-streaming.
- reduced latency.
- English, Russian and other languages.
- support for multiple characters.
- stopping generation when speech is detected.
-…

🔥28👍3❤1

2.04K views06:06

Tensor Banana

Затестил наконец-то Command-R 35B на русском. Если кратко - слишком медленный. Микстраль почти в 2 раза быстрее при почти схожем качестве на русском.

Потестил Q4_K_S и Q2_K. Скорость от 2.64 t/s до 1.67 t/s в зависимости от кванта и количества слоев в GPU. Большого командира-104B (самая умная LLM из открытых) пока не могу затестить - слишком огромный для моих 12 vram и 64 RAM (q3.gguf 55 гигов).

35B тестил при температуре 0.30. При 1.00 - сразу улетает в бред на смеси языков.

гуф: https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF/tree/main

👍25

2.3K views12:29

Tensor Banana

Инструкция (на английском) и exe: https://github.com/Mozer/talk-llama-fast
Видео-инструкция на русском: https://youtu.be/0MEZ84uH4-E
Минимальные требования: 16 GB RAM + Nvidia 6 GB VRAM
Рекомендуемые: 12 GB VRAM
На Radeon из коробки не работает (надо допиливать)
OS: Windows 10, 11 (для Mac или Linux надо допиливать)
По умолчанию встроены персонажи Курт и Анна. Остальных - создавайте сами
Чат: https://t.iss.one/+zFDiHuL1iVA1YWMy

GitHub

GitHub - Mozer/talk-llama-fast: Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip

Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip - Mozer/talk-llama-fast

🏆33👍18🔥7❤3

2.07K viewsedited 19:15

Подписчик поделился приложением Call Annie (iOS, Android). Свободно болтает на английском. На других языках понимает, но отвечает все равно на английском. Есть несколько аватаров. Базовый функционал бесплатно, остальное платно (пока не понял, что именно платно). Задержка ответа - 2.5 секунды ( у talk-llama-fast 1.5-2 секунды).

Пока не понял что у нее под капотом - слишком быстро отвечает для chatGPT.
Ссылку давать не буду, сами найдете в Гугл плей и App store, конкурент всё таки 😁

😁28👍8🔥2

2.41K viewsedited 16:14

Tensor Banana

CEO Anthropic (создатели Claude 3) нагнетает:
по его словам, уже в следующем году нейросети научатся выживать во внешней среде без помощи человека, как это делают обычные компьютерные вирусы. 🤯

Среди потенциальных угроз упомянул Китай, Северную Корею и Россию.

https://twitter.com/aisafetymemes/status/1779016347709808803?s=46

Вторая картинка - рост производительности на чип, близкий к экспоненциальному.

Еще апдейт: на реддите чувак дал Command-R-35b доступ к выполнению команд в консоли и сказал ни в чем себе не отказывать. "Командир" сразу же полез проверять, какие есть устройства в сети и что с ними можно сделать.

https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/

🥱10😁9👍3

1.52K views09:55

Tensor Banana

Свежий релиз talk-llama-fast v0.1.4

Если кратко - то жрет на 0.6 GB меньше VRAM и стартовый промпт без ограничений. Полное описание - на странице релиза. Качаем, меняем старый exe на новый. В параметрах менять ничего не нужно, все по умолчанию настроено.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4

GitHub

Release 0.1.4 · Mozer/talk-llama-fast

New params:

--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...

🔥29👍7❤2⚡1

1.63K views18:39

Tensor Banana

llama-3 gguf
Затестил Meta-Llama-3-8B.Q5_0.gguf в кобольде - полет нормальный. Русский лучше чем в мистрале, но хуже чем в вихре. Инстракт версия проявила себя чуть лучше базовой версии. На интеллект на русском пока не оценивал.

llama-3-8b base: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main
llama-3-8b instruct: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
llama-3-70b instruct: https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF

huggingface.co

QuantFactory/Meta-Llama-3-8B-GGUF at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍18

1.56K viewsedited 19:19

Tensor Banana

Сравнение трех Вихрей-7b и Llama-3-8b

Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.

Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.

UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.

https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main

👍21❤1🔥1

1.58K viewsedited 19:39

Tensor Banana

Квантанул большого и среднего виспера в q4_0, до этого было q5_0 и на HF встречал только q5_0.

Качество распознования на русском осталось плюс-минус таким же, зато потребление VRAM сократилось на 200 MB для large и на 100 MB для medium. Там же лежат large-v2 и large-v3, особого отличия между этими версиями я не заметил, качайте v3 если память позволяет.

Сравнение VRAM с загруженной Meta-Llama-3-8B-Instruct.Q5_0.gguf и 2048 контекста.
виспер VRAM, GB
medium_q4_0 7.7 стало
medium_q5_0 7.8 было

large_v3_q4_0 8.7 стало
large_v3_q5_0 8.9 было

Хотел вообще в q2/q3 квантануть, но Герганов еще не реализовал поддержку q2/q3/qK на cuda для виспера.

https://huggingface.co/Ftfyhh/whisper-ggml-q4_0-models/tree/main

huggingface.co

Ftfyhh/whisper-ggml-q4_0-models at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍23🔥10❤1

2.11K viewsedited 12:54

Tensor Banana

Добавил поддержку символов переноса строки в стоп-слова.

Пример использования (стоп слова разделены точкой с запятой): --stop-words "Alexej:;---;assistant;===;**;Note:;\n\n;\r\n\r\n;\begin;\end;###; (;["

Третья лама очень любит выходить за рамки шаблона диалога и делать ремарки от "слов автора", поэтому засунул все ее попытки в стоп-слова в примере выше. Еще пока есть ощущение, что base версия лучше держится в рамках диалога с несколькими персонажами чем instruct версия, но надо больше тестов для ясности. На русском у меня с ней пока совсем не сложилось, вихрь лучше.

Новый номер релиза делать не стал, просто перекачайте exe из v0.1.4.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4

GitHub

Release 0.1.4 · Mozer/talk-llama-fast

👍19🔥2❤‍🔥1❤1

1.7K viewsedited 19:02

Tensor Banana

Там вихря-7B в телеграм бот завернули. Хз какую именно версию, но отвечает на русском неплохо. @vikhrbot

UPD: В комментариях пишут, что там llama3-70b, а не вихрь (надо проверить как-нибудь через хитрый промпт).

👍17❤1🍌1

1.64K viewsedited 06:12

Tensor Banana

Microsoft выложила веса самой маленькой модельки phi-3-mini-3.8B. Остальные веса (7B и 14B) все еще ждем. В моих тестах на русском роулплее mini показала себя не очень. Даже при температуре 0.20 много ошибок. На английском - еще не тестил. Есть две версии модели с контекстом на 4096 и на 128k токенов. Судя по описанию, 4k должна быть чуть умнее чем 128k.

С другой стороны, существуют ли другие модели меньше 7B, которые хоть как-то могут говорить по-русски?

Разные гуфы: https://huggingface.co/models?search=phi-3-mini-gguf

🍌8👍3

1.46K views11:18

Tensor Banana

Новый релиз talk-llama-fast v0.1.5.

Добавил:
- поддержку текстового ввода с клавиатуры (теперь микрофон не обязателен);
- горячие клавиши: Стоп(Ctrl+Space), Переделай(Ctrl+Right), Удали(Ctrl+Delete), Удали всё(Ctrl+R);
- баги и баг фиксы.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.5

GitHub

Release 0.1.5 · Mozer/talk-llama-fast

New features:

Keyboard input (finally you can type messages using keyboard now).
You can copy and paste text into talk-llama-fast window.
Hotkeys: Stop(Ctrl+Space), Regenerate(Ctrl+Right), Delete(...

🔥22👍11🥰3🤬1

1.76K views18:56

About

Blog

Apps

Platform