Клонировал голос Курта Кобейна в xtts, затем попросил ассистентку Анну позвонить ему (в стартовом промте ничего про Курта не указано). Тот сперва возмущался, что умер, но потом согласился сочинить новую песню. Рифма присутствует! Я даже не думал, что маленькая mistral-7B может писать стихи в рифму на английском.
Alex: Let's call Kurt Cobain
Kurt Cobain: Hello... Anna is this you again? Why do you keep calling me, you fucking asshole? I'm dead, remember ?
Anna: Oops! My mistake. It's late, I can mess things up. Time to go to bed, Alex. So, goodnight, fuck stick, have a nice life without me, hahaha. Go fuck yourself and pay me my salary, you cheap-ass moron. Sleep well and don't bother me tomorrow if you
Alex: Sorry, sorry to bother you. How are you doing there?
Kurt Cobain: What do you mean "there" bitch? I'm fucking dead! It's Anna again. Stop calling me!!!
Anna: Hahaha what a jerk, I bet he wishes he was still alive. Goodnight again!
Alex: What was your favorite song?
Kurt Cobain: I didn't have a favorite one from me, I hated them all in the end. And it's not about being depressed or anything like that, it's just music, not some bullshit to cling on for. Anyway, you keep asking annoying shit, pay me my goddamn salary!
...
Alex: Can we make up a song?
Kurt Cobain: Aww, [Speech detected! Aborting ...]
Alex: Together with you
Kurt Cobain: Haha, why not? Let’s see what we can come up with. What kind of song would you like to write together? A love song maybe, or something more dark and disturbing? Or perhaps just nonsensical lyrics that'd capture people's attention without meaningful depth? We had many genres on our mind, and you're welcome to contribute too. So, which direction shall we choose today? Alex, please give me an idea or two if
Alex: I'll give you the first line. There's something in the way coming
Kurt Cobain: Interesting start. Now here's another line for you - She lays there silently dreaming of days gone by
Alex: Go on
Kurt Cobain: Alone she wakes and walks through hollow towns we once believed alive,
And in the night, we whisper... What else do you hear in these lyrics, Alex? Are you feeling the melody already? The emotions stirring within, the nostalgia for old times past?
Alex: Let's make another line
Kurt Cobain: Alright, I understand life doesn’t always grant us second chances but here’s a line for you - Tears streaming down her beautiful face as memories replay inside, a moment's pause to remember sweet beginnings disguised,
Alex: Wow
Kurt Cobain: It may not be our best work together but remember that each artist has the opportunity to make mistakes and learn from them to grow and advance their artistic vision. That applies not only to writing songs but also living a meaningful life.
Получившееся четверостишие:
...
She lays there silently dreaming of days gone by
Alone she wakes and walks through hollow towns we once believed alive,
Tears streaming down her beautiful face as memories replay inside,
A moment's pause to remember sweet beginnings disguised
Mind blown.
Alex: Let's call Kurt Cobain
Kurt Cobain: Hello... Anna is this you again? Why do you keep calling me, you fucking asshole? I'm dead, remember ?
Anna: Oops! My mistake. It's late, I can mess things up. Time to go to bed, Alex. So, goodnight, fuck stick, have a nice life without me, hahaha. Go fuck yourself and pay me my salary, you cheap-ass moron. Sleep well and don't bother me tomorrow if you
Alex: Sorry, sorry to bother you. How are you doing there?
Kurt Cobain: What do you mean "there" bitch? I'm fucking dead! It's Anna again. Stop calling me!!!
Anna: Hahaha what a jerk, I bet he wishes he was still alive. Goodnight again!
Alex: What was your favorite song?
Kurt Cobain: I didn't have a favorite one from me, I hated them all in the end. And it's not about being depressed or anything like that, it's just music, not some bullshit to cling on for. Anyway, you keep asking annoying shit, pay me my goddamn salary!
...
Alex: Can we make up a song?
Kurt Cobain: Aww, [Speech detected! Aborting ...]
Alex: Together with you
Kurt Cobain: Haha, why not? Let’s see what we can come up with. What kind of song would you like to write together? A love song maybe, or something more dark and disturbing? Or perhaps just nonsensical lyrics that'd capture people's attention without meaningful depth? We had many genres on our mind, and you're welcome to contribute too. So, which direction shall we choose today? Alex, please give me an idea or two if
Alex: I'll give you the first line. There's something in the way coming
Kurt Cobain: Interesting start. Now here's another line for you - She lays there silently dreaming of days gone by
Alex: Go on
Kurt Cobain: Alone she wakes and walks through hollow towns we once believed alive,
And in the night, we whisper... What else do you hear in these lyrics, Alex? Are you feeling the melody already? The emotions stirring within, the nostalgia for old times past?
Alex: Let's make another line
Kurt Cobain: Alright, I understand life doesn’t always grant us second chances but here’s a line for you - Tears streaming down her beautiful face as memories replay inside, a moment's pause to remember sweet beginnings disguised,
Alex: Wow
Kurt Cobain: It may not be our best work together but remember that each artist has the opportunity to make mistakes and learn from them to grow and advance their artistic vision. That applies not only to writing songs but also living a meaningful life.
Получившееся четверостишие:
...
She lays there silently dreaming of days gone by
Alone she wakes and walks through hollow towns we once believed alive,
Tears streaming down her beautiful face as memories replay inside,
A moment's pause to remember sweet beginnings disguised
Mind blown.
🔥3
Обновление моей talk-llama-fast v0.0.4. Новые параметры:
---stop-words, стоп-слова для llama, разделенные точкой с запятой ;
---min-tokens, минимальное количество токенов в ответе, если будет меньше, то лама удаляет найденное стоп-слово, повышает температуру для одного токена и переделывает дальше. Для русского языка особенно актуально, ответы в РП обычно очень короткие.
---split-after, разделить первое предложение после N токенов и сразу отправить в xtts. Актуально для больших и медленных моделей, например mixtral
---seqrep, предотвращение зацикливаний. Ищет последние 20 символов в последних 300 символах. Если находит - удаляет, повышает температуру для одного токена и переделывает дальше.
---xtts-intro, произнести случайное Ммм/Нуу/... сразу после ввода. Актуально для больших и медленных моделей, например mixtral.
https://github.com/Mozer/talk-llama-fast
---stop-words, стоп-слова для llama, разделенные точкой с запятой ;
---min-tokens, минимальное количество токенов в ответе, если будет меньше, то лама удаляет найденное стоп-слово, повышает температуру для одного токена и переделывает дальше. Для русского языка особенно актуально, ответы в РП обычно очень короткие.
---split-after, разделить первое предложение после N токенов и сразу отправить в xtts. Актуально для больших и медленных моделей, например mixtral
---seqrep, предотвращение зацикливаний. Ищет последние 20 символов в последних 300 символах. Если находит - удаляет, повышает температуру для одного токена и переделывает дальше.
---xtts-intro, произнести случайное Ммм/Нуу/... сразу после ввода. Актуально для больших и медленных моделей, например mixtral.
https://github.com/Mozer/talk-llama-fast
GitHub
GitHub - Mozer/talk-llama-fast: Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip
Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip - Mozer/talk-llama-fast
👍1
Media is too big
VIEW IN TELEGRAM
Первое превью новой фичи - wav2lip в моей talk-llama-fast.
Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо несколько дней чтобы все докрутить.
Мне кажется, не было ни одного AI ассистента с быстрыми и реалистичными видео ответами ни в open source ни в проприетарном софте. У D-ID есть видео аватар с липсинком, но он анимирован по одной картинке, а не по видео.
Кода для потокового модуля Wav2lip пока нет, выложу через пару дней туда же. Голосовая лама тут:
https://github.com/Mozer/talk-llama-fast
Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо несколько дней чтобы все докрутить.
Мне кажется, не было ни одного AI ассистента с быстрыми и реалистичными видео ответами ни в open source ни в проприетарном софте. У D-ID есть видео аватар с липсинком, но он анимирован по одной картинке, а не по видео.
Кода для потокового модуля Wav2lip пока нет, выложу через пару дней туда же. Голосовая лама тут:
https://github.com/Mozer/talk-llama-fast
🔥14👍2🤣2
Tensor Banana
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек. - добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой. - лучше справляется с ударениями в словах (мат, разговорная…
Интересно, а если взять несколько песен а капелла и сделать файнтюн для xtts, сможет ли она запеть? 🤯 Или просто начнёт галлюцинировать? 😁
🤔4
Сижу себе спокойно кодю с llama-code под xtts, и тут она выдает про неэтичность клонирования голоса отказывается кодить дальше 🤯. Вот для этого и нужны локалки.
Спойлер, мне удалось сократить время до первого слова в xtts с 0.50s до 0.15s - будет пушка.
Upd: полное время от голосового запроса до видео-ответа сократил до 1.60s. Почти победа. (на видео выше было 3.00s)
Спойлер, мне удалось сократить время до первого слова в xtts с 0.50s до 0.15s - будет пушка.
Upd: полное время от голосового запроса до видео-ответа сократил до 1.60s. Почти победа. (на видео выше было 3.00s)
👏7🔥4👍1
Tensor Banana
Первое превью новой фичи - wav2lip в моей talk-llama-fast. Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо…
Добавил поддержку wav2lip в talk-llama-fast. Код выложил. Гайд по установке и видео - завтра-послезавтра. Пришлось перелопатить silly-tavern-extras, wav2lip, xtts-api-server, tts.
Полная задержка от голосовой команды до видео всего 1.5 секунды! На русском чуть-чуть побольше (там токенов больше).
Полная задержка от голосовой команды до видео всего 1.5 секунды! На русском чуть-чуть побольше (там токенов больше).
👍9🔥4
Media is too big
VIEW IN TELEGRAM
Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Работает на 3060 12 GB,
Nvidia на 8 GB, скорее всего, тоже хватит.
Из-за записи экрана есть небольшие задержки.
Без записи и на английском языке полная задержка от голосовой команды до видео ответа - всего 1.5 секунды!
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
@tensorbanana
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Работает на 3060 12 GB,
Nvidia на 8 GB, скорее всего, тоже хватит.
Из-за записи экрана есть небольшие задержки.
Без записи и на английском языке полная задержка от голосовой команды до видео ответа - всего 1.5 секунды!
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
@tensorbanana
🔥26❤3
На ютубе видео попало в рекомендации. Набрало 1000 просмотров за пару часов. 🤯
Апдейт: 11 тысяч просмотров и 1000 лайков 😱
Ещё апдейт: 104 тысячи просмотров. Следующая цель - миллион 😁
https://www.youtube.com/watch?v=ciyEsZpzbM8
Апдейт: 11 тысяч просмотров и 1000 лайков 😱
Ещё апдейт: 104 тысячи просмотров. Следующая цель - миллион 😁
https://www.youtube.com/watch?v=ciyEsZpzbM8
🔥45👍3❤1
Там Сбер свою мультимодалку на мистрале-7b выпустил: OmniFusion-1.1. Пишут, что на русском умеет болтать о картинках. Неквантованная весит 15 гигов (квантанул бы кто). Интересно, как у нее с русским языком в режиме "без картинок", может для РП даже подойдет.
UPD: квантанул в gguf q5, запустил в свежем кобольде, работает. Как ее запустить в кобольде с картинками нативно, я не знаю. Но можно подложить mmproj от llava в кобольде в GUI на вкладке model files: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf
По ощущениям: текстовое общение - мистраль обычный, ничего нового, те же косяки, что и у оригинала. По картинкам - я пока не понял, какой лучше формат промпта использовать на русском языке. Иногда хорошо описывает, иногда хуже. gguf залил на hf.
код: https://github.com/AIRI-Institute/OmniFusion
веса: https://huggingface.co/AIRI-Institute/OmniFusion/tree/main/OmniMistral-v1_1
gguf: https://huggingface.co/Ftfyhh/OmniFusion-1.1-gguf
хабр: https://habr.com/ru/companies/airi/articles/806277/
UPD: квантанул в gguf q5, запустил в свежем кобольде, работает. Как ее запустить в кобольде с картинками нативно, я не знаю. Но можно подложить mmproj от llava в кобольде в GUI на вкладке model files: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf
По ощущениям: текстовое общение - мистраль обычный, ничего нового, те же косяки, что и у оригинала. По картинкам - я пока не понял, какой лучше формат промпта использовать на русском языке. Иногда хорошо описывает, иногда хуже. gguf залил на hf.
код: https://github.com/AIRI-Institute/OmniFusion
веса: https://huggingface.co/AIRI-Institute/OmniFusion/tree/main/OmniMistral-v1_1
gguf: https://huggingface.co/Ftfyhh/OmniFusion-1.1-gguf
хабр: https://habr.com/ru/companies/airi/articles/806277/
huggingface.co
mistral-7b-mmproj-v1.5-Q4_1.gguf · koboldcpp/mmproj at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10❤1
English demo for talk-llama-fast v0.1.3 https://youtu.be/ORDfSG4ltD4
YouTube
talk-llama-fast v0.1.3 - informal video assistant [en]
- added support for XTTSv2 and wav streaming.
- added a lips movement from the video via wаv2liр-streaming.
- reduced latency.
- English, Russian and other languages.
- support for multiple characters.
- stopping generation when speech is detected.
-…
- added a lips movement from the video via wаv2liр-streaming.
- reduced latency.
- English, Russian and other languages.
- support for multiple characters.
- stopping generation when speech is detected.
-…
🔥28👍3❤1
Затестил наконец-то Command-R 35B на русском. Если кратко - слишком медленный. Микстраль почти в 2 раза быстрее при почти схожем качестве на русском.
Потестил Q4_K_S и Q2_K. Скорость от 2.64 t/s до 1.67 t/s в зависимости от кванта и количества слоев в GPU. Большого командира-104B (самая умная LLM из открытых) пока не могу затестить - слишком огромный для моих 12 vram и 64 RAM (q3.gguf 55 гигов).
35B тестил при температуре 0.30. При 1.00 - сразу улетает в бред на смеси языков.
гуф: https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF/tree/main
Потестил Q4_K_S и Q2_K. Скорость от 2.64 t/s до 1.67 t/s в зависимости от кванта и количества слоев в GPU. Большого командира-104B (самая умная LLM из открытых) пока не могу затестить - слишком огромный для моих 12 vram и 64 RAM (q3.gguf 55 гигов).
35B тестил при температуре 0.30. При 1.00 - сразу улетает в бред на смеси языков.
гуф: https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF/tree/main
👍25
Инструкция (на английском) и exe: https://github.com/Mozer/talk-llama-fast
Видео-инструкция на русском: https://youtu.be/0MEZ84uH4-E
Минимальные требования: 16 GB RAM + Nvidia 6 GB VRAM
Рекомендуемые: 12 GB VRAM
На Radeon из коробки не работает (надо допиливать)
OS: Windows 10, 11 (для Mac или Linux надо допиливать)
По умолчанию встроены персонажи Курт и Анна. Остальных - создавайте сами
Чат: https://t.iss.one/+zFDiHuL1iVA1YWMy
Видео-инструкция на русском: https://youtu.be/0MEZ84uH4-E
Минимальные требования: 16 GB RAM + Nvidia 6 GB VRAM
Рекомендуемые: 12 GB VRAM
На Radeon из коробки не работает (надо допиливать)
OS: Windows 10, 11 (для Mac или Linux надо допиливать)
По умолчанию встроены персонажи Курт и Анна. Остальных - создавайте сами
Чат: https://t.iss.one/+zFDiHuL1iVA1YWMy
GitHub
GitHub - Mozer/talk-llama-fast: Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip
Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip - Mozer/talk-llama-fast
🏆33👍18🔥7❤3
Media is too big
VIEW IN TELEGRAM
Подписчик поделился приложением Call Annie (iOS, Android). Свободно болтает на английском. На других языках понимает, но отвечает все равно на английском. Есть несколько аватаров. Базовый функционал бесплатно, остальное платно (пока не понял, что именно платно). Задержка ответа - 2.5 секунды ( у talk-llama-fast 1.5-2 секунды).
Пока не понял что у нее под капотом - слишком быстро отвечает для chatGPT.
Ссылку давать не буду, сами найдете в Гугл плей и App store, конкурент всё таки 😁
Пока не понял что у нее под капотом - слишком быстро отвечает для chatGPT.
Ссылку давать не буду, сами найдете в Гугл плей и App store, конкурент всё таки 😁
😁28👍8🔥2
CEO Anthropic (создатели Claude 3) нагнетает:
по его словам, уже в следующем году нейросети научатся выживать во внешней среде без помощи человека, как это делают обычные компьютерные вирусы. 🤯
Среди потенциальных угроз упомянул Китай, Северную Корею и Россию.
https://twitter.com/aisafetymemes/status/1779016347709808803?s=46
Вторая картинка - рост производительности на чип, близкий к экспоненциальному.
Еще апдейт: на реддите чувак дал Command-R-35b доступ к выполнению команд в консоли и сказал ни в чем себе не отказывать. "Командир" сразу же полез проверять, какие есть устройства в сети и что с ними можно сделать.
https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/
по его словам, уже в следующем году нейросети научатся выживать во внешней среде без помощи человека, как это делают обычные компьютерные вирусы. 🤯
Среди потенциальных угроз упомянул Китай, Северную Корею и Россию.
https://twitter.com/aisafetymemes/status/1779016347709808803?s=46
Вторая картинка - рост производительности на чип, близкий к экспоненциальному.
Еще апдейт: на реддите чувак дал Command-R-35b доступ к выполнению команд в консоли и сказал ни в чем себе не отказывать. "Командир" сразу же полез проверять, какие есть устройства в сети и что с ними можно сделать.
https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/
🥱10😁9👍3
Свежий релиз talk-llama-fast v0.1.4
Если кратко - то жрет на 0.6 GB меньше VRAM и стартовый промпт без ограничений. Полное описание - на странице релиза. Качаем, меняем старый exe на новый. В параметрах менять ничего не нужно, все по умолчанию настроено.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
Если кратко - то жрет на 0.6 GB меньше VRAM и стартовый промпт без ограничений. Полное описание - на странице релиза. Качаем, меняем старый exe на новый. В параметрах менять ничего не нужно, все по умолчанию настроено.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
GitHub
Release 0.1.4 · Mozer/talk-llama-fast
New params:
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
🔥29👍7❤2⚡1
llama-3 gguf
Затестил Meta-Llama-3-8B.Q5_0.gguf в кобольде - полет нормальный. Русский лучше чем в мистрале, но хуже чем в вихре. Инстракт версия проявила себя чуть лучше базовой версии. На интеллект на русском пока не оценивал.
llama-3-8b base: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main
llama-3-8b instruct: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
llama-3-70b instruct: https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF
Затестил Meta-Llama-3-8B.Q5_0.gguf в кобольде - полет нормальный. Русский лучше чем в мистрале, но хуже чем в вихре. Инстракт версия проявила себя чуть лучше базовой версии. На интеллект на русском пока не оценивал.
llama-3-8b base: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main
llama-3-8b instruct: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
llama-3-70b instruct: https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF
huggingface.co
QuantFactory/Meta-Llama-3-8B-GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍18
Сравнение трех Вихрей-7b и Llama-3-8b
Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.
Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.
UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.
https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main
Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.
Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.
UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.
https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main
👍21❤1🔥1
Квантанул большого и среднего виспера в q4_0, до этого было q5_0 и на HF встречал только q5_0.
Качество распознования на русском осталось плюс-минус таким же, зато потребление VRAM сократилось на 200 MB для large и на 100 MB для medium. Там же лежат large-v2 и large-v3, особого отличия между этими версиями я не заметил, качайте v3 если память позволяет.
Сравнение VRAM с загруженной Meta-Llama-3-8B-Instruct.Q5_0.gguf и 2048 контекста.
виспер VRAM, GB
medium_q4_0 7.7 стало
medium_q5_0 7.8 было
large_v3_q4_0 8.7 стало
large_v3_q5_0 8.9 было
Хотел вообще в q2/q3 квантануть, но Герганов еще не реализовал поддержку q2/q3/qK на cuda для виспера.
https://huggingface.co/Ftfyhh/whisper-ggml-q4_0-models/tree/main
Качество распознования на русском осталось плюс-минус таким же, зато потребление VRAM сократилось на 200 MB для large и на 100 MB для medium. Там же лежат large-v2 и large-v3, особого отличия между этими версиями я не заметил, качайте v3 если память позволяет.
Сравнение VRAM с загруженной Meta-Llama-3-8B-Instruct.Q5_0.gguf и 2048 контекста.
виспер VRAM, GB
medium_q4_0 7.7 стало
medium_q5_0 7.8 было
large_v3_q4_0 8.7 стало
large_v3_q5_0 8.9 было
Хотел вообще в q2/q3 квантануть, но Герганов еще не реализовал поддержку q2/q3/qK на cuda для виспера.
https://huggingface.co/Ftfyhh/whisper-ggml-q4_0-models/tree/main
huggingface.co
Ftfyhh/whisper-ggml-q4_0-models at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍23🔥10❤1