Затестил наконец-то Command-R 35B на русском. Если кратко - слишком медленный. Микстраль почти в 2 раза быстрее при почти схожем качестве на русском.
Потестил Q4_K_S и Q2_K. Скорость от 2.64 t/s до 1.67 t/s в зависимости от кванта и количества слоев в GPU. Большого командира-104B (самая умная LLM из открытых) пока не могу затестить - слишком огромный для моих 12 vram и 64 RAM (q3.gguf 55 гигов).
35B тестил при температуре 0.30. При 1.00 - сразу улетает в бред на смеси языков.
гуф: https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF/tree/main
Потестил Q4_K_S и Q2_K. Скорость от 2.64 t/s до 1.67 t/s в зависимости от кванта и количества слоев в GPU. Большого командира-104B (самая умная LLM из открытых) пока не могу затестить - слишком огромный для моих 12 vram и 64 RAM (q3.gguf 55 гигов).
35B тестил при температуре 0.30. При 1.00 - сразу улетает в бред на смеси языков.
гуф: https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF/tree/main
👍25
Инструкция (на английском) и exe: https://github.com/Mozer/talk-llama-fast
Видео-инструкция на русском: https://youtu.be/0MEZ84uH4-E
Минимальные требования: 16 GB RAM + Nvidia 6 GB VRAM
Рекомендуемые: 12 GB VRAM
На Radeon из коробки не работает (надо допиливать)
OS: Windows 10, 11 (для Mac или Linux надо допиливать)
По умолчанию встроены персонажи Курт и Анна. Остальных - создавайте сами
Чат: https://t.iss.one/+zFDiHuL1iVA1YWMy
Видео-инструкция на русском: https://youtu.be/0MEZ84uH4-E
Минимальные требования: 16 GB RAM + Nvidia 6 GB VRAM
Рекомендуемые: 12 GB VRAM
На Radeon из коробки не работает (надо допиливать)
OS: Windows 10, 11 (для Mac или Linux надо допиливать)
По умолчанию встроены персонажи Курт и Анна. Остальных - создавайте сами
Чат: https://t.iss.one/+zFDiHuL1iVA1YWMy
GitHub
GitHub - Mozer/talk-llama-fast: Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip
Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip - Mozer/talk-llama-fast
🏆33👍18🔥7❤3
Media is too big
VIEW IN TELEGRAM
Подписчик поделился приложением Call Annie (iOS, Android). Свободно болтает на английском. На других языках понимает, но отвечает все равно на английском. Есть несколько аватаров. Базовый функционал бесплатно, остальное платно (пока не понял, что именно платно). Задержка ответа - 2.5 секунды ( у talk-llama-fast 1.5-2 секунды).
Пока не понял что у нее под капотом - слишком быстро отвечает для chatGPT.
Ссылку давать не буду, сами найдете в Гугл плей и App store, конкурент всё таки 😁
Пока не понял что у нее под капотом - слишком быстро отвечает для chatGPT.
Ссылку давать не буду, сами найдете в Гугл плей и App store, конкурент всё таки 😁
😁28👍8🔥2
CEO Anthropic (создатели Claude 3) нагнетает:
по его словам, уже в следующем году нейросети научатся выживать во внешней среде без помощи человека, как это делают обычные компьютерные вирусы. 🤯
Среди потенциальных угроз упомянул Китай, Северную Корею и Россию.
https://twitter.com/aisafetymemes/status/1779016347709808803?s=46
Вторая картинка - рост производительности на чип, близкий к экспоненциальному.
Еще апдейт: на реддите чувак дал Command-R-35b доступ к выполнению команд в консоли и сказал ни в чем себе не отказывать. "Командир" сразу же полез проверять, какие есть устройства в сети и что с ними можно сделать.
https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/
по его словам, уже в следующем году нейросети научатся выживать во внешней среде без помощи человека, как это делают обычные компьютерные вирусы. 🤯
Среди потенциальных угроз упомянул Китай, Северную Корею и Россию.
https://twitter.com/aisafetymemes/status/1779016347709808803?s=46
Вторая картинка - рост производительности на чип, близкий к экспоненциальному.
Еще апдейт: на реддите чувак дал Command-R-35b доступ к выполнению команд в консоли и сказал ни в чем себе не отказывать. "Командир" сразу же полез проверять, какие есть устройства в сети и что с ними можно сделать.
https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/
🥱10😁9👍3
Свежий релиз talk-llama-fast v0.1.4
Если кратко - то жрет на 0.6 GB меньше VRAM и стартовый промпт без ограничений. Полное описание - на странице релиза. Качаем, меняем старый exe на новый. В параметрах менять ничего не нужно, все по умолчанию настроено.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
Если кратко - то жрет на 0.6 GB меньше VRAM и стартовый промпт без ограничений. Полное описание - на странице релиза. Качаем, меняем старый exe на новый. В параметрах менять ничего не нужно, все по умолчанию настроено.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
GitHub
Release 0.1.4 · Mozer/talk-llama-fast
New params:
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
🔥29👍7❤2⚡1
llama-3 gguf
Затестил Meta-Llama-3-8B.Q5_0.gguf в кобольде - полет нормальный. Русский лучше чем в мистрале, но хуже чем в вихре. Инстракт версия проявила себя чуть лучше базовой версии. На интеллект на русском пока не оценивал.
llama-3-8b base: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main
llama-3-8b instruct: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
llama-3-70b instruct: https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF
Затестил Meta-Llama-3-8B.Q5_0.gguf в кобольде - полет нормальный. Русский лучше чем в мистрале, но хуже чем в вихре. Инстракт версия проявила себя чуть лучше базовой версии. На интеллект на русском пока не оценивал.
llama-3-8b base: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main
llama-3-8b instruct: https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
llama-3-70b instruct: https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF
huggingface.co
QuantFactory/Meta-Llama-3-8B-GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍18
Сравнение трех Вихрей-7b и Llama-3-8b
Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.
Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.
UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.
https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main
Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.
Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.
UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.
https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main
👍21❤1🔥1
Квантанул большого и среднего виспера в q4_0, до этого было q5_0 и на HF встречал только q5_0.
Качество распознования на русском осталось плюс-минус таким же, зато потребление VRAM сократилось на 200 MB для large и на 100 MB для medium. Там же лежат large-v2 и large-v3, особого отличия между этими версиями я не заметил, качайте v3 если память позволяет.
Сравнение VRAM с загруженной Meta-Llama-3-8B-Instruct.Q5_0.gguf и 2048 контекста.
виспер VRAM, GB
medium_q4_0 7.7 стало
medium_q5_0 7.8 было
large_v3_q4_0 8.7 стало
large_v3_q5_0 8.9 было
Хотел вообще в q2/q3 квантануть, но Герганов еще не реализовал поддержку q2/q3/qK на cuda для виспера.
https://huggingface.co/Ftfyhh/whisper-ggml-q4_0-models/tree/main
Качество распознования на русском осталось плюс-минус таким же, зато потребление VRAM сократилось на 200 MB для large и на 100 MB для medium. Там же лежат large-v2 и large-v3, особого отличия между этими версиями я не заметил, качайте v3 если память позволяет.
Сравнение VRAM с загруженной Meta-Llama-3-8B-Instruct.Q5_0.gguf и 2048 контекста.
виспер VRAM, GB
medium_q4_0 7.7 стало
medium_q5_0 7.8 было
large_v3_q4_0 8.7 стало
large_v3_q5_0 8.9 было
Хотел вообще в q2/q3 квантануть, но Герганов еще не реализовал поддержку q2/q3/qK на cuda для виспера.
https://huggingface.co/Ftfyhh/whisper-ggml-q4_0-models/tree/main
huggingface.co
Ftfyhh/whisper-ggml-q4_0-models at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍23🔥10❤1
Добавил поддержку символов переноса строки в стоп-слова.
Пример использования (стоп слова разделены точкой с запятой):
Третья лама очень любит выходить за рамки шаблона диалога и делать ремарки от "слов автора", поэтому засунул все ее попытки в стоп-слова в примере выше. Еще пока есть ощущение, что base версия лучше держится в рамках диалога с несколькими персонажами чем instruct версия, но надо больше тестов для ясности. На русском у меня с ней пока совсем не сложилось, вихрь лучше.
Новый номер релиза делать не стал, просто перекачайте exe из v0.1.4.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
Пример использования (стоп слова разделены точкой с запятой):
--stop-words "Alexej:;---;assistant;===;**;Note:;\n\n;\r\n\r\n;\begin;\end;###; (;["
Третья лама очень любит выходить за рамки шаблона диалога и делать ремарки от "слов автора", поэтому засунул все ее попытки в стоп-слова в примере выше. Еще пока есть ощущение, что base версия лучше держится в рамках диалога с несколькими персонажами чем instruct версия, но надо больше тестов для ясности. На русском у меня с ней пока совсем не сложилось, вихрь лучше.
Новый номер релиза делать не стал, просто перекачайте exe из v0.1.4.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
GitHub
Release 0.1.4 · Mozer/talk-llama-fast
New params:
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
--batch-size (default 64) - process start prompt and user input in batches. With 64 llama takes 0.6 GB less VRAM than it was before with 1024. 64 is fine for small and fast models, for...
👍19🔥2❤🔥1❤1
Там вихря-7B в телеграм бот завернули. Хз какую именно версию, но отвечает на русском неплохо. @vikhrbot
UPD: В комментариях пишут, что там llama3-70b, а не вихрь (надо проверить как-нибудь через хитрый промпт).
UPD: В комментариях пишут, что там llama3-70b, а не вихрь (надо проверить как-нибудь через хитрый промпт).
👍17❤1🍌1
Microsoft выложила веса самой маленькой модельки phi-3-mini-3.8B. Остальные веса (7B и 14B) все еще ждем. В моих тестах на русском роулплее mini показала себя не очень. Даже при температуре 0.20 много ошибок. На английском - еще не тестил. Есть две версии модели с контекстом на 4096 и на 128k токенов. Судя по описанию, 4k должна быть чуть умнее чем 128k.
С другой стороны, существуют ли другие модели меньше 7B, которые хоть как-то могут говорить по-русски?
Разные гуфы: https://huggingface.co/models?search=phi-3-mini-gguf
С другой стороны, существуют ли другие модели меньше 7B, которые хоть как-то могут говорить по-русски?
Разные гуфы: https://huggingface.co/models?search=phi-3-mini-gguf
🍌8👍3
Новый релиз talk-llama-fast v0.1.5.
Добавил:
- поддержку текстового ввода с клавиатуры (теперь микрофон не обязателен);
- горячие клавиши: Стоп(Ctrl+Space), Переделай(Ctrl+Right), Удали(Ctrl+Delete), Удали всё(Ctrl+R);
- баги и баг фиксы.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.5
Добавил:
- поддержку текстового ввода с клавиатуры (теперь микрофон не обязателен);
- горячие клавиши: Стоп(Ctrl+Space), Переделай(Ctrl+Right), Удали(Ctrl+Delete), Удали всё(Ctrl+R);
- баги и баг фиксы.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.5
GitHub
Release 0.1.5 · Mozer/talk-llama-fast
New features:
Keyboard input (finally you can type messages using keyboard now).
You can copy and paste text into talk-llama-fast window.
Hotkeys: Stop(Ctrl+Space), Regenerate(Ctrl+Right), Delete(...
Keyboard input (finally you can type messages using keyboard now).
You can copy and paste text into talk-llama-fast window.
Hotkeys: Stop(Ctrl+Space), Regenerate(Ctrl+Right), Delete(...
🔥22👍11🥰3🤬1
Теория мертвого интернета в видении LLM.
Чувак сделал обертку над LLM, которая в реал-тайм режиме генерирует HTML страницы по любому вашему запросу из браузера. С маленькой Llama-3-8B получается так себе. Но потенциал виден - можно браузить несуществующий интернет прошлого, будущего или из параллельной вселенной. Также релизован местный офлайн поисковик. Картинки рисовать пока не умеет и не все запросы может нормально обработать. Русскоязычные сайты генерировать тоже не особо хочет.
Возможно, стоит немного отредактировать системный промпт, чтобы было больше текста и меньше разметки. Разметка съедает кучу токенов, и даже на скорости 40 t/s одна страница может почти минуту генерироваться.
С кобольдом тоже работает, только порт в ReaperEngine.py поменять на 5001
https://github.com/Sebby37/Dead-Internet?tab=readme-ov-file
https://en.wikipedia.org/wiki/Dead_Internet_theory
Чувак сделал обертку над LLM, которая в реал-тайм режиме генерирует HTML страницы по любому вашему запросу из браузера. С маленькой Llama-3-8B получается так себе. Но потенциал виден - можно браузить несуществующий интернет прошлого, будущего или из параллельной вселенной. Также релизован местный офлайн поисковик. Картинки рисовать пока не умеет и не все запросы может нормально обработать. Русскоязычные сайты генерировать тоже не особо хочет.
Возможно, стоит немного отредактировать системный промпт, чтобы было больше текста и меньше разметки. Разметка съедает кучу токенов, и даже на скорости 40 t/s одна страница может почти минуту генерироваться.
С кобольдом тоже работает, только порт в ReaperEngine.py поменять на 5001
https://github.com/Sebby37/Dead-Internet?tab=readme-ov-file
https://en.wikipedia.org/wiki/Dead_Internet_theory
👍10😱5🔥4
На Ютубе наткнулся - фейковый Джейсон Стейтем снимает шортсы и тик-токи. Аккаунту уже 2 года и 164 тыс подписчиков. А что так можно было? 🤯🤯
https://youtube.com/shorts/kMsrystSEDQ?si=oTqRG9xrIxZD84cx
https://youtube.com/shorts/kMsrystSEDQ?si=oTqRG9xrIxZD84cx
YouTube
Where does Jason Statham spend his money?
Where does Jason Statham spend his money? #statham #wife #money Subscribe to our accounts:KEANU REEVES https://www.youtube.com/@unreal_keanuROBERT DOWNEY J...
😁11👍3🔥3🍌1
Слух: openAI выкатили и тестируют новую GPT-4.5 на chat bot arena под названием "gpt-2 chatbot". Слух косвенно подтвердил сам Сэм Альтман.
По отзывам пользователей:
- улучшили логику
- улучшили математику
- улучшили ответы на других языках
Стихи писать не умеет на русском. Надо потом нормально затестить, но там часовой лимит закончился.
https://chat.lmsys.org/
По отзывам пользователей:
- улучшили логику
- улучшили математику
- улучшили ответы на других языках
Стихи писать не умеет на русском. Надо потом нормально затестить, но там часовой лимит закончился.
https://chat.lmsys.org/
👍11❤1🕊1
Там llama-3 наконец-то починили! В llama.cpp была ошибка в обработке токенизатора, из-за этого на языках, отличных от английского, были проблемы с ошибками и интеллектом. Проблем не было только в неквантованных весах и в загрузчике exllama. Чтобы все заработало, рекомендуют переквантовать/перекачать новые gguf llama-3 и всех файнтюнов, которые вышли на ее основе. Но так же есть вариант с добавлением параметра
Я протестировал именно его, без переквантования gguf. По моим замерам количество речевых ошибок на русском действительно уменьшилось, процентов на 20-30. На скрине - количество хороших и плохих ответов на один и тот же развернутый вопрос в роулплей диалоге на русском. В talk-llama-fast пока нет поддержки, когда-нибудь добавлю.
Koboldcpp тоже обновился: авторы рекомендуют переквантовать/перекачать gguf модели. Но у меня и со старыми моделями новый кобольд "3333+777?" считает нормально (старый не умел).
--override-kv tokenizer.ggml.pre=str:llama3 в llama.cpp
(для main.exe или server.exe)Я протестировал именно его, без переквантования gguf. По моим замерам количество речевых ошибок на русском действительно уменьшилось, процентов на 20-30. На скрине - количество хороших и плохих ответов на один и тот же развернутый вопрос в роулплей диалоге на русском. В talk-llama-fast пока нет поддержки, когда-нибудь добавлю.
Koboldcpp тоже обновился: авторы рекомендуют переквантовать/перекачать gguf модели. Но у меня и со старыми моделями новый кобольд "3333+777?" считает нормально (старый не умел).
🔥24👍10
talk-llama-fast v0.1.6
Баг фикс:
в двух предыдущих версиях 0.1.4-0.1.5 стартовый промпт практически не записывался в контекст. Лама вообще ничего не помнила из старта (кроме первых 64 токенов). Пофиксил.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.6
Баг фикс:
в двух предыдущих версиях 0.1.4-0.1.5 стартовый промпт практически не записывался в контекст. Лама вообще ничего не помнила из старта (кроме первых 64 токенов). Пофиксил.
https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.6
GitHub
Release 0.1.6 · Mozer/talk-llama-fast
-bug fix with start prompt:
start prompt was not written correctly into context when running with default --batch-size 64 parameter or without it. Llama couldn't remember anything from the star...
start prompt was not written correctly into context when running with default --batch-size 64 parameter or without it. Llama couldn't remember anything from the star...
🔥14❤6