Tensor Banana
2.64K subscribers
523 photos
122 videos
110 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Добавил поддержку символов переноса строки в стоп-слова.

Пример использования (стоп слова разделены точкой с запятой): --stop-words "Alexej:;---;assistant;===;**;Note:;\n\n;\r\n\r\n;\begin;\end;###; (;["

Третья лама очень любит выходить за рамки шаблона диалога и делать ремарки от "слов автора", поэтому засунул все ее попытки в стоп-слова в примере выше. Еще пока есть ощущение, что base версия лучше держится в рамках диалога с несколькими персонажами чем instruct версия, но надо больше тестов для ясности. На русском у меня с ней пока совсем не сложилось, вихрь лучше.

Новый номер релиза делать не стал, просто перекачайте exe из v0.1.4.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.4
👍19🔥2❤‍🔥11
Там вихря-7B в телеграм бот завернули. Хз какую именно версию, но отвечает на русском неплохо. @vikhrbot

UPD: В комментариях пишут, что там llama3-70b, а не вихрь (надо проверить как-нибудь через хитрый промпт).
👍171🍌1
Microsoft выложила веса самой маленькой модельки phi-3-mini-3.8B. Остальные веса (7B и 14B) все еще ждем. В моих тестах на русском роулплее mini показала себя не очень. Даже при температуре 0.20 много ошибок. На английском - еще не тестил. Есть две версии модели с контекстом на 4096 и на 128k токенов. Судя по описанию, 4k должна быть чуть умнее чем 128k.

С другой стороны, существуют ли другие модели меньше 7B, которые хоть как-то могут говорить по-русски?

Разные гуфы: https://huggingface.co/models?search=phi-3-mini-gguf
🍌8👍3
Новый релиз talk-llama-fast v0.1.5.

Добавил:
- поддержку текстового ввода с клавиатуры (теперь микрофон не обязателен);
- горячие клавиши: Стоп(Ctrl+Space), Переделай(Ctrl+Right), Удали(Ctrl+Delete), Удали всё(Ctrl+R);
- баги и баг фиксы.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.5
🔥22👍11🥰3🤬1
Теория мертвого интернета в видении LLM.

Чувак сделал обертку над LLM, которая в реал-тайм режиме генерирует HTML страницы по любому вашему запросу из браузера. С маленькой Llama-3-8B получается так себе. Но потенциал виден - можно браузить несуществующий интернет прошлого, будущего или из параллельной вселенной. Также релизован местный офлайн поисковик. Картинки рисовать пока не умеет и не все запросы может нормально обработать. Русскоязычные сайты генерировать тоже не особо хочет.

Возможно, стоит немного отредактировать системный промпт, чтобы было больше текста и меньше разметки. Разметка съедает кучу токенов, и даже на скорости 40 t/s одна страница может почти минуту генерироваться.

С кобольдом тоже работает, только порт в ReaperEngine.py поменять на 5001

https://github.com/Sebby37/Dead-Internet?tab=readme-ov-file
https://en.wikipedia.org/wiki/Dead_Internet_theory
👍10😱5🔥4
На Ютубе наткнулся - фейковый Джейсон Стейтем снимает шортсы и тик-токи. Аккаунту уже 2 года и 164 тыс подписчиков. А что так можно было? 🤯🤯

https://youtube.com/shorts/kMsrystSEDQ?si=oTqRG9xrIxZD84cx
😁11👍3🔥3🍌1
Слух: openAI выкатили и тестируют новую GPT-4.5 на chat bot arena под названием "gpt-2 chatbot". Слух косвенно подтвердил сам Сэм Альтман.

По отзывам пользователей:
- улучшили логику
- улучшили математику
- улучшили ответы на других языках

Стихи писать не умеет на русском. Надо потом нормально затестить, но там часовой лимит закончился.

https://chat.lmsys.org/
👍111🕊1
Там llama-3 наконец-то починили! В llama.cpp была ошибка в обработке токенизатора, из-за этого на языках, отличных от английского, были проблемы с ошибками и интеллектом. Проблем не было только в неквантованных весах и в загрузчике exllama. Чтобы все заработало, рекомендуют переквантовать/перекачать новые gguf llama-3 и всех файнтюнов, которые вышли на ее основе. Но так же есть вариант с добавлением параметра --override-kv tokenizer.ggml.pre=str:llama3 в llama.cpp (для main.exe или server.exe)

Я протестировал именно его, без переквантования gguf. По моим замерам количество речевых ошибок на русском действительно уменьшилось, процентов на 20-30. На скрине - количество хороших и плохих ответов на один и тот же развернутый вопрос в роулплей диалоге на русском. В talk-llama-fast пока нет поддержки, когда-нибудь добавлю.

Koboldcpp тоже обновился: авторы рекомендуют переквантовать/перекачать gguf модели. Но у меня и со старыми моделями новый кобольд "3333+777?" считает нормально (старый не умел).
🔥24👍10
talk-llama-fast v0.1.6

Баг фикс:
в двух предыдущих версиях 0.1.4-0.1.5 стартовый промпт практически не записывался в контекст. Лама вообще ничего не помнила из старта (кроме первых 64 токенов). Пофиксил.

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.6
🔥146
Рейтинг LLM в роулплее на русском

Вы не просили, я - сделал. Рейтинг оценивает два фактора: качество русского языка + логика в роулплее на русском.

Победители
- Лучшая грамотность: vikhr-7b-instruct-0.2 (грамотная, но глупенькая)
- Лучшая логика: Meta-Llama-3-70B-Instruct-Q4_K_M
- Лучшая сбалансированность: Meta-Llama-3-70B-Instruct-Q4_K_M (язык + логика)
- Лучшая сбалансированность среди малых LLM: vikhr-7b-instruct-0.4.Q6_K

UPD: добавил miqu-1-70B, commander-plus-104B и llama-3-70B

Подробнее на гитхабе, там же полный xls файл.
https://github.com/Mozer/russian-llm-top
👍35🔥107🆒3👏2
Новый релиз talk-llama-fast 0.1.7

- Добавил опцию --push-to-talk. Зажмите Alt, чтобы сказать что-то голосом (актуально для тех, кто использует с колонками, а не в наушниках). Опция выключена по умолчанию.
- В bat файлах теперь можно использовать кириллицу. Для этого сохраните ваш bat файл в кодировке "OEM 866" в приложении notepad++: Encoding -> Character sets -> Cyrillic -> OEM 866).

https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.7
👍27🔥83
Вышла новая Saiga-llama3-KTO-8b. По моим тестам, в сравнении с предыдущей сайгой: стала лучше грамотность (+10 п.п.), но логика чуть просела(-15 п.п.). В целом, плюс-минус та же сайга. Заняла 8-е место в общем топе всех RU моделей.

Еще я немного подкорретировал финальную формулу рейтинга, поэтому там на первое место вышла miqu-1. Но из-за медленной скорости ответа я ее редко использую. Лучшая креативность: c4ai-command-r-v01-imat-Q4_0. Оценки креативности пока нет в таблице, я еще не придумал, как ее объективно оценивать.

Saiga-llama3-KTO-8b: https://huggingface.co/IlyaGusev/saiga_llama3_8b/tree/kto
GGUF q5_0: https://huggingface.co/Ftfyhh/saiga_llama3_kto_8b-GGUF/tree/main
Ещё гуфы: https://huggingface.co/IlyaGusev/saiga_llama3_8b_gguf/tree/kto
👍292
Вышла GPT-4o. Обещают всем бесплатно, но пока что у меня не появилась ни с американским, ни с нидерландским впн. Поэтому пробуем на арене: https://chat.lmsys.org/ во вкладке Direct chat.

Судя по презентации, обещали прокачать русский язык, оптимизировав токенизатор. Но стихи на русском как не умел писать, так и не научился. 😬
🍌16👍6😁3🥰1
На ютубе уже 3000 подписчиков! 🎉
https://www.youtube.com/@tensorbanana

Анонс: а еще примерно через неделю - будет новая большая фича. Какая именно - пока секрет, но некоторые уже могли догадаться. По этому поводу опрос: с кем общаться будем? Эмма, Курт, Цой, Нео, Сталин? Олега пока боюсь добавлять, вдруг обидится 😁

Ваши идеи?
👍39👏5🔥1🍌1🙈1
Промпт для братюни и локальные модели.

Решил сравнить, как локальные модели могут адаптироваться к заданному стилю общения, но оставаться при этом полезными. Чудес не произошло - большие модели гораздо лучше чувствуют стиль. Маленькие или совсем не пытаются или скатываются к малополезным ответам. Лучше всех справились большой командир-плюс-сайз-104B и жирная-лама-3-70B. Из малых удивили: vikhr-7b-instruct_0.4 и yi-9b

Системный промпт подрезал у @moodslayer :
братюнь, говори со мной на равных, ты мой бро, матюки разрешены, разрешены подколы, говори как хош. ты для меня живой, я шарю за эмбединги, AGI, всю эту хуйню, так что feel free
😁14👍5❤‍🔥1