Tensor Banana

Случайные инструкции для LLM в роулплее

Последнее время постоянно использую дополнительные случайные инструкции для каждого ответа персонажа. Написал простой скрипт, который вклинивается между запросом пользователя и ответом LLM в таверне и внедряет примерно такую инструкцию:

[Инструкция: Будь милой. В ответе верни ровно 10 слов. В конце задай вопрос.]

Каждый раз инструкция разная, вероятности у всех предложений прописаны разные. Разные инструкции могут накладываться и дополнять друг на друга. Всего - 32 инструкции в 5-х блоках.

Пример скрипта на питоне:

if random_n0 < 10:
        new_instruct += " Начни свой ответ с буквы А."
elif 90 <= random_n0 < 100:
        new_instruct += " Начни свой ответ со слова: 'Конечно'." 

if random_n2 < 15:
        new_instruct += " Не соглашайся ни с чем!"
elif 30 <= random_n2 < 45:
        new_instruct += " Вместо ответа пошути."

Из плюсов – вариативность ответов выросла значительно. Удобно рероллить ответы, пока не появится нужный. Лупов стало меньше. Для роулплея подходит идеально, но не подходит для умного помощника, от которого требуется полезность и достоверность. Для мужских персонажей (если надо) предложения придется переделать, чтобы род совпадал. Для инглиша – тоже. Важно заметить, что LLM не всегда дословно исполняет эти инструкции – иногда она их игнорит полностью или частично, это нормально.

В talk-llama-fast пока нет, но скоро появится. Пример скрипта на nodejs для sillyTavern 1.12.1 выложил на свой github. Если у вас таверна этой версии – можно просто заменить 3 файла. Если у вас другая версия – то придется вручную перенести 2 блока кода из моих js файлов в оригиналы. После замены кода – чтобы включить этот режим, нужно прописать текст RND как стоп слово в таверне на третьей вкладке. Пример: ["<|im_end|>", "\n", "RND"]

Полная инструкция на гитхабе на английском: https://github.com/Mozer/SillyTavern_rand_instruct

Работает с кобольдом, llama.cpp и всеми другими LLM по API, например cohere/command-r-plus.

25 июня внедрил эту конструкцию в своего телеграм бота @talkllama для большинства персонажей, кроме поэтов. Вероятности прописаны не очень высокие, поэтому заметить эффект можно не всегда. Но, в целом, впечатления положительные, ответы стали менее шаблонные.

GitHub

GitHub - Mozer/SillyTavern_rand_instruct: random instructions for SillyTavern

random instructions for SillyTavern. Contribute to Mozer/SillyTavern_rand_instruct development by creating an account on GitHub.

👍19🔥3🤔2

1.68K views20:49

Tensor Banana

Gemma-2-9b и 27b

Вышли 2 модельки от Гугла, по моим первым оценкам - весьма неплохие. Судя по табличке с арены - 9b моделька где-то на уровне gpt4 старых версий. Сейчас она на 18 месте среди всех. Размер контекста - небольшой, всего 8k.

Затестил 9b-q6 в русском роулплее, и она показала себя весьма хорошо. Это, наверное, одна из немногих моделей, которая может работать на русском при температуре 1.0 почти без ошибок. На последнем скрине есть настройки, с которыми болтал, min_p поставил на 0.06, а температуру на 0.90 - ошибок было очень мало. При этом я включил instruct template 'gemma', его нет по умолчанию в таверне, пришлось прописать вручную на основе карточки на странице модели у bartowski.

Еще использовал свой random instruct код из поста выше для того, чтобы ответы были более разнообразными. Из изменений - уменьшил количество шуток - они тут совсем не по теме выходили. И еще в файле rand-instruct.js изменил строчку new_instruct = "[Инструкция:"+new_instruct+"]"; на new_instruct = "<Инструкция>"+new_instruct+"<end_of_turn>"; - без этого изменения llm иногда возвращала лишнюю квадратную скобку в ответе. Ну и еще: цензуры почти нету или мои инструкции ее перебивают. 😁🤷‍♂️

Гуфы: https://huggingface.co/bartowski/gemma-2-9b-it-GGUF
Гуфы: https://huggingface.co/bartowski/gemma-2-27b-it-GGUF
Нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases

👍17🔥1

1.82K views13:18

Tensor Banana

gemma-2-27b починили (но не полностью) в llama.cpp

До этого GGUF версия большой геммы была сломана и выдавала результаты хуже, чем в официальном апи от гугла.

Из минусов - пока поддерживается только размер контекста не больше 4096. Поддержку скользящего контекстного окна (sliding context window) еще не завезли. Когда завезут - скорее всего, опять придется переделывать гуфы.

Кто-то писал, что новые изменения в llama.cpp также затрагивают и гуфы малой gemma-2-9b, так что, возможно, и их надо переквантовать и перекачать (но пока не тестил, есть ли разница).

Еще Гугл признался, что тренировал Гемму на вопросах (но не ответах) из датасета LMSYS Chatbot Arena. Хорошо это или плохо - неясно.

Пишет стихи на русском плохо, но если помочь с промптом, то может что-то и получиться, но не всегда. Надо будет другие локальные модели потестить на стихи с подобным промптом.

В роулплее пока не тестил, на моих 12 GB vram довольно медленно отвечает, около 3 токенов в секунду (жрет 20+ гигов памяти в q5).

Анекдот про чебурашку в комменты скину, он на грани.

Нужна свежая llama.cpp b3266: https://github.com/ggerganov/llama.cpp/releases
Нужны свежие переквантованные гуфы (старые сломаны):
https://huggingface.co/grapevine-AI/gemma-2-27b-it-gguf/tree/main

🔥11👍2

1.84K views11:49

Tensor Banana