Tensor Banana

Reflection-Llama-3.1-70B

Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.

Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.

Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s

q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.

Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!

Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.

Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)

Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp

Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:

<|start_header_id|>system<|end_header_id|>

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|>

На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.

https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main

есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно

АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.

❤9🔥7👍4👎1

1.99K views13:02

Tensor Banana

Добавил пару новых персонажей: Илон и Паша.

Илон живет в общем чате @talkllama
Паша живет в отдельном чате @Pavel_Durov_Ask

Оба имеют доступ в интернет и умеют гуглить. Поэтому они в курсе свежих событий в России и мире.

Еще теперь ко всем персонажам можно обращаться по-русски:
Илон, когда уже на Марс полетим?
Запятая после имени обязательна, call не нужен, регистр неважен.
Старые способы через /call elon и через "Ответить" тоже работают.

2👍22🔥7🥰1

2.02K viewsedited 19:13

Tensor Banana