T-lite-instruct-0.1-8B от Тинькофф
Модель вышла еще месяц назад, но затестил только сейчас.
В русском рейтинге на llmarena.ru она внезапно оказалась на 4-м месте (лучшая среди протестированных опенсорс моделей)
Отлично работает на русском. Уровень владения языком даже лучше чем у gemma-2-9b и llama-3-8b.
Основана на llama-3-8b
Контекст: 8k
Отлично работает в talk-llama-fast
Интеллект для 8b модели на русском - средний, где-то справляется чуть лучше, где-то чуть хуже своих собратьев (лама и гемма). С математикой бывают проблемы.
Стихи на русском пытается писать! Точно лучше всех среди опенсорс моделей размером до 100b (на уровне mistral-123b. даже лама-405b не умеет в стихи). Причем, у меня локально рифма намного лучше, чем на сайте llmarena (возможно, у них температура слишком большая или квант хуже)
Для ассистента тестил с температурой 0.30, rep_pen 1, min_p 0.05
Для роулплея тестил с температурой 0.75, rep_pen 1.20, min_p 0.05, context 4k.
Instruct template: chatML
Цензуры почти нет.
Пишут, что тренировка заняла 4 дня на 96x A100-80GB ($16 000)
В чате шутят - поставить ее Олегу в моем боте - но ее что-то нет на openrouter =).
В целом, - лайк, буду гонять вместе со своей любимой gemma-27b, хз кто из них лучше в роулплее.
https://huggingface.co/AnatoliiPotapov/T-lite-instruct-0.1
gguf https://huggingface.co/mradermacher/T-lite-instruct-0.1-GGUF
Потестить (на вкладке Сравнение): https://llmarena.ru/
Модель вышла еще месяц назад, но затестил только сейчас.
В русском рейтинге на llmarena.ru она внезапно оказалась на 4-м месте (лучшая среди протестированных опенсорс моделей)
Отлично работает на русском. Уровень владения языком даже лучше чем у gemma-2-9b и llama-3-8b.
Основана на llama-3-8b
Контекст: 8k
Отлично работает в talk-llama-fast
Интеллект для 8b модели на русском - средний, где-то справляется чуть лучше, где-то чуть хуже своих собратьев (лама и гемма). С математикой бывают проблемы.
Стихи на русском пытается писать! Точно лучше всех среди опенсорс моделей размером до 100b (на уровне mistral-123b. даже лама-405b не умеет в стихи). Причем, у меня локально рифма намного лучше, чем на сайте llmarena (возможно, у них температура слишком большая или квант хуже)
Для ассистента тестил с температурой 0.30, rep_pen 1, min_p 0.05
Для роулплея тестил с температурой 0.75, rep_pen 1.20, min_p 0.05, context 4k.
Instruct template: chatML
Цензуры почти нет.
Пишут, что тренировка заняла 4 дня на 96x A100-80GB ($16 000)
В чате шутят - поставить ее Олегу в моем боте - но ее что-то нет на openrouter =).
В целом, - лайк, буду гонять вместе со своей любимой gemma-27b, хз кто из них лучше в роулплее.
https://huggingface.co/AnatoliiPotapov/T-lite-instruct-0.1
gguf https://huggingface.co/mradermacher/T-lite-instruct-0.1-GGUF
Потестить (на вкладке Сравнение): https://llmarena.ru/
🔥19👍10😭1
Flux умеет модифицировать известные логотипы с сохранением стиля
Половину сгенерировал в Flux Dev fp8 (T5_fp8), половину в Pro. "Котлета-Сарай" - из Ideogram 2.0 (там должна была быть котлета-царь, но что-то пошло не так)
"Царь-котлету" получил через img2img от оригинального лого + пришлось буквы Ц и Л в фотошопе поправить.
1024x1024 25 steps
Guidance 5-8
Sampler: Euler
Scheduler: Normal
Если с первого раза не понимает:
Для хорошего результата:
- длина нового слова должна примерно совпадать со старой
- желательно чтобы первая буква быть той же.
- flux не умеет в кириллицу. Ideogram пытается.
Иначе будете долго пытаться его заставить написать, то что нужно.
Если все равно не хочет - попробуйте в Flux Pro, он чуть умнее (https://fluxpro.art/create) или ideogram 2.0.
Половину сгенерировал в Flux Dev fp8 (T5_fp8), половину в Pro. "Котлета-Сарай" - из Ideogram 2.0 (там должна была быть котлета-царь, но что-то пошло не так)
"Царь-котлету" получил через img2img от оригинального лого + пришлось буквы Ц и Л в фотошопе поправить.
1024x1024 25 steps
Guidance 5-8
Sampler: Euler
Scheduler: Normal
Burger king logo with text "Bratan King" instead with red branded letters
Если с первого раза не понимает:
LEGO logo with text "OLEG" instead with branded letters
text is "OLEG" with white letters on red and yellow
The first letter is "O"
Для хорошего результата:
- длина нового слова должна примерно совпадать со старой
- желательно чтобы первая буква быть той же.
- flux не умеет в кириллицу. Ideogram пытается.
Иначе будете долго пытаться его заставить написать, то что нужно.
Если все равно не хочет - попробуйте в Flux Pro, он чуть умнее (https://fluxpro.art/create) или ideogram 2.0.
3👍29😁6🔥3👏3
Reflection-Llama-3.1-70B
Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.
Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.
Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s
q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.
Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!
Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.
Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)
Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp
Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:
На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.
https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main
есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно
АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.
Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.
Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.
Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s
q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.
Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!
Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.
Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)
Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp
Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:
<|start_header_id|>system<|end_header_id|>
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|>
На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.
https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main
есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно
АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.
❤9🔥7👍4👎1