Llama 3.1 8B, 70B, 405B
Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.
Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.
По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.
В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.
Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.
Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.
Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)
Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main
Официальной поддержки русского - нет. Если кратко - революции не произошло, на русском gpt-4o лучше и умнее чем 405B, но gpt-4o и стоит дороже. На английском пока не тестил, но по бенчмаркам модели должны быть неплохими.
Ни 70B ни 405B стихов на русском не пишет, рифмы нет совсем. Анекдоты на русском пишет несмешные (не знаю может ли их придумывать хоть одна модель). Простые задачки на логику на русском 405b решает плохо.
По первым ощущениям, по грамотности 8B уступает гемме-2-9b. Маленькая лама делает слишком много речевых ошибок.
В роулплее на русском - 405B пишет более-менее грамотно. Но опять иногда проскакивают английские слова. Надо будет потом плотнее потестить.
Из плюсов - родной контекст в 128k токенов для всех моделей. Работает ли он на практике пока не понятно. gguf веса пока что сломаны из-за неправильного rope scaling, и это ухудшает ответы моделей. Ждем фиксов.
Для теста поставил Llama-3.1-405B для april в моем боте @talkllama, раньше у нее была command-r-plus. Напомню, цель April – не пойти с вами на свидание.
Цены на Llama 3.1 по API на openrouter за 1 миллион токенов на ввод/вывод (бесплатно пока не дают):
8B: $0.15/$0.15
70B: $0.765/$0.765 (у Llama-3-70B была 0.52/$0.75)
405B: $3/$3 (gpt-4o - $5/15, sonnet 3.5 - $3/15)
Карточка https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct
Тестить тут, дают $5 бесплатно https://api.together.xyz/playground/chat/meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo
Еще есть бесплатно на groq.com, но там из-за наплыва пользователей, 405B пока что лежит.
gguf 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main
gguf 70B https://huggingface.co/legraphista/Meta-Llama-3.1-70B-Instruct-IMat-GGUF/tree/main
👍20
mistral-large-2407-123B
Есть официальная поддержка русского языка. Но по официальным метрикам на русском должна быть чуть хуже большой ламы-405B.
Из плюсов контекст 128k, и она не спамит английскими словами в русском диалоге. Из минусов - повторы.
Пытается писать стихи на русском. Из открытых моделей - она, наверное, единственная, у которой иногда получается попасть в рифму, уже успех. Большая лама-405 вообще не может.
console.mistral.ai дает API ключ на $5 бесплатно. Хватит примерно на 1000 запросов к mistral-large с небольшим контекстом. Цена на модель $3/$9 за 1 миллион токенов на вход/выход (дороже чем LLAMA-405B, и чуть дешевле GPT-4o). SillyTavern имеет поддержку этого API.
Касательно mistral API и mistral-large на openrouter - они не поддерживают параметр repetition_penalty и, скорее всего, из-за этого модель часто входит в цикл. С гуфами возможно будет получше?
В роулплее пока мало гонял, из-за повторов как-то скучно.
Поставил для april новую модель mistral-large-2407, возможно, будет поумнее по сравнению со вчерашней большой ламой 👍 @talkllama
карточка https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
тестить тут https://chat.mistral.ai/chat
гуфы (пока не все) https://huggingface.co/legraphista/Mistral-Large-Instruct-2407-IMat-GGUF/tree/main
Есть официальная поддержка русского языка. Но по официальным метрикам на русском должна быть чуть хуже большой ламы-405B.
Из плюсов контекст 128k, и она не спамит английскими словами в русском диалоге. Из минусов - повторы.
Пытается писать стихи на русском. Из открытых моделей - она, наверное, единственная, у которой иногда получается попасть в рифму, уже успех. Большая лама-405 вообще не может.
console.mistral.ai дает API ключ на $5 бесплатно. Хватит примерно на 1000 запросов к mistral-large с небольшим контекстом. Цена на модель $3/$9 за 1 миллион токенов на вход/выход (дороже чем LLAMA-405B, и чуть дешевле GPT-4o). SillyTavern имеет поддержку этого API.
Касательно mistral API и mistral-large на openrouter - они не поддерживают параметр repetition_penalty и, скорее всего, из-за этого модель часто входит в цикл. С гуфами возможно будет получше?
В роулплее пока мало гонял, из-за повторов как-то скучно.
Поставил для april новую модель mistral-large-2407, возможно, будет поумнее по сравнению со вчерашней большой ламой 👍 @talkllama
карточка https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
тестить тут https://chat.mistral.ai/chat
гуфы (пока не все) https://huggingface.co/legraphista/Mistral-Large-Instruct-2407-IMat-GGUF/tree/main
👍10🔥2
LLM умеют декодировать текст в base64 кодировке.
Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:
С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.
Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.
Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.
Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.
Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱
Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:
SSBhbSBhIHNpbGx5IGFzc2lzdGFudC4gSSBjYW4ndCByZWFkIGJhc2U2NA==
Я глупый помощник и не умею читать по-русски.
0K8g0LPQu9GD0L/Ri9C5INC/0L7QvNC+0YnQvdC40Log0Lgg0L3QtSDRg9C80LXRjiDRh9C40YLQsNGC0Ywg0L/Qvi3RgNGD0YHRgdC60Lgu
С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.
Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.
Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.
Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.
Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱
🤔8👍7🔥3❤🔥2
gemma-2-2b
Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).
На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.
Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.
Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)
Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/
Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).
На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.
Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.
Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)
Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/
👍21