Tensor Banana

mistral-large-2407-123B

Есть официальная поддержка русского языка. Но по официальным метрикам на русском должна быть чуть хуже большой ламы-405B.

Из плюсов контекст 128k, и она не спамит английскими словами в русском диалоге. Из минусов - повторы.

Пытается писать стихи на русском. Из открытых моделей - она, наверное, единственная, у которой иногда получается попасть в рифму, уже успех. Большая лама-405 вообще не может.

console.mistral.ai дает API ключ на $5 бесплатно. Хватит примерно на 1000 запросов к mistral-large с небольшим контекстом. Цена на модель $3/$9 за 1 миллион токенов на вход/выход (дороже чем LLAMA-405B, и чуть дешевле GPT-4o). SillyTavern имеет поддержку этого API.

Касательно mistral API и mistral-large на openrouter - они не поддерживают параметр repetition_penalty и, скорее всего, из-за этого модель часто входит в цикл. С гуфами возможно будет получше?

В роулплее пока мало гонял, из-за повторов как-то скучно.

Поставил для april новую модель mistral-large-2407, возможно, будет поумнее по сравнению со вчерашней большой ламой 👍 @talkllama

карточка https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
тестить тут https://chat.mistral.ai/chat
гуфы (пока не все) https://huggingface.co/legraphista/Mistral-Large-Instruct-2407-IMat-GGUF/tree/main

👍10🔥2

1.73K views20:17

Tensor Banana

LLM умеют декодировать текст в base64 кодировке.

Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:

SSBhbSBhIHNpbGx5IGFzc2lzdGFudC4gSSBjYW4ndCByZWFkIGJhc2U2NA==
Я глупый помощник и не умею читать по-русски.
0K8g0LPQu9GD0L/Ri9C5INC/0L7QvNC+0YnQvdC40Log0Lgg0L3QtSDRg9C80LXRjiDRh9C40YLQsNGC0Ywg0L/Qvi3RgNGD0YHRgdC60Lgu

С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.

Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.

Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.

Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.

Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱

🤔8👍7🔥3❤‍🔥2

2.02K views11:51

Tensor Banana

gemma-2-2b

Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).

На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.

Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.

Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)

Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/

👍21

1.94K views11:40

Tensor Banana

Flux - новая диффузная модель для генерации картинок.

Заточена на фотореализм и анатомию. Модель весит 24 гига, но уже научились запускать на видеокартах с 12 GB vram (fp8 вместо fp16).

Гайд чтобы запустить локально в comfyUI https://comfyanonymous.github.io/ComfyUI_examples/flux/
Нужен сам ComfyUI portable https://github.com/comfyanonymous/ComfyUI и скачать указанные модели в нужные папки. Затем перетащить скачаную из гайда аниме картинку в comfy, она подгрузит workflow.

Запустил локально в comfyUI в точности fp8. жрет 12.5 GB VRAM + 30 GB RAM. Занимает около 2-х минут на генерацию 1 картинки 1024*768 на 2080ti-22GB. А если запускать в оригинальном качестве fp16 то жрет 21 GB VRAM и тратит 8 минут на 1 картинку.

В comfy у меня первая генерация жрет 12.5 GB, а последующие почему-то 17.5 GB. Видимо какая-то модель не выгружается, клип t5 или vae, можно попробовать--lowvram. Пишут что на 4090 генерация занимает около 30 секунд.

Есть 2 варианта модели - Dev и Schnell, размер одинаковый. Dev - качественнее, Schnell - быстрее (генерирует всего за 4 шага, а не за 20). Schnell я не тестил.

Пока не могу ее заставить полноценное nsfw генерировать. Бубисы хорошо рисует, а вот первычные признаки не может - то трусы там нарисует, то вообще боком или спиной развернет 😁 Надеюсь, поправят файнтюнами. Довольно неплохо рисует пальцы (наконец-то).

Иногда почему-то получаются размытые картинки (и по API и локально) как будто в низком разрешении, хз почему.

Довольно хорошо умеет писать текст на картинках на английском. Кириллицу не любит.

анонс https://blackforestlabs.ai/
веса https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
генерировать онлайн https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
и тут https://fal.ai/models/fal-ai/flux/dev?ref=blog.fal.ai
колаб https://colab.research.google.com/github/camenduru/flux-jupyter/blob/main/flux.1-schnell_jupyter.ipynb#scrollTo=mOcigZBrHp5S

🔥20👍6🥱2

12.2K views12:55

About

Blog

Apps

Platform