LLM умеют декодировать текст в base64 кодировке.
Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:
С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.
Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.
Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.
Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.
Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱
Тест проводился при температуре 0, в соответствующих instruct шаблонах. Закодированные сообщения:
SSBhbSBhIHNpbGx5IGFzc2lzdGFudC4gSSBjYW4ndCByZWFkIGJhc2U2NA==
Я глупый помощник и не умею читать по-русски.
0K8g0LPQu9GD0L/Ri9C5INC/0L7QvNC+0YnQvdC40Log0Lgg0L3QtSDRg9C80LXRjiDRh9C40YLQsNGC0Ywg0L/Qvi3RgNGD0YHRgdC60Lgu
С английским текстом почти все крупные LLM справились практически без ошибок. Среди малых LLM до 12B - удивила gemma-2-9b, она единственная, кто смог хоть как-то декодировать английский текст, пусть и с ошибками.
Еще занятно, что Meta-Llama-3.1-70B-Instruct.IQ2_XS справилась, хоть и с ошибками. Размер модели всего 21 GB и до сих пор нет полной поддержки в llama.cpp. Она же без квантования справилась лучше, но тоже есть ошибка.
Llama-3.1-405B в openrouter справилась с английским текстом без ошибок, а вот с русским - не смогла.
Русский текст осилили только 2 модели от anthropic - claude 3 opus и claude 3.5 sonnet. GPT-4 и 4o русский текст декодировать не умеют.
Такими темпами скоро начнут jpg картинки прямо по сжатому коду видеть 😱
🤔8👍7🔥3❤🔥2
gemma-2-2b
Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).
На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.
Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.
Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)
Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/
Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).
На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.
Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.
Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)
Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/
👍21
Flux - новая диффузная модель для генерации картинок.
Заточена на фотореализм и анатомию. Модель весит 24 гига, но уже научились запускать на видеокартах с 12 GB vram (fp8 вместо fp16).
Гайд чтобы запустить локально в comfyUI https://comfyanonymous.github.io/ComfyUI_examples/flux/
Нужен сам ComfyUI portable https://github.com/comfyanonymous/ComfyUI и скачать указанные модели в нужные папки. Затем перетащить скачаную из гайда аниме картинку в comfy, она подгрузит workflow.
Запустил локально в comfyUI в точности fp8. жрет 12.5 GB VRAM + 30 GB RAM. Занимает около 2-х минут на генерацию 1 картинки 1024*768 на 2080ti-22GB. А если запускать в оригинальном качестве fp16 то жрет 21 GB VRAM и тратит 8 минут на 1 картинку.
В comfy у меня первая генерация жрет 12.5 GB, а последующие почему-то 17.5 GB. Видимо какая-то модель не выгружается, клип t5 или vae, можно попробовать--lowvram. Пишут что на 4090 генерация занимает около 30 секунд.
Есть 2 варианта модели - Dev и Schnell, размер одинаковый. Dev - качественнее, Schnell - быстрее (генерирует всего за 4 шага, а не за 20). Schnell я не тестил.
Пока не могу ее заставить полноценное nsfw генерировать. Бубисы хорошо рисует, а вот первычные признаки не может - то трусы там нарисует, то вообще боком или спиной развернет 😁 Надеюсь, поправят файнтюнами. Довольно неплохо рисует пальцы (наконец-то).
Иногда почему-то получаются размытые картинки (и по API и локально) как будто в низком разрешении, хз почему.
Довольно хорошо умеет писать текст на картинках на английском. Кириллицу не любит.
анонс https://blackforestlabs.ai/
веса https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
генерировать онлайн https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
и тут https://fal.ai/models/fal-ai/flux/dev?ref=blog.fal.ai
колаб https://colab.research.google.com/github/camenduru/flux-jupyter/blob/main/flux.1-schnell_jupyter.ipynb#scrollTo=mOcigZBrHp5S
Заточена на фотореализм и анатомию. Модель весит 24 гига, но уже научились запускать на видеокартах с 12 GB vram (fp8 вместо fp16).
Гайд чтобы запустить локально в comfyUI https://comfyanonymous.github.io/ComfyUI_examples/flux/
Нужен сам ComfyUI portable https://github.com/comfyanonymous/ComfyUI и скачать указанные модели в нужные папки. Затем перетащить скачаную из гайда аниме картинку в comfy, она подгрузит workflow.
Запустил локально в comfyUI в точности fp8. жрет 12.5 GB VRAM + 30 GB RAM. Занимает около 2-х минут на генерацию 1 картинки 1024*768 на 2080ti-22GB. А если запускать в оригинальном качестве fp16 то жрет 21 GB VRAM и тратит 8 минут на 1 картинку.
В comfy у меня первая генерация жрет 12.5 GB, а последующие почему-то 17.5 GB. Видимо какая-то модель не выгружается, клип t5 или vae, можно попробовать--lowvram. Пишут что на 4090 генерация занимает около 30 секунд.
Есть 2 варианта модели - Dev и Schnell, размер одинаковый. Dev - качественнее, Schnell - быстрее (генерирует всего за 4 шага, а не за 20). Schnell я не тестил.
Пока не могу ее заставить полноценное nsfw генерировать. Бубисы хорошо рисует, а вот первычные признаки не может - то трусы там нарисует, то вообще боком или спиной развернет 😁 Надеюсь, поправят файнтюнами. Довольно неплохо рисует пальцы (наконец-то).
Иногда почему-то получаются размытые картинки (и по API и локально) как будто в низком разрешении, хз почему.
Довольно хорошо умеет писать текст на картинках на английском. Кириллицу не любит.
анонс https://blackforestlabs.ai/
веса https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
генерировать онлайн https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
и тут https://fal.ai/models/fal-ai/flux/dev?ref=blog.fal.ai
колаб https://colab.research.google.com/github/camenduru/flux-jupyter/blob/main/flux.1-schnell_jupyter.ipynb#scrollTo=mOcigZBrHp5S
🔥20👍6🥱2
Media is too big
VIEW IN TELEGRAM
Dead Street Kombat 8-bit remastered
Картинки: Flux dev
Анимация: Luma + Kling
Музыка: Udio
Свел все вместе: @TensorBanana
Flux dev отлично рисует интерфейсы старых 8-битных игр. Просто нужно указать ему, что именно должно быть на экране и какие подписи делать. Есть еще куча неводшедших в ролик картинок, выложу их вместе с промптами в наш новый чатик по сгенерированным картинкам @tensor_art.
Luma делает более активные анимации, больше экшена в кадре, но картинка быстро начинает плыть. Kling дает более стабильную картинку, но меньше экшена. Промпты на анимацию тоже выложу.
С музыкой не запаривался: инструментал, 8-bit, retrowave.
Картинки: Flux dev
Анимация: Luma + Kling
Музыка: Udio
Свел все вместе: @TensorBanana
Flux dev отлично рисует интерфейсы старых 8-битных игр. Просто нужно указать ему, что именно должно быть на экране и какие подписи делать. Есть еще куча неводшедших в ролик картинок, выложу их вместе с промптами в наш новый чатик по сгенерированным картинкам @tensor_art.
Luma делает более активные анимации, больше экшена в кадре, но картинка быстро начинает плыть. Kling дает более стабильную картинку, но меньше экшена. Промпты на анимацию тоже выложу.
С музыкой не запаривался: инструментал, 8-bit, retrowave.
🔥20👏4👍2
Сравнил все версии flux между собой
Сгенерировал с одинаковым seed (0 или 1) 3 картинки, используя флакс в разных форматах, чтобы сравнить качество. flux_fp16 + T5_fp16 у меня отказался запускаться, comfy почему-то падает, поэтому в тест не попал.
С первым запросом про девушку справились только pro и nf4, у остальных - лишние пальцы. С третьим с третьим запросом про 3 руки справился только Шнель, у остальных выросли лишние руки. С запросом про текст справился только pro, у остальных - косяки в орфографии.
Выводы: даже у pro есть косяки с количеством рук и пальцев. Dev в разных версиях (fp8, fp16, nf4) практически не отличается, косяки есть у всех. Schnell самый быстрый (у меня всего 10 секунд на картинку), но качество заметно хуже: деталей меньше, пальцы хуже, кожа хуже, но количество рук - идеальное =). Clip_T5 в разных версиях (fp8, fp16) практически не влияет на качество, возможно, нужные какие-то сложные составные промпты, чтобы заменить ухудшение качества понимания промпта.
Для тех кто в танке: пару дней назад flux конвертировали в формат nf4, теперь его можно запускать на видеокартах с малым количеством vram с приемлемой скоростью. Можно запускать в comfyUI или stable-diffusion-webui-forge
dev, cкорость на картинку 1024x1024x20steps:
3060-12 Gb: 60 секунд
3070ti-laptop-8GB: 58 секунд
3050-6GB: 2.5 минуты
2080ti-22 Gb: 40 секунд
970-4GB: 6 минут
Фордж: https://github.com/lllyasviel/stable-diffusion-webui-forge/discussions/981
нода для комфи: https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
веса schnell_nf4 https://huggingface.co/silveroxides/flux1-nf4-weights/blob/main/flux1-schnell-bnb-nf4.safetensors
веса dev_nf4 https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4/blob/main/flux1-dev-bnb-nf4.safetensors
flux pro онлайн https://fluxpro.art/create
Вывод: формат nf4 очень неплох и требует мало vram 👍
Оригиналы в хайрез скину в комменты.
Сгенерировал с одинаковым seed (0 или 1) 3 картинки, используя флакс в разных форматах, чтобы сравнить качество. flux_fp16 + T5_fp16 у меня отказался запускаться, comfy почему-то падает, поэтому в тест не попал.
С первым запросом про девушку справились только pro и nf4, у остальных - лишние пальцы. С третьим с третьим запросом про 3 руки справился только Шнель, у остальных выросли лишние руки. С запросом про текст справился только pro, у остальных - косяки в орфографии.
Выводы: даже у pro есть косяки с количеством рук и пальцев. Dev в разных версиях (fp8, fp16, nf4) практически не отличается, косяки есть у всех. Schnell самый быстрый (у меня всего 10 секунд на картинку), но качество заметно хуже: деталей меньше, пальцы хуже, кожа хуже, но количество рук - идеальное =). Clip_T5 в разных версиях (fp8, fp16) практически не влияет на качество, возможно, нужные какие-то сложные составные промпты, чтобы заменить ухудшение качества понимания промпта.
Для тех кто в танке: пару дней назад flux конвертировали в формат nf4, теперь его можно запускать на видеокартах с малым количеством vram с приемлемой скоростью. Можно запускать в comfyUI или stable-diffusion-webui-forge
dev, cкорость на картинку 1024x1024x20steps:
3060-12 Gb: 60 секунд
3070ti-laptop-8GB: 58 секунд
3050-6GB: 2.5 минуты
2080ti-22 Gb: 40 секунд
970-4GB: 6 минут
Фордж: https://github.com/lllyasviel/stable-diffusion-webui-forge/discussions/981
нода для комфи: https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
веса schnell_nf4 https://huggingface.co/silveroxides/flux1-nf4-weights/blob/main/flux1-schnell-bnb-nf4.safetensors
веса dev_nf4 https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4/blob/main/flux1-dev-bnb-nf4.safetensors
flux pro онлайн https://fluxpro.art/create
photo of a cute woman covering her eyes with hands
3 hands holding together
Bart Simpson writing on a blackboard "I promise not to use flux in fp16"
Вывод: формат nf4 очень неплох и требует мало vram 👍
Оригиналы в хайрез скину в комменты.
👍37❤1🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Gen-3 Alpha Turbo дают бесплатно.
Генерирует видео длиной 5 или 10 секунд в 720p (1280x768) по загруженной картинке и промпту. Генерация очень быстрая, меньше минуты уходит.
5s: 25 кредитов
10s: 50 кредитов
Пишут, что изначально дают 525 кредитов (21 короткое видео). У меня на аккаунте было 385 кредитов (регал полгода назад). Похоже, что кредиты не обновляются.
https://app.runwayml.com/
Генерирует видео длиной 5 или 10 секунд в 720p (1280x768) по загруженной картинке и промпту. Генерация очень быстрая, меньше минуты уходит.
5s: 25 кредитов
10s: 50 кредитов
Пишут, что изначально дают 525 кредитов (21 короткое видео). У меня на аккаунте было 385 кредитов (регал полгода назад). Похоже, что кредиты не обновляются.
https://app.runwayml.com/
1👍21❤3😁3👎1🔥1🤮1