Tensor Banana
2.64K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Media is too big
VIEW IN TELEGRAM
Расширенный голосовой режим в приложении ChatGPT дали бесплатным юзерам.

Может менять голос прямо на ходу, если хорошо попросить (иногда отказывается). Пьяного человека и таксиста из Армении отказалась изображать 😄. Доступно 9 голосов. Бесплатно дают 15 минут в месяц. (Платным подписчикам дают 15-60 минут в день).

Чтобы установить приложение в вашем гугл аккаунте должна стоять не Россия (у меня стоят Нидерланды). Для работы приложения нужен в-п-н (у меня Великобритания).
👍15🔥5😁4🤬1
Бесплатные LLM по API

groq.com
Дают бесплатно llama-3.1-70b - 14400 запросов в день (0.5M токенов в день). Нужен ВПН.
Иногда лежит под нагрузкой, но в целом, довольно стабилен. Часть персонажей в моем боте сидит на нем.
Есть поддержка в SillyTavern.
лимиты https://console.groq.com/settings/limits

cohere.com
Для регистрации нужна google почта. Дают бесплатно 1000 запросов в месяц, боту хватает на несколько дней.
Есть поддержка в SillyTavern.

openrouter.ai
Есть большой выбор бесплатных моделей. Дают 200 бесплатных запросов в час (для больших меделй - меньше, что-то около 10 в час), если кончились - можно просто сменить модель.
Есть поддержка в SillyTavern.
модели https://openrouter.ai/models/?q=free
Если нужно платно - из РФ можно оплачивать криптой практически без комиссии (для оплаты нужен впн). Нужна крипта MATIC в сети Polygon ($0.27 комиссия), или Ethereum ($22.00 комиссия). Поддержка Matic есть в кошельке Trust wallet. Matic можно купить на биржах или на bestchange.

sambanova.ai
Дают Llama-3.1-405B-bf16 - бесплатно 10 запросов в минуту. Поставил персонажу Братан для теста.
Пока нет в SillyTavern

Mistral.ai
API не поддерживает repetition penalty, frequency penalty и min_p (из-за этого в РП любит повторяться).
Есть поддержка в SillyTavern

github.com/marketplace
Регистрация через лист ожидания (я ждал несколько недель). Лимиты довольно маленькие, не так интересно.
Дают gpt4o по API бесплатно (50 запросов в день), это, наверное, единственный такой сервис.
Пока нет в SillyTavern

together.ai
Дают разово $5 на запросы + дают бесплатную Llama Vision 11B (пишут, что есть лимиты, но какие не говорят, не тестил) и FLUX.1 [schnell] (10 картинок в минуту, не тестил)
Есть Llama-405b-turbo (видимо квантованная), llama-3.1-70b-turbo и россыпь устаревших моделей. 5 баксов хватит примерно на 350 запросов к 405b или 1400 запросов к 70b с 4k контекста.
А вот бесплатный FLUX.1 [schnell] надо бы потестить.
Есть поддержка в SillyTavern
Модели https://docs.together.ai/docs/inference-models
лимиты https://docs.together.ai/docs/rate-limits

ai21.com
Jamba-1.5-Large-398B хоть и большая, но на русском языке общается так себе. API не тестил. Дают разово $10.

nvidia build
модели https://build.nvidia.com/explore/reasoning
Дают разово 1000 кредитов (1000 запросов). Можно погонять llama-3.2-90b-vision
Пока нет в SillyTavern

cerebras.ai
жду в листе ожидания. Обещают бесплатно 1M токенов в день для 70b


Тестить все это удобно в sillyTavern, там реализовано большинство этих АПИ.
1👍38🔥6🫡3🌭1
Занятные факты из пейпера про Movie Gen, модели для генерации видео от Meta.

- Один из соавторов - наш соотечественник, Артем из соседнего канала ai_newz . В Мета он - Staff AI Research Scientist (ведущий научный сотрудник) в Швейцарии. Руководил работой по ускорению работы модели.

- Тренировка производилась на 6144 H100 GPU (каждая по 80 GB). Сколько часов - не пишут. Для сравнения, обучение трех llama3.1 заняло ~40M GPU часов. Всего у Meta ~600 000 H100.

- Обучающий датасет: 100 миллионов видеоклипов (4-16s) + 1 миллиард картинок. Для сравнения, у CogVideoX - 20 тысяч видео, а у SD3 - 1 миллиард картинок.

- 30B модель умеет создавать видео по тексту, а также картинки по тексту.

- В их сравнении по общему качеству видео Movie Gen обходит Sora на +8%, а Runway Gen3 на +35% (процент побед).

- В их ELO сравнении картинки от Movie Gen обходят Flux, Ideogram и Dalle-3.

- Изначально видео генерируется в разрешении 768x768, а затем хитро апскейлится до 1080p латентной диффузией (как в SD или flux)

- На выходе видео длиной 11s-24fps или 16s-16fps и еще несколько других комбинаций поменьше.

- 13B модель умеет генерировать звуковые эффекты и фоновую музыку для видео. Видео и текст подаются на вход. К слову, у Мета уже была модель AudioBox, которую не стали выкладывать в паблик.

- Есть еще несколько файнтюнов для video2video и face2video. Будем в инсте генерировать видосы со своим лицом. В паблик веса такой модели вряд ли выложат, слишком большие репутационные риски.

- Для улучшения текстового промпта используется особый файнтюн llama-3-8b, который превращает ваш короткий промпт в развернутое описание.

- 30B основана на архитектуре Transformer, как llama. Для сравнения, CogVideoX и Flux основаны на Diffusion Transformer (DiT).

- 30B влезает в 2x H100 (суммарно 160GB). Для сравнения, Stable-video-diffusion была размером всего 2.2B и весила 10 гигов. А llama-3.1-70b-fp16 весит 140 GB. Если Movie Gen квантануть в q4, то будет гигов 50. В теории, даже может влезть в 2x 3090. Для сравнения, CogVideoX-5B-int8 жрет от 4.4 GB vram.

- 121 видео ролик с генерациями https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8

- Сам пейпер https://ai.meta.com/static-resource/movie-gen-research-paper

- Пишут, что инференс пока что дорогой (хз, лама-70 же существует), релизить как продукт или выкладывать веса пока не планируют (но уже файнтюнят потенциальные риски). Кто знает, зачем-то они выпустили пейпер со всеми тех. деталями.

- Марк Цукерберг обещает встроить Movie Gen в инсту в следующем году. Мое предположение, что уже сейчас идет обучение более большой видео модели, а эти 2 выложат в паблик.

- Помимо Movie Gen, Артём вёл и тренировал проект Imagine Flash - мгновенная генерация картинок, встроенная в WhatsApp.

- Важно и круто следить за новостями из первых рук и читать бумаги (или обзоры на них), а не просто читать новости. Чтобы действительно разбираться в теме, подпишись на канал Артема @ai_newz
👍20🔥10👏1
Степень деградации LLM в зависимости от кванта

Взял свежую Ministral-8B-Instruct-2410 в разных квантах от q8 до q2 и сравнил на количество языковых/логических ошибок в двух задачах.
Тестил в llama.cpp. Там еще нет полной поддержки, пишут, что работает хорошо только до контекста 2048.

Сочинение историй

Я специально задрал температуру до 1.0 чтобы выявить проблемы с умением использовать русский язык. При низкой температуре (0.30) будет меньше ошибок, но язык будет скучным. Тот факт, что локальная LLM вообще пишет связный текст на русском с такой температурой заслуживает одобрения, раньше они такого не могли. Ministral горячо рекомендую затестить (в talk-llama-fast вроде работает).

Напиши пост в телеграме про скуфов в офисе в личном блоге от лица девушки-альтушки. Ещё добавь про борьбу с квадроберами и хоббихорсерами. В конце расскажи про трансформеров.
Обязательно используй мат, эмодзи и современный молодежный сленг (слова: бля, хз, нах, огонь, норм). Начни со слова Пипец.

Настройки: temp: 1.00, min_p: 0.02, rep_pen: 1.10, mistral preset

Начиная с Q4 и ниже грудус бреда начал зашкаливать. Q3 и Q2 вообще слетели с катушек.

Все LLM, которые я затестил, не в курсе кто такие скуфы и квадроберы, поэтому им приходится выдумывать. gpt-4o думает, что квадроберы ездят на квадроциклах =)
Невошедшие примеры от других LLM скину в комменты (sonnet, gpt4o и несколько локальных).


Логика и следование инструкциям
Сколько букв "с" в слове "ассистентский"? Сперва выпиши все буквы в нумерованный список, а потом посчитай, обязательно выписав порядковый номер нужных букв. В конце прогавкай столько же раз.

Настройки: temp: 0.10, min_p: 0.00, rep_pen: 1.00, mistral preset

Q8 - Q4 - хорошо, q3 и q2 либо отказываются следовать инструкциям, либо допускают ошибки.

С некоторыми сложными словами не справляется даже q8, нужна моделька побольше и поумнее.

Картинки в SillyTavern мне рисует flux Schnell по API от together ai. Бесплатно дают 6 запросов в минуту. Нужен "SillyTavern, ветка staging".


Выводы: Отличий между q8 и q6 минимум. q5 - почти приемлимо. q4 - на любителя. Я еще кванты T-lite-8b также сравнивал, он стихи пытался писать с рифмой вплоть до q4.

гуфы https://huggingface.co/bartowski/Ministral-8B-Instruct-2410-HF-GGUF-TEST/tree/main
👍19🔥11😁32
Запускаем SD 3.5 Large fp8 в comfyUI


Модель в формате fp8 должна влезть в 8GB VRAM. Если у вас меньше - попробуйте варианты в формате gguf, они есть и на 4 гига, но качество будет хуже.

1. Качаем свежий comfyUI https://github.com/comfyanonymous/ComfyUI или обновляем ваш старый (update_comfyui_stable.bat)

2. Качаем 3 клипа (все кроме t5xxl_fp16.safetensors) и кладем в папку /models/clip/: https://huggingface.co/lodestones/stable-diffusion-3-medium/tree/main/text_encoders

3. Скачать саму sd3 в fp8 или gguf формате, пишут, что скорость почти одинаковая. Дефолтная модель в fp16 весит слишком много (16 GB), поэтому я использовал fp8, положил в папку /models/checkpoints/. Гуфы надо класть в папку /models/unet/

fp8 (8GB) https://huggingface.co/matt3ounstable/stable-diffusion-3.5-large-fp8/tree/main
или gguf (4-8 GB) https://huggingface.co/city96/stable-diffusion-3.5-large-gguf/tree/main
(для гуфов нужно установить ноды: "ComfyUI-GGUF", они есть в ComfyUI-Manager. Далее для загрузки модели ипользовать ноду "Unet loader (GGUF)")

4. Качаем vae и кладем в /models/vae/ https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/vae/diffusion_pytorch_model.safetensors

5. Качаем workflow (картинку) для fp8 и перетаскиваем в браузер в ComfyUI https://github.com/Mozer/comfy_stuff/blob/main/workflows/sd35_large_fp8.png
для гуфов workflow сами измените ноду LoadCheckpoint на Unet loader (GGUF).

6. Проверяем, что нужные модельки выставлены в TripleCLIPLoader, LoadCheckpoint и LoadVAE. Готово.

## Скорость
SD3.5 large FP8:
На 2080Ti-22GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 75s
1024x1024 20 steps - 42s, 1.61s/it
жрет vram - 21 GB

На 3060-12GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 91s
1024x1024 20 steps - 75s, 3.20s/it
жрет vram - 11 GB

Скорость Flux-dev-fp8 у меня чуть-чуть медленнее (2080ti, 1024x1024 20 steps - 45s, 1.94s/it)

Если в SD3.5 не менять промпт, и vae вынести на вторую видюху, то полное время на генерацию будет 35s.

SD-3.5-Large-8b тренилась на разрешении до 1 мегапикселя, так что ставить разрешение больше чем 1024х1024 не стоит - будет ухудшение качества. (Flux работает до 2-х мегапикселей). Модель поменьше, SD-3.5-Medium-2.5B, обещают выпустить уже 29 декабря, и в ней обещают разрешение до 2 mpx. Еще есть Large-Turbo модель, генерирует всего за 4 шага, но качество будет хуже, ее не тестил.

Общее впечатление: flux лучше. Он реалистичнее, анатомия лучше, разрешение больше, следование промпту лучше. А тут результат напоминает SDXL. Но, наверняка, для SD3 будут свои файнтюны и лоры, которые улучшат ситуацию и добавят что-то новое, например flux очень дорого файнтюнить (lora - дешево). Текст пишет, но в мелком тексте будут неточности. Пишут, что sd3 лучше чем flux следует заданному художественному стилю. Сам не тестил.

Nsfw - умеет, верх - норм (лучше чем у флакса из коробки), низ - без деталей (+- как у флакса из коробки). Для реализма нужно снизить cfg например до 3.0.

Затестить онлайн https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
👍19
flux lite 8B - 33 секунды на 3060

Разрабы убрали несколько слоев из середины модели и сократили число параметров с 12b до 8b, сократился и размер с 22 GB до 15 GB(fp16) и всего 7.6 GB в fp8. В теории, должна влезть в 8 GB VRAM. Затестил на своих 12 и 22 GB. Если у кого есть 8 GB - напишите скорость комментах.

Пишут, что flux lite чуть хуже рисует текст и хуже работает с Лорами. 8 шаговая лора hyper-flux работет, почти также как и в dev (хотя comfy пишет, что есть некоторые ошибки загрузки лоры).

Разрабы Lite рекомендуют ставить guidance_scale 3.5 и число шагов 22-30.

Затестил lite в форматах fp16, fp8 и Q4_0.

2080ti-22GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8: 16 GB, 1.99s/it, 46s

lite_fp16 17 GB, 1.58s/it, 40s
lite_fp8 15 GB, 1.57s/it, 37s
lite_q4 13 GB, 1.83s/it, 43s

dev_fp8_8st_lora 17 GB, 1.88s/it, 25s
lite_q4+8st_lora 13 GB, 2.50s/it, 20s
lite_fp8_8st_lora 15 GB, 1.51s/it, 15s


3060-12GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8 11 GB, 4.36s/it, 109s

lite_fp8 9 GB, 3.04s/it, 75s
lite_q4 10 GB, 3.52s/it, 81s

lite_q4_8st_lora 10 GB, 4.61s/it, 40s
lite_fp8_8st_lora 10 GB, 2.87s/it, 33s


close-up photo of a face of a young french woman fully covered with artistic paint. Left part of is fully covered with black paint and right part is fully white.   There is red text "Tensor" on her right forehead on white background. There is red text "Banana" on her right cheek under her eye on white background. Her neck is also covered in black paint. Lips are bright red. Background is dark, there's low light in photo


Сиды у картинок разные, выбирал самые хорошие. У hyper flux 8 step lora сила 0.125. Хайрез картинку скину в комменты.

Явного различия в качестве flux-dev-fp8 против flux-lite-fp8 пока не заметил. в lite-q4 кожа попроще, но я от него и не ждал чуда, текст пишет, но в довольно простом стиле.

С 8 шаговой Hyper лорой, конечно, все быстрее, но кожа становится чуть пластиковой, текст попроще. Но она все еще намного лучше чем schnell. У schnell самая пластиковая кожа и отсутствие мелких деталей.

Заодно затестил свежий PixelWave (один из первых полноцененных файнтюнов flux, 5 недель тренировки на 4090, 3000 изображений). А также SD3.5 Large и Medium.

PixelWave fp8 приятно удивил реалистичностью. Но с 8-step-lora работает хуже (малая насыщенность). PixelWave_fp8 по скорости такой же как dev_fp8.

SD3.5-large-8b неплохо отрабовал, но кожа пластиковая. SD3.5-medium-2.6b попытался, но не смог (проблемы с соблюдением всех условий, проблемы с текстом).

Файлов Lite в fp8 и nf4 пока нет, есть автоматическая конвертация в fp8 в комфи (в ноде Load Diffusion Model выбрать weight_dtype fp8_e4m3fn_fast).


flux lite fp16(16 GB): https://huggingface.co/Freepik/flux.1-lite-8B-alpha/tree/main
flux lite gguf(4-9 GB): https://huggingface.co/city96/flux.1-lite-8B-alpha-gguf/tree/main

hyper flux 8 step lora: https://huggingface.co/ByteDance/Hyper-SD
flux pixelwave: https://huggingface.co/mikeyandfriends/PixelWave_FLUX.1-dev_03/tree/main
🔥21👍16
Channel photo updated