Tensor Banana
2.65K subscribers
523 photos
125 videos
112 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Stable Diffusion 3 medium

Впечатления смешанные - людей не любит рисовать. Аниме тоже хромает.

Цензура съела всех людей, даже одетых. Без одежды тоже может, но плохо.

Текст рисовать умеет, но плохо, часто пропускает буквы (dalle 3 делает это лучше).

sd3 натренирован на обычном тексте (а не словах через запятую), поэтому все ваши старые промпты теперь будут работать хуже. Надо их переписывать на обычный текст.

Скорость: 1 картинка 1024*1024 28 шагов у меня на 3060 генерируется в комфи за 37 s. Если нужно большее разрешение, то еще есть Refiner.

VRAM: сперва жрет 8.8 GB (скорее всего из-за clip), затем VRAM падает 4.8 (непосредственно генерация SD3). Можно и без clip работать, но, говорят, результат будет хуже.

Чтобы запустить в комфи нужно скачать sd3_medium.safetensors + 3 модели с clip, clip положить в папку clip в comfy (или качать один большой чекпоинт sd3 на 10 гигов со встроенным clip)

Веса SD3: https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main
comfyUI свежий: https://github.com/comfyanonymous/ComfyUI
воркфлоу basic для comfy: https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main/comfy_example_workflows
👍21😁2
Анимировал для вас несколько мемов в LUMA.

Бесплатно дают 10 генераций в день, не более 30 генераций в месяц. В вечерние часы пик - большая нагрузка. Можно прождать больше часа, пока ролик будет готов, утром - побыстрее. Для регистрации/входа нужен гугл аккаунт.
Промпты использовал довольно простые, что-то типа "sad man sitting on a bench eating something".
Последний ролик - анимировал несколько своих старых генераций из SDXL.

Генерировать тут: https://lumalabs.ai/
👍313😁3🥴2❤‍🔥1🔥1🤮1💊1
Вышел новый claude-3.5-sonnet

По метрикам опережает GPT-4o и Claude 3 Opus. Новые 3.5 версии Опуса и Хайку обещают выкатить позже. По ценам для API - $3/$15, та же стоимость, что у старого sonnet-3 и чуть дешевле gpt-4o ($5/$15). Из плюсов - контекст огромный - 200 000 токенов (у gpt-4o 128 000).

По-русски общается, в целом, хорошо. Стихи пишет очень хорошо, кажется, даже лучше чем Опус и gpt-4o. Логические задачки на русском решает не все, где-то лучше чем gpt-4o, где-то похуже. Анекдоты пишет не очень, у gpt выходит забавнее.

Поставил claude-3.5-sonnet пока для Пушкина, пусть стихи пишет. В стиле Летова отказывается петь, ругается на копирайты. Цитаты Джейсону тоже не хочет писать ("я не могу генерировать контент от имени реальных людей"). Если и Пушкин будет ругаться на копирайты - верну обратно GPT-4o, с ним почти не было проблем.

Бесплатно попробовать можно на https://chat.lmsys.org/ или на оф. сайте https://www.anthropic.com/ (с впн и зарубежным номером).
👍26🔥1
LLM в русском роулплее. Мои заметки

- Мои любимые LLM на сегодня: command-r-plus-104B (API), saiga-phi3-medium-14B.

- Командира-104 можно юзать бесплатно через официальный API от Cohere, например, в SillyTavern. Дают 1000 бесплатных генераций в месяц на один аккаунт. Цензуры почти нет, но законы лучше не нарушать. За обычное nsfw пока что не банят, хотя в TOS у них написано, что нельзя. Из РФ - нужен впн и гугл почта. API ключ берем тут и прописываем в таверну: https://dashboard.cohere.com/welcome/register

- chat-completion режим в таверне
Если будете использовать командира в таверне, то необходимо выбрать режим chat-completion / Cohere на второй вкладке. Поддержку этого бесплатного АПИ не так давно добавили в таверну 1.12.1.

По умолчанию в режиме chat-completion помимо карточки персонажа еще передается дофига дополнительной информации (main prompt, nsfw prompt, jailbreak prompt), и они в таверне прописаны на английском языке. Из-за этого качество русского языка может снизиться. Рекомендую все эти промпты переписать на русский или совсем убрать. Редактировать на самой первой вкладке. Замечу, что jailbreak prompt передается в самом конце вашего диалога, после вопроса пользователя, перед ответом LLM. Остальные промпты идут в начале диалога.
Режим chat-completion не поддерживается для llama.cpp и koboldcpp. Для них только text-completion.

- phi-3-medium-14B
приятно удивила. Хороший русский язык, довольно умная, влазит в мои 12 GB VRAM в q6 кванте. Из минусов – очень зацензурена, поэтому рекомендую файнтюн от Ильи Гусева - saiga_phi3_medium. По ощущениям – меньше речевых ошибок и меньше цензуры. Гуфы: https://huggingface.co/olkovi/saiga_phi3_medium_sft_m1_d2_kto_m5_d7/tree/main

Рекомендуемые мной настройки для таверны для saiga_phi3: temp: 0.50, min_p:0.10, context: 1500, rep_pen:1.2, freq_pen: 0.15, instruct mode: Enabled, instruct template: phi
В стоп-токены добавляю символ новой строки \n. Чтобы LLM не писала полотна текста лишних пояснений.

phi-3-medium есть бесплатно по API в openrouter. На халяву дают 20 запросов в минуту и 200 запросов в день, но мне показалось, что меньше. Работает без впн, нужна регистрация, чтобы получить api ключ. https://openrouter.ai/

Использование правильного инстракт шаблона улучшает качество ответов модели и уменьшает количество ошибок, но увеличивает цензуру (предположение). Для разных моделей инстракт шаблон разный – обычно его описывают в карточке модели на HF. В таверне прописаны самые популярные шаблоны. Я замерил количество речевых ошибок у phi3 в инстракт шаблоне phi и без него – с ним, грамотность возросла на 20%.

- Сэмплер min_p
Отлично отсекает маловероятные токены в ответе, снижая количество речевых ошибок. Рекомендую значение 0.10 для русского языка. Большие значения улучшают грамотность, но снижают вариативность ответов.

- Использование небольшого контекста.
Качество ответов у большинства LLM, что я тестировал, падает с ростом размера контекста. Ответы становятся однообразными, скучными, появляются повторы. Сейчас использую размер – 1500-2000 токенов. Если нужно, чтобы какие-то факты персонаж запомнил – вношу их списком в карточку персонажа.

- Качество поиска по контексту
Проводил тут тест phi-3-medium-128K (не сайга) и выяснил, что несмотря на ее огромный заявленный размер контекста (128 000) – пользоваться им она умеет плохо. Факт, упомянутый в начале диалога (например, цвет предмета) забывается уже примерно после 1500 токенов беседы. Есть подозрение, что у других моделей ситуация не намного лучше, но сам не тестил. Возможно, проблема именно в русском языке. Поэтому опять переношу значимые факты в карточку персонажа и юзаю маленький контекст.

(продолжение в следущем посте)
👍15🔥7👏1
(часть 2)

- talk-llama-fast 0.1.8

В talk-llama-fast пока нет поддержки instruct режима, но есть поддержка phi-3 и новый сэмплер min_p. Используйте параметр -min_p 0.10 в свежей версии 0.1.8 (кроме min_p ничего нового не добавлял). https://github.com/Mozer/talk-llama-fast/releases/tag/0.1.8

- Сдвиг контекста (сontext shifting)

Llama.cpp и koboldcpp по умолчанию поддерживают сдвиг контекста – это когда при превышении размера диалога контекст не пересчитывается заново (prompt processing), а просто сдвигается без какой-либо задержки по времени.

Без него для больших LLM, которые не помещаются полностью в VRAM, процесс пересчета может достигать нескольких минут, а такое случается очень часто, сводя на нет всю скорость работы. Сдвиг контекста решает эту проблему, но есть нюанс – чтобы сдвиг работал – начало текста не должно меняться, а меняться могут только последние сообщения. Но таверна так не умеет, она всегда клеит в начало карточку персонажа + всякие системные промпты, затем обрезает диалог под нужную длину, выкинув старые сообщения, и только потом отдает все это в ламу.

В результате, при использовании больших LLM 35B+ имеем огромные задержки раз в несколько сообщений, когда весь контекст диалога решил пересчитаться. Но есть решение – нужно в таверне выставить огромный размер контекста (204800 + галочка unlocked) и отдать весь процесс обрезания в руки ламы/кобольда. Из минусов – вы потеряете описание персонажа и системные промпты – они были в начале текста и лама их со временем обрежет. Еще минус – если ваш диалог превысит 200к – таверна опять начнет сама обрезать сообщения и конекст шифтинг опять испортится. Еще минус – иногда лама почему-то плохо обрезает, контекст кончается, и генеририруется бред, но, возможно, этот баг уже пофиксили.

В следующих постах расскажу о моем ноу-хау - инъекции случайных инструкций в роулплее с LLM (накодил для таверны и тг бота). А еще будет пост про нюансы генерации картинок в SD внутри SillyTavern.
👍21🔥9