Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Reflection-Llama-3.1-70B

Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.

Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.

Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s

q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.

Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!

Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.

Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)

Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp

Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:

<|start_header_id|>system<|end_header_id|>

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|>


На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.

https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main

есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно

АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.
9🔥7👍4👎1
Добавил пару новых персонажей: Илон и Паша.

Илон живет в общем чате @talkllama
Паша живет в отдельном чате @Pavel_Durov_Ask

Оба имеют доступ в интернет и умеют гуглить. Поэтому они в курсе свежих событий в России и мире.

Еще теперь ко всем персонажам можно обращаться по-русски:
Илон, когда уже на Марс полетим?
Запятая после имени обязательна, call не нужен, регистр неважен.
Старые способы через /call elon и через "Ответить" тоже работают.
2👍22🔥7🥰1
ComfyUI + LivePortrait + Flux

LivePortrait работает довольно шустро: 8 секундное видео у меня на 2080ti генерируется за 20 секунд в небольшом разрешении и жрет всего 1.8 GB vram.
Для Flux желательно 8+, идеально: 24 GB vram.
Из минусов - плохо попадает в губы. Я пробовал делать анимацию по видео из wav2lip - анимация губ не очень. Но глаза, мимика и повороты головы - одно из лучших решений на рынке.


1. Качаем ComfyUI Portable, если его у вас еще нет:
https://github.com/comfyanonymous/ComfyUI/releases

2. Опционально ставим flux в ComfyUI, но можно без него:
https://github.com/kijai/ComfyUI-LivePortraitKJ

3. ComfyUI-Manager
скачать https://github.com/ltdrdata/ComfyUI-Manager/raw/main/scripts/install-manager-for-portable-version.bat и положить в папку ComfyUI_windows_portable. Если у вас не установлен git, то его надо установить: https://git-scm.com/download/win
Далее. Дабл клик по install-manager-for-portable-version.bat

4. Insightface
Сперва надо узнать вашу версию питона:
находясь в папке \ComfyUI_windows_portable\ выполнить команду CMD:
python_embeded\python.exe -V
Если у вас python 3.11 (скорее всего, так и есть), то качаем https://github.com/Gourieff/Assets/raw/main/Insightface/insightface-0.7.3-cp311-cp311-win_amd64.whl
Для 3.10 и 3.12 ссылки тут: https://github.com/Gourieff/comfyui-reactor-node?tab=readme-ov-file#troubleshooting
Скачанный .whl файл кладем сюда: \ComfyUI_windows_portable\
Далее:
python_embeded\python.exe -m pip install -U pip
python_embeded\python.exe -m pip install insightface-0.7.3-cp311-cp311-win_amd64.whl

Качаем https://github.com/deepinsight/insightface/releases/download/v0.7/buffalo_l.zip и распаковываем содержимое в /ComfyUI/models/insightface/buffalo_l/ Если нет таких папок, создаем.

5. С помощью ComfyUI-Manager установим нужные кастомные ноды:
Запускаем comfy run_nvidia_gpu.bat
В правом углу кликаем на кнопку Manager (если ее нет, значит ComfyUI-Manager не установился)
Кликаем Install via Git URL и по очереди устанавливаем следующие 4 или 5 нод. Просто копируете url, жмете ОК, ждете. Перезапускать comfy после каждой установки необязательно, можно перезапустить в конце после установки всех нод:
- https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 (опционально)
- https://github.com/kijai/ComfyUI-LivePortraitKJ
- https://github.com/kijai/ComfyUI-KJNodes
- https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
- https://github.com/cubiq/ComfyUI_essentials

Жмем Restart в Manager.

6. Workflows
Бозовые воркфлоу тут: ComfyUI\custom_nodes\ComfyUI-LivePortraitKJ\examples\

7. Мой воркфлоу flux + LivePortrait тут:
https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_liveportrait.json
перенесите .json в окно comfyui, и он сам его загрузит.
Flux fp8 довольно быстро (меньше 7 сек) генерирует картинку в 512х768 10 steps. Если мало vram - советую использовать nf4 версию. CheckpointLoaderNF4 будет там же в workflow.
Далее livePortrait за 20 секунд анимирует эту картинку на моей 2080ti-22GB.

8. тестовые видео с лицевой анимацией тут:
ComfyUI\custom_nodes\ComfyUI-LivePortraitKJ\assets\examples\driving\
Или можно скачать видео из моего тг бота https://t.iss.one/talkllama. Входное видео с Эммой: https://github.com/Mozer/comfy_stuff/blob/main/input/peredel_nice.mp4

9. Анимация лица в одном видео по лицу из другого видео
(видео с Пашей и с Братаном, воркфлоу: liveportrait_video_example_02)
Выглядит забавно, в дефолтном воркфлоу анимируется только лицо (глаза + рот) без движения головы.

10. realtime анимация по вебкамере
(Последнее видео). С вебкой LivePortrait тоже работает, но фреймрейта маловато. Тестовый видео-пример записан на 2080ti, на какой-нибудь 4090, возможно, будет получше.
Измените значение cam_index с 0 на 1 (порядковый номер вашей вебки)


Если вдруг я чего-то забыл - пишите в комментах.
👍22🔥733
Затестил o1-preview и o1-mini на русском

o1-preview: логику заметно прокачали, стихи на русском пишет (но не с первого раза), анекдоты писать по-прежнему не умеет.

o1-mini: особо не тестил, рифму в стихе завалил совсем.

Openai решили скрыть от пользователей полный сырой chain of thought и показывать только его выжимку (summary). Пруф: https://openai.com/index/learning-to-reason-with-llms/ (раздел Hiding the chains of thought). Там же можно глянуть пример сырых CoT, они гигантские, на несколько тысяч токенов.
И платить по API за эти токены будете вы, хотя они и не будут вам видны.

Цены космос:
средний ответ o1 у меня составил примерно 10 центов (10 рублей). Если еще и большой контекст за собой тащить - будет недешево.
Можно, конечно, оформить подписку за $20, и тогда вам будет доступно целых 30 запросов к o1 в НЕДЕЛЮ.

В итоге, на простую детскую загадку про утят вывод модели на экран составил 289 токенов, включая выжимку от CoT (считал тут https://tokenizer.streamlit.app/). А счет пришел за 1610 токенов (10 рублей). Многовато.

Ещё заметил фишку в openrouter api/chat: если выставить небольшое значение max_tokens, например 400. А скрытое рассуждение модели не влезет в эти 400, то апи вернёт ошибку, спишет деньги за 400, а никакого ответа не покажет.


Бесплатно o1 есть в @saiga_igusev_bot (1 запрос в день).
На lmsys пока нету. На openRouter есть (платно в чате/API, долго отвечает, есть лимиты). В sillyTavern пока не работает, возвращает ошибку или пустой ответ.
👍204😁2