Reflection-Llama-3.1-70B
Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.
Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.
Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s
q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.
Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!
Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.
Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)
Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp
Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:
На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.
https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main
есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно
АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.
Новая 70b модель бьет почти все существующие открытые LLM по бенчам. Основана на Ламе, использует скрытый Chain of thought (думает по шагам и исправляет саму себя). Сперва пишет свои рассуждения, затем проводит анализ, есть ли ошибки. И только потом выдает конечный ответ.
Основана на старой llama-3-70b (не 3.1). Контекст - 8k. Автор обещает сделать такой же файнтюн для большой ламы 405B. Про 8b он писал, что такой способ работает хуже.
Затестил локально, скачав gguf кванты q2 и iq3_xss.
Скорость на двух видюхах:
q2_k (24 GB) - 8 t/s
iq3_xxs (25GB) - 5 t/s
q2 допускает слишком много речевых ошибок на русском. IQ3_XXS мне нравится уже больше. Может даже пороулплеить. Довольно словоохотлива, и виден след размышлений в ответах.
Само собой, q3 и q2 кванты слишком маленькие, но даже они показывают очень неплохие результаты, местами превосходя gpt-4o по логике и работе с текстом!
Неквантованная модель (на openrouter) пытается писать стихи на русском с рифмой. У малых квантов это почти не выходит. Шутки пишет странные, затем сама пытается их анализировать, но тоже не всегда получается.
Может быть грубой и материться, но потом начинает сама ебя анализировать и говорит, что материться плохо =)
Чтобы теги (thinking, reflection, output) отображались в llama.cpp и таверне, нужно добавить параметр --special в llama.cpp
Тестил при рекомендованной температуре 0.70, top_p 0.95, min_p 0, rep_pen 1, instruct template: llama 3 instruct. В системный промпт таверны прописал:
<|start_header_id|>system<|end_header_id|>
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|>
На реддите писали, что в openrouter БЕСПЛАТНО хостится какая-то неверная модель Reflection-Llama и выдает плохие ответы. Я потестил, ответы - норм, значит, уже поправили.
https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
гуфы https://huggingface.co/bartowski/Reflection-Llama-3.1-70B-GGUF/tree/main
есть несколько spaces на HF, но они выдают плохие ответы, скорее всего, есть баги. Если найдете рабочий - пишите в чате.
потестить (лежит под нагрузкой, может когда-нибудь встанет): https://reflection-playground-production.up.railway.app/
тестите на openrouter + silly tavern, хз сколько запросов в час по апи дают бесплатно
АПДЕЙТ:
нас обманули: по АПИ и на сайте вместо Reflection отвечает Sonnet 3.5 с модифицированным промптом. Выложененные веса - файнтюн третьей ламы среднего качества. Недо-разработчик просто хотел внимания инвесторов в свой другой стартап.
❤9🔥7👍4👎1
Добавил пару новых персонажей: Илон и Паша.
Илон живет в общем чате @talkllama
Паша живет в отдельном чате @Pavel_Durov_Ask
Оба имеют доступ в интернет и умеют гуглить. Поэтому они в курсе свежих событий в России и мире.
Еще теперь ко всем персонажам можно обращаться по-русски:
Илон, когда уже на Марс полетим?
Запятая после имени обязательна, call не нужен, регистр неважен.
Старые способы через /call elon и через "Ответить" тоже работают.
Илон живет в общем чате @talkllama
Паша живет в отдельном чате @Pavel_Durov_Ask
Оба имеют доступ в интернет и умеют гуглить. Поэтому они в курсе свежих событий в России и мире.
Еще теперь ко всем персонажам можно обращаться по-русски:
Илон, когда уже на Марс полетим?
Запятая после имени обязательна, call не нужен, регистр неважен.
Старые способы через /call elon и через "Ответить" тоже работают.
2👍22🔥7🥰1
ComfyUI + LivePortrait + Flux
LivePortrait работает довольно шустро: 8 секундное видео у меня на 2080ti генерируется за 20 секунд в небольшом разрешении и жрет всего 1.8 GB vram.
Для Flux желательно 8+, идеально: 24 GB vram.
Из минусов - плохо попадает в губы. Я пробовал делать анимацию по видео из wav2lip - анимация губ не очень. Но глаза, мимика и повороты головы - одно из лучших решений на рынке.
1. Качаем ComfyUI Portable, если его у вас еще нет:
https://github.com/comfyanonymous/ComfyUI/releases
2. Опционально ставим flux в ComfyUI, но можно без него:
https://github.com/kijai/ComfyUI-LivePortraitKJ
3. ComfyUI-Manager
скачать https://github.com/ltdrdata/ComfyUI-Manager/raw/main/scripts/install-manager-for-portable-version.bat и положить в папку
Далее. Дабл клик по
4. Insightface
Сперва надо узнать вашу версию питона:
находясь в папке \ComfyUI_windows_portable\ выполнить команду CMD:
Если у вас python 3.11 (скорее всего, так и есть), то качаем https://github.com/Gourieff/Assets/raw/main/Insightface/insightface-0.7.3-cp311-cp311-win_amd64.whl
Для 3.10 и 3.12 ссылки тут: https://github.com/Gourieff/comfyui-reactor-node?tab=readme-ov-file#troubleshooting
Скачанный .whl файл кладем сюда:
Далее:
Качаем https://github.com/deepinsight/insightface/releases/download/v0.7/buffalo_l.zip и распаковываем содержимое в
5. С помощью ComfyUI-Manager установим нужные кастомные ноды:
Запускаем comfy run_nvidia_gpu.bat
В правом углу кликаем на кнопку Manager (если ее нет, значит ComfyUI-Manager не установился)
Кликаем Install via Git URL и по очереди устанавливаем следующие 4 или 5 нод. Просто копируете url, жмете ОК, ждете. Перезапускать comfy после каждой установки необязательно, можно перезапустить в конце после установки всех нод:
- https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 (опционально)
- https://github.com/kijai/ComfyUI-LivePortraitKJ
- https://github.com/kijai/ComfyUI-KJNodes
- https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
- https://github.com/cubiq/ComfyUI_essentials
Жмем Restart в Manager.
6. Workflows
Бозовые воркфлоу тут:
7. Мой воркфлоу flux + LivePortrait тут:
https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_liveportrait.json
перенесите .json в окно comfyui, и он сам его загрузит.
Flux fp8 довольно быстро (меньше 7 сек) генерирует картинку в 512х768 10 steps. Если мало vram - советую использовать nf4 версию. CheckpointLoaderNF4 будет там же в workflow.
Далее livePortrait за 20 секунд анимирует эту картинку на моей 2080ti-22GB.
8. тестовые видео с лицевой анимацией тут:
Или можно скачать видео из моего тг бота https://t.iss.one/talkllama. Входное видео с Эммой: https://github.com/Mozer/comfy_stuff/blob/main/input/peredel_nice.mp4
9. Анимация лица в одном видео по лицу из другого видео
(видео с Пашей и с Братаном, воркфлоу: liveportrait_video_example_02)
Выглядит забавно, в дефолтном воркфлоу анимируется только лицо (глаза + рот) без движения головы.
10. realtime анимация по вебкамере
(Последнее видео). С вебкой LivePortrait тоже работает, но фреймрейта маловато. Тестовый видео-пример записан на 2080ti, на какой-нибудь 4090, возможно, будет получше.
Измените значение cam_index с 0 на 1 (порядковый номер вашей вебки)
Если вдруг я чего-то забыл - пишите в комментах.
LivePortrait работает довольно шустро: 8 секундное видео у меня на 2080ti генерируется за 20 секунд в небольшом разрешении и жрет всего 1.8 GB vram.
Для Flux желательно 8+, идеально: 24 GB vram.
Из минусов - плохо попадает в губы. Я пробовал делать анимацию по видео из wav2lip - анимация губ не очень. Но глаза, мимика и повороты головы - одно из лучших решений на рынке.
1. Качаем ComfyUI Portable, если его у вас еще нет:
https://github.com/comfyanonymous/ComfyUI/releases
2. Опционально ставим flux в ComfyUI, но можно без него:
https://github.com/kijai/ComfyUI-LivePortraitKJ
3. ComfyUI-Manager
скачать https://github.com/ltdrdata/ComfyUI-Manager/raw/main/scripts/install-manager-for-portable-version.bat и положить в папку
ComfyUI_windows_portable
. Если у вас не установлен git, то его надо установить: https://git-scm.com/download/win Далее. Дабл клик по
install-manager-for-portable-version.bat
4. Insightface
Сперва надо узнать вашу версию питона:
находясь в папке \ComfyUI_windows_portable\ выполнить команду CMD:
python_embeded\python.exe -V
Если у вас python 3.11 (скорее всего, так и есть), то качаем https://github.com/Gourieff/Assets/raw/main/Insightface/insightface-0.7.3-cp311-cp311-win_amd64.whl
Для 3.10 и 3.12 ссылки тут: https://github.com/Gourieff/comfyui-reactor-node?tab=readme-ov-file#troubleshooting
Скачанный .whl файл кладем сюда:
\ComfyUI_windows_portable\
Далее:
python_embeded\python.exe -m pip install -U pip
python_embeded\python.exe -m pip install insightface-0.7.3-cp311-cp311-win_amd64.whl
Качаем https://github.com/deepinsight/insightface/releases/download/v0.7/buffalo_l.zip и распаковываем содержимое в
/ComfyUI/models/insightface/buffalo_l/
Если нет таких папок, создаем.5. С помощью ComfyUI-Manager установим нужные кастомные ноды:
Запускаем comfy run_nvidia_gpu.bat
В правом углу кликаем на кнопку Manager (если ее нет, значит ComfyUI-Manager не установился)
Кликаем Install via Git URL и по очереди устанавливаем следующие 4 или 5 нод. Просто копируете url, жмете ОК, ждете. Перезапускать comfy после каждой установки необязательно, можно перезапустить в конце после установки всех нод:
- https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 (опционально)
- https://github.com/kijai/ComfyUI-LivePortraitKJ
- https://github.com/kijai/ComfyUI-KJNodes
- https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
- https://github.com/cubiq/ComfyUI_essentials
Жмем Restart в Manager.
6. Workflows
Бозовые воркфлоу тут:
ComfyUI\custom_nodes\ComfyUI-LivePortraitKJ\examples\
7. Мой воркфлоу flux + LivePortrait тут:
https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_liveportrait.json
перенесите .json в окно comfyui, и он сам его загрузит.
Flux fp8 довольно быстро (меньше 7 сек) генерирует картинку в 512х768 10 steps. Если мало vram - советую использовать nf4 версию. CheckpointLoaderNF4 будет там же в workflow.
Далее livePortrait за 20 секунд анимирует эту картинку на моей 2080ti-22GB.
8. тестовые видео с лицевой анимацией тут:
ComfyUI\custom_nodes\ComfyUI-LivePortraitKJ\assets\examples\driving\
Или можно скачать видео из моего тг бота https://t.iss.one/talkllama. Входное видео с Эммой: https://github.com/Mozer/comfy_stuff/blob/main/input/peredel_nice.mp4
9. Анимация лица в одном видео по лицу из другого видео
(видео с Пашей и с Братаном, воркфлоу: liveportrait_video_example_02)
Выглядит забавно, в дефолтном воркфлоу анимируется только лицо (глаза + рот) без движения головы.
10. realtime анимация по вебкамере
(Последнее видео). С вебкой LivePortrait тоже работает, но фреймрейта маловато. Тестовый видео-пример записан на 2080ti, на какой-нибудь 4090, возможно, будет получше.
Измените значение cam_index с 0 на 1 (порядковый номер вашей вебки)
Если вдруг я чего-то забыл - пишите в комментах.
👍22🔥7❤3⚡3
Затестил o1-preview и o1-mini на русском
o1-preview: логику заметно прокачали, стихи на русском пишет (но не с первого раза), анекдоты писать по-прежнему не умеет.
o1-mini: особо не тестил, рифму в стихе завалил совсем.
Openai решили скрыть от пользователей полный сырой chain of thought и показывать только его выжимку (summary). Пруф: https://openai.com/index/learning-to-reason-with-llms/ (раздел Hiding the chains of thought). Там же можно глянуть пример сырых CoT, они гигантские, на несколько тысяч токенов.
И платить по API за эти токены будете вы, хотя они и не будут вам видны.
Цены космос:
средний ответ o1 у меня составил примерно 10 центов (10 рублей). Если еще и большой контекст за собой тащить - будет недешево.
Можно, конечно, оформить подписку за $20, и тогда вам будет доступно целых 30 запросов к o1 в НЕДЕЛЮ.
В итоге, на простую детскую загадку про утят вывод модели на экран составил 289 токенов, включая выжимку от CoT (считал тут https://tokenizer.streamlit.app/). А счет пришел за 1610 токенов (10 рублей). Многовато.
Ещё заметил фишку в openrouter api/chat: если выставить небольшое значение max_tokens, например 400. А скрытое рассуждение модели не влезет в эти 400, то апи вернёт ошибку, спишет деньги за 400, а никакого ответа не покажет.
Бесплатно o1 есть в @saiga_igusev_bot (1 запрос в день).
На lmsys пока нету. На openRouter есть (платно в чате/API, долго отвечает, есть лимиты). В sillyTavern пока не работает, возвращает ошибку или пустой ответ.
o1-preview: логику заметно прокачали, стихи на русском пишет (но не с первого раза), анекдоты писать по-прежнему не умеет.
o1-mini: особо не тестил, рифму в стихе завалил совсем.
Openai решили скрыть от пользователей полный сырой chain of thought и показывать только его выжимку (summary). Пруф: https://openai.com/index/learning-to-reason-with-llms/ (раздел Hiding the chains of thought). Там же можно глянуть пример сырых CoT, они гигантские, на несколько тысяч токенов.
И платить по API за эти токены будете вы, хотя они и не будут вам видны.
Цены космос:
средний ответ o1 у меня составил примерно 10 центов (10 рублей). Если еще и большой контекст за собой тащить - будет недешево.
Можно, конечно, оформить подписку за $20, и тогда вам будет доступно целых 30 запросов к o1 в НЕДЕЛЮ.
В итоге, на простую детскую загадку про утят вывод модели на экран составил 289 токенов, включая выжимку от CoT (считал тут https://tokenizer.streamlit.app/). А счет пришел за 1610 токенов (10 рублей). Многовато.
Ещё заметил фишку в openrouter api/chat: если выставить небольшое значение max_tokens, например 400. А скрытое рассуждение модели не влезет в эти 400, то апи вернёт ошибку, спишет деньги за 400, а никакого ответа не покажет.
Бесплатно o1 есть в @saiga_igusev_bot (1 запрос в день).
На lmsys пока нету. На openRouter есть (платно в чате/API, долго отвечает, есть лимиты). В sillyTavern пока не работает, возвращает ошибку или пустой ответ.
👍20❤4😁2
Подключаем кучу видеокарт к мини-пк или ноутбуку
В наличии имею мини-пк GenMachine на Ryzen 7 7730u (брал за 27к) https://aliexpress.ru/item/1005005560402861.html?sku_id=12000036067533846
Есть 2 варианта подключения внешней видеокарты к ноуту или мини-пк: по Thunderbolt или через переходник m2->pcie. Thunderbolt есть только в дорогих моделях, и он обычно только один + к нему нужен будет корпус ценой еще в полвидюхи. У меня Thunderbolt нет, поэтому будем юзать m2-nvme.
У моего мини-пк есть целых три слота m2 (x4 SSD, x4 SSD, x1 m2-e-key-wifi), это довольно много. Чаще всего, в дешёвых мини-пк идёт ровно 1 слот для SSD и всё. Например, в beelink s12 pro (17к на озоне) всего 1 x1 слот, но и там есть варианты.
Следует отметить, что не все слоты m2 являются PCIE. В старых ноутах/мини-пк будет стоять m2-SATA, а не m2-nvme, нам такие не подходят.
Для подключения видеокарт нам понадобится переходник с m2 на PCIE x16. Он позволит подключить одну видеокарту. Я купил 2 штуки на PCIE 3.0 x4, они довольно быстрые.
Но одной видеокарты нам мало, нам надо 4, поэтому нужен ещё сплиттер с x1 на 4 x1. Такой обычно используют майнеры, он не супер быстрый, но зато позволяет подключить до 4 карт на один слот в режиме PCIE 2.0 x1 (полоса будет по умному делиться между всеми устройствами). Предположу, что для этого сплиттера не нужна поддержка бифуркации в матери, но это неточно (в моем биосе никакой бифуркации я не нашел). Карту с разъемом x1 можно воткнуть в разъем x16.
## Железки
Порядковый номер соответствует номеру на фотке.
1. Переходник m2 e key (wifi) to m2 m key (ssd) PCIE 3.0 x1 https://aliexpress.ru/item/1005004711422885.html?sku_id=12000030192041528
2. Переходник m2 to PCIE 3.0 x16 (использует от x1 до x4 линий, взял 2) https://aliexpress.ru/item/1005004727347382.html?sku_id=12000030249734865
3. Сплиттер (райзер) x1 to 4 x1 with USB cables, PCIE 2.0 x1 https://aliexpress.ru/item/1005003519054789.html
4. Переходник (райзер) PCIEUSB to PCIE 3.0 x16 https://aliexpress.ru/item/1005004134020455.html?sku_id=12000028145182159
5. Переходник m2 to 4 x1 with USB cables (работает, но нестабильно, иногда BSODит. Возможно, брак, отзывы были отличные) https://aliexpress.ru/item/1005004402356641.html?sku_id=12000029049805779
6. Переходник m2 to 1 x1 with USB cables https://www.ozon.ru/product/m-2-ngff-v-pci-e-x16-usb3-0-adapter-riser-card-card-adapter-342305387/
7. Переходник PCIE x16 to PCIE x16 + 2 m2 (у меня m2 слоты не заработали) https://aliexpress.ru/item/1005005277952427.html
Блок питания взял свой старый на 750W. Чтобы он автоматом включался, я замкнул нужный контакт на землю. Сперва включаю БП, потом мини-пк, иначе видюхи не определятся.
## Скорость загрузки
Слот x1 + 2 видюхи на сплиттере pcie 2.0 x1
- Скорость загрузки T-lite-instruct-0.1.Q8_0 (файнтюн llama-3-8b, 7.95 GB) из ram в vram - 22s (0.35 GB/s)
Полное время загрузки llama.cpp server от дабл клика до готовности:
- в одну видюху --tensor-split 1.0,0.0 - 34s
- в две видюхи --tensor-split 0.5,0.5 - 35s
- два экземпляра llama.cpp параллельно, каждый в свою видюху - 48s
- в одну видюху на x4 без сплиттера - 17s
- x1 в comfyui flux загружается со скоростью 0.08 GB/s (возможно, налету пересчитывает fp16 в fp8)
Скорость загрузки в режиме pcie 3.0 x4 (без сплиттера) в llama.cpp примерно 1.20 GB/s. В comfyui - 0.30 GB/s, холодный старт - 96s
Скорость чтения SSD в зависимости от слота. В родном PCIE 3.0 x4 - 3.65 GB/s, в x1 - 0.91 GB/s. На практике в винде почти не замечаю разницы, ощущую ее только, когда делаю полнотекстовой поиск по куче файлов. Я хз почему скорость чтения/записи с SSD в 2-3 раз выше чем при работе с видеокартой при аналогичном режиме.
## Скорость инференса
не влезла, вынес в комменты
В теории в эти 3 слота я смогу подключить через сплиттер до 12 видюх. Сколько получится на практике - пока неизвестно. В данный момент работают 2. Интернет говорит, что в этом проце 16 PCIE 3.0 линий. Но каждому сплиттеру нужна всего одна линия. Пока оставил 2 видюхи на x4, ssd на x1.
В наличии имею мини-пк GenMachine на Ryzen 7 7730u (брал за 27к) https://aliexpress.ru/item/1005005560402861.html?sku_id=12000036067533846
Есть 2 варианта подключения внешней видеокарты к ноуту или мини-пк: по Thunderbolt или через переходник m2->pcie. Thunderbolt есть только в дорогих моделях, и он обычно только один + к нему нужен будет корпус ценой еще в полвидюхи. У меня Thunderbolt нет, поэтому будем юзать m2-nvme.
У моего мини-пк есть целых три слота m2 (x4 SSD, x4 SSD, x1 m2-e-key-wifi), это довольно много. Чаще всего, в дешёвых мини-пк идёт ровно 1 слот для SSD и всё. Например, в beelink s12 pro (17к на озоне) всего 1 x1 слот, но и там есть варианты.
Следует отметить, что не все слоты m2 являются PCIE. В старых ноутах/мини-пк будет стоять m2-SATA, а не m2-nvme, нам такие не подходят.
Для подключения видеокарт нам понадобится переходник с m2 на PCIE x16. Он позволит подключить одну видеокарту. Я купил 2 штуки на PCIE 3.0 x4, они довольно быстрые.
Но одной видеокарты нам мало, нам надо 4, поэтому нужен ещё сплиттер с x1 на 4 x1. Такой обычно используют майнеры, он не супер быстрый, но зато позволяет подключить до 4 карт на один слот в режиме PCIE 2.0 x1 (полоса будет по умному делиться между всеми устройствами). Предположу, что для этого сплиттера не нужна поддержка бифуркации в матери, но это неточно (в моем биосе никакой бифуркации я не нашел). Карту с разъемом x1 можно воткнуть в разъем x16.
## Железки
Порядковый номер соответствует номеру на фотке.
1. Переходник m2 e key (wifi) to m2 m key (ssd) PCIE 3.0 x1 https://aliexpress.ru/item/1005004711422885.html?sku_id=12000030192041528
2. Переходник m2 to PCIE 3.0 x16 (использует от x1 до x4 линий, взял 2) https://aliexpress.ru/item/1005004727347382.html?sku_id=12000030249734865
3. Сплиттер (райзер) x1 to 4 x1 with USB cables, PCIE 2.0 x1 https://aliexpress.ru/item/1005003519054789.html
4. Переходник (райзер) PCIEUSB to PCIE 3.0 x16 https://aliexpress.ru/item/1005004134020455.html?sku_id=12000028145182159
5. Переходник m2 to 4 x1 with USB cables (работает, но нестабильно, иногда BSODит. Возможно, брак, отзывы были отличные) https://aliexpress.ru/item/1005004402356641.html?sku_id=12000029049805779
6. Переходник m2 to 1 x1 with USB cables https://www.ozon.ru/product/m-2-ngff-v-pci-e-x16-usb3-0-adapter-riser-card-card-adapter-342305387/
7. Переходник PCIE x16 to PCIE x16 + 2 m2 (у меня m2 слоты не заработали) https://aliexpress.ru/item/1005005277952427.html
Блок питания взял свой старый на 750W. Чтобы он автоматом включался, я замкнул нужный контакт на землю. Сперва включаю БП, потом мини-пк, иначе видюхи не определятся.
## Скорость загрузки
Слот x1 + 2 видюхи на сплиттере pcie 2.0 x1
- Скорость загрузки T-lite-instruct-0.1.Q8_0 (файнтюн llama-3-8b, 7.95 GB) из ram в vram - 22s (0.35 GB/s)
Полное время загрузки llama.cpp server от дабл клика до готовности:
- в одну видюху --tensor-split 1.0,0.0 - 34s
- в две видюхи --tensor-split 0.5,0.5 - 35s
- два экземпляра llama.cpp параллельно, каждый в свою видюху - 48s
- в одну видюху на x4 без сплиттера - 17s
- x1 в comfyui flux загружается со скоростью 0.08 GB/s (возможно, налету пересчитывает fp16 в fp8)
Скорость загрузки в режиме pcie 3.0 x4 (без сплиттера) в llama.cpp примерно 1.20 GB/s. В comfyui - 0.30 GB/s, холодный старт - 96s
Скорость чтения SSD в зависимости от слота. В родном PCIE 3.0 x4 - 3.65 GB/s, в x1 - 0.91 GB/s. На практике в винде почти не замечаю разницы, ощущую ее только, когда делаю полнотекстовой поиск по куче файлов. Я хз почему скорость чтения/записи с SSD в 2-3 раз выше чем при работе с видеокартой при аналогичном режиме.
## Скорость инференса
не влезла, вынес в комменты
В теории в эти 3 слота я смогу подключить через сплиттер до 12 видюх. Сколько получится на практике - пока неизвестно. В данный момент работают 2. Интернет говорит, что в этом проце 16 PCIE 3.0 линий. Но каждому сплиттеру нужна всего одна линия. Пока оставил 2 видюхи на x4, ssd на x1.
👍18🤯15❤10🔥7