Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Подключаем кучу видеокарт к мини-пк или ноутбуку

В наличии имею мини-пк GenMachine на Ryzen 7 7730u (брал за 27к) https://aliexpress.ru/item/1005005560402861.html?sku_id=12000036067533846
Есть 2 варианта подключения внешней видеокарты к ноуту или мини-пк: по Thunderbolt или через переходник m2->pcie. Thunderbolt есть только в дорогих моделях, и он обычно только один + к нему нужен будет корпус ценой еще в полвидюхи. У меня Thunderbolt нет, поэтому будем юзать m2-nvme.
У моего мини-пк есть целых три слота m2 (x4 SSD, x4 SSD, x1 m2-e-key-wifi), это довольно много. Чаще всего, в дешёвых мини-пк идёт ровно 1 слот для SSD и всё. Например, в beelink s12 pro (17к на озоне) всего 1 x1 слот, но и там есть варианты.

Следует отметить, что не все слоты m2 являются PCIE. В старых ноутах/мини-пк будет стоять m2-SATA, а не m2-nvme, нам такие не подходят.

Для подключения видеокарт нам понадобится переходник с m2 на PCIE x16. Он позволит подключить одну видеокарту. Я купил 2 штуки на PCIE 3.0 x4, они довольно быстрые.

Но одной видеокарты нам мало, нам надо 4, поэтому нужен ещё сплиттер с x1 на 4 x1. Такой обычно используют майнеры, он не супер быстрый, но зато позволяет подключить до 4 карт на один слот в режиме PCIE 2.0 x1 (полоса будет по умному делиться между всеми устройствами). Предположу, что для этого сплиттера не нужна поддержка бифуркации в матери, но это неточно (в моем биосе никакой бифуркации я не нашел). Карту с разъемом x1 можно воткнуть в разъем x16.


## Железки
Порядковый номер соответствует номеру на фотке.
1. Переходник m2 e key (wifi) to m2 m key (ssd) PCIE 3.0 x1 https://aliexpress.ru/item/1005004711422885.html?sku_id=12000030192041528
2. Переходник m2 to PCIE 3.0 x16 (использует от x1 до x4 линий, взял 2) https://aliexpress.ru/item/1005004727347382.html?sku_id=12000030249734865
3. Сплиттер (райзер) x1 to 4 x1 with USB cables, PCIE 2.0 x1 https://aliexpress.ru/item/1005003519054789.html
4. Переходник (райзер) PCIEUSB to PCIE 3.0 x16 https://aliexpress.ru/item/1005004134020455.html?sku_id=12000028145182159
5. Переходник m2 to 4 x1 with USB cables (работает, но нестабильно, иногда BSODит. Возможно, брак, отзывы были отличные) https://aliexpress.ru/item/1005004402356641.html?sku_id=12000029049805779
6. Переходник m2 to 1 x1 with USB cables https://www.ozon.ru/product/m-2-ngff-v-pci-e-x16-usb3-0-adapter-riser-card-card-adapter-342305387/
7. Переходник PCIE x16 to PCIE x16 + 2 m2 (у меня m2 слоты не заработали) https://aliexpress.ru/item/1005005277952427.html


Блок питания взял свой старый на 750W. Чтобы он автоматом включался, я замкнул нужный контакт на землю. Сперва включаю БП, потом мини-пк, иначе видюхи не определятся.

## Скорость загрузки

Слот x1 + 2 видюхи на сплиттере pcie 2.0 x1
- Скорость загрузки T-lite-instruct-0.1.Q8_0 (файнтюн llama-3-8b, 7.95 GB) из ram в vram - 22s (0.35 GB/s)
Полное время загрузки llama.cpp server от дабл клика до готовности:
- в одну видюху --tensor-split 1.0,0.0 - 34s
- в две видюхи --tensor-split 0.5,0.5 - 35s
- два экземпляра llama.cpp параллельно, каждый в свою видюху - 48s
- в одну видюху на x4 без сплиттера - 17s
- x1 в comfyui flux загружается со скоростью 0.08 GB/s (возможно, налету пересчитывает fp16 в fp8)

Скорость загрузки в режиме pcie 3.0 x4 (без сплиттера) в llama.cpp примерно 1.20 GB/s. В comfyui - 0.30 GB/s, холодный старт - 96s

Скорость чтения SSD в зависимости от слота. В родном PCIE 3.0 x4 - 3.65 GB/s, в x1 - 0.91 GB/s. На практике в винде почти не замечаю разницы, ощущую ее только, когда делаю полнотекстовой поиск по куче файлов. Я хз почему скорость чтения/записи с SSD в 2-3 раз выше чем при работе с видеокартой при аналогичном режиме.

## Скорость инференса
не влезла, вынес в комменты

В теории в эти 3 слота я смогу подключить через сплиттер до 12 видюх. Сколько получится на практике - пока неизвестно. В данный момент работают 2. Интернет говорит, что в этом проце 16 PCIE 3.0 линий. Но каждому сплиттеру нужна всего одна линия. Пока оставил 2 видюхи на x4, ssd на x1.
👍18🤯1510🔥7
Media is too big
VIEW IN TELEGRAM
Расширенный голосовой режим в приложении ChatGPT дали бесплатным юзерам.

Может менять голос прямо на ходу, если хорошо попросить (иногда отказывается). Пьяного человека и таксиста из Армении отказалась изображать 😄. Доступно 9 голосов. Бесплатно дают 15 минут в месяц. (Платным подписчикам дают 15-60 минут в день).

Чтобы установить приложение в вашем гугл аккаунте должна стоять не Россия (у меня стоят Нидерланды). Для работы приложения нужен в-п-н (у меня Великобритания).
👍15🔥5😁4🤬1
Бесплатные LLM по API

groq.com
Дают бесплатно llama-3.1-70b - 14400 запросов в день (0.5M токенов в день). Нужен ВПН.
Иногда лежит под нагрузкой, но в целом, довольно стабилен. Часть персонажей в моем боте сидит на нем.
Есть поддержка в SillyTavern.
лимиты https://console.groq.com/settings/limits

cohere.com
Для регистрации нужна google почта. Дают бесплатно 1000 запросов в месяц, боту хватает на несколько дней.
Есть поддержка в SillyTavern.

openrouter.ai
Есть большой выбор бесплатных моделей. Дают 200 бесплатных запросов в час (для больших меделй - меньше, что-то около 10 в час), если кончились - можно просто сменить модель.
Есть поддержка в SillyTavern.
модели https://openrouter.ai/models/?q=free
Если нужно платно - из РФ можно оплачивать криптой практически без комиссии (для оплаты нужен впн). Нужна крипта MATIC в сети Polygon ($0.27 комиссия), или Ethereum ($22.00 комиссия). Поддержка Matic есть в кошельке Trust wallet. Matic можно купить на биржах или на bestchange.

sambanova.ai
Дают Llama-3.1-405B-bf16 - бесплатно 10 запросов в минуту. Поставил персонажу Братан для теста.
Пока нет в SillyTavern

Mistral.ai
API не поддерживает repetition penalty, frequency penalty и min_p (из-за этого в РП любит повторяться).
Есть поддержка в SillyTavern

github.com/marketplace
Регистрация через лист ожидания (я ждал несколько недель). Лимиты довольно маленькие, не так интересно.
Дают gpt4o по API бесплатно (50 запросов в день), это, наверное, единственный такой сервис.
Пока нет в SillyTavern

together.ai
Дают разово $5 на запросы + дают бесплатную Llama Vision 11B (пишут, что есть лимиты, но какие не говорят, не тестил) и FLUX.1 [schnell] (10 картинок в минуту, не тестил)
Есть Llama-405b-turbo (видимо квантованная), llama-3.1-70b-turbo и россыпь устаревших моделей. 5 баксов хватит примерно на 350 запросов к 405b или 1400 запросов к 70b с 4k контекста.
А вот бесплатный FLUX.1 [schnell] надо бы потестить.
Есть поддержка в SillyTavern
Модели https://docs.together.ai/docs/inference-models
лимиты https://docs.together.ai/docs/rate-limits

ai21.com
Jamba-1.5-Large-398B хоть и большая, но на русском языке общается так себе. API не тестил. Дают разово $10.

nvidia build
модели https://build.nvidia.com/explore/reasoning
Дают разово 1000 кредитов (1000 запросов). Можно погонять llama-3.2-90b-vision
Пока нет в SillyTavern

cerebras.ai
жду в листе ожидания. Обещают бесплатно 1M токенов в день для 70b


Тестить все это удобно в sillyTavern, там реализовано большинство этих АПИ.
1👍38🔥6🫡3🌭1
Занятные факты из пейпера про Movie Gen, модели для генерации видео от Meta.

- Один из соавторов - наш соотечественник, Артем из соседнего канала ai_newz . В Мета он - Staff AI Research Scientist (ведущий научный сотрудник) в Швейцарии. Руководил работой по ускорению работы модели.

- Тренировка производилась на 6144 H100 GPU (каждая по 80 GB). Сколько часов - не пишут. Для сравнения, обучение трех llama3.1 заняло ~40M GPU часов. Всего у Meta ~600 000 H100.

- Обучающий датасет: 100 миллионов видеоклипов (4-16s) + 1 миллиард картинок. Для сравнения, у CogVideoX - 20 тысяч видео, а у SD3 - 1 миллиард картинок.

- 30B модель умеет создавать видео по тексту, а также картинки по тексту.

- В их сравнении по общему качеству видео Movie Gen обходит Sora на +8%, а Runway Gen3 на +35% (процент побед).

- В их ELO сравнении картинки от Movie Gen обходят Flux, Ideogram и Dalle-3.

- Изначально видео генерируется в разрешении 768x768, а затем хитро апскейлится до 1080p латентной диффузией (как в SD или flux)

- На выходе видео длиной 11s-24fps или 16s-16fps и еще несколько других комбинаций поменьше.

- 13B модель умеет генерировать звуковые эффекты и фоновую музыку для видео. Видео и текст подаются на вход. К слову, у Мета уже была модель AudioBox, которую не стали выкладывать в паблик.

- Есть еще несколько файнтюнов для video2video и face2video. Будем в инсте генерировать видосы со своим лицом. В паблик веса такой модели вряд ли выложат, слишком большие репутационные риски.

- Для улучшения текстового промпта используется особый файнтюн llama-3-8b, который превращает ваш короткий промпт в развернутое описание.

- 30B основана на архитектуре Transformer, как llama. Для сравнения, CogVideoX и Flux основаны на Diffusion Transformer (DiT).

- 30B влезает в 2x H100 (суммарно 160GB). Для сравнения, Stable-video-diffusion была размером всего 2.2B и весила 10 гигов. А llama-3.1-70b-fp16 весит 140 GB. Если Movie Gen квантануть в q4, то будет гигов 50. В теории, даже может влезть в 2x 3090. Для сравнения, CogVideoX-5B-int8 жрет от 4.4 GB vram.

- 121 видео ролик с генерациями https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8

- Сам пейпер https://ai.meta.com/static-resource/movie-gen-research-paper

- Пишут, что инференс пока что дорогой (хз, лама-70 же существует), релизить как продукт или выкладывать веса пока не планируют (но уже файнтюнят потенциальные риски). Кто знает, зачем-то они выпустили пейпер со всеми тех. деталями.

- Марк Цукерберг обещает встроить Movie Gen в инсту в следующем году. Мое предположение, что уже сейчас идет обучение более большой видео модели, а эти 2 выложат в паблик.

- Помимо Movie Gen, Артём вёл и тренировал проект Imagine Flash - мгновенная генерация картинок, встроенная в WhatsApp.

- Важно и круто следить за новостями из первых рук и читать бумаги (или обзоры на них), а не просто читать новости. Чтобы действительно разбираться в теме, подпишись на канал Артема @ai_newz
👍20🔥10👏1
Степень деградации LLM в зависимости от кванта

Взял свежую Ministral-8B-Instruct-2410 в разных квантах от q8 до q2 и сравнил на количество языковых/логических ошибок в двух задачах.
Тестил в llama.cpp. Там еще нет полной поддержки, пишут, что работает хорошо только до контекста 2048.

Сочинение историй

Я специально задрал температуру до 1.0 чтобы выявить проблемы с умением использовать русский язык. При низкой температуре (0.30) будет меньше ошибок, но язык будет скучным. Тот факт, что локальная LLM вообще пишет связный текст на русском с такой температурой заслуживает одобрения, раньше они такого не могли. Ministral горячо рекомендую затестить (в talk-llama-fast вроде работает).

Напиши пост в телеграме про скуфов в офисе в личном блоге от лица девушки-альтушки. Ещё добавь про борьбу с квадроберами и хоббихорсерами. В конце расскажи про трансформеров.
Обязательно используй мат, эмодзи и современный молодежный сленг (слова: бля, хз, нах, огонь, норм). Начни со слова Пипец.

Настройки: temp: 1.00, min_p: 0.02, rep_pen: 1.10, mistral preset

Начиная с Q4 и ниже грудус бреда начал зашкаливать. Q3 и Q2 вообще слетели с катушек.

Все LLM, которые я затестил, не в курсе кто такие скуфы и квадроберы, поэтому им приходится выдумывать. gpt-4o думает, что квадроберы ездят на квадроциклах =)
Невошедшие примеры от других LLM скину в комменты (sonnet, gpt4o и несколько локальных).


Логика и следование инструкциям
Сколько букв "с" в слове "ассистентский"? Сперва выпиши все буквы в нумерованный список, а потом посчитай, обязательно выписав порядковый номер нужных букв. В конце прогавкай столько же раз.

Настройки: temp: 0.10, min_p: 0.00, rep_pen: 1.00, mistral preset

Q8 - Q4 - хорошо, q3 и q2 либо отказываются следовать инструкциям, либо допускают ошибки.

С некоторыми сложными словами не справляется даже q8, нужна моделька побольше и поумнее.

Картинки в SillyTavern мне рисует flux Schnell по API от together ai. Бесплатно дают 6 запросов в минуту. Нужен "SillyTavern, ветка staging".


Выводы: Отличий между q8 и q6 минимум. q5 - почти приемлимо. q4 - на любителя. Я еще кванты T-lite-8b также сравнивал, он стихи пытался писать с рифмой вплоть до q4.

гуфы https://huggingface.co/bartowski/Ministral-8B-Instruct-2410-HF-GGUF-TEST/tree/main
👍19🔥11😁32