Neural Deep
7.66K subscribers
308 photos
44 videos
3 files
199 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Neural Deep
Провел тесты новой LLaMA на нашем железе, а именно на сервере с 4090 в одиночном и х2 виде. Сейчас выложу, что в итоге я получил на 24GB VRAM на одной 4090: Имеем огромный бессмысленный текст на 27k токенов (так считает токенайзер OpenAI). Имеем нашу…
Update 128к Контекста при правильной настройке запустились на двух 4090
Скорости получились бешеные на чтение отдельного куска 7к токенов в секунду

Ну что теперь общаться с книгами можно так сказать на своем домашнем компе (ну да у меня сервак дома с х2 4090)

Не несет бред
В целом неплохо пересказала мне книгу Артемис Фаул в коментах закину краткое описание

Читало оно суммарно книгу около 12 секунд
Генерировало ответ за 3

Ну что Llama3.1 снова меняет игру!
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
А на этом видео показан инференс новой Ламы 3.1 на чипах компании Groq. Вот именно так должно выглядеть взаимодействие с ИИ-ассиьентами: мгновенный, точный, продуманный ответ и решение задачи.
👍7
Всем привет! "Третий день моих отношений с LLama-3.1"

Я протестировал несколько комбинаций моделей и конфигураций. Начну с того, что до модели 405B мне пока не дотянуться из-за необходимости использования DeepSpeed, который представляет собой мульти-кластер-инференс. Пока что непонятно, как он запускается, поэтому требуется изучение документации. Миша (мой очень хороший друг и учитель по DS), который уже имел опыт с этим, поделился некоторыми деталями, так что буду продолжать изучение.

Перейдем к модели 70B. FP16 отлично запускается на 4-х H100 (1.5 миллиона в месяц аренды, ага =) ), полностью влезает, работает стабильно на 128K контекста( "--max-num-seqs", "16"). Однако FP8 не влезает на 6 GPU модели 4090, вероятно, из-за требований к памяти, которая должна быть кратной двум, например, 2, 4, 8 (моя гипотеза, хотя ошибка вообще говорит о другом: "The number of CUDA devices has changed since the first call to torch.cuda.device_count()"). Но я только изучаю этот вопрос, как найду что-то, возможно, расскажу.

В данный момент у нас есть конфигурация с 8B на 2 GPU 4090 с 128K контекста в нашем распоряжении и параметром "--max-num-seqs", "16" (в теории держит одновременно 16 потоков), для проектов B2B и тестов под B2C. Это мы зафиксировали и сохранили конфиги, можно масштабировать за Nginx + тупенький Round-robin.

Также мы можем запустить 70B в квантованном виде INT4 на 4 GPU 4090. Я уже провел тестирование, и модель работала на 128K контекста, однако у меня возникли вопросы к точности из-за значительного сокращения данных при переходе с FP16 на INT4. А еще видел пару бенчей, где место у INT4 на 10-20 пунктов ниже.

Что касается FP8, мы можем арендовать необходимое оборудование за примерно 300 тысяч рублей в месяц (одна H100) + у нас будет 2 сервера в on-premise "через месяц примерно", но при этом контекст будет ограничен (пока мне удалось выжать 3K контекста, хотя судя по табличке должно влезать 16K).

В заключение, хочу отметить, что при выборе между 8B/FP16 и 70B/FP8, предпочтение лучше отдать 70B, но при условии, что она будет работать на 128K контекста. Буду копать, как такое поднять на минимальном железе. Важно учитывать, что характеристики, указывающие на необходимый объем памяти для запуска модели, часто умалчивают о контексте и говорят типо "Вы можете запустить вот на такой видеокарте модель". Поэтому выложу официальные расчеты.

Относительно картинок и сколько памяти нужно:

Какие я использовал сервера и где Immers:

1) Для запуска 70B FP16 128K контекста.
2) Для запуска 8B FP16 128K контекста.
3) И сейчас пытаюсь уместить сюда 70B FP8 на 16K контекста (сейчас влезает 3K контекста, но возникает ошибка: ValueError: The model's max seq len (8000) is larger than the maximum number of tokens that can be stored in KV cache (3344). Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine).

Утилизация при этом:
GPU RAM 69GB из 80 доступных.

---

Текстом таблички:

1. Таблица с требованиями к памяти для различных конфигураций моделей:

- 8B: FP16 - 16 GB, FP8 - 8 GB, INT4 - 4 GB
- 70B: FP16 - 140 GB, FP8 - 70 GB, INT4 - 35 GB
- 405B: FP16 - 810 GB, FP8 - 405 GB, INT4 - 203 GB

2. Таблица с требованиями к памяти для KV Cache в зависимости от количества токенов:

- 8B: 1K токенов - 0.125 GB, 16K токенов - 1.95 GB, 128K токенов - 15.62 GB
- 70B: 1K токенов - 0.313 GB, 16K токенов - 4.88 GB, 128K токенов - 39.06 GB
- 405B: 1K токенов - 0.984 GB, 16K токенов - 15.38 GB, 128K токенов - 123.05 GB
🔥9👍1
😁9
Привет всем!

Хочу поделиться своими последними успехами в работе с LLama-3.1-70b в тему предыдущего поста

Удалось запустить LLama-3.1-70B в динамической квантизации FP8 на 16K контекста, и самое главное, это получилось сделать на четырёх картах 4090. Это круто, учитывая все заморочки с памятью и настройками и выделением места под кэш.

Но не всё было так гладко с самого начала. Когда я только начинал запускать модель, возникли проблемы с p2p конфигом, который создавался криво. Плюс, Ray бекенд для выполнения модели на нескольких карточках тоже не сразу заработал как надо. Я долго не мог понять, почему при 96 GB VRAM у меня не влезало больше 6K контекста. Это было реально грустно и не понятно.

После трёх или четырёх дней тестов и экспериментов я наконец-то нашёл оптимальный конфиг для запуска модели. Это было непросто, но результат того стоил.

Проведя кучу тестов по нашим RAG доменам, я понял, что текущий тест выбивает 100% точность, что делает его невалидным. Придётся придумать новый тест для более точной оценки.

Что касается возможностей модели, вот что мы проверили:

1. Обобщение текстов: Модель отлично справляется, точно следуя контексту.
2. Разметка текста: Тесты по разметке и NER (Named Entity Recognition) показали улучшение точности на 10-25%.
3. Работа в режиме агента с tool_use: Модель показала высокую эффективность, особенно при запоминании seed и 0 температуре, ошибка на тесте вызове тулзов составила 0 на 100 примерах запросов.

Также оценили работу модели re-ranking. В 9 из 10 случаев модель давала адекватную оценку релевантности чанков до и после реранжирования в RAG подходе.

Производительность модели оказалась следующей:

- Чтение: Средняя скорость обработки prompt — 1418.7 токенов в секунду, средняя скорость генерации — 0.5 токенов в секунду. Использование GPU KV cache — 34.4%

- Генерация: Средняя скорость обработки prompt — 0.0 токенов в секунду, средняя скорость генерации — 36.0 токенов в секунду. Использование GPU KV cache — 35.1%

Эти данные показывают, что нам ещё нужно искать подходы для ускорения генерации, чтобы добиться более высокой производительности.

И вот самое приятное: теперь сервер стоит не 1,5 миллиона рублей в месяц, а всего 240 тысяч рублей! Карл, это в 6 раз дешевле! Это огромная экономия, которая делает использование таких мощных моделей гораздо более доступным.

В общем, LLama-3.1-70B в динамической квантизации FP8 на 16K контекста на четырёх картах 4090 показала себя с лучшей стороны. Будем продолжать тестирование и оптимизацию, чтобы добиться ещё лучших результатов.

Прикладываю картинки:

1-2. Запуск на 4 4090 и нагрузка на сервер и его конфиги.
3. Тесты модели при проверке реранжирования.
🔥8🤔4👍1
Привет всем!


Мы подняли в предыдущих постах LLama-3.1 на своем железе. Теперь я решил вернуться к своим старым проектам и воскресить их.

И это re-promting на базе Stable Diffusion. Замутили крутой кейс и пайп на ComfyUI, дописав AI до асинхронного неблокирующего состояния.
Провели тесты, и знаете, я остался доволен результатом.
Это точно то, что я бы использовал в генерации картинок для постов и презентаций.
Кстати пайп по обучению LLM в моменте уметь генерить картинки собрал наш гуру по Stable Diffusion @martianov


Так же вот ссылочка на тестового бота (успейте пока я его не сделал платным)


Ссылка на бота - попробуйте сейчас бесплатно!

И еще мои результаты в комментах

Иногда может глючить или не работать) Это же демо)
🔥7👍2
Канал подрос хоть я и редко постил снова открыл коменты! Нас 3к!

И еще поклянчу бусты для крутых реакций!

Ставь ЕНОТА если ты робот!
33
Мощные брейнштормы по продуктам

Генерируем идеи
Создаем планы
Задаем вопросы

Не знал, что такие вещи меня так драйвят

#r_m_r #NDT #AI #GenAI
10🔥84
FLUX.1 захватывает арену Text to Image (да, такая существует)

Даже открытая и упрощённая версия FLUX.1-schnell, которую можно использовать по лицензии Apache 2.0, уступает по качеству только Midjourney v6.

Арена
5🔥43
Grok 2 - XAI Маска теперь на фронтире

Новая модель от XAI на уровне Claude 3.5 и GPT-4. Последнюю неделю её можно было потрогать на арене под именем sus-column-r.

Grok 2 уже доступен пользователям X Premium, вместе с генератором изображений на основе FLUX.1 от моих корешей из Black Forest Labs.

Модель пока что поддерживает только текст, но мультимодальность обещают уже скоро. API будет доступен через несколько недель. Всё по EST (Elon Standard Time), так что может задержаться. Напоминаю что Grok 1.5 так и не релизнули.

Grok 3 уже тренируется на новом кластере XAI, ждём.

Ссылка на блогпост
8🔥4
Miro в России всё — компания разослала уведомление, что с 12 сентября прекращает работу для ВСЕХ аккаунтов из России и Беларуси.

Именно в этот день вступают в силу санкции Минфина США.

Ждем Доску от ВК и Стену от Дурова =)
9
Запилил простенький сайтец по re-promting пока без регистрации без настроек и чего либо но влупил туда самый крутой flux

Есть галерея
Можно скачать картинку

1024х1024 (20сек)

Cкоро открою доступ продумываю компьют будет бесплатно

Этот же подход есть в боте)

https://t.iss.one/DaisyImagebot

Ставь реакцию если хочешь доступ)
19🔥16
ChatGPT рухнул по всему миру. Нейронка тупо не грузится ни с компа, ни с телефона.

По слухам, падение связано с новой моделью, которую OpenAI выкатит УЖЕ СЕГОДНЯ.

На низком старте.
6
Пользователи iPhone, iPad и Mac, приготовьтесь к новому уровню абсурда
Apple собирается ввести платную подписку на свои ИИ-функции

Да-да за генерацию текстов, изображений и усовершенствованную Siri придется выложить $20 в месяц 🤯

Инсайдеры говорят, что Тим Кук сначала предложит эти фичи бесплатно, но это только временная уловка. В обозримом будущем все ИИ-возможности будут доступны исключительно по подписке

И как будто этого мало, Samsung тоже решил не отставать и уже объявил о подобном решении для своего Galaxy AI.

Серьезно ребята? Неужели технологические гиганты окончательно потеряли связь с реальностью?

Подписка на AI функции — это новый способ выкачивания денег или экономика не сходится?
47
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на любопытный пейпер – в нем на 1М чатов такое распределение по тематикам ChatGPT

Люди боятся АИ из-за LLM, а мне кажется бояться нужно всплеска волосатых ладошек ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
486
Я завез платные реакции)) Вот так моя нейронка видит как я их клянчу
56129🔥6
Это сообщение заставило меня начать серию постов по следующим темам:

- Кто я? На кого учился? Почему я пишу про AI? И чем я вообще занимаюсь?
- Я никогда не раскрывал все свои навыки, да уж тем более на такую аудиторию.

NDT (мой стартап):
- Как это произошло?
- Что за продукты мы делаем и зачем?
- Первые инвестиции.
- Первые проблемы.
- Первые продажи.

Ну и дополнительные вопросы, на которые я хочу ответить сам себе:

- Зачем я это все придумал?
- Сейчас я CEO бизнес-юнита, где трудится уже более 10 человек, и каждый знает мою стратегию и уверен в том, что я сильный лидер.
- Почему я стал лидером? Просто взял флаг и поднял над головой?
- Почему я решил делать продукты на базе AI?
- Когда я попал в IT и как это случилось?

Все это, как я узнал сегодня, может замотивировать кого-то и дать толчок к началу чего-то нового.

Как оказалось, даже мимолетное выступление на конференции может дать стимул кому-то начать что-то интересное для себя и начать менять себя и что-то вокруг.

Этот пост заметка и будет в закрепе, и я откреплю его тогда, когда завершу серию постов. Наверное, поставлю тут тег #kovalskii_story.

Их потом можно будет найти по нему и прочитать подряд.
🔥1264