LLM под капотом

Сейчас (в 17:00 по москве) начинается трэк Advanced LLM на Data Fest 2024.

Программа дня

Я там расскажу про три паттерна успешных внедрений проектов с LLM под капотом. Это попытка систематизации всех кейсов, про которые я писал на канале.

Ваш, @llm_under_hood 🤗

👍26🔥12

7.11K viewsedited 13:57

LLM под капотом

GPT-4 - это MoE на 1.8T, если верить презентации от главы NVidia.

Но еще интереснее - экстраполяция стоимости обучения GPT-4 на разных платформах от ребят из Next Platform.

Стоимости карточек растут в разы. B100 ещё не вышел, а на горизонте маячит уже R100 с «бутербродами» из широкополосной HBM4 памяти. Но при этом с каждой карточкой удельная производительность на доллар растет в разы. Энергоэффективность тоже растет.

В итоге выигрывает конечный потребитель - прошлые поколения будут доступны на всяких vast и runpod для обучения своих моделей.

Ваш, @llm_under_hood 🤗

🔥42👍5❤4🤯2

27.1K views06:32

LLM под капотом

Label Studio - замечательный Open Source проект для оценки и разметки данных.

Например, если нужно быстро разметить кучу документов на обучение и валидацию модели для table layout detection (ибо ну нет нормальных)

Label Studio работает с картинками, текстами, аудио, временными рядами и видео.

Если не пробовали, то всячески советую потыкать палочкой.


# Install the package
# into python virtual environment
pip install -U label-studio
# Launch it!
label-studio

Ваш, @llm_under_hood 🤗

👍56🔥16❤7🤩2

7.36K viewsedited 09:33

LLM под капотом

Небольшой дайджест

(1) В чате канала шло активное обсуждение способов выжать максимум из GPU в наличии.

Вот у меня есть олама на сервере со своей апихой. Она может генерировать 200 токенов в секунду. Но потребность продуктивного приложения 1 000 000 токенов в секунду (я преувеличил - но это для примера)

При этом возможности вертикального масштабирования исчерпаны (допустим у нас h100)

Банчинг здесь поможет? И в чем он заключается?

Дошли до KV Cache и том, как OpenAI оптимизирует под свои системы под длинные разговоры (hint: можно сэкономить время на prefill, если направлять новые запросы клиента на GPU, где self-attention tensors уже сидят в кэше. Особенно, если у всех клиентов запросы еще и начинаются с одинакового и длинного системного промпта)

(2) Записи двух моих выступлений на DataFest со слайдами:

- Борьба с галлюцинациями в RAG системах - YouTube 46 минут (нет, тут не курс, в 46 минут влезла только обзорная часть)
- Паттерны разных проектов с LLM под капотом - YouTube 30 минут

Слайды для обоих выступлений одним файлом - PDF.

(3) На тему выжимания максимума из GPU, Seva Leonov в коммьюнити потоков рассказал про тестирование запуска LLMок под NVidia NIM. Говорит, что она держит нагрузку сильно лучше, чем в vLLM. Предварительно получается, что в таком формате миллион токенов Llama3 70B стоит 25-50 центов. Похоже, что стоит присмотреться.

Ваш, @llm_under_hood 🤗

👍39🔥14❤8

7.09K views07:41

LLM под капотом

Начинаю изучать NVidia AI Platform. Скорее всего, на эту платформу они завяжут локальный запуск самых интересных LLM моделей в будущем.

А ведь, ребята - молодцы. На их платформе можно попробовать любые модели. Причем для обращения к API они сделали полностью OpenAI-совместимый интерфейс. Скорость генерации визуально - весьма быстрая.

Или можно запустить выбранные модели прямо у себя локально. Вкладка Docker ведет на выкачку контейнера с NVidia NIM, который сразу достанет оптимизированную модель под имеющееся железо. Ну и под капотом будет плотно упакован TensorRT c оптимизациями для выжимания максимума из железа (больше того, что позволяет vLLM).

Если кто хочет посмотреть сам: https://build.nvidia.com/meta/llama3-70b

Ваш, @llm_under_hood 🤗

🔥68👍12❤9🤔6😱1

7.55K viewsedited 17:25

LLM под капотом

Все читали про новости от Apple?

Партнерятся с OpenAI, Маск грозится забанить все Apple devices за передачу данных, иконку Siri поменяли, а в iPad добавили калькулятор.

А теперь давайте поговорим про то, что повлияет на запуск продуктов с LLM под капотом.

Apple на самом деле сделали очень классно. Они умудрились интегрировать серверные модели в личные девайсы так, что на них не ополчился весь интернет. Если этот подход выстрелит, то аналогичного захотят все остальные, в том числе и бизнес.

Вся информация хранится локально на девайсах, как и раньше.

У Apple есть новая пачка моделей (https://machinelearning.apple.com/research/introducing-apple-foundation-models).

Apple On-Device на ~3B параметров, которая оптимизирована на очень быстрый запуск локально и работает чуть лучше, чем Phi-3-mini, Mistral-7B, and Gemma-7B. А еще у нее есть квантизация в ~3.5 b/t и пачка LoRA адаптеров на все случаи жизни.

Эта модель отвечает за работу на девайсах. Она полностью интегрирована в приложения и операционку, а мультимодальность (text/audio/image/video) позволяет ей понимать людей и общаться с ними.

А что же делать в случаях, когда локальных мощностей не хватает? Тогда начинается самое интересное - девайс может воспользоваться серверными мощностями. Мы либо отправляем запрос на Apple Server модель (сравнима с Mixtral-8x22B и GPT-3.5-Turbo) или в GPT.

В первом случае запрос обрабатывается на своих серверах Apple (Apple Silicon) на базе подходов Confidential Computing (https://security.apple.com/blog/private-cloud-compute/). Если кратко, то данные не хранятся и зашифрованы ключом доверенного сервера, защиту которого можно публично доказать и проверить. Такое есть уже у NVidia, начиная с GPU H100.

Но в случае с Apple все еще интереснее - образа серверов будут доступны публично. Их можно изучить. А ещё можно доказать, что именно эти образа используются в обработке запросов пользователей.

Во втором случе, мы можем отправить запрос в OpenAI, причем девайс отдельно предупредит и попросит разрешение переслать.

В общем, очень круто, что вся система:
(1) модулярна (можно использовать разные LLMки)
(2) интегрирована в существующие приложения и в ОС
(3) начинает работать локально, но может делегировать задачи в облако
(4) заточена на безопасность и приватность.

Ждем, пока бизнес не попробует всю эту красоту на своих девайсах и на захочет сделать такое же в компании.

Ваш, @llm_under_hood 🤗

👍51🔥12❤10🤗4🤔2👎1

7.49K viewsedited 07:59

LLM под капотом

Извлечение данных из таблиц - это самый частый и интересный кейс с LLM под капотом.

На самом деле, компании не волнует, есть там извлечение данных из таблиц или нет. У них вопросы другого уровня:

- как найти прибыльные тендеры (кейс)
- как захватить рынок, с которого выгнали конкурента (кейс)
- как исправить ошибки в каталогах продуктов (кейс)
- как правильно классифицировать продукт по отраслевой таксономии. миллион раз.

Но, если смотреть пристально, ~15% работы в каждом из кейсов - это извлечение данных из таблиц в документах с использованием разнообразного CV/ML. А потом уже данные будут интегрироваться с бизнес процессами.

Хочется извлечать данные из таблиц без ошибок, чтобы весь процесс работал максимально точно.

Пока я тестировал разные библиотеки и модели, нашел вот такой простой тест-картинку, которую проваливают практически все специализированные модели для извлечения табличных данных.

А какими библиотеками пользуетесь вы? Могут ли они найти таблички на этой картинке?

Ваш, @llm_under_hood 🤗

🔥22👍11❤5🤩1

7.1K views12:25

LLM под капотом

Сообщение дня из нашего чата канала (туда собираются комментарии к постам и отдельные обсуждения).

Ссылка на сам чат - @llm_driven_products

Ваш, @llm_under_hood 🤗

🤣73💯10😁5❤2👍2🔥1

6.47K views14:06

LLM под капотом

#aicase С какими только кейсами к нам не приходят. Вот вам детективная история.

Оглавление
- Начало детективной истории (этот пост)
- Продолжение детективной истории
- Завершение детективной истории
- Результаты презентации - пилим AI Платформу!

Какое-то время назад, из чешского отдела промышленной компании (производит станки для металлообработки) с шумом ушли продажники. Как потом выяснилось, они не просто ушли, но и прихватили с собой базу клиентов. Причем не просто прихватили базу, но и втихую пометили всех существующих клиентов как неактивных.

Вскрылось это сильно позже, когда много воды утекло. И владельцы компании пришли к нам c задачей - восстановить потерянных клиентов и приоритизировать их по важности. Срок - середина лета.

Казалось бы, ну какой тут LLM? Достаточно поднять пару бэкапов БД за разные периоды, сделать дельту и восстановить все.

Но есть нюанс. Система - CRM дремучего кода выпуска на IBM (NSF/DB2). Происшествие было настолько давно, что никаких бэкапов не осталось. Audit Manager включен не был. Просто анализ timestamps ничего интересного не показывает - важные изменения потерялись в шуме активной работы с клиентами.

А ведь надо не только откатить изменения, но и на каждую компанию сделать анализ ее перспективности. Тут уже как раз и подтягивается логика поиска и генерации лидов при помощи LLM.

А самое интересное, что лид на этом проекте сейчас - тот самый человек, которого я прокачивал с нуля до data-scientist-a (с ChatGPT под капотом)

Ваш, @llm_under_hood 🤗

Про другие кейсы можно почитать на канале по тэгу #aicase. Оглавление тут.

PS: Данные компании в этом описании изменены: компания не металлургическая и не из Чехии, но суть та же.

👍19🔥15😱8❤6🤩2

6.75K viewsedited 11:42

LLM под капотом

Когда-то я писал про исследование в области генерации синтетических данных для обучения специализированных моделей (см в посте тут).

Основная проблема тут - качество некоторых моделей достаточно плохое, есть куча примеров данных, на которых они ломаются. И хотелось бы дообучить модели на этих примерах.

Но у каждого клиента такие примеры свои, и нельзя их использовать для обучения моделей. Либо это коммерческая тайна, либо просто нет явного разрешения правообладателя.

Что делать? Можно генерировать синтетические данные, которые воспроизводят паттерн проблеми, могут использоваться для обучения моделей и их тестирования. Причем, поскольку мы работаем со своим генератором, то на каждый паттерн можем сгенерировать хоть тысячу конкретных кейсов для обучения.

И вот на этих выходных у меня получилось набросать первый пример такого генератора, который воспроизводит проблемы на популярных моделях табличного распознавания. Примеры картинок покидаю в комментарии.

(код - закрытый, но подходом - делюсь)

Почему именно я начал с таблиц? А извлечение данных at scale - это самый частый и самый выгодный паттерн в AI проектах (см Паттерны разных проектов с LLM под капотом - YouTube 30 минут)

Ваш, @llm_under_hood 🤗

🔥18👍7❤6

7.24K viewsedited 09:20

LLM под капотом

Видео про паттерны AI внедрений в компаниях.

Меня пригласили на интервью рассказать о паттернах внедрения AI проектов в компаниях.

Интервью ведет Oleg Koujikov из Angelneers. Поэтому мы говорим про то, что сейчас интересует компании в силиконовой долине:

0:00 The goals of AI
4:33 Confusion about AI
7:20 Enterprise AI use cases
13:08 Issues with LLM integration
17:32 Data discovery and integration

Посмотреть видео можно тут: YouTube 20min, English

Ваш, @llm_under_hood 🤗

🔥28👍16❤3🤗1

7.51K viewsedited 07:53

LLM под капотом

Все уже слышали, что Илья Суцкевер запускает свою компанию про создание безопасного AI: Safe Superintelligence Inc.

Что интереснее - сайт им cделал Nat Friedman (бывший CEO Github) - партнер Daniel Gross-a, который участвует в проекте Ильи. А у этих ребят есть еще проект Andromeda Cluster (12 exaflops или 4862кг H100/A100 с infiniband). А еще у них есть проект gpulist - где можно арендовать небольшие кластера GPU-шек (он на скриншоте).

Так что мощности для обучения моделей у компании Ильи будут.

Ваш, @llm_under_hood 🤗

🔥68❤13👍7

7.51K views18:30

LLM под капотом

Claud 3.5 Sonnet внезапно очень хороша на бенчмарках. Аж взлетела на третье место.

Она настолько хороша, что возникает подозрение - на чем они сэкономили, чтобы получить такую сбалансированную и дешевую модель?

Текущая версия бенчмарков работает с небольшим контекстом, так что если вдруг модель начинает проседать с ростом контекста (как это случается у GPT4o), то этого мои цифры пока не покажут.

Но в целом очень классно и интересно. Ребята из Anthropic - молодцы.

Ваш, @llm_under_hood 🤗
---

Напомню, что тут мы тестируем модели по API или из HF. Описание категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench

🔥39👍21❤5🤔1

7.35K viewsedited 21:06

LLM под капотом

Я потестировал целую пачку разнообразных LLM-ок небольшого форм-фактора.

Из интересного.

Google Gemma 7B IT - внешне слабая модель, которая совсем не слушается. Но вот Gemma 7B OpenChat-3.5 v3 0106 - это файнтюн от OpenChat, который внезапно внезапно забрался довольно высоко. Выше первой GPT-3.5! 🚀

Выше него, из локальных моделей только Qwen1.5 32B Chat от AliBaba. Эта модель внимательнее читает инструкции (выше integrate), но соображает сильно хуже (ниже reason)

Из того, что я тестировал, но вело себя достаточно плохо в продуктовом бенчмарке:

- Yi 1.5 34B Chat
- Google Recurrent Gemma 9B IT
- Microsoft Phi 3 Mini/Medium
- Google Gemma 2B/7B

Ваш, @llm_under_hood 🤗
---

Напомню, что тут мы тестируем модели по API или из HF. Описание категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench

🔥24👍9❤3👎2🤔1🤯1

6.52K viewsedited 15:04

LLM под капотом

Etched аннонсировали новый AI чип, который способен генерировать 500000 токенов Llama 70B в секунду. Говорят, что один сервер с 8x Sohu заменяет 160x H100.

Это вполне возможно благодаря тому, что их чипы заточены только на поддержку трансформеров. В своем объявлении они рассказывают, откуда такая мощность и почему они делают ставку на эту архитектуру

На каждом устройстве идет 144 GB HBM3E (широкополосная память со скоростью порядка 1.23 TB/s), что очень важно для высокой скорости работы LLM с большим числом параметров.

Стоимость чипов неизвестна, но заказов на "tens of millions of dollars" клиенты уже разместили. Чипы делает TSMC на 4nm, объемов дефицитной памяти они зарезервировали на год вперед, а специалистов к себе они переманили из всех топовых проектов по созданию AI чипов.

Это очень похоже как на стартап Taales, про который я писал раньше, так и на кучу других компаний по созданию AI чипов. Посмотрим, что у них получится.

Baш, @llm_under_hood 🤗

PS: спасибо за наводку Айгизу

🔥60👍14

7.17K viewsedited 18:39

LLM под капотом

Artifacts в чате Antropic Claude - это неожиданно крутая и приятная фишка. Она даже не столько про более мощную модель, сколько про удобный интерфейс и интеграцию.

Идея тут простая - мы часто работаем с документами или кусками кода. И если система находит такой документ, она вытащит его в отдельное окно, которое всегда будет рядом. Этот документ будет версионироваться, над ним можно работать итеративно.

В интерфейсе можно удобно переключаться между разными артефактами и просматривать содержимое всех документов, которые мы вложили. А если, скажем, вложить PDF, то можно будет увидеть текст, который был извлечен и передан в модель.

Из-за Артифактов и улучшения способностей Claude 3.5 Sonnet я теперь предпочитаю использовать чат Антропика для работы с кодом и документами (https://claude.ai). Кстати, там есть триал (при регистрации просят номер телефона)

Baш, @llm_under_hood 🤗

👏34❤18🔥9👍1

8.42K viewsedited 08:03

LLM под капотом

Официально опубликованы LLM бенчмарки за июнь 2024. В выпуске:

- Большие прорывы: Claude 3.5 Sonnet и фича Artifacts
- Бенчмарки небольших локальных моделей, тренды
- Confidential computing: как сделать системы c LLM под капотом более безопасными

В выпуске мы собрали бенчмарки из нашего канала "LLM под капотом" за последний месяц. Плюс добавили некоторые инсайты из общения с компаниями про confidential computing и экономный запуск LLM моделей.

English / Deutsch

Baш, @llm_under_hood 🤗

🔥18🤩13❤5👍3👎1

8.01K viewsedited 10:09

LLM под капотом

#aicase Про продолжение детективной истории

Дело было так - одна европеская компания попросила восстановить список клиентов, который утащили ребята из отдела продаж. Я про кейс писал ранее.

- Начало детективной истории
- Продолжение детективной истории (этот пост)
- Завершение детективной истории
- Результаты презентации - пилим AI Платформу!

В последние недели кейс получил продолжение, даже с применением LLM. Дело было так.

Сначала компания прислала списки всех своих клиентов, сотрудников и любых контактов. Все это было в виде старого доброго Excel на сотни мегабайт.

Мы эти списки разворошили на предмет нестыковок в данных. Тут активное участие принимал сотрудник, которого прокачивали с нуля до аналитика данных с ChatGPT (писал тут).

У всех таблиц были странные заголовки - капсом, с сокращениями и на чешском. Я использовал ChatGPT, чтобы весь этот бардак привести к читаемому виду: сначала импортируем в SQLite, а потом просим почистить имена таблиц и столбцов, чтобы было консистентно и читаемо.

В процессе всплыли нестыковки в данных, например были клиенты в списках контактов, но их не было в основной таблице. В компании не знали причин. Чтобы исключить косяки экспорта, я попросил их не экспортировать в Excel, а прислать сырые данные.

И тут выяснилось, что система работает с дремучим форматом данных DataFlex старой версии. Но у нас к тому моменту уже был Anthropic c Projects & Artifacts, который делает работу с кодом более удобной. Поэтому за несколько дней получилось написать свой парсер для данных, покрыть тестами и отладить.

А дальше началось самое интересное - завели проект для быстрого анализа данных в Antrhopic:
- импортировали все данные в SQLite для удобства анализа
- переименовали все столбцы консистентно и читаемо
- завели новый проект в Anthropic Claude, куда загрузили схему БД, наши познания о клиенте и методички по анализу данных

И теперь можно было начинать чат в этом проекте прямо с вопроса вроде:

I want heat map for all deactivated customers (status == U). One axis - all ChangeWho. Another axis - day of the year for the ChangeDate. I'm looking for patterns, if somebody has been causing a lot of deactivations on one day

На такой вопрос Claude сразу писало код, который можно было вставлять одним куском в Jupyter Notebook и получать визуализацию и результаты анализа.

Это позволило очень быстро перелопачивать данные в поисках следов и паттернов. Пишешь вопрос, копируешь результат из артифакта и исполняешь. Если что-то нужно поправить - корректируешь и забираешь новый артифакт. Claude 3.5 Sonnet тут работает очень хорошою

А как же NDA? А мы же переименовали всю схему и убрали все личное из описания. Плюс сами данные никогда не покидают локальные системы - исполнение кода и работа с ними происходит локально.

Ваш, @llm_under_hood 🤗

PS: Окончание истории тут.

🔥44👍23❤6⚡5

7.02K viewsedited 13:07

LLM под капотом

Codestral-Mamba - MistralAI снова порадовали.

(скриншоты таблицы бенчмарка - в комментариях)

Они выпустили модель Codestral-Mamba на 7B параметров, которая оказалось на самом низу первой страницы бенчмарка. И это круто по трем причинам.

Во-первых, мой бенчмарк оценивает не только генерацию кода. Он ранжирует модели модели по их способности работать в разных продуктах с LLM под капотом. А это сильно сложнее, чем просто генерация кода. И тут Mamba внезапно показывает неплохой результат во всех категориях, кроме Reason.

Во-вторых, это не трансформерная модель, а Mamba! Mamba-модели считаются более эффективными и быстрыми, а еще у них нет таких ограничений в размере контекста. Но вот пока не получалось обучить внятную модель, которая могла хоть что-то. А тут кодовая 7B модель на сырой архитектуре внезапно оказалась на уровне Mixtral 8x22B или первых версий Anthropic

В-третьих, она доступна для любого использования c HF. Правда в llama.cpp и HF transformers пока поддержку не завезли. В TensorRT-LLM, говорят, работает.

Ждем новых гвоздей в гроб трансформеров? :)

Model HF | Blog post

Вaш, @llm_under_hood 🤗
---

Напомню, что тут мы тестируем модели по API или из HF. Бенчмарк - закрытый и продуктовый. Описание бенчмарка, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench

❤31👍13🔥4🤔3

6.29K viewsedited 17:48

About

Blog

Apps

Platform