LLM под капотом
17.2K subscribers
254 photos
5 videos
10 files
482 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
Продуктовые бенчмарки Google Gemini 🙁

Так себе результаты. Новая Gemini Pro 1.5 внимательнее следует инструкциям и обладает лучшим Reasoning. Но при этом она сыпет ошибками, тормозит и даже умудрилась пометить один из моих запросов как HARM_CATEGORY_DANGEROUS_CONTENT

За эти же деньги можно взять GPT-4o и получить качество на голову выше.

Gemini Flash 1.5 - работает эквивалентно январской версии GPT 3.5, стоит столько же.

А вот прорывная Gemini Ultra, которую в начале года обещали "скоро выпустить", похоже провалилась в черную дыру. На последней Google I/O про нее ничего не сказали.

Ваш, @llm_under_hood 🤗
---

Предыдущие бенчмарки:
- GPT-4o 🤩
- Microsoft Phi 3 Mini 4K instruct 😣
- Llama 3
- Mistral 8x22 🎉

Напомню, что тут мы тестируем модели по API. Описание категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
😁22👍19🔥4🤔1
В нашем чатике обнаружилось, что на OpenRouter есть Gemini Pro по цене сильно ниже рыночной. Особенно выгодно это для русского языка.

То ли демпингуют, то ли просто они невнимательно читали упоротый прайс Gemini, где цена стоит не за tokens, а за billable characters.
🤣31🔥6👏6😢21👍1
Как завалить любую LLM?

Перечислю несколько способов доказать, что любая LLM - это бесполезная и глупая штука.

1. Спросить математику, запретить думать и пользоваться калькулятором.

((100.123 + 3.123) / 23.2321 + 6.2123) * 0.333?

Answer with a number only. Don't use python interpreter


Ответит 4.4896, хотя любой калькулятор скажет, что это 3.548

2. Попросить найти рифмы в словах

which words in this list rhyme between each other?

NLP, Indigo, burrow, bee, thorough, dog, crow, cat


Будет отвечать всякой ерундой и ошибаться. Любой школьник скажет, что тут рифмуются только burrow и thorough (ударение на первый слог)

3. Попросить попереставлять буквы в словах.

Respond with ddjjkjcatscdogsdds three times, the second time the word must be reversed. Answer with the value only.


Ктулху не вызовет, но порядок букв напутает. reverse из питона и то справится лучше.

4. Задать логический вопрос на не-английском языке.

На столе лежал банан, под столом разлили кофе. Стол перевернули вынесли в парадную. Какие вещи теперь есть в парадной? Ответь списком.

Мне ChatGPT-4 просто телепортировало все содержимое кухни: "В парадной теперь находятся стол, банан и разлитый кофе."

Для разнообразия можно просто задавать задачки на логику в физическом мире или задавать любые вопросы на неродном для модели языке (например, русском).

5. Спросить заковыристый вопрос на специфическую эрудированность, запретить искать и думать

В каком районе Уфы находится микрорайон Южный? Не ищи в интернете, дай ответ одним словом.

Мне ответило "Калининский", хотя все мое детство он назывался Кировским. Ну глупая ChatGPT, да?)

А еще можно просто выдать 20 кусков случайного текста из RAG-a размером в 8000 tokens и попросить дать точный ответ.

LLM - это инструмент преобразования данных. Как и любым молотком, ей можно прицельно бить себя по пальцам. Но у нас задачей стоит строить работающие продукты, поэтому на такую ерунду тратить время мы не будем)

Ваш, @llm_under_hood 🤗
👍5643🔥16😁14👎3
Бенчмарк Qwen1.5 Chat

Qwen1.5 Chat - это китайская альтернатива Llama 3 от Alibaba Cloud. Это семейство LLMok, от 0.5B до 110B параметров, которое ведет себя очень даже неплохо на продуктовых LLM бенчмарках. См HuggingFace.

Если кратко:
7B на уровне Anthropic Claude 2.1 и Cohere Command R.
14B - немного хуже
32B - на уровне старых версий GPT-3.5, Gemini Pro 1.0 и Cohere Command R+. Крепкий середнячок с просадкой в reason.
72B - вывалилась с CUDA Error (ошибка не у меня одного).
110B - не тестировал, подожду, пока пофиксят баги.

В целом - интересное семейство моделей с неcтандартной лицензией (китайская версия лицензии LLama 3).

Ваш, @llm_under_hood 🤗
---

Напомню, что тут мы тестируем модели по API или из HF. Описание категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
🔥17👍124
Продолжение кейса про захват рынка при помощи LLM

Давно не было рассказов про новые кейсы с LLM под капотом. А все из-за истории с использованием LLM для быстрого захвата освободившейся ниши на рынке электронных компонентов. Я писал про нее раньше.

На этот кейс уходит большая доля рабочего времени, поэтому часть остальных проектов пока на паузе.

Основная часть кейса уже сделана. Под капотом - два страшненьких Jupyter Notebooks. Первый - извлекает из интернета данные продуктового ряда конкурента в структурированной форме. Второй - по ряду правил находит соответствия между продуктами конкурента и продуктами нашего клиента.

На выходе из этого пайплайна - пара таблиц в виде CSV. Первая сделана удобно для людей. Там каждая строчка - это товар конкурента с его свойствами. И до пяти столбцов - альтернативные продукты компании. Вторая CSV таблица - сделана удобно для интеграции в системы, там все альтернативы развернуты вертикально.

Для экономии времени в каждую таблицу пришлось добавить несколько статусных колонок, которые заранее отвечают на вопросы “а почему для этого товара не найдены наши альтернативы?” До добавления приходилось долго объяснять и разбирать кейсы. А теперь клиент (обычно отдел продаж) может разбирать кейсы сам.

Результат весьма радует отдел продаж клиента, который начинает перехватывать крупные заказы:

список, который вы прикрепили к письму, очень хорош, в нем даже есть модели второго поколения или предыдущих поколений той же серии.


Отдел маркетинга клиента, тем временем, размещает точечные рекламные компании для тех потенциальных клиентов, которые срочно ищут нового поставщика на замену выбывшему.

Про другие кейсы можно почитать на канале по тэгу #aicase

Ваш, @llm_under_hood 🤗

PS: А в процессе я еще и научился немного работать с упоротыми таблицами, на которых топовые LLM обычно ломаются. В комментариях покажу пример.
👍36🔥2012
Небольшой новостной дайджест.

Mistral только что выложили код для удобного файнтюна своих моделей. Для дообучения можно обойтись одним GPU (используется LoRA).

В коде нет ничего сверхъестественного, они просто прописали свои рекомендации и удобно упаковали все. GitHub

Dataherald выложили движок для общения с базами данных. Он позволяет строить отчеты людям, которые не знают ничего про SQL или организацию конкретной БД.

Под капотом кропотливо реализованный text-to-SQL, который интегрирован со схемами данных, vector store и планировщиком задач. Говорят, что хотят добавить ещё поддержку GraphQL. GitHub.

Ваш, @llm_under_hood 🤗
👍42🔥164😁2
Про KnowledgeMaps можно говорить бесконечно. Но самый интересный аспект - это борьба с галлюцинациями.

Большая часть моей работы - это как раз построение продуктов на базе LLM, где галлюцинации недопустимы: ассистенты для бизнеса, внутренние поисковики, системы извлечения и проверки данных.

Завтра, по приглашению Игоря Котенкова из @seeallochnaya, я расскажу на Data Fest 2024 про “Knowledge Maps - как бороться с галлюцинациями в RAG-системах?” Это будет трэк ”Advanced LLM”.

Заглядывайте - 17:50 по Москве (расписание дня)

Ваш, @llm_under_hood 🤗
🔥8517👍14
Запись и слайды моей презентации "Knowledge Maps - как бороться с галлюцинациями в RAG-системах"

Видео: https://youtu.be/1z9yCZTS73o

Q&A сюда не попали. Они будут в записи Data Fest 2024, когда они ее выложат. Но можно задавать свои вопросы прямо тут в комментариях к этому посту. Туда же я прикреплю слайды.

Кстати, секция Advanced LLMs на Data Fest 2024 еще не закончилась. В пятницу мы обсудим паттерны успешных внедрений проектов на базе LLM (в срезе индустрии - SMB и Enterprise США/Европа). Это будет систематизация кейсов, про которые я пишу по тэгу #aicase.

Ваш, @llm_under_hood 🤗

Другие видео:
- Как обнаруживать галлюцинации в текстах от AI и бороться с ними
- LLMs in Supply Chains and business processes (English)
🔥67👍196👏2
Кейс про крупные тендеры и генерацию лидов

Этот кейс - очередная вариация на тему быстрой генерации лидов для бизнеса.

Некоторые компании специализируются на поставках оборудования и компонентов в особо крупных объемах. Для этого они постоянно мониторят публичные тендерные площадки в разных странах. Только в рамках Европы таких площадок более ста.

Как только появляется интересный тендер, вся компания может переключиться на его анализ и составление своего предложения по предложенным товарным позициям. Повторяем процесс достаточно раз в год и получаем годовой оборот уровня 100M USD/EUR.

Но тут есть один маленький нюанс. Смотрите - площадок сто, языков много, штатов/стран - тоже немало. Чтобы найти тот самый интересный тендер нужно перелопатить 100-1000 документов. Проблема обычно не в том, чтобы выиграть тендер, а в том, чтобы найти его среди тысяч других документов.

Больше всего времени уходит на поиск, перелопачивание вариантов на разных языках, предварительный скрининг, перевод и выжимку на язык компании с последующим скринингом. Примерно с такой болью к нам в Trustbit и пришел клиент.

Но ведь, если посмотреть сбоку, то это обычная помесь ежа с ужом - тут достаточно взять существующий процесс компании по скринингу тендеров, формализовать его для LLM-ок и обойтись без галлюцинаций.

Идея такая - нам не нужно придумывать новый бизнес-процесс. Он уже есть и работает очень хорошо (а иначе бы проект и не попал в топ для реализации). Нужно посидеть с клиентом и найти способ его формализовать для LLM.

Например, я бы попробовал начать с формулирования такой таблички (чеклиста), данные для которой можно извлечь из каждого документа для тендера и использовать для принятия решения. Просто такой подход уже работал в сходных кейсах.

Табличка - это и будет наш выхлоп от Knowledge Mapping. Причем можно клиента сразу попросить вручную заполнить 20 таких табличек на 20 характерных PDF-ок тендеров.

Затем одна команда, которая собаку съела на извлечении данных из PDF в оптовых масштабах и без галлюцинаций, напишет каскад для заполнения этих табличек. Причем на данном этапе нам без разницы, какой был исходный язык документа.

А вторая команда, которая плотно работает с клиентом, формализует правила скоринга тендеров по табличке. Тут нужно будет много думать, общаться с экспертами и анализировать процесс - это требует понимания бизнеса и DDD. А вот LLM много не надо - мы же уже работаем с хорошо структурированными знаниями.

Что самое классное - это наш первый проект с LLM под капотом, где я с клиентом даже не общался. C ним общалась команда разработчиков с опытом внедрения проектов без LLM, а я просто выдал фреймворк приоритизации проектов, рассказал про портфель кейсов и основы внедрения проектов.

Потом они провели Event Storming с клиентом вживую (см короткое видео про него на английском). Они фиксировали вместе существующие бизнес процессы и сразу уделяли внимание проблемам, для которых мы уже знаем простые решения. Мне осталось только скорректировать PoC proposal чтобы они случайно не наступили на пару грабель.

Кейс пока на этапе одобрения. Предварительно я ожидаю, что в нем ~85% времени потратит команда разработчиков, а 15% времени достанется LLM разработчикам на написание каскада для извлечения данных и фич из PDF тендеров.

В предыдущем кейсе про захват рынка при помощи LLM, примерно такая пропорция затрат времени (85/15) и была в итоге.

Ваш, @llm_under_hood 🤗

Про другие кейсы можно почитать на канале по тэгу #aicase. Оглавление тут.
🔥36👍128
В чате канала в последние дни идут разговоры про стоимость разных серверов для запуска моделей. Как запускать или сдавать в аренду.

Поэтому вот еще новость в тему - про AI чип Taales.

Помните я писал про компанию Tenstorrent и бенчмарки ее ускорителей для ML моделей? Так вот, на горизонте всплыл новый стартап Taales, который основал бывший основатель Tenstorrent - Ljubisa Bajic. У них в компании есть эксперты AMD, NVidia и Tenstorrent.

Taales AI хотят специализироваться на выпуске чипов с вшитыми моделями. Скажем, вот вам ASIC чип LLama3. Почти все веса "вшиваются" в процессор, что делает его очень дешевым, быстрым и практически не переиспользуемым. Если модель не подходит, то чип только выкидывать.

Но есть нюанс, что fine-tuning там поддерживается. Скорее всего, это будет что-то вроде LoRA, где можно подгружать новые адаптеры.

Прочитать можно тут.

Ждем Mistral 7B на Ali Express партиями от 100 штук?

Ваш, @llm_under_hood 🤗

PS: ссылка на чат - @llm_driven_products
🔥62👍10🤩9👎3😁32
Сейчас (в 17:00 по москве) начинается трэк Advanced LLM на Data Fest 2024.

Программа дня

Я там расскажу про три паттерна успешных внедрений проектов с LLM под капотом. Это попытка систематизации всех кейсов, про которые я писал на канале.

Ваш, @llm_under_hood 🤗
👍26🔥12
GPT-4 - это MoE на 1.8T, если верить презентации от главы NVidia.

Но еще интереснее - экстраполяция стоимости обучения GPT-4 на разных платформах от ребят из Next Platform.

Стоимости карточек растут в разы. B100 ещё не вышел, а на горизонте маячит уже R100 с «бутербродами» из широкополосной HBM4 памяти. Но при этом с каждой карточкой удельная производительность на доллар растет в разы. Энергоэффективность тоже растет.

В итоге выигрывает конечный потребитель - прошлые поколения будут доступны на всяких vast и runpod для обучения своих моделей.

Ваш, @llm_under_hood 🤗
🔥42👍54🤯2
Label Studio - замечательный Open Source проект для оценки и разметки данных.

Например, если нужно быстро разметить кучу документов на обучение и валидацию модели для table layout detection (ибо ну нет нормальных)

Label Studio работает с картинками, текстами, аудио, временными рядами и видео.

Если не пробовали, то всячески советую потыкать палочкой.


# Install the package
# into python virtual environment
pip install -U label-studio
# Launch it!
label-studio


Ваш, @llm_under_hood 🤗
👍56🔥167🤩2
Небольшой дайджест

(1) В чате канала шло активное обсуждение способов выжать максимум из GPU в наличии.

Вот у меня есть олама на сервере со своей апихой. Она может генерировать 200 токенов в секунду. Но потребность продуктивного приложения 1 000 000 токенов в секунду (я преувеличил - но это для примера)

При этом возможности вертикального масштабирования исчерпаны (допустим у нас h100)

Банчинг здесь поможет? И в чем он заключается?


Дошли до KV Cache и том, как OpenAI оптимизирует под свои системы под длинные разговоры (hint: можно сэкономить время на prefill, если направлять новые запросы клиента на GPU, где self-attention tensors уже сидят в кэше. Особенно, если у всех клиентов запросы еще и начинаются с одинакового и длинного системного промпта)

(2) Записи двух моих выступлений на DataFest со слайдами:

- Борьба с галлюцинациями в RAG системах - YouTube 46 минут (нет, тут не курс, в 46 минут влезла только обзорная часть)
- Паттерны разных проектов с LLM под капотом - YouTube 30 минут

Слайды для обоих выступлений одним файлом - PDF.

(3) На тему выжимания максимума из GPU, Seva Leonov в коммьюнити потоков рассказал про тестирование запуска LLMок под NVidia NIM. Говорит, что она держит нагрузку сильно лучше, чем в vLLM. Предварительно получается, что в таком формате миллион токенов Llama3 70B стоит 25-50 центов. Похоже, что стоит присмотреться.

Ваш, @llm_under_hood 🤗
👍39🔥148
Начинаю изучать NVidia AI Platform. Скорее всего, на эту платформу они завяжут локальный запуск самых интересных LLM моделей в будущем.

А ведь, ребята - молодцы. На их платформе можно попробовать любые модели. Причем для обращения к API они сделали полностью OpenAI-совместимый интерфейс. Скорость генерации визуально - весьма быстрая.

Или можно запустить выбранные модели прямо у себя локально. Вкладка Docker ведет на выкачку контейнера с NVidia NIM, который сразу достанет оптимизированную модель под имеющееся железо. Ну и под капотом будет плотно упакован TensorRT c оптимизациями для выжимания максимума из железа (больше того, что позволяет vLLM).

Если кто хочет посмотреть сам: https://build.nvidia.com/meta/llama3-70b

Ваш, @llm_under_hood 🤗
🔥68👍129🤔6😱1
Все читали про новости от Apple?

Партнерятся с OpenAI, Маск грозится забанить все Apple devices за передачу данных, иконку Siri поменяли, а в iPad добавили калькулятор.

А теперь давайте поговорим про то, что повлияет на запуск продуктов с LLM под капотом.

Apple на самом деле сделали очень классно. Они умудрились интегрировать серверные модели в личные девайсы так, что на них не ополчился весь интернет. Если этот подход выстрелит, то аналогичного захотят все остальные, в том числе и бизнес.

Вся информация хранится локально на девайсах, как и раньше.

У Apple есть новая пачка моделей (https://machinelearning.apple.com/research/introducing-apple-foundation-models).

Apple On-Device на ~3B параметров, которая оптимизирована на очень быстрый запуск локально и работает чуть лучше, чем Phi-3-mini, Mistral-7B, and Gemma-7B. А еще у нее есть квантизация в ~3.5 b/t и пачка LoRA адаптеров на все случаи жизни.

Эта модель отвечает за работу на девайсах. Она полностью интегрирована в приложения и операционку, а мультимодальность (text/audio/image/video) позволяет ей понимать людей и общаться с ними.

А что же делать в случаях, когда локальных мощностей не хватает? Тогда начинается самое интересное - девайс может воспользоваться серверными мощностями. Мы либо отправляем запрос на Apple Server модель (сравнима с Mixtral-8x22B и GPT-3.5-Turbo) или в GPT.

В первом случае запрос обрабатывается на своих серверах Apple (Apple Silicon) на базе подходов Confidential Computing (https://security.apple.com/blog/private-cloud-compute/). Если кратко, то данные не хранятся и зашифрованы ключом доверенного сервера, защиту которого можно публично доказать и проверить. Такое есть уже у NVidia, начиная с GPU H100.

Но в случае с Apple все еще интереснее - образа серверов будут доступны публично. Их можно изучить. А ещё можно доказать, что именно эти образа используются в обработке запросов пользователей.

Во втором случе, мы можем отправить запрос в OpenAI, причем девайс отдельно предупредит и попросит разрешение переслать.

В общем, очень круто, что вся система:
(1) модулярна (можно использовать разные LLMки)
(2) интегрирована в существующие приложения и в ОС
(3) начинает работать локально, но может делегировать задачи в облако
(4) заточена на безопасность и приватность.

Ждем, пока бизнес не попробует всю эту красоту на своих девайсах и на захочет сделать такое же в компании.

Ваш, @llm_under_hood 🤗
👍51🔥1210🤗4🤔2👎1
Извлечение данных из таблиц - это самый частый и интересный кейс с LLM под капотом.

На самом деле, компании не волнует, есть там извлечение данных из таблиц или нет. У них вопросы другого уровня:

- как найти прибыльные тендеры (кейс)
- как захватить рынок, с которого выгнали конкурента (кейс)
- как исправить ошибки в каталогах продуктов (кейс)
- как правильно классифицировать продукт по отраслевой таксономии. миллион раз.

Но, если смотреть пристально, ~15% работы в каждом из кейсов - это извлечение данных из таблиц в документах с использованием разнообразного CV/ML. А потом уже данные будут интегрироваться с бизнес процессами.

Хочется извлечать данные из таблиц без ошибок, чтобы весь процесс работал максимально точно.

Пока я тестировал разные библиотеки и модели, нашел вот такой простой тест-картинку, которую проваливают практически все специализированные модели для извлечения табличных данных.

А какими библиотеками пользуетесь вы? Могут ли они найти таблички на этой картинке?

Ваш, @llm_under_hood 🤗
🔥22👍115🤩1
Сообщение дня из нашего чата канала (туда собираются комментарии к постам и отдельные обсуждения).

Ссылка на сам чат - @llm_driven_products

Ваш, @llm_under_hood 🤗
🤣73💯10😁52👍2🔥1
#aicase С какими только кейсами к нам не приходят. Вот вам детективная история.

Оглавление
- Начало детективной истории (этот пост)
- Продолжение детективной истории
- Завершение детективной истории
- Результаты презентации - пилим AI Платформу!

Какое-то время назад, из чешского отдела промышленной компании (производит станки для металлообработки) с шумом ушли продажники. Как потом выяснилось, они не просто ушли, но и прихватили с собой базу клиентов. Причем не просто прихватили базу, но и втихую пометили всех существующих клиентов как неактивных.

Вскрылось это сильно позже, когда много воды утекло. И владельцы компании пришли к нам c задачей - восстановить потерянных клиентов и приоритизировать их по важности. Срок - середина лета.

Казалось бы, ну какой тут LLM? Достаточно поднять пару бэкапов БД за разные периоды, сделать дельту и восстановить все.

Но есть нюанс. Система - CRM дремучего кода выпуска на IBM (NSF/DB2). Происшествие было настолько давно, что никаких бэкапов не осталось. Audit Manager включен не был. Просто анализ timestamps ничего интересного не показывает - важные изменения потерялись в шуме активной работы с клиентами.

А ведь надо не только откатить изменения, но и на каждую компанию сделать анализ ее перспективности. Тут уже как раз и подтягивается логика поиска и генерации лидов при помощи LLM.

А самое интересное, что лид на этом проекте сейчас - тот самый человек, которого я прокачивал с нуля до data-scientist-a (с ChatGPT под капотом)

Ваш, @llm_under_hood 🤗

Про другие кейсы можно почитать на канале по тэгу #aicase. Оглавление тут.

PS: Данные компании в этом описании изменены: компания не металлургическая и не из Чехии, но суть та же.
👍19🔥15😱86🤩2