Бенчмарки Mistral Nemo и GPT-4o Mini - приятные мелочи
(таблица бенчмарка - в комментариях)
GPT-4o Mini - новая мультимодальная и очень дешевая модель от OpenAI. Эта модель похожа на более мощную версию GPT-3.5. При этом у нее “Reason” (логические способности) весьма сильные, и она первой выбила 100 очков на категории Marketing - работа с текстами и стилями 🎉
Если бы бенчмарки не были приватными, я бы посчитал, что данные marketing утекли в датасет для обучения))
В общем, это хорошая модель для всяческих классификаторов и раутеров.
Mistral Nemo - новая 12B модель от Mistral AI, которую они обучили вместе с NVidia (announcement) на 3072xH100. Есть открытая версия на Hugging Face, а еще ее можно запустить прямо в их API.
C одной стороны модель стала побольше, чем 7B/8B, но с другой стороны у нее под капотом более эффективный tokeniser и обучение с quantisation awareness. Последнее позволяет запускать модель без потерь качества на FP8, где каждый параметр представлен в виде одного байта.
При этом у модели хороший баланс качества, высокий reasoning и следование инструкциям. Есть вероятность, что тюны OpenChat поднимут ее еще выше в рейтинге, как это было с другими моделями.
Вaш, @llm_under_hood 🤗
---
Напомню, что тут мы тестируем модели по API или из HF. Бенчмарк - закрытый и продуктовый. Описание бенчмарка, категорий и примеры кейсов есть в лабах. Официальная страница тут. См другие бенчмарки по категории #bench
(таблица бенчмарка - в комментариях)
GPT-4o Mini - новая мультимодальная и очень дешевая модель от OpenAI. Эта модель похожа на более мощную версию GPT-3.5. При этом у нее “Reason” (логические способности) весьма сильные, и она первой выбила 100 очков на категории Marketing - работа с текстами и стилями 🎉
Если бы бенчмарки не были приватными, я бы посчитал, что данные marketing утекли в датасет для обучения))
В общем, это хорошая модель для всяческих классификаторов и раутеров.
Mistral Nemo - новая 12B модель от Mistral AI, которую они обучили вместе с NVidia (announcement) на 3072xH100. Есть открытая версия на Hugging Face, а еще ее можно запустить прямо в их API.
C одной стороны модель стала побольше, чем 7B/8B, но с другой стороны у нее под капотом более эффективный tokeniser и обучение с quantisation awareness. Последнее позволяет запускать модель без потерь качества на FP8, где каждый параметр представлен в виде одного байта.
При этом у модели хороший баланс качества, высокий reasoning и следование инструкциям. Есть вероятность, что тюны OpenChat поднимут ее еще выше в рейтинге, как это было с другими моделями.
Вaш, @llm_under_hood 🤗
---
Напомню, что тут мы тестируем модели по API или из HF. Бенчмарк - закрытый и продуктовый. Описание бенчмарка, категорий и примеры кейсов есть в лабах. Официальная страница тут. См другие бенчмарки по категории #bench
🔥24👍11❤4
Новый материал про Knowledge Mapping
Я начинаю формировать материалы для обновления курса про Knowledge Mapping и построение AI ассистентов. За последние месяцы, в процессе объяснений клиентам и другим командам, получилось упростить подачу материала. Как вводную часть, так и подход к паттернам в системах с LLM под капотом (Router, Knowledge Base, Workflow итп).
Самая важная выжимка из этого материала с иллюстрациями есть в лабах. Изначально я делал ее для вечно занятых executives, но теперь открыл доступ для нее всем: Knowledge Mapping Intro
Про Knowledge mapping можно узнать побольше в докладе Datafest 2024. Или в посте "Какие есть примеры Knowledge maps?"
Вaш, @llm_under_hood 🤗
Я начинаю формировать материалы для обновления курса про Knowledge Mapping и построение AI ассистентов. За последние месяцы, в процессе объяснений клиентам и другим командам, получилось упростить подачу материала. Как вводную часть, так и подход к паттернам в системах с LLM под капотом (Router, Knowledge Base, Workflow итп).
Самая важная выжимка из этого материала с иллюстрациями есть в лабах. Изначально я делал ее для вечно занятых executives, но теперь открыл доступ для нее всем: Knowledge Mapping Intro
Про Knowledge mapping можно узнать побольше в докладе Datafest 2024. Или в посте "Какие есть примеры Knowledge maps?"
Вaш, @llm_under_hood 🤗
🔥47❤15👍5🤗5🤔1
Mutable.ai придумала новый подход для улучшения качества ответов чатботов, которые работают с кодом.
Они говорят, что если все исходные данные порезать мелко и сложить в векторную базу данных (или использовать поиск по ключевым словам), а потом передать в RAG, то на выходе получается ерунда.
Они начали использовать вариант, который сильно улучшает качество работы с кодом. Они предобрабатывают данные и складируют их в читаемый документ в виде вики статьи с ссылками, которая еще называется Language Map. Этот документ можно проглядеть глазами, но он преимущественно используется LLM при дальнейшей генерации ответа.
По тестам Mutable.ai, качество ответов выросло в разы. Систему можно посмотреть вот тут - https://wiki.mutable.ai
А вот ссылка на саму статью - twitter.
Вaш, @llm_under_hood 🤗
Они говорят, что если все исходные данные порезать мелко и сложить в векторную базу данных (или использовать поиск по ключевым словам), а потом передать в RAG, то на выходе получается ерунда.
Они начали использовать вариант, который сильно улучшает качество работы с кодом. Они предобрабатывают данные и складируют их в читаемый документ в виде вики статьи с ссылками, которая еще называется Language Map. Этот документ можно проглядеть глазами, но он преимущественно используется LLM при дальнейшей генерации ответа.
По тестам Mutable.ai, качество ответов выросло в разы. Систему можно посмотреть вот тут - https://wiki.mutable.ai
А вот ссылка на саму статью - twitter.
Вaш, @llm_under_hood 🤗
🔥31🤔12👍9🥰4🤝4😁2🤗1
Mistral Large v2 - лучшая модель, которую можно запустить локально
(таблица бенчмарка - в комментариях)
Mistral AI очень порадовали своей новой моделью на 123B параметров. Это модель декларирует поддержку множества языков, как человеческих, так и программирования. Размер контекста у нее - 128k tokens.
На моих продуктовых бенчмарках у этой модели очень качественные оценки по всему спектру тестируемых способностей. И неожиданно высокий Reason в 71.
Для сравнения: суммарно по очкам у модели уровень GPT-4 Turbo v3, Gemini Pro 1.5 и Claude 3 Opus.
Модель есть на платформе Mistral AI (я тестировал там), и еще ее можно выкачать с HuggingFace. В последнем случае можно использовать для некоммерческих целей, но можно и приобрести лицензию для коммерческого использования.
Hugging Face | Announcement
Предыдущий бенчмарк был по Mistral Nemo и GPT-4o Mini. Следующий бенчмарк будет про новые модели Llama 3.1
Вaш, @llm_under_hood 🤗
---
Напомню, что тут мы тестируем модели по API или из HF. Бенчмарк - закрытый и продуктовый. Описание бенчмарка, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
(таблица бенчмарка - в комментариях)
Mistral AI очень порадовали своей новой моделью на 123B параметров. Это модель декларирует поддержку множества языков, как человеческих, так и программирования. Размер контекста у нее - 128k tokens.
На моих продуктовых бенчмарках у этой модели очень качественные оценки по всему спектру тестируемых способностей. И неожиданно высокий Reason в 71.
Для сравнения: суммарно по очкам у модели уровень GPT-4 Turbo v3, Gemini Pro 1.5 и Claude 3 Opus.
Модель есть на платформе Mistral AI (я тестировал там), и еще ее можно выкачать с HuggingFace. В последнем случае можно использовать для некоммерческих целей, но можно и приобрести лицензию для коммерческого использования.
Hugging Face | Announcement
Предыдущий бенчмарк был по Mistral Nemo и GPT-4o Mini. Следующий бенчмарк будет про новые модели Llama 3.1
Вaш, @llm_under_hood 🤗
---
Напомню, что тут мы тестируем модели по API или из HF. Бенчмарк - закрытый и продуктовый. Описание бенчмарка, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
🔥34❤9👍5
Как сжатие (квантизация) генеративных моделей влияет на их качество?
Один пример на базе продуктового бенчмарка:
Снизу - Llama 3.1 70B 8bit (один байт на параметр, см ниже)
Сверху - Llama 3.1 70B fp16 (два байта на параметр)
Модель одна и та же, но разница в качестве - огромная.
Вaш, @llm_under_hood 🤗
PS: Сам бенчмарк будет завтра, 405B еще считается
PPS: 8bit - это int8 или fp8? Ни то ни другое. см описание bitsandbytes
Один пример на базе продуктового бенчмарка:
Снизу - Llama 3.1 70B 8bit (один байт на параметр, см ниже)
Сверху - Llama 3.1 70B fp16 (два байта на параметр)
Модель одна и та же, но разница в качестве - огромная.
Вaш, @llm_under_hood 🤗
PS: Сам бенчмарк будет завтра, 405B еще считается
PPS: 8bit - это int8 или fp8? Ни то ни другое. см описание bitsandbytes
👍34😢10🔥4🤔4👎3⚡1
🚀 Meta Llama 3.1 - пробили планку GPT-4 Turbo
(таблица бенчмарка - в комментариях)
Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Итак, Meta выпустила три новые модели версии 3.1. В них они расширили контекст до 128k, добавили поддержку новых языков и новый формат модели - 405B. А еще теперь выхлоп из этих моделей можно использовать для улучшения других моделей (что раньше было запрещено лицензией).
Meta Llama 3.1 8B Instruct - неплохая модель, но ее качество получилось хуже, чем у версии 3.0. Пока пропускаем, но можно будет подождать файн-тюнов - они обычно улучшают качество работы моделей с продуктовыми задачами.
Meta Llama 3.1 70B Instruct - заметный рывок в качестве, если сравнивать с прошлой версией. Эта модель достигла уровня Gemini Pro 1.5, обошла GPT3.5 и вплотную приблизилась к Mistral Large 2. Это невероятно круто, т.к. мы можем получить качество 123B модели используя меньше ресурсов, плюс за коммерческое использование не нужно доплачивать.
Кстати, эта модель может быть достаточно чувствительна к сжатию (квантизации). Это не Mistral Nemo, которую изначально готовили к работе на FP8, и при сжатии до 8 бит у Llama 3.1 70B качество на моих задачах упало сильно. Нужно будет аккуратно выбирать параметры и алгоритмы квантизации.
Meta Llama 3.1 405B Instruct - это первая открытая модель, которая побила уровень GPT-4 Turbo (пусть и самой слабой версии - Turbo v3/1106). При таких размерах и чувствительности к сжатию, ее будет использовать меньше людей, нежели 70B/8B. Значит, будет меньше тюнов и интересных решений.
Но это не важно. Главное, что эта открытая модель:
- победила одну из GPT-4
- перегнала Mistral 2 Large
- вплотную подошла к качеству Claude 3 Opus
Думаю, что скоро эту планку возьмут модели поменьше!
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про Mistral Large v2, следующий - Gemini Pro 1.5 Experimental 0801. См другие бенчмарки по категории #bench
(таблица бенчмарка - в комментариях)
Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Итак, Meta выпустила три новые модели версии 3.1. В них они расширили контекст до 128k, добавили поддержку новых языков и новый формат модели - 405B. А еще теперь выхлоп из этих моделей можно использовать для улучшения других моделей (что раньше было запрещено лицензией).
Meta Llama 3.1 8B Instruct - неплохая модель, но ее качество получилось хуже, чем у версии 3.0. Пока пропускаем, но можно будет подождать файн-тюнов - они обычно улучшают качество работы моделей с продуктовыми задачами.
Meta Llama 3.1 70B Instruct - заметный рывок в качестве, если сравнивать с прошлой версией. Эта модель достигла уровня Gemini Pro 1.5, обошла GPT3.5 и вплотную приблизилась к Mistral Large 2. Это невероятно круто, т.к. мы можем получить качество 123B модели используя меньше ресурсов, плюс за коммерческое использование не нужно доплачивать.
Кстати, эта модель может быть достаточно чувствительна к сжатию (квантизации). Это не Mistral Nemo, которую изначально готовили к работе на FP8, и при сжатии до 8 бит у Llama 3.1 70B качество на моих задачах упало сильно. Нужно будет аккуратно выбирать параметры и алгоритмы квантизации.
Meta Llama 3.1 405B Instruct - это первая открытая модель, которая побила уровень GPT-4 Turbo (пусть и самой слабой версии - Turbo v3/1106). При таких размерах и чувствительности к сжатию, ее будет использовать меньше людей, нежели 70B/8B. Значит, будет меньше тюнов и интересных решений.
Но это не важно. Главное, что эта открытая модель:
- победила одну из GPT-4
- перегнала Mistral 2 Large
- вплотную подошла к качеству Claude 3 Opus
Думаю, что скоро эту планку возьмут модели поменьше!
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про Mistral Large v2, следующий - Gemini Pro 1.5 Experimental 0801. См другие бенчмарки по категории #bench
👍38🔥22❤8
LLM Benchmark - July 2024 Edition
Бенчмарки моделей за прошлый месяц официально опубликованы на сайте Trustbit: English / Deutsch.
Пост получился довольно длинный. Он объединяет в себе новости про (ссылки в списке ниже ведут на посты в канале):
- Codestral-Mamba 7B
- GPT-4o Mini и Mistral Nemo 12B
- Mistral Large 123B v2
- Meta Llama 3.1
А еще с 1 Августа начинает вступать в действие EU AI Act, который регулирует использование AI, LLM и систем на их основе. Это включает и локальные модели.
На самом деле, большая часть кейсов с LLM под капотом относятся к категории минимального риска. Они не попадают под действие этого акта. Но для крупных компаний имеет смысл проглядеть свои кейсы и убедиться, что это так и есть.
В конце июльского бенчмарка есть небольшой checklist с вопросами, на которые лучше знать ответы заранее (если собираетесь работать в юрисдикции ЕС в ближайшие годы).
Вaш, @llm_under_hood 🤗
PS: А еще я в том посте подозреваю, что Mistral Large 123B была обучена с FP8 quantisation awareness для эффективного запуска под H100. Уж больно совпадает - 12:7 ~~ 123:80.
Бенчмарки моделей за прошлый месяц официально опубликованы на сайте Trustbit: English / Deutsch.
Пост получился довольно длинный. Он объединяет в себе новости про (ссылки в списке ниже ведут на посты в канале):
- Codestral-Mamba 7B
- GPT-4o Mini и Mistral Nemo 12B
- Mistral Large 123B v2
- Meta Llama 3.1
А еще с 1 Августа начинает вступать в действие EU AI Act, который регулирует использование AI, LLM и систем на их основе. Это включает и локальные модели.
На самом деле, большая часть кейсов с LLM под капотом относятся к категории минимального риска. Они не попадают под действие этого акта. Но для крупных компаний имеет смысл проглядеть свои кейсы и убедиться, что это так и есть.
В конце июльского бенчмарка есть небольшой checklist с вопросами, на которые лучше знать ответы заранее (если собираетесь работать в юрисдикции ЕС в ближайшие годы).
Вaш, @llm_under_hood 🤗
PS: А еще я в том посте подозреваю, что Mistral Large 123B была обучена с FP8 quantisation awareness для эффективного запуска под H100. Уж больно совпадает - 12:7 ~~ 123:80.
🔥17❤3👍2
Завершение детективной истории с LLM под капотом #aicase
Помните детективную историю? Дело было так - одна европеская компания попросила восстановить список клиентов, который утащили ребята из отдела продаж. Я про кейс писал ранее.
- Начало детективной истории
- Продолжение детективной истории
- Завершение детективной истории (этот пост)
- Результаты презентации - пилим AI Платформу!
Если кратко:
1. Сначала использовали LLM в режиме генерации кода, чтобы написать парсер из старого бинарного формата БД DataFlex в SQL. Аналогично написали тесты.
2. Потом использовали LLM в режиме SQL-педанта для того, чтобы привести нечитаемую схему БД в что-то понятное и удобное для работы
3. Завели Anthropic Claude Project для анонимизированной работы с этой схемой, построения отчетов и графиков. Докинули инструкций про то, как красиво и читаемо строить графики. Докинули текстовых комментариев об особенностях базы (которые рассказал сам клиент), дистиллируя их прямо в схему. Это позволило быстро проверить пару дюжин гипотез с разных точек зрения. Следов принудительно закрытых клиентов не нашли, но клиента красивыми графиками порадовали.
4. Потом я сделал то, что надо было сделать с самого начала - начал просто собирать данные по всем компаниям в стране, которые могут быть потенциальными клиентами. Понятно, что эти данные никто просто так не даст - везде защита от ботов, CloudFlare и непонятные API. Но все эти проблемы решаются. Sonnet тут здорово помог быстро разгребать разные API и дампы.
5. Когда я из этого кейса делал кату для обучения сотрудников, глаз упал на одну подозрительную колонку в исходных данных клиента. Выяснилось, что это налоговый номер клиента, который записан в станной форме. Причем, эта колонка стала видимой только потому, что раньше попросили сырые файлы со всеми данными, смогли их разобрать и привести в понятный вид при помощи LLM.
6. А дальше все сложилось само собой - теперь можно сопоставить некоторые записи клиентов записям в бизнес-реестре. Одним SQL запросом можно получить список компаний, которые удалены у клиента, но до сих пор продолжают деятельность. Кстати, там пара подозрительных деактиваций есть, но они больше похожи на неаккуратность, нежели на злой умысел. Но это уже не мне судить.
Или можно найти компании, которые до сих пор пытаются обзванивать, но они уже ликвидированы.
Но еще интереснее не копаться в прошлом, а смотреть в будущее - крупные компании, которые работают в целевом секторе экономики, но до сих пор не занесены в клиентскую базу. Особенно, если эти компании приоритизировать по схожести экономических классификаторов, размеру уставного капитала, наличию живого сайта и удобных контактов.
Но это уже будет другая история. Не детективная, а про Lead Generation. Про варианты этого кейса я уже писал ранее:
- LLM ассистент для продаж
- LLM приводят новых клиентов
- Кейс про тендеры и генерацию лидов
И еще один такой же кейс на очереди. Всех их объединяет общая схема - используем внешние источники данных и капельку LLM, чтобы автоматом перелопатить кучу данных и сделать работу отдела продаж более удобной и эффективной.
Вaш, @llm_under_hood 🤗
Помните детективную историю? Дело было так - одна европеская компания попросила восстановить список клиентов, который утащили ребята из отдела продаж. Я про кейс писал ранее.
- Начало детективной истории
- Продолжение детективной истории
- Завершение детективной истории (этот пост)
- Результаты презентации - пилим AI Платформу!
Если кратко:
1. Сначала использовали LLM в режиме генерации кода, чтобы написать парсер из старого бинарного формата БД DataFlex в SQL. Аналогично написали тесты.
2. Потом использовали LLM в режиме SQL-педанта для того, чтобы привести нечитаемую схему БД в что-то понятное и удобное для работы
3. Завели Anthropic Claude Project для анонимизированной работы с этой схемой, построения отчетов и графиков. Докинули инструкций про то, как красиво и читаемо строить графики. Докинули текстовых комментариев об особенностях базы (которые рассказал сам клиент), дистиллируя их прямо в схему. Это позволило быстро проверить пару дюжин гипотез с разных точек зрения. Следов принудительно закрытых клиентов не нашли, но клиента красивыми графиками порадовали.
4. Потом я сделал то, что надо было сделать с самого начала - начал просто собирать данные по всем компаниям в стране, которые могут быть потенциальными клиентами. Понятно, что эти данные никто просто так не даст - везде защита от ботов, CloudFlare и непонятные API. Но все эти проблемы решаются. Sonnet тут здорово помог быстро разгребать разные API и дампы.
5. Когда я из этого кейса делал кату для обучения сотрудников, глаз упал на одну подозрительную колонку в исходных данных клиента. Выяснилось, что это налоговый номер клиента, который записан в станной форме. Причем, эта колонка стала видимой только потому, что раньше попросили сырые файлы со всеми данными, смогли их разобрать и привести в понятный вид при помощи LLM.
6. А дальше все сложилось само собой - теперь можно сопоставить некоторые записи клиентов записям в бизнес-реестре. Одним SQL запросом можно получить список компаний, которые удалены у клиента, но до сих пор продолжают деятельность. Кстати, там пара подозрительных деактиваций есть, но они больше похожи на неаккуратность, нежели на злой умысел. Но это уже не мне судить.
Или можно найти компании, которые до сих пор пытаются обзванивать, но они уже ликвидированы.
Но еще интереснее не копаться в прошлом, а смотреть в будущее - крупные компании, которые работают в целевом секторе экономики, но до сих пор не занесены в клиентскую базу. Особенно, если эти компании приоритизировать по схожести экономических классификаторов, размеру уставного капитала, наличию живого сайта и удобных контактов.
Но это уже будет другая история. Не детективная, а про Lead Generation. Про варианты этого кейса я уже писал ранее:
- LLM ассистент для продаж
- LLM приводят новых клиентов
- Кейс про тендеры и генерацию лидов
И еще один такой же кейс на очереди. Всех их объединяет общая схема - используем внешние источники данных и капельку LLM, чтобы автоматом перелопатить кучу данных и сделать работу отдела продаж более удобной и эффективной.
Вaш, @llm_under_hood 🤗
🔥32👍11👏8❤7
Бенчмарк Gemini Pro 1.5 v0801 - TOP3 🚀
Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Недавно Google объявил, что их новая модель Gemini Pro 1.5 0801 вышла в топ LMSYS Chatbot Arena - бенчмарка, в котором люди голосуют за ответы моделей, которые им нравятся. При этом она обошла ChatGPT-4.
На наших продуктовых бенчмарках результат тоже впечатляющий - модель заняла третье место, побив старые версии GPT-4, с неплохим запасом. У нее очень хорошие очки по всем категориям.
Они могли бы быть и лучше, если бы она поменьше болтала и точно следовала инструкциям (что требуется в продуктах). Возможно именно из-за этой общительности она и заняла первое место в чат-арене.
Это очень крутые новости. Во-первых, появилась конкуренция для OpenAI, откуда не ждали. Будет новый очаг инноваций. Во-вторых, у компаний, которые исторически крепко привязаны к Google Cloud, появился свой провайдер LLM нормального качества.
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про Meta Llama 3.1. См другие бенчмарки по категории #bench
Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Недавно Google объявил, что их новая модель Gemini Pro 1.5 0801 вышла в топ LMSYS Chatbot Arena - бенчмарка, в котором люди голосуют за ответы моделей, которые им нравятся. При этом она обошла ChatGPT-4.
На наших продуктовых бенчмарках результат тоже впечатляющий - модель заняла третье место, побив старые версии GPT-4, с неплохим запасом. У нее очень хорошие очки по всем категориям.
Они могли бы быть и лучше, если бы она поменьше болтала и точно следовала инструкциям (что требуется в продуктах). Возможно именно из-за этой общительности она и заняла первое место в чат-арене.
Это очень крутые новости. Во-первых, появилась конкуренция для OpenAI, откуда не ждали. Будет новый очаг инноваций. Во-вторых, у компаний, которые исторически крепко привязаны к Google Cloud, появился свой провайдер LLM нормального качества.
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про Meta Llama 3.1. См другие бенчмарки по категории #bench
❤21🔥16👍7👏5
RAG Challenge на годовых отчетах компаний 🚀
Весной мы с вами обсуждали проведение дружеского соревнования по построению RAG систем. Было много вариантов - мультиязычные, табличные, с картинками.
Для начала можно сделать простое соревнование на поиск ответов по базе публичных годовых отчетов компаний. Все готово к первому тестовому прогону!
Генератор заданий и описание процесса есть на Github. Пакет с примерами PDF и список вопросов для ответа - в папке samples. Fineprint - ниже. Все ответы потом соберем в общий публичный dataset - можно будет самостоятельно сравнить точность разных подходов.
Следующие шаги:
(1) смотрим в samples, можно попробовать прогнать документы и вопросы через свой RAG, заполнить questions.json ответами и поделиться.
(2) читаем FAQ, задаем вопросы, уточнения
(3) если вопросов нет, то в течение пары недель можно будет выбрать время и сделать test run
Проект лицензирован как Apache 2.0. При желании можно взять его за основу и сделать свой собственный Challenge на своих документах!
Что скажете?
Ваш, @llm_under_hood 🤗
Fineprint:
(1) Описание процесса генерации всего этого добра - в README.md (при желании во время соревнования можно будет запускать код параллельно и проверять, что вопросы, списки файлов и их содержимое - совпадают).
(2) Всего в полном dataset-e 7496 отчетов. Все 46GB мы выкладывать не будем, только те, которые попали в соревновние. Но это отчеты публичные - если ну очень кому-то хочется - их можно заранее собрать в сети по именам компаний.
(3) Blockchain используется только для того, чтобы все могли одновременно получить новый одинаковый random seed (см 40 строк питона). Я так заморочился, т.к. коллеги тоже хотят поучаствовать в одинаковых со всеми условиях.
Весной мы с вами обсуждали проведение дружеского соревнования по построению RAG систем. Было много вариантов - мультиязычные, табличные, с картинками.
Для начала можно сделать простое соревнование на поиск ответов по базе публичных годовых отчетов компаний. Все готово к первому тестовому прогону!
Генератор заданий и описание процесса есть на Github. Пакет с примерами PDF и список вопросов для ответа - в папке samples. Fineprint - ниже. Все ответы потом соберем в общий публичный dataset - можно будет самостоятельно сравнить точность разных подходов.
Следующие шаги:
(1) смотрим в samples, можно попробовать прогнать документы и вопросы через свой RAG, заполнить questions.json ответами и поделиться.
(2) читаем FAQ, задаем вопросы, уточнения
(3) если вопросов нет, то в течение пары недель можно будет выбрать время и сделать test run
Проект лицензирован как Apache 2.0. При желании можно взять его за основу и сделать свой собственный Challenge на своих документах!
Что скажете?
Ваш, @llm_under_hood 🤗
Fineprint:
(1) Описание процесса генерации всего этого добра - в README.md (при желании во время соревнования можно будет запускать код параллельно и проверять, что вопросы, списки файлов и их содержимое - совпадают).
(2) Всего в полном dataset-e 7496 отчетов. Все 46GB мы выкладывать не будем, только те, которые попали в соревновние. Но это отчеты публичные - если ну очень кому-то хочется - их можно заранее собрать в сети по именам компаний.
(3) Blockchain используется только для того, чтобы все могли одновременно получить новый одинаковый random seed (см 40 строк питона). Я так заморочился, т.к. коллеги тоже хотят поучаствовать в одинаковых со всеми условиях.
🔥43❤5🤗5👍2👏1
Бенчмарк новой GPT-4o 2024-08-06 - немного глупее и заметно дешевле
У OpenAI есть привычка. Сначала они выкатывают мощную, но дорогую модель. Потом они делают модель сильно дешевле за счет небольшой просадки в качестве. Потом они начинают работать над качеством.
В долгосрочной перспективе их модели становятся дешевле и лучше.
Такое случилось и с новой версией GPT-4o (gpt-4o-2024-08-06). Она в два раза дешевле топовой GPT-4o v1/2024-05-13 и немножечко глупее, чем новый Gemini Pro 1.5 от Google. Заняла четвертое место.
В итоге у нас получается очень неплохая модель по соотношению цена-качество. Это самая дешевая модель из TOP-8! 🚀
А еще с этой моделью включили поддержку constraint decoding. Они ее называют Structured Outputs. Теперь можно заставить модель всегда отвечать с JSON в определенном формате. Это не делает модель умнее, просто гарантирует формат ответов.
Простейший пример реализации такого подхода я демонстировал в "Как сделать так, чтобы Mistral 7B всегда отвечал на русском". Но OpenAI сделала это нормально и встроила прямо в клиента.
Кстати, Structured Outputs включили и во многих других моделях. Это не требует изменения модели - просто добавления "обвязки" на сервере.
А еще, похоже, у OpenAI усились опасения из-за чудесной интеграции Claude Chat с режимом генерации UI кода. Поэтому они в своей статье выделили главу про автоматическую генерацию интерфейсов при помощи Structured Outuputs.
В общем, получилась очень удачная модель по соотношению цена/качество.
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про рывок Gemini Pro 1.5 v0801. См другие бенчмарки по категории #bench
У OpenAI есть привычка. Сначала они выкатывают мощную, но дорогую модель. Потом они делают модель сильно дешевле за счет небольшой просадки в качестве. Потом они начинают работать над качеством.
В долгосрочной перспективе их модели становятся дешевле и лучше.
Такое случилось и с новой версией GPT-4o (gpt-4o-2024-08-06). Она в два раза дешевле топовой GPT-4o v1/2024-05-13 и немножечко глупее, чем новый Gemini Pro 1.5 от Google. Заняла четвертое место.
В итоге у нас получается очень неплохая модель по соотношению цена-качество. Это самая дешевая модель из TOP-8! 🚀
А еще с этой моделью включили поддержку constraint decoding. Они ее называют Structured Outputs. Теперь можно заставить модель всегда отвечать с JSON в определенном формате. Это не делает модель умнее, просто гарантирует формат ответов.
Простейший пример реализации такого подхода я демонстировал в "Как сделать так, чтобы Mistral 7B всегда отвечал на русском". Но OpenAI сделала это нормально и встроила прямо в клиента.
Кстати, Structured Outputs включили и во многих других моделях. Это не требует изменения модели - просто добавления "обвязки" на сервере.
А еще, похоже, у OpenAI усились опасения из-за чудесной интеграции Claude Chat с режимом генерации UI кода. Поэтому они в своей статье выделили главу про автоматическую генерацию интерфейсов при помощи Structured Outuputs.
В общем, получилась очень удачная модель по соотношению цена/качество.
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про рывок Gemini Pro 1.5 v0801. См другие бенчмарки по категории #bench
🔥24👍9❤6🤩4
Как выбрать новые направления для применения LLM?
У меня есть такая табличка, в которую сведена библиотека AI кейсов, с которыми я пересекался лично. Столбцы - сектора экономики, строчки - ключевые стейкхолдеры в кейсе. Чем темнее клеточка - тем больше насмотренность.
И я просто играю в бинго.
При выборе рабочих проектов для важных клиентов - приоритизирую хорошо изученные области. Там мноие грабли и нюансы уже известны заранее, можно выбрать кратчайшую дорожку для решения.
При выборе направлений для изучения или консалтинга, наборот, стараюсь дополнить свои слабые места в интересных направлениях.
Больше всего на осень-зиму меня интересуют - Compliance (во всех сегментах), Medical (включая биотех) и Financial Services (тут LLM прямо очень бодро внедряют).
А вы в каких направлениях сейчас развиваетесь и работаете?
Вaш, @llm_under_hood 🤗
---
PS: Список продуктовых кейсов, про которые я могу говорить вслух, собран тут.
У меня есть такая табличка, в которую сведена библиотека AI кейсов, с которыми я пересекался лично. Столбцы - сектора экономики, строчки - ключевые стейкхолдеры в кейсе. Чем темнее клеточка - тем больше насмотренность.
И я просто играю в бинго.
При выборе рабочих проектов для важных клиентов - приоритизирую хорошо изученные области. Там мноие грабли и нюансы уже известны заранее, можно выбрать кратчайшую дорожку для решения.
При выборе направлений для изучения или консалтинга, наборот, стараюсь дополнить свои слабые места в интересных направлениях.
Больше всего на осень-зиму меня интересуют - Compliance (во всех сегментах), Medical (включая биотех) и Financial Services (тут LLM прямо очень бодро внедряют).
А вы в каких направлениях сейчас развиваетесь и работаете?
Вaш, @llm_under_hood 🤗
---
PS: Список продуктовых кейсов, про которые я могу говорить вслух, собран тут.
🔥29👍12❤5
Enterprise RAG Challenge - в этот Четверг
Первый раунд Enterprise RAG Challenge состоится в этот четверг. Это дружеское соревнование по построению RAG-систем, которое открыто для всех.
Расписание на четверг, 15 Августа:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут.
Задача простая - как можно скорее сгенерировать и прислать мне эти же файлы с заполненными ответами. Ответы, которые будут присланы в течение минут пяти ценятся выше (маловероятно, что у людей будет время вычитывать и исправлять их вручную), но в целом можно прислать хоть когда в течение суток.
Это первый прогон соревнования, поэтому я пока не заморачиваюсь с такими вещами, как предварительные формы регистрации для участников или использование TSA серверов (RFC 3161) для выставления подписанных timestamps на результаты. Это все добавлю осенью, когда сделаем международный прогон соревнования в том же формате.
Все ответы и результаты будут потом опубликованы, рейтинги выставлены по каноничным ответам (собраны вручную). Можно участвовать анонимно.
Тот, кто займет топовые места, будет сидеть в топе лидерборда до осени 🎉
Почему в расписании стоит “после 10:00 CET”? В это время я запускаю скрипт получения следующего Random Seed из Blockchain (хоть какая-то от него польза), что займет минут десять. Это нужно для того, чтобы выбор файлов и вопросов был одинаковым сюрпризом для всех участников. Описание процесса и исходники всех скриптов лежат в открытом доступе на Github.
К слову, вся repository выложена под Apache 2.0 License 🍻. Если хочется сделать свой Rag Challenge со своими документами и задачами - можно смело переиспользовать код.
Кто думает попробовать поучаствовать? Ставьте 🤝.
Вaш, @llm_under_hood 🤗
---
PS: Кстати, OpenAI тоже будет участвовать. Я потом прогоню все документы и вопросы через их ассистентов тоже 😁
Первый раунд Enterprise RAG Challenge состоится в этот четверг. Это дружеское соревнование по построению RAG-систем, которое открыто для всех.
Расписание на четверг, 15 Августа:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут.
Задача простая - как можно скорее сгенерировать и прислать мне эти же файлы с заполненными ответами. Ответы, которые будут присланы в течение минут пяти ценятся выше (маловероятно, что у людей будет время вычитывать и исправлять их вручную), но в целом можно прислать хоть когда в течение суток.
Это первый прогон соревнования, поэтому я пока не заморачиваюсь с такими вещами, как предварительные формы регистрации для участников или использование TSA серверов (RFC 3161) для выставления подписанных timestamps на результаты. Это все добавлю осенью, когда сделаем международный прогон соревнования в том же формате.
Все ответы и результаты будут потом опубликованы, рейтинги выставлены по каноничным ответам (собраны вручную). Можно участвовать анонимно.
Тот, кто займет топовые места, будет сидеть в топе лидерборда до осени 🎉
Почему в расписании стоит “после 10:00 CET”? В это время я запускаю скрипт получения следующего Random Seed из Blockchain (хоть какая-то от него польза), что займет минут десять. Это нужно для того, чтобы выбор файлов и вопросов был одинаковым сюрпризом для всех участников. Описание процесса и исходники всех скриптов лежат в открытом доступе на Github.
К слову, вся repository выложена под Apache 2.0 License 🍻. Если хочется сделать свой Rag Challenge со своими документами и задачами - можно смело переиспользовать код.
Кто думает попробовать поучаствовать? Ставьте 🤝.
Вaш, @llm_under_hood 🤗
---
PS: Кстати, OpenAI тоже будет участвовать. Я потом прогоню все документы и вопросы через их ассистентов тоже 😁
🔥35🤝19👍9❤4
LLM Benchmarks v2 в работе + пример корпоративного кейса
Я потихоньку начал работать над второй версией бенчмарков.
Этот процесс займет немало времени. Нужно приблизить бенчмарки к реальной практике из разных компаний на текущий момент.
Заодно и добавлю больше кейсов от других компаний, которые хотят видеть бенчмарки своих задач на всех новых моделях. Это особенно актуально для локальных моделей.
Если у вас есть интересный кейс - пишите, можно попробовать интегрировать его.
Одна из фишек второй версии в том, что тут используется больше синтетических данных, которые воспроизводят бизнес-кейсы. А это значит, что часть бенчмарков можно будет показывать без риска переобучения на тестовом датасете.
На картинке один из примеров такого теста из v2. Это кусок из ассистента в продукте, который позволяет анализировать зависимости внутри компании на предмет рисков:
Если точнее, это половина кейса. Вторая половина делает аналогичное, но на базе GraphDB/Neo4j. Как ни странно, там результаты лучше 😄
Такие системы имеют смысл для компаний с численностью 1000+, кучей разных отделов и зависимостей. На рынке подобные системы есть уже очень давно, но раньше требовалось специальное обучение, чтобы уметь находить ответы на свои вопросы. А вот теперь все наперегонки прикручивают к ним чат-интерфейсы, чтобы сделать их более простыми в использовании.
Вaш, @llm_under_hood 🤗
Я потихоньку начал работать над второй версией бенчмарков.
Этот процесс займет немало времени. Нужно приблизить бенчмарки к реальной практике из разных компаний на текущий момент.
Заодно и добавлю больше кейсов от других компаний, которые хотят видеть бенчмарки своих задач на всех новых моделях. Это особенно актуально для локальных моделей.
Если у вас есть интересный кейс - пишите, можно попробовать интегрировать его.
Одна из фишек второй версии в том, что тут используется больше синтетических данных, которые воспроизводят бизнес-кейсы. А это значит, что часть бенчмарков можно будет показывать без риска переобучения на тестовом датасете.
На картинке один из примеров такого теста из v2. Это кусок из ассистента в продукте, который позволяет анализировать зависимости внутри компании на предмет рисков:
- А если человек Y уйдет в отпуск, то какие системы могут накрыться? А если считать все зависимые системы?
- На каком специалисте держится больше всего процессов в компании?
- Что будет, если вырубить сервер X посреди дня для накатывания критического патча?
Если точнее, это половина кейса. Вторая половина делает аналогичное, но на базе GraphDB/Neo4j. Как ни странно, там результаты лучше 😄
Такие системы имеют смысл для компаний с численностью 1000+, кучей разных отделов и зависимостей. На рынке подобные системы есть уже очень давно, но раньше требовалось специальное обучение, чтобы уметь находить ответы на свои вопросы. А вот теперь все наперегонки прикручивают к ним чат-интерфейсы, чтобы сделать их более простыми в использовании.
Вaш, @llm_under_hood 🤗
👍20🔥13❤6👏3
Забавная история про AI Compliance
Есть в Европе одна юридическая контора. Они, как и все, решили использовать AI для автоматизации части процессов, о чем не мешкая написали на сайте. Мол, движемся в ногу со временем.
А их конкуренты возьми да и напиши им официальный запрос:
- А расскажите-ка поподробнее, что вы там делаете с данными клиентов?
- Мы не можем, это коммерческая тайна!
- Правильно, но документацию того, что вы делаете, чтобы не нарушать закон, вы предоставить обязаны!
- Эммм...
- А пойдемте-ка мы с вами в суд. Регулятору будет интересно.
На самом деле, для такого даже не нужно в суд. Какая-нибудь бабушка давно уже может написать в компанию и запросить информацию про использование ее персональных данных (GDPR Article 15). У компании будет 30 дней для ответа. А государство может потом проверить, был ли выполнен запрос. Если нет - то устроить аудит или выписать штраф. Аналогичная история и с новым EU AI Act, который дополняет картину.
Такие правила есть только в Европе. В бурно развивающейся Африке, на Диком Западе и Южной Америке пока с требованиями попроще. Этим во всю пользуются компании 🤠
А та компания все еще жива. Но свое имя раскрывать очень не хочет - чтобы не подавать идей другим конкурентам.
Вaш, @llm_under_hood 🤗
Есть в Европе одна юридическая контора. Они, как и все, решили использовать AI для автоматизации части процессов, о чем не мешкая написали на сайте. Мол, движемся в ногу со временем.
А их конкуренты возьми да и напиши им официальный запрос:
- А расскажите-ка поподробнее, что вы там делаете с данными клиентов?
- Мы не можем, это коммерческая тайна!
- Правильно, но документацию того, что вы делаете, чтобы не нарушать закон, вы предоставить обязаны!
- Эммм...
- А пойдемте-ка мы с вами в суд. Регулятору будет интересно.
На самом деле, для такого даже не нужно в суд. Какая-нибудь бабушка давно уже может написать в компанию и запросить информацию про использование ее персональных данных (GDPR Article 15). У компании будет 30 дней для ответа. А государство может потом проверить, был ли выполнен запрос. Если нет - то устроить аудит или выписать штраф. Аналогичная история и с новым EU AI Act, который дополняет картину.
Такие правила есть только в Европе. В бурно развивающейся Африке, на Диком Западе и Южной Америке пока с требованиями попроще. Этим во всю пользуются компании 🤠
А та компания все еще жива. Но свое имя раскрывать очень не хочет - чтобы не подавать идей другим конкурентам.
Вaш, @llm_under_hood 🤗
😁21🔥14🤣5❤3👍1
Бенчмарк новой модели GPT-4o от 2024-08-13 - стала умнее 🚀
Open AI верны своей традиции. Вторая версия GPT-4o была глупее и легче первой версии. А теперь третья версия стала немного умнее. Следование инструкциям у нее немного просело, но вот Reason - подскочил. По сумме баллов - она обошла вторую версию и заняла четвертое место.
Это вообще странная версия. Она видна в API под названием
Бардак одним словом. Похоже, что в OpenAI могут немного переживать из-за конкуренции с Google и Anthropic.
Кстати, в описании указано, что динамическая модель
Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про GPT-4o 2024-08-06. См другие бенчмарки по категории #bench
Open AI верны своей традиции. Вторая версия GPT-4o была глупее и легче первой версии. А теперь третья версия стала немного умнее. Следование инструкциям у нее немного просело, но вот Reason - подскочил. По сумме баллов - она обошла вторую версию и заняла четвертое место.
Это вообще странная версия. Она видна в API под названием
chatgpt-4o-latest
и в данный момент указывает на модель со временем выкатки на проду - 2024-08-13 04:12:11
. Если это та же модель, про которую писал Игорь, то это была версия от 2024-08-08
.Бардак одним словом. Похоже, что в OpenAI могут немного переживать из-за конкуренции с Google и Anthropic.
Кстати, в описании указано, что динамическая модель
chatgpt-4o-latest
используется в ChatGPT UI для GPT-4o (аналогично с другими версиями). Поэтому если кажется, что модель в чате внезапно поглупела - посмотрите, не выкатили ли туда новый снапшот. А для стабильной работы предназначены версии в API. Вaш, @llm_under_hood 🤗
---
Предыдущий бенчмарк был про GPT-4o 2024-08-06. См другие бенчмарки по категории #bench
❤18🔥5👍2
Enterprise RAG Challenge начнется через час
Это дружеское соревнование по построению RAG-систем, которое открыто для всех. Для участия нужно будет сгенерировать ответы на вопросы по набору годовых отчетов компаний (PDF) и прислать их мне в личку @abdullin
Это тестовый прогон международного соревнования осенью (которое состоится в этом же формате). Дальше расписание на день вот такое:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing. Это будет новый пост в этом канале
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут. Это будет новый пост в этом канале.
Посты будут не ровно в 00, а в течение минут 10 после. Тут мы ждем, пока Blockchain сгенерирует новый блок, который используется в качестве Random Seed для выбора файлов и генерации вопросов.
Более детальное описание процесса и скрипты есть в Github - enterprise rag challenge.
Присылать ответы мне в личку (@abdullin) можно в любое время. Сразу напишите - хотите участвовать анонимно или указать имя компании/команды/участника.
Вопросы лучше задавать в чатике канала или в обсуждениях под этим постом.
Больше всего ценятся ответы, которые прислали в течение 5-10 минут. Время будет учитываться.
Конкурс длится до того, как я опубликую правильные ответы - примерно через две недели. Поэтому подключиться к этому конкурсу можно в любой момент.
Осенью будет международный Challenge. О нем я объявлю заранее, чтобы желающие смогли освободить расписание.
Всем удачи!
Вaш, @llm_under_hood 🤗
Это дружеское соревнование по построению RAG-систем, которое открыто для всех. Для участия нужно будет сгенерировать ответы на вопросы по набору годовых отчетов компаний (PDF) и прислать их мне в личку @abdullin
Это тестовый прогон международного соревнования осенью (которое состоится в этом же формате). Дальше расписание на день вот такое:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing. Это будет новый пост в этом канале
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут. Это будет новый пост в этом канале.
Посты будут не ровно в 00, а в течение минут 10 после. Тут мы ждем, пока Blockchain сгенерирует новый блок, который используется в качестве Random Seed для выбора файлов и генерации вопросов.
Более детальное описание процесса и скрипты есть в Github - enterprise rag challenge.
Присылать ответы мне в личку (@abdullin) можно в любое время. Сразу напишите - хотите участвовать анонимно или указать имя компании/команды/участника.
Вопросы лучше задавать в чатике канала или в обсуждениях под этим постом.
Больше всего ценятся ответы, которые прислали в течение 5-10 минут. Время будет учитываться.
Конкурс длится до того, как я опубликую правильные ответы - примерно через две недели. Поэтому подключиться к этому конкурсу можно в любой момент.
Осенью будет международный Challenge. О нем я объявлю заранее, чтобы желающие смогли освободить расписание.
Всем удачи!
Вaш, @llm_under_hood 🤗
🔥20🤝8🤗4👍2
pdfs_3936840457.zip
65.2 MB
Файлы для Enterprise RAG Challenge.
Вывод генератора Rand seed:
Про Challenge написано в предыдущем посте.
Список вопросов будет через два часа.
Вaш, @llm_under_hood 🤗
Вывод генератора Rand seed:
856853 at 2024-08-15 08:05:07 (...eaa76b09)
# Deterministic seed: 3936840457
Про Challenge написано в предыдущем посте.
Список вопросов будет через два часа.
Вaш, @llm_under_hood 🤗
❤13🔥10👍9
Cписок вопросов по файлам из предыдущего поста
Файлы с вопросом - в первом комментарии к этому посту
Ответы присылайте мне в личку (@abdullin), просто заполнив поле answer в схеме. Не забываем, что ответ на вопрос должен соответствовать типу данных в вопросе - число, имя/название или да/нет (подробнее тут).
Если хотите что-то поменять, то сообщение с файлом не надо редактировать. Лучше пришлите новое. Почему? Я буду смотреть на timestamp и статус редакции, чтобы указывать время в финальном leaderboard.
Еще в сообщении, пожалуйста, укажите:
- Имя команды, компании или участника (латиницей)
- Тип модели, которая используется (версия, локальная или нет)
- Краткое описание архитектуры - что там под капотом? Коммерческие тайны раскрывать, естественно, не надо.
Можно участвовать анонимно.
Вaш, @llm_under_hood 🤗
Файлы с вопросом - в первом комментарии к этому посту
Ответы присылайте мне в личку (@abdullin), просто заполнив поле answer в схеме. Не забываем, что ответ на вопрос должен соответствовать типу данных в вопросе - число, имя/название или да/нет (подробнее тут).
Если хотите что-то поменять, то сообщение с файлом не надо редактировать. Лучше пришлите новое. Почему? Я буду смотреть на timestamp и статус редакции, чтобы указывать время в финальном leaderboard.
Еще в сообщении, пожалуйста, укажите:
- Имя команды, компании или участника (латиницей)
- Тип модели, которая используется (версия, локальная или нет)
- Краткое описание архитектуры - что там под капотом? Коммерческие тайны раскрывать, естественно, не надо.
Можно участвовать анонимно.
Вaш, @llm_under_hood 🤗
🔥15👍4⚡1❤1
Идет Enterprise RAG Challenge.
Это первый тестовый прогон дружеского соревнования, которое пройдет осенью в международном формате.
Update: результаты есть тут.
Если кратко, то вам нужно прислать ответы на 40 вопросов по 20 годовым отчетам компаний:
(0) стартовый пост с вводными инструкциями
(1) список из 20 PDF
(2) вот список из 40 вопросов (прямая ссылка на пост с вопросами - вот)
Нужно прислать мне заполненный файл с ответами.
Лидерборд, как я уже писал, будут не сразу. Конкурс продлится до того, как я опубликую правильные ответы - примерно через две недели. Но время ответа, естественно, учитывается.
Кто уже начал участвовать, пишите свои впечатления в комментах к этому посту! Можно уже обсуждать количество N/A, только свои ответы не публикуйте пока.
Ответы на частые вопросы:
(1) Как будут выбираться правильные ответы? Вручную. Они будут опубликованы вместе со всеми ответами команд, поэтому все можно будет перепроварить самостоятельно.
(2) Почему именно такой формат постановки задачи? Именно такая формулировка задачи находится под капотом у продуктов в реальных кейсах из Medical, Business Services (Legal, Patent Law) и Manufacturing секторов. Там требуется большая точность ответов, и используется паттерн Checklist с каскадом из простых промптов. И один из этих каскадов как раз совпадает с данным соревнованием. Не удивительно, что Enterprise поглядывает за процессом даже на этапе дружеского тестового прогона.
(3) Сколько уже ответов прислали - 8. Если пришлют еще до круглого числа - будет вообще хорошо. Все данные я потом опубликую, включая ответы команд на вопросы про используемые модели и архитектуры решений. Там есть и интересные локальные решения.
Вaш, @llm_under_hood 🤗
Это первый тестовый прогон дружеского соревнования, которое пройдет осенью в международном формате.
Update: результаты есть тут.
Если кратко, то вам нужно прислать ответы на 40 вопросов по 20 годовым отчетам компаний:
(0) стартовый пост с вводными инструкциями
(1) список из 20 PDF
(2) вот список из 40 вопросов (прямая ссылка на пост с вопросами - вот)
Нужно прислать мне заполненный файл с ответами.
Лидерборд, как я уже писал, будут не сразу. Конкурс продлится до того, как я опубликую правильные ответы - примерно через две недели. Но время ответа, естественно, учитывается.
Кто уже начал участвовать, пишите свои впечатления в комментах к этому посту! Можно уже обсуждать количество N/A, только свои ответы не публикуйте пока.
Ответы на частые вопросы:
(1) Как будут выбираться правильные ответы? Вручную. Они будут опубликованы вместе со всеми ответами команд, поэтому все можно будет перепроварить самостоятельно.
(2) Почему именно такой формат постановки задачи? Именно такая формулировка задачи находится под капотом у продуктов в реальных кейсах из Medical, Business Services (Legal, Patent Law) и Manufacturing секторов. Там требуется большая точность ответов, и используется паттерн Checklist с каскадом из простых промптов. И один из этих каскадов как раз совпадает с данным соревнованием. Не удивительно, что Enterprise поглядывает за процессом даже на этапе дружеского тестового прогона.
(3) Сколько уже ответов прислали - 8. Если пришлют еще до круглого числа - будет вообще хорошо. Все данные я потом опубликую, включая ответы команд на вопросы про используемые модели и архитектуры решений. Там есть и интересные локальные решения.
Вaш, @llm_under_hood 🤗
👍15🔥4❤1👏1