Внутри AI | Кейсы ИИ Агентов в бизнесе

Как оценивать качество ответов LLM: подходы и практики

Когда мы запускаем модель в прод, важно понимать, насколько хорошо она отвечает, где ошибается и как улучшить её работу.

Существует несколько подходов к оценке качества ответов модели:

1. Ручная экспертная оценка.
Ответы проверяют эксперты (либо доменные специалисты, либо команда QA) на тестовом датасете запросов. Высокая человеческая точность, можно учитывать контекст задачи. Но дорого, медленно и плохо масштабируется.

2. LLM-as-a-Judge
Оценку ответа делает та же или другая LLM. Быстрый и масштабируемый подход. Но возможны систематические смещения (bias), нужно выборочно валидировать результаты вручную. Примеры фреймворков: RAGAS, Deepeval.

3. Автоматические метрики
Метод сравнения ответа модели с эталонным («ground truth») с помощью алгоритмов. Быстро, объективно, но не отражает «человеческое» восприятие, нужны размеченные датасеты. Примеры метрик: BLEU, ROUGE.

4. Оценка в боевых условиях
Сбор метрик после запуска в продукт. Реальные данные, отражает влияние на бизнес. Но сложно изолировать влияние LLM от других факторов. Метрики: доля исправленных или повторных запросов, CTR и конверсия (если LLM влияет на UX), пользовательские рейтинги (лайк/дизлайк).

Мы рекомендуем комбинировать оценки и использовать следующий пайплайн:

1) Получить обратную связь пользователей в продакшне
Собираем репрезентативный набор запросов: частые кейсы, критические кейсы, граничные условия.

2) Отправить выборку на LLM-as-a-Judge.
Прогоняем тестовый набор и сохраняем все ответы с метаданными. Используем готовые метрики DeepEval и кастомные для оценки каждого ответа. Храним результаты запусков в Langfuse.

3) Отдать на оценку экспертам подозрительные кейсы.
Они подтвердят или скорректируют оценку, найдут случаи, где модель системно ошибается.

4) Проанализировать ошибки и итеративно улучшать модель
Выделяем группы возможных проблем. С начала исправляем критические и массовые ошибки. Затем повторяем запуск на том же датасете для сравнения с прошлой версией.

#александр_опрышко #llm

🔥10👍6❤2

913 views12:15

Вебинар-интервью: Этап Discovery — с чего начать внедрение генеративного ИИ

17 сентября в 11:00 в гости к Внутри AI придет Дмитрий Твердохлебов, экс-директор по ИИ в МТС и VK, эксперт с 15-летним опытом внедрения цифровых продуктов.

Интервью проведет Александр Опрышко, сооснователь и управляющий партнер KTS.

В формате диалога обсудим, как подойти к внедрению генеративного ИИ и какие результаты можно ожидать.

На вебинаре вы узнаете:

- где ИИ принесет пользу бизнесу, а где его внедрение не оправдано;
- какие артефакты необходимы для старта;
- каким должен быть definition of ready пилотного проекта;
- что делать в компании без собственного AI-подразделения;
- как будет развиваться рынок и на что стоит обратить внимание.

Будет полезно всем менеджерам и руководителям проектов, которые планируют внедрять ИИ.

Ссылка для подключения появится в канале перед началом вебинара.

Задавайте вопросы под этим постом — спикеры обязательно на них ответят.

🔥8👍7❤1

1.07K views12:15

Внутри AI | Кейсы ИИ Агентов в бизнесе

В ожидании вебинара познакомьтесь с кейсами внедрения ИИ — они помогут лучше разобраться в теме.

Вот некоторые ресурсы, где можно посмотреть примеры:

Evidently AI — агрегатор с 650+ кейсами и удобной системой ссылок.

GenAI & LLM System Design — расширенная библиотека технических кейсов на GitHub, созданная на базе Evidently AI.

Generation AI — (российские кейсы) небольшая, но полезная библиотека кейсов от JustAI.

Если какие-то из кейсов покажутся особенно интересными или у вас возникнут вопросы, оставляйте их в комментариях, обсудим вместе на вебинаре.

🔥6👏3❤2

591 views07:42

Внутри AI | Кейсы ИИ Агентов в бизнесе

Внутри AI | Кейсы ИИ Агентов в бизнесе pinned a photo

07:43

Внутри AI | Кейсы ИИ Агентов в бизнесе

Что такое Langfuse?

При разработке сервисов на базе LLM или multi-agent систем наблюдаемость — ключ к контролю. Без мониторинга система остаётся “чёрным ящиком”. Невозможно понять, какие запросы поступают, как отвечает модель, сколько стоит каждый вызов и где происходят ошибки.

В результате разработка превращается в догадки: непонятно, почему промпт работает сегодня, но ломается завтра.
Наблюдаемость ускоряет итерации, снижает расходы и повышает надёжность выката новых фич.

Существуют разные решения мониторинга:

• Langfuse — open-source платформа для трейсинга, мониторинга и оценки качества LLM-запросов. Активно развивается, есть поддержка SSO в open-source версии.
• LangSmith — продукт от авторов LangChain, закрытый, с глубокой интеграцией в их экосистему. Функционально близок к Langfuse.
• Phoenix by Arize — open-source, менее популярен, сопоставим с Langfuse.
• MLflow — реализовали поддержку работы с LLM инструментами, функционал беднее по сравнению с langfuse, но стоит рассмотреть, если в компании уже эксплуатируется MLflow.

Для Agent Platform мы выбрали Langfuse как наиболее подходящий инструмент для построения пайплайна разработки ИИ-агентов. Платформа поддерживает логирование каждого шага — от входного промпта до ответа модели, включая использование инструментов.

В продакшене Langfuse помогает выявлять нестабильные промпты, сравнивать версии агентов и анализировать метрики качества. В ресёрче — тестировать гипотезы и сравнивать подходы на датасетах.

В следующих постах расскажем про ключевые компоненты Langfuse.

#александр_опрышко

🔥16👏3❤2

629 views12:15

Внутри AI | Кейсы ИИ Агентов в бизнесе

Из чего состоит Langfuse?

Langfuse — платформа для отслеживания и оценки работы LLM-агентов. В основе — пять компонентов:

Traces & Observations
Трейс — лог одного запроса. Внутри: шаги агента, вызовы инструментов, ответы модели. Помогает понять, как агент «думает» и где ломается цепочка.

Sessions
Объединяют трейсы в одно взаимодействие — например, целый диалог. Удобно смотреть не отдельные шаги, а поведение агента в целом.

Scores
Оценки — это различные метрики: точность ответа, успешность, тип ошибки. На них строятся сравнение версий и автооценка.

Datasets & Dataset Runs
Датасеты — входы с эталонными ответами. Dataset Run — их запуск через агента с сохранением логов. Помогает тестировать изменения и сравнивать качество.

Prompts
Централизованное хранилище промптов: версии, параметры, история. Можно тестировать варианты, быстро откатываться и отслеживать изменения.

Как выглядит цикл разработки агента с Langfuse

1. Собираем датасет из типовых запросов и эталонов.
2. Запускаем Dataset Run, фиксируем трейсы.
3. Анализируем шаги агента (Traces & Observations).
4. Ставим оценки — автоматически (LLM) и вручную.
5. Меняем промпт или логику, запускаем снова.

Такой подход заменяет хаотичное «подкручивание промптов» системной работой с метриками, тестами и контролем качества.

#александр_опрышко

👍16❤5🔥5👏1

540 views11:48

Внутри AI | Кейсы ИИ Агентов в бизнесе

Вебинар_«Внедрение_генеративного_ИИ».ics

540 B

Уже скоро — вебинар «Этап Discovery: с чего начать внедрение генеративного ИИ».

17 сентября, 11:00 в прямом эфире встретятся Дмитрий Твердохлебов, экс-директор по ИИ в МТС и VK, и Александр Опрышко, сооснователь и управляющий партнер KTS.

Вместе обсудим ключевые вопросы старта:
– в каких задачах ИИ дает ощутимую пользу, а где не нужен;
– какие артефакты готовить к пилоту;
– что делать, если в компании нет AI-команды;
– как выглядит готовность к запуску (definition of ready);
– как меняется рынок и на что важно смотреть уже сейчас.

Формат — интервью и ответы на ваши вопросы.

Будет полезно всем менеджерам и руководителям проектов, которые планируют внедрять ИИ.

Добавляйте напоминание в календарь и до встречи на вебинаре. Ссылка появится в канале перед началом.

❤3👍1🔥1

146 views12:39

About

Blog

Apps

Platform