Сегодня разберем тему Reasoning evaluation, а именно как проверять корректность рассуждений в ответах AI-решений.
Когда AI-решение генерирует ответ, важно не только, что оно сказало, но и как это AI-решение пришло к выводу. Можно получить правильный результат, но при этом логика рассуждений будет нарушена. Для сложных систем, особенно работающих в несколько шагов, проверка reasoning становится обязательной частью evaluation.
Простой пример, есть запрос “Если Иван старше Петра, а Петр старше Анны, кто самый младший?”
Хорошее решение с reasoning будет выстраивать логическую цепочку, Иван - Петр - Анна - значит, младшая Анна.
Слабое AI-решение может сразу выдать тот же ответ, но без корректной цепочки, просто угадав результат по шаблону. Для пользователя оба ответа одинаковы, но с точки зрения reasoning, вторая модель не умеет рассуждать, она лишь воспроизводит паттерн.
Как это проверяется:
⁃ Пошаговая оценка (step-level evaluation), когда анализируется не финальный ответ, а каждое промежуточное действие или вывод.
⁃ Consistency checks,проверка, ведет ли одна и та же логика к одинаковому результату при разных формулировках задачи.
⁃ Self-reflection prompts, заставляем AI-решение объяснить свой reasoning, простой промпт, “почему ты выбрал именно этот ответ?” и сверяем объяснение с логикой шага.
Для анализа reasoning-цепочек все чаще используют трейсинг-инструменты, такие как LangSmith, LangFuse, Arize Phoenix.
Они позволяют увидеть, какие шаги модель сделала, какие промежуточные ответы получила, где логика сломалась. Это дает возможность оценить не просто правильность ответа, а качество мышления AI-решения, насколько оно системно рассуждает, проверяет гипотезы и последовательно обновляет выводы.
Именно через reasoning evaluation можно отличить AI-решение, которая действительно понимает контекст, от того, что просто повторяет статистические шаблоны.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Когда AI-решение генерирует ответ, важно не только, что оно сказало, но и как это AI-решение пришло к выводу. Можно получить правильный результат, но при этом логика рассуждений будет нарушена. Для сложных систем, особенно работающих в несколько шагов, проверка reasoning становится обязательной частью evaluation.
Простой пример, есть запрос “Если Иван старше Петра, а Петр старше Анны, кто самый младший?”
Хорошее решение с reasoning будет выстраивать логическую цепочку, Иван - Петр - Анна - значит, младшая Анна.
Слабое AI-решение может сразу выдать тот же ответ, но без корректной цепочки, просто угадав результат по шаблону. Для пользователя оба ответа одинаковы, но с точки зрения reasoning, вторая модель не умеет рассуждать, она лишь воспроизводит паттерн.
Как это проверяется:
⁃ Пошаговая оценка (step-level evaluation), когда анализируется не финальный ответ, а каждое промежуточное действие или вывод.
⁃ Consistency checks,проверка, ведет ли одна и та же логика к одинаковому результату при разных формулировках задачи.
⁃ Self-reflection prompts, заставляем AI-решение объяснить свой reasoning, простой промпт, “почему ты выбрал именно этот ответ?” и сверяем объяснение с логикой шага.
Для анализа reasoning-цепочек все чаще используют трейсинг-инструменты, такие как LangSmith, LangFuse, Arize Phoenix.
Они позволяют увидеть, какие шаги модель сделала, какие промежуточные ответы получила, где логика сломалась. Это дает возможность оценить не просто правильность ответа, а качество мышления AI-решения, насколько оно системно рассуждает, проверяет гипотезы и последовательно обновляет выводы.
Именно через reasoning evaluation можно отличить AI-решение, которая действительно понимает контекст, от того, что просто повторяет статистические шаблоны.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍2🔥1
Сегодня про непрерывный мониторинг и обнаружение отклонений на продуктиве.
Контроль качества AI-систем не заканчивается на уровне предпродакшен тестов.
Даже если модель показала хорошие результаты на этапе разработки, в продакшене все может измениться, например, запросы другие, источники обновляются, контексты становятся шумнее. Без постоянного мониторинга качество генерации деградирует постепенно и незаметно.
Поэтому важен continuous evaluation, а именно отслеживание ключевых метрик качества прямо на проде.
Что обычно контролируют:
Answer accuracy - точность ответа модели относительно эталона или golden датасета.
Context relevance - насколько retrieved контекст действительно соответствует запросу.
Context precision / grounding - использует ли модель данные из найденного контекста или “галлюцинирует”.
Factual consistency - согласованность с фактами и источниками.
Response coherence / completeness - логическая целостность и полнота ответа.
Такие метрики считаются на реальных запросах (через golden датасет примеры, LLM as a Jurge или даже обучное человеческую оценку) и позволяют заметить деградацию AI-системы еще до жалоб пользователей.
В продакшне это реализуется через инструменты трейсинга вроде LangFuse, Arize, Galileo, EvidentlyAI, которые собирают данные все запросов, считают метрики и сигналят, если ответы стали менее точными, контекст менее релевантным и так далее.
Continuous evaluation - это тот же QA, только в продакшене, где мы проверяем не код, а качество работы модели в реальных условиях с целью успеть поймать деградацию системы до того момента, пока с этим явно столкнутся реальные пользователи.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Контроль качества AI-систем не заканчивается на уровне предпродакшен тестов.
Даже если модель показала хорошие результаты на этапе разработки, в продакшене все может измениться, например, запросы другие, источники обновляются, контексты становятся шумнее. Без постоянного мониторинга качество генерации деградирует постепенно и незаметно.
Поэтому важен continuous evaluation, а именно отслеживание ключевых метрик качества прямо на проде.
Что обычно контролируют:
Answer accuracy - точность ответа модели относительно эталона или golden датасета.
Context relevance - насколько retrieved контекст действительно соответствует запросу.
Context precision / grounding - использует ли модель данные из найденного контекста или “галлюцинирует”.
Factual consistency - согласованность с фактами и источниками.
Response coherence / completeness - логическая целостность и полнота ответа.
Такие метрики считаются на реальных запросах (через golden датасет примеры, LLM as a Jurge или даже обучное человеческую оценку) и позволяют заметить деградацию AI-системы еще до жалоб пользователей.
В продакшне это реализуется через инструменты трейсинга вроде LangFuse, Arize, Galileo, EvidentlyAI, которые собирают данные все запросов, считают метрики и сигналят, если ответы стали менее точными, контекст менее релевантным и так далее.
Continuous evaluation - это тот же QA, только в продакшене, где мы проверяем не код, а качество работы модели в реальных условиях с целью успеть поймать деградацию системы до того момента, пока с этим явно столкнутся реальные пользователи.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍2🔥1
Откуда брать информацию о том, что происходит в индустрии оценки ИИ, какие новые техники и подходы появляются?
На самом деле пока оценка и тестирование ИИ никак нормально не стандартизирована, поэтому большинство информации нужно самостоятельно читать и искать в научных статьях.
Основной такой портал - это https://arxiv.org/
arXiv - это архив с открытым доступом, содержащий около 2,4 миллиона научных статей в области физики, математики, информатики, количественной биологии, количественных финансов, статистики, электротехники и системных наук, а также экономики.
Именно на этом портале часто публикуют новые статьи об оценки ИИ, поэтому если не знаете куда идти за инфомрацией, я советую как минимум держать этот портал в своих закладках браузера.
И ниже ссылки на две полезные работы в области оценки ИИ агентов, которые были опубликованы в этом году
AI Agents: Evolution, Architecture, and Real-World Applications
Survey on Evaluation of LLM-based Agents
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
На самом деле пока оценка и тестирование ИИ никак нормально не стандартизирована, поэтому большинство информации нужно самостоятельно читать и искать в научных статьях.
Основной такой портал - это https://arxiv.org/
arXiv - это архив с открытым доступом, содержащий около 2,4 миллиона научных статей в области физики, математики, информатики, количественной биологии, количественных финансов, статистики, электротехники и системных наук, а также экономики.
Именно на этом портале часто публикуют новые статьи об оценки ИИ, поэтому если не знаете куда идти за инфомрацией, я советую как минимум держать этот портал в своих закладках браузера.
И ниже ссылки на две полезные работы в области оценки ИИ агентов, которые были опубликованы в этом году
AI Agents: Evolution, Architecture, and Real-World Applications
Survey on Evaluation of LLM-based Agents
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥4👍1😁1
Сегодня разберем свежую идею из статьи Who’s Asking? Simulating Role-Based Questions for Conversational AI Evaluation про то, как роль пользователя влияет на оценку AI.
Когда мы тестируем диалоговые модели, мы часто формируем запрос в вакууме: просто вопрос - ответ - метрика. Но в реальности у пользователя всегда есть роль, менеджер, аналитик, инженер поддержки. И эта роль влияет на то, что именно он хочет получить от AI и как оценивает качество ответа.
Представьте запрос:
Объясни разницу между API и SDK.
Если спрашивает новичок, он ждет простого объяснения и примеров.
Если разработчик, ему нужны технические детали и ссылки на спецификацию.
Одно и тоже AI решение может дать корректный ответ, но быть бесполезным, если не учтена роль спрашивающего.
Авторы предлагают подход role-based evaluation, который позволяет симулировать разные роли и смотреть, как AI решение адаптирует стиль, уровень детализации и фокус ответа.
Для этого создаются ролевые шаблоны запросов (ты преподаватель, ты эксперт, ты студент) и оценивается:
⁃ насколько ответ соответствует роли,
⁃ сохранилась ли точность и полнота,
⁃ и умеет ли AI решение менять стиль объяснения в зависимости от контекста.
Модели все чаще работают в продуктах с конкретными ролями. Если evaluation остается нейтральным, мы можем пропустить критичные ошибки адаптации, когда модель технически права, но ответ не соответствует ожиданиям пользователя. Поэтому, роль пользователя - это еще одно измерение в оценке AI. Потому что часто не достаточно просто проверять факты, нужно проверять, насколько ответ уместен для конкретного типа пользователя.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Когда мы тестируем диалоговые модели, мы часто формируем запрос в вакууме: просто вопрос - ответ - метрика. Но в реальности у пользователя всегда есть роль, менеджер, аналитик, инженер поддержки. И эта роль влияет на то, что именно он хочет получить от AI и как оценивает качество ответа.
Представьте запрос:
Объясни разницу между API и SDK.
Если спрашивает новичок, он ждет простого объяснения и примеров.
Если разработчик, ему нужны технические детали и ссылки на спецификацию.
Одно и тоже AI решение может дать корректный ответ, но быть бесполезным, если не учтена роль спрашивающего.
Авторы предлагают подход role-based evaluation, который позволяет симулировать разные роли и смотреть, как AI решение адаптирует стиль, уровень детализации и фокус ответа.
Для этого создаются ролевые шаблоны запросов (ты преподаватель, ты эксперт, ты студент) и оценивается:
⁃ насколько ответ соответствует роли,
⁃ сохранилась ли точность и полнота,
⁃ и умеет ли AI решение менять стиль объяснения в зависимости от контекста.
Модели все чаще работают в продуктах с конкретными ролями. Если evaluation остается нейтральным, мы можем пропустить критичные ошибки адаптации, когда модель технически права, но ответ не соответствует ожиданиям пользователя. Поэтому, роль пользователя - это еще одно измерение в оценке AI. Потому что часто не достаточно просто проверять факты, нужно проверять, насколько ответ уместен для конкретного типа пользователя.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥4👍1
Сегодня разберем основные методы оценки ИИ-моделей, которые применяются в генеративных и retrieval-сценариях.
Многие из них пересекаются по сути, поэтому ниже упрощённая и объединённая структура методов.
1. Семантические методы
Оценивают смысловую близость между вопросом, контекстом и ответом.
Используются эмбеддинги и косинусное сходство (например, sentence-transformers, OpenAI text-embedding-3-small, MiniLM).
Чем выше значение, тем сильнее совпадение по смыслу.
Применяется для оценки релевантности найденных фрагментов, совпадения с эталонным ответом, фильтрации нерелевантных контекстов.
2. Лексические методы
Более простые и интерпретируемые.
Основаны на анализе пересечения ключевых слов (Keyword Overlap).
Считается доля совпадений между словами в вопросе и ответе или контексте.
Метод быстрый, но чувствителен к перефразировкам, обычно используется как базовая проверка ответов ИИ решения.
3. Фрагментарная (chunk-based) оценка
Вместо анализа документа целиком проверяется каждый фрагмент (chunk).
Это дает возможность точнее понять, какие куски текста действительно релевантны запросу, а какие просто шум.
Метод активно применяется в RAG-системах, где контекст разбивается на блоки.
4. LLM-based верификация (LLM as a Judge)
Оценка проводится самой языковой моделью, которая получает пару вопрос–контекст или вопрос–ответ и выносит суждение (например, по шкале от 1 до 5).
Используется для проверки релевантности, полноты, соответствия ответа запросу и многих дургих метриках
5. NLI-подход (Natural Language Inference)
Метод логической проверки, который смотрит действительно ли ответ вытекает из данных.
Внешняя модель (например, RoBERTa-large-MNLI или DeBERTa-v3-large-mnli) классифицирует связь между контекстом и утверждением как подтверждение, противоречие или несвязанные, после чего считается финальный скор.
Применяется для контроля достоверности и выявления галлюцинаций.
6. Verdict / смысловая декомпозиция
Метод делит ответ от ИИ решения по смысловым блокам (тезисам).
Каждый блок проверяется на уместность (или соответствии критериям метрики) относительно вопроса.
7. Reverse Questioning
Инверсный метод, модель оценщик (LLM) получает готовый ответ и должна восстановить вопрос.
Если восстановленный вопрос близок к исходному, то значит, ответ действительно отражает суть запроса.
Используется как дополнительная проверка релевантности и смысловой согласованности.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Многие из них пересекаются по сути, поэтому ниже упрощённая и объединённая структура методов.
1. Семантические методы
Оценивают смысловую близость между вопросом, контекстом и ответом.
Используются эмбеддинги и косинусное сходство (например, sentence-transformers, OpenAI text-embedding-3-small, MiniLM).
Чем выше значение, тем сильнее совпадение по смыслу.
Применяется для оценки релевантности найденных фрагментов, совпадения с эталонным ответом, фильтрации нерелевантных контекстов.
2. Лексические методы
Более простые и интерпретируемые.
Основаны на анализе пересечения ключевых слов (Keyword Overlap).
Считается доля совпадений между словами в вопросе и ответе или контексте.
Метод быстрый, но чувствителен к перефразировкам, обычно используется как базовая проверка ответов ИИ решения.
3. Фрагментарная (chunk-based) оценка
Вместо анализа документа целиком проверяется каждый фрагмент (chunk).
Это дает возможность точнее понять, какие куски текста действительно релевантны запросу, а какие просто шум.
Метод активно применяется в RAG-системах, где контекст разбивается на блоки.
4. LLM-based верификация (LLM as a Judge)
Оценка проводится самой языковой моделью, которая получает пару вопрос–контекст или вопрос–ответ и выносит суждение (например, по шкале от 1 до 5).
Используется для проверки релевантности, полноты, соответствия ответа запросу и многих дургих метриках
5. NLI-подход (Natural Language Inference)
Метод логической проверки, который смотрит действительно ли ответ вытекает из данных.
Внешняя модель (например, RoBERTa-large-MNLI или DeBERTa-v3-large-mnli) классифицирует связь между контекстом и утверждением как подтверждение, противоречие или несвязанные, после чего считается финальный скор.
Применяется для контроля достоверности и выявления галлюцинаций.
6. Verdict / смысловая декомпозиция
Метод делит ответ от ИИ решения по смысловым блокам (тезисам).
Каждый блок проверяется на уместность (или соответствии критериям метрики) относительно вопроса.
7. Reverse Questioning
Инверсный метод, модель оценщик (LLM) получает готовый ответ и должна восстановить вопрос.
Если восстановленный вопрос близок к исходному, то значит, ответ действительно отражает суть запроса.
Используется как дополнительная проверка релевантности и смысловой согласованности.
Полезная информация:
Курс по evaluation AI |
Мой фремворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥5👍1
Сегодня разберем новое интересное исследование Human vs AI-generated tests https://arxiv.org/abs/2510.24739 про то, насколько тесты, созданные ИИ, действительно сопоставимы с теми, что пишут люди.
Когда мы говорим про ИИ генерацию тестового датасета, то обычно подразумеваем, что это позволяет экономить время человека на создание датасета для оценки. Но мы часто не задумаваемся о том, насколько сохраняется качество при такой генерации. В исследоваении авторы провели анализ и как раз постарались ответить на этот вопрос.
Исследование показало, что ИИ хорошо умеет формулировать логичные и грамматически корректные вопросы,
но часто теряется глубина, то есть ИИ делает запросы в датасете слишком похожими, без разнообразия. В итоге тест вроде выглядит нормально, но проверяет одно и то же под разными формулировками.
Это важно, потому что все чаще можно столкнуться с тем, что многие специалисты используют LLM для генерации тестов, но без должной валидации. Использование такого датасета по факту может привести к тому, что ключевые аспекты ИИ решения будут проверены, а какие-то исключительные ситуации или крайние сценарии не попадут в скоуп проверок.
По сути, статья поднимает проблему, что даже если ИИ сгенерировал 100 запросов для тестового датасета, они должны пройти анализ со стороны человека, иначе это просто красиво оформленные тексты без должного понимания, какие именно аспекты ИИ решения они проверяют.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Когда мы говорим про ИИ генерацию тестового датасета, то обычно подразумеваем, что это позволяет экономить время человека на создание датасета для оценки. Но мы часто не задумаваемся о том, насколько сохраняется качество при такой генерации. В исследоваении авторы провели анализ и как раз постарались ответить на этот вопрос.
Исследование показало, что ИИ хорошо умеет формулировать логичные и грамматически корректные вопросы,
но часто теряется глубина, то есть ИИ делает запросы в датасете слишком похожими, без разнообразия. В итоге тест вроде выглядит нормально, но проверяет одно и то же под разными формулировками.
Это важно, потому что все чаще можно столкнуться с тем, что многие специалисты используют LLM для генерации тестов, но без должной валидации. Использование такого датасета по факту может привести к тому, что ключевые аспекты ИИ решения будут проверены, а какие-то исключительные ситуации или крайние сценарии не попадут в скоуп проверок.
По сути, статья поднимает проблему, что даже если ИИ сгенерировал 100 запросов для тестового датасета, они должны пройти анализ со стороны человека, иначе это просто красиво оформленные тексты без должного понимания, какие именно аспекты ИИ решения они проверяют.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥4👍2
Когда мы тестируем ИИ агента, важно проверять не только, как он рассуждает, какие шаги делает или какие инструменты вызывает,
а выполнил ли он задачу до конца. Именно это и измеряет показатель Task Success Rate (TSR).
По сути, TSR - это доля задач, в которых ИИ агент успешно достиг цели в не зависимости от того, как он это выполнил.
Например:
ИИ агент должен оформить заказ - оформил
ИИ агент должен найти документ — нашел
ИИ агент должен объяснить запрос пользователю,дал корректный ответ
И если хотя бы один из шагов при выполнении задачи провален и агент не достиг нужного результата, то задача считается проваленной.
Метрика в целом кажется простой, но именно она показывает итоговую картину качества работы ИИ агента.
Можно иметь идеальный reasoning, правильные вызовы тулов и подробный лог действий, но если цель не достигнута, то это уже не имеет значение.
TSR чаще всего не рассматривают изолированно, поэтому можно снимать дополнительные показатели, такие как :
Average Steps per Success, сколько шагов ИИ агент делает для выполнения задачи.
Error Recovery Rate, насколько часто ИИ агент сам исправляет ошибки без внешнего вмешательства.
Partial Success Rate, доля задач, где ИИ агент частично достиг цели (например, собрал данные, но не выполнил действие).
В целом, если говорить о TSR, то данная метрика по факту отвечает на ключевой вопрос, справился ли агент с задачей, да или нет, что является одним из самых важный критериев проверки работы ИИ агента.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
а выполнил ли он задачу до конца. Именно это и измеряет показатель Task Success Rate (TSR).
По сути, TSR - это доля задач, в которых ИИ агент успешно достиг цели в не зависимости от того, как он это выполнил.
Например:
ИИ агент должен оформить заказ - оформил
ИИ агент должен найти документ — нашел
ИИ агент должен объяснить запрос пользователю,дал корректный ответ
И если хотя бы один из шагов при выполнении задачи провален и агент не достиг нужного результата, то задача считается проваленной.
Метрика в целом кажется простой, но именно она показывает итоговую картину качества работы ИИ агента.
Можно иметь идеальный reasoning, правильные вызовы тулов и подробный лог действий, но если цель не достигнута, то это уже не имеет значение.
TSR чаще всего не рассматривают изолированно, поэтому можно снимать дополнительные показатели, такие как :
Average Steps per Success, сколько шагов ИИ агент делает для выполнения задачи.
Error Recovery Rate, насколько часто ИИ агент сам исправляет ошибки без внешнего вмешательства.
Partial Success Rate, доля задач, где ИИ агент частично достиг цели (например, собрал данные, но не выполнил действие).
В целом, если говорить о TSR, то данная метрика по факту отвечает на ключевой вопрос, справился ли агент с задачей, да или нет, что является одним из самых важный критериев проверки работы ИИ агента.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍7🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел вот такую классную гифку, показывающую как работают гардрейлы.
Для тех кто не знаком, гардрейлы (guardrails) - это по сути система безопасности вокруг модели. Они не улучшают ИИ рещение, не повышают точность самой LLM, но контролируют входы и выходы, чтобы ИИ решение не сказало что-то вредное, неправильное или небезопасное.
Гардрейлы могуть быть как на входе, таки на выходе в ИИ решение.
На входе гардрейлы проверяют, что пользователь не спрашивает что-то незаконное, токсичное или опасное. Если запрос проблемный, он блокируется или переписывается.
На выходе фильтруется сам ответ от ИИ решения и проверяется, нет ли фактической ошибки, риска, токсичности, утечек данных или предвзятости.
Почему это важно знать? По сути гардрейлы это часть процесса обеспечения качества ИИ системы и позволяют обезопасить ИИ решения от различных ситуаций, которые могут влиять на безопасность или качество работы ИИ системы.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Для тех кто не знаком, гардрейлы (guardrails) - это по сути система безопасности вокруг модели. Они не улучшают ИИ рещение, не повышают точность самой LLM, но контролируют входы и выходы, чтобы ИИ решение не сказало что-то вредное, неправильное или небезопасное.
Гардрейлы могуть быть как на входе, таки на выходе в ИИ решение.
На входе гардрейлы проверяют, что пользователь не спрашивает что-то незаконное, токсичное или опасное. Если запрос проблемный, он блокируется или переписывается.
На выходе фильтруется сам ответ от ИИ решения и проверяется, нет ли фактической ошибки, риска, токсичности, утечек данных или предвзятости.
Почему это важно знать? По сути гардрейлы это часть процесса обеспечения качества ИИ системы и позволяют обезопасить ИИ решения от различных ситуаций, которые могут влиять на безопасность или качество работы ИИ системы.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍5🔥1
Error Recovery - это показатель качества ИИ агентов, про который очень часто забывают при оценке ИИ. Данный показатель оценивает возможность ИИ агента восстанавливаться после ошибки и доводить задачу до конца.
Очень часто в реальных условиях использования ИИ агент может сталкнуться с непредсказуемыми сбоями, например нестабильные API, плохие данные, неверные ответы инструментов, неправильные свои же предположения. Но надежность ИИ агента подразумевает, что эти ошибки не должны приводить к тому, что ИИ агент не выполнит задачу, так как он должен правильно обработать ошибку и найти другие пути решения.
Типы ошибок, от которых агент должен уметь восстановиться:
1. Сбои внешних API
Например, калькулятор или база данных вернули 500 или пустой ответ. Надежный ИИ агент попробует повторить вызов, подобрать другой инструмент или изменить параметры.
2. Неверные вызовы инструментов
Агент передал неправильные аргументы, спутал параметры, выбрал не тот tool. Важно, чтобы он умел распознать собственную ошибку, пересобрал шаг и повторил действие.
3. Некорректные промежуточные результаты
Инструмент вернул странные данные или модель сама неправильно интерпретировала предыдущий шаг. Хороший ИИ агент должен уметь валидировать промежуточные результаты и корректировать курс, прежде чем двигаться дальше.
4. Логические ошибки в рассуждениях
Неправильно сделал вывод, неверно разобрал вопрос, ушёл в ненужное направление. ИИ агент должен уметь переформулировать намерение и перезапустить reasoning.
Поэтому важно, что когда вы оцениваете ИИ агента, важно смотреть не только на то, сколько задач он выполняет успешно,
но и как он справляется тогда, когда что-то пошло не так.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Очень часто в реальных условиях использования ИИ агент может сталкнуться с непредсказуемыми сбоями, например нестабильные API, плохие данные, неверные ответы инструментов, неправильные свои же предположения. Но надежность ИИ агента подразумевает, что эти ошибки не должны приводить к тому, что ИИ агент не выполнит задачу, так как он должен правильно обработать ошибку и найти другие пути решения.
Типы ошибок, от которых агент должен уметь восстановиться:
1. Сбои внешних API
Например, калькулятор или база данных вернули 500 или пустой ответ. Надежный ИИ агент попробует повторить вызов, подобрать другой инструмент или изменить параметры.
2. Неверные вызовы инструментов
Агент передал неправильные аргументы, спутал параметры, выбрал не тот tool. Важно, чтобы он умел распознать собственную ошибку, пересобрал шаг и повторил действие.
3. Некорректные промежуточные результаты
Инструмент вернул странные данные или модель сама неправильно интерпретировала предыдущий шаг. Хороший ИИ агент должен уметь валидировать промежуточные результаты и корректировать курс, прежде чем двигаться дальше.
4. Логические ошибки в рассуждениях
Неправильно сделал вывод, неверно разобрал вопрос, ушёл в ненужное направление. ИИ агент должен уметь переформулировать намерение и перезапустить reasoning.
Поэтому важно, что когда вы оцениваете ИИ агента, важно смотреть не только на то, сколько задач он выполняет успешно,
но и как он справляется тогда, когда что-то пошло не так.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍6
mastering ai agent evaluation.pdf
3.4 MB
Всем привет, нашел интересный playbook для оценки ИИ агентов, в котором разбирается:
- Общее концептуальное понимание того, что такое ИИ агент
- Основные сложности при создании и оценке ИИ агентов
- Основные области оценки и на чем стоит фокусироваться
- Важности мониторинга и оценки в продакшене
В общем если вы интересуетесь оценкой ИИ агентов, советую почитать, думаю какие-то моменты можно взять себе на заметку.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
- Общее концептуальное понимание того, что такое ИИ агент
- Основные сложности при создании и оценке ИИ агентов
- Основные области оценки и на чем стоит фокусироваться
- Важности мониторинга и оценки в продакшене
В общем если вы интересуетесь оценкой ИИ агентов, советую почитать, думаю какие-то моменты можно взять себе на заметку.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥7👍5
Semantic Entropy - это измерение того, насколько семантически различаются варианты ответа, которые ИИ может сгенерировать на один и тот же запрос.
Простой пример:
Если мы задаем вопрос “Столица России?” и ИИ всегда возвращает ответы, которые по смыслу одинаковы (“Москва”, “город Москва”, “это Москва”),
то семантическая энтропия будет низкая и как вывод, который можно сделать, ИИ уверен и стабильн.
Но если спросить “Как вылечить сложное заболевание?” и ИИ начинает выдавать разные по смыслу ответы (потому что нет поддтекста и контекста), и тут уже энтропия растет, что говорит о том, что ИИ не уверен, ответы нестабильны, высокая вероятность ошибок или галлюцинаций.
Как метрика считается?
1. ИИ генерирует несколько ответов на один и тот же вопрос.
2. Все ответы преобразуются в эмбеддинги.
3. Считается, насколько по смыслу они отличаются друг от друга.
4. Чем выше различие, тем выше Semantic Entropy.
Эту метрику можно использовать для детекции галлюцинаций, даже если нет expected output и проверки уверенности ИИ в генерации ответов.
В общем думаю, что в каких-то случаях отдельное измерение этой метрики наряду с faithfulness, groundness может быть полезно для дополнительного анализа уровня галлюцинаций.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Простой пример:
Если мы задаем вопрос “Столица России?” и ИИ всегда возвращает ответы, которые по смыслу одинаковы (“Москва”, “город Москва”, “это Москва”),
то семантическая энтропия будет низкая и как вывод, который можно сделать, ИИ уверен и стабильн.
Но если спросить “Как вылечить сложное заболевание?” и ИИ начинает выдавать разные по смыслу ответы (потому что нет поддтекста и контекста), и тут уже энтропия растет, что говорит о том, что ИИ не уверен, ответы нестабильны, высокая вероятность ошибок или галлюцинаций.
Как метрика считается?
1. ИИ генерирует несколько ответов на один и тот же вопрос.
2. Все ответы преобразуются в эмбеддинги.
3. Считается, насколько по смыслу они отличаются друг от друга.
4. Чем выше различие, тем выше Semantic Entropy.
Эту метрику можно использовать для детекции галлюцинаций, даже если нет expected output и проверки уверенности ИИ в генерации ответов.
В общем думаю, что в каких-то случаях отдельное измерение этой метрики наряду с faithfulness, groundness может быть полезно для дополнительного анализа уровня галлюцинаций.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥6👍3
Сегодня разберем одну из самых наверное неисследованных тем в оценке ИИ - это тема оценки генерации видео. По данной теме очень мало материалов, а большинство оценок сводится к субьективной оценки человеческого восприятия, что несомненно важно, но я подготовил список базовых метрик, которые также можно использовать для оценки.
Важно понимать, что видео намного сложнее картинок, потому что здесь важны не только пиксели, но и движение, согласованность объектов и логические действия. Поэтому и метрики здесь более разнообразные.
Вот ключевые подходы, которые сейчас используются:
1. PSNR
Сравнивает сгенерированные кадры с эталонным видео по ошибке пикселей. Подходит только в том случае, если есть референсное или эталонное видео.
2. SSIM
Оценивает яркость, контраст, локальную структуру. Метрика фокусируется на зрительном восприятии, но работает также как и PSNR в формате кадр-за-кадром и не учитывает движение.
3. VMAF
Включает в себя комбинацию ML-фич + сигналов, откалиброванных под человеческое восприятие и сравнивает сгенерированное видео с эталоном.
4. VBench
Первый большой бенчмарк для видео-генерации. Оценивает сразу много аспектов, такие как плавность движения, согласованность объекта / стабильность объекта во времени, временное мерцание (артефакты, возникающие между кадрами), пространственные взаимосвязи (корректное размещение объектов в сцене) и другие параметры, которых не видно в классических метриках.
5. FVD / FVMD
Метрика, разработанная специально для генеративного видео. Смотрит не на отдельные кадры, а на движение в целом, насколько оно реалистичное, непрерывное, без рывков. Считается одной из ключевых для современных video diffusion моделей.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Важно понимать, что видео намного сложнее картинок, потому что здесь важны не только пиксели, но и движение, согласованность объектов и логические действия. Поэтому и метрики здесь более разнообразные.
Вот ключевые подходы, которые сейчас используются:
1. PSNR
Сравнивает сгенерированные кадры с эталонным видео по ошибке пикселей. Подходит только в том случае, если есть референсное или эталонное видео.
2. SSIM
Оценивает яркость, контраст, локальную структуру. Метрика фокусируется на зрительном восприятии, но работает также как и PSNR в формате кадр-за-кадром и не учитывает движение.
3. VMAF
Включает в себя комбинацию ML-фич + сигналов, откалиброванных под человеческое восприятие и сравнивает сгенерированное видео с эталоном.
4. VBench
Первый большой бенчмарк для видео-генерации. Оценивает сразу много аспектов, такие как плавность движения, согласованность объекта / стабильность объекта во времени, временное мерцание (артефакты, возникающие между кадрами), пространственные взаимосвязи (корректное размещение объектов в сцене) и другие параметры, которых не видно в классических метриках.
5. FVD / FVMD
Метрика, разработанная специально для генеративного видео. Смотрит не на отдельные кадры, а на движение в целом, насколько оно реалистичное, непрерывное, без рывков. Считается одной из ключевых для современных video diffusion моделей.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍5🔥2
Недавно завершил свое небольшое исследование в части коррелляции подходов к оценке ИИ с человеческой оценкой в части метрики релеватность ответа. Для этого я сделал датасет из 500 вопросов, разделенный на 5 групп по 100 вопросов (Факты, Процедуры, Объяснения, Поддержка пользователей, Креатив) и на каждый из которых было сформировано 3 ответа, хороший, удовлетворительный и плохой. После чего, все эти 3 ответа для каждого запроса были оценены разными методами оценки, что в итоге в результате дало 1500 оценок для каждого метода.
Какие в итоге получились результаты.
Как и ожидалось, наилучшим подходом оказался LLM as a Judge, который получил 92% корреляции по коэфициентам Пирсона и Спирмана, что в целом достаточно неплохой результат, большинство оценок совпадает с человеческой экспертизой, но другим для меня открытием стал метод векторного сравнения USE, который показал 88% корреляции, но при этом в отличии от LLM as a Judge выполняется в разы быстрее и не требуется затрат на использование модели. Более того, методе USE показал аналогичные абсолютно примерно коэфициенты корреляции для группы вопросов, связанными с фактами, процедурами и объяснениями, что позволяет рассматривать его как полноценную альтернативу LLM as a Judge подходу. На третьем месте оказался подход с использованием эмбеддингов от OpenAI.
Полные результаты исследования я планируют попробовать опубликовать в научном журнале, а пока можете посмотреть пару графиков по результатам оценки.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Какие в итоге получились результаты.
Как и ожидалось, наилучшим подходом оказался LLM as a Judge, который получил 92% корреляции по коэфициентам Пирсона и Спирмана, что в целом достаточно неплохой результат, большинство оценок совпадает с человеческой экспертизой, но другим для меня открытием стал метод векторного сравнения USE, который показал 88% корреляции, но при этом в отличии от LLM as a Judge выполняется в разы быстрее и не требуется затрат на использование модели. Более того, методе USE показал аналогичные абсолютно примерно коэфициенты корреляции для группы вопросов, связанными с фактами, процедурами и объяснениями, что позволяет рассматривать его как полноценную альтернативу LLM as a Judge подходу. На третьем месте оказался подход с использованием эмбеддингов от OpenAI.
Полные результаты исследования я планируют попробовать опубликовать в научном журнале, а пока можете посмотреть пару графиков по результатам оценки.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥8👍2
Напомню, что это едиственный полноценный русскоязычный курс по тестированию ИИ, которые охватывает большое количество апспектов работы с ИИ, такие как:
- Оценка моделей ML/DL
- Оценка и тестирование LLM
- Оценка и тестирование RAG систем и AI агентов
- Оценка генерации картинок и видео
- Оценка предвзятости моделей и их безопасность
Курс включает в себя:
1. Теоретические знания (16 часов онлайн лекций в живую)
2. Лекции по практике (более 20 часов дополнительных видео)
3. Домашние задания (в среднем у ученика уходит от 2-8 часов на выполнение домашней работы после каждой лекции)
4. Работу с реальными ИИ системами (для курса подготовлены реальный RAG системы, ИИ агенты, модели OpenAI и Google Gemini)
📌И самое важное!!!
При бронировании места и внесения предоплаты 20% от стоимости курса до конца декабря, скидка на общую стоимость курса составит 15%.
👇Оставить заявку можно на сайте: eval-ai.com или написать мне в ЛС: @al_meshkov
Если думали, где стоит развиваться и расти, то это ваш шанс получить для себя абсолютно новые, но востребованные навыки оценки и тестирования ИИ!
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Привет всем, продолжаем разбираться в оценке AI.
На днях нашел в работе https://arxiv.org/pdf/2507.21504 очень интересную классификацию по оценки ИИ агентов, которая покрывает два ключевых аспекта, а именно цели оценки ИИ агентов и сам процесс оценки.
Считаю, что она очень классно разделяет и показывает ключевые направления для тестирования и оценки ИИ агентов, поэтому если у вас в голове каша, то эта диаграмма поможет навести порядов.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
На днях нашел в работе https://arxiv.org/pdf/2507.21504 очень интересную классификацию по оценки ИИ агентов, которая покрывает два ключевых аспекта, а именно цели оценки ИИ агентов и сам процесс оценки.
Считаю, что она очень классно разделяет и показывает ключевые направления для тестирования и оценки ИИ агентов, поэтому если у вас в голове каша, то эта диаграмма поможет навести порядов.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥4👍1
Всем привет!
Сегодня хочу провести опрос на тему работы с ИИ. Просьба ответить, есть ли у вас в работе задачи по тестированию и оценки ИИ систем?
Сегодня хочу провести опрос на тему работы с ИИ. Просьба ответить, есть ли у вас в работе задачи по тестированию и оценки ИИ систем?
Anonymous Poll
13%
Да, регулярно занимаюсь тестированием ИИ систем
23%
Нет, но у моей компании есть планы по внедрению ИИ систем
36%
Нет, но хочу развиваться в этом направлении
28%
Нет, просто интересно читать канал
👍1
В последнее время практически из каждого утюга слышно про использзование ИИ агентов в больщом количестве задачи областях и это не просто так по нескольким причинам:
1. Использование копайлотов, вайбкодинга сейчас позволяет практически каждому, кто даже не особо знаком с программированием, написать своего ИИ агента, который бы решал простые задачи, и получается, что порог входа стал в разы ниже, что позволяет создавать больше ИИ систем
2. ИИ агенты уже давно вышли на уровень, когда это не просто LLM или RAG, а полноценная система, которая может интегрироваться с внешними сервисами, самостоятельно принимать решения, делать самоанализ, самостоятельно находить и исправлять ошибки и многое другое, то есть получается что это уже система, которая частично может “думать” как человек в некоторых моментах, что позволяет создавать ИИ агентов практически для всего.
Но есть большой минус, такой прям жирный! Только 2-3% таких проектов реально доживают до стадии продакшена и действиельно начинают приносить пользу.
Почему так происходит? Все просто, написать агента легко, а проверить насколько качественно он работает, докрутить его до реально надежного и качественного решения, вот тут возникают сложности, и из-за того, что вайбкодеры или даже программисти могут написать код, но не знают как его стабилизировать, что ИИ агент действиельно выполнял поставленные цели, помимо отсутствия времени и желания, еще связано с особенностями их тестирования, потому что проверка качества работы ИИ агентов - это очень скурпулезная работа, которая требует очень хороших аналитических навыков.
И если вы тоже хотите научиться это делать, то всех жду на своем курсе eval-ai.com!
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
1. Использование копайлотов, вайбкодинга сейчас позволяет практически каждому, кто даже не особо знаком с программированием, написать своего ИИ агента, который бы решал простые задачи, и получается, что порог входа стал в разы ниже, что позволяет создавать больше ИИ систем
2. ИИ агенты уже давно вышли на уровень, когда это не просто LLM или RAG, а полноценная система, которая может интегрироваться с внешними сервисами, самостоятельно принимать решения, делать самоанализ, самостоятельно находить и исправлять ошибки и многое другое, то есть получается что это уже система, которая частично может “думать” как человек в некоторых моментах, что позволяет создавать ИИ агентов практически для всего.
Но есть большой минус, такой прям жирный! Только 2-3% таких проектов реально доживают до стадии продакшена и действиельно начинают приносить пользу.
Почему так происходит? Все просто, написать агента легко, а проверить насколько качественно он работает, докрутить его до реально надежного и качественного решения, вот тут возникают сложности, и из-за того, что вайбкодеры или даже программисти могут написать код, но не знают как его стабилизировать, что ИИ агент действиельно выполнял поставленные цели, помимо отсутствия времени и желания, еще связано с особенностями их тестирования, потому что проверка качества работы ИИ агентов - это очень скурпулезная работа, которая требует очень хороших аналитических навыков.
И если вы тоже хотите научиться это делать, то всех жду на своем курсе eval-ai.com!
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍5🔥3
Eval AI Tools.pdf
58 KB
Недавно сделал небольшой анализ рынка и сравнил основные инструменты для оценки и тестирования ИИ систем.
Все результаты попытался сложит в одну картинку, поэтому пользуйтесь!
Вкратце что смотрел:
OpenAI Evals (17k stars github)
Opik by Comet (15k stars github)
Deepeval (12k stars github)
Promptfoo (9k stars github)
Arize Phoenix (8k stars github)
Evidently AI (7k starts github)
Trulens (3k stars github)
Galileo
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Все результаты попытался сложит в одну картинку, поэтому пользуйтесь!
Вкратце что смотрел:
OpenAI Evals (17k stars github)
Opik by Comet (15k stars github)
Deepeval (12k stars github)
Promptfoo (9k stars github)
Arize Phoenix (8k stars github)
Evidently AI (7k starts github)
Trulens (3k stars github)
Galileo
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
❤7🔥6
Прочитав ряд научных работ я подумал, почему бы вместо использования единого скор балла для оценки метрики, не использовать все возможные скоры, которые LLM считает разумным для оценки конкретной метрики.
На практике это может выглядеть следующим образом. Мы просим LLM оценить, например, релеватность ответа, не одним баллом, а веростностью всех возможных баллов, которые LLM может поставить конкретному ответу, например, 0.8 с вероятностью 60% и 0.5 с вероятностью 40%.
Далее для количественной оценки неопределенности в таких вероятностных распределениях можно использовать энтропию Шеннона: H = -Σ p_i * log₂(p_i). И для примера выше, где LLM выставляет скор 0.8 с вероятностью 60% и скор 0.5 с вероятностью 40%, энтропия составит: H = -(0.6 × log₂(0.6) + 0.4 × log₂(0.4)) ≈ 0.97. Высокое значение энтропии (близкое к 1 для двух опций) указывает на значительную неопределенность в оценке, то есть LLM не может однозначно выбрать один скор. Низкая энтропия (близкая к 0) означает, что LLM уверена в своей оценке. Это позволяет фильтровать случаи с высокой неопределенностью для дополнительной проверки или взвешивать финальные оценки по степени уверенности модели.
По сути, на практике это означает переход от запроса "Какой финальный балл выбрала LLM?” к вопросу "Какой набор разумных интерпретаций определила LLM для оценки метрики?”.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
На практике это может выглядеть следующим образом. Мы просим LLM оценить, например, релеватность ответа, не одним баллом, а веростностью всех возможных баллов, которые LLM может поставить конкретному ответу, например, 0.8 с вероятностью 60% и 0.5 с вероятностью 40%.
Далее для количественной оценки неопределенности в таких вероятностных распределениях можно использовать энтропию Шеннона: H = -Σ p_i * log₂(p_i). И для примера выше, где LLM выставляет скор 0.8 с вероятностью 60% и скор 0.5 с вероятностью 40%, энтропия составит: H = -(0.6 × log₂(0.6) + 0.4 × log₂(0.4)) ≈ 0.97. Высокое значение энтропии (близкое к 1 для двух опций) указывает на значительную неопределенность в оценке, то есть LLM не может однозначно выбрать один скор. Низкая энтропия (близкая к 0) означает, что LLM уверена в своей оценке. Это позволяет фильтровать случаи с высокой неопределенностью для дополнительной проверки или взвешивать финальные оценки по степени уверенности модели.
По сути, на практике это означает переход от запроса "Какой финальный балл выбрала LLM?” к вопросу "Какой набор разумных интерпретаций определила LLM для оценки метрики?”.
Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🤔5👍2