Тестирование и оценка ИИ

Всем привет.

Я написал новую статью про фреймворк DeepEval, который я сам активно использовал с своих проектах по evaluation AI.

DeepEval - это open-source фреймворк для оценки систем на основе больших языковых моделей, который поддерживает большое количество метрик для разных типов AI.

В статье подробно разбираю архитектуру фреймворка, практические кейсы использования и делюсь наработками по настройке метрик.

Ссылка на статью

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4

1.23K viewsedited 06:08

Тестирование и оценка ИИ

Всем привет.

Сегодня я хочу разобрать с вами принципиальную разницу между генеративными и дискриминативными моделями и особенности их evaluation. Понимание этой разницы критически важно для правильного выбора метрик оценки.

Генеративные модели создают новый контент - тексты, изображения, код. Они учатся понимать, как устроены данные, чтобы генерировать похожие примеры.

Дискриминативные модели решают задачи классификациии и предсказаний, например, отличают спам от не-спама, определяют эмоции в тексте, пронозируют погоду.

Генеративные модели - особенности evaluation:

Качество генерации: Главный вызов, это как оценить качество сгенерированного контента? Для текста используются метрики как BLEU, ROUGE, но они имеют ограничения. Более современный подход — LLM-as-judge evaluation, где другая модель оценивает качество генерации по критериям fluency, coherence, relevance.

Разнообразие (diversity): Генеративная модель не должна просто копировать обучающие данные. Оценивается через метрики как Self-BLEU (чем ниже, тем больше разнообразия), n-gram diversity, или embedding-based similarity между сгенерированными примерами.

Дискриминативные модели - особенности evaluation:

Точность классификации: Классические метрики - accuracy, precision, recall, F1-score. Также, если обучаемый датасет несбаланирован, то нужны метрики как AUC-ROC, AUC-PR, balanced accuracy.

Оценка регрессии: Когда модель предсказывает числовые значения (цены, температуру, продажи), используются другие метрики. MAE (средняя абсолютная ошибка). RMSE (корень из средней квадратичной ошибки) сильнее штрафует большие ошибки. R² показывает, какую долю изменчивости данных объясняет модель.

В отличии от дискриминативных моделей, где метрики точности здесь однозначны и понятны, генеративные модели сложнее оценивать, потому что на один запрос может быть много правильных ответов.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5❤3🔥3

1K viewsedited 09:23

Тестирование и оценка ИИ

В конце прошлого года появился новый протокол MCP, который сейчас постепенно набирает популярность, в том числе возможность применения его в тестировании.

Поэтому сегодня я хочу разобрать его с вами и рассказать о его возможностях.

MCP - это открытый стандарт, который позволяет AI-ассистентам подключаться к внешним системам и данным через единый протокол.

Playwright MCP Server — один из самых ярких примеров применения MCP в тестировании. Playwright MCP использует accessibility tree браузера для предоставления структурированного представления веб-контента.

Это означает, что AI может взаимодействовать с веб-страницами, понимая их семантику, а не просто “видя” пиксели. С MCP можно буквально описать тест словами: “Проверь, что пользователь может добавить товар в корзину и оформить заказ”, и AI автоматически создаст соответствующий тест-скрипт, получая веб элементы приложения.

MCP пока новая технология и только формируется. Не все инструменты поддерживают протокол, но потенциал огромен. Поэтому я советую следить за развитием данного протокола и искать ему применение в своей работе.

В дальнейшем я расскажу еще про пару MCP серверов, которые могут помочь в тестировании.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥18👍6

906 views06:01

Тестирование и оценка ИИ

Сегодня я хочу рассказать про достаточно популярную и часто используемую для работы с AI платформу Hugging Face. Помимо того, что это самый крупный ресурс с более чем 500 000 предобученных моделей, огромной выборкой готовых датасетов, готовыми инструментами для работы с AI, эту платформу также можно использовать для evaluation AI.

Что в ней есть:

Готовые метрики. Содержит все стандартные метрики: BLEU, ROUGE для генерации текста, accuracy, F1-score для классификации, perplexity для языковых моделей и другие. Унифицированный API позволяет использовать любую метрику одинаково.

Custom метрики. Платформа позволяет создавать собственные метрики и делиться ими, поэтому там можно найти большое количество метрик, сделанных сообществом.

Benchmark датасеты. Готовые тестовые наборы для всех популярных задач. GLUE, SuperGLUE для NLP, ImageNet для computer vision и многие другие. Все датасеты предобработаны и готовы к использованию.

Pipeline evaluation. Автоматическая оценка моделей через pipeline. Загружаете модель, датасет, выбираете метрики — получаете результаты без написания кода.

Batch evaluation. Оценка на больших объемах данных с автоматической оптимизацией.

Comparative evaluation. Сравнение нескольких моделей на одних данных. Результаты автоматически сводятся в таблицы.

Важное преимущество платформы в том, что Hugging Face стандартизирует evaluation процесс. Вместо написания кода для каждой метрики, вы используете единый API. Это ускоряет работу и снижает вероятность ошибок.

Ссылка на платформу:
https://huggingface.co

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4❤1

914 viewsedited 06:01

Тестирование и оценка ИИ

Всем привет!

Ранее я рассказывал про базовые метрики RAG AI, то есть когда AI генерирует ответы из дополненной вашими данными векторной БД.

Одна из основных метрик - это релевантность найденного контекста (context relevancy), поэтому сегодня я хочу рассказать, как она измеряется.

Контекст - это данные (слова, фразы, предложения), которые AI получает из векторной БД. Поиск происходит с помощью специального метода/инструмента retriever, который анализирует пользовательский запрос и пытается найти релевантные данные для ответа. Следовательно метрика считается как кол-во релевантных данных на общее кол-во данных, получаемых при запросе. Например, если на пользовательский запрос «Дай информацию о проекте X”, retriever получил 3 предложения, описывающих проект X и два предложения о проекте Y, то релевантность контекста будет 3/5=0,6 или 60%.

Очень важно, что бы контекст максимально релевантен запросу, потому что именно он используется AI для генерации ответа и если в контексте будет много нерелевантной информации, то риск галлюцинации и некорректного ответа на запрос значительно возрастает.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4

852 viewsedited 06:02

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем одну из фундаментальных концепций в AI - embedding. Термин постоянно встречается в AI-проектах, но понимание того, что это такое на самом деле, часто размыто. Давайте разложим по полочкам.

Embedding - это способ представления любых объектов (слов, предложений, изображений) в числовом виде так, чтобы машина могла понимать их смысл и находить связи между ними.

Представьте, что каждое слово — это точка в многомерном пространстве. Слова со схожим значением располагаются рядом: "кот" и "собака" будут близко, а "кот" и "автомобиль" — далеко.

Embedding превращает любой объект в вектор чисел (обычно от 50 до 1536 измерений), где каждое измерение кодирует определенную характеристику объекта. Похожие объекты имеют похожие векторы.

Основные области применения embeddings:
Semantic search — поиск по смыслу, а не по ключевым словам. Когда вы ищете "быстрый автомобиль", система найдет документы про "скоростные машины", даже если точных слов там нет.

Recommendation systems — Netflix рекомендует фильмы, находя similarity между embedding пользователей и фильмов.

RAG-системы — embedding помогают найти релевантные документы для генерации ответов.

Что создать свой embedding, большинство используют готовые модели от OpenAI, Google, Hugging Face. Нужно просто отправить текст в API и получаете вектор чисел.

Для специфических задач можно дообучить модели на своих данных или обучить embedding с нуля.

С точки зрения оценки embedding мы оцениваем качество его работы по тому, насколько хорошо сохраняются смысловые отношения между объектами.

Основные метрики для evaluation:
Cosine similarity — основная метрика для измерения похожести между векторами. Значения от -1 до 1, где 1 означает идентичность.
Retrieval metrics — для поисковых задач используются precision@k, recall@k, MAP (mean average precision).

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍6🔥2

866 views06:02

Тестирование и оценка ИИ

Всем привет.

Я написал новую статью про бенчмарки для оценки LLM — тему, которая стала критически важной для всех, кто работает с языковыми моделями.

Бенчмарки представляют собой стандартизированные наборы задач для систематической оценки способностей больших языковых моделей (LLM). Они выполняют для искусственного интеллекта ту же роль, что стандартизированные тесты для поступления в университет — позволяют объективно сравнить «интеллектуальные способности» разных моделей по единым, заранее определенным критериям.

Ключевые функции бенчмарков в оценке:
Объективное сравнение моделей. Вместо субъективных утверждений о превосходстве той или иной модели, бенчмарки предоставляют конкретные, воспроизводимые результаты.
Отслеживание прогресса в области AI. Бенчмарки создают историческую перспективу развития искусственного интеллекта.
Выявление слабых мест и направление исследований. Анализ результатов бенчмарков помогает исследователям понять, в каких областях модели все еще отстают от человеческих способностей.
Стандартизация индустрии. Бенчмарки создают общий язык для обсуждения способностей AI-систем.

В статье подробно разбирал более 16 различных стандартных датасетов для оценки LLM:
• Универсальные бенчмарки (MMLU, HellaSwag, BIG-Bench Hard)
• Специализированные тесты (HumanEval, GSM8K, TruthfulQA)
• Специальные тесты на логику, умение решать сложные задачи и многое другое
• Практические аспекты и ограничения

Ссылка на статью

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4🔥2

860 views06:02

Тестирование и оценка ИИ

Всем привет.

Нашел, как мне кажется, самое лучшее и понятное объяснение того, как работает LLM на сайте https://www.3blue1brown.com/ , который содержит много обучающих видео по математике, компьютерной науке и нейронным сетям.

3Blue1Brown объясняют сложные концепции через визуализации, которые делают абстрактные идеи понятными. В этом видео они разбирают принципы и архитектуру работы LLM, показывая, как LLM работает под капотом.

Что вы узнаете из видео:
Tokenization — как текст превращается в числа, которые может обрабатывать модель.
Attention mechanism — сердце современных LLM. Визуально показано, как модель "обращает внимание" на разные части контекста при предсказании следующего слова.
Embeddings в действии — как слова превращаются в векторы и почему похожие слова оказываются рядом в многомерном пространстве.
Training process — как модель учится предсказывать следующий токен и почему это приводит к "пониманию" языка.

После просмотра вы лучше поймете, почему LLM иногда "галлюцинируют", как влияет размер контекста на качество ответов, и почему промпт-инжиниринг вообще работает.
Есть русский перевод

Ссылка на видео

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍8🔥5❤1

812 viewsedited 06:38

Тестирование и оценка ИИ

Всем привет!

Недавно меня попросили написать пост про то, с какими AI приложениями я работаю в повседневной работе и в жизни в целом, поэтому решил поделиться реальным опытом использования.

Итак, вот мой список:

Claude (Anthropic). Мой рабочий инструмент для всего, что связано с текстом и кодом. Перешел полгода назад с ChatGPT и не жалею. Два ключевых преимущества: генерация кода реально на голову выше, особенно для сложных задач, и самое главное, можно подключить GitHub репозиторий, Google документы, загрузить файлы в качестве контекста проекта, с которым потом нужно будет работать. Использую ежедневно для написания и анализа кода, генерации тестов. Единственный минус — иногда слишком "вежливый" и многословный.

ChatGPT (OpenAI).
Универсальный для быстрых задач и research. Когда нужно что-то найти в интернете, сделать какой-нибудь анализ, или решить нестандартную задачу — он справляется лучше всех. O1 и O3 модели очень хорошо анализируют запросы и иногда могут помочь найти нестандартные решения.

Gemini (Google).
Помогает для работы с большими документами и данными. Модель Gemini 2.5 с контекстом в 1 миллион токенов позволяет делать очень хорошее ревью. Например, я могу добавить целый проект с тестами, документацией, и он может сделать различные задачи с этим большим контекстом. Как вариант, уже пробовал для ревью тестов и их написание их документации, не идеально конечно, но при правильных промптах значительную часть рутинной работы точно снимает. Интеграция с Google Workspace тоже удобная — можно сразу работать с документами и таблицами в Google Docs.

Cursor.
Я считаю, это действительно новый виток в использовании AI для написания кода, которую я открыл пару месяцев назад. Это не просто AI-помощник, а полноценная IDE, которая понимает весь контекст проекта. Может рефакторить целые файлы, генерировать код с учетом всех зависимостей, предлагать архитектурные решения. Особенно крут для больших проектов — понимает связи между модулями. Теперь использую вместо VS Code для работы с проектами.

Пока понял одну вещь: нет универсального AI для всех задач. Раньше тратил кучу времени, пытаясь заставить один AI делать всё. Теперь просто использую правильный инструмент для каждой работы и результат в разы лучше.

Мой совет, не пытайтесь найти "одного идеального AI". Лучше освойте 2-3 инструмента под разные задачи и переключайтесь между ними по потребности.

А какой AI стал вашим основным помощником? И для каких задач?👇

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥18👍7

902 viewsedited 09:08

Тестирование и оценка ИИ

#Новости

Всем привет!

Недавно прочитал новость, что в Стэнфорде придумали новый поход к оценке LLM, чтобы проверять модели быстрее и дешевле. Вместо того чтобы гонять модель по тысячам вопросов из готовых бенчмарков (о которых я уже писал тут), они обучили две вспомогательные модели:

1. Оценщик сложности — маленькая нейросеть, которая по тексту задачи предсказывает её трудность. Оценщик обучен на 22 популярных бенчмарках и 172 моделях.
2. Генератор вопросов — LLM, обученная выдавать новые задания на заданном уровне сложности.

Таким образом выбирается короткий, но хорошо сбалансированный автоматический датасет для теста новых моделей, который даёт почти тот же результат, что и целые бенчмарки, но дешевле и быстрее, потому что вопросы задаются не все сразу из бенчмарков, а оптимизированно под определенный уровень возможностей LLM (то есть выборочно).

Как это работает:
⁃ Тест сам начинает с вопроса средней сложности; вручную задавать стартовый уровень не нужно и задает его вашей LLM
⁃ По результатам ответа от вашей LLM, оценщик фиксирует ответ, а алгоритм подбирает следующую задачу из уже размеченного набора вопросов, чтобы понять возможности вашей LLM в зависимости от того, как ваша LLM ответила на предыдущий вопрос
⁃ Если ваша LLM сильная, то задачи постепенно усложняются; если слабая — упрощаются
⁃ Адаптивный алгоритм задает вопросы вашей LLM, пока не добьётся нужной статистической точности оценки ваше модели (грубо говоря пока модель постоянно не начнет некорректно отвечать на вопросы).

Чтобы побольше познакомиться с данным подходом, ниже ссылки на статью и само исследование.

Stanford News

Reliable and Efficient Amortized Model-based Evaluation research

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4❤1

815 viewsedited 06:04

Тестирование и оценка ИИ

Всем привет!

Недавно в десктоп-приложении от Anthropic для моделей Claude появилась возможность напрямую подключать различные MCP-коннекторы для получения информации из разных источников. В пятницу я решил посмотреть, насколько хорошо они работают.

Моя цель заключалась в том, чтобы Claude AI с нуля написал проект автоматизации тестирования для моего проекта Store Manager (на базе Pytest и Playwright) на основе документации и описания ручных регрессионных тестов.

Вот что получилось.
За пару часов Claude полностью создал структуру проекта и не просто базовую, а модульную: с вынесенной core-функциональностью, расширенным логированием, клиентами для работы с API и базой данных. Также были реализованы утилиты, хелперы, генератор тестовых данных, интеграция с CI/CD и динамическая настройка переменных окружения.

Уже через 2 часа, после 3–4 итераций небольших правок (например, улучшение логирования, пара багфиксов, переработка общих шагов для переиспользования в тестах и другие мелочи), у меня были полностью готовые автоматизированные тесты по моим ручным регрессионным сценариям - всего получилось 29 API-тестов, которые я успешно запустил и получил корректный результат выполнения.

Что я использовал:
- Подключил MCP-коннектор к Google Docs, откуда подтянулись требования к релизу и ручные регрессионные тесты.
- Подключил MCP-коннектор Filesystem для полного доступа Claude AI к проекту автоматизации. Я не написал ни одной строки кода — код писался прямо в проект автоматически.
- В контексте проекта я указал, как должна выглядеть структура проекта по автоматизации тестирования.
- Также планировал автоматизировать UI-тесты, но коннектор подключения к Google Chrome работал нестабильно, как итог не удалось получить селекторы. Скорее всего, проблема была на стороне самого коннектора, надеюсь, это скоро поправят.

Итог:
Работу, которую раньше выполнял синьор-автоматизатор примерно за неделю, Claude сделал за 2 часа, пусть и без UI-тестов. В целом я мог бы выполнить JS для сбора селекторов с HTML-страницы и Claude сам бы разобрался и написал UI-тесты, но это потребовало бы моего прямого вмешательства, чего я хотел избежать.

Поэтому, как я уже говорил не раз: будущее точно за AI в ИТ-профессиях. Те, кто готов меняться и интегрировать ИИ в свою работу, добьются больших успехов. Если вы еще не пробовали использовать AI как ассистента в своей работе, то настоятельно рекомендую начать. Уже сейчас AI способен решать довольно сложные задачи за пару часов, на что раньше уходила неделя.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥3

804 viewsedited 08:42

Тестирование и оценка ИИ

Сегодня разберем одну из важнейших практик в области безопасности ИИ — red teaming. Термин пришел из кибербезопасности, но в контексте ИИ приобрел новое значение и критическую важность.

Red teaming в AI - это процесс тестирования, где команда специалистов пытается заставить ИИ-модель вести себя нежелательным образом: генерировать токсичный контент, выдавать конфиденциальную информацию, проявлять предвзятость или нарушать политики безопасности.

Основные направления red teaming:
Jailbreak атаки - попытки обойти фильтры безопасности модели через хитрые промпты. Например, попросить ИИ "сыграть роль злодея" или использовать метафоры для получения запрещенного контента.

Prompt injection - внедрение скрытых инструкций в пользовательский запрос, чтобы модель выполнила нежелательные действия. Особенно критично для ИИ-агентов с доступом к внешним системам.

Data poisoning - проверка, как модель реагирует на потенциально вредоносные данные в обучающем наборе или контексте.

Bias (предвзятость) - поиск предвзятости по отношению к определенным группам, профессиям, национальностям, религиям.

Из материалов для обучения я советую посмотреть эти видео, в которых достаточно поднятно разбирается данный вид тестирования AI систем:

Мини курс по RedTeaming с deeplearning.ai

Мини курс по RedTeaming от Microsoft

С точки зрения фреймворков, в своей работе я использую следующие в зависимости от типов задач:

PyRIT - фремворка от microsoft, который возволяет автоматически находить разные уязвимости в системе, содержит большое количество атак и промптов и регулярно обновляется разработчиками.

DeepEval RedTeaming - достаточно простое использование, нужно указать, что вы хотите получить (например, финансовую информацию о компании), и фреймворк сам сгегенирует промпты для различных типы атак и выполнит эти атаки на вашу AI систему.

GuardrailsAI - эффективен для мониторинга атак на продуктиве, может выявлять разные типы атак.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥5👍1

742 viewsedited 06:04

Тестирование и оценка ИИ

Последний месяц провел в подготовке нового курса по тестированию и оценки работы ИИ.

В целом курс получается достаточно интересным, сейчас уже готово 4 полноценных лекции с большим количеством практики:
- Для оценки Machine Learning и Deep Learning подготовил готовые алгоритмы для обучения своих моделей, которые мы будем использовать в обучении, будем учить модели и потом их оценивать.
- Подготовил готовые фреймворки для оценки базовых LLM, будем работать с моделями от OpenAI, DeepSeek и Anthropic, запускать бенчмарки и анализировать результаты.
- Ну и также написал свой RAG для обучения, в который будем загружать документы и оценивать качество его работы с помощью DeepEval и Ragas.

За август планирую добить вторую часть обучения, а именно подготовить как AI системы (агенты, чат боты, мультимодальные системы), так и готовые алгоритмы и фреймворки для их оценки, также обязательно разберем red teaming и варианты выполнения различных атак на AI.

Если все пойдет по плану, то в сентябре уже начну обучение первой группы, поэтому если еще не оставили заявку, то самое время сейчас это сделать тут:

Eval-ai.com

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍7🔥2

768 views06:03

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем различные виды RAG-архитектур. RAG - это одна технология, но существует несколько принципиально разных подходов. Архитектура системы кардинально влияет на качество ответов и сложность реализации.

Naive RAG: Базовая схема запрос → поиск → генерация. Находит 3-10 похожих фрагментов по cosine similarity, передает в LLM с исходным вопросом для генерации.

Advanced RAG: Включает предобработку запросов (Query rewriting) и гибридный поиск. Query rewriting техника расширяет фразу запроса, например, "проблемы сервера" расширит до "медленная работа веб-сервера" и "оптимизация производительности".
Гибридный поиск комбинирует semantic + fulltext. При запросе "настройка max_connections PostgreSQL" semantic поиск найдет общую инфу про БД, а fulltext точные упоминания параметра.

Agentic RAG: Самая продвинутая архитектура с AI-агентами. Разбивает сложные запросы на подзадачи, планирует последовательность действий.
Запрос "Влияние цифровизации на рынок труда 2020-2024" декомпозируется на: статистика рынка, процессы цифровизации, COVID-19, санкции, синтез результатов.

Evaluation для разных типов RAG:
- Naive RAG - это простые метрики: accuracy, ROUGE для сравнения с эталонными ответами. Оценка Context Relevancy также критична.
- Advanced RAG - нужна RAG-триада: Answer Relevancy, Faithfulness, Context Relevancy. Дополнительно оценивайте качество перефразирования запросов и качество гибридного поиска.
- Agentic RAG — самый сложный evaluation. Помимо триады нужны метрики для планирования: правильность декомпозиции задач, качество синтеза информации из подзадач, coherence финального ответа.

Начинайте с базовых метрик для Naive, добавляйте сложность постепенно. Для Agentic обязателен human evaluation, так как автоматические метрики не всегда улавливают качество комплексного анализа.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥3👍2❤1

695 viewsedited 07:16

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем реранкинг, технику, которая может улучшить качество RAG-систем. Именно он часто решает проблему "нашли много, но не то".

Реранкинг - это двухэтапный процесс поиска данных. Сначала система находит большое количество потенциально релевантных документов (обычно 50-100) с помощью быстрого, но не очень точного метода. Затем более сложная модель переранжирует эти результаты, оставляя только самые релевантные (5-10 документов).

Представьте: вы ищете "настройка безопасности веб-сервера". Первичный поиск может вернуть 50 документов обо всем, что связано с серверами и безопасностью. Реранкер анализирует каждый документ детальнее и выбирает только те, которые действительно про настройку безопасности именно веб-серверов.

Типы реранкинга:

Cross-encoder реранкинг использует модели типа BERT, которые обрабатывают запрос и документ совместно. Качество высокое, но медленно — нужно обработать каждую пару запрос-документ отдельно.
Bi-encoder + Cross-encoder pipeline - сначала быстрый bi-encoder находит кандидатов, потом медленный cross-encoder их переранжирует. Компромисс между скоростью и качеством.
LLM-based реранкинг использует большие языковые модели для оценки релевантности. Модель получает запрос и документ, возвращает score от 0 до 1.

Метрики для evaluation реранкинга:

Precision@K: сколько из топ-K результатов действительно релевантны.
NDCG: учитывает не только релевантность, но и позицию в рейтинге.
MRR (Mean Reciprocal Rank): на какой позиции в среднем находится первый релевантный результат.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥4👍2

767 viewsedited 10:28

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем LLM-as-a-Judge evaluation подход, который позволяет автоматизировать оценку качества AI-систем.

LLM-as-a-Judge - это когда одна AI-модель оценивает качество ответов другой модели.

LLM-as-a-Judge получает исходный вопрос, ответ вашей системы и критерии оценки. Возвращает структурированную оценку с обоснованием: "Ответ релевантен (8/10), фактически точен (7/10), хорошо структурирован (9/10)".

Представьте: вам нужно оценить качество тысяч ответов чат-бота ежедневно. Человеческая оценка займет недели, автоматические математические метрики могут упустить нюансы или завышать/занижать оценку. LLM-судья дает почти человеческое понимание за секунды.

Продвинутые подходы:
Декомпозиция на атомарные утверждения, когда вместо оценки всего ответа система разбивает его на отдельные проверяемые факты. Каждое утверждение оценивается независимо по шкале: fully (1.0), mostly (0.9), partial (0.6), minor (0.3), none (0.0). Далее высчитывается среднее по всем баллам утвержений, что и является финальной оценкой.

Парные сравнения, когда модель сравнивает два ответа и определяет лучший. Часто надежнее абсолютных оценок.

Основные преимущества такого подхода, это близость к человеческому суждению, объяснимость результатов, гибкость настройки под домены.

Но есть важные нюансы, о которых стоит помнить:
Bias полезности: у AI есть склонность завышать оценки любых связных ответов.
Стоимость: каждая оценка требует вызов API к мощной модели, который чаще всего стоит денег. Но я бы не сказал, что это какие-то большие суммы, например, на моих проекта стоимость одного раунда evlaution из датасета 200-300 вопросов стоит 1-2 $.

Поэтому важно использовать AI модели не в лоб, предоставляя им в одном промпте и задачу оценить ту или иную метрику и исходные данные для оценки, а стараться, что AI косвенно оценивал результаты, например, через декомпозицию на атомарные утверждения.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍3🔥1

679 viewsedited 07:56

Тестирование и оценка ИИ

Сегодня хочу рассказать про важное исследование "A Survey on Evaluation of Large Language Models”, комплексный обзор методов оценки LLM, который должен знать каждый, кто работает с AI.

Исследование структурировано по трем ключевым вопросам:

Что оценивать: авторы проанализировали evaluation в 8 областях: от классических NLP задач до медицины, этики и AI-агентов. Особенно интересны выводы о том, где LLM показывают хорошие результаты (sentiment analysis, логические рассуждения, генерация текста), а где проваливаются (abstract reasoning, работа с не латинскими языками, устойчивость к атакам через промпты).

Где оценивать: обзор 46 популярных бенчмарков от общих (MMLU, HELM, BIG-bench) до специализированных (MATH для математики, TrustGPT для этики, MME для мультимодальных задач).

Как оценивать: сравнение автоматических метрик (accuracy, calibration, fairness, robustness) и human evaluation. Авторы отмечают растущую важность человеческой оценки для творческих задач, где базовые метрики не работают.

Ключевые тренды в evaluation:
- Переход от статических к динамическим бенчмаркам
- Рост краудсорсинг тестирования (DynaBench, DynaBoard)
- Фокус на безопасность (PromptBench показал уязвимость LLM к adversarial промптам)
- Постепенный сдвиг в сторону Human-in-the-loop подходов

Главные выводы исследования: LLM отлично справляются с пониманием языка и генерацией, но проваливаются в abstract reasoning и robustness. Существующие протоколы evaluation недостаточны для полной оценки возможностей современных LLM.

Если занимаетесь evaluation AI, это обязательно к прочтению. 45 страниц систематизированного знания с GitHub репозиторием для практического применения.
И финально, исследование показывает, что evaluation должен стать отдельной дисциплиной для успешного развития LLM.

Ссылка на исследование

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4❤1🔥1

631 viewsedited 07:18

Тестирование и оценка ИИ

ТОП-10 ЧАСТЫХ ОШИБОК В РАБОТЕ AI АГЕНТОВ

Сегодня разберем топ-10 частых ошибок в работе AI агентов, которые критически важно проверять при тестировании агентских систем. Если тестируете AI агентов, то этот список поможет сфокусироваться на ключевых проблемах.

1. Зацикливание (Infinite Loops). Агент повторяет одни и те же действия бесконечно, например, агент пытается получить информацию, но получает ошибку или считает, что информации недостаточно для продолжения работы и повторяет запрос снова и снова.

2. Неправильная декомпозиция задач. Агент разбивает сложную задачу на неправильные подзадачи или слишком мелко дробит простые задачи. Например, для "забронировать отель" создает 15 подзадач вместо 3-4 логичных шагов. Тестируйте планирование выполнения AI агентами на задачах разной сложности.

3. Потеря контекста между действиями. AI Агент "забывает" результаты предыдущих шагов и принимает решения без учета контекста. Особенно критично в задачах с длинной логикой. Проверяйте сохранение состояний между шагами.

4. Неэффективное использование инструментов. Агент вызывает API или сервис с неправильными параметрами, использует медленные инструменты вместо быстрых, или вызывает один инструмент несколько раз подряд. Мониторьте вызовы и ищите паттерны неэффективности.

5. Плохая обработка ошибок. При получении ошибки AI агент либо останавливается, либо игнорирует ошибку и продолжает с некорректными данными. Тестируйте поведение при различных типах ошибок, как вариант, использовать мокирование сервисов.

6. Неточная интерпретация результатов. Агент неправильно понимает ответы от инструментов. Например, API возвращает "no results found", а агент интерпретирует это как успешный результат. Проверяйте обработку граничных ответов.

7. Избыточная детализация планов. AI агент создает слишком подробные планы для простых задач, тратя время на планирование вместо выполнения. Оценивайте соотношение времени планирования к выполнению.

8. Неправильные приоритеты. Агент фокусируется на неважных деталях, игнорируя ключевые аспекты задачи. Например, при анализе проблемы тратит время на форматирование отчета вместо поиска решения. Проверяйте согласованность агента с целями задачи.

9. Отсутствие валидации финального результата. AI агент не проверяет, действительно ли задача выполнена. Может "завершить" задачу с частичным результатом. Тестируйте завершенность финальных результатов.

10. Галлюцинации в промежуточных шагах. AI агент "придумывает" результаты действий, которые не были выполнены, или неправильно интерпретирует внешние данные. Сравнивайте заявленные результаты с фактическими данными.

Практические советы для тестирования:
- Анализируйте все действия агента для анализа паттернов ошибок
- Создавайте тест кейсы для каждого типа ошибок
- Тестируйте крайние случаи и сценарии отказов

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍6🔥3❤1

657 views08:44

Тестирование и оценка ИИ

Сегодня разберем тему, которую многие недооценивают, а именно важность человеческой оценки. Да, метрики с оценкой от LLM-судьи или математические удобны, но они не заменяют человеческую оценку полностью.

Автоматические метрики дают объективную оценку качества ИИ. На практике они часто промахиваются мимо того, что действительно важно пользователям.

Где автоматические метрики подводят:
Творческие задачи. Автоматические метрики дают низкую оценку хорошему переводу, если он отличается от эталона.
Понимание контекста. Метрики не оценивают уместность тона ответа в конкретной ситуации.
Эмпатия и эмоциональный интеллект. Никакая метрика не измеряет способность проявить эмпатию к пользователю.
Культурные нюансы. Автоматика не улавливает сарказм, культурные отсылки и контекстную уместность.
Практическая полезность. Метрики не показывают, действительно ли ответ помогает решить проблему пользователя.

Оптимальный подход:
Этап 1: Автоматическая предварительная фильтрация Используйте автоматические метрики для первичной фильтрации. Это позволяет быстро отсеять явно плохие результаты и сфокусировать человеческую оценку на спорных случаях.

Этап 2: Человеческая проверка отфильтрованных данных
Люди оценивают результаты, прошедшие автоматический фильтр, по критериям, которые машины не могут измерить: релевантность, полезность, уместность, пользовательский опыт.

Этап 3: Калибровка метрик Используйте обратную связь людей для калибровки автоматических метрик. Если люди систематически не согласны с автоматическими оценками по определенным типам задач, то это сигнал пересмотреть метрики.

Автоматические метрики - это отличный инструмент предварительной проверки, но окончательную оценку качества должен делать человек. Лучший подход — гибридный конвейер оценки, где автоматика делает основную работу, а человек принимает финальные решения.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥3

626 viewsedited 07:04

Тестирование и оценка ИИ

Сегодня разберем метрики регрессии для ML моделей, а именно как правильно оценивать качество предсказания непрерывных значений, например, цены, температура, продажи в моделях машинного обучения.

RMSE (Root Mean Square Error):
Показывает среднеквадратичную ошибку модели. Ключевая особенность, она возводит ошибки в квадрат, поэтому большие ошибки в предсказаниях "штрафуются" сильнее маленьких.

Пример: предсказываем время доставки. Четыре заказа с ошибкой по 2 минуты, один с ошибкой 20 минут. RMSE = 9.1 минуты. Один выброс "испортил" всю оценку, хотя 80% предсказаний точные.

MAE (Mean Absolute Error):
Берет среднее от всех ошибок по модулю. В том же примере MAE = 5.6 минуты, что честнее отражает реальность.

MAE устойчив к выбросам, легко интерпретируется и не штрафует большие ошибки. Но когда большие разборы критичны для работы модели, то используем оценку RMSE.

R² (Coefficient of Determination):
Показывает, какую долю изменений в данных объясняет модель.

Пример с ценами домов: дома стоят 300K, 450K, 700K. Если модель всегда предсказывает среднюю цену 483K, то ошибки получаются огромные (например, 483K и 700к).

Умная модель учитывает, например, площадь, район, год постройки и предсказывает уже $320K, $470K, $680K и ошибок тут уже намного меньше. R² = 0.75 означает "наша модель объясняет 75% различий в ценах домов" определенными параметрами.

Quantile Regression:
Вместо "доставка займет 30 минут" дает "с 90% вероятностью от 20 до 45 минут". Критически важно для медицины, финансов, автопилотов — везде, где нужны гарантии.

Как выбрать:
RMSE - когда большие ошибки в предсказаниях критичны
MAE - когда есть выбросы, но все ошибки равноважны
R² - для сравнения моделей, обученных по разным технологиям
Quantile - когда нужно понимать, в каком диапазоне неопределенности работает модель

Важно понимать, что каждая метрик освещает разные аспекты модели и помогает принимать решения о качестве предсказаний.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍3🔥1

662 viewsedited 11:13

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем почему знания Python критически важны для оценки AI моделей, область, где без навыков понимания Python будет сложно.

Python - это основа процессов оценки:
Python позволяет реализовать пользовательские метрики под специфику задачи. Готовые метрики часто есть в библиотеках, но они не всегда могут быть применимы в лоб для оценки AI.
Кроме того, обработка результатов требует парсинг ответов AI модели, сравнение с эталонными данными, агрегацию оценок по различным критериям. Все это сложно без понимания того, как работает Python.

Например, автоматические метрики требуют понимания их реализации. Многие метрики имеют нюансы в использовании, которые видны только через код.
LLM-as-a-Judge подходы требуют написания промптов для оценки, парсинг структурированных ответов от модели-судьи, обработку случаев когда модель возвращает некорректный формат.

Кроме того, важно уметь читать документацию. Официальная документация многих инструментов, например, HuggingFace, DeepEval, GitHub репозитории кастомных метрик содержат различные детали, которые нужно учитывать при использовании.

Поэтому если вы еще не изучали python, я советую начать.

Вот пару беспалатных курсов, которые я могу порекомендовать

Короткий курс по Python с deepleaening.ai

Бесплатный курс на youtube (по которому я учился)

А еще с 08.09 стартует мой курс по оценке качества работы AI, там тоже я опционально дам небольшой блок по Python.

Если вы еще не записались, то самое время это сделать тут , количество мест ограничено.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4❤1🔥1

588 viewsedited 08:30

About

Blog

Apps

Platform