Тестирование и оценка ИИ

Сегодня поговорим о том, как использовать метаморфические отношения (Metamorphic Relations) для оценки AI-решений.

Если у вас возникал вопрос, как именно наполнять датасет для оценки AI решения, как составлять правильно покрытие, то именно метаморфические отношения частично могут помочь вам в этом.

Когда мы формируем датасет для тестирования, важно не только проверять базовые запросы, но и смотреть, как модель ведет себя при изменении формулировки запроса. Метаморфическое тестирование помогает именно в этом, мы задаем один и тот же запрос в разных вариациях и проверяем, что результат остаётся корректным.

Причем метаморфические отношения могут использовать не только для оценки генерации текста, но и картинок, видео и аудио.

Какие отношения обычно используют:

MR1: Замена синонимов. Проверка того, умеет ли модель обрабатывать синонимы и возвращать релевантный результат.
MR2: Перефразировка. Оценка способности модели корректно отвечать на перефразированные (идентично изменненные) входные данные.
MR3: Добавление контекста. Проверка влияния дополнительного контекста на точность извлечения и генерации.
MR4: Негация. Оценка того, как модель справляется с отрицанием в запросах.
MR5: Сдвиг фокуса. Проверка, удерживает ли модель правильный фокус в запросе и не теряет ли целевую информацию.
MR6: Составной вопрос. Оценка качества работы с составными вопросами и способностью давать точные ответы на все части.
MR7: Двусмысленность. Проверка, может ли модель правильно разрешать неоднозначность и выбирать верную сущность.
MR8: Частичная информация. Оценка способности модели работать с урезанными запросами и всё равно выдавать точный ответ.

Суть в том, что мы создаём семейства запросов, где правильный ответ известен, и проверяем, остаётся ли он инвариантным при трансформациях. Это позволяет оценить не только фактологическую точность, но и реальную устойчивость модели к вариативности данных.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)

👍4

562 viewsedited 09:47