Тестирование и оценка ИИ
988 subscribers
81 photos
5 files
89 links
Канал посвящен тестированию и оценке качества искусственного интеллекта

Автор канала - @al_meshkov
Download Telegram
Всем привет!

Свой первый пост на данном канале я хочу посвятить базовому понятию ИИ и общей концепции тестирования ИИ.

Начну с того, что Искусственный интеллект (ИИ) — это технология, которая позволяет машинам выполнять задачи, требующие так назвываемого “человеческого" мышления, например, распознавать изображения, понимать речь, принимать решения, генерировать тексты и многое другое.

Такие системы называют недетерминированными, потому что при одних и тех же тестовых данных, ИИ может выдавать вам разные ответы (если мы говорим с вами о генеративном ИИ или нейронных сетях, а не о более простых методах машинного обучения). Отсюда и сложность в тестировании, а именно, как проверить работу системы, если нет четко заданного ожидаемого результата.

Для этого есть ряд оценок или метрик, которые могут говорить о качестве работы ИИ, такие как

- Релеватность ответа
- Верность ответа (отсутствие галлюцинаций)
- Релеватность контекста и многое другое.

В дальнейшем я на данном канале я буду стараться разбирать особенности каждой метрики и в целом подходы к оценке ИИ, потому что это достаточно объемные темы, а пока..

… подписывайтесь на канал и я буду стараться постепенно погружать и рассказывать вам о мире тестирования ИИ.⚡️
👍11🔥65
Всем привет!

Сегодня хочу рассказать об одной из ключевых архитектур в мире ИИ — RAG (Retrieval-Augmented Generation), или “поиск с дополненной генерацией”.

RAG — это подход, который решает одну из главных проблем языковых моделей: ограниченность знаний датой обучения и склонность к галлюцинациям. Представьте, что у вас есть умный помощник, который может не только генерировать тексты, но и “подглядывать” в актуальную базу знаний перед ответом.

Как это работает? RAG состоит из двух основных компонентов:

Retrieval (Поиск)
— система находит релевантные документы или фрагменты информации из внешней базе данных по запросу пользователя.

Generation (Генерация)
— языковая модель использует найденную информацию как контекст для формирования ответа.

Простой пример: вы спрашиваете “Какая погода в Москве сегодня?”. Обычная LLM не знает актуальной погоды, но RAG-система сначала найдет свежие данные о погоде, а затем сформулирует ответ на их основе.

Почему это важно для тестирования ИИ? RAG-системы добавляют дополнительный уровень сложности — теперь нужно проверять не только качество генерации, но и точность поиска, релевантность найденных документов и то, как модель их интерпретирует.
👍12🔥7👏2
Всем привет!

Периодически на моей работе мне необходимо погружать QA инженеров в особенности тестирования AI, поэтому сегодня я хочу поделиться с вами небольшой подборкой материалов, которые я даю ребятам для изучения области работы и тестирования ИИ.

1. Просто отличная, как я считаю, статья на хабре, которая объясняет базовые принципы разработки приложений на базе ИИ и содержит большое количество дополнительных полезных ссылок для изучения.

Ссылка на статью

2. Две классных лекции от университета Стендфорд, которые объясняют базовые принципы работы RAG и AI агентов:

Stanford CS25: V3 I Retrieval Augmented Language Models

Stanford CS25: V3 I Beyond LLMs: Agents, Emergent Abilities, Intermediate-Guided Reasoning, BabyLM

3. Deeplearning.ai
Полностью бесплатный ресурс с большим количеством бесплатных курсов по разработке и тестированию (evaluation) ИИ как для начинающих, так и для продвинутых инженеров.

Ресурс полностью на английском, но Yandex browser отлично переводит текст и видео на русский.

Хорошие курсы:

- Evaluating ai agents
-
Automated testing llmops
-
Evaluating advanced RAG
-
Quality and safety llm applications
-
AI python for beginners
🔥226👍6
Всем привет!

Сегодня хочу поговорить о терминологии, которая часто вызывает путаницу — почему в контексте ИИ правильно говорить "evaluation" (оценка), а не "testing" (тестирование).

Также это касается поиска информации, потому что если вы будете искать в интернете информацию по тестированию AI, то вам будет выдавать в основном только тестирование с помощью AI, не как проверять сами AI-based системы, потому что правильно будет именно evaluation AI и сейчас разберем почему.

На первый взгляд может показаться, что это просто семантические различия, но на самом деле за этим стоят принципиально разные подходы к проверке качества систем.

Testing (тестирование) — это классический подход из мира традиционного ПО, где мы проверяем соответствие системы четко определенным спецификациям. Есть входные данные, есть ожидаемый результат, есть бинарная оценка: работает/не работает, прошел тест/не прошел.

Evaluation (оценка) — это более подходящий термин для ИИ-систем, потому что здесь мы измеряем качество, а не правильность. Нет единственно верного ответа, есть градации качества.

Например, если мы тестируем калькулятор, то 2+2 должно равняться 4 — это тест. А если мы оцениваем качество перевода текста с английского на русский, то может быть несколько корректных вариантов, каждый с разным уровнем качества — это evaluation.

В мире ИИ мы работаем с метриками, которые дают нам численную оценку качества: BLEU для перевода, ROUGE для суммаризации, перплексия для языковых моделей. Эти метрики не говорят нам "правильно/неправильно", они говорят "лучше/хуже".

Поэтому когда мы говорим о проверке ИИ-систем, правильно использовать термин "AI evaluation", а не "AI testing". Это не просто лингвистическая точность — это отражение принципиально другого подхода к оценке качества недетерминированных систем.


Полезная информация:
С чего начать изучение AI
👍16🔥94
Всем привет!

Сегодня разберем конкретные инструменты для оценки и анализа GenAI-приложений.

Сразу скажу: с генеративным ИИ все сложнее, чем с классическим машинным обучением. Здесь нет четких правильных ответов, а оценка часто субъективна и зависит от контекста.

Специализированные фреймворки для GenAI

DeepEval — один из самых популярных опенсорсных фреймворков для evaluation LLM-приложений. Поддерживает много готовых метрик: faithfulness (оценка галлюцинаций), answer relevancy (релевантность ответов), contextual precision и recall для RAG-систем. Данный фреймворк позволяет автоматизировать процесс оценки, так как используем другую LLM для оценки метрик.

LangSmith от LangChain — отличная платформа (бесплатна с ограничением по количеству трейсов) для отладки и мониторинга LLM-приложений. Позволяет трейсить все вызовы внутри AI-based приложения, от входного промпта до финального ответа пользователю. Очень удобно для понимания, где именно ломается ваша RAG-система. Альтернатива - бесплатная локальная версия Langfuse.

Ragas — опенсорс фреймворк, который специально заточен под RAG-приложения. Оценивает качество retrieval, generation и end-to-end performance. Из коробки поддерживает метрики типа answer relevancy, context precision, context recall, faithfulness.

Evidently AI — опенсорсный фреймворк для evaluation и мониторинга GenAI-систем. Предоставляет готовые метрики для оценки качества LLM-ответов: correctness, coherence, fluency, relevance. Особенно силен в evaluation RAG-систем — умеет оценивать как качество retrieval, так и generation.

Я советую начинать с DeepEval или Ragas — они проще в настройке и имеют хорошую документацию.

Важно помнить, что оценка GenAI — это итеративный процесс. Метрики нужно постоянно калибровать под вашу конкретную задачу AI-based приложения.


Полезная информация:
С чего начать изучение AI
👍10🔥5
Всем привет!

Сегодня разберем одну из самых горячих тем в мире ИИ — AI агенты. Термин на слуху у всех, но понимание того, что это такое на самом деле, часто размыто. Давайте разложим по полочкам.

Сразу развеем миф: AI агент — это не просто чат-бот с доступом к интернету. Это принципиально другая архитектура, которая умеет планировать, принимать решения и выполнять последовательность действий для достижения цели.

Ключевые отличия от обычных LLM:
Обычная языковая модель работает по принципу "вопрос-ответ". Вы даете промпт, она генерирует текст и на этом все заканчивается.

AI агент работает в циклах: анализирует ситуацию, планирует действия, выполняет их, оценивает результат и корректирует план.

Он может использовать инструменты, запоминать контекст между сессиями и самостоятельно декомпозировать сложные задачи.

Основные компоненты AI агента:
Planning — способность разбивать сложную задачу на подзадачи и выстраивать последовательность действий.
Memory — краткосрочная память для текущего контекста и долгосрочная для накопления опыта.
Tool Use — интеграция с внешними сервисами: API, базы данных, калькуляторы, браузеры.
Reflection — анализ собственных действий и корректировка стратегии на основе обратной связи.

Практические примеры:
Простой пример — агент для планирования путешествий. Он не просто выдает список достопримечательностей, а ищет билеты, сравнивает цены отелей, проверяет погоду, составляет маршрут и даже может забронировать все самостоятельно.
Более сложный кейс — агент для анализа финансовых рынков. Он мониторит новости, анализирует графики, выполняет технический анализ и может даже совершать сделки по заданным критериям.

AI агенты пока далеки от совершенства. Они могут "зацикливаться", принимать неоптимальные решения или неправильно интерпретировать результаты своих действий. Поэтому обязательно требуется их тестирование (evaluation), особенно для критических задач.


Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI
🔥10👍41
OpenAI выпустили Testing Agent ИИ, который сам тестирует веб-приложения. Это не просто концепт, а рабочий фреймворк с открытым кодом, который можно скачать и запустить локально.

Агент использует CUA модель + Playwright. Вам нужно описать тест-кейс на естественном языке (“добавь товар в корзину, оформи заказ”), а он сам кликает, заполняет формы и проверяет результаты.

Работает фреймворк визуально — “видит” страницу и понимает интерфейс. Никаких селекторов и XPath, только описание действий пользователя.

OpenAI пока пишут, что модель в бета тестировании, поэтому еще может ошибаться, но я считаю это большой шаг вперед в части использования AI в автоматизации тестирования, так как
вместо сложных, например, Selenium-тестов, просто описываете сценарии и AI их выполняет.

И это только начало — ожидаю, что скоро появятся похожие решения от других крупных провайдеров, и UI-тестирование может кардинально изменится уже в ближайшие годы.

А я в ближайшие две недели попробую посмотреть это решение и возможно вернусь к вам с фидбеком.

Ссылка на репозиторий
https://github.com/openai/openai-testing-agent-demo


Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI
🔥26👍112
Сегодня я хочу разобрать с вами то, как оценивается качество AI систем на базе RAG. Что такое RAG и как он работает, я уже рассказывал в этом посте.

Для оценки AI, в который добавлена информация с помощью RAG, используется 3 ключевых метрики, такие как Answer Relevancy (релеватность или точность ответа), Faithfulness/Groundedness (верность ответа в соответствии с источникам) и Context Relevancy (правильность подбора контекста в зависимости от запроса пользователя). Нам важно проверить 3 важных момента: насколько хорошо система находит нужные факты, документы (контекст), насколько точно генерирует ответ на основе найденной информации, и насколько этот ответ отвечает на исходный вопрос. Провал в любом звене ломает всю цепочку и приводит к плохому качеству ответов AI.

Итак, теперь немного про метрики:
Context Relevancy — качество поиска: Первая метрика оценивает компонент - retrieval. Насколько найденные документы соответствуют пользовательскому запросу? Если система притащила 10 фрагментов контекста, но только 2 из них релевантны для запроса — у вас проблема с поиском, а не с генерацией.

Faithfulness/Groundedness — верность источникам: Вторая метрика проверяет, не галлюцинирует ли модель. Все утверждения в ответе должны подтверждаться найденным контекстом, а не придуманы моделью AI. Это особенно критично для задач в таких областях, как юриспруденция, медицина, финансы и других строго регулируемых отраслях.

Оценивается через проверку: можно ли каждое утверждение в ответе AI найти в исходных документах? Типичная проблема — модель "додумывает" детали, которых нет в контексте.

Answer Relevancy — точность ответа: Третья метрика оценивает финальный результат. Насколько ответ релевантен исходному вопросу? AI модель может использовать правильные документы, не галлюцинировать, но при этом отвечать не на тот вопрос или не понимать намерения пользователя.

Все три метрики реализованы в фрейморках DeepEval, Ragas, Evidently AI и других.


Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI
🔥9👍7
Сегодня я хочу разобрать с вами один из показателей LLM — Perplexity. Это техническая метрика, которая помогает понять, насколько хорошо языковая модель "понимает" и предсказывает текст.

Если объяснять простыми словами, то представьте, что модель читает текст слово за словом и пытается угадать следующее слово. Perplexity показывает, насколько модель "растеряна" при этом предсказании. Низкий Perplexity означает, что модель уверенно предсказывает следующие слова. Высокий Perplexity — модель часто "удивляется" и делает неожиданные предсказания.

Важно понимать, что Perplexity — это не показатель качества ответов модели для конечных пользователей. Это техническая метрика, которая измеряет внутреннее "понимание" языка моделью через вероятности предсказания следующего токена.

Математически Perplexity вычисляется через cross-entropy loss. Если модель на каждом шаге дает высокую вероятность правильному следующему слову — Perplexity низкий. Формула: Perplexity = 2^(cross-entropy).

Perplexity используется для сравнения языковых моделей между собой. GPT-4 имеет более низкий Perplexity на большинстве тестовых датасетов, чем GPT-3.5, что говорит о лучшем "понимании" языка.

Также метрика помогает в процессе обучения — если Perplexity перестает снижаться, значит модель достигла предела на данных или начинается переобучение.

К сожалению низкий Perplexity не гарантирует, что модель будет полезна в реальных задачах. Модель может отлично предсказывать следующие слова, но при этом генерировать бессмысленный текст или галлюцинировать факты.

Perplexity полезен для сравнения архитектур моделей, мониторинга обучения и оценки общего качества языкового моделирования. Но для evaluation конкретных приложений лучше использовать специализированные метрики и бенчмарки, такие как MMLU, HellaSwag, ARC, метрики BLEU, ROUGE или современные LLM-as-judge подходы.


Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI
🔥12👍61
⚡️Курс по evaluation AI.

У меня отличная новость! Я решил приступить к написанию нового курса по оценке искусственного интеллекта. Судя по ситуации на рынке, пока таких курсов нет, поэтому могу смело сказать, что он явно будет уникальным.

Я постараюсь доступным и понятным языком, а также с помощью практики, научить вас оценке качества работы AI.

Пока у меня сложилось понимание тех тем, которые я хочу включить в свой курс, а именно:
⁃ Основы evaluation и классические метрики ML/DL
⁃ Evaluation больших языковых моделей (LLM)
⁃ Evaluation RAG систем
⁃ Evaluation AI агентов и инструментальных систем
⁃ Evaluation мультимодальных AI систем (картинки, видео и прочее)
⁃ Conversational AI и многоходовые диалоги
⁃ Bias, safety и responsible AI evaluation
⁃ Продвинутые методы оценки AI

Так что курс будет точно насыщенным! Специально для обучения я напишу ряд AI приложений, с которыми нужно будет работать с точки зрения оценки, чтобы вы могли понять не только как провести evaluation, но и как работают разные подходы к созданию AI приложений.

Первый поток курса намечен на начало сентября!

А также я запустил новый сайт eval-ai.com, на котором помимо самого курса я буду публиковать свои большие статьи, связанные с оценкой ИИ.

В общем, если вам нужны подробности по данному курсу, вы можете найти их на моем сайте eval-ai.com.

Ну и также там можно уже сейчас оставить заявку на обучение.

Очень надеюсь, что данный курс будет очень полезен всем, кто хочет понять, как оценивать AI и быть готовым, когда эти задачи нужно будет выполнять на регулярной основе.


Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥9🥰3🎉31
Всем привет.

Я написал новую статью про фреймворк DeepEval, который я сам активно использовал с своих проектах по evaluation AI.

DeepEval - это open-source фреймворк для оценки систем на основе больших языковых моделей, который поддерживает большое количество метрик для разных типов AI.

В статье подробно разбираю архитектуру фреймворка, практические кейсы использования и делюсь наработками по настройке метрик.

Ссылка на статью


Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI
👍5🔥4