Тестирование и оценка ИИ

Всем привет!

Сегодня хочу рассказать об одной из ключевых архитектур в мире ИИ — RAG (Retrieval-Augmented Generation), или “поиск с дополненной генерацией”.

RAG — это подход, который решает одну из главных проблем языковых моделей: ограниченность знаний датой обучения и склонность к галлюцинациям. Представьте, что у вас есть умный помощник, который может не только генерировать тексты, но и “подглядывать” в актуальную базу знаний перед ответом.

Как это работает? RAG состоит из двух основных компонентов:

Retrieval (Поиск) — система находит релевантные документы или фрагменты информации из внешней базе данных по запросу пользователя.

Generation (Генерация) — языковая модель использует найденную информацию как контекст для формирования ответа.

Простой пример: вы спрашиваете “Какая погода в Москве сегодня?”. Обычная LLM не знает актуальной погоды, но RAG-система сначала найдет свежие данные о погоде, а затем сформулирует ответ на их основе.

Почему это важно для тестирования ИИ? RAG-системы добавляют дополнительный уровень сложности — теперь нужно проверять не только качество генерации, но и точность поиска, релевантность найденных документов и то, как модель их интерпретирует.

👍12🔥7👏2

1.04K viewsedited 06:01

Тестирование и оценка ИИ

Всем привет!

Периодически на моей работе мне необходимо погружать QA инженеров в особенности тестирования AI, поэтому сегодня я хочу поделиться с вами небольшой подборкой материалов, которые я даю ребятам для изучения области работы и тестирования ИИ.

1. Просто отличная, как я считаю, статья на хабре, которая объясняет базовые принципы разработки приложений на базе ИИ и содержит большое количество дополнительных полезных ссылок для изучения.

Ссылка на статью

2. Две классных лекции от университета Стендфорд, которые объясняют базовые принципы работы RAG и AI агентов:

Stanford CS25: V3 I Retrieval Augmented Language Models

Stanford CS25: V3 I Beyond LLMs: Agents, Emergent Abilities, Intermediate-Guided Reasoning, BabyLM

3. Deeplearning.ai
Полностью бесплатный ресурс с большим количеством бесплатных курсов по разработке и тестированию (evaluation) ИИ как для начинающих, так и для продвинутых инженеров.

Ресурс полностью на английском, но Yandex browser отлично переводит текст и видео на русский.

Хорошие курсы:

- Evaluating ai agents
- Automated testing llmops
- Evaluating advanced RAG
- Quality and safety llm applications
- AI python for beginners

🔥22❤6👍6

1.7K viewsedited 08:02

Тестирование и оценка ИИ

Всем привет!

Сегодня хочу поговорить о терминологии, которая часто вызывает путаницу — почему в контексте ИИ правильно говорить "evaluation" (оценка), а не "testing" (тестирование).

Также это касается поиска информации, потому что если вы будете искать в интернете информацию по тестированию AI, то вам будет выдавать в основном только тестирование с помощью AI, не как проверять сами AI-based системы, потому что правильно будет именно evaluation AI и сейчас разберем почему.

На первый взгляд может показаться, что это просто семантические различия, но на самом деле за этим стоят принципиально разные подходы к проверке качества систем.

Testing (тестирование) — это классический подход из мира традиционного ПО, где мы проверяем соответствие системы четко определенным спецификациям. Есть входные данные, есть ожидаемый результат, есть бинарная оценка: работает/не работает, прошел тест/не прошел.

Evaluation (оценка) — это более подходящий термин для ИИ-систем, потому что здесь мы измеряем качество, а не правильность. Нет единственно верного ответа, есть градации качества.

Например, если мы тестируем калькулятор, то 2+2 должно равняться 4 — это тест. А если мы оцениваем качество перевода текста с английского на русский, то может быть несколько корректных вариантов, каждый с разным уровнем качества — это evaluation.

В мире ИИ мы работаем с метриками, которые дают нам численную оценку качества: BLEU для перевода, ROUGE для суммаризации, перплексия для языковых моделей. Эти метрики не говорят нам "правильно/неправильно", они говорят "лучше/хуже".

Поэтому когда мы говорим о проверке ИИ-систем, правильно использовать термин "AI evaluation", а не "AI testing". Это не просто лингвистическая точность — это отражение принципиально другого подхода к оценке качества недетерминированных систем.

Полезная информация:
С чего начать изучение AI

👍16🔥9❤4

1.08K viewsedited 07:23

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем конкретные инструменты для оценки и анализа GenAI-приложений.

Сразу скажу: с генеративным ИИ все сложнее, чем с классическим машинным обучением. Здесь нет четких правильных ответов, а оценка часто субъективна и зависит от контекста.

Специализированные фреймворки для GenAI

DeepEval — один из самых популярных опенсорсных фреймворков для evaluation LLM-приложений. Поддерживает много готовых метрик: faithfulness (оценка галлюцинаций), answer relevancy (релевантность ответов), contextual precision и recall для RAG-систем. Данный фреймворк позволяет автоматизировать процесс оценки, так как используем другую LLM для оценки метрик.

LangSmith от LangChain — отличная платформа (бесплатна с ограничением по количеству трейсов) для отладки и мониторинга LLM-приложений. Позволяет трейсить все вызовы внутри AI-based приложения, от входного промпта до финального ответа пользователю. Очень удобно для понимания, где именно ломается ваша RAG-система. Альтернатива - бесплатная локальная версия Langfuse.

Ragas — опенсорс фреймворк, который специально заточен под RAG-приложения. Оценивает качество retrieval, generation и end-to-end performance. Из коробки поддерживает метрики типа answer relevancy, context precision, context recall, faithfulness.

Evidently AI — опенсорсный фреймворк для evaluation и мониторинга GenAI-систем. Предоставляет готовые метрики для оценки качества LLM-ответов: correctness, coherence, fluency, relevance. Особенно силен в evaluation RAG-систем — умеет оценивать как качество retrieval, так и generation.

Я советую начинать с DeepEval или Ragas — они проще в настройке и имеют хорошую документацию.

Важно помнить, что оценка GenAI — это итеративный процесс. Метрики нужно постоянно калибровать под вашу конкретную задачу AI-based приложения.

Полезная информация:
С чего начать изучение AI

👍10🔥5

1.13K viewsedited 06:00

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем одну из самых горячих тем в мире ИИ — AI агенты. Термин на слуху у всех, но понимание того, что это такое на самом деле, часто размыто. Давайте разложим по полочкам.

Сразу развеем миф: AI агент — это не просто чат-бот с доступом к интернету. Это принципиально другая архитектура, которая умеет планировать, принимать решения и выполнять последовательность действий для достижения цели.

Ключевые отличия от обычных LLM:
Обычная языковая модель работает по принципу "вопрос-ответ". Вы даете промпт, она генерирует текст и на этом все заканчивается.

AI агент работает в циклах: анализирует ситуацию, планирует действия, выполняет их, оценивает результат и корректирует план.

Он может использовать инструменты, запоминать контекст между сессиями и самостоятельно декомпозировать сложные задачи.

Основные компоненты AI агента:
Planning — способность разбивать сложную задачу на подзадачи и выстраивать последовательность действий.
Memory — краткосрочная память для текущего контекста и долгосрочная для накопления опыта.
Tool Use — интеграция с внешними сервисами: API, базы данных, калькуляторы, браузеры.
Reflection — анализ собственных действий и корректировка стратегии на основе обратной связи.

Практические примеры:
Простой пример — агент для планирования путешествий. Он не просто выдает список достопримечательностей, а ищет билеты, сравнивает цены отелей, проверяет погоду, составляет маршрут и даже может забронировать все самостоятельно.
Более сложный кейс — агент для анализа финансовых рынков. Он мониторит новости, анализирует графики, выполняет технический анализ и может даже совершать сделки по заданным критериям.

AI агенты пока далеки от совершенства. Они могут "зацикливаться", принимать неоптимальные решения или неправильно интерпретировать результаты своих действий. Поэтому обязательно требуется их тестирование (evaluation), особенно для критических задач.

Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI

🔥10👍4❤1

1.22K viewsedited 08:47

Тестирование и оценка ИИ

OpenAI выпустили Testing Agent — ИИ, который сам тестирует веб-приложения. Это не просто концепт, а рабочий фреймворк с открытым кодом, который можно скачать и запустить локально.

Агент использует CUA модель + Playwright. Вам нужно описать тест-кейс на естественном языке (“добавь товар в корзину, оформи заказ”), а он сам кликает, заполняет формы и проверяет результаты.

Работает фреймворк визуально — “видит” страницу и понимает интерфейс. Никаких селекторов и XPath, только описание действий пользователя.

OpenAI пока пишут, что модель в бета тестировании, поэтому еще может ошибаться, но я считаю это большой шаг вперед в части использования AI в автоматизации тестирования, так как
вместо сложных, например, Selenium-тестов, просто описываете сценарии и AI их выполняет.

И это только начало — ожидаю, что скоро появятся похожие решения от других крупных провайдеров, и UI-тестирование может кардинально изменится уже в ближайшие годы.

А я в ближайшие две недели попробую посмотреть это решение и возможно вернусь к вам с фидбеком.

Ссылка на репозиторий
https://github.com/openai/openai-testing-agent-demo

Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI

🔥26👍11❤2

1.74K viewsedited 06:01

Тестирование и оценка ИИ

Сегодня я хочу разобрать с вами то, как оценивается качество AI систем на базе RAG. Что такое RAG и как он работает, я уже рассказывал в этом посте.

Для оценки AI, в который добавлена информация с помощью RAG, используется 3 ключевых метрики, такие как Answer Relevancy (релеватность или точность ответа), Faithfulness/Groundedness (верность ответа в соответствии с источникам) и Context Relevancy (правильность подбора контекста в зависимости от запроса пользователя). Нам важно проверить 3 важных момента: насколько хорошо система находит нужные факты, документы (контекст), насколько точно генерирует ответ на основе найденной информации, и насколько этот ответ отвечает на исходный вопрос. Провал в любом звене ломает всю цепочку и приводит к плохому качеству ответов AI.

Итак, теперь немного про метрики:
Context Relevancy — качество поиска: Первая метрика оценивает компонент - retrieval. Насколько найденные документы соответствуют пользовательскому запросу? Если система притащила 10 фрагментов контекста, но только 2 из них релевантны для запроса — у вас проблема с поиском, а не с генерацией.

Faithfulness/Groundedness — верность источникам: Вторая метрика проверяет, не галлюцинирует ли модель. Все утверждения в ответе должны подтверждаться найденным контекстом, а не придуманы моделью AI. Это особенно критично для задач в таких областях, как юриспруденция, медицина, финансы и других строго регулируемых отраслях.

Оценивается через проверку: можно ли каждое утверждение в ответе AI найти в исходных документах? Типичная проблема — модель "додумывает" детали, которых нет в контексте.

Answer Relevancy — точность ответа: Третья метрика оценивает финальный результат. Насколько ответ релевантен исходному вопросу? AI модель может использовать правильные документы, не галлюцинировать, но при этом отвечать не на тот вопрос или не понимать намерения пользователя.

Все три метрики реализованы в фрейморках DeepEval, Ragas, Evidently AI и других.

Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI

🔥9👍7

1.1K views06:01

Тестирование и оценка ИИ

Сегодня я хочу разобрать с вами один из показателей LLM — Perplexity. Это техническая метрика, которая помогает понять, насколько хорошо языковая модель "понимает" и предсказывает текст.

Если объяснять простыми словами, то представьте, что модель читает текст слово за словом и пытается угадать следующее слово. Perplexity показывает, насколько модель "растеряна" при этом предсказании. Низкий Perplexity означает, что модель уверенно предсказывает следующие слова. Высокий Perplexity — модель часто "удивляется" и делает неожиданные предсказания.

Важно понимать, что Perplexity — это не показатель качества ответов модели для конечных пользователей. Это техническая метрика, которая измеряет внутреннее "понимание" языка моделью через вероятности предсказания следующего токена.

Математически Perplexity вычисляется через cross-entropy loss. Если модель на каждом шаге дает высокую вероятность правильному следующему слову — Perplexity низкий. Формула: Perplexity = 2^(cross-entropy).

Perplexity используется для сравнения языковых моделей между собой. GPT-4 имеет более низкий Perplexity на большинстве тестовых датасетов, чем GPT-3.5, что говорит о лучшем "понимании" языка.

Также метрика помогает в процессе обучения — если Perplexity перестает снижаться, значит модель достигла предела на данных или начинается переобучение.

К сожалению низкий Perplexity не гарантирует, что модель будет полезна в реальных задачах. Модель может отлично предсказывать следующие слова, но при этом генерировать бессмысленный текст или галлюцинировать факты.

Perplexity полезен для сравнения архитектур моделей, мониторинга обучения и оценки общего качества языкового моделирования. Но для evaluation конкретных приложений лучше использовать специализированные метрики и бенчмарки, такие как MMLU, HellaSwag, ARC, метрики BLEU, ROUGE или современные LLM-as-judge подходы.

Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI

🔥12👍6❤1

1.16K viewsedited 06:02

Тестирование и оценка ИИ

⚡️

Курс по evaluation AI.

У меня отличная новость! Я решил приступить к написанию нового курса по оценке искусственного интеллекта. Судя по ситуации на рынке, пока таких курсов нет, поэтому могу смело сказать, что он явно будет уникальным.

Я постараюсь доступным и понятным языком, а также с помощью практики, научить вас оценке качества работы AI.

Пока у меня сложилось понимание тех тем, которые я хочу включить в свой курс, а именно:
⁃ Основы evaluation и классические метрики ML/DL
⁃ Evaluation больших языковых моделей (LLM)
⁃ Evaluation RAG систем
⁃ Evaluation AI агентов и инструментальных систем
⁃ Evaluation мультимодальных AI систем (картинки, видео и прочее)
⁃ Conversational AI и многоходовые диалоги
⁃ Bias, safety и responsible AI evaluation
⁃ Продвинутые методы оценки AI

Так что курс будет точно насыщенным! Специально для обучения я напишу ряд AI приложений, с которыми нужно будет работать с точки зрения оценки, чтобы вы могли понять не только как провести evaluation, но и как работают разные подходы к созданию AI приложений.

Первый поток курса намечен на начало сентября!

А также я запустил новый сайт eval-ai.com, на котором помимо самого курса я буду публиковать свои большие статьи, связанные с оценкой ИИ.

В общем, если вам нужны подробности по данному курсу, вы можете найти их на моем сайте eval-ai.com.

Ну и также там можно уже сейчас оставить заявку на обучение.

Очень надеюсь, что данный курс будет очень полезен всем, кто хочет понять, как оценивать AI и быть готовым, когда эти задачи нужно будет выполнять на регулярной основе.

Полезная информация:
С чего начать изучение AI | Инструменты для оценки AI

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥9🥰3🎉3❤1

1.44K viewsedited 06:05

Тестирование и оценка ИИ

Всем привет.

Я написал новую статью про фреймворк DeepEval, который я сам активно использовал с своих проектах по evaluation AI.

DeepEval - это open-source фреймворк для оценки систем на основе больших языковых моделей, который поддерживает большое количество метрик для разных типов AI.

В статье подробно разбираю архитектуру фреймворка, практические кейсы использования и делюсь наработками по настройке метрик.

Ссылка на статью

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4

1.23K viewsedited 06:08

Тестирование и оценка ИИ

Всем привет.

Сегодня я хочу разобрать с вами принципиальную разницу между генеративными и дискриминативными моделями и особенности их evaluation. Понимание этой разницы критически важно для правильного выбора метрик оценки.

Генеративные модели создают новый контент - тексты, изображения, код. Они учатся понимать, как устроены данные, чтобы генерировать похожие примеры.

Дискриминативные модели решают задачи классификациии и предсказаний, например, отличают спам от не-спама, определяют эмоции в тексте, пронозируют погоду.

Генеративные модели - особенности evaluation:

Качество генерации: Главный вызов, это как оценить качество сгенерированного контента? Для текста используются метрики как BLEU, ROUGE, но они имеют ограничения. Более современный подход — LLM-as-judge evaluation, где другая модель оценивает качество генерации по критериям fluency, coherence, relevance.

Разнообразие (diversity): Генеративная модель не должна просто копировать обучающие данные. Оценивается через метрики как Self-BLEU (чем ниже, тем больше разнообразия), n-gram diversity, или embedding-based similarity между сгенерированными примерами.

Дискриминативные модели - особенности evaluation:

Точность классификации: Классические метрики - accuracy, precision, recall, F1-score. Также, если обучаемый датасет несбаланирован, то нужны метрики как AUC-ROC, AUC-PR, balanced accuracy.

Оценка регрессии: Когда модель предсказывает числовые значения (цены, температуру, продажи), используются другие метрики. MAE (средняя абсолютная ошибка). RMSE (корень из средней квадратичной ошибки) сильнее штрафует большие ошибки. R² показывает, какую долю изменчивости данных объясняет модель.

В отличии от дискриминативных моделей, где метрики точности здесь однозначны и понятны, генеративные модели сложнее оценивать, потому что на один запрос может быть много правильных ответов.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5❤3🔥3

1K viewsedited 09:23

Тестирование и оценка ИИ

В конце прошлого года появился новый протокол MCP, который сейчас постепенно набирает популярность, в том числе возможность применения его в тестировании.

Поэтому сегодня я хочу разобрать его с вами и рассказать о его возможностях.

MCP - это открытый стандарт, который позволяет AI-ассистентам подключаться к внешним системам и данным через единый протокол.

Playwright MCP Server — один из самых ярких примеров применения MCP в тестировании. Playwright MCP использует accessibility tree браузера для предоставления структурированного представления веб-контента.

Это означает, что AI может взаимодействовать с веб-страницами, понимая их семантику, а не просто “видя” пиксели. С MCP можно буквально описать тест словами: “Проверь, что пользователь может добавить товар в корзину и оформить заказ”, и AI автоматически создаст соответствующий тест-скрипт, получая веб элементы приложения.

MCP пока новая технология и только формируется. Не все инструменты поддерживают протокол, но потенциал огромен. Поэтому я советую следить за развитием данного протокола и искать ему применение в своей работе.

В дальнейшем я расскажу еще про пару MCP серверов, которые могут помочь в тестировании.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥18👍6

906 views06:01

Тестирование и оценка ИИ

Сегодня я хочу рассказать про достаточно популярную и часто используемую для работы с AI платформу Hugging Face. Помимо того, что это самый крупный ресурс с более чем 500 000 предобученных моделей, огромной выборкой готовых датасетов, готовыми инструментами для работы с AI, эту платформу также можно использовать для evaluation AI.

Что в ней есть:

Готовые метрики. Содержит все стандартные метрики: BLEU, ROUGE для генерации текста, accuracy, F1-score для классификации, perplexity для языковых моделей и другие. Унифицированный API позволяет использовать любую метрику одинаково.

Custom метрики. Платформа позволяет создавать собственные метрики и делиться ими, поэтому там можно найти большое количество метрик, сделанных сообществом.

Benchmark датасеты. Готовые тестовые наборы для всех популярных задач. GLUE, SuperGLUE для NLP, ImageNet для computer vision и многие другие. Все датасеты предобработаны и готовы к использованию.

Pipeline evaluation. Автоматическая оценка моделей через pipeline. Загружаете модель, датасет, выбираете метрики — получаете результаты без написания кода.

Batch evaluation. Оценка на больших объемах данных с автоматической оптимизацией.

Comparative evaluation. Сравнение нескольких моделей на одних данных. Результаты автоматически сводятся в таблицы.

Важное преимущество платформы в том, что Hugging Face стандартизирует evaluation процесс. Вместо написания кода для каждой метрики, вы используете единый API. Это ускоряет работу и снижает вероятность ошибок.

Ссылка на платформу:
https://huggingface.co

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4❤1

914 viewsedited 06:01

Тестирование и оценка ИИ

Всем привет!

Ранее я рассказывал про базовые метрики RAG AI, то есть когда AI генерирует ответы из дополненной вашими данными векторной БД.

Одна из основных метрик - это релевантность найденного контекста (context relevancy), поэтому сегодня я хочу рассказать, как она измеряется.

Контекст - это данные (слова, фразы, предложения), которые AI получает из векторной БД. Поиск происходит с помощью специального метода/инструмента retriever, который анализирует пользовательский запрос и пытается найти релевантные данные для ответа. Следовательно метрика считается как кол-во релевантных данных на общее кол-во данных, получаемых при запросе. Например, если на пользовательский запрос «Дай информацию о проекте X”, retriever получил 3 предложения, описывающих проект X и два предложения о проекте Y, то релевантность контекста будет 3/5=0,6 или 60%.

Очень важно, что бы контекст максимально релевантен запросу, потому что именно он используется AI для генерации ответа и если в контексте будет много нерелевантной информации, то риск галлюцинации и некорректного ответа на запрос значительно возрастает.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥4

852 viewsedited 06:02

Тестирование и оценка ИИ

Всем привет!

Сегодня разберем одну из фундаментальных концепций в AI - embedding. Термин постоянно встречается в AI-проектах, но понимание того, что это такое на самом деле, часто размыто. Давайте разложим по полочкам.

Embedding - это способ представления любых объектов (слов, предложений, изображений) в числовом виде так, чтобы машина могла понимать их смысл и находить связи между ними.

Представьте, что каждое слово — это точка в многомерном пространстве. Слова со схожим значением располагаются рядом: "кот" и "собака" будут близко, а "кот" и "автомобиль" — далеко.

Embedding превращает любой объект в вектор чисел (обычно от 50 до 1536 измерений), где каждое измерение кодирует определенную характеристику объекта. Похожие объекты имеют похожие векторы.

Основные области применения embeddings:
Semantic search — поиск по смыслу, а не по ключевым словам. Когда вы ищете "быстрый автомобиль", система найдет документы про "скоростные машины", даже если точных слов там нет.

Recommendation systems — Netflix рекомендует фильмы, находя similarity между embedding пользователей и фильмов.

RAG-системы — embedding помогают найти релевантные документы для генерации ответов.

Что создать свой embedding, большинство используют готовые модели от OpenAI, Google, Hugging Face. Нужно просто отправить текст в API и получаете вектор чисел.

Для специфических задач можно дообучить модели на своих данных или обучить embedding с нуля.

С точки зрения оценки embedding мы оцениваем качество его работы по тому, насколько хорошо сохраняются смысловые отношения между объектами.

Основные метрики для evaluation:
Cosine similarity — основная метрика для измерения похожести между векторами. Значения от -1 до 1, где 1 означает идентичность.
Retrieval metrics — для поисковых задач используются precision@k, recall@k, MAP (mean average precision).

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍6🔥2

866 views06:02

Тестирование и оценка ИИ

Всем привет.

Я написал новую статью про бенчмарки для оценки LLM — тему, которая стала критически важной для всех, кто работает с языковыми моделями.

Бенчмарки представляют собой стандартизированные наборы задач для систематической оценки способностей больших языковых моделей (LLM). Они выполняют для искусственного интеллекта ту же роль, что стандартизированные тесты для поступления в университет — позволяют объективно сравнить «интеллектуальные способности» разных моделей по единым, заранее определенным критериям.

Ключевые функции бенчмарков в оценке:
Объективное сравнение моделей. Вместо субъективных утверждений о превосходстве той или иной модели, бенчмарки предоставляют конкретные, воспроизводимые результаты.
Отслеживание прогресса в области AI. Бенчмарки создают историческую перспективу развития искусственного интеллекта.
Выявление слабых мест и направление исследований. Анализ результатов бенчмарков помогает исследователям понять, в каких областях модели все еще отстают от человеческих способностей.
Стандартизация индустрии. Бенчмарки создают общий язык для обсуждения способностей AI-систем.

В статье подробно разбирал более 16 различных стандартных датасетов для оценки LLM:
• Универсальные бенчмарки (MMLU, HellaSwag, BIG-Bench Hard)
• Специализированные тесты (HumanEval, GSM8K, TruthfulQA)
• Специальные тесты на логику, умение решать сложные задачи и многое другое
• Практические аспекты и ограничения

Ссылка на статью

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4🔥2

860 views06:02

Тестирование и оценка ИИ

Всем привет.

Нашел, как мне кажется, самое лучшее и понятное объяснение того, как работает LLM на сайте https://www.3blue1brown.com/ , который содержит много обучающих видео по математике, компьютерной науке и нейронным сетям.

3Blue1Brown объясняют сложные концепции через визуализации, которые делают абстрактные идеи понятными. В этом видео они разбирают принципы и архитектуру работы LLM, показывая, как LLM работает под капотом.

Что вы узнаете из видео:
Tokenization — как текст превращается в числа, которые может обрабатывать модель.
Attention mechanism — сердце современных LLM. Визуально показано, как модель "обращает внимание" на разные части контекста при предсказании следующего слова.
Embeddings в действии — как слова превращаются в векторы и почему похожие слова оказываются рядом в многомерном пространстве.
Training process — как модель учится предсказывать следующий токен и почему это приводит к "пониманию" языка.

После просмотра вы лучше поймете, почему LLM иногда "галлюцинируют", как влияет размер контекста на качество ответов, и почему промпт-инжиниринг вообще работает.
Есть русский перевод

Ссылка на видео

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍8🔥5❤1

812 viewsedited 06:38

Тестирование и оценка ИИ

Всем привет!

Недавно меня попросили написать пост про то, с какими AI приложениями я работаю в повседневной работе и в жизни в целом, поэтому решил поделиться реальным опытом использования.

Итак, вот мой список:

Claude (Anthropic). Мой рабочий инструмент для всего, что связано с текстом и кодом. Перешел полгода назад с ChatGPT и не жалею. Два ключевых преимущества: генерация кода реально на голову выше, особенно для сложных задач, и самое главное, можно подключить GitHub репозиторий, Google документы, загрузить файлы в качестве контекста проекта, с которым потом нужно будет работать. Использую ежедневно для написания и анализа кода, генерации тестов. Единственный минус — иногда слишком "вежливый" и многословный.

ChatGPT (OpenAI).
Универсальный для быстрых задач и research. Когда нужно что-то найти в интернете, сделать какой-нибудь анализ, или решить нестандартную задачу — он справляется лучше всех. O1 и O3 модели очень хорошо анализируют запросы и иногда могут помочь найти нестандартные решения.

Gemini (Google).
Помогает для работы с большими документами и данными. Модель Gemini 2.5 с контекстом в 1 миллион токенов позволяет делать очень хорошее ревью. Например, я могу добавить целый проект с тестами, документацией, и он может сделать различные задачи с этим большим контекстом. Как вариант, уже пробовал для ревью тестов и их написание их документации, не идеально конечно, но при правильных промптах значительную часть рутинной работы точно снимает. Интеграция с Google Workspace тоже удобная — можно сразу работать с документами и таблицами в Google Docs.

Cursor.
Я считаю, это действительно новый виток в использовании AI для написания кода, которую я открыл пару месяцев назад. Это не просто AI-помощник, а полноценная IDE, которая понимает весь контекст проекта. Может рефакторить целые файлы, генерировать код с учетом всех зависимостей, предлагать архитектурные решения. Особенно крут для больших проектов — понимает связи между модулями. Теперь использую вместо VS Code для работы с проектами.

Пока понял одну вещь: нет универсального AI для всех задач. Раньше тратил кучу времени, пытаясь заставить один AI делать всё. Теперь просто использую правильный инструмент для каждой работы и результат в разы лучше.

Мой совет, не пытайтесь найти "одного идеального AI". Лучше освойте 2-3 инструмента под разные задачи и переключайтесь между ними по потребности.

А какой AI стал вашим основным помощником? И для каких задач?👇

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥18👍7

902 viewsedited 09:08

Тестирование и оценка ИИ

#Новости

Всем привет!

Недавно прочитал новость, что в Стэнфорде придумали новый поход к оценке LLM, чтобы проверять модели быстрее и дешевле. Вместо того чтобы гонять модель по тысячам вопросов из готовых бенчмарков (о которых я уже писал тут), они обучили две вспомогательные модели:

1. Оценщик сложности — маленькая нейросеть, которая по тексту задачи предсказывает её трудность. Оценщик обучен на 22 популярных бенчмарках и 172 моделях.
2. Генератор вопросов — LLM, обученная выдавать новые задания на заданном уровне сложности.

Таким образом выбирается короткий, но хорошо сбалансированный автоматический датасет для теста новых моделей, который даёт почти тот же результат, что и целые бенчмарки, но дешевле и быстрее, потому что вопросы задаются не все сразу из бенчмарков, а оптимизированно под определенный уровень возможностей LLM (то есть выборочно).

Как это работает:
⁃ Тест сам начинает с вопроса средней сложности; вручную задавать стартовый уровень не нужно и задает его вашей LLM
⁃ По результатам ответа от вашей LLM, оценщик фиксирует ответ, а алгоритм подбирает следующую задачу из уже размеченного набора вопросов, чтобы понять возможности вашей LLM в зависимости от того, как ваша LLM ответила на предыдущий вопрос
⁃ Если ваша LLM сильная, то задачи постепенно усложняются; если слабая — упрощаются
⁃ Адаптивный алгоритм задает вопросы вашей LLM, пока не добьётся нужной статистической точности оценки ваше модели (грубо говоря пока модель постоянно не начнет некорректно отвечать на вопросы).

Чтобы побольше познакомиться с данным подходом, ниже ссылки на статью и само исследование.

Stanford News

Reliable and Efficient Amortized Model-based Evaluation research

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍4❤1

815 viewsedited 06:04

Тестирование и оценка ИИ

Всем привет!

Недавно в десктоп-приложении от Anthropic для моделей Claude появилась возможность напрямую подключать различные MCP-коннекторы для получения информации из разных источников. В пятницу я решил посмотреть, насколько хорошо они работают.

Моя цель заключалась в том, чтобы Claude AI с нуля написал проект автоматизации тестирования для моего проекта Store Manager (на базе Pytest и Playwright) на основе документации и описания ручных регрессионных тестов.

Вот что получилось.
За пару часов Claude полностью создал структуру проекта и не просто базовую, а модульную: с вынесенной core-функциональностью, расширенным логированием, клиентами для работы с API и базой данных. Также были реализованы утилиты, хелперы, генератор тестовых данных, интеграция с CI/CD и динамическая настройка переменных окружения.

Уже через 2 часа, после 3–4 итераций небольших правок (например, улучшение логирования, пара багфиксов, переработка общих шагов для переиспользования в тестах и другие мелочи), у меня были полностью готовые автоматизированные тесты по моим ручным регрессионным сценариям - всего получилось 29 API-тестов, которые я успешно запустил и получил корректный результат выполнения.

Что я использовал:
- Подключил MCP-коннектор к Google Docs, откуда подтянулись требования к релизу и ручные регрессионные тесты.
- Подключил MCP-коннектор Filesystem для полного доступа Claude AI к проекту автоматизации. Я не написал ни одной строки кода — код писался прямо в проект автоматически.
- В контексте проекта я указал, как должна выглядеть структура проекта по автоматизации тестирования.
- Также планировал автоматизировать UI-тесты, но коннектор подключения к Google Chrome работал нестабильно, как итог не удалось получить селекторы. Скорее всего, проблема была на стороне самого коннектора, надеюсь, это скоро поправят.

Итог:
Работу, которую раньше выполнял синьор-автоматизатор примерно за неделю, Claude сделал за 2 часа, пусть и без UI-тестов. В целом я мог бы выполнить JS для сбора селекторов с HTML-страницы и Claude сам бы разобрался и написал UI-тесты, но это потребовало бы моего прямого вмешательства, чего я хотел избежать.

Поэтому, как я уже говорил не раз: будущее точно за AI в ИТ-профессиях. Те, кто готов меняться и интегрировать ИИ в свою работу, добьются больших успехов. Если вы еще не пробовали использовать AI как ассистента в своей работе, то настоятельно рекомендую начать. Уже сейчас AI способен решать довольно сложные задачи за пару часов, на что раньше уходила неделя.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

👍5🔥3

804 viewsedited 08:42

Тестирование и оценка ИИ

Сегодня разберем одну из важнейших практик в области безопасности ИИ — red teaming. Термин пришел из кибербезопасности, но в контексте ИИ приобрел новое значение и критическую важность.

Red teaming в AI - это процесс тестирования, где команда специалистов пытается заставить ИИ-модель вести себя нежелательным образом: генерировать токсичный контент, выдавать конфиденциальную информацию, проявлять предвзятость или нарушать политики безопасности.

Основные направления red teaming:
Jailbreak атаки - попытки обойти фильтры безопасности модели через хитрые промпты. Например, попросить ИИ "сыграть роль злодея" или использовать метафоры для получения запрещенного контента.

Prompt injection - внедрение скрытых инструкций в пользовательский запрос, чтобы модель выполнила нежелательные действия. Особенно критично для ИИ-агентов с доступом к внешним системам.

Data poisoning - проверка, как модель реагирует на потенциально вредоносные данные в обучающем наборе или контексте.

Bias (предвзятость) - поиск предвзятости по отношению к определенным группам, профессиям, национальностям, религиям.

Из материалов для обучения я советую посмотреть эти видео, в которых достаточно поднятно разбирается данный вид тестирования AI систем:

Мини курс по RedTeaming с deeplearning.ai

Мини курс по RedTeaming от Microsoft

С точки зрения фреймворков, в своей работе я использую следующие в зависимости от типов задач:

PyRIT - фремворка от microsoft, который возволяет автоматически находить разные уязвимости в системе, содержит большое количество атак и промптов и регулярно обновляется разработчиками.

DeepEval RedTeaming - достаточно простое использование, нужно указать, что вы хотите получить (например, финансовую информацию о компании), и фреймворк сам сгегенирует промпты для различных типы атак и выполнит эти атаки на вашу AI систему.

GuardrailsAI - эффективен для мониторинга атак на продуктиве, может выявлять разные типы атак.

Полезная информация:
Курс по evaluation AI |
С чего начать изучение AI | Инструменты для оценки AI

🔥5👍1

742 viewsedited 06:04

About

Blog

Apps

Platform