Тестирование и оценка ИИ
989 subscribers
81 photos
5 files
89 links
Канал посвящен тестированию и оценке качества искусственного интеллекта

Автор канала - @al_meshkov
Download Telegram
mastering ai agent evaluation.pdf
3.4 MB
Всем привет, нашел интересный playbook для оценки ИИ агентов, в котором разбирается:
- Общее концептуальное понимание того, что такое ИИ агент
- Основные сложности при создании и оценке ИИ агентов
- Основные области оценки и на чем стоит фокусироваться
- Важности мониторинга и оценки в продакшене

В общем если вы интересуетесь оценкой ИИ агентов, советую почитать, думаю какие-то моменты можно взять себе на заметку.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥7👍5
Semantic Entropy - это измерение того, насколько семантически различаются варианты ответа, которые ИИ может сгенерировать на один и тот же запрос.

Простой пример:
Если мы задаем вопрос “Столица России?” и ИИ всегда возвращает ответы, которые по смыслу одинаковы (“Москва”, “город Москва”, “это Москва”),
то семантическая энтропия будет низкая и как вывод, который можно сделать, ИИ уверен и стабильн.

Но если спросить “Как вылечить сложное заболевание?” и ИИ начинает выдавать разные по смыслу ответы (потому что нет поддтекста и контекста), и тут уже энтропия растет, что говорит о том, что ИИ не уверен, ответы нестабильны, высокая вероятность ошибок или галлюцинаций.

Как метрика считается?
1. ИИ генерирует несколько ответов на один и тот же вопрос.
2. Все ответы преобразуются в эмбеддинги.
3. Считается, насколько по смыслу они отличаются друг от друга.
4. Чем выше различие, тем выше Semantic Entropy.

Эту метрику можно использовать для детекции галлюцинаций, даже если нет expected output и проверки уверенности ИИ в генерации ответов.

В общем думаю, что в каких-то случаях отдельное измерение этой метрики наряду с faithfulness, groundness может быть полезно для дополнительного анализа уровня галлюцинаций.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥6👍3
Сегодня разберем одну из самых наверное неисследованных тем в оценке ИИ - это тема оценки генерации видео. По данной теме очень мало материалов, а большинство оценок сводится к субьективной оценки человеческого восприятия, что несомненно важно, но я подготовил список базовых метрик, которые также можно использовать для оценки.

Важно понимать, что видео намного сложнее картинок, потому что здесь важны не только пиксели, но и движение, согласованность объектов и логические действия. Поэтому и метрики здесь более разнообразные.

Вот ключевые подходы, которые сейчас используются:
1. PSNR
Сравнивает сгенерированные кадры с эталонным видео по ошибке пикселей. Подходит только в том случае, если есть референсное или эталонное видео.

2. SSIM
Оценивает яркость, контраст, локальную структуру. Метрика фокусируется на зрительном восприятии, но работает также как и PSNR в формате кадр-за-кадром и не учитывает движение.

3. VMAF
Включает в себя комбинацию ML-фич + сигналов, откалиброванных под человеческое восприятие и сравнивает сгенерированное видео с эталоном.

4. VBench
Первый большой бенчмарк для видео-генерации. Оценивает сразу много аспектов, такие как плавность движения, согласованность объекта / стабильность объекта во времени, временное мерцание (артефакты, возникающие между кадрами), пространственные взаимосвязи (корректное размещение объектов в сцене) и другие параметры, которых не видно в классических метриках.

5. FVD / FVMD
Метрика, разработанная специально для генеративного видео. Смотрит не на отдельные кадры, а на движение в целом, насколько оно реалистичное, непрерывное, без рывков. Считается одной из ключевых для современных video diffusion моделей.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍5🔥2
Недавно завершил свое небольшое исследование в части коррелляции подходов к оценке ИИ с человеческой оценкой в части метрики релеватность ответа. Для этого я сделал датасет из 500 вопросов, разделенный на 5 групп по 100 вопросов (Факты, Процедуры, Объяснения, Поддержка пользователей, Креатив) и на каждый из которых было сформировано 3 ответа, хороший, удовлетворительный и плохой. После чего, все эти 3 ответа для каждого запроса были оценены разными методами оценки, что в итоге в результате дало 1500 оценок для каждого метода.

Какие в итоге получились результаты.
Как и ожидалось, наилучшим подходом оказался LLM as a Judge, который получил 92% корреляции по коэфициентам Пирсона и Спирмана, что в целом достаточно неплохой результат, большинство оценок совпадает с человеческой экспертизой, но другим для меня открытием стал метод векторного сравнения USE, который показал 88% корреляции, но при этом в отличии от LLM as a Judge выполняется в разы быстрее и не требуется затрат на использование модели. Более того, методе USE показал аналогичные абсолютно примерно коэфициенты корреляции для группы вопросов, связанными с фактами, процедурами и объяснениями, что позволяет рассматривать его как полноценную альтернативу LLM as a Judge подходу. На третьем месте оказался подход с использованием эмбеддингов от OpenAI.

Полные результаты исследования я планируют попробовать опубликовать в научном журнале, а пока можете посмотреть пару графиков по результатам оценки.

Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥8👍2
‼️15.01.2026 старт второго потока на курсе по оценке и тестировани ИИ 🚀.

Напомню, что это едиственный полноценный русскоязычный курс по тестированию ИИ, которые охватывает большое количество апспектов работы с ИИ, такие как:
- Оценка моделей ML/DL
- Оценка и тестирование LLM
- Оценка и тестирование RAG систем и AI агентов
- Оценка генерации картинок и видео
- Оценка предвзятости моделей и их безопасность

Курс включает в себя:
1. Теоретические знания (16 часов онлайн лекций в живую)
2. Лекции по практике (более 20 часов дополнительных видео)
3. Домашние задания (в среднем у ученика уходит от 2-8 часов на выполнение домашней работы после каждой лекции)
4. Работу с реальными ИИ системами (для курса подготовлены реальный RAG системы, ИИ агенты, модели OpenAI и Google Gemini)

📌И самое важное!!!

При бронировании места и внесения предоплаты 20% от стоимости курса до конца декабря, скидка на общую стоимость курса составит 15%.

👇Оставить заявку можно на сайте: eval-ai.com или написать мне в ЛС: @al_meshkov

Если думали, где стоит развиваться и расти, то это ваш шанс получить для себя абсолютно новые, но востребованные навыки оценки и тестирования ИИ!


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Привет всем, продолжаем разбираться в оценке AI.

На днях нашел в работе https://arxiv.org/pdf/2507.21504 очень интересную классификацию по оценки ИИ агентов, которая покрывает два ключевых аспекта, а именно цели оценки ИИ агентов и сам процесс оценки.

Считаю, что она очень классно разделяет и показывает ключевые направления для тестирования и оценки ИИ агентов, поэтому если у вас в голове каша, то эта диаграмма поможет навести порядов.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥4👍1
Всем привет!

Сегодня хочу провести опрос на тему работы с ИИ. Просьба ответить, есть ли у вас в работе задачи по тестированию и оценки ИИ систем?
Anonymous Poll
13%
Да, регулярно занимаюсь тестированием ИИ систем
23%
Нет, но у моей компании есть планы по внедрению ИИ систем
36%
Нет, но хочу развиваться в этом направлении
28%
Нет, просто интересно читать канал
👍1
В последнее время практически из каждого утюга слышно про использзование ИИ агентов в больщом количестве задачи областях и это не просто так по нескольким причинам:

1. Использование копайлотов, вайбкодинга сейчас позволяет практически каждому, кто даже не особо знаком с программированием, написать своего ИИ агента, который бы решал простые задачи, и получается, что порог входа стал в разы ниже, что позволяет создавать больше ИИ систем
2. ИИ агенты уже давно вышли на уровень, когда это не просто LLM или RAG, а полноценная система, которая может интегрироваться с внешними сервисами, самостоятельно принимать решения, делать самоанализ, самостоятельно находить и исправлять ошибки и многое другое, то есть получается что это уже система, которая частично может “думать” как человек в некоторых моментах, что позволяет создавать ИИ агентов практически для всего.

Но есть большой минус, такой прям жирный! Только 2-3% таких проектов реально доживают до стадии продакшена и действиельно начинают приносить пользу.

Почему так происходит? Все просто, написать агента легко, а проверить насколько качественно он работает, докрутить его до реально надежного и качественного решения, вот тут возникают сложности, и из-за того, что вайбкодеры или даже программисти могут написать код, но не знают как его стабилизировать, что ИИ агент действиельно выполнял поставленные цели, помимо отсутствия времени и желания, еще связано с особенностями их тестирования, потому что проверка качества работы ИИ агентов - это очень скурпулезная работа, которая требует очень хороших аналитических навыков.

И если вы тоже хотите научиться это делать, то всех жду на своем курсе eval-ai.com!


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍5🔥3
Eval AI Tools.pdf
58 KB
Недавно сделал небольшой анализ рынка и сравнил основные инструменты для оценки и тестирования ИИ систем.

Все результаты попытался сложит в одну картинку, поэтому пользуйтесь!

Вкратце что смотрел:
OpenAI Evals (17k stars github)
Opik by Comet (15k stars github)
Deepeval (12k stars github)
Promptfoo (9k stars github)
Arize Phoenix (8k stars github)
Evidently AI (7k starts github)
Trulens (3k stars github)
Galileo


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
7🔥6
Прочитав ряд научных работ я подумал, почему бы вместо использования единого скор балла для оценки метрики, не использовать все возможные скоры, которые LLM считает разумным для оценки конкретной метрики.

На практике это может выглядеть следующим образом. Мы просим LLM оценить, например, релеватность ответа, не одним баллом, а веростностью всех возможных баллов, которые LLM может поставить конкретному ответу, например, 0.8 с вероятностью 60% и 0.5 с вероятностью 40%.

Далее для количественной оценки неопределенности в таких вероятностных распределениях можно использовать энтропию Шеннона: H = -Σ p_i * log₂(p_i). И для примера выше, где LLM выставляет скор 0.8 с вероятностью 60% и скор 0.5 с вероятностью 40%, энтропия составит: H = -(0.6 × log₂(0.6) + 0.4 × log₂(0.4)) ≈ 0.97. Высокое значение энтропии (близкое к 1 для двух опций) указывает на значительную неопределенность в оценке, то есть LLM не может однозначно выбрать один скор. Низкая энтропия (близкая к 0) означает, что LLM уверена в своей оценке. Это позволяет фильтровать случаи с высокой неопределенностью для дополнительной проверки или взвешивать финальные оценки по степени уверенности модели.

По сути, на практике это означает переход от запроса "Какой финальный балл выбрала LLM?” к вопросу "Какой набор разумных интерпретаций определила LLM для оценки метрики?”.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🤔5👍2
Всем привет!

Рад сообщить, что 15 декабря завершила обучение моя первая группа на курсе по оценке и тестировани ИИ. Это была большая группа, 16 человек, и я рад, что за время курса ребята показали себя классными специалистами по оценки ИИ, успешно справляясь со всеми практическими заданиями!

А практики у нас было много:
- изучали python
- делали оценку моделей машинного и глубокого обучения
- тестировали RAG систему с помощью DeepEval, Opik Comet, RAGAS, Promptfoo, Eval-lib
- работали с оценкой ИИ агентов и анализом трейсов в Langfuse и Langsmith, создавали свои метрики с нуля
- делали оценку изображений через базовые метрики DeepEval и стандарты оценки изображений
- оценивали ИИ чат-бот и многоходовые диалоги
- изучали оценку bias и пробовали взломать ИИ систему
- оценивали модели OpenAI и Google через метрики качества и бенчмарки.

Я надеюсь, что практический опыт, полученный на обучении, ребята смогут применить и в своих проектах!

А пока напоминаю, что по-прежнему идет набор нового потока на мой курс по тестированию и оценке ИИ.

Если вы еще не приняли решение, то сейчас самое время его сделать, потому что до 31 декабря действует скидка 15% на всю стоимость курса.

Почему важно уже сейчас начать изучать ИИ?

Тестирование ИИ отличается от классического тестирования ввиду недетерминизма таких систем, поэтому то, что работает для обычных систем, не будет работать для ИИ, и в этом и есть основная сложность. Тут другие подходы, фрейворки, области оценки и многое другое. И именно поэтому на курсе мы сталкиваемся с абсолютно новыми системами, пробуем на практике различные подходы для оценке ИИ систем и учимся правильно строить стратегию тестирования!

Все подробности курса есть на сайте eval-ai.com, где вы уже сейчас можете оставить заявку и с нового года начать изучать действительно перспективное направление тестирования, знания в котором обязательно вам пригодятся в будущем.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
6🔥3
При оценке AI систем в я часто сталкивался с проблемой, что существующие фреймворки оценки ИИ систем, такие как deepeval, opik Comet, promptfoo недостаточно гибки с точки зрения оценки. Зачастую используемая внутри система промптов для lim as a judge не способна адаптировать оценку с точки зрения ее стогости и поэтому происходило так, что в либо оценка была завышенна либо занижена. Кроме того, часто возникал вопрос,а почему оценка получилась именно такой, но в во многих фреймворках это черный ящик, если метрики не рассчитываются математически или на базе ембеддингов.

Все это сподвигло меня на пересмотр подхода lim as a judge и разработки собственного алгоритма оценки, который я назвал Temperature-Controlled Verdict Aggregation via Generalized Power Mean

Чтобы было мною изменено:
- Вместо бинарной или тенарной оценки метрики я использовал 5 балльную шкалу Лакерта
- Финальный скор может адаптироваться под требования оценщика за счет изменения параметра температуры в формуле расчета общего степенного среднего.
- Если температура ближе к 1, то оценка будет больше отдавать внимание вердиктам, которые полностью удовлетворяют критериям оценки, если ближе к 0, то вердикты, не соответствующие критериям оценки больше влияют на расчет финального скора и оценка будет ниже.

Таким образом, оценку можно регулировать для каждого проекта и настраивать ее под экспертную оценку, что несомненно большой плюс в работе ИИ инженера

Ну и последнее - весь процесс оценки полностью прозрачен. В verbose logs вы вы видите все вердикты, их оценку, причину это оценки, а также как был рассчитан математически финальный скор через Generalized Power Mean.

Фреймворк доступен в открытом доступе через python pip install eval-ai-library или в открытом репозитории FLS на гит хаб https://github.com/firstlinesoftware/eval-ai-library.

Я активно занимаюсь поддержкой и развитием библиотеки, поэтому буду благодарен любому фидбеку с вашей стороны.
👍4🔥31
С какой самой большой проблемой вы столкнулись при использовании ИИ в 2025 году?

Давайте поделимся своим опытом! 👇

Для меня самой большой проблемой в этом году остается проблема контекста и аналитических способностей ИИ в плане генерации ручных тестов на основе требований.

У меня было несколько попыток написать собственный ИИ-агент, но пока все они безуспешны, точнее, все хорошо работает на простых и понятных данных, но как только возникает неопределенность, ИИ начинает теряться и сильно галлюцинировать, несмотря на то, что за этот год контекстное окно для ряда моделей выросло в разы, однако ИИ по-прежнему теряет детализацию, стиль и прочие вещи, завязанные на точности и корректной аналитике данных.

Надеюсь, в следующем году мы сможем решить эту проблему!


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥2👍1
Осталось всего 8 дней до завершения акции скидка 15% на всю стоимость курса Оценка и тестирование ИИ в рамках набора новой группы, которая стартует 15 января!

Поэтому, если думали, забыли и не оставили заявку, то можно сделать это прямо сейчас на сайте eval-ai.com!

Ну и также можете насладиться новым крутым дизайном сайта, который я буквально недавно реализовал и теперь он доступен на продакшене, вместо старой версии.

Также в рамках курса я написал полноценную платформу, где вы будете иметь бессрочный доступ ко всем материалам курса, видео, записям, презентациям, домашним заданиям и прочее.

А в новом 2026 году я хочу поставить себе более амбициозную цель - создать полноценное международное AI evaluation Community, где можно будет обмениваться опытом, знаниями, получать свежую информацию о новых трендах и изменениях в оценке ИИ систем, так что думаю уже скоро смогу порадовать вам новой платформой, которая будет объединять большое количество специалистов по оценке AI не только из РФ, Беларуси или Украины, но и по всему миру!


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥41👍1
Привет всем, продолжаем разбираться в оценке AI.

Сегодня я хочу немного рассказать про фреймворк оценки ИИ систем, которые ранее я еще не упоминал на моем канале - это Opik Comet.

Начну с того, что по сравнению с тем же DeepEval, который имеет большие ограничение на бесплатной версии с точки зрения оценки ИИ систем через UI интерфейс, в этом плане возможности, которые доступны у Opik, в разы выше.

Opik фактически полностью опенсорсный фрейморк, включая использование SaaS Cloud UI версии для своего проекта, где доступны доступны бесплатно практически все ключевые функции, которые нужны для оценки ИИ системы:
подключение трейсов к вашему ИИ приложению (в бесплатной версии доступно до 25 тысяч спанов в месяц, что в целом хватил для 3-5 средних ИИ проектов)
управление проектами, датасетами и запусками оценки
эврестические (20 метрик) и LLM-as-a-Judge (23 метрики)
оценка на production в режиме реального времени
промпт менеджмент и playground для тестирования промптов


Проект доступен по ссылке https://www.comet.com/site/products/opik/ и также у него есть достаточно подробная документация по интеграции и работы с ним.

Поэтому, если искали альтернативы существующим фреймворкам оценки ИИ систем, то советую присмотреться к Opik Comet.


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
4👍1🔥1
Сегодня будет последний пост в этом году!

И я решил, что если у вас будет много свободного времени и нечем заняться в ближайшие пару недель, то советую посмотреть открытый базовый курс от университета Stanford по трансформерам и большим языковым моделям. 8 лекция кстати посвящена оценки LLM систем.

Ссылка на записи курса https://youtube.com/playlist?list=PLoROMvodv4rOCXd21gf0CF4xr35yINeOy&si=sNh9N0ZR9f79iLcy

Также напоминаю, что через 5 дней заканчивается скидка на новый поток на курсе по оценке и тестированию ИИ, поэтому если еще не записались, самое время это сделать сейчас тут eval-ai.com


Ну и в целом всем желаю праздничного настроения и с наступающим Новым годом!🎄


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥7👍42
Новогодние праздники у большинства закончились (хотя там где я живу их нет в таком количестве), и я возвращаюсь к вам.

И буквально в начале этого года одно из моих исследований было опубликовано в канадском научном журнале IJMADA, где я предлагаю методологию оценки надежности ИИ агентов через таксономию ошибок и risk-based testing.

Ну и конечно прикладываю ссылку на мою работу, кому интересно почитать

https://zenodo.org/records/18120416


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
🔥13👍6
‼️Сегодня последний день, когда еще можно присоединиться к новому потоку моего курса по оценке и тестировани ИИ 🚀.

Напомню, что это едиственный полноценный русскоязычный курс по тестированию ИИ, которые охватывает большое количество апспектов работы с ИИ, такие как:
- Оценка моделей ML/DL
- Оценка и тестирование LLM
- Оценка и тестирование RAG систем и AI агентов
- Оценка генерации картинок и видео
- Оценка предвзятости моделей и их безопасность

Курс включает в себя:
1. Теоретические знания (16 часов онлайн лекций в живую)
2. Лекции по практике (более 20 часов дополнительных видео)
3. Домашние задания (в среднем у ученика уходит от 2-8 часов на выполнение домашней работы после каждой лекции)
4. Работу с реальными ИИ системами (для курса подготовлены реальный RAG системы, ИИ агенты, модели OpenAI и Google Gemini)

Если вы думали, но неуспели оставить заявку, задать свои вопросы или просто забыли, то сегодня еще есть возможность присоединиться к группе!

👇Оставить заявку можно на сайте: eval-ai.com или написать мне в ЛС: @al_meshkov

Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Тема AI evaluation сейчас на слуху, но я замечаю, что многие команды наступают на одни и те же грабли, когда начинают внедрять оценку качества своих LLM-решений.

Итак, первая ошибка - это оценивать только на “хороших” примерах. Команда собирает датасет из типичных запросов, ИИ система справляется отлично, все довольны. А потом на проде пользователь пишет что-то неожиданное, и всё разваливается. Edge cases в AI - это не исключение, а правило.

Вторая - полагаться только на автоматические метрики. Answer Relevancy, Task Completness, Level of Hallucinations - это все классно для отчетов, но они часто не ловят то, что видит человек. Ответ может быть формально похож на эталон, но по смыслу нести полную чушь, поэтому ручная валидация результатов по прежнему важна.

Третья ошибка - не версионировать датасеты для оценки. Модель обновили, промпт поменяли, а тестовые данные остались те же полугодовой давности. И непонятно уже, стало лучше или хуже, потому что сравнивать не с чем.

Четвертая - игнорировать контекст использования. Одна и та же модель может отлично работать для саммаризации и полностью провалиться в диалоговом сценарии. А команда оценивает всё одним набором метрик и удивляется, почему пользователи жалуются.

И пятая, которую я вижу чаще всего - откладывать evaluation на потом. Сначала запустим, потом будем оценивать. Но это потом обычно наступает, когда уже прилетели жалобы от пользователей и нужно срочно что-то чинить.

AI evaluation - это не финальный этап, а непрерывный процесс. И чем раньше команда это понимает, тем меньше сюрпризов на проде.

А вы как подходите к оценке качества AI-решений?
Используете автоматику, ручную оценку или комбинируете?
👇


Полезная информация:
Курс по evaluation AI |
Мой фреймворк для оценки AI |
С чего начать изучение AI | Инструменты для оценки AI |
Инструменты для оценки AI (ч.2)
👍4🔥3