Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
👍12❤6🔥4🫡1