Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
1 96🤯38😁18❤11👍4🤨4☃3🔥1 1