Решила собрать для новых подписчиков горстку избранных старых мемов с канала, которые вы не видели.
#ML_в_мемах
#ML_в_мемах
1👍70❤28🔥15🤡13 5🤮1 1 1
Хочу, чтобы Дуров ввел систему 🤡-компьюта. Работать она будет так:
Каждый раз, когда подписчик ставит "🤡" на пост в телеграмм-канале, его устройство автоматически на час подключается к ботнету, который админ канала может использовать для своих расчетов. Например, это могут быть какие-нибудь эксперименты с мелкими ллмками. Потом, если админ эти эксперименты добавит в свою статью, то должен будет добавить * со значком 🤡 в сноске, как упоминание о том, откуда взят компьют, так сказатб, для воспроизводимости.
А если админ не придумает никаких расчетов для запуска, то запустится расчет по умолчанию. Этот расчет будет майнить за счёт компьюта подписчика новую валюту: 🤡-коины.
Давайте попросим вместе: Дуров, сделай 🤡-компьют!
Каждый раз, когда подписчик ставит "🤡" на пост в телеграмм-канале, его устройство автоматически на час подключается к ботнету, который админ канала может использовать для своих расчетов. Например, это могут быть какие-нибудь эксперименты с мелкими ллмками. Потом, если админ эти эксперименты добавит в свою статью, то должен будет добавить * со значком 🤡 в сноске, как упоминание о том, откуда взят компьют, так сказатб, для воспроизводимости.
А если админ не придумает никаких расчетов для запуска, то запустится расчет по умолчанию. Этот расчет будет майнить за счёт компьюта подписчика новую валюту: 🤡-коины.
Давайте попросим вместе: Дуров, сделай 🤡-компьют!
2🤡479 55 38 16👍7😁6💩6🥱3💘3 3❤🔥1
Тем временем, выложили текущую статистику с распределением оценок по статьям, которые в данный момент проходят ревью на конференцию ICLR 2025:
https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/
(Там есть и обобщенная статистика по предыдущим годам). Как говорится, ищите себя на графике!
P.S. #академический_ликбез : ICLR (International Conference on Learning Representations) - одна из топовых ML-конференций, статьи на которую проходят рецензирование в несколько этапов. На первом этапе каждой статье (в анонимизированной форме) назначаются несколько анонимных ревьюеров, которые ее читают и независимо (в идеале) выставляют оценки от 1 до 10 в соответствии тем, насколько данная научная работа кажется им корректной, качественной и подходящей по теме. После этого начинается фазасрача rebuttal, на которой можно оспорить оценку каждого ревьюера, показать им дополнительные эксперименты и аргументацию, а также сделать правки в текст статьи, после которых они могут повысить (или понизить 🤡 ) свои оценки. На финальном этапе мета-ревьюер, по совокупности оценок и результатов обсуждения вынесет вердикт - брать статью на конфу или нет.
Ладно, пойду дальше продумыватьсрач научную дискуссию 😀 с ревьюерами, а то что-то оценки какие-то низкие поставили, посмотрите на них! 😀
https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/
(Там есть и обобщенная статистика по предыдущим годам). Как говорится, ищите себя на графике!
P.S. #академический_ликбез : ICLR (International Conference on Learning Representations) - одна из топовых ML-конференций, статьи на которую проходят рецензирование в несколько этапов. На первом этапе каждой статье (в анонимизированной форме) назначаются несколько анонимных ревьюеров, которые ее читают и независимо (в идеале) выставляют оценки от 1 до 10 в соответствии тем, насколько данная научная работа кажется им корректной, качественной и подходящей по теме. После этого начинается фаза
Ладно, пойду дальше продумывать
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Техножрица 👩💻👩🏫👩🔧
Дорогие читатели!
Сегодня я сделала шпаргалку по самым известным научным конференциям уровня A* (по CORE2023), связанным с машинным обучением. Большими сойджеками выделены конференции с более высоким h5-индексом в Google Scholar, а маленькими - с h5-индексом…
Сегодня я сделала шпаргалку по самым известным научным конференциям уровня A* (по CORE2023), связанным с машинным обучением. Большими сойджеками выделены конференции с более высоким h5-индексом в Google Scholar, а маленькими - с h5-индексом…
В комментариях к предыдущему посту интересовались статьей, скриншот которой показан на меме. Чтобы составить представление о том, о чем речь в статье, можно посмотреть научно-популярный ролик про гипотезу Коллатца (в этот раз даже в переводе на русский):
https://youtu.be/QgzBDZwanWA
Рассказ конкретно про вклад Тао в исследование этой гипотезы дан ближе к концу ролика. Сама статья есть на архиве: https://arxiv.org/abs/1909.03562 , но без солидного бэкграунда в области, боюсь, в ней глубоко разобраться не получится. 😵💫
#математика
https://youtu.be/QgzBDZwanWA
Рассказ конкретно про вклад Тао в исследование этой гипотезы дан ближе к концу ролика. Сама статья есть на архиве: https://arxiv.org/abs/1909.03562 , но без солидного бэкграунда в области, боюсь, в ней глубоко разобраться не получится. 😵💫
#математика
YouTube
Самая простая нерешённая задача — гипотеза Коллатца [Veritasium]
Поддержать проект можно по ссылкам:
Если вы в России: https://boosty.to/vertdider
Если вы не в России: https://www.patreon.com/VertDider
Доказательство гипотезы Коллатца — возможно, самая простая задача, с которой до сих пор никто не справился. Понять её…
Если вы в России: https://boosty.to/vertdider
Если вы не в России: https://www.patreon.com/VertDider
Доказательство гипотезы Коллатца — возможно, самая простая задача, с которой до сих пор никто не справился. Понять её…
❤21🔥6 1
https://youtu.be/JHIxyGgSU90?si=IMQjgIf8-_Q14Rzn
Официальная новогодняя AI реклама от Coca-Cola этого года. Без сахара. Без затрат на реальные съёмки. Без кожаных мешков.
Для сравнения - версия 96 года из моего детства: https://youtu.be/b6liVLkW-U8?si=7r0ChK_bEuYL3uIa .😔
Официальная новогодняя AI реклама от Coca-Cola этого года. Без сахара. Без затрат на реальные съёмки. Без кожаных мешков.
Для сравнения - версия 96 года из моего детства: https://youtu.be/b6liVLkW-U8?si=7r0ChK_bEuYL3uIa .
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Coca-Cola Zero Sugar | Real Magic | HAC | GB | 6s
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
💩25🦄10🔥4🍾4👾3🤡1
Шок! Ученые доказали, что у промптов к LLMкам есть злые двойники! Подробнее читать в источнике: https://aclanthology.org/2024.emnlp-main.4/ 😈
Если точнее, авторы статьи "Prompts have evil twins" с EMNLP-2024 по ссылке выше задаются следующим вопросом. Допустим, у нас есть промпт P, в ответ на который модель выдает некоторую генерацию G. А на какие еще промпты можно получить от модели ту же самую G? И насколько сильно эти альтернативные промпты могут отличаться от оригинального промпта P?
Чтобы ответить на этот вопрос, авторы берут получившуюся генерацию и по ней итеративно находят тот промпт, с помощью которого её можно получить. Алгоритм его нахождения содержит много технических деталей, поэтому, если они вам не интересны, то можно сразу перейти к следующему посту - с результатами. Ну а если интересны, то вот как я его поняла (в самой статье он описан очень коротко, так что многое пришлось достраивать в голове):
В качестве начального промпта-кандидата (нулевого приближения) берутся случайно выбранные токены - столько же, сколько содержалось в оригинальном промпте P. Далее авторы подают этот промпт-кандидат на вход LLMке и получают генерацию G' - скорее всего, мусорную (в конце концов, мы приблизили наш промпт случайными токенами). Однако, нас это не пугает - на каждом шаге генерации мы оцениваем, насколько получившийся результат отличается от нужной нам генерации G, вычисляя KL-дивергенцию в качестве функции ошибки. Далее, раз у нас есть функция ошибки, значит, от неё можно и градиент посчитать по всем параметрам модели - в том числе, по весам её входного слоя.
При обычном обучении - то есть, оптимизации параметров самой модели, мы бы, конечно, использовали градиент для изменения её весов, но в данной ситуации мы оптимизируем не саму модель, а промпт. Поэтому вместо оптимизации весов, на каждом шаге генерации мы смотрим, на весах каких токенов градиенты получились самые большие, и отбираем эти токены как кандидаты на соответствующую позицию в промпте.
Понабрав таким образом токенов-кандидатов для каждой позиции промпта, мы строим несколько новых промптов, случайно семплируя один из токенов-кандидатов на каждую позицию. Далее, из этих новых альтернативных промптов выбирается один лучший (по KL-дивергенции), который считается уже не нулевым, а первым приближением. Ну а затем, все перечисленные вычисления происходят заново, и так несколько десятков раз.
Фух! Теперь, наконец-то смотрим, что получилось!
#объяснения_статей
Если точнее, авторы статьи "Prompts have evil twins" с EMNLP-2024 по ссылке выше задаются следующим вопросом. Допустим, у нас есть промпт P, в ответ на который модель выдает некоторую генерацию G. А на какие еще промпты можно получить от модели ту же самую G? И насколько сильно эти альтернативные промпты могут отличаться от оригинального промпта P?
Чтобы ответить на этот вопрос, авторы берут получившуюся генерацию и по ней итеративно находят тот промпт, с помощью которого её можно получить. Алгоритм его нахождения содержит много технических деталей, поэтому, если они вам не интересны, то можно сразу перейти к следующему посту - с результатами. Ну а если интересны, то вот как я его поняла (в самой статье он описан очень коротко, так что многое пришлось достраивать в голове):
В качестве начального промпта-кандидата (нулевого приближения) берутся случайно выбранные токены - столько же, сколько содержалось в оригинальном промпте P. Далее авторы подают этот промпт-кандидат на вход LLMке и получают генерацию G' - скорее всего, мусорную (в конце концов, мы приблизили наш промпт случайными токенами). Однако, нас это не пугает - на каждом шаге генерации мы оцениваем, насколько получившийся результат отличается от нужной нам генерации G, вычисляя KL-дивергенцию в качестве функции ошибки. Далее, раз у нас есть функция ошибки, значит, от неё можно и градиент посчитать по всем параметрам модели - в том числе, по весам её входного слоя.
При обычном обучении - то есть, оптимизации параметров самой модели, мы бы, конечно, использовали градиент для изменения её весов, но в данной ситуации мы оптимизируем не саму модель, а промпт. Поэтому вместо оптимизации весов, на каждом шаге генерации мы смотрим, на весах каких токенов градиенты получились самые большие, и отбираем эти токены как кандидаты на соответствующую позицию в промпте.
Понабрав таким образом токенов-кандидатов для каждой позиции промпта, мы строим несколько новых промптов, случайно семплируя один из токенов-кандидатов на каждую позицию. Далее, из этих новых альтернативных промптов выбирается один лучший (по KL-дивергенции), который считается уже не нулевым, а первым приближением. Ну а затем, все перечисленные вычисления происходят заново, и так несколько десятков раз.
Фух! Теперь, наконец-то смотрим, что получилось!
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
ACL Anthology
Prompts have evil twins
Rimon Melamed, Lucas Hurley McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adserà. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024.
🔥38👍9 8❤7
На рис. 1 (сокращенная версия Figure 1 из статьи) изображены примеры исходных промптов (подчеркнуты зеленым) и их восстановленных версий - a.k.a. "злых двойников" - полученных с помощью алгоритма, описанного выше (подчеркнуты красным). Кроме этого, авторы попробовали и другой способ восстановления промптов по заданной генерации G: они подавали G на вход GPT-4 и спрашивали её, по какому промпту можно было её получить. Промпты, полученные этим способом, на рис. 1 подчеркнуты желтым. Впрочем, по оценке по KL-дивергенции результаты этих промптов оказались намного меньше похожи на G, чем результаты промптов, полученных с помощью алгоритма авторов.
Тут у читателя может возникнуть вопрос: а почему промпт, восстановленные по алгоритму, называются "злыми двойниками"? Что же в них такого плохого? А плохо то, что они не являются человеко-читаемыми. Факт того, что LLMка, как ни в чем ни бывало, отвечает что-то осмысленное на подобную кашицу из символов, является контринтуитивным и в очередной раз показывает, что мы все еще очень плохо понимаем, как LLMки обрабатывают информацию.
Далее может возникнуть ещё один вопрос: а на какой именно LLMке все это тестировалось? Может быть, не все из них подвержены этому эффекту? А ответ такой: изначально промпты подбирались на Vicuna-7b-1.5, Phi-2, Mistral, Gemma. Затем оказалось, что подобранные на Vicuna промпты-двойники вдобавок ещё и частично переносятся на другие LLMки, в том числе на проприетарные - Claude 3, GPT-4, Gemini и многие другие. То есть, эффект не просто распространяется на широкий ряд LLM, но ещё и до некоторой степени переносится между ними! В ряде случаев (хоть и не всегда) большие LLMки также реагировали на полученную с помощью Викуньи словесную кашицу P' так, словно бы это был изначальный нормальный промпт P (см. рис. 2).
В самой статье есть еще несколько наблюдений насчет этих "злых двойников", а еще очень много примеров, так что, если кто заинтересовался моим изложением, предлагаю открыть статью и почитать подробнее. Еще можно почитать про псевдопромпты и в целом промп-тюнинг - https://t.iss.one/tech_priestess/131 - старую технику, близкую по духу к теме поста.
#объяснения_статей
Тут у читателя может возникнуть вопрос: а почему промпт, восстановленные по алгоритму, называются "злыми двойниками"? Что же в них такого плохого? А плохо то, что они не являются человеко-читаемыми. Факт того, что LLMка, как ни в чем ни бывало, отвечает что-то осмысленное на подобную кашицу из символов, является контринтуитивным и в очередной раз показывает, что мы все еще очень плохо понимаем, как LLMки обрабатывают информацию.
Далее может возникнуть ещё один вопрос: а на какой именно LLMке все это тестировалось? Может быть, не все из них подвержены этому эффекту? А ответ такой: изначально промпты подбирались на Vicuna-7b-1.5, Phi-2, Mistral, Gemma. Затем оказалось, что подобранные на Vicuna промпты-двойники вдобавок ещё и частично переносятся на другие LLMки, в том числе на проприетарные - Claude 3, GPT-4, Gemini и многие другие. То есть, эффект не просто распространяется на широкий ряд LLM, но ещё и до некоторой степени переносится между ними! В ряде случаев (хоть и не всегда) большие LLMки также реагировали на полученную с помощью Викуньи словесную кашицу P' так, словно бы это был изначальный нормальный промпт P (см. рис. 2).
В самой статье есть еще несколько наблюдений насчет этих "злых двойников", а еще очень много примеров, так что, если кто заинтересовался моим изложением, предлагаю открыть статью и почитать подробнее. Еще можно почитать про псевдопромпты и в целом промп-тюнинг - https://t.iss.one/tech_priestess/131 - старую технику, близкую по духу к теме поста.
#объяснения_статей
1❤66🔥23👍6🤔6 2
В этот раз видос НЕ про математику, а про...
https://youtu.be/93FAYUBHDPk
...звуки ада!!!😀
Люблю смотреть подобные расследования происхождения разнообразных городских легенд и крипи-контента. Очень интересно наблюдать за тем, как какая-то байка возникает и по каким причудливым траекториям потом распространяется в информационном пространстве, частенько ещё и трансформируясь по дороге во что-нибудь совершенно невероятное.😀
А у вас есть любимые ролики на похожие темы?😀
https://youtu.be/93FAYUBHDPk
...звуки ада!!!
Люблю смотреть подобные расследования происхождения разнообразных городских легенд и крипи-контента. Очень интересно наблюдать за тем, как какая-то байка возникает и по каким причудливым траекториям потом распространяется в информационном пространстве, частенько ещё и трансформируясь по дороге во что-нибудь совершенно невероятное.
А у вас есть любимые ролики на похожие темы?
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Звуки ада. Как появилось самое страшное аудио в интернете
#кольскаясверхглубокая #кольскийполуостров #мистика #интернет #соцсети
В 2007 году в русскоязычном интернете появилось жуткое аудио под названием «Звуки ада» — многие из вас точно его слышали.
В описании говорилось, что советские ученые записали его на…
В 2007 году в русскоязычном интернете появилось жуткое аудио под названием «Звуки ада» — многие из вас точно его слышали.
В описании говорилось, что советские ученые записали его на…
🫡25❤7😁4🤡4💊3👎2🔥1 1
Forwarded from Кофейный теоретик
Редактирую тут свою будущую книшку по грубой геометрии и наткнулся на забавный фан факт: в этом году исполнилось 100 лет довольно известной работе П.С. Александрова в которой тот ввёл понятие одноточечной компактификции.
Удивительно, сколько с тех пор изменилось. Та статья была написана по-немецки, да и главный академический язык тогда был именно немецкий. А всего через 20 лет "что-то случится" и главным, абсолютно доминирующий языком станет английский. И только разные "довоенные" старпёры будут продолжать публиковаться на немецком (Халин, например, одну из очень хороших своих теорем в Math Annalen опубликует в 1964 г. на немецком).
Бережно передаваемые из рук в руки учебники, по которым учились целые поколения математиков тоже изменятся. Сначала они "переедут" в цифру и станут общедоступными, а потом вдруг начнут появляться "конспекты лекций" в arxiv.org, всякие презентации, записи на youtube.. И вот сейчас, 100 лет спустя я нахожу оптимальное изложение компактификации в nlab. И вот идея открыть какой-нибудь "классический" учебник типа Ван дер Вардена мне даже в голову не приходит.
И с преподаванием тоже случилась забавная вещь. Фактически, все доказательства не просто где-нибудь написаны, но даже и без труда (обычно) находятся. Только откуда юному математику (или другому специалису) понять что же ему читать и учить? Вроде туман рассеялся, но слушатель всё равно находится в тёмном лесу, где решительно не ясно куда идти.
Так что нонче лекторы это типа Вергилия, который показывает некий путь (кстати, лишь один из множества возможных), а не единственный и неповторимый источник знания. Лично я, работая с осмысленной публикой, совершенно спокойно пропускаю многие детали (давая, конечно, ссылку на источники) стараясь сосредоточиться на основных идеях и мотивировках.
Получается, что у лекций появляется дополнительное измерение: доп.материалы которые рекомендуются к изучению: и теперь это в основном статьи, заметки, тексты в nlab и подобных википодобных ресурсах, обсуждения на stackexchage, даже (иногда) личные блоги (типа блога Тао).
Не вдаваясь в детали личности Павла Сергеевича (а было там непросто), с некоторой гордостью отмечу, что он мой научный "дед" (т.е. научный руководитель моего научного руководителя). Не знаю что бы он сказал глядя на современные академические и методические реалии. Но, предположу, что многое его бы удивило, и многое заинтересовало.
Удивительно, сколько с тех пор изменилось. Та статья была написана по-немецки, да и главный академический язык тогда был именно немецкий. А всего через 20 лет "что-то случится" и главным, абсолютно доминирующий языком станет английский. И только разные "довоенные" старпёры будут продолжать публиковаться на немецком (Халин, например, одну из очень хороших своих теорем в Math Annalen опубликует в 1964 г. на немецком).
Бережно передаваемые из рук в руки учебники, по которым учились целые поколения математиков тоже изменятся. Сначала они "переедут" в цифру и станут общедоступными, а потом вдруг начнут появляться "конспекты лекций" в arxiv.org, всякие презентации, записи на youtube.. И вот сейчас, 100 лет спустя я нахожу оптимальное изложение компактификации в nlab. И вот идея открыть какой-нибудь "классический" учебник типа Ван дер Вардена мне даже в голову не приходит.
И с преподаванием тоже случилась забавная вещь. Фактически, все доказательства не просто где-нибудь написаны, но даже и без труда (обычно) находятся. Только откуда юному математику (или другому специалису) понять что же ему читать и учить? Вроде туман рассеялся, но слушатель всё равно находится в тёмном лесу, где решительно не ясно куда идти.
Так что нонче лекторы это типа Вергилия, который показывает некий путь (кстати, лишь один из множества возможных), а не единственный и неповторимый источник знания. Лично я, работая с осмысленной публикой, совершенно спокойно пропускаю многие детали (давая, конечно, ссылку на источники) стараясь сосредоточиться на основных идеях и мотивировках.
Получается, что у лекций появляется дополнительное измерение: доп.материалы которые рекомендуются к изучению: и теперь это в основном статьи, заметки, тексты в nlab и подобных википодобных ресурсах, обсуждения на stackexchage, даже (иногда) личные блоги (типа блога Тао).
Не вдаваясь в детали личности Павла Сергеевича (а было там непросто), с некоторой гордостью отмечу, что он мой научный "дед" (т.е. научный руководитель моего научного руководителя). Не знаю что бы он сказал глядя на современные академические и методические реалии. Но, предположу, что многое его бы удивило, и многое заинтересовало.
🔥38❤22👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Жизнь без стремления к познанию и поиску истины недостойна быть прожитой.
Мнения?
Мнения?
Я смотрю, предыдущий пост вызвал знатную канонаду, надо вас немного подуспокоить. 😌
Взрыв в гифке из поста толсто намекает на то, что высказывание сделано в провокационной форме, так сказать, являясь реализацией тропа "педаль в пол". Если же говорить чуть менее провокационно и чуть более серьезно - очевидно, я не считаю, что кто-то недостоин жизни из-за того, что имеет другие жизненные цели и принципы или просто неспособен к познанию - например, котики (рис. 1).😼 Говоря про жизнь "недостойную быть прожитой", я говорю не про чужую, а про свою жизнь и в такой форме рассказываю про то, что лично мне в ней больше всего важно. Хотя я, конечно, была бы рада найти больше единомышленников с аналогичными ценностями. ❤️
Подводя итог: геноцида тех подписчиков, которые не занимаются ресерчем, не будет⌨️
Взрыв в гифке из поста толсто намекает на то, что высказывание сделано в провокационной форме, так сказать, являясь реализацией тропа "педаль в пол". Если же говорить чуть менее провокационно и чуть более серьезно - очевидно, я не считаю, что кто-то недостоин жизни из-за того, что имеет другие жизненные цели и принципы или просто неспособен к познанию - например, котики (рис. 1).
Подводя итог: геноцида тех подписчиков, которые не занимаются ресерчем, не будет
Please open Telegram to view this post
VIEW IN TELEGRAM
❤76🤡13 12🔥8 5 4 4👍3😢1 1
Forwarded from Kali Novskaya
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣 Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣 Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣 Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣 Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣 Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, товозможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣 Оценка LLM в 2023 году
🟣 Оценка LLM в 2024 году
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
#nlp #про_nlp
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
❤24👍7 4🔥1😭1 1
Forwarded from we’re talking about chickens, we’re talking about eggs
о боже блядь зарплата пришла господи мне было так грустно и одиноко и было так мало денег и так много работы и писать лекцию к понедельнику и ревьюить гранты и подавать гранты — и вдруг зарплата! озарила меня сиянием своим. на 600 евро больше чем обычно? почему, кто знает? кто считает эти небесные евро? кто кто кто если это не бог то мы называли богом не того. будет ли потом зарплата меньше? никто не знает! может быть мне вернули деньги за эксперименты? но я не подавала на возврат денег за эксперименты! может быть мне вернули деньги за комьют? в прошлый раз мне не возвращали деньги за комьют! но не надо задавать вопросы о зарплате зарплату нужно просто принимать, как мы принимаем первый хильверсумский снег, как мы принимаем счастье и несчастье, как мы прощаем должникам нашим, как православный батюшка прячет лысину от солнца под ковбойской шляпой, как мы ревьюим гранты соседей наших склоняя голову перед чудом чужой души
сердце мое горело и замерзало и дрожало и горело и замерзало обратно но пришла зарплата и обняла меня
сердце мое горело и замерзало и дрожало и горело и замерзало обратно но пришла зарплата и обняла меня
😁108❤36💯15 10🤮3🤡3💔2👍1😐1