Обзор про emergent abilities в языковых моделях
Paper; Twitter
Emergent abilities это когда количественные изменения приводят к качественно новому поведению. Например, модель с 8B параметров вообще не умеет в logical reasoning, а с 68B - умеет.
Рассмотрели их появление для few-shot'а и для augmented prompting’а. Написали, какие способности появляются с увеличением затраченных flops на обучение.
Параграфы 5.1-5.3 интересные:
- дают возможные объяснения эмерджентности
- аргументируют, что и в небольших моделях это может возникнуть, если дольше учить / данные чище / более классный objective
- рисуют accuracy в зависимости от перплексии на WikiText-103 (а не training compute или числа параметров), на котором, впрочем, такой же график с резким скачком качества от случаного к адекватному
Любопытно кстати, после скольки шагов обучения новые способности появляются у больших моделей и появляются ли они в том же порядке, что в Table 1. Но таких графиков нет)
Paper; Twitter
Emergent abilities это когда количественные изменения приводят к качественно новому поведению. Например, модель с 8B параметров вообще не умеет в logical reasoning, а с 68B - умеет.
Рассмотрели их появление для few-shot'а и для augmented prompting’а. Написали, какие способности появляются с увеличением затраченных flops на обучение.
Параграфы 5.1-5.3 интересные:
- дают возможные объяснения эмерджентности
- аргументируют, что и в небольших моделях это может возникнуть, если дольше учить / данные чище / более классный objective
- рисуют accuracy в зависимости от перплексии на WikiText-103 (а не training compute или числа параметров), на котором, впрочем, такой же график с резким скачком качества от случаного к адекватному
Любопытно кстати, после скольки шагов обучения новые способности появляются у больших моделей и появляются ли они в том же порядке, что в Table 1. Но таких графиков нет)
👍6🤯3🔥1