Обзор про emergent abilities в языковых моделях
Paper; Twitter
Emergent abilities это когда количественные изменения приводят к качественно новому поведению. Например, модель с 8B параметров вообще не умеет в logical reasoning, а с 68B - умеет.
Рассмотрели их появление для few-shot'а и для augmented prompting’а. Написали, какие способности появляются с увеличением затраченных flops на обучение.
Параграфы 5.1-5.3 интересные:
- дают возможные объяснения эмерджентности
- аргументируют, что и в небольших моделях это может возникнуть, если дольше учить / данные чище / более классный objective
- рисуют accuracy в зависимости от перплексии на WikiText-103 (а не training compute или числа параметров), на котором, впрочем, такой же график с резким скачком качества от случаного к адекватному
Любопытно кстати, после скольки шагов обучения новые способности появляются у больших моделей и появляются ли они в том же порядке, что в Table 1. Но таких графиков нет)
Paper; Twitter
Emergent abilities это когда количественные изменения приводят к качественно новому поведению. Например, модель с 8B параметров вообще не умеет в logical reasoning, а с 68B - умеет.
Рассмотрели их появление для few-shot'а и для augmented prompting’а. Написали, какие способности появляются с увеличением затраченных flops на обучение.
Параграфы 5.1-5.3 интересные:
- дают возможные объяснения эмерджентности
- аргументируют, что и в небольших моделях это может возникнуть, если дольше учить / данные чище / более классный objective
- рисуют accuracy в зависимости от перплексии на WikiText-103 (а не training compute или числа параметров), на котором, впрочем, такой же график с резким скачком качества от случаного к адекватному
Любопытно кстати, после скольки шагов обучения новые способности появляются у больших моделей и появляются ли они в том же порядке, что в Table 1. Но таких графиков нет)
👍6🤯3🔥1
Jeremy Howard (fast.ai) рассказывает, как занял первое место в kaggle соревновании по классификации картинок. Выложил подробные ноутбуки и 6 часов видео про это 👍
twitter thread
twitter thread
Twitter
Jeremy Howard
Are you ready to embark on a deep learning journey? I've just released over 6 hours of videos and the first in a series of notebooks showing the thought process of how I got to #1 in a current Kaggle comp. Follow this 🧵 for updates on the journey! kaggle…
👍6🔥1
Создание диалогов из документов
Ребята из гугла обучили T5 предсказывать по дилогу с замаскированной репликой эту самую реплику. Потом применили эту модель к документам из википедии и получили большой (11М диалогов) датасет хорошего качества, который даже выложили и написали подробную dataset card.
Генерировали диалоги авторегрессивно, то есть по
1. уже сгенерированным вопросам модели
2. первым n предложениям документа (ответами на эти вопросы)
3. следующему ответу (n+1 предложение)
генерируют к нему вопрос.
Получившийся датасет сравнили на разметке асессоров с другими небольшими датасетами. Замерили на нем MRR для ретривера. Везде хорошие результаты 🙂
Интересно было бы посмотреть, насколько такой датасет может помочь в обучении retrieval-based моделей для генерации, но это уже future work)
Paper
Ребята из гугла обучили T5 предсказывать по дилогу с замаскированной репликой эту самую реплику. Потом применили эту модель к документам из википедии и получили большой (11М диалогов) датасет хорошего качества, который даже выложили и написали подробную dataset card.
Генерировали диалоги авторегрессивно, то есть по
1. уже сгенерированным вопросам модели
2. первым n предложениям документа (ответами на эти вопросы)
3. следующему ответу (n+1 предложение)
генерируют к нему вопрос.
Получившийся датасет сравнили на разметке асессоров с другими небольшими датасетами. Замерили на нем MRR для ретривера. Везде хорошие результаты 🙂
Интересно было бы посмотреть, насколько такой датасет может помочь в обучении retrieval-based моделей для генерации, но это уже future work)
Paper
👍3❤1🔥1