Приближаем сингулярность
962 subscribers
79 photos
2 videos
57 links
Про AI, стартапы, и не только

По всем вопросам писать @leshanbog
Download Telegram
Обзор про emergent abilities в языковых моделях

Paper; Twitter

Emergent abilities это когда количественные изменения приводят к качественно новому поведению. Например, модель с 8B параметров вообще не умеет в logical reasoning, а с 68B - умеет.

Рассмотрели их появление для few-shot'а и для augmented prompting’а. Написали, какие способности появляются с увеличением затраченных flops на обучение.

Параграфы 5.1-5.3 интересные:
- дают возможные объяснения эмерджентности
- аргументируют, что и в небольших моделях это может возникнуть, если дольше учить / данные чище / более классный objective
- рисуют accuracy в зависимости от перплексии на WikiText-103 (а не training compute или числа параметров), на котором, впрочем, такой же график с резким скачком качества от случаного к адекватному

Любопытно кстати, после скольки шагов обучения новые способности появляются у больших моделей и появляются ли они в том же порядке, что в Table 1. Но таких графиков нет)
👍6🤯3🔥1
Jeremy Howard (fast.ai) рассказывает, как занял первое место в kaggle соревновании по классификации картинок. Выложил подробные ноутбуки и 6 часов видео про это 👍

twitter thread
👍6🔥1
Создание диалогов из документов

Ребята из гугла обучили T5 предсказывать по дилогу с замаскированной репликой эту самую реплику. Потом применили эту модель к документам из википедии и получили большой (11М диалогов) датасет хорошего качества, который даже выложили и написали подробную dataset card.

Генерировали диалоги авторегрессивно, то есть по
1. уже сгенерированным вопросам модели
2. первым n предложениям документа (ответами на эти вопросы)
3. следующему ответу (n+1 предложение)
генерируют к нему вопрос.

Получившийся датасет сравнили на разметке асессоров с другими небольшими датасетами. Замерили на нем MRR для ретривера. Везде хорошие результаты 🙂

Интересно было бы посмотреть, насколько такой датасет может помочь в обучении retrieval-based моделей для генерации, но это уже future work)

Paper
👍31🔥1
Усреднение весов моделей улучшает качество

Статья с ICML 2022 с супер понятным названием:
"Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time".
Всё, как и написано: усреднили веса, получили профит.

Усреднять лучше не все имеющиеся модели (uniform soup), а только те, которые добавляют качество на валидации, причем пытаться добавлять сначала те, которые имеют лучшее качество (greedy soup). Метрики на тесте выходят лучше, чем у отдельно взятых моделей, а работает так же быстро. Обучать дополнительно ничего не надо, так как все делают hyperparameter search.

Качество, кстати, получается хуже, чем у ансамбля, но ансамбль и инферить в k раз дольше; а тут одна модель.
1🔥1
Вторая картинка хорошо визуализирует, почему такое усреднение может работать. Тут кажется важным, что два набора весов находятся около одного и того же минимума. Поэтому, например, усреднять веса моделей, которые были по разному инициализированы, представляется не такой разумной затеей)

Получили профит относительно похожих бейзлайнов: дистилляция ансамбля, SWA (усреднение чекпоинтов вдоль одной траектории обучения), SAM (модифицированный оптимизатор, который ищет wide минимумы функции потерь).

В основном эксперименты были с CV сетками, но и про NLP кое что есть (не делает хуже, иногда немного лучше).

Много классных визуализаций и огромный аппендикс с кучей графиков, даже страшные формулы есть для любителей)

Paper
👍21🔥1