Forwarded from b b
Хотел бы докинуть в общую копилку всяких интересностей с EMNLP: там был очень интересный обзорный туториал по высокопроизводительному NLP, по которому можно посмотреть слайды (https://gabrielilharco.com/publications/EMNLP_2020_Tutorial__High_Performance_NLP.pdf)
Чего-то сверхнового для тех, кто в теме, там, наверное, нет, но для тех, кто так и не разобрался в разных видах дистилляции и pruning'а (типа меня), может быть познавательно.
Чего-то сверхнового для тех, кто в теме, там, наверное, нет, но для тех, кто так и не разобрался в разных видах дистилляции и pruning'а (типа меня), может быть познавательно.
Классный тред с подборкой статей с прошедшего EMNLP
Советую прямо зайтв в него и потыкать в ссылки на TL;DR статей от самих авторов с картинками и прочим. А для тех, кто ленивый, вот TL;DR прямо тут:
1. Attention is Not Only a Weight: Analyzing Transformers with Vector Norms - маленькие векторы с большим attention score на них остаются маленькими (кстати мы уже разбирали эту статью пару месяцев назад)
1. BLEU might be Guilty but References are not Innocent - BLEU гораздо лучше коррелирует с человеческим мнением, если мы просто нагенерируем для много reference translations через парафразы
1. Grounded Compositional Outputs for Adaptive Language Modeling - хитрый способ добавлять информацию в языковые модели используя дополнительные источники данных
1. How do Decisions Emerge across Layers in Neural Models? Interpretation with Differentiable Masking - новый способ интерпретации моделек
1. How Much Knowledge Can You Pack Into the Parameters of a Language Model? - closed-book QA с огромными T5-моделями, ответы тем лучше, чем модель больше
1. Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models - можно трансферить предтренированные модельки между различными доменами (музыка, текст, код) и оно даже будет как-то работать. Очень классная статья, нужно найти больше времени, чтобы её разобрать подробнее. В паре слов - вы можете натренировать BERT не на тексте, а на музыке и применить его для текстов.
1. OCR Post Correction for Endangered Language Texts - хитрые способы применять OCR для редких языков
1. Pareto Probing: Trading Off Accuracy for Complexity - в основном в probing tasks используются мега простые модельки, но у этого есть свои минусы. В статье обсуждают tradeoff между пробингом простыми и сложными моделями и показывают, что надо работать где-то посредине.
1. Quantifying Intimacy in Language - очень забавная статья, где смотрели на статистику интимных разговоров в книгах, фильмах, твиттере и реддите.
1. Reformulating Unsupervised Style Transfer as Paraphrase Generation - два в одном: и хороший обзор методов style-transfer и новая SOTA
1. Scaling Hidden Markov Language Models - оживление HMM с помощью нейросетевой репараметризации, показали что большие HMM могут быть competitive с сетками
1. Sparse Text Generation - используйте sparsemax для генерации и будет вам счастье
1. With Little Power Comes Great Responsibility - уже обозревали выше, основная идея - если у вас маленькое улучшение метрик, тестируйтесь на больших датасетах
Советую прямо зайтв в него и потыкать в ссылки на TL;DR статей от самих авторов с картинками и прочим. А для тех, кто ленивый, вот TL;DR прямо тут:
1. Attention is Not Only a Weight: Analyzing Transformers with Vector Norms - маленькие векторы с большим attention score на них остаются маленькими (кстати мы уже разбирали эту статью пару месяцев назад)
1. BLEU might be Guilty but References are not Innocent - BLEU гораздо лучше коррелирует с человеческим мнением, если мы просто нагенерируем для много reference translations через парафразы
1. Grounded Compositional Outputs for Adaptive Language Modeling - хитрый способ добавлять информацию в языковые модели используя дополнительные источники данных
1. How do Decisions Emerge across Layers in Neural Models? Interpretation with Differentiable Masking - новый способ интерпретации моделек
1. How Much Knowledge Can You Pack Into the Parameters of a Language Model? - closed-book QA с огромными T5-моделями, ответы тем лучше, чем модель больше
1. Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models - можно трансферить предтренированные модельки между различными доменами (музыка, текст, код) и оно даже будет как-то работать. Очень классная статья, нужно найти больше времени, чтобы её разобрать подробнее. В паре слов - вы можете натренировать BERT не на тексте, а на музыке и применить его для текстов.
1. OCR Post Correction for Endangered Language Texts - хитрые способы применять OCR для редких языков
1. Pareto Probing: Trading Off Accuracy for Complexity - в основном в probing tasks используются мега простые модельки, но у этого есть свои минусы. В статье обсуждают tradeoff между пробингом простыми и сложными моделями и показывают, что надо работать где-то посредине.
1. Quantifying Intimacy in Language - очень забавная статья, где смотрели на статистику интимных разговоров в книгах, фильмах, твиттере и реддите.
1. Reformulating Unsupervised Style Transfer as Paraphrase Generation - два в одном: и хороший обзор методов style-transfer и новая SOTA
1. Scaling Hidden Markov Language Models - оживление HMM с помощью нейросетевой репараметризации, показали что большие HMM могут быть competitive с сетками
1. Sparse Text Generation - используйте sparsemax для генерации и будет вам счастье
1. With Little Power Comes Great Responsibility - уже обозревали выше, основная идея - если у вас маленькое улучшение метрик, тестируйтесь на больших датасетах
Twitter
Sabrina J. Mielke
I finally watched all the talks I wanted to, ended up importing 56 papers to my bib, and now present to you: 🎉 My 13 favorite papers (sorted alphabetically) at #EMNLP2020! 🔥 [1/15]
Forwarded from Deleted Account
Всем, привет! В ближайший четверг в 17:00 состоится семинар лаборатории нейросетей и глубокого обучения МФТИ на котором Анна Роджерс представит бертологический доклад. Приглашаю всех заинтересованных :) ссылку на зум сброшу в канал перед семинаром.
When BERT plays the lottery, all tickets are winning!
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good” subnetworks exist, can they tell us anything about how BERT achieves its performance?
https://arxiv.org/pdf/2005.00561 (edited)
When BERT plays the lottery, all tickets are winning!
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good” subnetworks exist, can they tell us anything about how BERT achieves its performance?
https://arxiv.org/pdf/2005.00561 (edited)
Поговорим про мультиязычные модели перевода.
Сейчас им приходится часто делать zero-shot. Условно, модель может перевести с индонезийского на татарский, несмотря на то, что на такой языковой паре не обучалась. Энкодер мапит все языки в единое пространство, а декодер умеет из этого пространства декодить (Wu et al, 2016). Но получается так себе.
Мы знаем, что лучшее решение zero-shot задач - это найти нормальный датасет, где не придётся заниматься zero-shot. Facebook в своей статье намайнил такой датасет для 2 тысяч пар языков, а Google показал что даже когда мы работаем всего с 6 языками и 36 парами, есть много тонкостей обучения, которые стоит учитывать.
Beyond English-Centric Multilingual Machine Translation
Fan et al. [Facebook]
arxiv.org/abs/2010.11125
1. LASER-вектора находят предложения, которые являются переводами друг друга
1. Пары майнятся из отсеянных через правила и LASER пар документов
1. Преимущественно ищутся предложения между языками из одной группы и для bridge languages, которые эти группы соединяют
1. Прменяеют backtranslation для пар, где данных меньше всгео
В результате получили датасет на 100 языков и 2200 направлений первода, 7.5B предложений.
На всём этом обучется модель размером 1.2B параметров, для этого применяются много технических хитростей для распараллеливания на GPU, в том числе модификации архитектуры трансформера. Также заметили, что от большего числа языковых пар расширяется количество данных, доступных для низкоресурсных языков. Благодаря этому пара английский-белорусский улучшилась с 3 до 13 BLEU.
Complete Multilingual Neural Machine Translation
Freitag and Firat [Google]
https://arxiv.org/abs/2010.10239
Датасет: UN, 6 языков, для которых есть паралелльные данные, но для некоторых пар их мало.
Показали, что стандартный способ семплинга примеров при тренировке, у учётом частоты языковых пар, на самом деле семплирует больше английского, чем нужно (тк у английского много пар со всеми). Предложили новый вид семплинга, который зависит не от пары, а от языка.
Обычно проблема мультиязычных моделей заключается в том, что высокоресурсные языки теряют в качестве по сравнению с двуязычным бейзлайном. Интересный результат этой статьи, что если использовать правильный семплинг и большое число языковых пар, этого эффекта не наблюдается. Показали это на UN (36 пар) и на внутреннем датасете (20 тысяч пар).
Сейчас им приходится часто делать zero-shot. Условно, модель может перевести с индонезийского на татарский, несмотря на то, что на такой языковой паре не обучалась. Энкодер мапит все языки в единое пространство, а декодер умеет из этого пространства декодить (Wu et al, 2016). Но получается так себе.
Мы знаем, что лучшее решение zero-shot задач - это найти нормальный датасет, где не придётся заниматься zero-shot. Facebook в своей статье намайнил такой датасет для 2 тысяч пар языков, а Google показал что даже когда мы работаем всего с 6 языками и 36 парами, есть много тонкостей обучения, которые стоит учитывать.
Beyond English-Centric Multilingual Machine Translation
Fan et al. [Facebook]
arxiv.org/abs/2010.11125
1. LASER-вектора находят предложения, которые являются переводами друг друга
1. Пары майнятся из отсеянных через правила и LASER пар документов
1. Преимущественно ищутся предложения между языками из одной группы и для bridge languages, которые эти группы соединяют
1. Прменяеют backtranslation для пар, где данных меньше всгео
В результате получили датасет на 100 языков и 2200 направлений первода, 7.5B предложений.
На всём этом обучется модель размером 1.2B параметров, для этого применяются много технических хитростей для распараллеливания на GPU, в том числе модификации архитектуры трансформера. Также заметили, что от большего числа языковых пар расширяется количество данных, доступных для низкоресурсных языков. Благодаря этому пара английский-белорусский улучшилась с 3 до 13 BLEU.
Complete Multilingual Neural Machine Translation
Freitag and Firat [Google]
https://arxiv.org/abs/2010.10239
Датасет: UN, 6 языков, для которых есть паралелльные данные, но для некоторых пар их мало.
Показали, что стандартный способ семплинга примеров при тренировке, у учётом частоты языковых пар, на самом деле семплирует больше английского, чем нужно (тк у английского много пар со всеми). Предложили новый вид семплинга, который зависит не от пары, а от языка.
Обычно проблема мультиязычных моделей заключается в том, что высокоресурсные языки теряют в качестве по сравнению с двуязычным бейзлайном. Интересный результат этой статьи, что если использовать правильный семплинг и большое число языковых пар, этого эффекта не наблюдается. Показали это на UN (36 пар) и на внутреннем датасете (20 тысяч пар).
Forwarded from DeepPavlov notifications
Всем привет 😃
В прошлый четверг состоялся открытый семинар нашей лаборатории, на котором Анна Роджерс представила бертологический доклад: “When BERT plays the lottery, all tickets are winning!”
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good” subnetworks exist, can they tell us anything about how BERT achieves its performance?
The original paper can be found here https://arxiv.org/pdf/2005.00561
Для тех, кто пропустил доклад, доступна запись по 👉 ссылке.
В прошлый четверг состоялся открытый семинар нашей лаборатории, на котором Анна Роджерс представила бертологический доклад: “When BERT plays the lottery, all tickets are winning!”
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good” subnetworks exist, can they tell us anything about how BERT achieves its performance?
The original paper can be found here https://arxiv.org/pdf/2005.00561
Для тех, кто пропустил доклад, доступна запись по 👉 ссылке.
YouTube
Seminar #3. When BERT plays the lottery, all tickets are winning!
In the talk, Anna Rogers presented the paper: When BERT plays the lottery, all tickets are winning!
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good”…
The lottery ticket hypothesis was originally developed for randomly initialized models, but might it also apply to pre-trained Transformers? If the “good”…
F^2-Softmax: Diversifying Neural Text Generation via Frequency Factorized Softmax
Choi et al.
arxiv.org/abs/2009.09417
TL;DR
Представили новый метод обучения языковых моделей, которые генерируют более разнообразный текст - чаще используют средне и низкочастоные слова. Для этого вместо рассчёта одного софтмакса, считается K+1 софтмакс где один из них подсчитан на всем словаре, а K - на группах высоко/средне/низкочастотных слов (слова разбиты на K групп по частоте). Финальная вероятность получается равна произведению софтмакса со всем словарём на софтмакс, где есть вероятность требуемого слова.
Плюс придумали новый метод семплинга, учитывающего энтропию языка. В результате более хорошие Distinct и другие метрики разнообразности при довольно хорошей перплексии. Также частота геренируемых высоко/средне/низкочастотных токенов гораздо ближе к человеческой.
Choi et al.
arxiv.org/abs/2009.09417
TL;DR
Представили новый метод обучения языковых моделей, которые генерируют более разнообразный текст - чаще используют средне и низкочастоные слова. Для этого вместо рассчёта одного софтмакса, считается K+1 софтмакс где один из них подсчитан на всем словаре, а K - на группах высоко/средне/низкочастотных слов (слова разбиты на K групп по частоте). Финальная вероятность получается равна произведению софтмакса со всем словарём на софтмакс, где есть вероятность требуемого слова.
Плюс придумали новый метод семплинга, учитывающего энтропию языка. В результате более хорошие Distinct и другие метрики разнообразности при довольно хорошей перплексии. Также частота геренируемых высоко/средне/низкочастотных токенов гораздо ближе к человеческой.
Forwarded from ODS Events
На Data Ёлке 🎄вас ждёт много интересного!
19 декабря в 15:00 в прямом эфире будут подведены итоги первого цикла технологического конкурса Up Great «ПРО//ЧТЕНИЕ», направленного на преодоление технологического барьера в области машинной обработки естественного языка. 🗣
Задача конкурса — создать системы искусственного интеллекта для выявления смысловых, логических и фактических ошибок в текстах на русском и английском языках. Чтобы победить в конкурсе и выиграть приз в 100 млн руб. 🤑, алгоритм должен справиться с задачей не хуже преподавателя. Испытания конкурса проводятся регулярно до тех пор, пока одна из команд не покажет результат, соответствующий способностям человека, но не позднее конца 2022 года.
Возможно, ещё не поздно принять участие — узнаем в субботу в 15:00. 🗓
Следите за дальнейшими анонсами - вас ждут приятные сюрпризы! 😉
19 декабря в 15:00 в прямом эфире будут подведены итоги первого цикла технологического конкурса Up Great «ПРО//ЧТЕНИЕ», направленного на преодоление технологического барьера в области машинной обработки естественного языка. 🗣
Задача конкурса — создать системы искусственного интеллекта для выявления смысловых, логических и фактических ошибок в текстах на русском и английском языках. Чтобы победить в конкурсе и выиграть приз в 100 млн руб. 🤑, алгоритм должен справиться с задачей не хуже преподавателя. Испытания конкурса проводятся регулярно до тех пор, пока одна из команд не покажет результат, соответствующий способностям человека, но не позднее конца 2022 года.
Возможно, ещё не поздно принять участие — узнаем в субботу в 15:00. 🗓
Следите за дальнейшими анонсами - вас ждут приятные сюрпризы! 😉
Parameter-Efficient Transfer Learning with Diff Pruning
Guo et al.
arxiv.org/abs/2012.07463
Новый интересный метод файнтюнинга нейросетей. Предлагается использовать специальный регуляризатор, который минимизирует число изменившихся весов. Таким образом вы можете файнтюнить много моделей и хранить только спарсовые дельты, отличающие их от оригинальной. Авторы обнаружили, что разные задачи при файнтюнинге изменяют разные слои (см картинку), а также, что можно достичь таких же результатов, как и обычный файнтюнинг модифицировав всего 0.5% параметров модели!
Guo et al.
arxiv.org/abs/2012.07463
Новый интересный метод файнтюнинга нейросетей. Предлагается использовать специальный регуляризатор, который минимизирует число изменившихся весов. Таким образом вы можете файнтюнить много моделей и хранить только спарсовые дельты, отличающие их от оригинальной. Авторы обнаружили, что разные задачи при файнтюнинге изменяют разные слои (см картинку), а также, что можно достичь таких же результатов, как и обычный файнтюнинг модифицировав всего 0.5% параметров модели!
Forwarded from ODS Events
Мы уже говорили, что на Data Ёлке 🎄вас ждёт много интересного. А сейчас расскажем про главный сюрприз!
Завтра в 12:00 к нам присоединится… Нет, не Дед Мороз — лучше! Сам Юрген Шмидхубер! 🤩 Да-да, тот самый культовый профессор искусственного интеллекта Университета Лугано, научный директор Лаборатории искусственного интеллекта (AI Lab IDSIA) Университета прикладных наук итальянской Швейцарии, сооснователь и научный руководитель компании NNAISENSE. А ещё Юрген является экспертом курса «Глубокое обучение» от Up Great и ПостНаука.
Круто? Не то слово. Но помните, послушать выступление живой легенды ML о судьбах ML, MLML, и всего такого можно будет только live, подключившись к трансляции на нашем YouTube канале. 💻 Не пропустите!
Завтра в 12:00 к нам присоединится… Нет, не Дед Мороз — лучше! Сам Юрген Шмидхубер! 🤩 Да-да, тот самый культовый профессор искусственного интеллекта Университета Лугано, научный директор Лаборатории искусственного интеллекта (AI Lab IDSIA) Университета прикладных наук итальянской Швейцарии, сооснователь и научный руководитель компании NNAISENSE. А ещё Юрген является экспертом курса «Глубокое обучение» от Up Great и ПостНаука.
Круто? Не то слово. Но помните, послушать выступление живой легенды ML о судьбах ML, MLML, и всего такого можно будет только live, подключившись к трансляции на нашем YouTube канале. 💻 Не пропустите!
Тут в чате затронули тему длинных трансформеров и я вспонил, что недавно делал презентацию с их обзором. Думаю кому-нибудь может быть полезно.
TL;DR: используйте BigBird или Linformer
https://docs.google.com/presentation/d/1qRcKLldtepnkDohA5AVqC6stMkdqjPEb4ev9jQUexh8/edit?usp=sharing
TL;DR: используйте BigBird или Linformer
https://docs.google.com/presentation/d/1qRcKLldtepnkDohA5AVqC6stMkdqjPEb4ev9jQUexh8/edit?usp=sharing
Google Docs
Applying Transformer Models to Long Texts: Challenges and Solutions.
Applying Transformer Models to Long Texts: Challenges and Solutions. Vladislav Lialin, Text Machine Lab, UMass Lowell [email protected]
Extracting Training Data from Large Language Models
Carlini et al.
статья: arxiv.org/abs/2012.07805
блогпост: bair.berkeley.edu/blog/2020/12/20/lmmem
Мы знаем, что языковые модели могут хорошо запоминать обучающую выборку (см Language Models and Knowledge Bases) и всегда подозревали, что они даже запоминают строки, встречающиеся в датасете всего один-два раза. Carlini et al. исследуют, как можно доставать именно такую информацию из GPT-2 (1.5B параметров).
Подход состоит из двух шагов: нагенерировать текстов, отсортировать их. Методы семплирования и сортировки очень важны, чтобы отсеить случаи, когда модель выдаёт тривиальные факты (числа от 0 до 100 или лицензию MIT) или просто повторяет одну фразу (I love you I love you I love you).
Для генерации модели давали префиксы текстов наскрапленых из интернета таким образом, чтобы они не пересекались с тренировочным сетом GPT-2.
Для сортировки сравнивали энтропию текста, которую выдавал алгоритм сжатия zlib. Идея в том, что тексты с низкой энтропией скорее всего и являются тривиальными / повторяющимися.
(И для семплирования и для сортировки пробовали и другие методы, за ними посылаю в статью.)
Более 60% сгенерированных текстов оказались реальными тектсами 😱 , что проверили вручную с помощью поиска в интеренете. Хоть большинство из них содержали открытые вещи, вроде новостных статей, terms of use, твитов Трампа, …, более 10% содержали в себе адреса/номера телефонов/twitter и другую персональную информацию реальных людей.
Очень советую статью к прочтению, в ней понятным и адекватным образом описаны этические вопросы. Своё мнение я бы сформулировал так: GPT-2 и друзья и так тренируются на публичных данных, до которых и так несложно добраться. Но, большим компаниям, тренирующих BERTы на внутренних данных нужно начать думать о том, как защищать веса этих моделей от утечек / использовать методы differentially private training.
Carlini et al.
статья: arxiv.org/abs/2012.07805
блогпост: bair.berkeley.edu/blog/2020/12/20/lmmem
Мы знаем, что языковые модели могут хорошо запоминать обучающую выборку (см Language Models and Knowledge Bases) и всегда подозревали, что они даже запоминают строки, встречающиеся в датасете всего один-два раза. Carlini et al. исследуют, как можно доставать именно такую информацию из GPT-2 (1.5B параметров).
Подход состоит из двух шагов: нагенерировать текстов, отсортировать их. Методы семплирования и сортировки очень важны, чтобы отсеить случаи, когда модель выдаёт тривиальные факты (числа от 0 до 100 или лицензию MIT) или просто повторяет одну фразу (I love you I love you I love you).
Для генерации модели давали префиксы текстов наскрапленых из интернета таким образом, чтобы они не пересекались с тренировочным сетом GPT-2.
Для сортировки сравнивали энтропию текста, которую выдавал алгоритм сжатия zlib. Идея в том, что тексты с низкой энтропией скорее всего и являются тривиальными / повторяющимися.
(И для семплирования и для сортировки пробовали и другие методы, за ними посылаю в статью.)
Более 60% сгенерированных текстов оказались реальными тектсами 😱 , что проверили вручную с помощью поиска в интеренете. Хоть большинство из них содержали открытые вещи, вроде новостных статей, terms of use, твитов Трампа, …, более 10% содержали в себе адреса/номера телефонов/twitter и другую персональную информацию реальных людей.
Очень советую статью к прочтению, в ней понятным и адекватным образом описаны этические вопросы. Своё мнение я бы сформулировал так: GPT-2 и друзья и так тренируются на публичных данных, до которых и так несложно добраться. Но, большим компаниям, тренирующих BERTы на внутренних данных нужно начать думать о том, как защищать веса этих моделей от утечек / использовать методы differentially private training.
The Berkeley Artificial Intelligence Research Blog
Does GPT-2 Know Your Phone Number?
The BAIR Blog
Learning from others' mistakes: Avoiding dataset biases without modeling them
Sanh et al. [Hugging Face]
arxiv.org/abs/2012.01300
В больших датасетах вроде MNLI с моделями случаются плохие вещи из-за низкого качества данных. Многие примеры можно правильно классифицировать с помощью эвристик, не имеющих ничего общего с задачей. Например, наличие слова “no” очень повышает вероятность класса “противоречие”.
Эту проблему можно решить очисткой датасета или нахождением конкретных эвристик и построением adversarial примеров для них. Но авторы этой статьи предложили метод, который не требует никакой ручной работы для исправления этой проблемы.
Идея в том, что в начале вы тренируете небольшую модель для классификации w, например TinyBERT из двух слоёв. Она выучивает самые простые зависимости в данных. Далее вы замораживаете эту модель и учите большую модель b на вот таком лоссе:
Идея в том, что градиенты для тех примеров, где простая модель ошибается будут большими, а там, где простая модель справляется будут очень маленькими. В результате модель b показывает хорошее качество на adversarial-тестовом датасете HANS.
Sanh et al. [Hugging Face]
arxiv.org/abs/2012.01300
В больших датасетах вроде MNLI с моделями случаются плохие вещи из-за низкого качества данных. Многие примеры можно правильно классифицировать с помощью эвристик, не имеющих ничего общего с задачей. Например, наличие слова “no” очень повышает вероятность класса “противоречие”.
Эту проблему можно решить очисткой датасета или нахождением конкретных эвристик и построением adversarial примеров для них. Но авторы этой статьи предложили метод, который не требует никакой ручной работы для исправления этой проблемы.
Идея в том, что в начале вы тренируете небольшую модель для классификации w, например TinyBERT из двух слоёв. Она выучивает самые простые зависимости в данных. Далее вы замораживаете эту модель и учите большую модель b на вот таком лоссе:
CrossEntropy(p_w * p_b, label)
.Идея в том, что градиенты для тех примеров, где простая модель ошибается будут большими, а там, где простая модель справляется будут очень маленькими. В результате модель b показывает хорошее качество на adversarial-тестовом датасете HANS.
Очень много шума наделала модель DALL·E от OpenAI, которая умеет генерировать картинки вместе с текстом.
К сожалению, OpenAI (уже традиционно) опубликовали блогпост без статьи 😕, поэтому придётся угадывать что же они там делали. Ещё один момент - зачастую блогпост OpenAI и статья OpenAI очень разные. Поэтому подробный обзор DALL·E будет позже.
Сейчас попытаюсь саммаризировать то, что я понял и мои предположения,
DALL·E - это просто языковая модель-трансформер. Но она обучена на последовательностях вида “текст связанный с картинкой <значения пикселей картинки>”. О том, как OpenAI применяет языковое моделирование для изображений можно почтитать тут.
Моделируется последовательность состоящая и из текста и из картинки просто одним большим трансформером. То есть модель предсказывает следующий токен, который может быть как словом, так и пикселем. При этом картинка и текст связанны друг с другом и помогают друг друга предсказать.
Теперь мои догадки о том, как майнили пары текст-изображение. Скорее всего просто делали поиск в интернете и майнили соответствующие картинки, соответствующие коротким фразам из датасета на котором тренировали GPT-3. Что ещё можно было сделать: как-то отсеивать тексты, которые не похожи на описания картинок или делать поиск наоборот - текста по намайненым картинкам. В конце-концов третья вещь - использовать предтренированные модели object detection или metric learning чтобы проверять, что картинки и правда похожи на текст. В качестве такой модели можно использовать DALL·E, который натренирован на предыдущей итерации датасета (оценивая моделью вероятность текста при условии картинки или наоборот).
Результаты:
Можно генерировать изображения обусловливаясь на тексте или даже не тексте и начале изображения. При этом качество картинок и уровень понимания текста зачастую очень удивляют. Например вы можете написать “вот такой же чайник, но со словом GPT на нём <картинка чайника>” и получить вот такие картинки.
openai.com/blog/dall-e
Неофициальная имплементация: github.com/lucidrains/DALLE-pytorch
Спасибо за ссылку @Archelunch
К сожалению, OpenAI (уже традиционно) опубликовали блогпост без статьи 😕, поэтому придётся угадывать что же они там делали. Ещё один момент - зачастую блогпост OpenAI и статья OpenAI очень разные. Поэтому подробный обзор DALL·E будет позже.
Сейчас попытаюсь саммаризировать то, что я понял и мои предположения,
DALL·E - это просто языковая модель-трансформер. Но она обучена на последовательностях вида “текст связанный с картинкой <значения пикселей картинки>”. О том, как OpenAI применяет языковое моделирование для изображений можно почтитать тут.
Моделируется последовательность состоящая и из текста и из картинки просто одним большим трансформером. То есть модель предсказывает следующий токен, который может быть как словом, так и пикселем. При этом картинка и текст связанны друг с другом и помогают друг друга предсказать.
Теперь мои догадки о том, как майнили пары текст-изображение. Скорее всего просто делали поиск в интернете и майнили соответствующие картинки, соответствующие коротким фразам из датасета на котором тренировали GPT-3. Что ещё можно было сделать: как-то отсеивать тексты, которые не похожи на описания картинок или делать поиск наоборот - текста по намайненым картинкам. В конце-концов третья вещь - использовать предтренированные модели object detection или metric learning чтобы проверять, что картинки и правда похожи на текст. В качестве такой модели можно использовать DALL·E, который натренирован на предыдущей итерации датасета (оценивая моделью вероятность текста при условии картинки или наоборот).
Результаты:
Можно генерировать изображения обусловливаясь на тексте или даже не тексте и начале изображения. При этом качество картинок и уровень понимания текста зачастую очень удивляют. Например вы можете написать “вот такой же чайник, но со словом GPT на нём <картинка чайника>” и получить вот такие картинки.
openai.com/blog/dall-e
Неофициальная имплементация: github.com/lucidrains/DALLE-pytorch
Спасибо за ссылку @Archelunch
Openai
DALL·E: Creating images from text
We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.