Forwarded from Irina Nikishina
Приглашаем всех принять участие в соревновании Dialogue Evaluation RuArg-2022 на конференции "Диалог".
Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):
«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».
Соревнование по анализу аргументации включает в себя 2 задачи:
* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.
Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.
Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)
Задача участников - произвести анализ аргументации путем классификации каждого высказывания.
Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab
Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):
«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».
Соревнование по анализу аргументации включает в себя 2 задачи:
* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.
Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.
Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)
Задача участников - произвести анализ аргументации путем классификации каждого высказывания.
Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab
GitHub
GitHub - dialogue-evaluation/RuArg
Contribute to dialogue-evaluation/RuArg development by creating an account on GitHub.
👍10👎1
Forwarded from partially unsupervised
Недавно перезапустился широко известный в узких кругах Open ML Course, и, как человек, приложивший руку к его первой версии, я не могу об этом умолчать.
Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.
Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.
У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".
Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.
Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.
У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".
👍25😁1
Насколько я знаю это самая большая языковая модель с публично доступными весами.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
👍2
Forwarded from Love. Death. Transformers.
Оп, 20б модель от euther ai можно тыкать
https://goose.ai/playground
https://goose.ai/playground
GooseAI
GooseAI - Stop overpaying for your AI infrastructure.
Fully managed NLP-as-a-Service delivered via API, at 30% the cost. It's time to migrate.
Forwarded from AI для Всех
В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Twitter
Jonathan Frankle
What bullshit. Dear OpenAI researchers: My email address is [email protected]. We are hiring! We have healthy culture and no elitism, egos, or divas. twitter.com/sama/status/14…
🔥27👍2😁2👎1
Последние две недели готовлю очень крутую штуку, надеюсь зарелизить её на следующей неделе. А пока что быстрая подборка новостей:
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
soumith.ch
Decisions and Pivots | Soumith Chintala
a tweet-thread at the 5-year mark
🔥16👍6
Deduplicating Training Data Mitigates Privacy Risks in Language Models
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
👍14
Forwarded from AI для Всех
Ускорители для AI (GPU, TPU, IPU)
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
👍4
DeepNet: Scaling Transformers to 1,000 Layers
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
Нормализаци модифицируют следующим образом: если раньше мы делали
По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
(8N)^(-1/4)
раз для слоёв ffn, v_proj и out_proj, где N — это число слоёв в энкодере. Конкретная формула для этого параметра зависит от того используете ли вы encoder-only или seq2seq модель.Нормализаци модифицируют следующим образом: если раньше мы делали
LayerNorm(x + f(x))
, где f - это предыдущий слой, теперь добавляется дополнительная константа альфа LayerNorm(alpha * x + f(x))
, которая для энкодеров равна (2N)^(1/4)
.По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Telegram
DL in NLP
Scaling Laws for Neural Machine Translation
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
👍7
Forwarded from Vlad Lialin
Я не высказывался на тему текущей войны, но может быть стоит. Я думаю что то, что происходит - это ужасно, бесчеловечно и не приследует ничьих интересов кроме отдельных людей. За новостями о происходящем надо следить и полезно думать, какие действия каждый из нас может сделать, чтобы хотя бы чуть-чуть помочь остановить это безумие. Однако мне кажется что что сейчас важно иметь места которые позволяют уменьшить количество думскроллинга, которого сейчас явно очень много и поэтому постараюсь вернуться к регулярным постам в DL in NLP.
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
👍124💩13
Advanced Topics in MultiModal Machine Learning
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022
Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.
Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022
Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.
Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
cmu-multicomp-lab.github.io
11-877 AMML
11-877 Advanced Topics in Multimodal Machine Learning - Carnegie Mellon University - Spring 2022
👍13❤3🔥1
Прикладной DL и матан к сожалению (или к счастью) всё ещё очень далеки. Однако так как на физтехе меня научили любить математику, поэтому вот пара интересных и достаточно вводных материалов по matrix convexity, concentration inequalities, KL-divergence и прочим полезным для теоретического DL штукам. Кванторы и красивые анимации прилагаются.
1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition
И пара более специфичных для DL постов из того же блога:
1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition
И пара более специфичных для DL постов из того же блога:
1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
🔥13👍6
Очень прикольный проект который генерирует цветовые палитры с помощью предобученных трансформеров / диффузионных моделей. Непонятно насколько это лучше эвристик, но выглядит интересно.
huemint.com
Вот тут описание их подхода: https://huemint.com/about/
huemint.com
Вот тут описание их подхода: https://huemint.com/about/
🤩6👍4
Forwarded from Стать специалистом по машинному обучению
Я уже как-то писал об учебнике по машинному обучению от Школы Анализа Данных Яндекса. Но тогда в доступе было всего несколько глав. С того времени много чего изменилось и теперь в пособии есть разделы про:
- классические методы обучения с учителем;
- оценку качества моделей;
- основы глубинного обучения.
В учебнике будут и другие главы: про вероятностный подход к ML, обучение представлений и решения сложных задач Data Science, поэтому крайне рекомендую сохранить ссылку, чтобы не пропустить обновления!
- классические методы обучения с учителем;
- оценку качества моделей;
- основы глубинного обучения.
В учебнике будут и другие главы: про вероятностный подход к ML, обучение представлений и решения сложных задач Data Science, поэтому крайне рекомендую сохранить ссылку, чтобы не пропустить обновления!
👍22
Forwarded from AI для Всех
Открываем жанр History porn.
Андрей Карпати из Tesla решил повторить ту самую сетку Яна ЛеКа(у)на из 1989 года и написал об этом пост (🔥), который читается как смесь исторического детектива и стендап для гиков одновременно.
Короткие выводы основанные на путешествии во времени на 33 года назад: Что бы подумал путешественник во времени из 2055 года о производительности современных сетей?
Нейронные сети 2055 года на макроуровне практически не отличаются от нейронных сетей 2022 года, разве что они больше.
Наши сегодняшние наборы данных и модели выглядят как шутка. И то, и другое где-то в 10 000 000 000 раз больше.
Современные модели 2022 года можно обучить за ~1 минуту, обучаясь на своем персональном вычислительном устройстве в качестве развлекательного проекта на выходных.
Наши наборы данных слишком малы, и скромный выигрыш можно получить только за счет расширения набора данных.
🔥Пост
Андрей Карпати из Tesla решил повторить ту самую сетку Яна ЛеКа(у)на из 1989 года и написал об этом пост (🔥), который читается как смесь исторического детектива и стендап для гиков одновременно.
Короткие выводы основанные на путешествии во времени на 33 года назад: Что бы подумал путешественник во времени из 2055 года о производительности современных сетей?
Нейронные сети 2055 года на макроуровне практически не отличаются от нейронных сетей 2022 года, разве что они больше.
Наши сегодняшние наборы данных и модели выглядят как шутка. И то, и другое где-то в 10 000 000 000 раз больше.
Современные модели 2022 года можно обучить за ~1 минуту, обучаясь на своем персональном вычислительном устройстве в качестве развлекательного проекта на выходных.
Наши наборы данных слишком малы, и скромный выигрыш можно получить только за счет расширения набора данных.
🔥Пост
👍41
Making Deep Learning Go Brrrr From First Principles
horace.io/brrr_intro.html
Очень классный пост о том как работают GPU. Начинается с того что если вам не хватает скорости, то скорее всего вы залочены по одному из
1. Compute: Time spent on your GPU computing actual floating point operations (FLOPS)
1. Memory: Time spent transferring tensors within a GPU
1. Overhead: Everything else
Наглядно иллюстрирует почему для DL скорость памяти сейчас важна больше чем скорость самого чипа.
horace.io/brrr_intro.html
Очень классный пост о том как работают GPU. Начинается с того что если вам не хватает скорости, то скорее всего вы залочены по одному из
1. Compute: Time spent on your GPU computing actual floating point operations (FLOPS)
1. Memory: Time spent transferring tensors within a GPU
1. Overhead: Everything else
Наглядно иллюстрирует почему для DL скорость памяти сейчас важна больше чем скорость самого чипа.
👍15