Forwarded from Говорит AI (Artem R)
Результаты:
Для финального сравнения моделей использовали способ ACUTE-Eval. Состоит из двух шагов: шаг 1 - с помощью ассесоров набираем N диалогов между людьми и нашими разными моделями, шаг 2 - даем новым человекам-ассесорам сделать side-by-side сравнение - даем прочитать два диалога с разными чатботами и просим ответить какого чатбота ассесор бы предпочел для дальнейшего общения (см пример на скрине). Такой подход позволяет сравнивать модели просто имея сэмплы диалогов и не имея доступ к самой модели. Именно так и получилось с Meena которые выложили примеры диалогов, но не выложили саму модель.
По итогу самая лучшая модель - BST Generative на 2.7B с бимсерчем = 10 и ограничением минимальной длины ответа в 20 токенов. Удивительно что 9.4B модель проиграла 2.7B модели - на side-by-side сравнении по engagingness 54% проголосовали за 2.7B модель, хотя по perplexity 9.4B получилась лучше. Еще удивительно, что на side-by-side сравнении диалогов их лучшей модели и диалогов человек-человек, по метрике engagingness они сматчились с человеческими. Недалек тот день, когда можно будет выбросить всех друзей и увлекательно общаться только с чатботами
В заключении провели анализ ошибок модели, типичные факапы:
- противоречие и забывчивость. Модель в диалоге может противоречить сама себе или повторяться про те вещи, про которые говорила несколько шагов назад.
- выдумывание фактов. Модель может придумать и сгенерировать несуществующие факты о реальном мире, отсутствует понимание причино-следственных связей.
- чрезмерное использование частотных коллокаций. Намного чаще чем люди употребляет безопасные и частотные фразы как “do you like”, “lot of fun”, “have any hobbies”, etc
Для финального сравнения моделей использовали способ ACUTE-Eval. Состоит из двух шагов: шаг 1 - с помощью ассесоров набираем N диалогов между людьми и нашими разными моделями, шаг 2 - даем новым человекам-ассесорам сделать side-by-side сравнение - даем прочитать два диалога с разными чатботами и просим ответить какого чатбота ассесор бы предпочел для дальнейшего общения (см пример на скрине). Такой подход позволяет сравнивать модели просто имея сэмплы диалогов и не имея доступ к самой модели. Именно так и получилось с Meena которые выложили примеры диалогов, но не выложили саму модель.
По итогу самая лучшая модель - BST Generative на 2.7B с бимсерчем = 10 и ограничением минимальной длины ответа в 20 токенов. Удивительно что 9.4B модель проиграла 2.7B модели - на side-by-side сравнении по engagingness 54% проголосовали за 2.7B модель, хотя по perplexity 9.4B получилась лучше. Еще удивительно, что на side-by-side сравнении диалогов их лучшей модели и диалогов человек-человек, по метрике engagingness они сматчились с человеческими. Недалек тот день, когда можно будет выбросить всех друзей и увлекательно общаться только с чатботами
В заключении провели анализ ошибок модели, типичные факапы:
- противоречие и забывчивость. Модель в диалоге может противоречить сама себе или повторяться про те вещи, про которые говорила несколько шагов назад.
- выдумывание фактов. Модель может придумать и сгенерировать несуществующие факты о реальном мире, отсутствует понимание причино-следственных связей.
- чрезмерное использование частотных коллокаций. Намного чаще чем люди употребляет безопасные и частотные фразы как “do you like”, “lot of fun”, “have any hobbies”, etc
ICLR 2020: Yann LeCun and Energy-Based Models
Обсуждеение видео лекции ЛеКуна о energy-based models, вариационных автокодировщиках, других странных штуках и о его видении ближайшего будущего DL.
BART version of closed-book QA
Репозиторий для end-to-end ответов на вопросы без использования какой-нибудь БД с текстами, вся инфа берётся из весов модельки. Релевантная статья: How Much Knowledge Can You Pack Into the Parameters of a Language Model?
Mapping Natural Language Instructions to Mobile UI Action Sequences
Давно не видел статеек, где придумывали бы какую-нибудь новую странную задачку. Lie et al. [Google] решили, что вместо использования (очень ограниченного) API для Google Assistant можно попытаться его напрямую обучить выполнять ±произвольные команды с вашим телефоном (звучит зловеще). Вообще идея интересная, если когда-нибудь получится завести это дело, то у Google Assistant и Siri будет очень хороший шанс выбраться из болота установки таймеров и прогнозов погоды.
Обсуждеение видео лекции ЛеКуна о energy-based models, вариационных автокодировщиках, других странных штуках и о его видении ближайшего будущего DL.
BART version of closed-book QA
Репозиторий для end-to-end ответов на вопросы без использования какой-нибудь БД с текстами, вся инфа берётся из весов модельки. Релевантная статья: How Much Knowledge Can You Pack Into the Parameters of a Language Model?
Mapping Natural Language Instructions to Mobile UI Action Sequences
Давно не видел статеек, где придумывали бы какую-нибудь новую странную задачку. Lie et al. [Google] решили, что вместо использования (очень ограниченного) API для Google Assistant можно попытаться его напрямую обучить выполнять ±произвольные команды с вашим телефоном (звучит зловеще). Вообще идея интересная, если когда-нибудь получится завести это дело, то у Google Assistant и Siri будет очень хороший шанс выбраться из болота установки таймеров и прогнозов погоды.
YouTube
ICLR 2020: Yann LeCun and Energy-Based Models
This week Connor Shorten, Yannic Kilcher and Tim Scarfe reacted to Yann LeCun's keynote speech at this year's ICLR conference which just passed. ICLR is the number two ML conference and was completely open this year, with all the sessions publicly accessible…
С просторов ODS (спасибо человеку с ником Saddler)
100+ курсов на Coursera полностью бесплатно (с сертификатом).
Из того, что мне понравилось:
1. Google Cloud Platform Fundamentals for AWS Professionals
1. Analysis of Algorithms
1. Algorithms, Part II
1. Tricky American English Pronunciation
100+ курсов на Coursera полностью бесплатно (с сертификатом).
Из того, что мне понравилось:
1. Google Cloud Platform Fundamentals for AWS Professionals
1. Analysis of Algorithms
1. Algorithms, Part II
1. Tricky American English Pronunciation
Online Courses Galore
100+ Coursera Certificate Courses Free Until 31st December - View the list
List of 100+ Free Coursera certificate courses, learn new skills from top Universities, Colleges, Organizations. Credit card not required
Кстати ещё хочу к этому списку добавить Data Science Math Skills
Релевантно для тех, у кого не было профильной математики в универе. На удивление для себя недавно обнаружил, что не всем легче читать LSTM как 4 формулы, чем как странную картинку.
Релевантно для тех, у кого не было профильной математики в универе. На удивление для себя недавно обнаружил, что не всем легче читать LSTM как 4 формулы, чем как странную картинку.
Coursera
Data Science Math Skills
Offered by Duke University. Data science courses contain ... Enroll for free.
Тут в чате опять годнота (спасибо @someotherusername)
Узнал про себя, что я советская пропаганда 😂
По аналогии с thispersondoesnotexist
https://www.thisworddoesnotexist.com
Узнал про себя, что я советская пропаганда 😂
По аналогии с thispersondoesnotexist
https://www.thisworddoesnotexist.com
Thisworddoesnotexist
This Word Does Not Exist
We use artificial intelligence to make up new English words.
Forwarded from Zavtracast (Max Zareckiy)
Nvidia анонсировала архитектуру Ampere и новое решение на её базе, ускоритель Ampere A100. Если вы ждали игровые видеокарты, то их Nvidia показывать не стала. И даже не факт, что условные 3080 будут базироваться на Ampere. В 2017-м году Nvidia таким же образом выпустила ускорители на базе Volta. У них не было потребительских версий.
Итак, A100 на базе Ampere — это решение для суперкомпьютеров и дата-центров, с особым упором на машинное обучение и ИИ. Чип карты огромен (826 кв. мм.), а на плате напаяно 54 миллиарда транзисторов (18.6 миллиардов у 2080 Ti). Карта выполнена по 7нм техпроцессу. Nvidia говорит, что A100 мощнее Tesla V100 в 20 раз в ряде задач, особенно в обучении ИИ.
Купить A100 отдельно нельзя. Ускоритель поставляется в комплекте с суперкомпьютером DGX A100 на базе процессоров AMD Epyc. Стоимость такой машины - 200 тысяч долларов. Любопытно, что Nvidia отказалась от дальнейшего сотрудничества с Intel на рынке CPU.
https://www.engadget.com/nvidia-ampere-a100-gpu-specs-analysis-upscaled-130049114.html
Итак, A100 на базе Ampere — это решение для суперкомпьютеров и дата-центров, с особым упором на машинное обучение и ИИ. Чип карты огромен (826 кв. мм.), а на плате напаяно 54 миллиарда транзисторов (18.6 миллиардов у 2080 Ti). Карта выполнена по 7нм техпроцессу. Nvidia говорит, что A100 мощнее Tesla V100 в 20 раз в ряде задач, особенно в обучении ИИ.
Купить A100 отдельно нельзя. Ускоритель поставляется в комплекте с суперкомпьютером DGX A100 на базе процессоров AMD Epyc. Стоимость такой машины - 200 тысяч долларов. Любопытно, что Nvidia отказалась от дальнейшего сотрудничества с Intel на рынке CPU.
https://www.engadget.com/nvidia-ampere-a100-gpu-specs-analysis-upscaled-130049114.html
Engadget
NVIDIA's massive A100 GPU isn't for you
In this mini-episode of our explainer show, Upscaled, we break down NVIDIA's latest GPU, the A100, and its new graphics architecture Ampere. Announced at the company's long-delayed GTC conference, the A100 isn't intended for gamers, or even for workstation…
🤗 релизит более тысячи моделей машинного перевода (140 языков)
twitter.com/huggingface/status/1260942644286537728
Доступность бесплатных моделек на кучу языков, которые вы ещё и можете в 5 строчек запустить у себя может повлиять на много задачек. Например аугментация через перевод может стать более распространена.
Натренировано это множество с помощью Marian - плюсового фреймворка для перевода
twitter.com/huggingface/status/1260942644286537728
Доступность бесплатных моделек на кучу языков, которые вы ещё и можете в 5 строчек запустить у себя может повлиять на много задачек. Например аугментация через перевод может стать более распространена.
Натренировано это множество с помощью Marian - плюсового фреймворка для перевода
Twitter
Hugging Face
Let’s democratize NLP for all languages! 🌎🌎🌎 Today, with v2.9.1, we are releasing 1,008 machine translation models, covering ` of 140 different languages trained by @jorgtiedemann with @marian, ported by @sam_shleifer. Find your language here: https://t.co/9EMtfopij3…
🤗 зарелизил nlp (не самое удачное название)
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.
Работает примерно так:
твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.
Работает примерно так:
xquad_dataset = nlp.load_dataset('xquad', split='validation[:10%]')
xquad_metric = nlp.load_metric('xquad')
твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,
Twitter
Thomas Wolf
Surviving every AI wave, two kernels have consistently been the beating hearts of Natural Language Processing: Datasets and Metrics Today we release "nlp", a library to easily share & load data/metrics already providing access to 99+ datasets! Try it👉 ht…
Что мы знаем про Transformer в 2020 году
Редкий случай в этом канале - доклад на русском языке.
Разбор Sparse Attention, Adaptive Spans и Reformer.
Мемы в наличии.
Спасибо @sokolov_yas за ссылочку
Редкий случай в этом канале - доклад на русском языке.
Разбор Sparse Attention, Adaptive Spans и Reformer.
Мемы в наличии.
Спасибо @sokolov_yas за ссылочку
YouTube
Что мы знаем про Transformer в 2020 году / Даниил Гаврилов
VK Lab Talks. 11 марта 2020. ФПМИ, Долгопрудный.
Даниил Гаврилов, разработчик ВКонтакте из Команды исследований, решает множество задач, где для достижения хороших результатов приходится использовать архитектуру Transformer. Однако уже давно ему перестало…
Даниил Гаврилов, разработчик ВКонтакте из Команды исследований, решает множество задач, где для достижения хороших результатов приходится использовать архитектуру Transformer. Однако уже давно ему перестало…
DeepMind постит у себя в твитере рекомендации от их рисёчеров на почитать
Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.
Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.
Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.
Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.
Twitter
DeepMind
Looking for a few more favourite resources from the team? Today’s #AtHomeWithAI picks are from software engineer Julian Schrittwieser (@Mononofu), one of the team behind #AlphaZero!(1/6)
Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
🤗 + ONNX = ❤️
🤗 + ONNX = ❤️
You can now use ONNX Runtime and Hugging Face Transformers together to improve the experience of training and deploying NLP models.
Medium
Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
This post was written by Morgan Funtowicz from Hugging Face and Tianlei Wu from Microsoft
Интересные штуки
1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research
Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру
1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research
Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру
Twitter
Victor Sanh
Excited to share our latest work on extreme pruning in the context of transfer learning 🧀 95% of the original perf with only ~5% of remaining weights in the encoder💪 Paper: https://t.co/3V7gkQQmeL With amazing collaborators @Thom_Wolf & @srush_nlp at @huggingface…
Forwarded from Ivan Shishov
На Datacamp’е (datacamp.com) ещё 10 часов открыта регистрация на бесплатную неделю (есть несколько курсов по NLP, но формат - добавь несколько строчек кода - тут не очень работает, на мой взгляд, зато очень много других вкусняшек)
Тут в дружественном канале довольно подробно описали соврменные неавторегрессионные модели. Советуем к прочтению.