DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

Forwarded from addmeto (Grigory Bakunov)

А вот и первая нормальная подача в суд на GitHub Copilot. Фирма не особенно известная, Joseph Saveri, и если вы изучите дело чуть глубже, вы поймете, что это чисто юридический нонсенс, надеюсь, они в суде предъявят больше доказательств своей правоты. Самое смешное, кажется, на странице 18, там показывается вот такой кусок кода, созданного Copilot:

function isEven(n) {
    return n % 2 === 0;
}

и уточняется, что этот кусок совершенно точно “основан на существующем коде. А именно, пример кода, который фигурирует в онлайн-книге Mastering JS, написанной Валерием Карповым”. Любой программист вам скажет, что это просто смехотворный пример, как утверждать, что слово “смехотворный” я списал из словаря. Так что дело они, конечно, проиграют, но хайп свой уже поймали.

https://githubcopilotlitigation.com/

Githubcopilotlitigation

GitHub Copilot litigation · Joseph Saveri Law Firm & Matthew Butterick

😁29🤡9👍6🥴2🤮1

3.26K viewsVlad Lialin, 01:28

"Broken" neural scaling laws
Caballero et al.
arxiv.org/abs/2210.14891

Давно не видел такого кликбейтного заголовка (скобочки добавил я, чтобы снизить ожидания). В статье Scaling Laws for Neural Language Models показали довольно строгую powerlaw-зависимость между размером нейросети и тестовым лоссом. Это сказало две вещи: 1) увеличение сети (при соответственном увеличении данных) это всегда хорошо (для LM) 2) насколько оно становится лучше, можно предсказать простой формулой loss = (n/N)^a, где n - число параметров сети, N=8.8 10^13, a=0.076.

Этот подход несколько раз улучшали, обобщали на другие задачи и архитектуры, но была проблема что хоть метод и точен для языкового моделирования, на downstream-задачах (например, классификации) он не работает. Более того зачастую зависимость между размером сети и качеством классификации немонотонна (иногда увеличение сети делает её хуже).

В статье broken scaling laws предлагают использовать не обычный powerlaw, а кусочную (отсюда — broken) функцию которая является powerlaw на отрезках. Это позвляет более точно фитить текущие данные о соотношении метрики и размера сети, но собственно вопрос в том а зачем это вообще надо? Ведь если функция кусочная, про экстраполяцию особенно не поговоришь, тк вдруг зависимость снова изменится.

В broken power law говорят что обычно после 1-2 разрывов немонотонное поведение прекращается и что с помощью предложенной формы powerlaw на практике можно более точно экстраполировать изменение метрик чем обычным (n/N)^a. Применили подход к ImageNet, BigBench, NMT, и некоторым играм AlphaZero.

То есть scaling laws не сломали, но зато у нас теперь есть ещё одна тулза, которая применима не только к LM, но и к другим задачам.

👍14👏2

3.65K viewsVlad Lialin, 15:29

Одной строкой #13

1. Training Transformers — очень классный разбор того что важно в тренировке трансформеров от lr warmup и PreNorm до хитрых способов инициализации
1. DALL·E API Available in Public Beta — можно запрашивать как просто генерацию, так и editing, и вариации. Наверное через editing можно замутить и outpainting. Цена вопроса $0.02 за изображение 1024x1024
1. Midjourney V4 — новые картинки выглядят прямо на порядок лучше и детальнее. Ждём новых новостей того как Midjorney выигрывает art competitions?
1. LangChain — простая тулза которая запихает за вас длинные тексты в модельку. Работает так: нарезка на чатки, суммарицазия чанков, запихать все саммари в сетку.
1. Короткий рассказ о том как автоматизировали clapper detection с помощью диплёрнинга
1. Key to successful projects in Deep Learning are fast turnaround times of experiments. Тред о том как ускорять ваши эксперименты и за чем следить. Говорит про многие стандартные ошибки, буду всем студентам скидывать.
1. XONSH — a Python-powered shell. Сейчас ищу альтернативу zsh/fish и xonish выглядит забавно.

Промпт к картинке: Yann LeCun fighting thinking machines, Dune 2021. Midjorney v4

👍37

3.91K viewsVlad Lialin, 20:33

To recommend or not to recommend?

Бесплатный урок по основам рекомендательных систем от OTUS для тех кто уже знает ML и хочет погрузиться в recsys. На нём разберут несколько подходов к построению рекомендательных систем, как и почему они работают. Вы также реализуете одну из этих систем своими руками 🔥

Вебинар пройдет 16 ноября в 18:00 в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Это шанс протестировать формат обучения и познакомиться с Марией Тихоновой, руководителем курсов по ML в OTUS и специалистом по анализу данных в команде AGI NLP в Сбере.

🔖промокод BLACKFRIDAY22 скидка -20% на курс до 30.11.2022

👉Регистрация: https://otus.pw/HsiZ/

#промо

🤮16💩3👎2👍1😁1

3.33K viewsVlad Lialin, edited 08:56

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
BigScience
arxiv.org/abs/2211.05100

Мы уже много говорили про BigScience и BLOOM и вот наконец-то вышла статья со всеми деталями включая особенности архитектуры, тренировки и то как модель эвалюировали.

Интересно насколько сильно мир больших моделей изменился за последний год. Если после релиза T0 я совершенно не знал как запихать 11B для инференса в 4 V100, сейчас совершенно без проблем инферить 30B (в int8) всего с двумя 3090, а 11B помещается и в одну. И мне кажется BigScience оказал огромное косвенное влияние на развитие как коммьюнити тренирующего большие модели, так и тулз вокруг них: DeepSpeed, Accelerate, Megatron, bitsandbytes, ...

Но давайте про интересные моменты:
1. ROOTS (статья) — корпус на 1.6Tb текста на котором тренировали модель он разбит на датасеты по языкам и доменам и доступен на 🤗 Datasets
1. Архитектура (статья) — Decoder-only transformer, ALiBi positional embeddings, embedding LayerNorm. Нормализация эмбеддингов сильно помогает стабильности тренировки (в fp16). Токенизация делалась с помощью BPE и словать оптимизировали под fertility токенизатора для всех языков.
1. Тренировка: bfloat16 (сильно улучшает стабильность), 3D parallelism, cosine scheduler, lr=6e-5, beta2=0.95, batch size=2048.
1. Environment impact (статья) — тренировка GPT-3 выработала порядка 500 тонн CO2, тренировка BLOOM — 25. Это стало возможно благодаря более современным GPU, эффективным методам параллелизации и, самое главное, атомной электростанции которая питает суперкомьютер Jean Zay.

В общем статья BLOOM неплохо суммаризирует результаты BigScience и на удивление не очень большая (42 страницы). Рекомендую пройтись по ней и почитать те главы что вам интересны.

С моделькой можно поиграться в Spaces или запустить её локально. Веса модели в fp32 (?) занимают 360Гб. Вот тут гайд по использованию int8 в трансформерах. С ними вы можете запустить модель хоть на картошке, но если у вас меньше 300Гб GPU RAM будет считаться довольно медленно.

👍10🔥2

4.03K viewsVlad Lialin, edited 17:52

Кстати если вы всё ещё не перешли на Python 3.10 (или даже 3.11) оно того очень стоит. Главная причина — новые красивые и более удобочитаемые сообщения об ошибке.

💯76

3.73K viewsVlad Lialin, 19:57

Тинькофф проведет NLP-митап в Москве 🦾

Встречу AI-команда Тинькофф проведет вместе с VK.

— Эксперт VK расскажет о нестандартном способе получения эмбеддингов текстовых последовательностей.

— А исследователи из Тинькофф поделятся собственным методом эффективного файнтюнинга моделей и объяснят, как можно линейно интерполировать их веса.
Ждут всех, кто интересуется обработкой текстов или сопереживает ей.

Митап пройдет 22 ноября в БЦ «Водный». Зарегистрироваться и прочитать о докладах подробнее: https://o.tinkoff.ru/monolog-ai.tinkoff

#промо

👍40💩16❤1😁1

4.53K viewsVlad Lialin, 08:58

Мою статью с амазоновской стажировки приняли на воркшоп 🎉🎉🎉

Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.

Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️

🔥151🎉40👍9💩3🤩2⚡1🐳1

4.54K viewsVlad Lialin, 16:35

The State of Multilingual AI
ruder.io/state-of-multilingual-ai

В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?

Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.

Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.

Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.

Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.

👍30

5.21K viewsVlad Lialin, 16:19

Forwarded from эйай ньюз

Временами страдаете от NaN во время обучения сеточек? А все потому что вы не любите свои тензоры.

Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍

Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.

@ai_newz

🐳33🔥8🤔4

3.77K viewsVlad Lialin, 15:01

На этой неделе в Новом Орлеане проходит NeurIPS 2022, пожалуй самая большая конференция в диплернинге. И мне даже удалось на неё поехать. 🎉

Если вы тоже на NeurIPS - пишите и буду рад встретиться. Если нет - все мои впечатления и интересные штуки будут в канале.

🔥77👍8❤7👎1🎉1

3.48K viewsVlad Lialin, 16:14

text-davinci-003

Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.

Цена та же что и у 002, так что нет причин не использовать.

👍13

3.69K viewsVlad Lialin, 23:51

Первый день NeurIPS 2022

День expo и прочих не очень важных вещей, но вот что было классного

1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.

На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска

1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅

Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим

👍76🔥27😁4🤡3

8.12K viewsVlad Lialin, 17:36

Яндекс назвал лауреатов своей ежегодной научной премии

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;

•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;

•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;

•Тарас Хахулин — работает в области компьютерного зрения.

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.

Подробнее о премии и лауреатах 2022 года — на сайте.

#промо

Yandex ML Prize

Премия Яндекса для учёных и преподавателей в области Machine Learning

👍30🔥23💩3👏2🤮2👎1

3.28K viewsVlad Lialin, 09:59

NeurIPS 2022 день 2 (часть 1)

В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:

1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution

И это далеко не все интересные статьи, но завтра будет ещё больше 😅

🔥31👍5

3.5K viewsVlad Lialin, 22:59

NeurIPS 2022 день 2 (часть 2)

Все интересные статьи не поместились в один пост, поэтому добавляем

1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал

🔥19👍7❤1

3.61K viewsVlad Lialin, 23:11

Forwarded from эйай ньюз

OpenAI сегодня выкатили мощного чат-бота ChatGPT

В отличие от GPT-3, ChatGPT – это модель которая специально тренирована вести интерактивный диалог и сохранять канву разговора.

Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.

Для обучения ресерчеров взяли GPT-3.5 и зафайнтюнили ее для ведения диалога с помощью алгоритм Reinforcement Learning from Human Feedback алгоритма.

На картинках можете увидеть несколько примеров диалогов.

Подробности и больше примеров в блогпосте.

Поговорить с этим ботом можно тут. Но прямо сейчас там переполнены сервера.

@ai_newz

🔥20

2.48K viewsVlad Lialin, 15:50