DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Forwarded from AI для Всех
Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код
🔥56😱5👍3😁2
Forwarded from addmeto (Grigory Bakunov)
А вот и первая нормальная подача в суд на GitHub Copilot. Фирма не особенно известная, Joseph Saveri, и если вы изучите дело чуть глубже, вы поймете, что это чисто юридический нонсенс, надеюсь, они в суде предъявят больше доказательств своей правоты. Самое смешное, кажется, на странице 18, там показывается вот такой кусок кода, созданного Copilot:


function isEven(n) {
return n % 2 === 0;
}


и уточняется, что этот кусок совершенно точно “основан на существующем коде. А именно, пример кода, который фигурирует в онлайн-книге Mastering JS, написанной Валерием Карповым”. Любой программист вам скажет, что это просто смехотворный пример, как утверждать, что слово “смехотворный” я списал из словаря. Так что дело они, конечно, проиграют, но хайп свой уже поймали.

https://githubcopilotlitigation.com/
😁29🤡9👍6🥴2🤮1
"Broken" neural scaling laws
Caballero et al.
arxiv.org/abs/2210.14891

Давно не видел такого кликбейтного заголовка (скобочки добавил я, чтобы снизить ожидания). В статье Scaling Laws for Neural Language Models показали довольно строгую powerlaw-зависимость между размером нейросети и тестовым лоссом. Это сказало две вещи: 1) увеличение сети (при соответственном увеличении данных) это всегда хорошо (для LM) 2) насколько оно становится лучше, можно предсказать простой формулой loss = (n/N)^a, где n - число параметров сети, N=8.8 10^13, a=0.076.

Этот подход несколько раз улучшали, обобщали на другие задачи и архитектуры, но была проблема что хоть метод и точен для языкового моделирования, на downstream-задачах (например, классификации) он не работает. Более того зачастую зависимость между размером сети и качеством классификации немонотонна (иногда увеличение сети делает её хуже).

В статье broken scaling laws предлагают использовать не обычный powerlaw, а кусочную (отсюда — broken) функцию которая является powerlaw на отрезках. Это позвляет более точно фитить текущие данные о соотношении метрики и размера сети, но собственно вопрос в том а зачем это вообще надо? Ведь если функция кусочная, про экстраполяцию особенно не поговоришь, тк вдруг зависимость снова изменится.

В broken power law говорят что обычно после 1-2 разрывов немонотонное поведение прекращается и что с помощью предложенной формы powerlaw на практике можно более точно экстраполировать изменение метрик чем обычным (n/N)^a. Применили подход к ImageNet, BigBench, NMT, и некоторым играм AlphaZero.

То есть scaling laws не сломали, но зато у нас теперь есть ещё одна тулза, которая применима не только к LM, но и к другим задачам.
👍14👏2
Одной строкой #13

1. Training Transformers — очень классный разбор того что важно в тренировке трансформеров от lr warmup и PreNorm до хитрых способов инициализации
1. DALL·E API Available in Public Beta — можно запрашивать как просто генерацию, так и editing, и вариации. Наверное через editing можно замутить и outpainting. Цена вопроса $0.02 за изображение 1024x1024
1. Midjourney V4 — новые картинки выглядят прямо на порядок лучше и детальнее. Ждём новых новостей того как Midjorney выигрывает art competitions?
1. LangChain — простая тулза которая запихает за вас длинные тексты в модельку. Работает так: нарезка на чатки, суммарицазия чанков, запихать все саммари в сетку.
1. Короткий рассказ о том как автоматизировали clapper detection с помощью диплёрнинга
1. Key to successful projects in Deep Learning are fast turnaround times of experiments. Тред о том как ускорять ваши эксперименты и за чем следить. Говорит про многие стандартные ошибки, буду всем студентам скидывать.
1. XONSH — a Python-powered shell. Сейчас ищу альтернативу zsh/fish и xonish выглядит забавно.

Промпт к картинке: Yann LeCun fighting thinking machines, Dune 2021. Midjorney v4
👍37
To recommend or not to recommend?

Бесплатный урок по основам рекомендательных систем от OTUS для тех кто уже знает ML и хочет погрузиться в recsys. На нём разберут несколько подходов к построению рекомендательных систем, как и почему они работают. Вы также реализуете одну из этих систем своими руками 🔥

Вебинар пройдет 16 ноября в 18:00 в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Это шанс протестировать формат обучения и познакомиться с Марией Тихоновой, руководителем курсов по ML в OTUS и специалистом по анализу данных в команде AGI NLP в Сбере.

🔖промокод BLACKFRIDAY22 скидка -20% на курс до 30.11.2022

👉Регистрация: https://otus.pw/HsiZ/

#промо
🤮16💩3👎2👍1😁1
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
BigScience
arxiv.org/abs/2211.05100

Мы уже много говорили про BigScience и BLOOM и вот наконец-то вышла статья со всеми деталями включая особенности архитектуры, тренировки и то как модель эвалюировали.

Интересно насколько сильно мир больших моделей изменился за последний год. Если после релиза T0 я совершенно не знал как запихать 11B для инференса в 4 V100, сейчас совершенно без проблем инферить 30B (в int8) всего с двумя 3090, а 11B помещается и в одну. И мне кажется BigScience оказал огромное косвенное влияние на развитие как коммьюнити тренирующего большие модели, так и тулз вокруг них: DeepSpeed, Accelerate, Megatron, bitsandbytes, ...

Но давайте про интересные моменты:
1. ROOTS (статья) — корпус на 1.6Tb текста на котором тренировали модель он разбит на датасеты по языкам и доменам и доступен на 🤗 Datasets
1. Архитектура (статья) — Decoder-only transformer, ALiBi positional embeddings, embedding LayerNorm. Нормализация эмбеддингов сильно помогает стабильности тренировки (в fp16). Токенизация делалась с помощью BPE и словать оптимизировали под fertility токенизатора для всех языков.
1. Тренировка: bfloat16 (сильно улучшает стабильность), 3D parallelism, cosine scheduler, lr=6e-5, beta2=0.95, batch size=2048.
1. Environment impact (статья) — тренировка GPT-3 выработала порядка 500 тонн CO2, тренировка BLOOM — 25. Это стало возможно благодаря более современным GPU, эффективным методам параллелизации и, самое главное, атомной электростанции которая питает суперкомьютер Jean Zay.

В общем статья BLOOM неплохо суммаризирует результаты BigScience и на удивление не очень большая (42 страницы). Рекомендую пройтись по ней и почитать те главы что вам интересны.

С моделькой можно поиграться в Spaces или запустить её локально. Веса модели в fp32 (?) занимают 360Гб. Вот тут гайд по использованию int8 в трансформерах. С ними вы можете запустить модель хоть на картошке, но если у вас меньше 300Гб GPU RAM будет считаться довольно медленно.
👍10🔥2
Кстати если вы всё ещё не перешли на Python 3.10 (или даже 3.11) оно того очень стоит. Главная причина — новые красивые и более удобочитаемые сообщения об ошибке.
💯76
Тинькофф проведет NLP-митап в Москве 🦾

Встречу AI-команда Тинькофф проведет вместе с VK.

— Эксперт VK расскажет о нестандартном способе получения эмбеддингов текстовых последовательностей.

— А исследователи из Тинькофф поделятся собственным методом эффективного файнтюнинга моделей и объяснят, как можно линейно интерполировать их веса.
Ждут всех, кто интересуется обработкой текстов или сопереживает ей.

Митап пройдет 22 ноября в БЦ «Водный». Зарегистрироваться и прочитать о докладах подробнее: https://o.tinkoff.ru/monolog-ai.tinkoff

#промо
👍40💩161😁1
Мою статью с амазоновской стажировки приняли на воркшоп 🎉🎉🎉

Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.

Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️
🔥151🎉40👍9💩3🤩21🐳1
The State of Multilingual AI
ruder.io/state-of-multilingual-ai

В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?

Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.

Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.

Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.

Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.
👍30
Forwarded from эйай ньюз
Временами страдаете от NaN во время обучения сеточек? А все потому что вы не любите свои тензоры.

Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍

Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.

@ai_newz
🐳33🔥8🤔4
На этой неделе в Новом Орлеане проходит NeurIPS 2022, пожалуй самая большая конференция в диплернинге. И мне даже удалось на неё поехать. 🎉

Если вы тоже на NeurIPS - пишите и буду рад встретиться. Если нет - все мои впечатления и интересные штуки будут в канале.
🔥77👍87👎1🎉1
text-davinci-003

Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.

Цена та же что и у 002, так что нет причин не использовать.
👍13
Первый день NeurIPS 2022

День expo и прочих не очень важных вещей, но вот что было классного

1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.

На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска

1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅

Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
👍76🔥27😁4🤡3
Яндекс назвал лауреатов своей ежегодной научной премии

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;

Тарас Хахулин — работает в области компьютерного зрения.

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.

Подробнее о премии и лауреатах 2022 года — на сайте.

#промо
👍30🔥23💩3👏2🤮2👎1
NeurIPS 2022 день 2 (часть 1)

В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:

1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution

И это далеко не все интересные статьи, но завтра будет ещё больше 😅
🔥31👍5
NeurIPS 2022 день 2 (часть 2)

Все интересные статьи не поместились в один пост, поэтому добавляем

1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал
🔥19👍71