DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Howto
github.com/Guitaricet/howto

Я тут за выходные сделал небольшой пет-проект: баш команду которая может писать за вас баш-команды с помощью Codex. Потому что хватит пытаться запомнить все команды конды, tar, awk и прочюю дичь.

Теперь если вы хотите установить новый кернел для юпитера или найти все файлы больше 100Mb, не надо идти в гугл. Можно просто вести в терминал

howto add kernel to jupyter

и получить нужную команду.

Вся тулза очень простая: это просто промпт для Codex, где вы просите дать баш команду для вашего текста. Работает на удивление хорошо. На данный момент для того чтобы работало надо чтобы у вас был аккаунт на OpenAI.
👍76🔥39😱4🏆1
Forwarded from AI для Всех
Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код
🔥56😱5👍3😁2
Forwarded from addmeto (Grigory Bakunov)
А вот и первая нормальная подача в суд на GitHub Copilot. Фирма не особенно известная, Joseph Saveri, и если вы изучите дело чуть глубже, вы поймете, что это чисто юридический нонсенс, надеюсь, они в суде предъявят больше доказательств своей правоты. Самое смешное, кажется, на странице 18, там показывается вот такой кусок кода, созданного Copilot:


function isEven(n) {
return n % 2 === 0;
}


и уточняется, что этот кусок совершенно точно “основан на существующем коде. А именно, пример кода, который фигурирует в онлайн-книге Mastering JS, написанной Валерием Карповым”. Любой программист вам скажет, что это просто смехотворный пример, как утверждать, что слово “смехотворный” я списал из словаря. Так что дело они, конечно, проиграют, но хайп свой уже поймали.

https://githubcopilotlitigation.com/
😁29🤡9👍6🥴2🤮1
"Broken" neural scaling laws
Caballero et al.
arxiv.org/abs/2210.14891

Давно не видел такого кликбейтного заголовка (скобочки добавил я, чтобы снизить ожидания). В статье Scaling Laws for Neural Language Models показали довольно строгую powerlaw-зависимость между размером нейросети и тестовым лоссом. Это сказало две вещи: 1) увеличение сети (при соответственном увеличении данных) это всегда хорошо (для LM) 2) насколько оно становится лучше, можно предсказать простой формулой loss = (n/N)^a, где n - число параметров сети, N=8.8 10^13, a=0.076.

Этот подход несколько раз улучшали, обобщали на другие задачи и архитектуры, но была проблема что хоть метод и точен для языкового моделирования, на downstream-задачах (например, классификации) он не работает. Более того зачастую зависимость между размером сети и качеством классификации немонотонна (иногда увеличение сети делает её хуже).

В статье broken scaling laws предлагают использовать не обычный powerlaw, а кусочную (отсюда — broken) функцию которая является powerlaw на отрезках. Это позвляет более точно фитить текущие данные о соотношении метрики и размера сети, но собственно вопрос в том а зачем это вообще надо? Ведь если функция кусочная, про экстраполяцию особенно не поговоришь, тк вдруг зависимость снова изменится.

В broken power law говорят что обычно после 1-2 разрывов немонотонное поведение прекращается и что с помощью предложенной формы powerlaw на практике можно более точно экстраполировать изменение метрик чем обычным (n/N)^a. Применили подход к ImageNet, BigBench, NMT, и некоторым играм AlphaZero.

То есть scaling laws не сломали, но зато у нас теперь есть ещё одна тулза, которая применима не только к LM, но и к другим задачам.
👍14👏2
Одной строкой #13

1. Training Transformers — очень классный разбор того что важно в тренировке трансформеров от lr warmup и PreNorm до хитрых способов инициализации
1. DALL·E API Available in Public Beta — можно запрашивать как просто генерацию, так и editing, и вариации. Наверное через editing можно замутить и outpainting. Цена вопроса $0.02 за изображение 1024x1024
1. Midjourney V4 — новые картинки выглядят прямо на порядок лучше и детальнее. Ждём новых новостей того как Midjorney выигрывает art competitions?
1. LangChain — простая тулза которая запихает за вас длинные тексты в модельку. Работает так: нарезка на чатки, суммарицазия чанков, запихать все саммари в сетку.
1. Короткий рассказ о том как автоматизировали clapper detection с помощью диплёрнинга
1. Key to successful projects in Deep Learning are fast turnaround times of experiments. Тред о том как ускорять ваши эксперименты и за чем следить. Говорит про многие стандартные ошибки, буду всем студентам скидывать.
1. XONSH — a Python-powered shell. Сейчас ищу альтернативу zsh/fish и xonish выглядит забавно.

Промпт к картинке: Yann LeCun fighting thinking machines, Dune 2021. Midjorney v4
👍37
To recommend or not to recommend?

Бесплатный урок по основам рекомендательных систем от OTUS для тех кто уже знает ML и хочет погрузиться в recsys. На нём разберут несколько подходов к построению рекомендательных систем, как и почему они работают. Вы также реализуете одну из этих систем своими руками 🔥

Вебинар пройдет 16 ноября в 18:00 в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Это шанс протестировать формат обучения и познакомиться с Марией Тихоновой, руководителем курсов по ML в OTUS и специалистом по анализу данных в команде AGI NLP в Сбере.

🔖промокод BLACKFRIDAY22 скидка -20% на курс до 30.11.2022

👉Регистрация: https://otus.pw/HsiZ/

#промо
🤮16💩3👎2👍1😁1
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
BigScience
arxiv.org/abs/2211.05100

Мы уже много говорили про BigScience и BLOOM и вот наконец-то вышла статья со всеми деталями включая особенности архитектуры, тренировки и то как модель эвалюировали.

Интересно насколько сильно мир больших моделей изменился за последний год. Если после релиза T0 я совершенно не знал как запихать 11B для инференса в 4 V100, сейчас совершенно без проблем инферить 30B (в int8) всего с двумя 3090, а 11B помещается и в одну. И мне кажется BigScience оказал огромное косвенное влияние на развитие как коммьюнити тренирующего большие модели, так и тулз вокруг них: DeepSpeed, Accelerate, Megatron, bitsandbytes, ...

Но давайте про интересные моменты:
1. ROOTS (статья) — корпус на 1.6Tb текста на котором тренировали модель он разбит на датасеты по языкам и доменам и доступен на 🤗 Datasets
1. Архитектура (статья) — Decoder-only transformer, ALiBi positional embeddings, embedding LayerNorm. Нормализация эмбеддингов сильно помогает стабильности тренировки (в fp16). Токенизация делалась с помощью BPE и словать оптимизировали под fertility токенизатора для всех языков.
1. Тренировка: bfloat16 (сильно улучшает стабильность), 3D parallelism, cosine scheduler, lr=6e-5, beta2=0.95, batch size=2048.
1. Environment impact (статья) — тренировка GPT-3 выработала порядка 500 тонн CO2, тренировка BLOOM — 25. Это стало возможно благодаря более современным GPU, эффективным методам параллелизации и, самое главное, атомной электростанции которая питает суперкомьютер Jean Zay.

В общем статья BLOOM неплохо суммаризирует результаты BigScience и на удивление не очень большая (42 страницы). Рекомендую пройтись по ней и почитать те главы что вам интересны.

С моделькой можно поиграться в Spaces или запустить её локально. Веса модели в fp32 (?) занимают 360Гб. Вот тут гайд по использованию int8 в трансформерах. С ними вы можете запустить модель хоть на картошке, но если у вас меньше 300Гб GPU RAM будет считаться довольно медленно.
👍10🔥2
Кстати если вы всё ещё не перешли на Python 3.10 (или даже 3.11) оно того очень стоит. Главная причина — новые красивые и более удобочитаемые сообщения об ошибке.
💯76
Тинькофф проведет NLP-митап в Москве 🦾

Встречу AI-команда Тинькофф проведет вместе с VK.

— Эксперт VK расскажет о нестандартном способе получения эмбеддингов текстовых последовательностей.

— А исследователи из Тинькофф поделятся собственным методом эффективного файнтюнинга моделей и объяснят, как можно линейно интерполировать их веса.
Ждут всех, кто интересуется обработкой текстов или сопереживает ей.

Митап пройдет 22 ноября в БЦ «Водный». Зарегистрироваться и прочитать о докладах подробнее: https://o.tinkoff.ru/monolog-ai.tinkoff

#промо
👍40💩161😁1
Мою статью с амазоновской стажировки приняли на воркшоп 🎉🎉🎉

Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.

Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️
🔥151🎉40👍9💩3🤩21🐳1
The State of Multilingual AI
ruder.io/state-of-multilingual-ai

В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?

Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.

Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.

Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.

Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.
👍30
Forwarded from эйай ньюз
Временами страдаете от NaN во время обучения сеточек? А все потому что вы не любите свои тензоры.

Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍

Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.

@ai_newz
🐳33🔥8🤔4
На этой неделе в Новом Орлеане проходит NeurIPS 2022, пожалуй самая большая конференция в диплернинге. И мне даже удалось на неё поехать. 🎉

Если вы тоже на NeurIPS - пишите и буду рад встретиться. Если нет - все мои впечатления и интересные штуки будут в канале.
🔥77👍87👎1🎉1
text-davinci-003

Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.

Цена та же что и у 002, так что нет причин не использовать.
👍13
Первый день NeurIPS 2022

День expo и прочих не очень важных вещей, но вот что было классного

1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.

На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска

1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅

Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
👍76🔥27😁4🤡3
Яндекс назвал лауреатов своей ежегодной научной премии

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;

Тарас Хахулин — работает в области компьютерного зрения.

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.

Подробнее о премии и лауреатах 2022 года — на сайте.

#промо
👍30🔥23💩3👏2🤮2👎1
NeurIPS 2022 день 2 (часть 1)

В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:

1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution

И это далеко не все интересные статьи, но завтра будет ещё больше 😅
🔥31👍5