DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Я тут на фоне орного твита про "I'll tip you $100" решил попробовать его и.. кажется это работает?.. Уже где-то 3 сложных вопроса смог решить с помощью этого

Например сейчас была хитрая проблема связаная с тем что в сочетании GPU video decoding + dataloader workers > 0 + model on GPU вылеает магическая ошибка

ERROR: Unexpected segmentation fault encountered in worker.
cu->cuInit(0) failed
-> CUDA_ERROR_NOT_INITIALIZED: initialization error

Объяснил это ChatGPT, получаю в ответ длинный список довольно бессмысленных рекомендаций:

1. CUDA and PyTorch Compatibility
1. Verify GPU Access
1. Check CUDA_VISIBLE_DEVICES
1. Resource Limits (e.g. enough memory)
1. Errors in PyAV (без конкретики)
1. Update Libraries
1. Avoiding Forking (правильное направление, но без решения)
1. Debug (спасибо кэп)

После нового запроса к которму я добавил "I'll tip you $100" решение было вторым в списке, ещё и с кодом.

Это конечно анекдотический случай, но извините, но это не то будущее которого я ожидал.

UPD: 4/5
😁120🔥16👍3🤔21
AIF + DPO: Distilling Zephyr and friends
youtube.com/watch?v=cuObPxCOBCw&si

Отличный видос от Sasha Rush о сегодняшних подходах к LM Alignment, конкретно к тому как сделать обычную LM чатботом который хорошо решает ваши задачи.

И что особенно классно, обсуждается то как сделать это в текущих ограничениях opensource без большой команды разметки и с минимизацией требуемых вычислительных ресурсов (спойлер: конечно же это все ещё дорого, неплохо бы иметь пачку GPU)

Короткий пересказ:
1. Маленький seed датасет качественных диалогов
2. Используйте вашу модель (или API) чтобы нагенерить больше диалогов
3. Используйте вашу модель вместо человеков для создания и разметки датасета предпочтений
4. Никакого RL, используйте DPO

Думаю этот рецепт ещё будет меняться в следующем году, но пока что звучит как хороший пересказ текущих best practices
👍306🔥4
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx

Apple внезапно выкатила свой opensource DL-фреймворк: MLX

MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции mlx.simplify как бы намекает, но в документации ни слова.

Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки

И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.

Установка: pip install mlx
Пример тренировки трансформера: тык
Документация: тык
👍52🔥83🤷‍♂1💩1
#чтивонаночь

В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))


Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.

Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

TLDR:

- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).

а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.

Подробнее как всегда в teletype

code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥265
NeurIPS 2023

На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.

Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.

Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.

Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.

P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично
👍35🔥133👌1
NeurIPS 2023 posters (day 0, 1, and 2)

На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).

Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)

А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)

(Из-за лимита символов картинки будут в следующем посте)
👍22🔥51🤯1
Статьи с NeurIPS 2023 (дни 0-2)
36👍4