Forwarded from Love. Death. Transformers.
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26❤5
NeurIPS 2023
На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.
Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.
Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.
Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.
P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично
На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.
Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.
Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.
Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.
P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично
👍35🔥13❤3👌1
NeurIPS 2023 posters (day 0, 1, and 2)
На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).
Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)
А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)
(Из-за лимита символов картинки будут в следующем посте)
На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).
Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)
А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)
(Из-за лимита символов картинки будут в следующем посте)
arXiv.org
A Multimodal Dataset of 21,412 Recorded Nights for Sleep and...
This study introduces a novel, rich dataset obtained from home sleep apnea tests using the FDA-approved WatchPAT-300 device, collected from 7,077 participants over 21,412 nights. The dataset...
👍22🔥5❤1🤯1
Один из неожиданных и очень крутых демо NeurIPS это робот от Disney 😍
🥰52🔥10❤2