Нейроканал

Бесконечность не предел или ещё одна вариация трансформера

Infinityformer (infinity transfomer/inftyformer) пытается побороть ограниченную память данной архитектуры путём введения концепта «sticky memories» (особенно важные для контекста события) и непрерывного attention (компрессия прошедшего контекста в непрерывную память). Звучит сложно? Ну а что вы хотели, сорок шесть тонн!

Посмотреть:
https://www.youtube.com/watch?v=0JlB9gufTw8

Почитать:
https://arxiv.org/abs/2109.00301

#статья

YouTube

∞-former: Infinite Memory Transformer (aka Infty-Former / Infinity-Former, Research Paper Explained)

#inftyformer #infinityformer #transformer

Vanilla Transformers are excellent sequence models, but suffer from very harsch constraints on the length of the sequences they can process. Several attempts have been made to extend the Transformer's sequence length…

❤‍🔥6👍4❤1

2.95K views11:00

Нейроканал

Бесконечность не предел, но пока остановимся на миллионе токенов

Так как чем больше токенов в трансформере, тем быстрее растёт потребление памяти на подсчет attention (причём растёт квадратично), то давайте мы нарежем входной текст на кусочки, применим трансформер к ним, а потом это всё по умному соединим. А как именно соединять — нам объяснят в этом разборе статьи, ну или можете сами прочитать.

Посмотреть:
https://www.youtube.com/watch?v=4Cclp6yPDuw

Почитать:
https://arxiv.org/abs/2304.11062

#статья

YouTube

Scaling Transformer to 1M tokens and beyond with RMT (Paper Explained)

#ai #transformer #gpt4

This paper promises to scale transformers to 1 million tokens and beyond. We take a look at the technique behind it: The Recurrent Memory Transformer, and what its strenghts and weaknesses are.

OUTLINE:
0:00 - Intro
2:15 - Transformers…

👍6

3.04K views10:02

Нейроканал

Когда не можем придумать новое, надо улучшать старое

Скорее всего, несколько человек сидели и думали, а как нам делать что-то своё в NLP, но без доступа к огромным вычислительным кластерам? И придумали. Архитектура Receptance Weighted Key Value (RWKV) объединяет в себе эффективность параллельных вычислений трансформера и эффективность инференса RNN. Да-да, RNN возможно скоро будут опять в моде.

Посмотреть:
https://www.youtube.com/watch?v=x8pW19wKfXQ

Почитать:
https://arxiv.org/abs/2305.13048

#статья

YouTube

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

#gpt4 #rwkv #transformer

We take a look at RWKV, a highly scalable architecture between Transformers and RNNs.

Fully Connected (June 7th in SF) Promo Link: https://www.fullyconnected.com/?promo=ynnc

OUTLINE:
0:00 - Introduction
1:50 - Fully Connected…

❤3

2.68K views17:30

Нейроканал

Трансформеры от А до Я: эволюция архитектуры и её достижения за последние годы

Автор данной статьи представил подробный обзор моделей, основанных на архитектуре Transformer. Этот обзор охватывает целых 90 работ, опубликованных за последние годы.

Все модели структурированы по областям применения: обработка текста, компьютерное зрение, генерация изображений, анализ и распознавание речи.

Для каждой модели приведены ключевые характеристики: год публикации, авторы, архитектура и количество параметров. Также дано краткое описание отличительных черт и примеры решаемых задач.

#статья #transformer

❤5👍2

2.5K views17:01

Нейроканал

Методы позиционного кодирования в Transformer

Методы позиционного кодирования — ключевой элемент Transformer для анализа длинных текстов. Как правило, в отличие от RNN, эта архитектура обрабатывает входные векторы одновременно, и без дополнительной информации о позиции каждого токена будет рассматривать последовательность подобно «мешку со словами».

В данной статье вы найдёте основные подходы, описанные в научных работах и применяемые в известных языковых моделях.

#nlp #transformer #deeplearning

👍5❤2

2.47K views11:31

Нейроканал

Mamba: революционная архитектура или просто хайп?

Кто не в курсе Mamba — это потенциальный конкурент Transformer. Эта архитектура масштабируется линейно с ростом длины входной последовательности, эффективно использует память и показывает отличные результаты на задачах с длинным контекстом.

В новом видео Янник Килчер разобрал отличия Mamba от Трансформеров и RNN и показал какие преимущества и ограничения есть у этой архитектуры.

Статья | GitHub | Hugging Face

#mamba #transformer #позалипать

YouTube

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

#mamba #s4 #ssm

OUTLINE:
0:00 - Introduction
0:45 - Transformers vs RNNs vs S4
6:10 - What are state space models?
12:30 - Selective State Space Models
17:55 - The Mamba architecture
22:20 - The SSM layer and forward propagation
31:15 - Utilizing GPU memory…

👍6❤2🔥1

2.96K viewsedited 14:01

Нейроканал

Основа работы трансформеров — это математика

Для более глубокого её понимания в рамках этой архитектуры рекомендуем обратить внимание на данную статью. В ней представлены все вычисления, происходящие внутри модели трансформера.

А если математика для вас оказалась слишком сложной, то можете сначала посмотреть в сторону этого обзора, там легко и наглядно разложены основные идеи и понятия.

#llm #transformer

👍6🤩3❤2

2.65K views13:02

Нейроканал

OpenAI переходит в режим Open!

Может, на фоне исков, а может просто совпадение, но на днях OpenAI выкатила код Transformer Debugger — отладчика для Small LM. Этот инструмент призван помочь разработчикам лучше понять, почему модели генерируют определённые токены в ответ на запросы, на что обращают внимание при обработке промптов и в целом, как это всё влияет на конкретное поведение модели.

Подробные инструкции по пользованию и код ищите здесь.

@neuro_channel #transformer

🔥12❤3

2.47K views14:16

Нейроканал

3:00

This media is not supported in your browser

VIEW IN TELEGRAM

Самое крутое введение в архитектуру трансформеров на диком западе

Недавно вышло на канале 3Blue1Brown. Фирменный стиль автора, увлекательная анимация и мастерское разъяснение сложных тем простыми словами делают его доступным для новичков и интересным даже для тех, кто уже знаком с темой.

В частности, это видео посвящено эмбеддингам и помогает понять, на какие токены модель обращает внимание и какой результат она в итоге выдаёт. Более сказать нечего, завариваем чаёк и наслаждаемся

Смотреть: https://www.youtube.com/watch?v=wjZofJX0v4M

@neuro_channel #transformer

👍8❤3😁2

2.53K views11:31

About

Blog

Apps

Platform