Нейроканал
9.29K subscribers
362 photos
142 videos
7 files
1.19K links
Искусственный интеллект, нейросети, машинное обучение

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

Другие наши проекты: https://tprg.ru/media
Download Telegram
Бесконечность не предел или ещё одна вариация трансформера

Infinityformer (infinity transfomer/inftyformer) пытается побороть ограниченную память данной архитектуры путём введения концепта «sticky memories» (особенно важные для контекста события) и непрерывного attention (компрессия прошедшего контекста в непрерывную память). Звучит сложно? Ну а что вы хотели, сорок шесть тонн!

Посмотреть:
https://www.youtube.com/watch?v=0JlB9gufTw8

Почитать:
https://arxiv.org/abs/2109.00301

#статья
❤‍🔥6👍41
Бесконечность не предел, но пока остановимся на миллионе токенов

Так как чем больше токенов в трансформере, тем быстрее растёт потребление памяти на подсчет attention (причём растёт квадратично), то давайте мы нарежем входной текст на кусочки, применим трансформер к ним, а потом это всё по умному соединим. А как именно соединять — нам объяснят в этом разборе статьи, ну или можете сами прочитать.

Посмотреть:
https://www.youtube.com/watch?v=4Cclp6yPDuw

Почитать:
https://arxiv.org/abs/2304.11062

#статья
👍6
Когда не можем придумать новое, надо улучшать старое

Скорее всего, несколько человек сидели и думали, а как нам делать что-то своё в NLP, но без доступа к огромным вычислительным кластерам? И придумали. Архитектура Receptance Weighted Key Value (RWKV) объединяет в себе эффективность параллельных вычислений трансформера и эффективность инференса RNN. Да-да, RNN возможно скоро будут опять в моде.

Посмотреть:
https://www.youtube.com/watch?v=x8pW19wKfXQ

Почитать:
https://arxiv.org/abs/2305.13048

#статья
3
Трансформеры от А до Я: эволюция архитектуры и её достижения за последние годы

Автор данной статьи представил подробный обзор моделей, основанных на архитектуре Transformer. Этот обзор охватывает целых 90 работ, опубликованных за последние годы.

Все модели структурированы по областям применения: обработка текста, компьютерное зрение, генерация изображений, анализ и распознавание речи.

Для каждой модели приведены ключевые характеристики: год публикации, авторы, архитектура и количество параметров. Также дано краткое описание отличительных черт и примеры решаемых задач.

#статья #transformer
5👍2
​​Методы позиционного кодирования в Transformer
 
Методы позиционного кодирования — ключевой элемент Transformer для анализа длинных текстов. Как правило, в отличие от RNN, эта архитектура обрабатывает входные векторы одновременно, и без дополнительной информации о позиции каждого токена будет рассматривать последовательность подобно «мешку со словами».
 
В данной статье вы найдёте основные подходы, описанные в научных работах и применяемые в известных языковых моделях.

#nlp #transformer #deeplearning
👍52
Mamba: революционная архитектура или просто хайп?

Кто не в курсе Mamba — это потенциальный конкурент Transformer. Эта архитектура масштабируется линейно с ростом длины входной последовательности, эффективно использует память и показывает отличные результаты на задачах с длинным контекстом.

В новом видео Янник Килчер разобрал отличия Mamba от Трансформеров и RNN и показал какие преимущества и ограничения есть у этой архитектуры.

Статья | GitHub | Hugging Face

#mamba #transformer #позалипать
👍62🔥1
​​Основа работы трансформеров — это математика

Для более глубокого её понимания в рамках этой архитектуры рекомендуем обратить внимание на данную статью. В ней представлены все вычисления, происходящие внутри модели трансформера. 
 
А если математика для вас оказалась слишком сложной, то можете сначала посмотреть в сторону этого обзора, там легко и наглядно разложены основные идеи и понятия.

#llm #transformer
👍6🤩32
​​OpenAI переходит в режим Open!

Может, на фоне исков, а может просто совпадение, но на днях OpenAI выкатила код Transformer Debugger — отладчика для Small LM. Этот инструмент призван помочь разработчикам лучше понять, почему модели генерируют определённые токены в ответ на запросы, на что обращают внимание при обработке промптов и в целом, как это всё влияет на конкретное поведение модели.

Подробные инструкции по пользованию и код ищите здесь.

@neuro_channel #transformer
🔥123
This media is not supported in your browser
VIEW IN TELEGRAM
Самое крутое введение в архитектуру трансформеров на диком западе

Недавно вышло на канале 3Blue1Brown. Фирменный стиль автора, увлекательная анимация и мастерское разъяснение сложных тем простыми словами делают его доступным для новичков и интересным даже для тех, кто уже знаком с темой.

В частности, это видео посвящено эмбеддингам и помогает понять, на какие токены модель обращает внимание и какой результат она в итоге выдаёт. Более сказать нечего, завариваем чаёк и наслаждаемся

Смотреть: https://www.youtube.com/watch?v=wjZofJX0v4M

@neuro_channel #transformer
👍83😁2