Рекуррентность vs. Самовнимание:
Битва за обладание разумом
или
Эволюция обработки последовательностей 🤯
В классических рекуррентных нейросетях обработка текста или других последовательностей происходит шаг за шагом. На каждом этапе обучения модель учитывает текущее слово и внутреннее состояние, переданное с предыдущего шага. Это похоже на краткосрочную память: чтобы понять текущее слово, нужно помнить, что было до этого.
Такой подход рабочий, но плохо масштабируется:
-сложно учитывать дальние связи,
-обучение затруднено,
-обработка — строго последовательная и медленная.
Self-Attention, предложенный в архитектуре Transformer, — принципиально другой подход.
Здесь каждый элемент «смотрит» на все остальные в последовательности одновременно.
Модель сама решает, что важно, и распределяет внимание по всей цепочке.
👇Это позволяет:
➡️ учитывать длинные зависимости,
➡️ обучаться параллельно,
➡️ достигать высокой точности.
#AI #ML #Transformers #RNN #LLM #Нейросети #Attention
Битва за обладание разумом
или
Эволюция обработки последовательностей 🤯
В классических рекуррентных нейросетях обработка текста или других последовательностей происходит шаг за шагом. На каждом этапе обучения модель учитывает текущее слово и внутреннее состояние, переданное с предыдущего шага. Это похоже на краткосрочную память: чтобы понять текущее слово, нужно помнить, что было до этого.
Такой подход рабочий, но плохо масштабируется:
-сложно учитывать дальние связи,
-обучение затруднено,
-обработка — строго последовательная и медленная.
Self-Attention, предложенный в архитектуре Transformer, — принципиально другой подход.
Здесь каждый элемент «смотрит» на все остальные в последовательности одновременно.
Модель сама решает, что важно, и распределяет внимание по всей цепочке.
👇Это позволяет:
➡️ учитывать длинные зависимости,
➡️ обучаться параллельно,
➡️ достигать высокой точности.
#AI #ML #Transformers #RNN #LLM #Нейросети #Attention
👍1
🧠 Если сравнивать с мозгом:
Рекуррентность — это последовательное мышление: пересказ истории по порядку.
Self-Attention — стратегическое мышление: ты сразу держишь в голове всю картину.
📌 Именно Self-attention стал основой моделей вроде GPT, BERT, T5 и других трансформеров.
А теперь немного образов:
Ты читаешь книгу.
Один герой что-то сказал на 3-й странице, а на 10-й про него снова упомянули.
🧓 Если ты обычный человек:
🕵️ А если ты — Шерлок Холмс:
🧠 Рекуррентность — как думать в строчку.
⚡️ Self-Attention — как видеть сразу всю карту мыслей.
📍 Поэтому трансформеры, основанные на Self-attention, заменили старые модели. Они мощнее, быстрее, умнее. Это как перейти с кнопочного телефона на нейро-iPhone.
А ты кто по жизни — RNN или трансформер? 😄
#AI #ML #Transformers #RNN #LLM #Нейросети
Рекуррентность — это последовательное мышление: пересказ истории по порядку.
Self-Attention — стратегическое мышление: ты сразу держишь в голове всю картину.
📌 Именно Self-attention стал основой моделей вроде GPT, BERT, T5 и других трансформеров.
А теперь немного образов:
Ты читаешь книгу.
Один герой что-то сказал на 3-й странице, а на 10-й про него снова упомянули.
🧓 Если ты обычный человек:
"Так, а кто это вообще был?.. Сейчас, ща вспомню..."
Это — рекуррентность. Как старенький дедушка из анекдота: читаешь по порядку, иногда забываешь, кто где и что делал 😅
🕵️ А если ты — Шерлок Холмс:
"Ага, он упомянул Лору, Лора была в 3-й главе с зонтом, а зонт фигурировал ещё в прологе!"
Это уже самовнимание (self-attention). Всё держишь в голове, всё связываешь — как гений.
🧠 Рекуррентность — как думать в строчку.
⚡️ Self-Attention — как видеть сразу всю карту мыслей.
📍 Поэтому трансформеры, основанные на Self-attention, заменили старые модели. Они мощнее, быстрее, умнее. Это как перейти с кнопочного телефона на нейро-iPhone.
А ты кто по жизни — RNN или трансформер? 😄
#AI #ML #Transformers #RNN #LLM #Нейросети
👍2
Продолжение, начало тут 👆
Теперь начинается самое интересное.
«Алфавит» этой группы — 12 вращений (пo по две вокруг каждой из 6-ти вершин октаэдра — по часовой стрелке и против). Вращения могут переставлять 48 элементов восьми цветов. Всего у пазла 2 009 078 326 886 400 возможных состояний (примерно 2×10^15, около двух квадриллионов).
Если представить все состояния как вершины в графе Кэли, то таких вершин будет столько же — 2 009 078 326 886 400, и из каждой выходит 12 рёбер — по одному на каждое вращение. Найти кратчайший путь от случайно перемешанного состояния к собранному при таком масштабе стандартными алгоритмами практически невозможно, даже на суперкомпьютере.
Поэтому следующий шаг — обучить нейросеть «языку» движений и перестановок именно для этой головоломки. Посмотрим, что получится. Эксперимент продолжается 🙂 Пока не уверен, какую архитектуру выбрать — есть идеи и интуиция, но это надо проверять. Цель на первом этапе — научить нейросеть ориентироваться в огромных пространствах состояний, где при этом есть довольно регулярная структура.
P.S. Напоминаю, что к этому проекту можно присоединиться:
🔗 https://t.iss.one/sberlogabig/581
Ссылки на уже опубликованные работы:
📄 https://arxiv.org/abs/2502.18663
📄 https://arxiv.org/abs/2502.13266
#Algorithms #Complexity #Algebra #GroupTheory #CayleyGraphs #ML #ChristophersJewelPuzzle #Puzzles
Теперь начинается самое интересное.
«Алфавит» этой группы — 12 вращений (пo по две вокруг каждой из 6-ти вершин октаэдра — по часовой стрелке и против). Вращения могут переставлять 48 элементов восьми цветов. Всего у пазла 2 009 078 326 886 400 возможных состояний (примерно 2×10^15, около двух квадриллионов).
Если представить все состояния как вершины в графе Кэли, то таких вершин будет столько же — 2 009 078 326 886 400, и из каждой выходит 12 рёбер — по одному на каждое вращение. Найти кратчайший путь от случайно перемешанного состояния к собранному при таком масштабе стандартными алгоритмами практически невозможно, даже на суперкомпьютере.
Поэтому следующий шаг — обучить нейросеть «языку» движений и перестановок именно для этой головоломки. Посмотрим, что получится. Эксперимент продолжается 🙂 Пока не уверен, какую архитектуру выбрать — есть идеи и интуиция, но это надо проверять. Цель на первом этапе — научить нейросеть ориентироваться в огромных пространствах состояний, где при этом есть довольно регулярная структура.
P.S. Напоминаю, что к этому проекту можно присоединиться:
🔗 https://t.iss.one/sberlogabig/581
Ссылки на уже опубликованные работы:
📄 https://arxiv.org/abs/2502.18663
📄 https://arxiv.org/abs/2502.13266
#Algorithms #Complexity #Algebra #GroupTheory #CayleyGraphs #ML #ChristophersJewelPuzzle #Puzzles
Telegram
Истории (не)успеха (ИИ)ЕИ
Нейросети и вычисления в подргуппах группы перестановок 𝑛 элементов.
Речь идёт не только о головоломках вроде кубика Рубика или пирамидок/октаэдров/гексаэдров (картинкa👆), но и о матричных группах, которые встречаются, например, в квантовой физике. Их объединяет…
Речь идёт не только о головоломках вроде кубика Рубика или пирамидок/октаэдров/гексаэдров (картинкa👆), но и о матричных группах, которые встречаются, например, в квантовой физике. Их объединяет…
👍5❤1