Истории (не)успеха (ИИ)ЕИ

Рекуррентность vs. Самовнимание:
Битва за обладание разумом
или
Эволюция обработки последовательностей 🤯

В классических рекуррентных нейросетях обработка текста или других последовательностей происходит шаг за шагом. На каждом этапе обучения модель учитывает текущее слово и внутреннее состояние, переданное с предыдущего шага. Это похоже на краткосрочную память: чтобы понять текущее слово, нужно помнить, что было до этого.

Такой подход рабочий, но плохо масштабируется:
-сложно учитывать дальние связи,
-обучение затруднено,
-обработка — строго последовательная и медленная.

Self-Attention, предложенный в архитектуре Transformer, — принципиально другой подход.
Здесь каждый элемент «смотрит» на все остальные в последовательности одновременно.
Модель сама решает, что важно, и распределяет внимание по всей цепочке.

👇Это позволяет:
➡️ учитывать длинные зависимости,
➡️ обучаться параллельно,
➡️ достигать высокой точности.

#AI #ML #Transformers #RNN #LLM #Нейросети #Attention

👍1

66 viewsDmytro, edited 12:42

🧠 Если сравнивать с мозгом:
Рекуррентность — это последовательное мышление: пересказ истории по порядку.
Self-Attention — стратегическое мышление: ты сразу держишь в голове всю картину.

📌 Именно Self-attention стал основой моделей вроде GPT, BERT, T5 и других трансформеров.

А теперь немного образов:
Ты читаешь книгу.
Один герой что-то сказал на 3-й странице, а на 10-й про него снова упомянули.

🧓 Если ты обычный человек:

"Так, а кто это вообще был?.. Сейчас, ща вспомню..."
Это — рекуррентность. Как старенький дедушка из анекдота: читаешь по порядку, иногда забываешь, кто где и что делал 😅

🕵️ А если ты — Шерлок Холмс:

"Ага, он упомянул Лору, Лора была в 3-й главе с зонтом, а зонт фигурировал ещё в прологе!"
Это уже самовнимание (self-attention). Всё держишь в голове, всё связываешь — как гений.

🧠 Рекуррентность — как думать в строчку.
⚡️ Self-Attention — как видеть сразу всю карту мыслей.

📍 Поэтому трансформеры, основанные на Self-attention, заменили старые модели. Они мощнее, быстрее, умнее. Это как перейти с кнопочного телефона на нейро-iPhone.

А ты кто по жизни — RNN или трансформер? 😄

#AI #ML #Transformers #RNN #LLM #Нейросети

👍2

78 viewsDmytro, edited 12:42

Истории (не)успеха (ИИ)ЕИ

Продолжение, начало тут 👆

Теперь начинается самое интересное.

«Алфавит» этой группы — 12 вращений (пo по две вокруг каждой из 6-ти вершин октаэдра — по часовой стрелке и против). Вращения могут переставлять 48 элементов восьми цветов. Всего у пазла 2 009 078 326 886 400 возможных состояний (примерно 2×10^15, около двух квадриллионов).

Если представить все состояния как вершины в графе Кэли, то таких вершин будет столько же — 2 009 078 326 886 400, и из каждой выходит 12 рёбер — по одному на каждое вращение. Найти кратчайший путь от случайно перемешанного состояния к собранному при таком масштабе стандартными алгоритмами практически невозможно, даже на суперкомпьютере.

Поэтому следующий шаг — обучить нейросеть «языку» движений и перестановок именно для этой головоломки. Посмотрим, что получится. Эксперимент продолжается 🙂 Пока не уверен, какую архитектуру выбрать — есть идеи и интуиция, но это надо проверять. Цель на первом этапе — научить нейросеть ориентироваться в огромных пространствах состояний, где при этом есть довольно регулярная структура.

P.S. Напоминаю, что к этому проекту можно присоединиться:
🔗 https://t.iss.one/sberlogabig/581

Ссылки на уже опубликованные работы:
📄 https://arxiv.org/abs/2502.18663
📄 https://arxiv.org/abs/2502.13266

#Algorithms #Complexity #Algebra #GroupTheory #CayleyGraphs #ML #ChristophersJewelPuzzle #Puzzles

Истории (не)успеха (ИИ)ЕИ

Нейросети и вычисления в подргуппах группы перестановок 𝑛 элементов.

Речь идёт не только о головоломках вроде кубика Рубика или пирамидок/октаэдров/гексаэдров (картинкa👆), но и о матричных группах, которые встречаются, например, в квантовой физике. Их объединяет…

👍5❤1

474 viewsedited 22:22

About

Blog

Apps

Platform