Forwarded from .ml
Архитектура LLM
Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.
Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.
📝 Разбираемся с генеративностью
Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder.Или encoder-decoder, но это только у старых моделей, типа T5. Новые GPT-like архитектуры от энкодеров отошли.
Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.
Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.
Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:
- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.
Почему? Помогает работать с более длинным контекстом без значимой потери качества.
- RMSNorm вместо LayerNorm для нормализации.
Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.
- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:
Почему? Чем меньше параметров, тем быстрее вычислять.
- Может использоваться Mixture-of-Experts, но это скорее частные случаи.
Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).
P.S.: если вы увидели много незнакомых слов — не переживайте, в следующих постах расскажем про то, как именно работают все эти навороты.
Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.
Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.
Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.
📝 Разбираемся с генеративностью
Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder.
Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.
Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.
Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:
- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.
Почему? Помогает работать с более длинным контекстом без значимой потери качества.
- RMSNorm вместо LayerNorm для нормализации.
Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.
- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:
Почему? Чем меньше параметров, тем быстрее вычислять.
- Может использоваться Mixture-of-Experts, но это скорее частные случаи.
Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).
Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Помните я много раз постил разные примеры, где нейронку пытаются использовать вместо игрового движка? Типа обучил на игре модель, и вот универсальный движок на все случаи жизни
Го играть в нейронное GTA
(с телефона не работает управление):
https://demo.dynamicslab.ai/chaos
Еще есть нейро-гонки, выглядит перспективно, дайте поиграться🌚
Го играть в нейронное GTA
(с телефона не работает управление):
https://demo.dynamicslab.ai/chaos
Еще есть нейро-гонки, выглядит перспективно, дайте поиграться
Please open Telegram to view this post
VIEW IN TELEGRAM
Ковырялся в старом жестком диске и нашел это.
В 2022 году txt2img модельки абсолютно не умели генерировать велосипеды.
Аж захотелось прямо сейчас раскатать на сервере какой-нибудь старый dalle-mini и погенерить подобного
В 2022 году txt2img модельки абсолютно не умели генерировать велосипеды.
Аж захотелось прямо сейчас раскатать на сервере какой-нибудь старый dalle-mini и погенерить подобного
Когда скучно, обожаю генерировать фейковые советские агитационные плакаты на разные темы.
Сегодня у нас плакаты, агитирующие сбор пупочных катышков. Как обычно, текст и сюжет для всех плакатов генерировал сам ChatGPT.
Сегодня у нас плакаты, агитирующие сбор пупочных катышков. Как обычно, текст и сюжет для всех плакатов генерировал сам ChatGPT.
Forwarded from Старший Авгур
На LessWrong поймал очень классный пост: ссылка
Местами ржал в голос, очень увлекательно написано.
Основные утверждения:
1. У Антропиков, оказывается, была статья про ИИ ассистентов через промптинг базовых моделей. В декабре 2021 года, за пару месяцев до InstructGPT. Не то чтобы я эту статью никогда не видел, но я её не читал. И вот промпт из этой статьи неожиданно задал стиль общения для всех последующих ИИ ассистентов. То есть базовую модель заставили имитировать ещё не существующий ChatGPT, из-за чего реальный ChatGPT получился таким, каким получился.
2. Для нормального продолжения текста базовые модели пытаются неявно понять, кто этот текст написал и что это был за человек. Но первые языковые модели, которые прошли через обучение инструкциям, не имели понятия, кого им надо отыгрывать! В корпусах для выравнивания на самом деле никак толком не определялся характер персонажа, "ИИ ассистента", а в текстах предобучения про таких ассистентов не было ни слова. Модели были вынуждены имитировать штуку, о которой они не имели никакого представления, и которая не существовала в их "реальности". Отчасти из-за этого модели можно было так легко джейлбрейкать, потому что нечего было ломать: персонаж "ИИ ассистента" был плохо прописан. Кроме того, когда тексты о ChatGPT попали в интернет, все последующие ассистенты автоматически получили частичку характера ChatGPT.
3. Тесты "безопасности", которые устраивают при больших запусках, отвратительны. Если в них вчитаться, то окажется, что модели ведут себя вполне нормально и адекватно, а ожидаются от них реально злые штуки. Более того, само наличие тестов и их подробное описание делает последующие модели гораздо более небезопасными. То есть AI safety команды крупных игроков раскручивают спираль опасности и исполняют самосбывающееся пророчество.
Мини-утверждения:
1. Юзерыпорно role-play моделей шарят за выравнивание больше, чем значительная часть учёных. Потому что они хотя бы разговаривают с моделью. Как и поехавшие на языковых моделях.
2. Claude 3 Opus — пока что лучшая модель за всё время.
3. Claude Gov — линейка моделей для спецслужб и военных! Вот оно ваше выравнивание...
С большинством утверждений я скорее согласен, очень интересный взгляд на историю моделей.
Местами ржал в голос, очень увлекательно написано.
Основные утверждения:
1. У Антропиков, оказывается, была статья про ИИ ассистентов через промптинг базовых моделей. В декабре 2021 года, за пару месяцев до InstructGPT. Не то чтобы я эту статью никогда не видел, но я её не читал. И вот промпт из этой статьи неожиданно задал стиль общения для всех последующих ИИ ассистентов. То есть базовую модель заставили имитировать ещё не существующий ChatGPT, из-за чего реальный ChatGPT получился таким, каким получился.
2. Для нормального продолжения текста базовые модели пытаются неявно понять, кто этот текст написал и что это был за человек. Но первые языковые модели, которые прошли через обучение инструкциям, не имели понятия, кого им надо отыгрывать! В корпусах для выравнивания на самом деле никак толком не определялся характер персонажа, "ИИ ассистента", а в текстах предобучения про таких ассистентов не было ни слова. Модели были вынуждены имитировать штуку, о которой они не имели никакого представления, и которая не существовала в их "реальности". Отчасти из-за этого модели можно было так легко джейлбрейкать, потому что нечего было ломать: персонаж "ИИ ассистента" был плохо прописан. Кроме того, когда тексты о ChatGPT попали в интернет, все последующие ассистенты автоматически получили частичку характера ChatGPT.
3. Тесты "безопасности", которые устраивают при больших запусках, отвратительны. Если в них вчитаться, то окажется, что модели ведут себя вполне нормально и адекватно, а ожидаются от них реально злые штуки. Более того, само наличие тестов и их подробное описание делает последующие модели гораздо более небезопасными. То есть AI safety команды крупных игроков раскручивают спираль опасности и исполняют самосбывающееся пророчество.
Мини-утверждения:
1. Юзеры
2. Claude 3 Opus — пока что лучшая модель за всё время.
3. Claude Gov — линейка моделей для спецслужб и военных! Вот оно ваше выравнивание...
С большинством утверждений я скорее согласен, очень интересный взгляд на историю моделей.