Language models can explain neurons in language models
openai.com/research/language-models-can-explain-neurons-in-language-models
Внезапно OpenAI продолжает публиковать рисёч. В этой статье они предложили использовать GPT4 чтобы интерпретировать нейроны GPT2 и вот как это работает:
1. Используя GPT-4, они генерируют объяснения поведения нейронов, показывая соответствующие текстовые последовательности и активации.
1. Затем симулируют, что нейрон, активированный для объяснения, сделал бы снова с использованием GPT-4.
1. Оценивают объяснение на основе того, насколько хорошо симулированные активации соответствуют реальным активациям
Большинство сгененированных объяснений не проходит проверки (как и в человеческом рисёче), но сама идея автоматизации этого процесса крута. Кроме этого, большие модели или те которые дольше тренировали интерпретировать сложнее. Вот так пытались улучшить результаты:
1. Просить GPT4 придумывать контрпримеры, после чего переделывать объяснение.
1. Использовать другие функции активации в модели.
Статья: тык
Код и датасет: тык
openai.com/research/language-models-can-explain-neurons-in-language-models
Внезапно OpenAI продолжает публиковать рисёч. В этой статье они предложили использовать GPT4 чтобы интерпретировать нейроны GPT2 и вот как это работает:
1. Используя GPT-4, они генерируют объяснения поведения нейронов, показывая соответствующие текстовые последовательности и активации.
1. Затем симулируют, что нейрон, активированный для объяснения, сделал бы снова с использованием GPT-4.
1. Оценивают объяснение на основе того, насколько хорошо симулированные активации соответствуют реальным активациям
Большинство сгененированных объяснений не проходит проверки (как и в человеческом рисёче), но сама идея автоматизации этого процесса крута. Кроме этого, большие модели или те которые дольше тренировали интерпретировать сложнее. Вот так пытались улучшить результаты:
1. Просить GPT4 придумывать контрпримеры, после чего переделывать объяснение.
1. Использовать другие функции активации в модели.
Статья: тык
Код и датасет: тык
Openai
Language models can explain neurons in language models
We use GPT-4 to automatically write explanations for the behavior of neurons in large language models and to score those explanations. We release a dataset of these (imperfect) explanations and scores for every neuron in GPT-2.
🔥16❤2
Только что прошла презентация Google I/O вот мои заметки:
Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos и показал как будет выглядеть интеграция в Search.
1. PaLM 2 — мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших". Мало специфики, но наверное больше мы и не узнаем
1. Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.
1. Bard.google.com теперь доступен без очереди, а также скоро начнёт поддержвать тулзы вроде генерации изображений с помощью Adobe Firefly, инпута изображений с помощью Google Lens итд
1. Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но потом поняли что он может быть general-purpose.
Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными. Также анонсировали что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту 🔥
Следующие пару лет будут очень интересными и гугл несмотря на вялый старт с Bard потихоньку набирает обороты. Технологически они и так одни из самых сильных игроков благодаря TPU, Google Brain и DeepMind. Главное сделать из этих технологий полезные продукты и то что показали на I/O выглядит многообещающе.
Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos и показал как будет выглядеть интеграция в Search.
1. PaLM 2 — мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших". Мало специфики, но наверное больше мы и не узнаем
1. Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.
1. Bard.google.com теперь доступен без очереди, а также скоро начнёт поддержвать тулзы вроде генерации изображений с помощью Adobe Firefly, инпута изображений с помощью Google Lens итд
1. Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но потом поняли что он может быть general-purpose.
Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными. Также анонсировали что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту 🔥
Следующие пару лет будут очень интересными и гугл несмотря на вялый старт с Bard потихоньку набирает обороты. Технологически они и так одни из самых сильных игроков благодаря TPU, Google Brain и DeepMind. Главное сделать из этих технологий полезные продукты и то что показали на I/O выглядит многообещающе.
👍42❤1🔥1
About PaLM 2:
https://ai.google/static/documents/palm2techreport.pdf
As with GPT4, almost no technical details (as I was predicting, forget about big tech publishing detailed papers about their top-performing models), but a few things are still there:
1. "mixture of objectives similar to UL2"
1. "more multilingual and diverse pre-training mixture", "larger models can handle more disparate non-English datasets without causing a drop in English language understanding performance" — less than 78% English, exact number is unknown
1. "The largest model in the PaLM 2 family, PaLM 2-L, is significantly smaller than the largest PaLM model but uses more training compute" — largest PaLM 2 is less than 500B
1. "For a small fraction of pre-training data, we added special control tokens marking the toxicity of text, using signals from a fixed version of the Perspective API." — after training, you can use these to control the toxicity of the text.
Some downstream tests compare PaLM 2 to GPT4 and show similar levels of performance. Tho, I wouln't be surprised if Google didn't include cases when GPT4 significantly outperforms PaLM 2. This is not a research paper by scientists, this is a technical report by Google, as the first page says.
https://ai.google/static/documents/palm2techreport.pdf
As with GPT4, almost no technical details (as I was predicting, forget about big tech publishing detailed papers about their top-performing models), but a few things are still there:
1. "mixture of objectives similar to UL2"
1. "more multilingual and diverse pre-training mixture", "larger models can handle more disparate non-English datasets without causing a drop in English language understanding performance" — less than 78% English, exact number is unknown
1. "The largest model in the PaLM 2 family, PaLM 2-L, is significantly smaller than the largest PaLM model but uses more training compute" — largest PaLM 2 is less than 500B
1. "For a small fraction of pre-training data, we added special control tokens marking the toxicity of text, using signals from a fixed version of the Perspective API." — after training, you can use these to control the toxicity of the text.
Some downstream tests compare PaLM 2 to GPT4 and show similar levels of performance. Tho, I wouln't be surprised if Google didn't include cases when GPT4 significantly outperforms PaLM 2. This is not a research paper by scientists, this is a technical report by Google, as the first page says.
❤2
DL in NLP
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning 11 Мая на Münich NLP в 12pm EDT буду презентовать наш обзор PEFT методов. Заходите спросить почему BitFit больше не классный, какие методы работают лучше LoRA и зачем вообще этот PEFT обычным…
Начинаем сейчас! Приходите послушать про PEFT методы в дискорд Münich NLP
❤12
И ещё один маленький announcement
Почти все новости и статьи в этом канале начинают свою жизнь как url сохранённые в мои Saved Messages в телеграме, но 90% этих ссылок остаются там умирать. И я подумал и решил нагло украсть идею @j_links и сделать канал куда я буду постить все эти ссылки, без каких-либо комментариев но сразу же как их нахожу.
Начал собирать там ссылки ещё несколько дней назад, так что там уже не пусто. Если хотите получать сырые новости сразу же как я про них узнаю, подписывайтесь на t.iss.one/dlinnlp_links
Почти все новости и статьи в этом канале начинают свою жизнь как url сохранённые в мои Saved Messages в телеграме, но 90% этих ссылок остаются там умирать. И я подумал и решил нагло украсть идею @j_links и сделать канал куда я буду постить все эти ссылки, без каких-либо комментариев но сразу же как их нахожу.
Начал собирать там ссылки ещё несколько дней назад, так что там уже не пусто. Если хотите получать сырые новости сразу же как я про них узнаю, подписывайтесь на t.iss.one/dlinnlp_links
👍19💩9👎4🤩4❤2🤮1
Anthropic Claude теперь поддерживает размер инпута в 100K токенов 🤯
anthropic.com/index/100k-context-windows
anthropic.com/index/100k-context-windows
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥41❤9👍6😁1
Flash attention in practice 🔥
PyTorch 2.0 has flash-attention built-in, here's how you can use it:
1. Replace your attention op with
1. Use 16-bit float (which you should always be using for training anyway)
1. Make sure that your head dim is a multiple of 8 and no more than 128
Lookup git diff above as an example.
Result:
1. 2010 examples/sec ⟼ 2790 examples/sec. 40% speedup (8x4090 setup)
1. RAM: 22Gb ⟼ 16 GB reduction at 256 sequence length
1. Absolutely the same model, no approximations
(In my case a big chunk of improvement also came at the cost of reducing softmax precision from fp32 to bf16, but to hell with that)
Flash attention should yield even higher improvements on larger sequence lengths.
PyTorch 2.0 has flash-attention built-in, here's how you can use it:
1. Replace your attention op with
torch.nn.functional.scaled_dot_product_attention
1. Use 16-bit float (which you should always be using for training anyway)
1. Make sure that your head dim is a multiple of 8 and no more than 128
Lookup git diff above as an example.
Result:
1. 2010 examples/sec ⟼ 2790 examples/sec. 40% speedup (8x4090 setup)
1. RAM: 22Gb ⟼ 16 GB reduction at 256 sequence length
1. Absolutely the same model, no approximations
(In my case a big chunk of improvement also came at the cost of reducing softmax precision from fp32 to bf16, but to hell with that)
Flash attention should yield even higher improvements on larger sequence lengths.
🔥49👍9❤3🤯2
Как мы дожили до того что CNBC рассказывает больше чем статья на архиве?
😁15😢10🤔5
Forwarded from gonzo-обзоры ML статей
Говорят, PaLM 2 (https://t.iss.one/gonzo_ML/1559) содержит 340B параметров и обучена на 3.6T токенов.
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
Telegram
gonzo-обзоры ML статей
[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
👍3❤1
От моего PI:
« людей, которые верят, что большие модели обретут AGI from further scaling, надо называть большевиками 🙂 »
« людей, которые верят, что большие модели обретут AGI from further scaling, надо называть большевиками 🙂 »
😁97🥴11❤2❤🔥2🤮1😈1
Forwarded from Futuris (Anton)
Тут кто-то на реддите нашёл способ как дать ChatGPT полный доступ над своей системой через выполнение небезопасной функции eval в JavaScript. Через чат пользователь смог узнать описание и содержимое файлов у себя на жёстком диске, открыть браузер и выполнить поисковый запрос и даже управлять мышкой 🤯
Привет SkyNet 😅
Привет SkyNet 😅
🤯39🔥5😁4👍3❤2🥰1
Получил доступ к Claude и попробовал запрос который пробую со всеми новыми модельками: минималистичный DDP для тренировки LM.
И получилось относительно неплохо, хотя и не полностью то что я хочу. Пока что никто из моделей GPT4/PALM2/gpt4all-snoozy не справился и в общем кажется неплохим тестовым кейсом, тк в интернете нету нормальных туториалов по DDP с препроцессингом для LM (если знаете — кидайте в коменты).
В общем мне кажется что на фоне хайпа GPT4/PALM2 Claude недооценён. С учётом 100K context length я прямо смогу сделать новые проекты которые было сложнее сделать с GPT4.
И получилось относительно неплохо, хотя и не полностью то что я хочу. Пока что никто из моделей GPT4/PALM2/gpt4all-snoozy не справился и в общем кажется неплохим тестовым кейсом, тк в интернете нету нормальных туториалов по DDP с препроцессингом для LM (если знаете — кидайте в коменты).
В общем мне кажется что на фоне хайпа GPT4/PALM2 Claude недооценён. С учётом 100K context length я прямо смогу сделать новые проекты которые было сложнее сделать с GPT4.
👍18❤2🤔2
Prompts is the new “stack more layers”. Change my mind 🤡
👏31😁14💯5😢2🥱1
Очень странная новость от The Information о том что OpenAI планирует выпустить open-source LLM. К сожалению оригинальная новость за пейволом и тк я не готов платить $500 за чтение новостей будем читать перепечатки и гадать.
Зачем им может это быть нужно?
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.
Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.
UPD: саммари статьи
Зачем им может это быть нужно?
<натягиваем сову на глобус>
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.
Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
</натягиваем сову на глобус>
Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.
UPD: саммари статьи
The Information
Open-Source AI Is Gaining on Google and ChatGPT
In February, Meta Platforms set off an explosion of artificial intelligence development when it gave academics access to sophisticated machine-learning models that can understand conversational language. Within weeks, the academics turned those models into…
👍15❤2