Честный замер LLM на способность следовать инструкциям
Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)
Про второе можно почитать в этом блогпосте от lmsys, проблема важная.
А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models
Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.
Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.
Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.
Они даже выложили код👏
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.
Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)
Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)
Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)
Про второе можно почитать в этом блогпосте от lmsys, проблема важная.
А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models
Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.
Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.
Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.
Они даже выложили код
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.
Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)
Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍5❤2🤔1
Читаем подкаст за 5 минут ⌛
В гугловом bard’е есть классная фича: можно кинуть ссылку на ютуб видео и попросить короткое содержание или просто задать вопрос по нему.
Плагин в GPT-4 например отказался делать такое, так как видео очень длинное👎
Bard может и на русском языке ответ выдать👍 (хотя в России он вроде не доступен :D)
Это конечно огромное преимущество гугла: гигантский объем полезных данных в легком доступе + много продуктов с пользователями, куда ИИ можно внедрять и получать фидбек.
В гугловом bard’е есть классная фича: можно кинуть ссылку на ютуб видео и попросить короткое содержание или просто задать вопрос по нему.
Плагин в GPT-4 например отказался делать такое, так как видео очень длинное
Bard может и на русском языке ответ выдать
Это конечно огромное преимущество гугла: гигантский объем полезных данных в легком доступе + много продуктов с пользователями, куда ИИ можно внедрять и получать фидбек.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥6❤2
Всех с наступающим Новым годом! 🎉 🎊 🎉
Желаю всем найти человека, который будет вас понимать лучше, чем рекомендательные системы и любой сверхсильный ИИ 🤖
И alignment’а с самим собой, конечно же 🧘
Желаю всем найти человека, который будет вас понимать лучше, чем рекомендательные системы и любой сверхсильный ИИ 🤖
И alignment’а с самим собой, конечно же 🧘
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🎉7🔥4
Понятная и красивая диаграмма про Retrieval Augmented Generation от llamaindex - опенсорс либы, чтобы снабжать LLM’ки внешними знаниями. Про то, почему это очень круто я уже писал пост.
На диаграмме самые важные нюансы отобразили. Все сводится к тому, что нужен и точный ретривер, и генератор (робастный к плохим документам и умеющий использовать хорошие). И обе эти задачи сложные)
И обе части необходимы, чтобы это заработало хорошо.
На диаграмме самые важные нюансы отобразили. Все сводится к тому, что нужен и точный ретривер, и генератор (робастный к плохим документам и умеющий использовать хорошие). И обе эти задачи сложные)
И обе части необходимы, чтобы это заработало хорошо.
🔥7👍5❤3
(мемы немного в тему, взял здесь)
Подумал, что CEO - максимальная стадия VC (venture capitalist).
Типа VC анализирует, выбирает несколько стартапов, инвестриует. Ведь он не знает, что реально выстрелит, а что нет. Поэтому не кладет все яица в одну корзину. Диверсицифирует и надеется, что хоть в среднем будет хорошо🍞
А CEO уверенный чел, инвестирует в свой стартап 100% усилий, чтобы получить максимальный return on investment😎
(это всё шутка конечно; VC, если читаете, не обижайтесь😉 )
Подумал, что CEO - максимальная стадия VC (venture capitalist).
Типа VC анализирует, выбирает несколько стартапов, инвестриует. Ведь он не знает, что реально выстрелит, а что нет. Поэтому не кладет все яица в одну корзину. Диверсицифирует и надеется, что хоть в среднем будет хорошо
А CEO уверенный чел, инвестирует в свой стартап 100% усилий, чтобы получить максимальный return on investment
(это всё шутка конечно; VC, если читаете, не обижайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😁4🔥1🤔1🎉1
Небольшая база по dataviz'у 📊📈📉
Классный репозиторий с наглядными примерами по тому, как правильно визуализировать данные, аналитику.
Впервые про dataviz я узнал в магистратуре на предмете с названием "Математические методы визуализации данных". До первой пары я думал, что это какая то бесполезная фигня и было бы классно забить на это дело🏃♂️
Но в итоге узнал про интересные концепции и приоткрыл для себя целый новый мир dataviz'а. Например:
🔹 Про цвет полезней думать не в базисе RGB, а в базисе тон, насыщенность, яркость.
Отсюда легко понять, что можно сделать цветовую шкалу, в которой варьируется только яркость и она подойдет для данных, которые имеют направленность (можно сравнить на больше / меньше). А если данные категориальные, то нужна цветовая шкала с разными тонами.
🔹 Человек сравнивает площади и объемы сильно хуже, чем линии. Поэтому Pie Chart стоит разворачивать в Stacked Bar Plot (скрин 3)
👁 И вообще, зрительный канал обладает самой большой пропускной способностью (пока brain-computer interface еще не сделали 🚬 ). Поэтому точно полезно почитать про dataviz и использовать его эффективно, чтобы донести максимум инсайтов для воспринимающего 💡 Как в научных статьях, так и на работе.
Классный репозиторий с наглядными примерами по тому, как правильно визуализировать данные, аналитику.
Впервые про dataviz я узнал в магистратуре на предмете с названием "Математические методы визуализации данных". До первой пары я думал, что это какая то бесполезная фигня и было бы классно забить на это дело
Но в итоге узнал про интересные концепции и приоткрыл для себя целый новый мир dataviz'а. Например:
🔹 Про цвет полезней думать не в базисе RGB, а в базисе тон, насыщенность, яркость.
Отсюда легко понять, что можно сделать цветовую шкалу, в которой варьируется только яркость и она подойдет для данных, которые имеют направленность (можно сравнить на больше / меньше). А если данные категориальные, то нужна цветовая шкала с разными тонами.
🔹 Человек сравнивает площади и объемы сильно хуже, чем линии. Поэтому Pie Chart стоит разворачивать в Stacked Bar Plot (скрин 3)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5❤2
Пока Сэм Альтман собирает пару триллоинов долларов на революцию в области полупроводников, самое время разобраться в работе CPU, GPU и прочих железок.
Очень крутые и понятные блогпосты для широкой аудитории: CPU,
GPU, ASICs.
Помимо базы, которая очень кайфого изложена - с аналогиями и примерами, есть и про
- Power - Performance - Area трейдофф при дизайне чипов
- Мера энергоэффективности чипа (performance per watt) - главная метрика
- Power и Efficiency ядра в процессорах
- Фундаментальное отличие CPU и GPU
- ...
Если не до конца ясно, как основной ботлнек на практике в Deep Learning'е может быть не в вычислениях, а в доступе к памяти (для меня это было удивительно, когда узнал :D, про это я ещё упоминал здесь), то прочтение этих блогпостов поможет осознать)
🟢
Очень крутые и понятные блогпосты для широкой аудитории: CPU,
GPU, ASICs.
Помимо базы, которая очень кайфого изложена - с аналогиями и примерами, есть и про
- Power - Performance - Area трейдофф при дизайне чипов
- Мера энергоэффективности чипа (performance per watt) - главная метрика
- Power и Efficiency ядра в процессорах
- Фундаментальное отличие CPU и GPU
- ...
Если не до конца ясно, как основной ботлнек на практике в Deep Learning'е может быть не в вычислениях, а в доступе к памяти (для меня это было удивительно, когда узнал :D, про это я ещё упоминал здесь), то прочтение этих блогпостов поможет осознать)
Please open Telegram to view this post
VIEW IN TELEGRAM
Chipstrat
CPUs: Hardware, Yet Infinitely Adaptable Through Software
A Beginner's Guide to CPUs and the Top Companies Shaping the Future
🔥12👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Groq - "overnight success", после 8 лет труда
На прошлой неделе произошел прорыв в скорости инференса LLM. На видео сравненивается 70B модель на Groq inference и ChatGPT. Просто вау 🤯
Нашел интересные факты про компанию:
🎩 Фаундер лидил разработку TPU в гугле, но ушел делать свой стартап чтобы такая мощная технология была общедоступной
⏱️ Стартап основан в 2016 году, даже до изобретения Трансформеров. И начинали они с ускорения сверток в Computer Vision
👑 Nvidia монополист с 99% долей рынка, потому что имеют hardware + оптимизированный software. Поэтому компании, которые просто пытаются сделать быстрый чип не взлетят - нужно делать весь стек. В Groq и чип, и компилятор, и софт для сервинга LLM
🔄 Groq делают чипы с 14нм техпроцессом - что считается уже сильно устаревшим. Nvidia H100 используют 4нм. В общем, перспективы у Groq хорошие
Мне кажется, что это реально важный прорыв и ощутимая угроза монополии Nvidia (на горизонте 5-10 лет).
❗️ Плюс скорость всегда можно обменивать на качество: Chain of Thought, K candidates + rank, etc
Можно послушать подкаст с их фаундером здесь.
На прошлой неделе произошел прорыв в скорости инференса LLM. На видео сравненивается 70B модель на Groq inference и ChatGPT. Просто вау 🤯
Нашел интересные факты про компанию:
🎩 Фаундер лидил разработку TPU в гугле, но ушел делать свой стартап чтобы такая мощная технология была общедоступной
⏱️ Стартап основан в 2016 году, даже до изобретения Трансформеров. И начинали они с ускорения сверток в Computer Vision
👑 Nvidia монополист с 99% долей рынка, потому что имеют hardware + оптимизированный software. Поэтому компании, которые просто пытаются сделать быстрый чип не взлетят - нужно делать весь стек. В Groq и чип, и компилятор, и софт для сервинга LLM
🔄 Groq делают чипы с 14нм техпроцессом - что считается уже сильно устаревшим. Nvidia H100 используют 4нм. В общем, перспективы у Groq хорошие
Мне кажется, что это реально важный прорыв и ощутимая угроза монополии Nvidia (на горизонте 5-10 лет).
❗️ Плюс скорость всегда можно обменивать на качество: Chain of Thought, K candidates + rank, etc
Можно послушать подкаст с их фаундером здесь.
👍19🔥11❤3🤯1
Кофаундер OpenAI John Schulman, придумавший PPO и другие прорывные алгоритмы, написал как-то пост о том, как делать ML research. На него же ссылается Сэм Альтман в своем блоге, рассказывая про общее между топовыми учеными и предпринимателями.
Советы на самом деле полезны не только ученым, но и в контексте стартапов и прикладного ML/DL, поэтому выписал кое-что (но сам пост тоже рекомендую):
1️⃣ Выбор проблемы
Это самое важное. Какие бы крутые технические навыки ни были, если работать над тупиковой идеей / очень сложной задачей с небольшой потенциальной пользой / невыполнимой с текущими ресурсами / etc - прорывного результата не будет.
Это как полгода пилить фичу, которая после запуска никому не нужна. В стартапах такое обходят за счет MVP и быстрых итераций.
Или обучать 2 года модели по классификации чего-нибудь, а потом появляется ChatGPT и сразу решает эту задачу лучше. С темпами прогресса в AI надо хорошенько обдумывать, будет ли твоя работа актуальна хотя бы через месяца 2.
2️⃣ Прогресс в решении
Тут 2 совета: (1) записывать, что было сделано, и регулярно рефлексировать над этим, (2) и не менять направление работы слишком часто. По его опыту, люди чаще не дожимают идею и переключаются, чем бьются слишком долго над чем то нежизнеспособным.
Если про сделанное нельзя написать блогпост / статью с результатами, то проект не проработан достаточно.
Аналогично с продуктовыми / техническими гипотезами - если первая версия подхода не сработала и нет понимания почему, то останавливаться рано.
3️⃣ Личное развитие
Осознанно выделять время под обучение - повышает шансы сделать что-то классное. Особенно рекомендует читать учебники, так как в них очень плотно изложены десятки хороших идей, и PhD theses, которые содержат стройный обзор прошлого и прогнозы на будущее. Статьи читать конечно тоже нужно, чтобы отслеживать тренды и быть на передовом крае.
Вообще, в любой области есть книги - база, чтение которых сэкономит кучу времени и научит думать по новому.
Вот такие мудрости от кофаундера OpenAI. Мотаю на ус 📝
Советы на самом деле полезны не только ученым, но и в контексте стартапов и прикладного ML/DL, поэтому выписал кое-что (но сам пост тоже рекомендую):
1️⃣ Выбор проблемы
Это самое важное. Какие бы крутые технические навыки ни были, если работать над тупиковой идеей / очень сложной задачей с небольшой потенциальной пользой / невыполнимой с текущими ресурсами / etc - прорывного результата не будет.
Это как полгода пилить фичу, которая после запуска никому не нужна. В стартапах такое обходят за счет MVP и быстрых итераций.
Или обучать 2 года модели по классификации чего-нибудь, а потом появляется ChatGPT и сразу решает эту задачу лучше. С темпами прогресса в AI надо хорошенько обдумывать, будет ли твоя работа актуальна хотя бы через месяца 2.
2️⃣ Прогресс в решении
Тут 2 совета: (1) записывать, что было сделано, и регулярно рефлексировать над этим, (2) и не менять направление работы слишком часто. По его опыту, люди чаще не дожимают идею и переключаются, чем бьются слишком долго над чем то нежизнеспособным.
Если про сделанное нельзя написать блогпост / статью с результатами, то проект не проработан достаточно.
Аналогично с продуктовыми / техническими гипотезами - если первая версия подхода не сработала и нет понимания почему, то останавливаться рано.
3️⃣ Личное развитие
Осознанно выделять время под обучение - повышает шансы сделать что-то классное. Особенно рекомендует читать учебники, так как в них очень плотно изложены десятки хороших идей, и PhD theses, которые содержат стройный обзор прошлого и прогнозы на будущее. Статьи читать конечно тоже нужно, чтобы отслеживать тренды и быть на передовом крае.
Вообще, в любой области есть книги - база, чтение которых сэкономит кучу времени и научит думать по новому.
Вот такие мудрости от кофаундера OpenAI. Мотаю на ус 📝
👍15🔥3🤔1🎉1
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
DeepMind недавно выпустил статью про улучшение лосса у LLM при том же бюджете на компьют.
Основано всё на том, что трансформеры используют компьют неоптимально: не на все токены нужно прогонять все слои, не на все токены нужно аттендиться.
Роутер в Mixture-of-Experts определяет, в какой MLP подать токен. В этой же работе роутер Mixture-of-Depths определяет, прогонять ли токен через Self-Attention & MLP или оставить его как есть. Получается, что через слой MoD проходит только часть токенов (часть входной последовательности).
То есть на обучении (когда делаем forward pass сразу на всей последовательности)
(1) через каждый слой (= глубину LLM) проходит заранее заданное число токенов K, которое может быть сильно меньше общей длины (авторы 12.5% используют, правда слой MoD чередуется с обычным транcформером, где всё используется)
(2) Self-Attention вычисляется на этом же подмножестве из выбранных top-K токенов
Роутер обучаемый, для каждого токена выдает одно число: его важность для данного слоя.
Ещё одно преимущество подхода: константа K задается заранее, поэтому вычислительный граф при обучении не меняется (статичный). В Self-Attention & MLP всегда пойдет K токенов. Это дает доп выигрыш в скорости.
Таким образом, варьируя K можно делать трейдофф между качеством и скоростью, достигать лучшего лосса при заданном бюджете на компьют.
В общем, архитектура трансформера достаточно неоптимальная и заметное ускорение при том же качестве можно выжимать и на software части, а не только hardware.
@building_singularity
DeepMind недавно выпустил статью про улучшение лосса у LLM при том же бюджете на компьют.
Основано всё на том, что трансформеры используют компьют неоптимально: не на все токены нужно прогонять все слои, не на все токены нужно аттендиться.
Роутер в Mixture-of-Experts определяет, в какой MLP подать токен. В этой же работе роутер Mixture-of-Depths определяет, прогонять ли токен через Self-Attention & MLP или оставить его как есть. Получается, что через слой MoD проходит только часть токенов (часть входной последовательности).
То есть на обучении (когда делаем forward pass сразу на всей последовательности)
(1) через каждый слой (= глубину LLM) проходит заранее заданное число токенов K, которое может быть сильно меньше общей длины (авторы 12.5% используют, правда слой MoD чередуется с обычным транcформером, где всё используется)
(2) Self-Attention вычисляется на этом же подмножестве из выбранных top-K токенов
Роутер обучаемый, для каждого токена выдает одно число: его важность для данного слоя.
Ещё одно преимущество подхода: константа K задается заранее, поэтому вычислительный граф при обучении не меняется (статичный). В Self-Attention & MLP всегда пойдет K токенов. Это дает доп выигрыш в скорости.
Таким образом, варьируя K можно делать трейдофф между качеством и скоростью, достигать лучшего лосса при заданном бюджете на компьют.
В общем, архитектура трансформера достаточно неоптимальная и заметное ускорение при том же качестве можно выжимать и на software части, а не только hardware.
@building_singularity
👍10🔥5❤2