Простой хак, чтобы выжать больше качества из Instruct-based LLM
Все ещё в ожидании, когда промпт инжиниринг перестанет быть актуальным😵💫
Ну а пока вот вам лайфхак, как заставить LLM’ки отвечать лучше: апеллируйте к эмоциям. В статье показали, что добавление в конец промпта эмоциональную добавку типа
Замерили как на генеративных задачах с помощью асессоров, так и на дискриминативных с помощью обычных метрик типа accuracy. Везде есть прирост. Выиграли даже у мощнешйего бейзлайна👏
Объясняют это тем, что эмоциональная добавка делает так, что модель уделяет больше внимания и на сам промпт перед ней (рис. 2).
Но вообще если приглядеться, то в статье не совсем корректные сравнения: 1 гипотеза с оригинальным промптом сравнивается с максимальным качеством по 11 разным эмоциональным добавкам. И на их усредненном значении видно, что работает это не всегда лучше (рис. 3). Впрочем, чаще всего даже среднее выигрывает, так что подход точно имеет смысл попробовать! ✔
Все ещё в ожидании, когда промпт инжиниринг перестанет быть актуальным
Ну а пока вот вам лайфхак, как заставить LLM’ки отвечать лучше: апеллируйте к эмоциям. В статье показали, что добавление в конец промпта эмоциональную добавку типа
This is very important to my career
улучшает качество.Замерили как на генеративных задачах с помощью асессоров, так и на дискриминативных с помощью обычных метрик типа accuracy. Везде есть прирост. Выиграли даже у мощнешйего бейзлайна
Let’s think step by step
Объясняют это тем, что эмоциональная добавка делает так, что модель уделяет больше внимания и на сам промпт перед ней (рис. 2).
Но вообще если приглядеться, то в статье не совсем корректные сравнения: 1 гипотеза с оригинальным промптом сравнивается с максимальным качеством по 11 разным эмоциональным добавкам. И на их усредненном значении видно, что работает это не всегда лучше (рис. 3). Впрочем, чаще всего даже среднее выигрывает, так что подход точно имеет смысл попробовать! ✔
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9😁6👍5❤1🤯1
Честный замер LLM на способность следовать инструкциям
Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)
Про второе можно почитать в этом блогпосте от lmsys, проблема важная.
А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models
Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.
Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.
Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.
Они даже выложили код👏
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.
Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)
Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)
Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)
Про второе можно почитать в этом блогпосте от lmsys, проблема важная.
А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models
Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.
Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.
Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.
Они даже выложили код
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.
Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)
Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍5❤2🤔1
Читаем подкаст за 5 минут ⌛
В гугловом bard’е есть классная фича: можно кинуть ссылку на ютуб видео и попросить короткое содержание или просто задать вопрос по нему.
Плагин в GPT-4 например отказался делать такое, так как видео очень длинное👎
Bard может и на русском языке ответ выдать👍 (хотя в России он вроде не доступен :D)
Это конечно огромное преимущество гугла: гигантский объем полезных данных в легком доступе + много продуктов с пользователями, куда ИИ можно внедрять и получать фидбек.
В гугловом bard’е есть классная фича: можно кинуть ссылку на ютуб видео и попросить короткое содержание или просто задать вопрос по нему.
Плагин в GPT-4 например отказался делать такое, так как видео очень длинное
Bard может и на русском языке ответ выдать
Это конечно огромное преимущество гугла: гигантский объем полезных данных в легком доступе + много продуктов с пользователями, куда ИИ можно внедрять и получать фидбек.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥6❤2
Всех с наступающим Новым годом! 🎉 🎊 🎉
Желаю всем найти человека, который будет вас понимать лучше, чем рекомендательные системы и любой сверхсильный ИИ 🤖
И alignment’а с самим собой, конечно же 🧘
Желаю всем найти человека, который будет вас понимать лучше, чем рекомендательные системы и любой сверхсильный ИИ 🤖
И alignment’а с самим собой, конечно же 🧘
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🎉7🔥4
Понятная и красивая диаграмма про Retrieval Augmented Generation от llamaindex - опенсорс либы, чтобы снабжать LLM’ки внешними знаниями. Про то, почему это очень круто я уже писал пост.
На диаграмме самые важные нюансы отобразили. Все сводится к тому, что нужен и точный ретривер, и генератор (робастный к плохим документам и умеющий использовать хорошие). И обе эти задачи сложные)
И обе части необходимы, чтобы это заработало хорошо.
На диаграмме самые важные нюансы отобразили. Все сводится к тому, что нужен и точный ретривер, и генератор (робастный к плохим документам и умеющий использовать хорошие). И обе эти задачи сложные)
И обе части необходимы, чтобы это заработало хорошо.
🔥7👍5❤3
(мемы немного в тему, взял здесь)
Подумал, что CEO - максимальная стадия VC (venture capitalist).
Типа VC анализирует, выбирает несколько стартапов, инвестриует. Ведь он не знает, что реально выстрелит, а что нет. Поэтому не кладет все яица в одну корзину. Диверсицифирует и надеется, что хоть в среднем будет хорошо🍞
А CEO уверенный чел, инвестирует в свой стартап 100% усилий, чтобы получить максимальный return on investment😎
(это всё шутка конечно; VC, если читаете, не обижайтесь😉 )
Подумал, что CEO - максимальная стадия VC (venture capitalist).
Типа VC анализирует, выбирает несколько стартапов, инвестриует. Ведь он не знает, что реально выстрелит, а что нет. Поэтому не кладет все яица в одну корзину. Диверсицифирует и надеется, что хоть в среднем будет хорошо
А CEO уверенный чел, инвестирует в свой стартап 100% усилий, чтобы получить максимальный return on investment
(это всё шутка конечно; VC, если читаете, не обижайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😁4🔥1🤔1🎉1
Небольшая база по dataviz'у 📊📈📉
Классный репозиторий с наглядными примерами по тому, как правильно визуализировать данные, аналитику.
Впервые про dataviz я узнал в магистратуре на предмете с названием "Математические методы визуализации данных". До первой пары я думал, что это какая то бесполезная фигня и было бы классно забить на это дело🏃♂️
Но в итоге узнал про интересные концепции и приоткрыл для себя целый новый мир dataviz'а. Например:
🔹 Про цвет полезней думать не в базисе RGB, а в базисе тон, насыщенность, яркость.
Отсюда легко понять, что можно сделать цветовую шкалу, в которой варьируется только яркость и она подойдет для данных, которые имеют направленность (можно сравнить на больше / меньше). А если данные категориальные, то нужна цветовая шкала с разными тонами.
🔹 Человек сравнивает площади и объемы сильно хуже, чем линии. Поэтому Pie Chart стоит разворачивать в Stacked Bar Plot (скрин 3)
👁 И вообще, зрительный канал обладает самой большой пропускной способностью (пока brain-computer interface еще не сделали 🚬 ). Поэтому точно полезно почитать про dataviz и использовать его эффективно, чтобы донести максимум инсайтов для воспринимающего 💡 Как в научных статьях, так и на работе.
Классный репозиторий с наглядными примерами по тому, как правильно визуализировать данные, аналитику.
Впервые про dataviz я узнал в магистратуре на предмете с названием "Математические методы визуализации данных". До первой пары я думал, что это какая то бесполезная фигня и было бы классно забить на это дело
Но в итоге узнал про интересные концепции и приоткрыл для себя целый новый мир dataviz'а. Например:
🔹 Про цвет полезней думать не в базисе RGB, а в базисе тон, насыщенность, яркость.
Отсюда легко понять, что можно сделать цветовую шкалу, в которой варьируется только яркость и она подойдет для данных, которые имеют направленность (можно сравнить на больше / меньше). А если данные категориальные, то нужна цветовая шкала с разными тонами.
🔹 Человек сравнивает площади и объемы сильно хуже, чем линии. Поэтому Pie Chart стоит разворачивать в Stacked Bar Plot (скрин 3)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5❤2
Пока Сэм Альтман собирает пару триллоинов долларов на революцию в области полупроводников, самое время разобраться в работе CPU, GPU и прочих железок.
Очень крутые и понятные блогпосты для широкой аудитории: CPU,
GPU, ASICs.
Помимо базы, которая очень кайфого изложена - с аналогиями и примерами, есть и про
- Power - Performance - Area трейдофф при дизайне чипов
- Мера энергоэффективности чипа (performance per watt) - главная метрика
- Power и Efficiency ядра в процессорах
- Фундаментальное отличие CPU и GPU
- ...
Если не до конца ясно, как основной ботлнек на практике в Deep Learning'е может быть не в вычислениях, а в доступе к памяти (для меня это было удивительно, когда узнал :D, про это я ещё упоминал здесь), то прочтение этих блогпостов поможет осознать)
🟢
Очень крутые и понятные блогпосты для широкой аудитории: CPU,
GPU, ASICs.
Помимо базы, которая очень кайфого изложена - с аналогиями и примерами, есть и про
- Power - Performance - Area трейдофф при дизайне чипов
- Мера энергоэффективности чипа (performance per watt) - главная метрика
- Power и Efficiency ядра в процессорах
- Фундаментальное отличие CPU и GPU
- ...
Если не до конца ясно, как основной ботлнек на практике в Deep Learning'е может быть не в вычислениях, а в доступе к памяти (для меня это было удивительно, когда узнал :D, про это я ещё упоминал здесь), то прочтение этих блогпостов поможет осознать)
Please open Telegram to view this post
VIEW IN TELEGRAM
Chipstrat
CPUs: Hardware, Yet Infinitely Adaptable Through Software
A Beginner's Guide to CPUs and the Top Companies Shaping the Future
🔥12👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Groq - "overnight success", после 8 лет труда
На прошлой неделе произошел прорыв в скорости инференса LLM. На видео сравненивается 70B модель на Groq inference и ChatGPT. Просто вау 🤯
Нашел интересные факты про компанию:
🎩 Фаундер лидил разработку TPU в гугле, но ушел делать свой стартап чтобы такая мощная технология была общедоступной
⏱️ Стартап основан в 2016 году, даже до изобретения Трансформеров. И начинали они с ускорения сверток в Computer Vision
👑 Nvidia монополист с 99% долей рынка, потому что имеют hardware + оптимизированный software. Поэтому компании, которые просто пытаются сделать быстрый чип не взлетят - нужно делать весь стек. В Groq и чип, и компилятор, и софт для сервинга LLM
🔄 Groq делают чипы с 14нм техпроцессом - что считается уже сильно устаревшим. Nvidia H100 используют 4нм. В общем, перспективы у Groq хорошие
Мне кажется, что это реально важный прорыв и ощутимая угроза монополии Nvidia (на горизонте 5-10 лет).
❗️ Плюс скорость всегда можно обменивать на качество: Chain of Thought, K candidates + rank, etc
Можно послушать подкаст с их фаундером здесь.
На прошлой неделе произошел прорыв в скорости инференса LLM. На видео сравненивается 70B модель на Groq inference и ChatGPT. Просто вау 🤯
Нашел интересные факты про компанию:
🎩 Фаундер лидил разработку TPU в гугле, но ушел делать свой стартап чтобы такая мощная технология была общедоступной
⏱️ Стартап основан в 2016 году, даже до изобретения Трансформеров. И начинали они с ускорения сверток в Computer Vision
👑 Nvidia монополист с 99% долей рынка, потому что имеют hardware + оптимизированный software. Поэтому компании, которые просто пытаются сделать быстрый чип не взлетят - нужно делать весь стек. В Groq и чип, и компилятор, и софт для сервинга LLM
🔄 Groq делают чипы с 14нм техпроцессом - что считается уже сильно устаревшим. Nvidia H100 используют 4нм. В общем, перспективы у Groq хорошие
Мне кажется, что это реально важный прорыв и ощутимая угроза монополии Nvidia (на горизонте 5-10 лет).
❗️ Плюс скорость всегда можно обменивать на качество: Chain of Thought, K candidates + rank, etc
Можно послушать подкаст с их фаундером здесь.
👍19🔥11❤3🤯1
Кофаундер OpenAI John Schulman, придумавший PPO и другие прорывные алгоритмы, написал как-то пост о том, как делать ML research. На него же ссылается Сэм Альтман в своем блоге, рассказывая про общее между топовыми учеными и предпринимателями.
Советы на самом деле полезны не только ученым, но и в контексте стартапов и прикладного ML/DL, поэтому выписал кое-что (но сам пост тоже рекомендую):
1️⃣ Выбор проблемы
Это самое важное. Какие бы крутые технические навыки ни были, если работать над тупиковой идеей / очень сложной задачей с небольшой потенциальной пользой / невыполнимой с текущими ресурсами / etc - прорывного результата не будет.
Это как полгода пилить фичу, которая после запуска никому не нужна. В стартапах такое обходят за счет MVP и быстрых итераций.
Или обучать 2 года модели по классификации чего-нибудь, а потом появляется ChatGPT и сразу решает эту задачу лучше. С темпами прогресса в AI надо хорошенько обдумывать, будет ли твоя работа актуальна хотя бы через месяца 2.
2️⃣ Прогресс в решении
Тут 2 совета: (1) записывать, что было сделано, и регулярно рефлексировать над этим, (2) и не менять направление работы слишком часто. По его опыту, люди чаще не дожимают идею и переключаются, чем бьются слишком долго над чем то нежизнеспособным.
Если про сделанное нельзя написать блогпост / статью с результатами, то проект не проработан достаточно.
Аналогично с продуктовыми / техническими гипотезами - если первая версия подхода не сработала и нет понимания почему, то останавливаться рано.
3️⃣ Личное развитие
Осознанно выделять время под обучение - повышает шансы сделать что-то классное. Особенно рекомендует читать учебники, так как в них очень плотно изложены десятки хороших идей, и PhD theses, которые содержат стройный обзор прошлого и прогнозы на будущее. Статьи читать конечно тоже нужно, чтобы отслеживать тренды и быть на передовом крае.
Вообще, в любой области есть книги - база, чтение которых сэкономит кучу времени и научит думать по новому.
Вот такие мудрости от кофаундера OpenAI. Мотаю на ус 📝
Советы на самом деле полезны не только ученым, но и в контексте стартапов и прикладного ML/DL, поэтому выписал кое-что (но сам пост тоже рекомендую):
1️⃣ Выбор проблемы
Это самое важное. Какие бы крутые технические навыки ни были, если работать над тупиковой идеей / очень сложной задачей с небольшой потенциальной пользой / невыполнимой с текущими ресурсами / etc - прорывного результата не будет.
Это как полгода пилить фичу, которая после запуска никому не нужна. В стартапах такое обходят за счет MVP и быстрых итераций.
Или обучать 2 года модели по классификации чего-нибудь, а потом появляется ChatGPT и сразу решает эту задачу лучше. С темпами прогресса в AI надо хорошенько обдумывать, будет ли твоя работа актуальна хотя бы через месяца 2.
2️⃣ Прогресс в решении
Тут 2 совета: (1) записывать, что было сделано, и регулярно рефлексировать над этим, (2) и не менять направление работы слишком часто. По его опыту, люди чаще не дожимают идею и переключаются, чем бьются слишком долго над чем то нежизнеспособным.
Если про сделанное нельзя написать блогпост / статью с результатами, то проект не проработан достаточно.
Аналогично с продуктовыми / техническими гипотезами - если первая версия подхода не сработала и нет понимания почему, то останавливаться рано.
3️⃣ Личное развитие
Осознанно выделять время под обучение - повышает шансы сделать что-то классное. Особенно рекомендует читать учебники, так как в них очень плотно изложены десятки хороших идей, и PhD theses, которые содержат стройный обзор прошлого и прогнозы на будущее. Статьи читать конечно тоже нужно, чтобы отслеживать тренды и быть на передовом крае.
Вообще, в любой области есть книги - база, чтение которых сэкономит кучу времени и научит думать по новому.
Вот такие мудрости от кофаундера OpenAI. Мотаю на ус 📝
👍15🔥3🤔1🎉1