LiveBench - честный замер LLM
ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.
Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.
Какие обычно есть проблемы у замеров?
🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные
🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц
🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)
На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.
💗 Всё в открытом доступе: данные и код для замера
@building_singularity
ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.
Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.
Какие обычно есть проблемы у замеров?
🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные
🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц
🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)
На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤3👍2🤔1
Будущее квантизации 🔮
Квантизация - метод сжатия моделей. Позволяет использовать модели на кратно меньшем объеме ресурсов, плюс работает быстрее относительно использования полных fp16/bf16 типов. Но это конечно не за бесплатно - качество таких моделей похуже (что не всегда критично, поэтому методы сйечас распространены и полезны).
Но
🔹 Стартапы типа Groq решают проблему ресурсов более радикально и без потерь в качестве: разрабатывают не general purpose чипы, как GPU, а специфичные для AI моделей. Боттлнеки в виде memory bandwidth, актуальные при использовании GPU, не будут проблемой в новых чипах
🔹 При обучении на большем числе токенов, модели теряют больше качества при квантизации. Их становится сложней сжимать, ведь они упаковали в себя больше знаний. И дообучение на всё больших объемах данных - очевидный тренд в AI
Из этого мне кажется, что актуальность квантизации и других методов сжатия будет убывать👋
Not a career advice =)
@building_singularity
Квантизация - метод сжатия моделей. Позволяет использовать модели на кратно меньшем объеме ресурсов, плюс работает быстрее относительно использования полных fp16/bf16 типов. Но это конечно не за бесплатно - качество таких моделей похуже (что не всегда критично, поэтому методы сйечас распространены и полезны).
Но
🔹 Стартапы типа Groq решают проблему ресурсов более радикально и без потерь в качестве: разрабатывают не general purpose чипы, как GPU, а специфичные для AI моделей. Боттлнеки в виде memory bandwidth, актуальные при использовании GPU, не будут проблемой в новых чипах
🔹 При обучении на большем числе токенов, модели теряют больше качества при квантизации. Их становится сложней сжимать, ведь они упаковали в себя больше знаний. И дообучение на всё больших объемах данных - очевидный тренд в AI
Из этого мне кажется, что актуальность квантизации и других методов сжатия будет убывать
Not a career advice =)
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3🤔3❤1
Прыжок выше датасета ⬆️
Классный пример того, как модель может превзойти качество данных, на которых она обучалась.
Статья с пафосным названием Transcendence: Generative Models Can Outperform The Experts That Train Them.
В чем суть?
Взяли LLM и дообучили на шахматных партиях в формате
И оказалось, что с температурой ближе к нулю (ближе к жадной генерации), LLM играет на рейтинг выше, чем в обучающем датасете (рисунок 1 - графики для 3 датасетов).
Но есть нюанс, что такой скачок происходит только на датасетах до 1000 и до 1300.
Можете подумать, почему такое происходит. Ниже их объяснение.
Разнообразие в датасете. Игрок на 1500 + случайные ошибки ~= игрок на 1300. Поэтому, дообучаясь на победных ходах + разнообразных ошибках, LLM научилась больший вес давать правильному ответу. И при жадной генерации мы всегда выбираем именно этот ход.
Пример. Если мы усредним игрока, который выбирает в 40% верный ход А и в 60% неверные ходы B, и игрока, который выбирает в 40% верный ход А и в 60% неверные ходы C, то получим 40% на верный ход и по 30% на неверные. Что при 0-ой температуре даст строго верный ход.
Блогпост с картинками, формулами, кодом, датасетом, моделями.
@building_singularity
Классный пример того, как модель может превзойти качество данных, на которых она обучалась.
Статья с пафосным названием Transcendence: Generative Models Can Outperform The Experts That Train Them.
В чем суть?
Взяли LLM и дообучили на шахматных партиях в формате
1.e4 e5 2.Nf3 Nc6 3.Bb5 ... 1/2-1/2
. Было 3 датасета: партии игроков до 1000 рейтинга, до 1300, и до 1500.И оказалось, что с температурой ближе к нулю (ближе к жадной генерации), LLM играет на рейтинг выше, чем в обучающем датасете (рисунок 1 - графики для 3 датасетов).
Но есть нюанс, что такой скачок происходит только на датасетах до 1000 и до 1300.
Можете подумать, почему такое происходит. Ниже их объяснение.
Пример. Если мы усредним игрока, который выбирает в 40% верный ход А и в 60% неверные ходы B, и игрока, который выбирает в 40% верный ход А и в 60% неверные ходы C, то получим 40% на верный ход и по 30% на неверные. Что при 0-ой температуре даст строго верный ход.
Блогпост с картинками, формулами, кодом, датасетом, моделями.
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥4❤2🤔1
Fast Constrained Decoding ⚡️
Есть такой юскейс у LLM, когда надо генерить строго в JSON/YAML формате. Это очень удобно, потому что такой ответ легко парсить. Мы его применяем, например, когда надо классифицирровать текст на несколько аттрибутов.
У этих форматов есть правила: каждая открытая скобка должна закрыться, ключи обязательно в кавычках и тд
И когда LLM, вероятностная по своей природе, пытается решить такую задачу, могут возникнуть проблемы типа генерации невалидного JSON'а.
Так вот, в SGLang (про который тут есть хороший пост) реализован быстрый constrained decoding с использованием конечных автоматов. И на JSON'е он работает очень хорошо (см гифку)
✍️ Суть в том, что мы можем пропускать генерацию некоторых токенов, когда только один подходит (для ускорения), и ограничивать возможные токены для генерации через logit bias (для корректности).
Подробный блогпост от авторов на эту тему. Очень рекомендую к ознакомлению👍
И обрартите внимание на то, как это можно использовать в коде (на скрине и тут в примерах). На мой взгляд это прям next level удобства и скорости для агентов и function calling🦾
@building_singularity
Есть такой юскейс у LLM, когда надо генерить строго в JSON/YAML формате. Это очень удобно, потому что такой ответ легко парсить. Мы его применяем, например, когда надо классифицирровать текст на несколько аттрибутов.
У этих форматов есть правила: каждая открытая скобка должна закрыться, ключи обязательно в кавычках и тд
И когда LLM, вероятностная по своей природе, пытается решить такую задачу, могут возникнуть проблемы типа генерации невалидного JSON'а.
Так вот, в SGLang (про который тут есть хороший пост) реализован быстрый constrained decoding с использованием конечных автоматов. И на JSON'е он работает очень хорошо (см гифку)
✍️ Суть в том, что мы можем пропускать генерацию некоторых токенов, когда только один подходит (для ускорения), и ограничивать возможные токены для генерации через logit bias (для корректности).
Подробный блогпост от авторов на эту тему. Очень рекомендую к ознакомлению
И обрартите внимание на то, как это можно использовать в коде (на скрине и тут в примерах). На мой взгляд это прям next level удобства и скорости для агентов и function calling
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3❤2
У нас тут в Ex-Human появилась классная вакансия на Senior NLP инженера
⚡ https://botifyai.notion.site/Senior-NLP-Engineer-90a1dbe0d9c3473eb5c9301e2779ce48 ⚡
Если коротко, то Ex-Human это
- американский стартап с инвестициями от ведущих VC (a16z, Baidu Ventures, ...)
- делаем вселенную ботов и продаем технологию b2b
- миллионы сообщений в день, средний таймспент пользователя больше 1 часа
- очень крутая команда
Так вот, сейчас в нашу NLP команду нужен NLP инженер с сильным техническим бэкграундом.
Главная цель: улучшать наш Conversational AI (дообучение, ускорение, safety, etc) и продукт за счет AI-based фичей.
Условия
- 100% remote
- $5k - $7k / month
Более подробно про задачи и условия написано в ➡️ вакансии ⬅️
Скидывайте свои резюме мне в телеграм (@leshanbog) и делитесь вакансией с друзьями =)
⚡ https://botifyai.notion.site/Senior-NLP-Engineer-90a1dbe0d9c3473eb5c9301e2779ce48 ⚡
Если коротко, то Ex-Human это
- американский стартап с инвестициями от ведущих VC (a16z, Baidu Ventures, ...)
- делаем вселенную ботов и продаем технологию b2b
- миллионы сообщений в день, средний таймспент пользователя больше 1 часа
- очень крутая команда
Так вот, сейчас в нашу NLP команду нужен NLP инженер с сильным техническим бэкграундом.
Главная цель: улучшать наш Conversational AI (дообучение, ускорение, safety, etc) и продукт за счет AI-based фичей.
Условия
- 100% remote
- $5k - $7k / month
Более подробно про задачи и условия написано в ➡️ вакансии ⬅️
Скидывайте свои резюме мне в телеграм (@leshanbog) и делитесь вакансией с друзьями =)
botifyai on Notion
Senior NLP Engineer | Notion
В американский AI стартап Ex-human требуется NLP инженер с сильным техническим бэкграундом для разработки и улучшения Conversational AI стека.
🔥21👍3❤2🎉1
Andrew Ng про цену LLM инференса
За последний год цена на лучшую модель OpenAI уменьшилась на 79%.
Почему?
💸 Конкурирующие LLM инференс провайдеры (anyscale, together, etc) вкладывают кучу денег в оптимизацию инференса опенсорсных моделей. Ведь дорогущее предобучение сделает какая нибудь Meta =) Поэтому и OpenAI приходится снижать цену
🚀 Успехи стартапов типа Groq позволяют делать безопасный прогноз на ещё более значительное снижение в будущем. Ну и гиганты типа nvidia/amd не сидят без дела
🧠 Появление более умной модели ганартирует появление более эффективной (через дистилляцию). А модель поменьше инферить ещё дешевле
Отсюда логичный совет: фокусироваться на построении полезных продуктов, а не на оптимизации LLM костов.
Если, например, пайплайн с агентом сейчас экономически невыгоден, скорее всего это изменится в будущем
Твит Эндрю
@building_singularity
За последний год цена на лучшую модель OpenAI уменьшилась на 79%.
Почему?
💸 Конкурирующие LLM инференс провайдеры (anyscale, together, etc) вкладывают кучу денег в оптимизацию инференса опенсорсных моделей. Ведь дорогущее предобучение сделает какая нибудь Meta =) Поэтому и OpenAI приходится снижать цену
🚀 Успехи стартапов типа Groq позволяют делать безопасный прогноз на ещё более значительное снижение в будущем. Ну и гиганты типа nvidia/amd не сидят без дела
🧠 Появление более умной модели ганартирует появление более эффективной (через дистилляцию). А модель поменьше инферить ещё дешевле
Отсюда логичный совет: фокусироваться на построении полезных продуктов, а не на оптимизации LLM костов.
Если, например, пайплайн с агентом сейчас экономически невыгоден, скорее всего это изменится в будущем
Твит Эндрю
@building_singularity
👍21🔥5❤2
Big life update 🚀
Были довольно напряжные и загруженные несколько месяцев, но всё это оказалось не зря: за это время я наконец таки переехал на долгосрочное место жительства, после пары лет путешествий. И этим местом стал Лондон 🇬🇧
Переехал по Global Talent визе, собрав её самостоятельно (без агентства), пользуясь опытом людей из очень полезного чата на эту тему @globaltalenthowto, и советами Вани @neural_cat, получившего её на полгода раньше. И в целом, спасибо всем кто помогал с этим 🙏
В начале казалось, что оформить кейс будет очень тяжело, почти нереально. В итоге это и оказалось тяжело :D но выполнимо.
Ещё успел подготовить и прочитать лекции на паре курсов про LLM, увидеть коллег и некоторых старых знакомых вживую. В Лондоне оказалось много классных людей.
Сейчас возвращаюсь к своей рутине, и уже запланировал написать полезных и интересных постов 📚
Если есть вопросы по получению UK Global Talent визы, спрашивайте!
@building_singularity
Были довольно напряжные и загруженные несколько месяцев, но всё это оказалось не зря: за это время я наконец таки переехал на долгосрочное место жительства, после пары лет путешествий. И этим местом стал Лондон 🇬🇧
Переехал по Global Talent визе, собрав её самостоятельно (без агентства), пользуясь опытом людей из очень полезного чата на эту тему @globaltalenthowto, и советами Вани @neural_cat, получившего её на полгода раньше. И в целом, спасибо всем кто помогал с этим 🙏
В начале казалось, что оформить кейс будет очень тяжело, почти нереально. В итоге это и оказалось тяжело :D но выполнимо.
Ещё успел подготовить и прочитать лекции на паре курсов про LLM, увидеть коллег и некоторых старых знакомых вживую. В Лондоне оказалось много классных людей.
Сейчас возвращаюсь к своей рутине, и уже запланировал написать полезных и интересных постов 📚
Если есть вопросы по получению UK Global Talent визы, спрашивайте!
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31🎉12👍2
H100 девешле A100
Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.
Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)
В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.
А стоит она не в 2.5 раза дороже. Вот и экономия💸
То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.
Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.
В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле
(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)
@building_singularity
Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.
Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)
В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.
А стоит она не в 2.5 раза дороже. Вот и экономия
То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.
Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.
В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле
(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)
@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍9❤6
Последние 5 месяцев работаю в стартапе Slingshot AI. И сегодня мы публично анонсируем наш продукт: Ash, AI for Therapy
Мы обучаем foundational LLM для терапии и делаем продукт вокруг неё. В отличие от general-purpose LLM типа ChatGPT, которые чаще всего
- просто валидируют эмоции в 90% случаев
- дают сразу 5 разных вариантов перестать тревожиться
- со всем соглашаются
- не строят долгосрочного плана
мы делаем продукт, который будет подстраиваться под ситуацию пользователя, строить долгосрочный план, улучшать его жизнь.
У нас крутая команда ML и клинических психологов, и мы планируем изобрести новый вид терапии 😀
Мы очень стараемся сделать полезный продукт, и нам повезло поднять $93M от крутых инвесторов. Поэтому сейчас можно использовать Ash бесплатно, и в будущем существенная часть продукта точно будет оставаться бесплатной!)
Попробовать Ash
Мы обучаем foundational LLM для терапии и делаем продукт вокруг неё. В отличие от general-purpose LLM типа ChatGPT, которые чаще всего
- просто валидируют эмоции в 90% случаев
- дают сразу 5 разных вариантов перестать тревожиться
- со всем соглашаются
- не строят долгосрочного плана
мы делаем продукт, который будет подстраиваться под ситуацию пользователя, строить долгосрочный план, улучшать его жизнь.
У нас крутая команда ML и клинических психологов, и мы планируем изобрести новый вид терапии 😀
Мы очень стараемся сделать полезный продукт, и нам повезло поднять $93M от крутых инвесторов. Поэтому сейчас можно использовать Ash бесплатно, и в будущем существенная часть продукта точно будет оставаться бесплатной!)
Попробовать Ash
👍23🔥9👎3🎉3🤔1