У Nvidia проблемы - Blackwell задерживается
В суперчипах GB200 нашли изъян - у чипа, отвечающего за связь двух B200 друг с другом и с Grace CPU, слишком большое количество производственных дефектов. Чтобы удовлетворить гигантский спрос, его нужно редизайнить. Если всё пойдёт хорошо, Blackwell поставят на три месяца позже планируемого срока.
Это заметно задержит развёртывание ряда кластеров: Microsoft хотела дать OpenAI доступ к 50 тыс.+ GPU нового поколения к началу 2025 года, Google заказал 400 тыс. GPU для своего облака, ряд других технологических гигантов сделали заказы на 10+ миллиардов долларов. Из-за этого новое поколение моделей, для тренировки которых и нужны новые кластеры, задержится на несколько месяцев.
@ai_newz
В суперчипах GB200 нашли изъян - у чипа, отвечающего за связь двух B200 друг с другом и с Grace CPU, слишком большое количество производственных дефектов. Чтобы удовлетворить гигантский спрос, его нужно редизайнить. Если всё пойдёт хорошо, Blackwell поставят на три месяца позже планируемого срока.
Это заметно задержит развёртывание ряда кластеров: Microsoft хотела дать OpenAI доступ к 50 тыс.+ GPU нового поколения к началу 2025 года, Google заказал 400 тыс. GPU для своего облака, ряд других технологических гигантов сделали заказы на 10+ миллиардов долларов. Из-за этого новое поколение моделей, для тренировки которых и нужны новые кластеры, задержится на несколько месяцев.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Whisper Medusa - сверхбыстрое распознавание речи
Файнтюн Whisper со слегка изменённой архитектурой - теперь за одну итерацию модель выдаёт несколько токенов, а не один. В разы ускоряет декодинг, но качество слегка проседает.
Подход похож на недавнюю Multi-Token Prediction Language Model от коллег из Meta, только тут это применили для распознавания речи
Ждём когда это применят к Distil Whisper
Код
Веса
@ai_newz
Файнтюн Whisper со слегка изменённой архитектурой - теперь за одну итерацию модель выдаёт несколько токенов, а не один. В разы ускоряет декодинг, но качество слегка проседает.
Подход похож на недавнюю Multi-Token Prediction Language Model от коллег из Meta, только тут это применили для распознавания речи
Ждём когда это применят к Distil Whisper
Код
Веса
@ai_newz
Стартап Exactly.ai ищет Head of ML Engineering
Exactly.ai — это платформа, позволяющий художникам тренировать ML-модели на своих иллюстрациях и предоставлять их в аренду брендам. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников. Exactly.ai — самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В прошлом году Google включил Exactly.ai в топ-15 лучших стартапов. Компания привлекла Seed Round и стремится к расширению.
Мы ищем специалиста с опытом в ML-инженерии и руководстве командой, который будет играть ключевую роль в развитии наших технологий.
Ваша работа будет включать разработку и внедрение инновационных ML решений, оптимизацию и улучшение существующих алгоритмов и моделей, а также управление командой ML-инженеров.
Крутая команда, конкурентная зарплата, опцион, офис в Лондоне с возможностью удаленной работы, подробности.
Если вам интересно, отправьте ваше резюме и сопроводительное письмо на [email protected]
#промо
Exactly.ai — это платформа, позволяющий художникам тренировать ML-модели на своих иллюстрациях и предоставлять их в аренду брендам. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников. Exactly.ai — самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В прошлом году Google включил Exactly.ai в топ-15 лучших стартапов. Компания привлекла Seed Round и стремится к расширению.
Мы ищем специалиста с опытом в ML-инженерии и руководстве командой, который будет играть ключевую роль в развитии наших технологий.
Ваша работа будет включать разработку и внедрение инновационных ML решений, оптимизацию и улучшение существующих алгоритмов и моделей, а также управление командой ML-инженеров.
Крутая команда, конкурентная зарплата, опцион, офис в Лондоне с возможностью удаленной работы, подробности.
Если вам интересно, отправьте ваше резюме и сопроводительное письмо на [email protected]
#промо
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
В последнее время, увеличение размера словаря токенизатора для LLM всплывало в основном как метод улучшения многоязычного перформанса. Но часто народ забывает, что увеличение размера словаря ещё и позволяет пропустить через LLM больше текста при том же компьюте (потому что в каждый токен, в среднем, будет влезать больше букв), тем самым повысив эффективность тренировки и улучшив результаты модели. Но где предел такому росту эффективности?
В этом пейпере авторы натренировали ряд моделей с разными размерами словаря токенизатора и вывели формулу для расчёта оптимальных размеров. Вот основные выводы:
➖ У большинства современных моделей словари слишком маленькие, результаты можно заметно улучшить просто его увеличив.
➖ Оптимальный размер словаря растёт очень медленно - с увеличением модели в 100 раз, оптимальный словарь растёт в 10.
➖ Модели учатся хуже как со словарём больше оптимального, так и меньше оптимального.
➖ Если есть ограничение в размере датасета, иногда лучше использовать неоптимальный токенизатор, чтобы увеличить количество токенов, и тем самым улучшить результаты.
➖ Оптимальный размер словаря токенизатора Llama 3.1 405B - полмиллиона токенов, в 4 раза больше оригинального словаря.
Токенизаторы — это всё ещё очень плохо изученная тема, и даже большие лабы делают тут банальные ошибки. Если хотите разобраться как они работают сейчас, то вот лучший туториал.
Пейпер
@ai_newz
В последнее время, увеличение размера словаря токенизатора для LLM всплывало в основном как метод улучшения многоязычного перформанса. Но часто народ забывает, что увеличение размера словаря ещё и позволяет пропустить через LLM больше текста при том же компьюте (потому что в каждый токен, в среднем, будет влезать больше букв), тем самым повысив эффективность тренировки и улучшив результаты модели. Но где предел такому росту эффективности?
В этом пейпере авторы натренировали ряд моделей с разными размерами словаря токенизатора и вывели формулу для расчёта оптимальных размеров. Вот основные выводы:
➖ У большинства современных моделей словари слишком маленькие, результаты можно заметно улучшить просто его увеличив.
➖ Оптимальный размер словаря растёт очень медленно - с увеличением модели в 100 раз, оптимальный словарь растёт в 10.
➖ Модели учатся хуже как со словарём больше оптимального, так и меньше оптимального.
➖ Если есть ограничение в размере датасета, иногда лучше использовать неоптимальный токенизатор, чтобы увеличить количество токенов, и тем самым улучшить результаты.
➖ Оптимальный размер словаря токенизатора Llama 3.1 405B - полмиллиона токенов, в 4 раза больше оригинального словаря.
Токенизаторы — это всё ещё очень плохо изученная тема, и даже большие лабы делают тут банальные ошибки. Если хотите разобраться как они работают сейчас, то вот лучший туториал.
Пейпер
@ai_newz
Варшава x ai_newz!
Друзья, я еду Варшаву на несколько дней! Хочется поотдыхать и поработать в новой обстановке, и, конечно, поесть белорусской, украинской и польской вкуснятины (кстати, посоветуйте хорошие места)!
Я знаю, что там должно быть очень большое комьюнити наших ребят. Было бы круто сделать сходку, познакомиться. В этом году я так уже делал в Сан-Франциско и Тбилиси – это были всегда очень классные встречи.
Если вы сейчас в Варшаве, вступайте в чат, там договоримся, когда и где организуем митап:
https://t.iss.one/+XZX3N3B-DP9mZjUy
#personal
@ai_newz
Друзья, я еду Варшаву на несколько дней! Хочется поотдыхать и поработать в новой обстановке, и, конечно, поесть белорусской, украинской и польской вкуснятины (кстати, посоветуйте хорошие места)!
Я знаю, что там должно быть очень большое комьюнити наших ребят. Было бы круто сделать сходку, познакомиться. В этом году я так уже делал в Сан-Франциско и Тбилиси – это были всегда очень классные встречи.
Если вы сейчас в Варшаве, вступайте в чат, там договоримся, когда и где организуем митап:
https://t.iss.one/+XZX3N3B-DP9mZjUy
#personal
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео от Black Forest Labs
Они релизнули FLUX.1 всего неделю назад, а уже тизерят SOTA видеогенерацию. Видео искажено эффектом телевизора, но выглядит очень впечатляюще.
Ребята наглядно показывают насколько в Stability был фиговый менеджмент. Если за полгода с нуля те же самые люди, которые сделали SD3 забахали такое, то в Stability всё очень запущено, некому пилить ресерчи, а новый менеджмент может и не спасти.
Как думаете, будет опенсорс?
@ai_newz
Они релизнули FLUX.1 всего неделю назад, а уже тизерят SOTA видеогенерацию. Видео искажено эффектом телевизора, но выглядит очень впечатляюще.
Ребята наглядно показывают насколько в Stability был фиговый менеджмент. Если за полгода с нуля те же самые люди, которые сделали SD3 забахали такое, то в Stability всё очень запущено, некому пилить ресерчи, а новый менеджмент может и не спасти.
Как думаете, будет опенсорс?
@ai_newz
Дешёвые, как грязь, LLM
API-провайдеры невероятно быстро снижают стоимость использования своих LLM. При отсутствии ярко выраженного лидера по качеству моделей, главным аргументом становится цена.
➖ Google с 12 августа дропает цены на Gemini Flash на 80%. Вот и реакция на GPT-4o mini, спустя две недели после релиза. Вот бы то же самое сделали с Pro 1.5.
➖ Новая версия GPT-4o упала в цене до $2.5 input/$10 output за миллион токенов, прошлые версии стоили $5 input/$15 output за миллион токенов. Последний месяц Claude 3.5 Sonnet и Llama 3.1 405B сильно поджимали OpenAI по цене, пришлось отвечать.
➖Deepseek релизит обещанный месяц назад Context Caching. Цены поражают: стоимость токенов при попадании в кэш падает не в 2x, как у гугла, а в 10x, при этом с бесплатным хранением. DeepSeek V2 и так произвёл эффект разорвавшейся бомбы на китайском рынке три месяца назад: модель была в разы дешевле конкурентов, при лучшем качестве. А сейчас нанесли добивающий удар.
С такими темпами цена за миллион токенов станет меньше цента менее чем через год. И будем мы мерять цены в долларах за миллиард токенов.
А помните, цены на GPT-4 доходили до $60 input/$120 output?
@ai_newz
API-провайдеры невероятно быстро снижают стоимость использования своих LLM. При отсутствии ярко выраженного лидера по качеству моделей, главным аргументом становится цена.
➖ Google с 12 августа дропает цены на Gemini Flash на 80%. Вот и реакция на GPT-4o mini, спустя две недели после релиза. Вот бы то же самое сделали с Pro 1.5.
➖ Новая версия GPT-4o упала в цене до $2.5 input/$10 output за миллион токенов, прошлые версии стоили $5 input/$15 output за миллион токенов. Последний месяц Claude 3.5 Sonnet и Llama 3.1 405B сильно поджимали OpenAI по цене, пришлось отвечать.
➖Deepseek релизит обещанный месяц назад Context Caching. Цены поражают: стоимость токенов при попадании в кэш падает не в 2x, как у гугла, а в 10x, при этом с бесплатным хранением. DeepSeek V2 и так произвёл эффект разорвавшейся бомбы на китайском рынке три месяца назад: модель была в разы дешевле конкурентов, при лучшем качестве. А сейчас нанесли добивающий удар.
С такими темпами цена за миллион токенов станет меньше цента менее чем через год. И будем мы мерять цены в долларах за миллиард токенов.
А помните, цены на GPT-4 доходили до $60 input/$120 output?
@ai_newz
Вместе с анонсом понижения цен на Gemini Flash, Google анонсировали ещё и доступность тюнинга моделей Gemini для всех разработчиков. Я тогда как-то анонс пропустил, а ведь это разрыв:
➖ Тюнинг бесплатный. Совсем. Не только для Flash, но и для Pro.
➖ Цена инференса затюнненных такая же как и у обычных моделей (у OpenAI затюненные модели стоят в два раза дороже).
Работает это, скорее всего, через что-то похожее на batched LoRa. Из-за этого качество тюнов на больших датасетах может страдать, насколько - нужно тестить. Кстати API Gemini до определённых лимитов можно использовать бесплатно, за право тюнинга на ваших запросах.
@ai_newz
➖ Тюнинг бесплатный. Совсем. Не только для Flash, но и для Pro.
➖ Цена инференса затюнненных такая же как и у обычных моделей (у OpenAI затюненные модели стоят в два раза дороже).
Работает это, скорее всего, через что-то похожее на batched LoRa. Из-за этого качество тюнов на больших датасетах может страдать, насколько - нужно тестить. Кстати API Gemini до определённых лимитов можно использовать бесплатно, за право тюнинга на ваших запросах.
@ai_newz
Всем хайпующим по 🍓 желаю успокоиться, потрогать траву и нормально провести остаток выходных. Я вот, например, пойду сейчас чилить в сауну и бассейн.
Пояснительная бригада: Project Strawbery - это по слухам грядущее обновление модели ChatGPT. Пока нет оснований утверждать, что это будет каким-то прорывом, но народ сильно хайпует в твитторе.
@ai_newz
@ai_newz
Qwen 2 - Math и Audio
Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.
Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.
Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.
Веса Math
Веса Audio
@ai_newz
Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.
Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.
Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.
Веса Math
Веса Audio
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Через пять минут начнётся Made By Google
Презентацию продвигали как анонс новых телефонов Pixel, но они уже тизерят Gemini Live - мб понимающую прямую трансляцию видео и аудио. Может и Gemini 2 завезут.
Интересно что учудит на этот раз OpenAI, они часто привязывают свои релизы к ивентам гугла.
https://www.youtube.com/watch?v=jvyyfvf0gjI
@ai_newz
Презентацию продвигали как анонс новых телефонов Pixel, но они уже тизерят Gemini Live - мб понимающую прямую трансляцию видео и аудио. Может и Gemini 2 завезут.
Интересно что учудит на этот раз OpenAI, они часто привязывают свои релизы к ивентам гугла.
https://www.youtube.com/watch?v=jvyyfvf0gjI
@ai_newz
Grok 2 - XAI Маска теперь на фронтире
Новая модель от XAI на уровне Claude 3.5 и GPT-4. Последнюю неделю её можно было потрогать на арене под именем sus-column-r.
Grok 2 уже доступен пользователям X Premium, вместе с генератором изображений на основе FLUX.1 от моих корешей из Black Forest Labs.
Модель пока поддерживает только текст, но мультимодальность обещают уже скоро. API будет доступен через несколько недель. Всё по EST (Elon Standard Time), так что может задержаться. Напоминаю что Grok 1.5 так и не релизнули.
А Grok 3 уже тренируется на новом кластере XAI, ждём.
Блогпост
@ai_newz
Новая модель от XAI на уровне Claude 3.5 и GPT-4. Последнюю неделю её можно было потрогать на арене под именем sus-column-r.
Grok 2 уже доступен пользователям X Premium, вместе с генератором изображений на основе FLUX.1 от моих корешей из Black Forest Labs.
Модель пока поддерживает только текст, но мультимодальность обещают уже скоро. API будет доступен через несколько недель. Всё по EST (Elon Standard Time), так что может задержаться. Напоминаю что Grok 1.5 так и не релизнули.
А Grok 3 уже тренируется на новом кластере XAI, ждём.
Блогпост
@ai_newz
🔥 Anthropic запилили Context Caching! 🔥
Называется она в их исполнении prompt caching. Запись токенов в кэш платная - цена кэшируемых токенов на 25% выше.
Основной подводный камень - хранятся кэшированные токены всего пять минут после последнего использования, но цена за кэшированный токен в десять раз лучше. Предложение явно хуже чем у DeepSeek, но вполне конкурентоспособно с Google (зависит от юзкейса).
Почитать что такое Context Caching можно тут.
Документация
@ai_newz
Называется она в их исполнении prompt caching. Запись токенов в кэш платная - цена кэшируемых токенов на 25% выше.
Основной подводный камень - хранятся кэшированные токены всего пять минут после последнего использования, но цена за кэшированный токен в десять раз лучше. Предложение явно хуже чем у DeepSeek, но вполне конкурентоспособно с Google (зависит от юзкейса).
Почитать что такое Context Caching можно тут.
Документация
@ai_newz
Пока у ChatGPT лаги, давайте поговорим о ненадёжных "сливах"
Всю прошлую неделю у меня комментарии, как и твиттер, ломились от 🍓🍓🍓. Один твиттер аккаунт наделал кучу предсказаний и ему поверило какое-то безумное количество людей. К примеру, на удалённой сейчас (вместе с аккаунтом) гитхаб репе с ридми и одним питон файлом было 1.5к звёзд.
Я к этому изначально относился скептически, а сейчас удостоверился что весь хайп с 🍓 - лажа. Давайте разберём почему, на примере двух конкретных предсказаний автора хайпа:
➖ sus-column-r на арене - это модель от OpenAI на основе новых прорывов. В итоге оказалось, что это просто Grok-2 от XAI.
➖ Релиз gpt-4o-large-0813 13 августа в 10 утра по Калифорнии. Тут всё просто. В 10 утра по Калифорнии была только презентация гугла, на которой я благополучно заснул. Так что обзора анонсов с презентации нет (как и интересных анонсов по тематике канала).
Напоследок хочу попросить не верить всяким рандомным грифтерам из интернета. Из относительно качественных аккаунтов (про слухи и слив) можете подписаться на Jimmy Apples, хотя там в последнее время был контент о том, как он проходил Red Dead Redemption 2. В остальном лучше читайте реальных ресерчеров, а не хайпожеров.
@ai_newz
Всю прошлую неделю у меня комментарии, как и твиттер, ломились от 🍓🍓🍓. Один твиттер аккаунт наделал кучу предсказаний и ему поверило какое-то безумное количество людей. К примеру, на удалённой сейчас (вместе с аккаунтом) гитхаб репе с ридми и одним питон файлом было 1.5к звёзд.
Я к этому изначально относился скептически, а сейчас удостоверился что весь хайп с 🍓 - лажа. Давайте разберём почему, на примере двух конкретных предсказаний автора хайпа:
➖ sus-column-r на арене - это модель от OpenAI на основе новых прорывов. В итоге оказалось, что это просто Grok-2 от XAI.
➖ Релиз gpt-4o-large-0813 13 августа в 10 утра по Калифорнии. Тут всё просто. В 10 утра по Калифорнии была только презентация гугла, на которой я благополучно заснул. Так что обзора анонсов с презентации нет (как и интересных анонсов по тематике канала).
Напоследок хочу попросить не верить всяким рандомным грифтерам из интернета. Из относительно качественных аккаунтов (про слухи и слив) можете подписаться на Jimmy Apples, хотя там в последнее время был контент о том, как он проходил Red Dead Redemption 2. В остальном лучше читайте реальных ресерчеров, а не хайпожеров.
@ai_newz
В этом году впервые прошла Международная олимпиада по искусственному интеллекту для школьников (IOAI) в Болгарии с 9 по 14 августа. И вот что произошло:
- Команда из России (школа Летово) одержала победу в общем зачете! Они заработали золото за решение задач по машинному обучению и компьютерному зрению и серебро за задачи по обработке естественного языка. По сумме баллов за оба конкурса ребята обошли конкурентов из 39 стран, включая Китай, Японию, Канаду, Швецию, Нидерланды, США. Команда вернулась домой сегодня ночью и их огого как встретили в аэропорту!
В команду победителей вошли Никита Курлаев, Андрей Грицаев, Андрей Громыко и Анастасия Гайнуллина. К олимпиаде детей готовили преподаватели Центрального Университета, основанного при поддержке т-банка и других крупных компаний.
Необычный формат олимпиады (не похоже на IMO или IOI): Задачи были в стиле Kaggle, но с ограничениями по времени и ресурсам. Это уменьшило роль брутфорса и акцентировало внимание на знаниях и находчивости участников.
Задачи:
- В ML задаче требовалось создать лучшие фичи для небольшого DecisionTree.
- В NLP задаче — зафайнтюнить mBERT для нового языка с зашифрованными текстами.
- В CV задаче — заставить miniSD всегда дорисовывать гидрант, если на картинке есть корова.
Финальный этап: Длился 8 часов, команда из 4 человек решала 3 задачи, используя только два ноутбука (я так понимаю, с GPU).
На сайте олимпиады, кстати, собрано много полезных ресурсов для подготовки, многие из которых хорошо подойдут всем, кто вкатывается в ML по работе: https://ioai-official.org/how-to-prepare/
@ai_newz
- Команда из России (школа Летово) одержала победу в общем зачете! Они заработали золото за решение задач по машинному обучению и компьютерному зрению и серебро за задачи по обработке естественного языка. По сумме баллов за оба конкурса ребята обошли конкурентов из 39 стран, включая Китай, Японию, Канаду, Швецию, Нидерланды, США. Команда вернулась домой сегодня ночью и их огого как встретили в аэропорту!
В команду победителей вошли Никита Курлаев, Андрей Грицаев, Андрей Громыко и Анастасия Гайнуллина. К олимпиаде детей готовили преподаватели Центрального Университета, основанного при поддержке т-банка и других крупных компаний.
Необычный формат олимпиады (не похоже на IMO или IOI): Задачи были в стиле Kaggle, но с ограничениями по времени и ресурсам. Это уменьшило роль брутфорса и акцентировало внимание на знаниях и находчивости участников.
Задачи:
- В ML задаче требовалось создать лучшие фичи для небольшого DecisionTree.
- В NLP задаче — зафайнтюнить mBERT для нового языка с зашифрованными текстами.
- В CV задаче — заставить miniSD всегда дорисовывать гидрант, если на картинке есть корова.
Финальный этап: Длился 8 часов, команда из 4 человек решала 3 задачи, используя только два ноутбука (я так понимаю, с GPU).
На сайте олимпиады, кстати, собрано много полезных ресурсов для подготовки, многие из которых хорошо подойдут всем, кто вкатывается в ML по работе: https://ioai-official.org/how-to-prepare/
@ai_newz
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.
Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.
Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.
Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.
И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.
Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.
Пейпер
Код
@ai_newz
В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.
Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.
Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.
Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.
И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.
Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.
Пейпер
Код
@ai_newz
Нейродайджест за неделю (#31)
Три недели прошло с последнего дайджеста, возвращаюсь к формату
LLM
- Обновления Qwen 2 - один тюн теперь SOTA по математике, а другой понимает аудио
- ReBased – новая архитектура линейного трансформера. Это лучший, на данный момент, вариант Linear Transformer, исправляющий ошибки прошлых архитектур.
- Grok 2 - ещё одна модель уровня GPT-4. В пантеон OpenAI, Anthropic, Google и Meta добавился XAI.
- Context Caching для Claude - любимая фича для удешевления моделей наконец-то заехала в клода, но кэш живёт лишь пять минут, что ограничивает юзкейсы.
Общие новости
- Презентация гугла - показали полуработающие демо Gemini, новые телефоны Pixel и кучу фич для их камер. Было скучно, админ заснул.
- Команда из РФ победила на международной олимпиаде по AI - ребята молодцы, а задачки оттуда это хорошая практика даже для опытных спецов.
Аналитика
- Почему не стоит верить сливам - разбор одного популярного в последнее время "инсайдера", который ни разу не оказался прав.
Жизнь
- Поработал из офиса Meta в Варшаве - очень красиво, согласитесь. Организовал две тусы для подписчиков (про них ещё напишу). Да и в целом в Варшаве очень понравилось!
> Читать дайджест #28
#дайджест
@ai_newz
Три недели прошло с последнего дайджеста, возвращаюсь к формату
LLM
- Обновления Qwen 2 - один тюн теперь SOTA по математике, а другой понимает аудио
- ReBased – новая архитектура линейного трансформера. Это лучший, на данный момент, вариант Linear Transformer, исправляющий ошибки прошлых архитектур.
- Grok 2 - ещё одна модель уровня GPT-4. В пантеон OpenAI, Anthropic, Google и Meta добавился XAI.
- Context Caching для Claude - любимая фича для удешевления моделей наконец-то заехала в клода, но кэш живёт лишь пять минут, что ограничивает юзкейсы.
Общие новости
- Презентация гугла - показали полуработающие демо Gemini, новые телефоны Pixel и кучу фич для их камер. Было скучно, админ заснул.
- Команда из РФ победила на международной олимпиаде по AI - ребята молодцы, а задачки оттуда это хорошая практика даже для опытных спецов.
Аналитика
- Почему не стоит верить сливам - разбор одного популярного в последнее время "инсайдера", который ни разу не оказался прав.
Жизнь
- Поработал из офиса Meta в Варшаве - очень красиво, согласитесь. Организовал две тусы для подписчиков (про них ещё напишу). Да и в целом в Варшаве очень понравилось!
> Читать дайджест #28
#дайджест
@ai_newz