LLM дайджест за неделю
LLaMa 3 - главная звезда недели, открытые веса, три размера: 8, 70 и 405 миллиардов параметров, последняя ещё тренируется, что не удивительно, ведь датасет для неё это 15 триллионов токенов. Попробовать можете тут, пока только с VPN или можете скачать квантизированные веса с Huggingface, но тогда у вас не будет прекрасной функции Imagine Flash, которую тренировал ваш покорный слуга (да, я).
Pile-T5 - у всех версий T5 довольно плохой токенизатор где отсутствует куча специальных символов, ребята из EleutherAI решили это пофиксить и заменили его токенизатором от второй ламы. Вышла модель чуть лучше базовой T5, но отстающая от FLAN файнтюнов. T5 – это рабочая лошадка, юзаемая как в проде бессчётного количества компаний, так и в новомодном ресёрче вроде SD3 и ReALM, так что пользы от такой "пофикшеной" версии будет немало. А ещё это напоминание что enc-dec модели живее всех живых.
Reka-Core - ещё один encoder-decoder от выходцев из Google, проприетарная модель на уровне примерно LLaMa 3 70B и ниже Gemini Ultra. Мультимодальная, кроме картинок умеет в видео и аудио. Её всё ещё тренируют, факт релиза сырой модели удивляет, походу у стартапа просто заканчиваются деньги. Цены API на уровне GPT-4 Turbo, так что непонятно кому это вообще нужно.
Mixtral 8x22B Instruct - тюн оригинального Mixtral 8x22B, который держал первое место среди открытых моделей по ряду бенчей вроде MMLU целых 26 часов, а потом случилась LLaMa 3.
RWKV EagleX v2 - модель без аттеншна перегнала LLaMA 2 7B и почти догнала Mistral 7B. При том, что на большей длине контекста она СИЛЬНО быстрее. Очень хорошо показывает себя на языках отличных от английского. Модель всё ещё тренируют (общая тема этого дайджеста), так что скорее всего Mistral они догонят.
Хочу отметить что за последние 30 дней рекорд по MMLU среди открытых моделей (который держала Mixtral 8x7B почти 4 месяца) били ПЯТЬ раз: Grok - 73.0%, DBRX - 73.7%, Command R - 75.7%, Mixtral Instruct - 77.75% и LLaMA 3 - 82.0%.
Как вам вообще такой формат дайджеста именно по LLM, стоит продолжать?
#дайджест
@ai_newz
LLaMa 3 - главная звезда недели, открытые веса, три размера: 8, 70 и 405 миллиардов параметров, последняя ещё тренируется, что не удивительно, ведь датасет для неё это 15 триллионов токенов. Попробовать можете тут, пока только с VPN или можете скачать квантизированные веса с Huggingface, но тогда у вас не будет прекрасной функции Imagine Flash, которую тренировал ваш покорный слуга (да, я).
Pile-T5 - у всех версий T5 довольно плохой токенизатор где отсутствует куча специальных символов, ребята из EleutherAI решили это пофиксить и заменили его токенизатором от второй ламы. Вышла модель чуть лучше базовой T5, но отстающая от FLAN файнтюнов. T5 – это рабочая лошадка, юзаемая как в проде бессчётного количества компаний, так и в новомодном ресёрче вроде SD3 и ReALM, так что пользы от такой "пофикшеной" версии будет немало. А ещё это напоминание что enc-dec модели живее всех живых.
Reka-Core - ещё один encoder-decoder от выходцев из Google, проприетарная модель на уровне примерно LLaMa 3 70B и ниже Gemini Ultra. Мультимодальная, кроме картинок умеет в видео и аудио. Её всё ещё тренируют, факт релиза сырой модели удивляет, походу у стартапа просто заканчиваются деньги. Цены API на уровне GPT-4 Turbo, так что непонятно кому это вообще нужно.
Mixtral 8x22B Instruct - тюн оригинального Mixtral 8x22B, который держал первое место среди открытых моделей по ряду бенчей вроде MMLU целых 26 часов, а потом случилась LLaMa 3.
RWKV EagleX v2 - модель без аттеншна перегнала LLaMA 2 7B и почти догнала Mistral 7B. При том, что на большей длине контекста она СИЛЬНО быстрее. Очень хорошо показывает себя на языках отличных от английского. Модель всё ещё тренируют (общая тема этого дайджеста), так что скорее всего Mistral они догонят.
Хочу отметить что за последние 30 дней рекорд по MMLU среди открытых моделей (который держала Mixtral 8x7B почти 4 месяца) били ПЯТЬ раз: Grok - 73.0%, DBRX - 73.7%, Command R - 75.7%, Mixtral Instruct - 77.75% и LLaMA 3 - 82.0%.
Как вам вообще такой формат дайджеста именно по LLM, стоит продолжать?
#дайджест
@ai_newz
Telegram
эйай ньюз
🔥 LLaMa 3 конкретно ворвалась на лидерборд ChatBot Arena и уже бьет все существующие опенсорсные модели (даже Command R+, про Мистрали я вообще молчу).
И не только! Если брать запросы на английском языке, то LLaMa-3-70B-instruct уже рвет даже Claude 3 Opus…
И не только! Если брать запросы на английском языке, то LLaMa-3-70B-instruct уже рвет даже Claude 3 Opus…
Нейродайджест за неделю (#14)
1. Ведомости с просторов интернета:
- В Chatbot Arena Альтман наносит ответный удар 🤭 GPT-4 Turbo победила Opus, забрав топ-1 обратно.
- Boston Dynamics представила Atlas, нового гуманоида для битья на электродвигателях вместо поршней.
- У Adobe закончился контент, теперь адобченко платит за плодосъемы для датасетов по 3 бакса в минуту.
- *слух* TikTok экспериментирует с AI-инфлуенсерами для рекламы. Подстава для кожаных тиктокеров?
- Невнятный релиз Stable Diffusion 3 API. SD3, по-братски, выйди и зайди нормально. Красиво, как обещали в пейперах. Мы подождем.
- Gemini Ultra обошлась в 191.4 млн $. Небольшой реалити чек от гугл.
- LLM дайджест за неделю.
2. Почитать на досуге:
- Курс Эндрю Ына "ChatGPT Prompt Engineering for Developers". Хотелось потестить, вот вывод: поможет только новичкам.
- AI Index Report 2024 обзор основных тезисов из огромного отчета от Стэнфорда.
- Запись доклада авторов SORA. Шакальная запись митапа в долине для главных фанатов. Хоть немного приоткрывающая завесу тайны их супер видео модели.
3. Обо мне : )
- Сгонял в Гамбург. И немного размышлений о рынке труда.
4. Meta в опенсорсе:
- Анонсы 1 и 2 от самого Цукерберга.
- LLaMa-3 - новая топ-1 open source LLM. Результаты ChatBot Arena.
- Imagine Flash лично от меня 🤌 (и команды, конечно) ) – новый ультра быстрый генератор картинок уже доступен в WhatsApp и meta.ai (с впном сша). Здесь о том, как мы ускорили ее в >10 раз.
#дайджест
@ai_newz
1. Ведомости с просторов интернета:
- В Chatbot Arena Альтман наносит ответный удар 🤭 GPT-4 Turbo победила Opus, забрав топ-1 обратно.
- Boston Dynamics представила Atlas, нового гуманоида для битья на электродвигателях вместо поршней.
- У Adobe закончился контент, теперь адобченко платит за плодосъемы для датасетов по 3 бакса в минуту.
- *слух* TikTok экспериментирует с AI-инфлуенсерами для рекламы. Подстава для кожаных тиктокеров?
- Невнятный релиз Stable Diffusion 3 API. SD3, по-братски, выйди и зайди нормально. Красиво, как обещали в пейперах. Мы подождем.
- Gemini Ultra обошлась в 191.4 млн $. Небольшой реалити чек от гугл.
- LLM дайджест за неделю.
2. Почитать на досуге:
- Курс Эндрю Ына "ChatGPT Prompt Engineering for Developers". Хотелось потестить, вот вывод: поможет только новичкам.
- AI Index Report 2024 обзор основных тезисов из огромного отчета от Стэнфорда.
- Запись доклада авторов SORA. Шакальная запись митапа в долине для главных фанатов. Хоть немного приоткрывающая завесу тайны их супер видео модели.
3. Обо мне : )
- Сгонял в Гамбург. И немного размышлений о рынке труда.
4. Meta в опенсорсе:
- Анонсы 1 и 2 от самого Цукерберга.
- LLaMa-3 - новая топ-1 open source LLM. Результаты ChatBot Arena.
- Imagine Flash лично от меня 🤌 (и команды, конечно) ) – новый ультра быстрый генератор картинок уже доступен в WhatsApp и meta.ai (с впном сша). Здесь о том, как мы ускорили ее в >10 раз.
#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, прямо сейчас вылетаю из Цюриха в Сан-Франциско. Буду там неделю, нужно встретиться с коллегами и боссами лицом к лицу, и, конечно, отпраздновать успешный релиз.
Буду рассказывать хайлайты из поездки, так что накидайте бустов, чтобы я мог постить стори: https://t.iss.one/boost/ai_newz
ПС, если есть кто в районе Менло Парк или Пало Альто — пишите в комменты, может пересечёмся😉
#personal
@ai_newz
Буду рассказывать хайлайты из поездки, так что накидайте бустов, чтобы я мог постить стори: https://t.iss.one/boost/ai_newz
ПС, если есть кто в районе Менло Парк или Пало Альто — пишите в комменты, может пересечёмся
#personal
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Коротко о том, как развлекается кофаундер и CSO HuggingFace🤗
Чуваки сделали умного робота изг*вна и палок машинки на пульте управления и трёх open source нейронок:
Whisper - распознаёт речь.
Idefics2 - ЛЛМ с виженом.
Parler-TTS - голос робота.
Все под управлением Dora-CS, а компьют лежит на ноуте, но связь по безпроводу.
Назвали мило Немо😊
Малой неплохо так катается по офису, вроде как, даже знает, где кухня. На видео (лучше сами гляньте) один из разрабов вежливо просит привести ему кофе, но оказалось, что кофемашина на ремонте, о чем преданный четырёхколёсный отчитывается хозяину. А еще эта штука кажется понимает язык жестов и едет туда, куда ты тыкаешь.
Вот э тайм ту би алайв!
Твит
Код
@ai_newz
Чуваки сделали умного робота из
Whisper - распознаёт речь.
Idefics2 - ЛЛМ с виженом.
Parler-TTS - голос робота.
Все под управлением Dora-CS, а компьют лежит на ноуте, но связь по безпроводу.
Назвали мило Немо😊
Малой неплохо так катается по офису, вроде как, даже знает, где кухня. На видео (лучше сами гляньте) один из разрабов вежливо просит привести ему кофе, но оказалось, что кофемашина на ремонте, о чем преданный четырёхколёсный отчитывается хозяину. А еще эта штука кажется понимает язык жестов и едет туда, куда ты тыкаешь.
Вот э тайм ту би алайв!
Твит
Код
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Вау! Марку действительно нравится наша моделька. Он протестил Imagine Flash — говорит, если он когда-нибудь уйдет из Мета, то откроет магазин мяса Mark's Meats 🥩.
@ai_newz
@ai_newz
FineWeb - открытый датасет масштаба LLaMa 3
Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.
Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.
Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!
Датасет
Пайплайн фильтрации
@ai_newz
Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.
Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.
Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!
Датасет
Пайплайн фильтрации
@ai_newz
Сделал вам небольшой румтур по офису Мечты Меты в Menlo Park.
Я сейчас в Менло Парке, тут самый большой офис Меты в мире, где работает наверное несколько десятков тысяч человек. Да, это шокируют, но и размах пространства тут соответствующий. Приходится на маршрутке либо велосипедах передвигаться между корпусами.
Сижу в том же здании, где и сам Марк Цукерберг. Позитивно заряжаюсь от рабочей суеты, когда много людей в офисе. Народ кодит, рисует на вайтбордах, обсуждают идеи, толпится на микрокухнях и общается. После небольшого цюрихского офиса, тут все выглядит очень очень движово.
---
Кстати, я обещал создать чатик для встречи в Пало Альто либо рядом. Вот он — присоединяйтесь, если хотите поужинать либо встретиться на пиво сегодня.
#personal
@ai_newz
Я сейчас в Менло Парке, тут самый большой офис Меты в мире, где работает наверное несколько десятков тысяч человек. Да, это шокируют, но и размах пространства тут соответствующий. Приходится на маршрутке либо велосипедах передвигаться между корпусами.
Сижу в том же здании, где и сам Марк Цукерберг. Позитивно заряжаюсь от рабочей суеты, когда много людей в офисе. Народ кодит, рисует на вайтбордах, обсуждают идеи, толпится на микрокухнях и общается. После небольшого цюрихского офиса, тут все выглядит очень очень движово.
---
Кстати, я обещал создать чатик для встречи в Пало Альто либо рядом. Вот он — присоединяйтесь, если хотите поужинать либо встретиться на пиво сегодня.
#personal
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Ищем ML engineer с опытом в Gen AI (Diffusion, GAN, CV)
О нас:
Мы продуктовая ai компания, сделали uncensored 18+ multimodal AI chat (text, photo, voice) и сейчас имеем сеть крупных клиентов из adult, dating индустрии с миллиардами юзеров в месяц, которые наши продукты берут себе как SaaS whitelabel. У нас сильные ребята в rnd (из Stability AI, Meta), и мы расширяем команду rnd в сфере vid2vid и text2vid.
Задачи:
- Ресерч и воспроизведение текущих опенсорс решений.
- Эксперименты с допиливанием и файнтюном текущих решений до прототипов.
- Video editing, image to video, text to video
- Video to anime, video filters as de-aging, hair color stylization, enhancement
- Тренировка adult foundation model
Есть доступ к большим объемам данных и видеокартам. Сделаем то, чего еще нет в adult индустрии.
Если у тебя нет подходящего опыта, но есть хорошее образование (мфти, шад, и ты внимательно дочитал до сюда, то бронируй сразу календли дот ком слеш vb--fdmx) тоже не стесняйся откликаться, мы набираем большую разнообразную команду под этот ресерч.
$1000 за успешную рекомендацию после прохождения ИС
Заполняй форму и отправляй друзьям!
https://forms.gle/oywNE9VAG6xue4xh6
Полный текст вакансии:
https://teletype.in/@softpear/D5xjp1xuP_-
#промо
О нас:
Мы продуктовая ai компания, сделали uncensored 18+ multimodal AI chat (text, photo, voice) и сейчас имеем сеть крупных клиентов из adult, dating индустрии с миллиардами юзеров в месяц, которые наши продукты берут себе как SaaS whitelabel. У нас сильные ребята в rnd (из Stability AI, Meta), и мы расширяем команду rnd в сфере vid2vid и text2vid.
Задачи:
- Ресерч и воспроизведение текущих опенсорс решений.
- Эксперименты с допиливанием и файнтюном текущих решений до прототипов.
- Video editing, image to video, text to video
- Video to anime, video filters as de-aging, hair color stylization, enhancement
- Тренировка adult foundation model
Есть доступ к большим объемам данных и видеокартам. Сделаем то, чего еще нет в adult индустрии.
Если у тебя нет подходящего опыта, но есть хорошее образование (мфти, шад, и ты внимательно дочитал до сюда, то бронируй сразу календли дот ком слеш vb--fdmx) тоже не стесняйся откликаться, мы набираем большую разнообразную команду под этот ресерч.
$1000 за успешную рекомендацию после прохождения ИС
Заполняй форму и отправляй друзьям!
https://forms.gle/oywNE9VAG6xue4xh6
Полный текст вакансии:
https://teletype.in/@softpear/D5xjp1xuP_-
#промо
Diffusion Models for Video Generation
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
Для контекста о посте ниже: Степан (автор e/acc) — фаундер и венчурный инвестор. У него можно почитать и про крипту, и про веб3 (это не формат файла, если что), ну и без AI/ML, конечно, не обошлось. А еще, как инвестор, Степан много рассуждает на тему того, как будет устроен мир в перспективе от 5 до 30 лет. Так что там не обошлось и без программируемой экономики с цифровыми государствами. Рекомендую почитать, если про такое еще не слышали — контент в канале у Степана топовый.
@ai_newz
@ai_newz
Forwarded from e/acc
О будущем LLM
Не знаю за ваши модные ку-стары, но вот некоторый набор уже практически фактов про LLM в перспективе месяцев:
1. GPT и LLaMa — это не продукты, а исследовательские проекты. Как только детали архитектуры, пайплайнов, датасетов станут ясны (экспериментальным путём), стоимость тренировки аналогичной модели упадет в разы, а скорее сотни раз. Вы сможете сделать претрейн специализированной модели за $10-100k, причем даже в распределенной среде.
2. То же самое с инференсом. За счет квантизации, MoD, оптимизации под edge девайсы и архитектуры ARM, TPU, NPU модели уровня 13-30В параметров можно будет запускать на телефонах.
3. За счет увеличения окна контекста до миллионов токенов, файнтьюнинг становится не так важен. Ты просто копируешь промт на 10-100 страниц со всей историей своей жизни или организации и получаешь персональную модель. Стоимость переключения с Зефира на Гермес, с Клода на Databricks становится ровно три клика и один копипаст.
4. Адаптивный роутинг. Приложения выбирают модели на лету, в зависимости от задачи. Модели выбирают инфраструктуру для вычислений на лету, в зависимости от спроса и предложения на железо в конкретный момент.
5. RAG не уйдет, а, наоборот, заменит в некоторой степени претрейнинг. Большие децентрализованные RAG датасеты на миллиарды или триллионы токенов будут просто «подсасывать» знания на лету, что позволит делать базовые еще тоньше, быстрее и запускать на микроволновке (quite literally).
Не знаю за ваши модные ку-стары, но вот некоторый набор уже практически фактов про LLM в перспективе месяцев:
1. GPT и LLaMa — это не продукты, а исследовательские проекты. Как только детали архитектуры, пайплайнов, датасетов станут ясны (экспериментальным путём), стоимость тренировки аналогичной модели упадет в разы, а скорее сотни раз. Вы сможете сделать претрейн специализированной модели за $10-100k, причем даже в распределенной среде.
2. То же самое с инференсом. За счет квантизации, MoD, оптимизации под edge девайсы и архитектуры ARM, TPU, NPU модели уровня 13-30В параметров можно будет запускать на телефонах.
3. За счет увеличения окна контекста до миллионов токенов, файнтьюнинг становится не так важен. Ты просто копируешь промт на 10-100 страниц со всей историей своей жизни или организации и получаешь персональную модель. Стоимость переключения с Зефира на Гермес, с Клода на Databricks становится ровно три клика и один копипаст.
4. Адаптивный роутинг. Приложения выбирают модели на лету, в зависимости от задачи. Модели выбирают инфраструктуру для вычислений на лету, в зависимости от спроса и предложения на железо в конкретный момент.
5. RAG не уйдет, а, наоборот, заменит в некоторой степени претрейнинг. Большие децентрализованные RAG датасеты на миллиарды или триллионы токенов будут просто «подсасывать» знания на лету, что позволит делать базовые еще тоньше, быстрее и запускать на микроволновке (quite literally).
Покажу вам, что творилось в Стенфорде сегодня, когда было выступление Сэма Альтмана.
Мой отель находится буквально в 200 метрах от Стенфорда. И сегодня Сэма решил приехать в университет дать лекцию. Народ стоял в очереди как за маслом в девяностые. Я честно сказать в шоке от таких раскладов и сам, конечно, в очереди не стоял, а был на работе. Увидел эти видосы в твиттере.
@ai_newz
Мой отель находится буквально в 200 метрах от Стенфорда. И сегодня Сэма решил приехать в университет дать лекцию. Народ стоял в очереди как за маслом в девяностые. Я честно сказать в шоке от таких раскладов и сам, конечно, в очереди не стоял, а был на работе. Увидел эти видосы в твиттере.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft выпустила Phi-3
Моделька интересная и довольно умная, есть поддержка 128к контекста, запускается на айфоне со скоростью в 12 токенов в секунду. Я не сразу запостил, потому что у неё подозрительно хорошие результаты бенчмарков: mini (3.8B на 3.3 триллионах токенов) версия модели тягается с LLaMa 3 8B (15 триллионов токенов), а medium - с Mistral 8x22B Instruct. По поводу моделей семейства давно ходят шутки из-за того что их (возможно) тренируют на бенчмарках. Однако авторы заявляют, что такие высокие метрики — следствие их датасета, который лучше всех учит модельку размышлять. Через трое суток после релиза весов я все ещё жду проверки этой модели на ChatBot Arena, так как доверия к бенчмаркам нет. [UPD: появились результаты на арене]
Предыдущие модели семейства Phi тренировали на синтетических данных, тут же, большая часть датасета - данные из интернета. Тренируют в две стадии: первая - тренировка на сильно отфильтрованных данных. На второй стадии её, как и прошлые модели, тренируют на синтетических данных, но добавляют ещё более отфильтрованную примесь данных из интернета.
Авторы пытаются отсеять данные которые LLM такого размера и так вряд ли выучит, например результаты конкретных спортивных матчей. Назвали они это Data Optimal Regime, но у него есть заметный минус: после 7B параметров качество почти не растёт, 14B моделька очень недалеко ушла от 7B модели. Тут может быть две интерпретации: первая – из датасета убрали всё, что не может понять 3B моделька (то есть что-то такое, только для LLM), вторая – модель выучила все ответы на бенчмарки, что были в датасете и насытилась. Из-за этого, хоть в пейпере речь идёт о моделях трёх размеров: mini (3.8B), small (7B) и medium (14B), пока что релизнули только самую маленькую.
--
На видео, демонстрации инференса в fp16 на M3 Max: Вход - 131.917 tps, Генерация- 43.387 tps. Бегает шустро, но можно сделать ещё быстрее.
А вы что думаете про Phi-3?
Technical report
4k версия модели
128k версия
Тут можно початиться с моделькой
@ai_newz
Моделька интересная и довольно умная, есть поддержка 128к контекста, запускается на айфоне со скоростью в 12 токенов в секунду. Я не сразу запостил, потому что у неё подозрительно хорошие результаты бенчмарков: mini (3.8B на 3.3 триллионах токенов) версия модели тягается с LLaMa 3 8B (15 триллионов токенов), а medium - с Mistral 8x22B Instruct. По поводу моделей семейства давно ходят шутки из-за того что их (возможно) тренируют на бенчмарках. Однако авторы заявляют, что такие высокие метрики — следствие их датасета, который лучше всех учит модельку размышлять. Через трое суток после релиза весов я все ещё жду проверки этой модели на ChatBot Arena, так как доверия к бенчмаркам нет. [UPD: появились результаты на арене]
Предыдущие модели семейства Phi тренировали на синтетических данных, тут же, большая часть датасета - данные из интернета. Тренируют в две стадии: первая - тренировка на сильно отфильтрованных данных. На второй стадии её, как и прошлые модели, тренируют на синтетических данных, но добавляют ещё более отфильтрованную примесь данных из интернета.
Авторы пытаются отсеять данные которые LLM такого размера и так вряд ли выучит, например результаты конкретных спортивных матчей. Назвали они это Data Optimal Regime, но у него есть заметный минус: после 7B параметров качество почти не растёт, 14B моделька очень недалеко ушла от 7B модели. Тут может быть две интерпретации: первая – из датасета убрали всё, что не может понять 3B моделька (то есть что-то такое, только для LLM), вторая – модель выучила все ответы на бенчмарки, что были в датасете и насытилась. Из-за этого, хоть в пейпере речь идёт о моделях трёх размеров: mini (3.8B), small (7B) и medium (14B), пока что релизнули только самую маленькую.
--
На видео, демонстрации инференса в fp16 на M3 Max: Вход - 131.917 tps, Генерация- 43.387 tps. Бегает шустро, но можно сделать ещё быстрее.
А вы что думаете про Phi-3?
Technical report
4k версия модели
128k версия
Тут можно початиться с моделькой
@ai_newz