Нейродайджест за неделю (#15)
1. Хайлайты из US
- Вылетаю из Цюриха в Сан-Франциско для встреч с коллегами, ну и чтобы отметить успешнвй релиз Imagine Flash и LLaMa-3.
- Румтур по офису Мечты от Меты в Menlo Park, где работает несколько десятков тысяч человек.
- О Сан-Франциско, и о сходке.
2. Роботехам стало скучно.
- Огнедышащий робо-пес от Throwflame теперь доступен для покупки каждому психопату.
- Как развлекается кофаундер HuggingFace: создали робота Немо из г*ван, палок и трёх open-source LLM.
3. ЭйАй селебрити
- Марк Цукерберг кайфанул от Imagine Flash и почему-то задумался об открытии магазина мяса после ухода из Meta.
- Сэм Альтман выступил в Стэнфорде, таких очередей не видели даже в советском союзе.
4. ЛэЛэМэ
- Microsoft выпустила Phi-3, новую модель с поддержкой 128K контекста. Я уже боялся, что она догонит Llama 8B, но чуда не произошло.
- будущее LLM и что будет потом...
- FineWeb - новый датасет чище, больше, круче! Все для претрейна моделей.
- OpenELM - Apple выпустили открытую LLM (с трейнинг кодом), по качеству такая себе, но важен сам факт.
5.Дегенеративные Видосы
- Vidu в шаге от Sora, китайским стартапом из универа Цинхуа наступает на пятки Open AI (если верить демке).
- Диффузионные модели для генерации видео – новый #ликбез от Lilian Weng, о текущих подходах.
> Читать дайджест #14
#дайджест
@ai_newz
1. Хайлайты из US
- Вылетаю из Цюриха в Сан-Франциско для встреч с коллегами, ну и чтобы отметить успешнвй релиз Imagine Flash и LLaMa-3.
- Румтур по офису Мечты от Меты в Menlo Park, где работает несколько десятков тысяч человек.
- О Сан-Франциско, и о сходке.
2. Роботехам стало скучно.
- Огнедышащий робо-пес от Throwflame теперь доступен для покупки каждому психопату.
- Как развлекается кофаундер HuggingFace: создали робота Немо из г*ван, палок и трёх open-source LLM.
3. ЭйАй селебрити
- Марк Цукерберг кайфанул от Imagine Flash и почему-то задумался об открытии магазина мяса после ухода из Meta.
- Сэм Альтман выступил в Стэнфорде, таких очередей не видели даже в советском союзе.
4. ЛэЛэМэ
- Microsoft выпустила Phi-3, новую модель с поддержкой 128K контекста. Я уже боялся, что она догонит Llama 8B, но чуда не произошло.
- будущее LLM и что будет потом...
- FineWeb - новый датасет чище, больше, круче! Все для претрейна моделей.
- OpenELM - Apple выпустили открытую LLM (с трейнинг кодом), по качеству такая себе, но важен сам факт.
5.
- Vidu в шаге от Sora, китайским стартапом из универа Цинхуа наступает на пятки Open AI (если верить демке).
- Диффузионные модели для генерации видео – новый #ликбез от Lilian Weng, о текущих подходах.
> Читать дайджест #14
#дайджест
@ai_newz
Курс по квантизации для тех, кто хочет быть в теме
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
www.deeplearning.ai
Quantization in Depth - DeepLearning.AI
Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and granularities like per tensor, per channel, and per group.
Наткнулся на часовой гайд по созданию RAG архитектуры на открытых LLM-ках. Все супер подробно. Можно брать и повторять каждый его шаг. Видео сделано специально для новичков максимально подробным, так что если вы когда-либо хотели скормить всю свою или личную (или вдруг корпоративную) базу, то вот самое время.
RAG или Retrieval-Augmented Generation — это способ рассказать нейронке о ваших данных. Причем они могут быть не слишком хорошо отсортированы, так как часть, названная Retrieval, по сути, поисковик. Так можно без дополнительного дорогого тюнинга дополнить базу знаний LLM своими файлами, что позволяет использовать такую ллм в роли например консультанта продавца или техподдержки.
Сам видос тут. Если интересно еще узнать про RAG, то можно ещё послушать интервью с моей знакомой, инженером из Cohere, которая пилит RAG для моделей Command-R+ – я писал об этом пост. И вот ещё в придачу пост на хабре про RAG.
#ликбез
@ai_newz
RAG или Retrieval-Augmented Generation — это способ рассказать нейронке о ваших данных. Причем они могут быть не слишком хорошо отсортированы, так как часть, названная Retrieval, по сути, поисковик. Так можно без дополнительного дорогого тюнинга дополнить базу знаний LLM своими файлами, что позволяет использовать такую ллм в роли например консультанта продавца или техподдержки.
Сам видос тут. Если интересно еще узнать про RAG, то можно ещё послушать интервью с моей знакомой, инженером из Cohere, которая пилит RAG для моделей Command-R+ – я писал об этом пост. И вот ещё в придачу пост на хабре про RAG.
#ликбез
@ai_newz
YouTube
Building a RAG application using open-source models (Asking questions from a PDF using Llama2)
GitHub Repository: https://github.com/svpino/llm
I teach a live, interactive program that'll help you build production-ready machine learning systems from the ground up. Check it out at https://www.ml.school.
Twitter/X: https://www.twitter.com/svpino
I teach a live, interactive program that'll help you build production-ready machine learning systems from the ground up. Check it out at https://www.ml.school.
Twitter/X: https://www.twitter.com/svpino
Я с очередным гайдом — про Llama3
Вот шикарный гитхаб, на котором можно самому, словно Лего, собрать Llama 3. Причём там всё максимально пошагово и весь необходимый код прилагается, так что реально такое собрать даже если совсем не разбираешься. А если интересна теория, то можно спросить у нового чат GPT или Gemini.
За основу берутся веса лламы с официального сайта, ну а потом вся вот эта дребедень: трансформеры, эмбединги, матрицы, токенайзеры — всё ручками. Так что, как известно, лучший способ что-то понять — построить самостоятельно.
Ну а вишенка на торте — всё очень мило показывает аниме персонаж.
Делитесь потом результатами, если кто вдруг возьмётся.
Пора бы уже самому новые гайды какие-нибудь написать. Подкиньте идеи для гайдов и ликбезов в комментарии😉
Гайд на гитхабе
#туториал #ликбез
@ai_newz
Вот шикарный гитхаб, на котором можно самому, словно Лего, собрать Llama 3. Причём там всё максимально пошагово и весь необходимый код прилагается, так что реально такое собрать даже если совсем не разбираешься. А если интересна теория, то можно спросить у нового чат GPT или Gemini.
За основу берутся веса лламы с официального сайта, ну а потом вся вот эта дребедень: трансформеры, эмбединги, матрицы, токенайзеры — всё ручками. Так что, как известно, лучший способ что-то понять — построить самостоятельно.
Делитесь потом результатами, если кто вдруг возьмётся.
Пора бы уже самому новые гайды какие-нибудь написать. Подкиньте идеи для гайдов и ликбезов в комментарии😉
Гайд на гитхабе
#туториал #ликбез
@ai_newz
За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.
Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.
Туториал
Код
#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Let's reproduce GPT-2 (124M)
We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не впервой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не впервой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
Кстати, для тех кто не знал, NVIDIA регулярно проводит платные воркшопы онлайн.
Вот, например, скоро будет 7-часовой воркшоп "Model Parallelism: Building and Deploying Large Neural Networks".
Цена вопроса - $500.
Звучит интересно, я бы послушал инсайты от NVIDIA, как они юзают всякие параллелизма для тренировки очень больших моделей (например Хуанг хвалился, что они натренили LLM с 1.8 триллионами параметров). Но ценник, конечно, почти как регистрация на ECCV. Наверное, лучше посмотрю леции на ютубе и съезжу в Милан.😁
Хотя, если кто-то начинает изучать эти темы с нуля, то такие воркшопы могли бы хорошо зайти, ведь там дадут структурированную информацию и можно позадавать вопросы. Есть очень много тонкостей, которые нигде не написаны и их можно узнать только из личной беседы.
Вот тут есть расписание всех воркшопов.
#ликбез
@ai_newz
Вот, например, скоро будет 7-часовой воркшоп "Model Parallelism: Building and Deploying Large Neural Networks".
Цена вопроса - $500.
Звучит интересно, я бы послушал инсайты от NVIDIA, как они юзают всякие параллелизма для тренировки очень больших моделей (например Хуанг хвалился, что они натренили LLM с 1.8 триллионами параметров). Но ценник, конечно, почти как регистрация на ECCV. Наверное, лучше посмотрю леции на ютубе и съезжу в Милан.😁
Хотя, если кто-то начинает изучать эти темы с нуля, то такие воркшопы могли бы хорошо зайти, ведь там дадут структурированную информацию и можно позадавать вопросы. Есть очень много тонкостей, которые нигде не написаны и их можно узнать только из личной беседы.
Вот тут есть расписание всех воркшопов.
#ликбез
@ai_newz
Если вы прочитали пост выше и ничего не поняли, то вот вам подборка курсов и материалов, чтобы вкатиться в Reinforcement Learning (RL).
1️⃣ Библия Reinforcement Learning от Ричарда Саттона, хардкорная книга со всей базой.
2️⃣ Курс по Deep Reinforcement Learning от HuggingFace, с практикой.
3️⃣ Spinning Up in Deep RL - мини-курс от OpenAI. База за 3 часа, с кодом.
4️⃣ Пример как в гугле обучали мультизадачных робо-руки с помощью Offline RL. Довольно старая статья, но это интересный и понятный кейс.
Вперед к новым знаниям!
#ликбез
@ai_newz
Вперед к новым знаниям!
#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
эйай ньюз
На рождество получил отличный подарок. Это библия Reinforcement Learning от Ричарда Саттона. Второе дополненное издание — особенно крутое.
Собираюсь за праздники подтянуть базу по RL. Советую эту книгу всем, кто хочет реально разобраться, на каких принципах…
Собираюсь за праздники подтянуть базу по RL. Советую эту книгу всем, кто хочет реально разобраться, на каких принципах…
🔥Mastering LLMs: Открытый курс по LLM от практиков
Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.
Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.
Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.
Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.
> Ссылка на курс: https://parlance-labs.com/education/
Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.
#ликбез
@ai_newz
Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.
Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.
Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.
Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.
> Ссылка на курс: https://parlance-labs.com/education/
Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.
#ликбез
@ai_newz
Принёс вам подборку ресурсов о внутренностях ML фреймворков
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
CS492(D): Diffusion Models and Their Applications
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туториалов, вот первый и второй
#ликбез
@ai_newz
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туториалов, вот первый и второй
#ликбез
@ai_newz