Let's build GPT: from scratch, in code, spelled out.
Андрей Карпатный доступно объясняет, как с нуля построить языковую модель GPT.
Обучение на Tiny Shakespeare: Используется для демонстрации обучения Transformer-модели на большом тексте.
NanoGPT: Реализация Transformer в GitHub, состоящая из двух файлов кода для обучения и моделирования.
Токенизация: Обсуждение подходов к токенизации, включая символьный уровень для упрощенной модели и подсловный уровень для более крупных моделей, например, GPT.
Размер пакета и блока: обеспечение вычислительной эффективности и адаптации к контекстам различных длин.
Генерация текста и оценка потерь: Использование перекрестной энтропии для оценки производительности модели.
Практическая реализация в PyTorch: Детали реализации, включая обработку тензоров для обучения и генерации.
На протяжении видео демонстрируется, как модель итеративно улучшается, учась на основе имеющегося текстового набора.
Полезно посмотреть на праздниках.
#Learning #Karpathy #NaturalLanguageProcessing
Андрей Карпатный доступно объясняет, как с нуля построить языковую модель GPT.
Обучение на Tiny Shakespeare: Используется для демонстрации обучения Transformer-модели на большом тексте.
NanoGPT: Реализация Transformer в GitHub, состоящая из двух файлов кода для обучения и моделирования.
Токенизация: Обсуждение подходов к токенизации, включая символьный уровень для упрощенной модели и подсловный уровень для более крупных моделей, например, GPT.
Размер пакета и блока: обеспечение вычислительной эффективности и адаптации к контекстам различных длин.
Генерация текста и оценка потерь: Использование перекрестной энтропии для оценки производительности модели.
Практическая реализация в PyTorch: Детали реализации, включая обработку тензоров для обучения и генерации.
На протяжении видео демонстрируется, как модель итеративно улучшается, учась на основе имеющегося текстового набора.
Полезно посмотреть на праздниках.
#Learning #Karpathy #NaturalLanguageProcessing
✍2🔥2
Llama3 с нуля: гайд от Андрея Карпатый
Пошаговая реализация модели Llama3 с подробрым разбором токенизации, создания слоёв, матричного умножения, загрузки тензоров, эмбеддингов, расчёта ключей, фокуса внимания, ротационного позиционирования и всего, что необходимо что бы получить универсальный ответ на главный вопрос о жизни, вселенной и всем таком.
Для тех, кто хочет разобраться как оно всё устроено под капотом в картинках - must read! 🧙♂️🔮
#Llama3 #Karpathy #guide
-------
@tsingular
Пошаговая реализация модели Llama3 с подробрым разбором токенизации, создания слоёв, матричного умножения, загрузки тензоров, эмбеддингов, расчёта ключей, фокуса внимания, ротационного позиционирования и всего, что необходимо что бы получить универсальный ответ на главный вопрос о жизни, вселенной и всем таком.
Для тех, кто хочет разобраться как оно всё устроено под капотом в картинках - must read! 🧙♂️🔮
#Llama3 #Karpathy #guide
-------
@tsingular
👍2🔥2
Пишем GPT-2 своими руками с Андреем Карпати
В новом видео Андрей Карпати демонстрирует процесс создания модели GPT-2 объемом 124B.
Основная цель — обучение модели GPT2 с использованием веб-данных.
В 4х часовом видео разобраны процедуры подбора параметров под объем GPU и общие требования к модели, валидация, оценка потерь.
Потери на валидации выводятся каждые 100 итераций.
В качестве дополнительной оценки используется набор данных H-SWAG, который представляет из себя тест с множественным выбором, где нужно выбрать наиболее вероятное продолжение предложения.
Задача H-SWAG — выбор естественного продолжения предложения.
Скрипт всего процесса опубликован на GitHub.
- build-nanogpt GitHub repo, with all the changes in this video as individual commits: https://github.com/karpathy/build-nanogpt
- nanoGPT repo: https://github.com/karpathy/nanoGPT
- llm.c repo: https://github.com/karpathy/llm.c
#AIResearch #Karpathy #GPT2
-------
@tsingular
В новом видео Андрей Карпати демонстрирует процесс создания модели GPT-2 объемом 124B.
Основная цель — обучение модели GPT2 с использованием веб-данных.
В 4х часовом видео разобраны процедуры подбора параметров под объем GPU и общие требования к модели, валидация, оценка потерь.
Потери на валидации выводятся каждые 100 итераций.
В качестве дополнительной оценки используется набор данных H-SWAG, который представляет из себя тест с множественным выбором, где нужно выбрать наиболее вероятное продолжение предложения.
Задача H-SWAG — выбор естественного продолжения предложения.
Скрипт всего процесса опубликован на GitHub.
- build-nanogpt GitHub repo, with all the changes in this video as individual commits: https://github.com/karpathy/build-nanogpt
- nanoGPT repo: https://github.com/karpathy/nanoGPT
- llm.c repo: https://github.com/karpathy/llm.c
#AIResearch #Karpathy #GPT2
-------
@tsingular
👍1
Карпати потестил Grok 3 в раннем доступе.
🎯 Ключевые выводы:
Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)
Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками
Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"
💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год
🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа
🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )
#grok3 #karpathy
———
@tsingular
🎯 Ключевые выводы:
Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)
Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками
Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"
💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год
🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа
🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )
#grok3 #karpathy
———
@tsingular
👍8🔥4