Технозаметки Малышева

Let's build GPT: from scratch, in code, spelled out.

Андрей Карпатный доступно объясняет, как с нуля построить языковую модель GPT.

Обучение на Tiny Shakespeare: Используется для демонстрации обучения Transformer-модели на большом тексте.
NanoGPT: Реализация Transformer в GitHub, состоящая из двух файлов кода для обучения и моделирования.
Токенизация: Обсуждение подходов к токенизации, включая символьный уровень для упрощенной модели и подсловный уровень для более крупных моделей, например, GPT.
Размер пакета и блока: обеспечение вычислительной эффективности и адаптации к контекстам различных длин.
Генерация текста и оценка потерь: Использование перекрестной энтропии для оценки производительности модели.
Практическая реализация в PyTorch: Детали реализации, включая обработку тензоров для обучения и генерации.

На протяжении видео демонстрируется, как модель итеративно улучшается, учась на основе имеющегося текстового набора.

Полезно посмотреть на праздниках.

#Learning #Karpathy #NaturalLanguageProcessing

✍2🔥2

127 views05:07

Llama3 с нуля: гайд от Андрея Карпатый

Пошаговая реализация модели Llama3 с подробрым разбором токенизации, создания слоёв, матричного умножения, загрузки тензоров, эмбеддингов, расчёта ключей, фокуса внимания, ротационного позиционирования и всего, что необходимо что бы получить универсальный ответ на главный вопрос о жизни, вселенной и всем таком.

Для тех, кто хочет разобраться как оно всё устроено под капотом в картинках - must read! 🧙‍♂️🔮

#Llama3 #Karpathy #guide
-------
@tsingular

👍2🔥2

233 viewsedited 21:03

Технозаметки Малышева

Пишем GPT-2 своими руками с Андреем Карпати

В новом видео Андрей Карпати демонстрирует процесс создания модели GPT-2 объемом 124B.

Основная цель — обучение модели GPT2 с использованием веб-данных.

В 4х часовом видео разобраны процедуры подбора параметров под объем GPU и общие требования к модели, валидация, оценка потерь.
Потери на валидации выводятся каждые 100 итераций.
В качестве дополнительной оценки используется набор данных H-SWAG, который представляет из себя тест с множественным выбором, где нужно выбрать наиболее вероятное продолжение предложения.

Задача H-SWAG — выбор естественного продолжения предложения.

Скрипт всего процесса опубликован на GitHub.
- build-nanogpt GitHub repo, with all the changes in this video as individual commits: https://github.com/karpathy/build-nanogpt
- nanoGPT repo: https://github.com/karpathy/nanoGPT
- llm.c repo: https://github.com/karpathy/llm.c

#AIResearch #Karpathy #GPT2
-------
@tsingular

👍1

156 views07:13

Технозаметки Малышева

Карпати потестил Grok 3 в раннем доступе.

🎯 Ключевые выводы:

Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)

Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками

Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"

💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год

🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа

🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )

#grok3 #karpathy
———
@tsingular

👍8🔥4

940 viewsedited 08:20

About

Blog

Apps

Platform