эйай ньюз
74.6K subscribers
1.66K photos
874 videos
7 files
1.97K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Luma AI удвоили свой компьют (а цены нет). Ну теперь-то погенерим. Будет чем заняться субботним вечерком 😁

@ai_newz
Нейродайджест за неделю (#25)

Video
- Общий доступ GEN-3, но дорого и как-то бесполезно.
- Runway ту зе мун!!! после не слишком плохого релиза челики оценили себя в 4 ярда и хотят привлечь $450М. Поговаривают, они могут стать Midjourney в text2video (последние смогли отбиться от Dall-E).
- Double the compute. Luma тоже не сидят на месте и удвоили свои мощности. Может, мой запрос недельной давности уже готов?

О жизни и карьере
- Днем бью по клавишам, а вечером по морде или как не сойти с ума на работе.
- Как пробиться в AI? Мой гайд про карьерные траектории в AI или как стать топовым ресерч сайнтистом.
- Цукерберг умеет флексить. А чем вы занимаетесь в пятницу вечером?

Живые железяки
- Нейролюбовница Character.AI или как вымрет человечество, чем грозит любовь к их чатам.
- Архитектура CAI или как дешевле обрабатывать 20К запросов в секунду.
- Автономные агенты выросли в майнкрафте. Большой пост про самостоятельных роботов и систему для их мышления OmniJARVIS. Боюсь, что будет, если совместить их с CharacterAI.

Прочее
- GPT4o дома be like. Французы заопенсорсили свою омнимодальную модель.
- ЭйАй пузырь. Где деньги, Лебовски Альтман?! Где-то среди хайпа затерялись 600 миллиардов кассового разрыва, и их никак не могут найти.

> Читать дайджест#24

#дайджест
@ai_newz
Context Caching уже начинают внедрять API провайдеры за пределами Google

Первыми тут идут китайцы из DeepSeek. Их API и так самый лучший по цена/качество на рынке - DeepSeek Coder V2 по качеству в программировании близок к Claude 3.5 и GPT-4o, а стоит в пятьдесят раз дешевле, а тут ещё и context caching бесплатный на 24 часа подвезли.

Я рассказывал уже про context caching ранее, фича очень классная как для чатов, где это банально делает чат дешевле, так и для пайплайнов, где часто переиспользуется один и тот же большой промпт.

@ai_newz
Вы, наверное, слышали, что правительство США запретило NVIDIA поставлять в Китай видеокарты A100 и H100.

Но Куртке рыночек-то терять не хочется. Поэтому он провернул такой финт ушами - сделал слегка урезанную версию A100 и H100, чтобы они не подпадали под экспортные регуляции, и продолжил загребать китайский кэш.

То есть в Китай вместо H100 поставляют H800, что является урезанной версией оригинала, но с вдвое меньшей скоростью передачи данных между видеокартами (300 GBps в H800 против оригинальных 600 GBps в H100). Сам же чип остался таким же быстрым, как и оригинал, вот только имеет макс. VRAM 80 GB вместо 96. То есть гонять инференс на одной карте китайцы смогут так же быстро, а вот тренировать большие модели, которые требуют нескольких нод (а сейчас почти каждая модель такая), будет для них до 2 раз медленнее.

С A100 была похожая история, тоже создали A800 для китайцев, но тогда не так сильно урезали скорость интерконнекта - только на 33% с 600 GBps до 400 GBps.

Ставят палки в колеса поднебесной, чтобы вдруг не обогнали своими моделями 🛞.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Про поставки запрещенных чипов Nvidia в Китай - продолжение [предыдущая часть]

Даже урезанные A800, H800 чипы, про которые я писал в предыдущем посте, были также запрещены для поставок в Китай еще в октябре 2023. Кроме того, давно под запретом A100, H100, L40, L40S и RTX 4090.

Но Папу Хуанга не проведешь! Он подсуетился и выпустил новую линейку урезанных чипов H20, L20 и L2, которые на тоненького проходят по границе экспортных регуляций для Китая.

В этом году Куртка планирует поставить в Китай 1 млн чипов H20, что принесет компании $12 млрд.

H20 vs H100.
Чип H20 – это урезанная версия H100 с 6.68x меньше номинальных TFlops в int8, но с более быстрой памятью (4 TB/s против 3.25 TB/s у H100). Поэтому инференс LLM на H20 получается даже на 20% быстрее, чем на H100, если гонять модель целиком на одной видеокарте (LLaMa3 70B в int8 целиком влезает в одну). Однако распределенная тренировка больших моделей, где также важна скорость коммуникации между чипами, по оценкам будет на 50% медленнее, чем на H100.

H20 vs Huawei Ascend 910B.
Каждый чип H20 стоит от $12000 до $13000, цену специально подобрали так, чтобы она была примерно как у их главного китайского конкурента - Huawei Ascend 910B, который по номинальным TFLOPS в спеке вроде на 10% лучше, чем H20, но на практике не дотягивает. Сказывается и скорость памяти (в 4.5 раз медленнее), и ее объем (64 GB vs 96 GB), и скорость интерконнекта (2x ниже), и отсутствие такого крутого программного стека (CUDA), как у Nvidia.

Сейчас доля NVIDIA потихоньку сжимается, да и Китай мотивирует свои компании меньше покупать у Nvidia, а больше брать отечественного. Но даже в этом году на 1 млн H20 от Хуанга в Китае продано только 500 тыс. чипов Huawei Ascend 910B. Например, по слухам, Tencent строит несколько новых кластеров на чипах H20, самый крупный из которых будет иметь > 60 тыс. H20.

До всех запретов чипы Nvidia занимали 90% рынка AI-чипов в Китае. Но китайцы все равно тащат A100 и H100 и прочие запрещенные карточки контрабандой через Индию, Малайзию, Тайвань, Гонконг и Сингапур. Цены на них, конечно, взлетели в разы.

Разворачивается прямо жестокая борьба между регуляторами США и Nvidia, стремящейся не упустить лакомый кусок рынка в Китае любой ценой.

@ai_newz
⚡️Маск: Grok 2 уже натренирован и тюнится

В планах у XAI построить огромный кластер на 100к H100. Но так как он ещё строится, то XAI пришлось арендовать 24 тысячи видеокарт у Oracle, на них Grok 2 и натренили. Релиз Илон обещает в следующем месяце, но учитывайте что это по Elon Time.

Я жду с нетерпением!

@ai_newz
Набор инструкций H100 и 4090 теперь задокументирован 👏

Умелец смог при помощи фаззера задокументировать набор инструкций актуальных карт Nvidia. Сама Nvidia такое в паблик не пускает, чтобы всё шло через CUDA, максимум PTX. Таким образом они добиваются вендорлока к картам Nvidia в целом, а не одной конкретной архитектуре.

Проблема в том, что без такой документации заметно сложнее делать оптимизации под конкретные архитектуры. А вот с ней и альтернативные компиляторы для карт Nvidia делать будет проще, может, будут даже такие, что не качают пять гигов зависимостей (что-то я замечтался).

Дальше автор собирается добавить данные о производительности каждой инструкции, что потребует кучу микробенчмарков.

H100
RTX 4090
Код

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нас ждет абсолютно новый геймдев. Зацените, что делают ребята, которые сидят на жестких гауссиан сплатах.

Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360.  Можно считать, что это просто мир прогружается, а потом спокойно бегать.

Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.

Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.

Наслаждаемся и ходим по новоиспеченной сцене.

А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)

Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?

Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer


Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел Flash Attention 3!

На этот раз специально оптимизировали под H100 и H800.

Для FP16, достигает ускорения в 1.6x-2.0x по сравнению с FA-2! Особенно большой прирост заметен, когда побольше размерность голов в аттеншен, например 128 или 256. Очередной разрыв!💥

Используют те же оптимизации что в ThunderKittens, но куда больше мелких оптимизаций, поэтому и быстрее. К этому бонусом идёт улучшенная в два раза точность аттеншна в fp8.

Статья
Блог
Код

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Тут стартап futureresearch сделал доклад о доходах OpenAI за год:

$1.9B за ChatGPT Plus (7.7M подписчиков по $20/мес),
$714M от ChatGPT Enterprise (1.2M по $50/мес),
$510M от API, и
$290M от ChatGPT Team (80k по $25/мес)

$3.4B общего годового дохода

Данные собирали по косвенным показателям, поскольку это не официальный отчет – зато порядок чисел интересный, АИ-масс адаптация еще не случилась это точно
GPT-2 (1.6B) за 24 часа и всего $672

Карпатый затвитил, что примерно 5 лет назад анонсировали GPT-2. Тогда на тренировку этой модели у OpenAI ушло целых ~$100,000.

Сейчас же, чтобы воспроизвести те результаты потребуется одна нода 8XH100 на 24 часа, что обойдется вам в районе $500-$672.

Карпатый показывает как это легко и дешево сделать на его минималистичном llm.c в 5000 строк кода:
https://github.com/karpathy/llm.c/discussions/677

Далее у Андрея в планах заимплементировать операции в fp8, файнтюнинг, мультимодальность и заонбордить на llm.c более современные архитектуры вроде LLama и Gemma.

Приятно наблюдать, как за 5 лет стоимость обучения модели упала аж в 150-200 раз, благодаря улучшению технологий и, конечно, ускорению железа. Так и до GPT-3 на рисоварке действительно недалеко!

@ai_newz
Держите два три сайта с наборами задач для тренировки ML. Задачек пока что немного — около 70 в сумме.

На позиции Research Scientist и Research Engineer есть такой тип интервью, который называется AI Coding, и я такие в том числе тоже провожу. Часто там задачи просто алгоритмические, как на LeetCode, но бывают и более близкие к AI/ML, такие как представлены на этих сайтах. В общем, сохраняйте для подготовки к AI coding собеседованиям.

https://www.deep-ml.com/ - тут всё нужно делать с нуля, на чистом питоне
https://tensorgym.com/exercises - тут можно использовать торч
https://neetcode.io/practice (там есть ML Секция) – задачи как на Numpy, так и на PyTorch. Особенно рекомендую self-attention - и в жизни пригодится.

#interviews
@ai_newz
Может кому-то из читателей будет интересно. AIRI организует в ИТМО бесплатную летнюю школу для студентов и исследователей по мультимодалкам, генеративным моделям и RL. Подача заявок до воскресения вечера (14 июля).

Вот записи лекций с прошлого года: плейлист на ютубе.

@ai_newz
Я обычно не выкладываю промпты. Но вот что-то последнее время попадается на глаза красота с использованием стилевых кодов для MJ. Заодно и расскажу, как это работает на уровне имплементации.

Что такое эти стилевые коды?
Кроме текстового промпта на вход можно подать ссылку на референсную картинку (или несколько), в стиле которой и будет финальная генерация. MJ не раскрывают имплементацию этой фичи (боятся конкуренции). Но почти наверняка это работает на базе IP-Adapter – это штука, которая позволяет дотюнить диффузию так, чтобы кроме текстового промпта на вход можно было также подавать референсную картинку. Это может использоваться как для генерации нескольких картинок в одном стиле, так и для консистентности персонажа. Картинка преобразуется в вектор с помощью CLIP, который затем скармливается в продублированные параллельно с оригинальными cross-attention слои в каждом слое трансформера (в случае DiT или SD3) или в соответствующих слоях Unet. Иногда еще добавляют LoRA чтобы слегка подстроить оригинальные cross-attention слои, работающие с текстом.

Так вот, самые интересные стили могут быть "закешированы" на сервере в виде векторов, которым назначены номера. Затем эти стили можно легко и быстро переиспользовать, если известен номер. Это и делает аргумент --sref <код-стиля> после промпта в MJ.

Вот моя подборка таких sref кодов (по номерам картинок в посте):
1.  --c 8 --sref 4158384349 --p --s 1000 --ar 1:1
2.  --sref 340668170
3.  --sref 981744181
4.  shot, underwater --c 30 --ar 2:3 --sref 981744181 --p --s 500
5.  --sref 3677111049 {--style raw}
6.  --sref 885020885 --style raw --ar 2:3 --sw 200 --stylize 300
7.  --sref 1693082081

Коды, кстати, можно мешать и даже выставлять веса для каждого через :: . В этом случае эти закешированные вектора линейно интерполируются. А параметр --sw 0-100 меняет вес всего стиля (style weight). Ну, и небольшой промптинг для полировки всё-таки может понадобиться.

Больше стилей и кодов к ним можно посмотреть в этой галлерее: midjourneysref.com

@ai_newz