Нейродайджест за неделю (#25)
Video
- Общий доступ GEN-3, но дорого и как-то бесполезно.
- Runway ту зе мун!!! после не слишком плохого релиза челики оценили себя в 4 ярда и хотят привлечь $450М. Поговаривают, они могут стать Midjourney в text2video (последние смогли отбиться от Dall-E).
- Double the compute. Luma тоже не сидят на месте и удвоили свои мощности. Может, мой запрос недельной давности уже готов?
О жизни и карьере
- Днем бью по клавишам, а вечером по морде или как не сойти с ума на работе.
- Как пробиться в AI? Мой гайд про карьерные траектории в AI или как стать топовым ресерч сайнтистом.
- Цукерберг умеет флексить. А чем вы занимаетесь в пятницу вечером?
Живые железяки
- Нейролюбовница Character.AI или как вымрет человечество, чем грозит любовь к их чатам.
- Архитектура CAI или как дешевле обрабатывать 20К запросов в секунду.
- Автономные агенты выросли в майнкрафте. Большой пост про самостоятельных роботов и систему для их мышления OmniJARVIS. Боюсь, что будет, если совместить их с CharacterAI.
Прочее
- GPT4o дома be like. Французы заопенсорсили свою омнимодальную модель.
- ЭйАй пузырь. Где деньги, Лебовски Альтман?! Где-то среди хайпа затерялись 600 миллиардов кассового разрыва, и их никак не могут найти.
> Читать дайджест#24
#дайджест
@ai_newz
Video
- Общий доступ GEN-3, но дорого и как-то бесполезно.
- Runway ту зе мун!!! после не слишком плохого релиза челики оценили себя в 4 ярда и хотят привлечь $450М. Поговаривают, они могут стать Midjourney в text2video (последние смогли отбиться от Dall-E).
- Double the compute. Luma тоже не сидят на месте и удвоили свои мощности. Может, мой запрос недельной давности уже готов?
О жизни и карьере
- Днем бью по клавишам, а вечером по морде или как не сойти с ума на работе.
- Как пробиться в AI? Мой гайд про карьерные траектории в AI или как стать топовым ресерч сайнтистом.
- Цукерберг умеет флексить. А чем вы занимаетесь в пятницу вечером?
Живые железяки
- Нейролюбовница Character.AI или как вымрет человечество, чем грозит любовь к их чатам.
- Архитектура CAI или как дешевле обрабатывать 20К запросов в секунду.
- Автономные агенты выросли в майнкрафте. Большой пост про самостоятельных роботов и систему для их мышления OmniJARVIS. Боюсь, что будет, если совместить их с CharacterAI.
Прочее
- GPT4o дома be like. Французы заопенсорсили свою омнимодальную модель.
- ЭйАй пузырь. Где деньги, Лебовски Альтман?! Где-то среди хайпа затерялись 600 миллиардов кассового разрыва, и их никак не могут найти.
> Читать дайджест#24
#дайджест
@ai_newz
Context Caching уже начинают внедрять API провайдеры за пределами Google
Первыми тут идут китайцы из DeepSeek. Их API и так самый лучший по цена/качество на рынке - DeepSeek Coder V2 по качеству в программировании близок к Claude 3.5 и GPT-4o, а стоит в пятьдесят раз дешевле, а тут ещё и context caching бесплатный на 24 часа подвезли.
Я рассказывал уже про context caching ранее, фича очень классная как для чатов, где это банально делает чат дешевле, так и для пайплайнов, где часто переиспользуется один и тот же большой промпт.
@ai_newz
Первыми тут идут китайцы из DeepSeek. Их API и так самый лучший по цена/качество на рынке - DeepSeek Coder V2 по качеству в программировании близок к Claude 3.5 и GPT-4o, а стоит в пятьдесят раз дешевле, а тут ещё и context caching бесплатный на 24 часа подвезли.
Я рассказывал уже про context caching ранее, фича очень классная как для чатов, где это банально делает чат дешевле, так и для пайплайнов, где часто переиспользуется один и тот же большой промпт.
@ai_newz
Вы, наверное, слышали, что правительство США запретило NVIDIA поставлять в Китай видеокарты A100 и H100.
Но Куртке рыночек-то терять не хочется. Поэтому он провернул такой финт ушами - сделал слегка урезанную версию A100 и H100, чтобы они не подпадали под экспортные регуляции, и продолжил загребать китайский кэш.
То есть в Китай вместо H100 поставляют H800, что является урезанной версией оригинала, но с вдвое меньшей скоростью передачи данных между видеокартами (300 GBps в H800 против оригинальных 600 GBps в H100). Сам же чип остался таким же быстрым, как и оригинал, вот только имеет макс. VRAM 80 GB вместо 96. То есть гонять инференс на одной карте китайцы смогут так же быстро, а вот тренировать большие модели, которые требуют нескольких нод (а сейчас почти каждая модель такая), будет для них до 2 раз медленнее.
С A100 была похожая история, тоже создали A800 для китайцев, но тогда не так сильно урезали скорость интерконнекта - только на 33% с 600 GBps до 400 GBps.
Ставят палки в колеса поднебесной, чтобы вдруг не обогнали своими моделями🛞 .
@ai_newz
Но Куртке рыночек-то терять не хочется. Поэтому он провернул такой финт ушами - сделал слегка урезанную версию A100 и H100, чтобы они не подпадали под экспортные регуляции, и продолжил загребать китайский кэш.
То есть в Китай вместо H100 поставляют H800, что является урезанной версией оригинала, но с вдвое меньшей скоростью передачи данных между видеокартами (300 GBps в H800 против оригинальных 600 GBps в H100). Сам же чип остался таким же быстрым, как и оригинал, вот только имеет макс. VRAM 80 GB вместо 96. То есть гонять инференс на одной карте китайцы смогут так же быстро, а вот тренировать большие модели, которые требуют нескольких нод (а сейчас почти каждая модель такая), будет для них до 2 раз медленнее.
С A100 была похожая история, тоже создали A800 для китайцев, но тогда не так сильно урезали скорость интерконнекта - только на 33% с 600 GBps до 400 GBps.
Ставят палки в колеса поднебесной, чтобы вдруг не обогнали своими моделями
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
эйай ньюз
NVIDIA сегодня анонсировала свою новую видеокарту для AI-датацентров GH100
Что по спекам?
Полная реализация GH100 имеет следующие характеристики:
• 4-нм технология!
• 8 GPCs, 72 TPCs (9 TPCs/GPC), 2 SMs/TPC, 144 SMs per full GPU
• 128 FP32 CUDA Cores per…
Что по спекам?
Полная реализация GH100 имеет следующие характеристики:
• 4-нм технология!
• 8 GPCs, 72 TPCs (9 TPCs/GPC), 2 SMs/TPC, 144 SMs per full GPU
• 128 FP32 CUDA Cores per…
Про поставки запрещенных чипов Nvidia в Китай - продолжение [предыдущая часть]
Даже урезанные A800, H800 чипы, про которые я писал в предыдущем посте, были также запрещены для поставок в Китай еще в октябре 2023. Кроме того, давно под запретом A100, H100, L40, L40S и RTX 4090.
Но Папу Хуанга не проведешь! Он подсуетился и выпустил новую линейку урезанных чипов H20, L20 и L2, которые на тоненького проходят по границе экспортных регуляций для Китая.
В этом году Куртка планирует поставить в Китай 1 млн чипов H20, что принесет компании $12 млрд.
H20 vs H100.
Чип H20 – это урезанная версия H100 с 6.68x меньше номинальных TFlops в int8, но с более быстрой памятью (4 TB/s против 3.25 TB/s у H100). Поэтому инференс LLM на H20 получается даже на 20% быстрее, чем на H100, если гонять модель целиком на одной видеокарте (LLaMa3 70B в int8 целиком влезает в одну). Однако распределенная тренировка больших моделей, где также важна скорость коммуникации между чипами, по оценкам будет на 50% медленнее, чем на H100.
H20 vs Huawei Ascend 910B.
Каждый чип H20 стоит от $12000 до $13000, цену специально подобрали так, чтобы она была примерно как у их главного китайского конкурента - Huawei Ascend 910B, который по номинальным TFLOPS в спеке вроде на 10% лучше, чем H20, но на практике не дотягивает. Сказывается и скорость памяти (в 4.5 раз медленнее), и ее объем (64 GB vs 96 GB), и скорость интерконнекта (2x ниже), и отсутствие такого крутого программного стека (CUDA), как у Nvidia.
Сейчас доля NVIDIA потихоньку сжимается, да и Китай мотивирует свои компании меньше покупать у Nvidia, а больше брать отечественного. Но даже в этом году на 1 млн H20 от Хуанга в Китае продано только 500 тыс. чипов Huawei Ascend 910B. Например, по слухам, Tencent строит несколько новых кластеров на чипах H20, самый крупный из которых будет иметь > 60 тыс. H20.
До всех запретов чипы Nvidia занимали 90% рынка AI-чипов в Китае. Но китайцы все равно тащат A100 и H100 и прочие запрещенные карточки контрабандой через Индию, Малайзию, Тайвань, Гонконг и Сингапур. Цены на них, конечно, взлетели в разы.
Разворачивается прямо жестокая борьба между регуляторами США и Nvidia, стремящейся не упустить лакомый кусок рынка в Китае любой ценой.
@ai_newz
Даже урезанные A800, H800 чипы, про которые я писал в предыдущем посте, были также запрещены для поставок в Китай еще в октябре 2023. Кроме того, давно под запретом A100, H100, L40, L40S и RTX 4090.
Но Папу Хуанга не проведешь! Он подсуетился и выпустил новую линейку урезанных чипов H20, L20 и L2, которые на тоненького проходят по границе экспортных регуляций для Китая.
В этом году Куртка планирует поставить в Китай 1 млн чипов H20, что принесет компании $12 млрд.
H20 vs H100.
Чип H20 – это урезанная версия H100 с 6.68x меньше номинальных TFlops в int8, но с более быстрой памятью (4 TB/s против 3.25 TB/s у H100). Поэтому инференс LLM на H20 получается даже на 20% быстрее, чем на H100, если гонять модель целиком на одной видеокарте (LLaMa3 70B в int8 целиком влезает в одну). Однако распределенная тренировка больших моделей, где также важна скорость коммуникации между чипами, по оценкам будет на 50% медленнее, чем на H100.
H20 vs Huawei Ascend 910B.
Каждый чип H20 стоит от $12000 до $13000, цену специально подобрали так, чтобы она была примерно как у их главного китайского конкурента - Huawei Ascend 910B, который по номинальным TFLOPS в спеке вроде на 10% лучше, чем H20, но на практике не дотягивает. Сказывается и скорость памяти (в 4.5 раз медленнее), и ее объем (64 GB vs 96 GB), и скорость интерконнекта (2x ниже), и отсутствие такого крутого программного стека (CUDA), как у Nvidia.
Сейчас доля NVIDIA потихоньку сжимается, да и Китай мотивирует свои компании меньше покупать у Nvidia, а больше брать отечественного. Но даже в этом году на 1 млн H20 от Хуанга в Китае продано только 500 тыс. чипов Huawei Ascend 910B. Например, по слухам, Tencent строит несколько новых кластеров на чипах H20, самый крупный из которых будет иметь > 60 тыс. H20.
До всех запретов чипы Nvidia занимали 90% рынка AI-чипов в Китае. Но китайцы все равно тащат A100 и H100 и прочие запрещенные карточки контрабандой через Индию, Малайзию, Тайвань, Гонконг и Сингапур. Цены на них, конечно, взлетели в разы.
Разворачивается прямо жестокая борьба между регуляторами США и Nvidia, стремящейся не упустить лакомый кусок рынка в Китае любой ценой.
@ai_newz
⚡️Маск: Grok 2 уже натренирован и тюнится
В планах у XAI построить огромный кластер на 100к H100. Но так как он ещё строится, то XAI пришлось арендовать 24 тысячи видеокарт у Oracle, на них Grok 2 и натренили. Релиз Илон обещает в следующем месяце, но учитывайте что это по Elon Time.
Я жду с нетерпением!
@ai_newz
В планах у XAI построить огромный кластер на 100к H100. Но так как он ещё строится, то XAI пришлось арендовать 24 тысячи видеокарт у Oracle, на них Grok 2 и натренили. Релиз Илон обещает в следующем месяце, но учитывайте что это по Elon Time.
Я жду с нетерпением!
@ai_newz
Набор инструкций H100 и 4090 теперь задокументирован 👏
Умелец смог при помощи фаззера задокументировать набор инструкций актуальных карт Nvidia. Сама Nvidia такое в паблик не пускает, чтобы всё шло через CUDA, максимум PTX. Таким образом они добиваются вендорлока к картам Nvidia в целом, а не одной конкретной архитектуре.
Проблема в том, что без такой документации заметно сложнее делать оптимизации под конкретные архитектуры. А вот с ней и альтернативные компиляторы для карт Nvidia делать будет проще, может, будут даже такие, что не качают пять гигов зависимостей (что-то я замечтался).
Дальше автор собирается добавить данные о производительности каждой инструкции, что потребует кучу микробенчмарков.
H100
RTX 4090
Код
@ai_newz
Умелец смог при помощи фаззера задокументировать набор инструкций актуальных карт Nvidia. Сама Nvidia такое в паблик не пускает, чтобы всё шло через CUDA, максимум PTX. Таким образом они добиваются вендорлока к картам Nvidia в целом, а не одной конкретной архитектуре.
Проблема в том, что без такой документации заметно сложнее делать оптимизации под конкретные архитектуры. А вот с ней и альтернативные компиляторы для карт Nvidia делать будет проще, может, будут даже такие, что не качают пять гигов зависимостей (что-то я замечтался).
Дальше автор собирается добавить данные о производительности каждой инструкции, что потребует кучу микробенчмарков.
H100
RTX 4090
Код
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нас ждет абсолютно новый геймдев. Зацените, что делают ребята, которые сидят на жестких гауссиан сплатах.
Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360. Можно считать, что это просто мир прогружается, а потом спокойно бегать.
Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.
Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.
Наслаждаемся и ходим по новоиспеченной сцене.
А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)
Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?
Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer
Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)
@ai_newz
Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360. Можно считать, что это просто мир прогружается, а потом спокойно бегать.
Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.
Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.
Наслаждаемся и ходим по новоиспеченной сцене.
А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)
Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?
Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer
Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)
@ai_newz
Вышел Flash Attention 3!
На этот раз специально оптимизировали под H100 и H800.
Для FP16, достигает ускорения в 1.6x-2.0x по сравнению с FA-2! Особенно большой прирост заметен, когда побольше размерность голов в аттеншен, например 128 или 256. Очередной разрыв!💥
Используют те же оптимизации что в ThunderKittens, но куда больше мелких оптимизаций, поэтому и быстрее. К этому бонусом идёт улучшенная в два раза точность аттеншна в fp8.
Статья
Блог
Код
@ai_newz
На этот раз специально оптимизировали под H100 и H800.
Для FP16, достигает ускорения в 1.6x-2.0x по сравнению с FA-2! Особенно большой прирост заметен, когда побольше размерность голов в аттеншен, например 128 или 256. Очередной разрыв!
Используют те же оптимизации что в ThunderKittens, но куда больше мелких оптимизаций, поэтому и быстрее. К этому бонусом идёт улучшенная в два раза точность аттеншна в fp8.
Статья
Блог
Код
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Тут стартап futureresearch сделал доклад о доходах OpenAI за год:
$1.9B за ChatGPT Plus (7.7M подписчиков по $20/мес),
$714M от ChatGPT Enterprise (1.2M по $50/мес),
$510M от API, и
$290M от ChatGPT Team (80k по $25/мес)
$3.4B общего годового дохода
Данные собирали по косвенным показателям, поскольку это не официальный отчет – зато порядок чисел интересный, АИ-масс адаптация еще не случилась это точно
$1.9B за ChatGPT Plus (7.7M подписчиков по $20/мес),
$714M от ChatGPT Enterprise (1.2M по $50/мес),
$510M от API, и
$290M от ChatGPT Team (80k по $25/мес)
$3.4B общего годового дохода
Данные собирали по косвенным показателям, поскольку это не официальный отчет – зато порядок чисел интересный, АИ-масс адаптация еще не случилась это точно
GPT-2 (1.6B) за 24 часа и всего $672
Карпатый затвитил, что примерно 5 лет назад анонсировали GPT-2. Тогда на тренировку этой модели у OpenAI ушло целых ~$100,000.
Сейчас же, чтобы воспроизвести те результаты потребуется одна нода 8XH100 на 24 часа, что обойдется вам в районе $500-$672.
Карпатый показывает как это легко и дешево сделать на его минималистичном llm.c в 5000 строк кода:
https://github.com/karpathy/llm.c/discussions/677
Далее у Андрея в планах заимплементировать операции в fp8, файнтюнинг, мультимодальность и заонбордить на llm.c более современные архитектуры вроде LLama и Gemma.
Приятно наблюдать, как за 5 лет стоимость обучения модели упала аж в 150-200 раз, благодаря улучшению технологий и, конечно, ускорению железа. Так и до GPT-3 на рисоварке действительно недалеко!
@ai_newz
Карпатый затвитил, что примерно 5 лет назад анонсировали GPT-2. Тогда на тренировку этой модели у OpenAI ушло целых ~$100,000.
Сейчас же, чтобы воспроизвести те результаты потребуется одна нода 8XH100 на 24 часа, что обойдется вам в районе $500-$672.
Карпатый показывает как это легко и дешево сделать на его минималистичном llm.c в 5000 строк кода:
https://github.com/karpathy/llm.c/discussions/677
Далее у Андрея в планах заимплементировать операции в fp8, файнтюнинг, мультимодальность и заонбордить на llm.c более современные архитектуры вроде LLama и Gemma.
Приятно наблюдать, как за 5 лет стоимость обучения модели упала аж в 150-200 раз, благодаря улучшению технологий и, конечно, ускорению железа. Так и до GPT-3 на рисоварке действительно недалеко!
@ai_newz
Держите два три сайта с наборами задач для тренировки ML. Задачек пока что немного — около 70 в сумме.
На позиции Research Scientist и Research Engineer есть такой тип интервью, который называется AI Coding, и я такие в том числе тоже провожу. Часто там задачи просто алгоритмические, как на LeetCode, но бывают и более близкие к AI/ML, такие как представлены на этих сайтах. В общем, сохраняйте для подготовки к AI coding собеседованиям.
https://www.deep-ml.com/ - тут всё нужно делать с нуля, на чистом питоне
https://tensorgym.com/exercises - тут можно использовать торч
https://neetcode.io/practice (там есть ML Секция) – задачи как на Numpy, так и на PyTorch. Особенно рекомендую self-attention - и в жизни пригодится.
#interviews
@ai_newz
На позиции Research Scientist и Research Engineer есть такой тип интервью, который называется AI Coding, и я такие в том числе тоже провожу. Часто там задачи просто алгоритмические, как на LeetCode, но бывают и более близкие к AI/ML, такие как представлены на этих сайтах. В общем, сохраняйте для подготовки к AI coding собеседованиям.
https://www.deep-ml.com/ - тут всё нужно делать с нуля, на чистом питоне
https://tensorgym.com/exercises - тут можно использовать торч
https://neetcode.io/practice (там есть ML Секция) – задачи как на Numpy, так и на PyTorch. Особенно рекомендую self-attention - и в жизни пригодится.
#interviews
@ai_newz
Может кому-то из читателей будет интересно. AIRI организует в ИТМО бесплатную летнюю школу для студентов и исследователей по мультимодалкам, генеративным моделям и RL. Подача заявок до воскресения вечера (14 июля).
Вот записи лекций с прошлого года: плейлист на ютубе.
@ai_newz
Вот записи лекций с прошлого года: плейлист на ютубе.
@ai_newz
airi.net
Лето с AIRI
Ежегодная Школа для молодых ученых — это глубокое погружение в работу с широким спектром современных методов искусственного интеллекта и машинного обучения.
Я обычно не выкладываю промпты. Но вот что-то последнее время попадается на глаза красота с использованием стилевых кодов для MJ. Заодно и расскажу, как это работает на уровне имплементации.
Что такое эти стилевые коды?
Кроме текстового промпта на вход можно подать ссылку на референсную картинку (или несколько), в стиле которой и будет финальная генерация. MJ не раскрывают имплементацию этой фичи (боятся конкуренции). Но почти наверняка это работает на базе IP-Adapter – это штука, которая позволяет дотюнить диффузию так, чтобы кроме текстового промпта на вход можно было также подавать референсную картинку. Это может использоваться как для генерации нескольких картинок в одном стиле, так и для консистентности персонажа. Картинка преобразуется в вектор с помощью CLIP, который затем скармливается в продублированные параллельно с оригинальными cross-attention слои в каждом слое трансформера (в случае DiT или SD3) или в соответствующих слоях Unet. Иногда еще добавляют LoRA чтобы слегка подстроить оригинальные cross-attention слои, работающие с текстом.
Так вот, самые интересные стили могут быть "закешированы" на сервере в виде векторов, которым назначены номера. Затем эти стили можно легко и быстро переиспользовать, если известен номер. Это и делает аргумент
Вот моя подборка таких sref кодов (по номерам картинок в посте):
1.
2.
3.
4.
5.
6.
7.
Коды, кстати, можно мешать и даже выставлять веса для каждого через
Больше стилей и кодов к ним можно посмотреть в этой галлерее: midjourneysref.com
@ai_newz
Что такое эти стилевые коды?
Кроме текстового промпта на вход можно подать ссылку на референсную картинку (или несколько), в стиле которой и будет финальная генерация. MJ не раскрывают имплементацию этой фичи (боятся конкуренции). Но почти наверняка это работает на базе IP-Adapter – это штука, которая позволяет дотюнить диффузию так, чтобы кроме текстового промпта на вход можно было также подавать референсную картинку. Это может использоваться как для генерации нескольких картинок в одном стиле, так и для консистентности персонажа. Картинка преобразуется в вектор с помощью CLIP, который затем скармливается в продублированные параллельно с оригинальными cross-attention слои в каждом слое трансформера (в случае DiT или SD3) или в соответствующих слоях Unet. Иногда еще добавляют LoRA чтобы слегка подстроить оригинальные cross-attention слои, работающие с текстом.
Так вот, самые интересные стили могут быть "закешированы" на сервере в виде векторов, которым назначены номера. Затем эти стили можно легко и быстро переиспользовать, если известен номер. Это и делает аргумент
--sref <код-стиля> после промпта в MJ.
Вот моя подборка таких sref кодов (по номерам картинок в посте):
1.
--c 8 --sref 4158384349 --p --s 1000 --ar 1:1
2.
--sref 340668170
3.
--sref 981744181
4.
shot, underwater --c 30 --ar 2:3 --sref 981744181 --p --s 500
5.
--sref 3677111049 {--style raw}
6.
--sref 885020885 --style raw --ar 2:3 --sw 200 --stylize 300
7.
--sref 1693082081
Коды, кстати, можно мешать и даже выставлять веса для каждого через
::
. В этом случае эти закешированные вектора линейно интерполируются. А параметр --sw 0-100
меняет вес всего стиля (style weight). Ну, и небольшой промптинг для полировки всё-таки может понадобиться.Больше стилей и кодов к ним можно посмотреть в этой галлерее: midjourneysref.com
@ai_newz