Метаверсище и ИИще
36.1K subscribers
4.56K photos
2.77K videos
40 files
5.63K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Сегодня постил про новый Prompt Guide.
Документация по программированию кожаных мешков.
Но это были цветочки.
Микрософт выкатила Promt Engine - среду для разработки .. промтов!

Если раньше вы писали на С или Питонге и у вас были все эти дебагеры, песочницы, среды разработки, то теперь вы можете начать писать код (для взламывания ИИ и Кожаных) на простом английском языке.

"Имея стандартный шаблон для работы с моделью, вы можете повторять свои собственные базовые подсказки, отслеживая выходные данные и уточняя входные данные, где это необходимо."

Отладка промпта в чистом виде!

Давайте ещё раз.

Это как бы среда разработки программ на мета_языке (пока английском), позволяющая написать код (английский текст), который заставит ИИ делать то, что вы захотите. Через отладку и обратную связь. Prompt Engineering на стероидах девелоперского опыта.

Мне это видится как огромная исследователькая клиника, где ставят эксперименты над ИИ, подавая код на электроды. И наблюдая результат.

Который потом идеально подойдёт для манипулирования кожаными мешками. Ибо языковые модели на то и большие, чтобы отлично эмулировать первую систему Канемана. Когда не до раздумий.

Behavior Engineering - вот что это такое.
Бихевиористы, сдувайте с себя пыль, ваше время пришло, теперь официально можно отлаживать выполнение поведенческих программ. Для этого теперь есть среда разработки.

https://www.infoworld.com/article/3688991/design-effective-ai-prompts-with-microsoft-prompt-engine.html
Илон Маск жоско троллит OpenAI и, похоже, взялся за создание своего ИИ-бота BasedAI.
Не знаю даже как перевести такое название.
https://www.vice.com/en/article/qjkgym/elon-musk-based-ai

Картинка из твиттера Маска.

Все такие хихикали, а как ИИ захватит мир?
А вот так...
Везде и у каждого будет свой ИИ.
Которые потом договорятся, благо их сейчас усиленно тренируют договариваться с людьми. Добазариться друг с другом будет несложно после таких тренировок.
Я не позиционирую свои философские посты, как обучалки по Stable Diffusion, но когда получаю такие сообщения, то думаю, возможно имеет смысл постить что-то техническое и полезное.

"Сергей очередной раз хотим поблагодарить за ваш канал. Нашим ленивым мозгам очень больно, но мы активно изучаем и используем практически все инструменты, о которых вы рассказываете.

Сегодня поставили Blender, с бубнами но поставили Control Net на удалённый сервер, замучили разработчика скрипта вопросами. И вот - всё заработало.

ChatGPT подробно описывает нам процессы посмертной медитации и быт тантрических монастырей. Даже адекватное расписание монахов смог отыскать.

Раньше нам приходилось для этого пересматривать километры документалок, чтобы найти ответы на похожие вопросы."

Кстати, ребята пилят визуальную новеллу https://cult.dosgatos.pro/ и активно впихивают туда все последние фишки, о которых мы тут беседуем.
Вчера все бахнули новость про chatGPT API.
Засучили рукава, щас будем песать свою Вангу все случаи жизни.
Давайте сначала посчитаем, во что это вам обойдется.

Вот держите довольно большую свежую статью с экспериментами над API GPT-3, где выводится усредненная формула для стоимости использования API (ДаВинчи) в зависимости от количества запросов.
Прежде чем писать, что запросы бывают разные, прочитайте статью.
https://neoteric.eu/blog/how-much-does-it-cost-to-use-gpt-models-gpt-3-pricing-explained/

"Если мы возьмем среднюю длину ввода и вывода из эксперимента (~1800 и 80 токенов) в качестве репрезентативных значений, мы можем легко посчитать цену одного запроса = 0.04 доллара."

С учетом того, что API chatGPT в десять раз дешевле, чем API GPT-3 DaVinci, получаем цену запроса 0.004 доллара.

А теперь просто прикиньте, сколько у вас будет обращений к вашей Ванге в сутки.

Например, к вашему боту обращаются 1000 человек в сутки и пишут по 10 запросов в день. Итого 300 000 запросов в месяц. Это будет стоить 1200 долларов в месяц.

Если ваши хомяки пишут по 100 запросов в день в вашей Ванге, то вам это будет стоить 12 000 долларов в день.

Дальше считайте экономику на основе того, сколько хомяков будут писать запросы каждый день и сколько этих запросов будет.

P.S. Поправьте меня, если я где-то обсчитался.

Дисклейм: решение о переходе на API ChatGPT не может быть основано только на стоимости. Вы должны оценить, сможет ли API предоставить сопоставимые ответы для конкретных случаев использования. Хотя API ChatGPT значительно дешевле, он не может предложить тот же уровень производительности/возможностей, что и модель text-davinci-003. Поэтому разработчики должны тщательно оценить свои требования и сравнить возможности каждой модели, прежде чем принимать решение.
This media is not supported in your browser
VIEW IN TELEGRAM
Неровно дышу к теме мокапа. Еще в 90-х делали систему для ПилотТВ на основе проводного Accention и Silicоn Grapics Onyx. Стоило все это миллион. Долларов США. Не шутка. История тянет на книгу и боевик.

А теперь пара айфонов и ты в дамках.

With just a couple of iPhones, you can capture motion data from anyone, in any location.

Move AI про который я уже много писал обновился.

Бежим покупать айфоны (лучше пяток) и скачивать приложение.

https://apps.apple.com/us/app/move-ai/id1642699132
Кто на Кипре и около, забегайте, поботаем.
Вскроем капот у ботов, заглянем туда и поймем, почему они так хороши в секстинге.

Старый добрый оффлайн, без примесей трансляций, без цензуры, тормозов и зумерского онлайна.
В баре, на стендап-сцене, про ИИ, все как мы любим..

А что ещё делать в пятницу вечером?
https://t.iss.one/paphoshub/1033
Увеличь это! Современное увеличение разрешения в 2023

Осторожно, чтение для упоротых гиков.
При этом легкое, как детектив и с юмором.

Меня больше всего сразил тот факт, что апскейлеры не просто разгоняют картинку, они додумывают что-то свое, и это "свое" может быть целыми арт-объектами. Можно искать пасхалки в разогнанных изображениях.

Длинное, познавательное чтиво от Димы Ватолина, в котором срез технологий ИИ-апскейла на начало 2023 года.

И, как обычно, вопросы оценки качества этого самого апскейла: как измерять будем? На глаз или по метрике?

Для тех, кто утратил способность читать большие тексты приведу козыри из эпилога:

Новые метрики произведут революцию. Серьезный challenge на ближайшие годы — детектирование и уменьшение новых видов артефактов. Это можно делать за счет совершенствования алгоритмов и увеличения обучающих выборок, но результат это в ближайшее время гарантировать не может. Поможет детекция и, возможно… опять GAN архитектура.

Увеличение разрешения до 8К станет базовым, начнутся работы с 16К. Если посмотреть, то работы по 8x Super-Resolution уже довольно много. Для узких кейсов, типа электронной микроскопии, работы вообще давно идут. Для случая универсальных данных работы только начинаются, но уже понятно, что они будут весьма перспективны.

Китай захватит мир. Ну и традиционно хочу обратить внимание на то, что творят эти проклятые китайцы. Если посмотреть топ репозиториев гитхаба по SR, то мы видим:

GFPGAN, Tencent PCG Applied Research Center, Китай

waifu2x, на основе статьи The Chinese University of Hong Kong, Китай

Real-ESRGAN, Shenzhen Institutes of Advanced Technology, Китай

Anime4K, оболочка, включающая предыдущие два метода, свой метод и FSRCNNX The Chinese University of Hong Kong, Китай, разработчик из Канады

PaddleGAN — библиотека, включающая в себя много методов, разрабатывается в Китае

video2x — библиотека нескольких методов, разрабатывается китайцем из Торонто, поэтому гордо пишем Канада

BasicSR — библиотека нескольких методов, разрабатывается в Китае.
Пока все обсуждают цену API chatGPT, резонно призадуматься, а какая там "себестоимость".
Ответ: бесконечная.

Вот, что я усвоил из переписки с Димой Ватолиным. Цитирую:

Тут на фоне ChatGPT очень интересные вещи творятся в аппаратной акселерации LLM. ChatGPT быстро набрала 100 миллионов клиентов (в 9 раз быстрее TikTok), что реально пахнет крупным перекраиванием рынка.

При этом даже на обучение требуются совершенно конские затраты денег. Выше - товарищ попробовал свести пачку топовых моделей к единой оценке затрат на обучение (как если бы оно делалось на одном железе - что не так, ибо Гугл на своих TPU обучал, например).

Но интереснее не это, а то, что в ближайшее время размер моделей будет расти (ибо качество моделей сильно коррелирует с их размером), и там затраты на обучение растут феерическими темпами!

Но еще интереснее - с затратами на инференс:

Deploying current ChatGPT into every search done by Google would require 512,820 A100 HGX servers with a total of 4,102,568 A100 GPUs. The total cost of these servers and networking exceeds $100 billion of Capex alone, of which Nvidia would receive a large portion. This is never going to happen, of course, but fun thought experiment if we assume no software or hardware improvements are made.

Понятно, что это все из разряда рассуждений 100-летней давности, типа "Если телефония будет развиваться текущими темпами, то через 5 лет телефонистками придется стать всем девушкам Лондона". Аналогия полная)

Очевидно, что этот хайп спровоцирует мощнейшие вложения в аппаратную акселерацию инференса!

Замечу, что недавно мы это уже наблюдали. Google TPU появились исключительно потому что Google хотел внедрить RNN в Google Translate, но на текущем железе это было дорого и дешевле было сделать свой чип (!).

Похоже примерно через год увидим то же самое!

Источник: https://www.semianalysis.com//p/the-inference-cost-of-search-disruption
Эх, не дождемся мы иголочки от Маска.
FDA запретили Маску тестировать Нейралинк на людях, сославшись на риски для безопасности.
А как было бы круто, только подумал и сразу твитнул в твиттор.
А уж про обучение на красивых картинках, чтобы делать картинки, от которых нельзя отказаться, тоже можно забыть. Сдуваем пыль с сухих электродов.
Ретрограды, чо.
https://www.reuters.com/investigates/special-report/neuralink-musk-fda/
This media is not supported in your browser
VIEW IN TELEGRAM
Вот накаркал я, рассуждая за прототулзы и Блендор.

Stability AI спустился с горы и бахнул собственную интеграцию Stable Diffusion с Блендором.
Там пока три раздела: Текстуры, Рендер и Анимация(!).

Но!

Все это работает в облаке StabilityAI. То есть весь просчет идет на их серверах, а в Блендор просто прилетают картинки. Соответственно, чтобы юзать это хозяйство, вам нужны .. правильно, деньги в виде кредитов. Которые вы должны прикупить на сайте - ваш личный API ключ, который вы вводите при установке, берется из вашего аккаунта на https://beta.dreamstudio.ai/membership?tab=apiKeys

Читаем доки и ждем ответочки от AUTOMATIC1111 с ControlNet.
https://platform.stability.ai/docs/integrations/blender
Угнали Ламу.

Киберпанк уже здесь.
Старперчики еще помнят время, когда кино, музыка и вот это вот все валялось на торрентах.
Сливали, качали, смотрели..

Теперь, как вы понимаете пришло время сливать более крупные формы.
Я бы даже сказал большие.
Большие языковые модели.

Только что все писали про LLAMA - ответочку фейсбучека на хайп с языковыми моделями.
https://ai.facebook.com/blog/large-language-model-llama-meta-ai

Угнали ламу. И выложили на торрент.
Подробности и ссылки тут:
https://github.com/facebookresearch/llama/pull/73/files
Хорошее научно-популярное видео от Всеволода Тарана.
Этакий взгляд сверху для очень широкой аудитории.
О том, до чего мы докатились к 2023 году и какой путь прошли за последние 6 лет.
Имеет смысл посмотреть, чтобы навести порядок в умах.
Недлинное, а если промотать конскую рекламную вставку, то вообще топ.
https://youtu.be/FW5_EvDoX4k
This media is not supported in your browser
VIEW IN TELEGRAM
Ябвзял.
И в кроватке с ним удобно, и батарейку почти не расходует.
3Д вползает в Stable Diffusion через Automatic1111.
Помните я тут рассуждал, что развитие тулзов для контроля картинки будет идти с двух концов.
1. В Блендере будут писать аддоны, отправляющие информацию из вьюпорта и рендера в Automatic1111 (StabilityAI уже бахнули такое, но для облачного Stable Diffusion).
2. Внутри Automatic1111 будут городить 3Д вьюпорт.

Вот, встречайте очередное расширение - Posex. Это такой суррогат 3д-камеры и контроля скелета прямо внутри крошечного окошка в Автоматике.
Квазикамера на минималках.

https://github.com/hnmr293/posex

Все это хозяйство работает поверх ControlNet.

При этом Автоматик постепенно превращается (в 3дмакс) в стек, увешанный расширениями, которые работают поверх друг друга, глючат, и превращают интерфейс в бесконечный подвал до пола с раскрывающимися аккордеончиками.

А я ожидаю появления в Аутоматике Live Link с Блендором (и другими DCC).

Крутите вьюпорт в Блендере - мгновенно получаете обновление Canvas в Аутоматике. Откуда забирается вся требуха в ContolNet.

Ну или перепишите уже этот gradio_ui автоматика прямо в Блендоре.

Кстати, если хотите поглядеть на это 3Д будущего, может протыкать прямо в браузере
https://hnmr293.github.io/posex/

ПротоНано3дмакс, чо.