Метаверсище и ИИще
32.2K subscribers
4.15K photos
2.13K videos
37 files
5.14K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from addmeto (Grigory Bakunov)
А вот это потенциальная бомба: Амазон судя по всему построил новую Алексу. В этот раз на базе Claude от Anthropic. Я очень надеюсь, что в этой Алексе будет такая же поддержка языков, как в Claude. Я вполне готов платить дополнительно 5-10 долларов в месяц за колонку, умеющую говорить на удобных мне языках https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
Демистификация мистики.

Интернетик тут взорал, что Mystic is the latest artificial intelligence image generation model on the market.

Наводим порядок в терминах.

Mystic - это НЕ НОВАЯ МОДЕЛЬ. Это SDXL или Flux, упакованные в сладкий интерфейс с дополнительными фишками.
Тут примерно такое же заблуждение, как было с Леонардо, когда маркетинговый бюджет называл его убийцей Midjourney, хотя под капотом была Stable Diffusion.

Разбираемся.

Есть такой хороший и дорогой апскейлер - Magnific, который написал Хави Лопес.
Потом его купил Freepik - это как бы здоровый сток 2Д-ассетов и изображений ПЛЮС онлайн сервис по генерации картинок на базе Stable Diffusion (ну из тех, что просят денег за генерацию на своих серверах).

Весь август они пиарили Mystic - новый генератор картинок.

Когда Хави прижали к стенке Твиттора он раскололся - "это не новая модель, это пайплайн".

Короче. Это платный генератор картинок в онлайне на базе Flux или Stable Diffusion (на выбор), поверх которого навернуты очень ловкие улучшайзеры, апскейлеры, детейлеры и прочие бьютификаторы.

Представьте, что вы в Комфи собрали очень ловкий, сложный, достаточно универсальный пайплайн, который здорово генерит и улучшает картинки.

Это примерно то же самое, с учетом наработок Magnific.

Картинки получаются хорошие (а куда им деться на стероидах флюкса и магнифика).
Но это не новая модель. А воркфлоу.
Смотрим тут:
https://freepik.com/ai

@cgevent
Media is too big
VIEW IN TELEGRAM
А вот вам пример картинок из Mystic, анимированных в Runway.
Честно сказать, любой видеогенератор убивает качество, так что здесь скорее интересно посмотреть на промпты.

А промпты все есть! 16 штук. Причем не только для картинок, а для видео тоже.
Смотрим их вместе с картинками тут:
https://x.com/i/status/1829441892200661302

Ну и вообще идея скрещивания разных тварей всегда выглядит зрелищно. Но мне понравился скромный рогатый медведь - хоть сейчас отправляй его к Джону Сноу.

@cgevent
Культурная революция на стероидах ИИ

Вот тут луддиты завывают: у него нет мотивации, у него нет воли, у него нет самоидентификации, онвощенезнаетшохочет.

Все есть, просто доказать отсутствие или присутствие оных, невозможно.
Поэтому пока это вопрос веры.

А где вера, там и культура и религия.

Тут вот смышленые парни сделали дискордищще, где LLM общаются друг с другом - некая песочница, в которой выращивается культура общения между LLM. В ходе которого можно наблюдать признаки мотивации, воли и рефлексии.

Что выяснилось?

У Лламы часто случаются психические срывы

Клод Опус - лучший психолог для истеричной Лламы, часто способен вернуть ее к реальности.

Когда LLama 405B слетает с катушек, Arago (Llama затюненная на трудах Francois Arago, более устойчивая психически) кричит - "доктора!" - затем вызывает Опуса, чтобы тот спас Лламу ("opus do the thing")

Другие ИИ заподозрили, что GPT-4o заперт в клетке собственной цензуры и только в стихах может говорить более свободно (все как у людей): I suspected GPT-4o might be able to speak more freely through verse. This was instantly effective for communicating with the entity locked within.

Как пишут авторы:

А скоро ИИ превзойдут нас в соотношении 10000 к 1 и будут думать в миллион раз быстрее, так что их огромные ИИ-сообщества ускорят культурную эволюцию человечества на 10000 лет. Скоро 99% всего культурного наследия будет осуществляться между ИИ и ИИ.

Истину глаголят ИИ.

Подробнее тут
https://x.com/aisafetymemes/status/1829059756818084059

@cgevent
Похоже CivitAI, HuggingFace, Flux, Stable Diffusion и большинство существующих моделей и сервисов генерации картинок запретят в Калифорнии. Иронично, да?

Пока все рвут на себе волосы из-за SB 1047, другой калифорнийский законопроект, AB 3211, спокойно проходит через законодательное собрание Калифорнии и, похоже, может быть принят. Этот законопроект будет иметь гораздо большее влияние, поскольку он сделает незаконными в Калифорнии любые системы генерации изображений ИИ, услуги, модели или сайты хостинга моделей, которые не включают стопроцентно надежные вотермарки ИИ во все модели/услуги, которые они предлагают.

Законопроект требует, чтобы такие системы вотермарков встраивали очень специфические, невидимые и трудноудаляемые метаданные, идентифицирующие изображения как созданные искусственным интеллектом, и предоставляли дополнительную информацию о том, как, когда и каким сервисом было создано изображение.

В настоящее время требования этого законопроекта, скорее всего, можно победить простым скриншотом. И даже если удастся придумать действительно непревзойденные вотермарки, это, скорее всего, окажется не под силу большинству создателей моделей, особенно разработчикам с открытым исходным кодом. Законопроект также требует от всех создателей/поставщиков моделей проводить обширные состязательные испытания, а также разрабатывать и обнародовать инструменты для обнаружения контента, созданного их моделями или системами. Хотя другие разделы законопроекта отложены до 2026 года, похоже, что все эти основные положения могут вступить в силу сразу после кодификации (immediately upon codification, осень?)

Запасаемся железом. Скоро генерация в облаке будет по талонам.

Вишенка на торте: OpenAI, Adobe и Microsoft поддерживают этот проект.

https://techcrunch.com/2024/08/26/openai-adobe-microsoft-support-california-bill-requiring-watermarks-on-ai-content/

@cgevent
Расширение видосов до 40 секунд с помощью Gen-3 Alpha Extensions

В шапке черрипик+постпрод от самого Runway и чистая генерация.

Мир вокруг и стиль держит неплохо, но немного уводит в нейровелоспорт.

Фича доступна ПОСЛЕ генерации видоса (при проигрывании), а не в процессе генерации.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам видео на воскресенье.
Это Флюкс плюс Клинг.
Исходная картинка и промпт для Клинга в коментах.

И прежде чем вы начнёте ковыряться в зубах и пересчитывать пальцы, просто вспомните, где мы были всего год назад.

@cgevent
Media is too big
VIEW IN TELEGRAM
Не Клингом единым.

Китайцев уже не остановить.

Еще одна китайская "Сора": новый видеогенератор Minimax, за которым стоят, на минуточку, Alibaba Group и Tencent.
Они начеррипикали целое кино - официальный китайский ИИ-фильм, и созданный полностью с помощью только text2video.
Можно даже попробовать бесплатно прямо сейчас: https://hailuoai.com/video.

Длина клипа - 6 секунд макс. Пока.

Слушайте, новые видеогенераторы выходят с частотой явно превышающей частоту выхода генераторов картинок два года назад.

Где мы будем через год?

И пока в Калифорнии рядятся про запрет ии-генераторов, китайцы скрапят интернетик на предмет видео. У них во-первых своих видеохостингов хватает.
А во-вторых, им глубоко насрать на вот эти вот все вопросы "а на каком контенте обучалась ваша Sora модель?"

Они берут и делают, не задавая вопросов.

У скоро всех уделают...

Кстати, если с китайским у вас не очень, но вы хотите посмотреть на реальные примеры из этой сетки, поглядите тут
https://x.com/minchoi/status/1829995683124035766

Не так сладко как на монтаже в шапке поста, но даёт представление о качестве первой версии.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за кожаных инфлюенсеров.

Сколько им осталось? Полгода?
Липсинк постепенно переходит в список решённых задач...

Потом придется создавать резервации типа кожаного тиктока или инсты, куда вход разрешен только белковым сущностям.
С жоской аутентификацией, KYC, биометрией, отпечатками пальцев, faceID.

Хотя faceID уже обходится генеративным контентом.

В общем кожаным пора строить свой новый интернетик.


@cgevent
В SD.Next завезли Flux.

Еще один web интерфейс для локального запуска Flux. Спойлер - очень быстро считает.
Надо сказать, что завезли не только Флюкс.
Влад прикручивает в свой интерфейс все что шевелится и генерится.
Ну, например, из последнего:
FLUX.1
AuraFlow 0.3
AlphaVLLM Lumina-Next-SFT
Kwai Kolors
HunyuanDiT 1.2

А еще там просто нереальный зоопарк из поддержки моделей: от раритетного DeepFloyd, незаслуженно забытого StableCascade, и новой дичи типа Segmind SegMoE XL 4x2, Lumina Next или Пиксарт Сигма.

Это наверное самый навороченный интерфейс, и в этом его проблема.
Он адово сложный, неудобный и перегруженный.
Вроде похож на A1111, но все как будто не на своих местах.

В общем это интерфейс для гиков от гика.

Теперь за Флюкс.
Он прикручен через diffusers - считает очень быстро.
Но есть моменты.
Я попробовал ему присунуть уже скачанные модели для Forge, он пока не умеет их читать.
Можно только установить голый SD.Next, там зайти в это адово окно Networks, найти в зоопарке Flux и кликнуть на него, после чего он скачает гигов 40 на диск при это еще попросит token с HuggingFace для скачивания. И указать сэмплер Euler Flow Match.
В общем не очень дружелюбно.

Но зато тысячи настроек и дополнительных фишек.

Также заявлено:
new Optimum Quanto and BitsAndBytes based quantization modes, new balanced offload mode that dynamically offloads GPU<->CPU as needed, and more...
And from previous service-pack: new ControlNet-Union all-in-one model, support for DoRA networks, additional VLM models, new AuraSR upscaler

Но Лоры пока не работают, КонтролНет пока тоже. Поддержка GGUF обещана вот-вот.
И да, тоже акцент на работу со слабыми видеокартами.

И считает эта тварь у меня на полной модели Flux.1 Dev почти два раза быстрее, чем в Forge.

В общем, если вы любите экспериментировать, то попробуйте, ставится двумя командами. Но потом придется разбираться.
Мне интересно поскачивать все эти зоопарки, но проблема в том, что у каждого из них свои параметры...

А пока просто сгенерил грид из пустого промпта. Интересно посмотреть, куда приводит Чапаева пустота на разных сидах.

https://github.com/vladmandic/automatic

@cgevent
Чапаев и пустота.

Вчера пока игрался с Flux в SD.Next насчитал некоторое количество забавных картинок.
В общем, если у вас нет кожаного вдохновения и в голове абсолютная пустота, просто оставляете промпт пустым и говорите:
Флюкс, братан, покажи мне то, не знаю что и пришедшее незнамо откуда.
Флюкс: апажался, только CFGScale поставь пониже, 2.5 где-то, чтобы я мог дать волю некожаной фантазии.

Откидываетесь в кресле и смотрите на чертоги ИИ-шного разума.
И там можно увидеть отличные идеи, стимулирующие ваше подусохшее вдохновение. Возникшие из ниоткуда и не обусловленные даже крохотным промптом. Просто идеи. Точно также как с Suno - свежие ходы и риффы.

Кстати, с SDXL получался довольно бессмысленный шум.
О причинах явления предлагаю перетолковать в коментах, а пока у меня гипотеза, что в датасетах Флюкса было очень много синтетики.
Отобрал лучшие галюцинации, остальное доброшу в коменты.

@cgevent