Метаверсище и ИИще

Ну за спортивных комментаторов.

Я когда-то писал про то, как Тинькофф банк покрал у актрисы озвучки голос для "синтеза".
И она услышала потом свой голос отнюдь не в рекламе банка.
Я там говорил, что в принципе, это приведет к большей поляризации среди актеров (не только озвучки).
Знаменитости получат еще пару нулей в контракте за оцифровку голоса или внешности, а начинающие получат дешевый(во всех смыслах) путь залететь в базы данных и призрачный шанс быть увиденными и услышанными в цифре.
Тут вот NBC взяли известного спортивного комментатора Эла Майклса(Al Michaels), вручили ему хороший контракт, оцифровали его голос и скормили его ИИ.
А теперь ИИ будет делать для подписчиков сервиса персонализированный плейлист с самыми важными для них событиями за предыдущий день. Голосом Майклса, у которого премия Эмми, на минуточку.

Это я к тому, что у начинающих актеров денег будет меньше, а у звезд - больше. Но есть вопрос: когда кожаные звезды приподвымрут, нужны ли будут новые молодые кожаные звезды? Или к тому времени ИИ подучится делать прицельно эмпатичных харизматичных и успешных звезд с убойными голосами и внешностью. От которых нельзя оторваться.

https://www.nbcsports.com/pressbox/press-releases/peacock-unveils-personalized-olympic-recaps-featuring-the-voice-of-legendary-sports-announcer-al-michaels-generated-with-a-i

NBC Sports

PEACOCK UNVEILS PERSONALIZED OLYMPIC RECAPS FEATURING THE VOICE OF LEGENDARY SPORTS ANNOUNCER AL MICHAELS GENERATED WITH A.I.

“Your Daily Olympic Recap on Peacock” Gives Fans Tailor-Made Highlights to Catch Up on Their Favorite Events from the Olympic Games Paris 2024

6.7K viewsSergey Tsyptsyn ️️, 13:48

Метаверсище и ИИще

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

Figma AI, Canva AI

Тут Фигма фичерит новые ИИ-фишки

ИИ делает концепт Make Design, потом сам находит похожий образ с помощью Visual/Asset Search, потом ваяет прототип Make Prototype. Даже слои именует!

А пару недель как-то тихо назад прошел анонс от Канвы - и у них там все еще круче. Целый пайплайн с кодовым названием Magic.

А я тут ставил Adobe Express, чтобы посмотреть, как туда вкручен Firefly.

И с точки зрения нормального негиковатого пользователя, вкручен хорошо. Я потренировался на школьниках, они интуитивно сразу пользуют и не спрашивают про CFG Scale и VAE.

Это я к чему. ИИ заползет в голову нормального пользователя через знакомые продукты. И пусть там не будет 95 процентов функционала ComfyUI, но оно ему надо?

А у Адобченко, Фигмы и Канвы есть понимание, что ему надо, вот они и будут выкатывать ИИ в малых дозах, достаточных, чтобы удержать пользователя.

6.2K viewsSergey Tsyptsyn ️️, 14:04

Метаверсище и ИИще

Пайплайн-вакансия.

Мой хороший приятель Леша Дук ищет в команду или на аутсорс спецов по генеративному ИИ.
Надо не сколько генерить картинки, а выстроить пайплайн. Причем в архвизе.

Задачи: интеграция ИИ на базе Stabilr Diffusion в пайплан архитектурного проектирования и визуализации. Дообучение переобучение моделей подготовленными датасетами. Создание ИИ сервера обработки и генерации изображений и инерфейсов для пользователей.

Так как задача резиновая, то пишите Леше вот сюда @alex6666, если вы генеративный спец или команда таковых.

6.3K viewsSergey Tsyptsyn ️️, edited 14:12

Метаверсище и ИИще

ИИ-Хакатон для ИИ-агентов.
На конференции GigaConf 2024 Сбер продемонстрировал AI-агентов, которые сами ставят себе задачи, пишут код для их решения, анализируют и визуализируют результаты.
AI-агенты в онлайн-режиме решали математические задачи и генерировали графики. Участники мероприятия придумывали свои задачи и получали их решение от AI-агентов или наблюдали, как один агент придумывает сложные задачи, а другой — ищет решение и показывает результат.
Область применения AI-агентов не ограничивается каким-то конкретным направлением деятельности: они способны автоматизировать и оптимизировать большинство рутинных процессов и выполнять роль цифровых сотрудников в разных профессиональных сферах.
Бизнес может создавать AI-агентов, способных решать задачи конкретной компании или сферы деятельности. Например, для ретейлеров можно создать агентов, которые организуют автоматическую генерацию информационных карточек товаров с последующим их размещением на различных площадках. Компании, оказывающие клиентский сервис, могут создать помощников, которые будут поддерживать весь процесс лидогенерации — от сбора контактных данных до работы в CRM-системе.
Попробовать создать своего агента можно с помощью open-source-фреймворка для разработки приложений на основе больших языковых моделей GigaChain и GigaChat API.

6.8K viewsSergey Tsyptsyn ️️, edited 14:14

Метаверсище и ИИще

Forwarded from эйай ньюз

Google выкатил Gemma 2

Как и обещали на Google I/O модель вышла в июне. Выпускают два размера: 9 и 27 миллиардов параметров. Обе достаточно маленькие, так что их можно запустить дома на одной геймерской видяхе. Показывают себя на бенчах они хорошо: 9B обгоняет LLaMa 3 8B, будучи не сильно больше, а 27B подбирается по качеству к Mixtral 8x22B.

27B версию тренили на 13 триллионах токенов, а вот 9B лишь на 8, но там дистиллировали из модели побольше.

Модель последние два дня тестили на арене, под названием im-also-a-late-june-chatbot. Пока говорить что-то рано, разброс слишком большой, но вроде вышло неплохо. Лишь бы не было кучи проблем, как было с оригинальной Gemma.

Веса
Блогпост
Техрепорт

@ai_newz

5.6K viewsSergey Tsyptsyn ️️, 16:40

Метаверсище и ИИще

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Ключевые кадры в Dream Machine и будущие монтажки.

В твитторе Люмы очень интересный апдейт.
Теперь можно задать начальный и конечный кадр, припихнуть рядом тестовый промпт и Люма сгенерит "управляемое" видео, попав в конечный кадр.
Это сильно круто и вот почему.
Во всех демонстрируемых видео-генераторах, как правило, весь контроль картинки лежит на промпте. Иначе говоря, мало того, что вы пытаетесь описать саму картинку в промпте (как в генераторах картинок), так вам еще надо задать движение, причем не одного объекта, а всех участников банкета, от камеры и света до переднего и заднего планов. Текстом. Пока вы делаете видосики для того, чтобы радовать подписчиков в инсте или телеге, можно не париться, ИИ все сделает сам, но если вам нужен контроль процесса и вы делаете что-то осмысленное, то вам понадобятся некие управляторы.
Пока мы видели Motion Brush, ключевые кадры, и слышали, что Сора умеет перегенерировать выделенную часть клипа. Все это некие костыли, которые рано или поздно должны как-то имплементироваться в знакомый интерфейс монтажки\композа.
И я надеюсь, что стартаперы не будут переизобретать премьер или нюк, хотя вот это вот рисование стрелочками, куда должно пойти движение, меня уже пугает. В монтажках для этого есть анимация по ключам.
В общем пока у нас конфетный период восторгов, но скоро придут будни, когда придется ходить на работу и использовать весь этот зоопарк. И тут время помолиться о нормальном интерфейсе.
Поглядите на все это великолепие тут, там много красоты, а я щас еще накидаю неумных мыслей про Dream Machine, Krea и 3Д-рендер.
https://x.com/LumaLabsAI/status/1806435502096310656

6.8K viewsSergey Tsyptsyn ️️, 09:00

Метаверсище и ИИще

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Снова за нейрорендеринг.

Вот принес вам два видео из Люма и Креа.

Смотрите, давайте немного разберемся.
Креа делает видео на основе кода AnimateDiff, то есть генерит последовательность картинок, которые ничего не знают друг про друга. Там нет временной согласованности между кадрами, но есть много ухваток как сгладить этот момент.
Плюсы - изумительное качество картинки. Минусы - то самое кипение и артефакты, родовой признак всех потомков Warp Diffusion.

Люма делает сразу видео. Очень грубо говоря, она рендерит его из своей world model. И как все рендеры, обеспечивает временную согласованность кадров.
Плюсы - нет кипения и мельтешения, минусы - качество самой картинки (пока) типа отстой. Пока.

Если еще грубее и проще. Креа Видео натренирована на картинках, Люма натренирована на видосах (хотя в Креа много сделано для хорошего сглаживания между кадрами).

Ну и тут можно порассуждать, что у генераторов видео, натренированных на видосах в мозгах возникает некая 3Д-сцена (хотя это не 3Д, а некое "ИИ-понимание как устроен наш трехмерный мир"), которую генератор рендерит по нашему запросу, мы просто "подлетаем" к некоторому участку внутреннего мира модели с помощью промпта и говорим, полетай рядом и пошевели объекты - все как в классическом 3Д. И оно рендерит.

Ну и дальше я опять начну ныть, что в классическом 3Д у нас есть все инструменты для управления анимацией.

А теперь представьте, что их нет, и мы может анимировать объекты только таская их за вертексы, то есть перемоделивая их в ключевых кадрах. Нет ни рига, ни деформеров, только вертексы объектов, за которые можно таскать и то приблизительно, с помощью команд типа "немного вправо".

И пока видеогенераторы, это такое 3Д без рига и контроля. Да уже есть ключевые кадры и референсные изображения на вход. И стрелки "немного вправо" в виде Motion Brush. Но на этом пока все.

Зато они рендерят Согласованные кадры. Пусть в качестве Coarse, но скоро подвезут нейроантиалиасинг и ControlNet. Вопрос интерфейсных решений.

5.5K viewsSergey Tsyptsyn ️️, 09:59

Ну и вот попытка подсмотреть, как в голове у видео-ИИ устроена модель мира.

Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие.

Я уже писал философский пост о том, что LLM (возможно) через все эти текстовые датасеты срисовали то, как мы мыслим, ибо язык - инструмент мышления, а не общения.

Через все эти размеченные видео и картинки у ИИ в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков.

Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков.

Пока были только генераторы картинок, речь шла скорее о симуляции воображения. С появлением временного измерения запахло симуляцией работы всего нашего мира. Точнее симуляцией того, что происходит у нас в голове (как там в реальности мы не знаем, вон змеи не видят неподвижное и живут без этой части мира в голове).

Ну и интересно поразмышлять о том, какие миры у него в башке будут близки друг к друг другу по "смыслу". Помните на у него на картинках от короля к королеве идет такой же вектор как от мужчины к женщине в его мозгах. Ответ может быть неочевидным. И шорткаты между мирами могут вас удивить.

5.5K viewsSergey Tsyptsyn ️️, 10:05

Метаверсище и ИИще

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и вот вам пример работы новой фичи с двумя кадрами в Люма.
Обратите внимание, что ничего не кипит как в AnimDiff, а рябь на мелких узорах скорее напоминает отсутствие анти-алиасинга и недостатка проходов рендеринга.
Да, глазастые тридешнеги щас найдут стада блох. Но елы палы, вдумайтесь в ситуацию.
Все что есть на входе - промпт и может быть пара даже не концептов, а почеркушек скетчей(пример в шапке).
И все, Карл. И все!
Дальше одна кнопка в InvokeAI - готовы две фазы.
И одна кнопка в Люме.
Готов рендер.

А теперь отматываем на пару лет назад и пытаемся прикинуть, сколько уйдет времени на концепт, моделинг, текстуринг, шейдинг, лайтинг-мать-его, и рендеринг.

Давайте, ловите блох пока, кодеры тоже смеялись вначале над первыми кусками кода из ЛЛМ.
Спасибо Борзунде за материал.

6.0K viewsSergey Tsyptsyn ️️, 10:18

Метаверсище и ИИще

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

MOFA-Video: Нейрориг, точнее его отсутствие.

Вот поглядите на еще одну работу - так китайские и японские аспиранты видят работу аниматоров будущего. Это сарказм про интерфейсные решения.

Идея правильная - дать как можно больше управлялок: MOFA-Video анимирует одно изображение с помощью различных типов управляющих сигналов, включая траектории, традиционные кифреймы, а также и их комбинации.

Поглядите на сайте примеры, но мне это уже не очень интересно, ибо это шевеляж пикселей - на входе картинка и некие указания на анимацию, на выходе - шевеление пикселей на картинке. Да, это не олдскульный морфинг пикселей в 2Д-пространстве картинки, это морфинг эмбедингов в латентном пространстве. Но на выходе все равно шевеление пикселей, пусть нелинейное и очень умное.

Сайт сделан нарядно, но после анонса GEN-3 - это просто одна из китайских работ.

https://myniuuu.github.io/MOFA_Video/

6.1K viewsSergey Tsyptsyn ️️, 10:30

Метаверсище и ИИще

Ну, за шрифтовых дизайнеров.

Смотрите, какая, оказывается, штука есть у Гугла!
Генератор шрифтов. Промптом пишете описание шрифта, а он вам выдает россыпь PNG файлов с английским алфавитом. Поддерживаются только буквы и только английские.
Похожая фича есть в Adobe Firefly, то тут бесплатно.
Фон придется удалять ручками.
Осторожно, можно залипнуть, особенно придумывая названия шрифтов типа Fractal Madness. Я лично залип.
Кстати, похоже, что для генерации логосов и иконок это может оказаться очень полезной штукой. Пример с мороженным тому пример.
https://labs.google/gentype

9.8K viewsSergey Tsyptsyn ️️, 13:54

About

Blog

Apps

Platform