Мутный AI
836 subscribers
16 photos
22 videos
15 links
О внедрении GenAI в мобильную и AAA-индустрию. Про процессы и подводые камни, о которых не пишут в кейсах.
Сотрудничество - @Arbuzovvv
Download Telegram
OpenAI не сливает ваши данные - их сливаете вы сами.
OpenAI просто на это наплевать.

На этой неделе бабахнули сразу две не очень приятные новости про OpenAI, связанные с безопасностью данных.

1. Народ раскопал в поисковике кучу проиндексированных гуглом чатов, которые шарили пользователи с подпиской plus.
Там все по кайфу: личные, корпоративные и прочие данные.
Пошел ряд новостей с заголовками о том, что OpenAI сливает ваши данные в сеть.

2. Альтман упомянул в интервью, что сотрудники OpenAI могут передавать целые чаты сотрудникам органов при их запросе. Тут вообще ничего удивительного, было бы странно, если бы это было не так.

Ну, с одной стороны некрасиво, да.
А с другой - а почему столько удивления?
В OpenAI уже давно в курсе о дырах в безопасности, просто им наплевать.

Когда я работал в Wargaming и общался напрямую с их менеджерами (они пытались толкнуть нам enterprise), я высказывал очень много скептических мыслей про конфеденциальность данных.
Я приводил им примеры дыр, которые сам использую - было очень интересно наблюдать, насколько они считают самих пользователей виноватыми в сливах данных.
Менеджеры по продажам были подготовлены к таким вопросам, поскольку внутри OpenAI знали о проблемах.
У них явный фокус на корпоративных сетях - в том же team-плане почти все дыры закрыты.

Например, когда я рассказывал им о том, как взламывал GPTs сотрудников Playrix, которыми они поделились в сети и выкачивал оттуда все инструкции и информацию из Knowledge, вплоть до информации из таблиц и посекундного описания загруженных видео файлов (если что, я сам охренел и подумал, что GPT галлюцинирует, но нет, я связывался с автором), мне ответили просто - это их проблемы, нельзя покупать сотрудникам личные аккаунты. А если сотрудник сам это сделал - пусть с ним разбираются его менеджеры.

Когда я спрашивал про шеринг чатов и о том, насколько это безопасно с точки зрения публичных ссылок, мне уже тогда ответили, что это небезопасно и поэтому в закрытых корпоративных сетях ваши ссылки никто за пределами этой сети открыть не сможет вообще, будет просто 404.

Также я задавал вопросы об использовании одного аккаунта на несколько сотрудников, они сказали, что тоже прекрасно об этом знают, просто пока нет смысла с этим что-то делать.
Тем не менее, если вы менеджер команды и читаете этот пост - знайте, у них в соглашении пользователя четко прописано, что НЕЛЬЗЯ юзать один акк на несколько человек. Задумайтесь о том, стоит ли лишняя сотня-другая в месяц рисков быть пойманными за jopu юристами OpenAI.

Во время сотрудничества с компаниями первое, о чем я спрашиваю - какие планы при работе с ChatGPT (и любой другой сеткой, вплоть до Midjourney) вы используете. На мое удивление, примерно 50% спокойно покупают обычные plus аккаунты сотрудникам, вообще не запариваясь о потенциальных рисках. И ладно бы это были маленькие инди-студии, но ведь нет.

Вообще, кейсов с халатным отношением к безопасности у меня вагон, вплоть до утечек очень крутых разработок из-за халатности и экономии сервис-менеджеров, с которыми приходилось буквально биться за каждые 20 баксов, вваливаясь к их хэду, а затем и к C-level с рапортами о рисках, которые они создают.
Но меня удивляет, что прошло уже почти 3 года с момента начала массового использования GenAI, но в большинстве компаний до сих пор ничего не меняется и подобные "сливы" вызывают всплески негодования и удивления.

Экспертиза GenAI внутри компании - это не просто: "Мы наняли в каждую команду по AI Artist чтоб они чет там нагенерили! И еще мы модельку обучили! Мы самые передовые!" правда, до сих пор на автоматике или, в лучшем случае, фордже

Экспертиза - когда ко всем инструментам и решениям подходят взвешенно как с точки зрения задач и уровня навыков команд, так и с точки зрения юридических аспектов и рисков, связанных с безопасностью данных.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
22🔥10💯3🥰1
А давайте я разбавлю вам ленту постом НЕ про GPT-5 (с ним я уже работаю, но пока о нем говорить рано)

На сл. неделе допилю пост на тему Json промптов и почему их нужно применять осознанно в зависимости от задачи, а не как сейчас - направо и налево как очередную волшебную кнопку от всех бед.

Пост опять обещает быть душным, поэтому у меня к вам вопрос:
Как вы относитесь к лонгридам вообще?
Сам я их люблю и вполне перевариваю, более того, отдаю им предпочтение в потоке сотен одинаковых новостей и микропостов ни о чем, которые приходится через себя фильтровать.

Если что, мне бы реально хотелось услышать ваше мнение по этому поводу.
👌33🔥19🤝3
This media is not supported in your browser
VIEW IN TELEGRAM
Хотел около месяца назад этот видос показать, но т.к. его использовали как демку, пришлось придержать. 🚬

Генерилось без использования Json, кста.
При работе с рефами очень легко перегрузить модель, что Json и делает.
От этого страдают движения и взаимодействия объектов (про перегруз рассказывал в одном из прошлых постов).

Представьте, что видео-модели (как и стандартные диффузионки для генерации картинок) при работе с референсами сначала описывают их, чтобы понять, что там вообще находится и что с этим делать дальше.
Что-то вроде Describe в Midjourney, только описание вам не показывают.
И смысл в том, что ваши токены из промпта могут либо поддерживать описание внутри модели, либо противоречить этому описанию.
Короче, либо ваши токены дружат с "внутренними", либо играют с ними в перетягивание каната.
Соответственно, чем правильнее вы опишете первый кадр, тем консистентнее будут результаты даже при смене некоторых элементов между генерациями.
Это работало с самых первых моделей Stable Diffusion и работает до сих пор, т.к. видео-модели - все еще диффузионки, просто латентные 🤨

Технически, конечно, работает это немного иначе и сложнее - референс кодируется в пространственно-временные латенты (скрытые признаки), после чего диффузионная модель работает уже в латентном пространстве.
На каждом шаге денойзер "сверяет" визуальные признаки с текстовыми токенами, и если они не противоречат друг другу, генки получаются более консистентные и управляемые.
Но сюда предлагаю пока не забуриваться. Технология интересная, а для тех, кто хочет прям совсем упарываться и разбираться - потом отдельный чат какой-нибудь запилю.

Данная интруха собрана из нескольких батчей с разными движениями и сменой первых кадров, но процесс это крайне дешевый и быстрый, когда основное описание подобрано правильно.

В комменты я закину самые первые генерации.
Там сразу видно, какой был референсный кадр - просто скриншот лица персонажа с баннера из гугла.
Плюс, на них очень показательна общая консистентность даже при смене сидов и токенов (пришлось с цензурой воевать: сначала сгенерил sci-fi пушки, а затем сделал их более похожими на настоящее оружие).

Мутный AI - Волшебных кнопок нет, есть только инструменты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥203❤‍🔥2
Я уже вижу кучу сравнений нового генератора внутри Gemini (буду иногда называть его nano-banana, т.к. именно под этим названием они его обкатывали) с генератором внутри ChatGPT.

Если вы не просто энтузиаст, а типа дофига ИИшник, то подобные сравнения на собесе могут вас очень сильно дискредитировать.

Новая модель ближе к диффузионным Flux Kontext и Qwen Edit, а не к авторегрессионному ChatGPT.

Это принципиально разные технологии со своими сильными и слабыми сторонами.
Они решают разные задачи и требуют разных подходов.

Мне лично nano-banana зашла, но только для определённых задач, связанных с UGC и консистентным цветокором, т.к. она лучше попадает в цвета между генерациями.

Часть воркфлоу в моих командах достаточно давно выстроена на Flux Kontext, к которому недавно добавился Qwen Edit, и новый генератор от Google не сильно поменяет положение дел, просто заберёт часть задач.
Кстати, в Qwen Edit вы тоже можете промптить натуральным языком, если работаете с моделью через отдельный чат.

А теперь подробнее про технологические отличия.

Внутри ChatGPT - авторегрессия, которая является частью омнимодальной модели 4o.
Фактически, это ChatGPT, который сам умеет генерировать картинки.

Авторегрессия последовательно предсказывает батчи пикселей в латентном пространстве и из-за этого естественным образом удерживает связь между объектами, обходя основную проблему диффузионных моделей (они, напомню, генерируют изображение из шума, с каждым шагом всё больше уточняя его).

Именно поэтому ChatGPT генерит картинку долго и «прогружает» её сверху вниз, как baseline JPEG во времена упячки.


Внутри Gemini же - генератор, основанный на диффузии, который прикручен к LLM как отдельный модуль.
Да, вписан очень хорошо и ощущается как единое целое, но это не так.
Ну, как раньше в ChatGPT отдельным модулем был DALL-E (помянем дурака 🚬).

Тем не менее, все 3 диффузионки нового поколения умеют примерно одинаковые штуки, просто какая-то лучше умеет в текстуры, какая-то в текст, а какая-то в цвет и формы.
И основная проблема модели от google - она закрытая и доступна только по api.
Для серьезных внутренних инструментов продакшена такое решение если и подойдет, то с очень сильной натяжкой.

Зато для мемов - каеф 😁

Мутный AI - Волшебных кнопок нет, есть только инструменты.
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍9🔥4
Там это, разъеб доброе утро (хотя мб я чуток опоздал уже, но тем не менее).

В Gemini Ultra сделали все Fast-генерации Veo3 бесплатными и увеличили лимиты с 12 500 кредитов до 25 000.

Короче, помимо Fast безлимита теперь у вас не 125 Quality-генок в месяц, а 250.
Т.е. 1 генерация теперь = 1 доллару.
А учитывая, что при умении пользоваться моделькой можно закрыть около 80% стандартных задач через Fast-режим - это просто пушка-бомба.

Простые сцены можно генерить безлимитно, тестить новое - тоже.
И только в сложных сценах переходить на Quality.
Плюс, в самом Gemini уже есть бананыч с огромными лимитами генераций.
Надеюсь только, что они это на все акки раскатали, а не на старичков.

Если вы, как и я, Gemini Ultra господин - бегите чекать и генерить всё, что хотите.

Если вы API энджоер через агрегаторы, покажите это своему менеджеру - пусть перестаёт жлобиться и даст деняк на аккаунт.

А если вы - тот самый менеджер, то поверьте: КРАЙНЕ полезно иметь хотя бы один подобный большой аккаунт на команду, чтобы можно было без тряски отрабатывать новые воркфлоу и не прощёлкать все кредиты в процессе. К другим моделям, типа Runway, это тоже относится кста.
Если в условном Q1 выбьете бюджеты на подобные штуки - потом спасибо скажете.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
21🔥6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно сделал демку для Findmykids и даже доволен результатом.
По времени ~1,5 часа, по кредитам - 0 (fast-генерации).
Без JSON-копиума.

Это был весьма интересный опыт из-за самых жёстких фильтров, с которыми я сталкивался:
из-за фильтров на генерации с детьми.

Пришлось работать только с Veo3.
Ни апскейлеров, ни дитейлеров, никаких бананов и прочего.
Ни-че-го 😕
Ну, LLM для промтов не в счёт.

Всё потому, что товарищ Гигол не даёт загружать изображения с детьми.
Ни при каких условиях.
И самое поганое - фильтры стоят на входящих изображениях, обойти их через стандартные методы запутывания языковой или генеративной модели не получится.
До них просто не доходит.

Плюсом ко всему были проблемы и на этапах генерации:
- часть генераций не проходит из-за того, что в кадре дети;
- часть генераций проходит, но без аудио из-за того, что ребёнок в кадре, сука, вздыхает;
- на всё это накладывается сложность сцены с тремя персонажами.

Благо, звук был не нужен в данном случае.

Если что, я делал именно технодемку, а не полноценный крео, и знаю, в каких местах нужно подпилить напильником.
Я не моушен, и моей задачей было показать, что можно достать по качеству, имея пачку настолько жёстких ограничений.

Тем не менее результат получился, на мой взгляд, неплохим. Можно было сделать лучше, но для этого нужно хоть что-то, кроме Veo3.

До первого джампката присутствует три склейки: на 3-й и 7-й секундах. Отсмотреть их можно по деградации цветов.
Деградация в данном случае происходит из-за неправильного пережатия кадров и накапливается со временем.

Но даже в таких условиях её можно практически полностью остановить, если пожертвовать бесшовным видеорядом, делая дополнительные склейки.

Скорее всего, этот кейс так или иначе попадёт в первые посты на Boosty, когда я его допилю.
Кейс крайне интересен с точки зрения взаимодействия с моделью и подходов к решению проблем.
На его примере можно увидеть зависимость качества картинки от степени изменения ракурсов, почему происходит деградация цветов и почему JSON-промптинг в сложных задачах сделает только хуже.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥235👍3
Вы, вероятно видели посты о том, что Nano Banana может совмещать по 10+ предметов в одной генерации, да так хорошо прям, ух!
Не, реально круто, без шуток.
Но, кажется, есть нюанс.

А что, если я скажу, что возможно, перед генерацией в Gemini объекты с разных референсов коллажируются определенным образом, и только потом подается на вход диффузионной модели?
Что-то вроде Image Stitch в ComfyUI.

Какое-то время мне был не совсем понятен ряд моментов:
- почему она так хорошо сохраняет объекты в таких количествах;
- почему без упоминания нумерации изображений результаты лучше;
- почему иногда она выдает вместо результата ту же самую пикчу без изменений и прочие неприятные нюансы работы с ней.

Но все стало логично, когда из-за перегруза модель выплюнула мне "генерацию", на которым она не стала ничего генерить, оставив сырой результат сшивания референсов.

При попытке это повторить, Gemini скрывала результаты генерации, но говорила, что все готово.

Что интересно, во Flux и Qwen я ни разу не сталкивался с таким, но знаю, что Image Stitch иногда используют в WF с Flux'oм.

Есть ощущение, что гугловцы так расширили количество поддерживаемых на входе референсов, чтобы казалось, что их модель сильно круче конкурентов.

Полноценно подтвердить я это не могу, т.к. их документация по этому поводу весьма туманна (как и об огромной части датасета Veo3, хотя все всё прекрасно понимают).

Если вы хотите научиться уверенно работать с генеративными моделями, нужно не только стрелять из интернета успешные промпты или практики, важно уметь набивать шишки.

Это очень важный навык, он позволяет лучше понимать работу моделей и быстро адаптироваться к новому.

Вы должны обращать внимание не только на позитивные результаты, но и на негативные, которые в успешных успехах не принято показывать, а жаль.

Если генерация не удалась, можно проанализировать результат и понять, почему так произошло.
А при более вдумчивом подходе, можно прощупать допуски модели, ее настоящее окно контекста и прочие нюансы.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
16🔥6
Складывается ощущение, что нейронщики очень хотят создать дивный новый мир, но получается он проклятым.

По каким-то причинам ИИ-шники готовы браться за любые задачи за копейки ради кейса а-ля "уже вон в нейронках делают", не думая о долгосрочных последствиях.

Кейсы — это безусловно круто, но чем больше вы готовы работать в ноль, тем хуже вы делаете индустрии.

Возьмём "абстрактный" пример:

Видео для брендов.

Менеджеры бренда "грусна и не вкусна" решили удешевить процессы производства и начали искать нейронщиков, т. к. везде говорят, что нейронки могут вообще всё по нажатию одной кнопки.

Предположим, стоимость среднего ролика при обычных условиях — условные 1,5 млн листочков с дерева.
При обычных условиях сокращение костов на 30 процентов было бы уже лютейшим вином, но из-за перегрева инфополя AI-волшебством никто не захочет платить лям за нейроролик.

Окей, мы понимаем, что и нам, и бренду нужен кейс, и это проба пера.
Относительно здравым вин-вин решением будет до 500–600к: посчитав базовые затраты на нейронки, компенсацию времени людей — звучит адекватно.

Но тут врываются нейрогигачады, которые готовы сделать для бренда ролик за 200–250к, работая, мягко говоря, за копейки.
Надо понимать, что в процессе работы они получают все тот же гемор, характерный для больших брендов.

Возьмём лучший вариант, где получился не GPT-Runway слоп от ВасиAI, а действительно годный ролик от хорошей команды:
с нормальными цветами, консистентными кадрами, динамикой, отличными таймингами и т. д.

Отлично, все рады. У всех кейс.

А дальше что?

Готовы ли будут нейрогигачады работать дальше целой командой за зарплату одного моушена?
С огромной вероятностью бренд не захочет платить больше.
Им уже сделали хороший ролик за минимальную сумму. Быстро, дёшево. А значит — ПРОСТО.

И вот мы уже живём в мире, где бренд не готов давать больше 300к за рекламный ролик, при этом не сильно снижая запросы.

Чтобы сделать что-то хорошее в нейронке, вам нужна точно такая же экспертиза, как и при обычной работе, к которой добавляется умение работать с GenAI.

Заменяя косты за съемку видео, аренду желтка и прочих производственных затрат на оплату нейронок, вы не должны убирать стоимость своей экспертизы и своего времени.
Если вы умеете круто работать с генеративным контентом, ваша стоимость увеличивается, а не уменьшается.

Сегодня ее уменьшите вы, завтра я, послезавтра нейронщик Андрей, а на следующей неделе никто не готов вам платить нормальные деньги, потому что "вы же просто генерите рас-рас, и готово".

Для геймдева ситуация крайне схожа, просто со своими нюансами.
Я об этом ещё напишу — там отдельная боль и со стороны найма, и со стороны соискателей.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
👍3110😢6🏆4
Ловите вечерний микроподгон инвайтов на новую SORA 2 🚬

В каждом коде по 4 места.
Гасить тут — https://sora.chatgpt.com/explore
Для доступа нужен регион США или Канада (релоцируемся через 3 буквы)

E2064B
ZCJSFQ
6XXT5E


Работает на персональных аккаунтах Pro, Plus, Free.
Работает и на business аккаунтах.

После регистрации в менюшке слева внизу выберите "invite friends" и сможете пригласить еще 4 человека.

Был бы признателен, если бы своими кодами вы поделились в комментах, дабы остальные тоже смогли пощупать.

Ну чтоб я не зря верил людей ИИшников 😷

Завтра закину еще пачку в комменты.

Имхо:
После первых тестов — очень неоднозначно. Где-то вау, где-то качество уровня Wan 2.5

Положение тела понимает неплохо, физику тоже, очень классно работает с ракурсами и джампкатами.
Но крайне сильно кипит. Прям оч сильно.
Надеюсь, они смогут это пофиксить.

Мутный AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🤝6
Последние несколько недель я активно использую Wan 2.5 в работе и мне она дико доставляет.
По качеству движений до Veo3 или Sora2 не дотягивает, но это лютый прорыв в сегменте опенсорс моделей (хотя пока она не опенсорс, но скоро должна им стать).

Причем, использую я ее не столько для генерации видео, сколько для генерации консистентных кадров, которые затем использую в других генераторах.

Что-то вроде нанобананы, только интереснее.

Щас поясню.

На примерах один кейфрейм (генка из MJ), остальное — сырые скриншоты без обработки или апскейла.

У нее есть ряд неочевидных преимуществ, которые стоит прощупать один раз и отказаться от них уже тяжело.

Например:
— у нее практически отсутствует деградация цвета при оживлении кадра;
— из-за нативной поддержки 1080p кейфрейм не шакалится и при правильной работе промежуточные кадры настолько схожи по качеству с первым, что скрины из видео можно использовать как кейфреймы в других генераторах;
— из-за особенностей работы видеомоделей, при смене ракурсов освещение остается более консистентным, чем в 2d in-context моделях;
— окружение более логичное при смещении ракурсов (видно на примере с креплением сетки на заднем фоне);
— вместе предыдущие пункты дают очень крутой результат при использовании скринов в других генераторах;

А нафига так сложно, если можно просто сгенерить другой ракурс в нано банане?

При генерации различных ракурсов в in-context моделях велика вероятность появления дрейфа в цветах и искажения деталей/геометрии объектов/персонажей при изменении их положения в пространстве, т.к. эти модели все еще работают в двух измерениях.
Ну вот так работает технология, ничего не поделаешь.

Само собой, речь тут идет в первую очередь о работе с качеством финального материала.
Тем, кого в контексте работы устраивают кипящие генерации из Соры, все это не нужно.

Да и мне это не всегда нужно, так-то.

Но если вдруг нужно выжать максимум качества, внезапно, знания таких нюансов ппц как выручают.
Когда вы понимаете, что скрины из сгенеренного видоса можно спокойно использовать на уровне с генерациями той же Midjourney и их будет достаточно тяжело отличить друг от друга по качеству - это открывает очень много возможностей для работы с задачами разных уровней сложности.


Мутный AI - Волшебных кнопок нет, есть только инструменты.
28🔥6👌1
Пока я в лютом загрузе и жду праздников, чтоб разгрести весь скопившийся контент — как прикладной, так и по карьерному треку, предлагаю ввести формат микропостов с небольшими фичами.
Эдакие микро-ЛАЙФХАКИ (да, я миллениал, а что вы мне сделаете).

Начнем с самого полезного поста про AI в вашей жизни.

Если вас бесит AI Overview от гугла, но вы не хотите убирать его браузерными расширениями, вы можете отключить его двумя способами прям во время запроса (Overview частенько врет, т.к. алгоритмы выборки сайтов достаточно сомнительны).

1. Наберите в конце запроса
-AI

Это стандартный формат фильтрации поиска, просто исключает не слова/сайты, а Overview.

НО
Если вы не заканчивали MIT и вам чужды все эти хакерские штуки, подойдет второй вариант (именно его я и юзаю)

2. Используйте простой советский
блять

Нет, серьезно, попробуйте именно через "т". Такой формат практически не меняет первую страницу поиска, в отличие от обычных бранных слов.

Если у вас есть какие-то свои микро-штуки, которыми вы захотите поделиться, гоу в комменты!
😁12🔥71
This media is not supported in your browser
VIEW IN TELEGRAM
Портретный режим Veo 3.1 (9:16) сильно интереснее, чем кажется на первый взгляд.

Режим 9:16 не просто генерирует изображение в другом соотношении сторон — он генерит другой формат контента.

В каждой паре я использовал одинаковую информацию на вход (одинаковые изображения и промпты)

В датасете у Google явно есть шортсы, тиктоки и прочие вертикальные видео, включая креативы.

Очень сильно ощущается разница в том, как разные части датасета влияют на модель в зависимости от того, какой формат вы пытаетесь генерить.

Причём разница видна как в text-to-video, так и в image-to-video.

Портретный режим гораздо лучше работает с динамичными сценами: движения персонажей более резкие, неритмичные и привлекающие внимание.

Этот же режим лучше справляется с плавными движениями, характерными для отдельных видов хуков, генеря в разы меньше артефактов в процессе.

И наоборот, 16:9 лучше умеет в киношную композицию, имитацию сложного студийного освещения и другие вещи, характерные для данного формата.

Поэтому, если вы всё ещё работаете с Veo3.1 в стандартном 16:9 и просто кропаете его, попробуйте поработать с портреткой.

Разумеется, нужно учитывать общие ограничения модели, но уверен — вы удивитесь, сколько проблем решает простая смена режима генерации.

Зная об этом, вы можете использовать оба режима в разных частях одной задачи — и получать отличные результаты.

Мутный AI - Волшебных кнопок нет, есть только инструменты.
19🔥9
Ну что, товарищи, сегодня тот самый день, когда лейблы добрались до ИИшной музыки.

Udio и Stability AI в один день анонсировали сотрудничество с Universal Music Group.

Пока не начался вой на тему того, что наш бедный-несчастный ЫЫ душат, регуляция, It’s over и т. д., я бы хотел подсветить плюсы подобного сотрудничества в долгосрочной перспективе.

Во-первых, это прецедент — лейбл не стал пытаться засудить компании или утопить их, лейбл пришел сотрудничать. То есть поступили не как Disney с Midjourney. Это уже что-то.
Да, надо понимать, что есть вероятность того, что сотрудничество UMG пришли заключать в формате: "мы либо дружим, либо вам будет тяжко, когда начнется регуляция", но тем не менее.

Во-вторых, я не удивлен, что именно Stability и Udio прогнулись первыми.
Очевидный фаворит как в моделях, так и в финансовом плане — Suno.
Догоняющим всегда приходится адаптироваться, и на самом деле подобное сотрудничество может быть спасением для этих компаний в долгосрочной перспективе.

В-третьих, самое, на мой взгляд, важное.
Потенциально — юридически чистый контент. Это крайне важно для серьезных проектов: игр, фильмов, роликов-миллионников на YouTube и подобных.
Что толку от того, что Midjourney может сгенерить вам идеального Дэдпула?
Ну да, по правилам площадки то, что вы сгенерили, — ваше. Вот только Дэдпул — IP студии Disney, и они могут вас нахлобучить, если захотят.

А вот теперь представьте, что вы можете просто пойти, сгенерить кавер на песню, которую захотели использовать в своём ролике / кино / игре, да где угодно.
И это не нужно согласовывать, т. к. генерация юридически чиста.

Понятно, что есть куча консернов вроде консолидации рынка, снижения темпов прогресса, удорожания тарифов и прочих неприятных штук.
Вон Udio уже отключили скачивание сгенерированных треков на период перехода на новую модель.

Конечно же я не верю, что цель подобного сотрудничества — чистота контента и борьба за авторские права в их хорошем смысле.
Это в первую очередь про бабки и попытку первыми занять стремительно растущий рынок ИИ-музыки.
И остается вопрос, будут ли лейблы давить на авторов, чтоб те давали согласие на использование их музыки. Что-то мне подсказывает, что будут🚬

Именно поэтому искренне надеюсь, что Suno не поведутся и будут до конца оставаться независимыми от влияния лейблов.
Но, тем не менее, я считаю, что есть место и подобным коллаборациям, особенно если к тем же Udio зайдут не только UMG, но и Warner Music Group, например.

Всегда должен быть баланс и выбор между бунтарским прогрессом и юридически чистыми вариантами для тех, кто работает в большой индустрии, и им крайне опасно заходить в серую зону.

Мутный AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥3
Вышел из микро-отпуска и сразу же Veo подогнали очень интересную фичу — Camera control.

Суть в том, что одной кнопкой вы можете менять углы камеры или делать Dolly.

И самое клевое — это можно делать на УЖЕ СГЕНЕРЕННЫХ ШОТАХ.

То есть вы делаете генерацию, а затем делаете имитацию подсъемки с другой камеры или какой-нибудь небольшой пролет.

Почему мне так зашла эта фича?

Да все очень просто. В видео-моделях помимо ограничения по токенам в промпте нужно держать во внимании ограничения самой технологии, связанные с одновременными движениями/взаимодействиями объектов в кадре и прочих неприятных особенностях диффузии, о которых я неоднократно писал.

Так вот, эта фича позволяет разгрузить модель и не описывать специфические углы, зумы и прочие элементы, сосредоточившись не на движении камеры, а на качестве самой генерации: композиции, взаимодействиях, наполнении сцены, эмоциях и т. д.

Потом просто нажать пару кнопок и добавить более интересные углы и пролеты.

Но, естественно, и тут есть нюансы и свои ограничения — об этом расскажу в следующих постах. Пока что это стабильно работает только на определенном относительно статичном контенте.

И пока Сора захламляет все вокруг контентом плохого качества, аки желтые картинки из ChatGPT (что не отменяет крутость Соры в плане генерации разных сцен за разок, ценой кипения), гуглы просто тихо добавляют элементы контроля, не зависящие от промпта.

Это очень круто.

ControlNet, так-то, появился по тем же причинам.

Необходимы были алгоритмы управления генерациями, идущие как дополнительный элемент контроля при денойзинге. Препроцессоры стали спасением.

И гуглы идут по этому же пути.
🔥207
Астрологи опять снова объявили неделю нано-бананы, за которую платят господа Gemini Ultra, т.к. их опять заставили отваливать кредиты за Fast генерации из-за перегруза серверов.
Спасибо, мистер гигол. 🚬

Я не хочу захламлять вам ленту очередным постом про МЕГА ПРОРЫВ БОЖЕ МОЙ ОДНА КНОПКА НЕВЕРОЯТНО ВЫПЬЕМ ЗА ВСЕХ И НА ЗАВОД, вместо этого хочу поговорить про прикладную задачу, которую прошка, как и обычная банана, нормально решить не может.

Речь о дрейфе цветов при их переносе с референсов.

Как бы ты ни прокачивал "мозги" диффузии, базовые проблемы технологии никуда не денутся.

И если между ракурсами простеньких 2d-шных ассетов дрейф не такой сильный (но все равно есть), то вот при попытке перенести конкретные цвета на одежду или другие штуки — бой о бой. Начинается веселуха.

Ловите микрогайдик, как перенести цвет максимально близко к оригиналу и не поехать крышей в процессе.
Я думал, он потеряет актуальность с выходом новой модели, но кажись нет.

И да, я понимаю, что текстура, освещение и геометрия не позволят перенести цвет 1 в 1, но вы хотя бы приблизитесь к этому.

1. Уберите любые цвета с оригинального объекта, особенно насыщенно-темные.
Лучше всего сначала перегенерить объект в белый цвет.

Диффузионки лишь частично зашумляют целевое изображение, оставляя информацию о цветах. Это сильно влияет на результат.

2. Добавьте референсный цвет прямо на целевое изображение.
Можно просто расширить холст и добавить цвет сбоку. Затем перегенерируйте, попросив перенести цвет на объект из этого рефа.

Обычно у in-сontext моделей при переносе цвета с отдельного референса изображение идет через семантический энкодер, где теряются точные оттенки — важнее передать форму, материал, стиль и примерную палитру. Плюс модели устойчивы к цветовому расхождению, им необходимо это для распознавания объектов при разном освещении.

А вот если поместить цвет на самом холсте, то он проходит через тот же латентный энкодер, что и остальная часть изображения. Короче, информация о цвете остается "внутри" изображения, поэтому он переносится точнее.

3. Готово, вы практически великолепны.
Практически — потому что идеально все равно не получится, но для большинства задач и работы на коленке без геморроя с Comfy или чем-то еще — достаточно.

Если хотите порассматривать цвета, PDF в комментах.

Мутный AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1915👎1🤮1💩1
В последнее время, консультируя игровые студии, собирающиеся релизиться в Стиме, все больше понимаю, что тема AI в рамках геймдева до сих пор очень токсичная. И, внезапно, дело не в художниках, не в юридических аспектах и интеллектуальных правах, хотя данные аспекты имеют место.

Нифига.

Многие артисты, вот сюрприз — лояльны к нейронкам, если они правильно используются (особенно когда до них доходит, что дяденьки с деньгами не на стороне NO AI вайба), юридические же нюансы можно обойти, было бы желание и знание, куда смотреть.

Дело в аудитории.

Аудитория, на которую рассчитывает разработчик, начинает буквально диктовать, в каком стиле он (разраб) должен делать игру.

Особенно остро эта тема проявляется в инди-сегменте.

Вы можете быть бесконечно клевыми челиксами с классными художниками, вы можете выпустить несколько клевых игр, но если вдруг вы решите изменить стиль рисовки — на всякий случай изучите пару мифологий, ибо придется молиться всем богам, чтобы этот стиль не вызвал ассоциации с AI.

ДАЖЕ ЕСЛИ ВЫ ЕГО НЕ ИСПОЛЬЗУЕТЕ.

Иначе ваша же аудитория вас сожрет.

Вам даже ответы в тредах на двачах не помогут, как это пытались сделать художники Tiny Bunny (а на двачах, в целом, любят нейроарт).
С Зайчиком, конечно, есть еще куча проблем, но гипотеза о том, что они юзали ИИ в арте — одна из основных.

Некоторые инди-студии, выступающие паблишерами, запрашивают полные psdшки и требуют изменить арт, если им КАЖЕТСЯ, что там было использовано ИИ. Такой кейс был с одним из недавних релизов, но раскрывать дополнительную информацию я не могу, к сожалению. В итоге все решилось, но ситуация оставила крайне неприятный осадок.

И вот мы здесь: когда пачка энтузиастов, которая хочет сделать игру, ограничена не технологиями и не идеями нарратива/геймплея, нет. Энтузиасты ограничены аудиторией, которую мгновенно затрясет, если их любимый (до этого момента) художник вдруг осваивает новые инструменты.

И теперь при выстраивании стратегии внедрения AI в студию приходится дополнительно выстраивать стратегию сокрытия использования технологий не только от Стима, но и от аудитории игры, прорабатывать оценку лояльности и прочие штуки, которые усложняют мою (и не только мою) работу.

На самом деле, скрыть это все проще, чем кажется, но нужно уметь это делать.

Практически все ААА так или иначе используют ИИ, иногда даже централизованно и осмысленно, чаще — нет. Но используют, давно. Просто не афишируют. Это как раз показала недавняя тряска с игрой года 33, там очень все интересно.

С одной стороны — я понимаю такую реакцию, спасибо слопу, заполонившему пространство. С другой — мне жаль художников и команды, у которых жесткие ограничения ресурсов для разработки и они хотят хоть немного ускорить процесс. Особенно, если на выходе охренительный продукт, вроде Экспедиции.

Так что если вы — представитель инди-сцены и хотите использовать нейронки — подумайте еще раз. Ну или найдите спеца, который сможет помочь вам не попасть под шквал всего того говна, под которое попал AI, но откуда этого шквала не ждали.
🔥152👍1👎1😢1🐳1💯1