AI и грабли
12.1K subscribers
166 photos
19 videos
4 files
205 links
Строил HR продукты для американского бигтеха. Внедряю AI в чужие бизнесы и команды, пишу про свои ошибки и находки

@nikolay_sheyko
Download Telegram
Какой же пиздец происходит в нейронках, которые работают с картинками 🫨

У меня друг занимается разработкой инди игр. Часто делает pixel art штуки. И я ему все уши прожужжал, что нужно просто нейросетками научиться пользоваться, чтобы генерить картинки, а не рисовать. Сегодня мы засели все это дело потестить и знатно обосрались.

Задача была научиться брать существующего персонажа и немного менять его, чтобы делать спрайтовую анимацию или создавать других в том же стиле

Часть 1. Давай просто ChatGPT попробуем, она же умеет распознавать картинки 🤡

Результат можно увидеть ниже.

Она меняет детали, которые не должна. Всему виной - потеря информации. Вся соль в том, как работает генерация картинок в ChatGPT: их генерирует не GPT, а отдельная нейросетка DALLE.

А GPT умеет нативно "видеть" объекты на картинках и описывать их текстом. Так что она готовит инструкцию, а DALLE просто по ней рисует с нуля.

То есть:

1. Я отправляю картинку и прошу поменять только цвет.
2. GPT описывает что на картинке текстом и формирует инструкцию для Dalle, мол, нарисуй рыцаря в стиле пиксель арт, с тяжелыми доспехами синего цвета
3. Dalle его рисует
4. 😢

Потому что Dalle даже не видела изображения, которое она должна изменить!
Такой себе глухой телефон у ИИ.

В следующей части будет про "специализированные сервисы" для редактирования изображений
👍3😁1😢1
Часть 2/4 Специализированные сервисы для редактирования картинок

Пробовал Canva/RunwayML, всякие обертки на StableDiffusion и еще что-то из браузерного. DiffusionBee из локального.

Тут магия в том, что можно выделить какую-то часть изображения и попросить перерисовать ее. Или попросить перерисовать все изображение.

Лучший результат был в DiffusionBee, но все равно полный отстой (фотка ниже).

Еще была мысль научить свою "модель" для style-transfer в RunwaiML, там говорят, можно 15 примеров всего подать. МБ попробую, расскажу, но пока RunwaiML показал самый ужасный результат
👍1
Часть 3/4 По-настоящему специализированный сервис под конкретную задачу.

Плагин для Aseprite (среда, в которой как раз и делают пиксельарт вручную)

На сайте выглядит как мечта – по нарисованной каляке-маляке генерирует спрайты персонажей, еще и анимирует их

Андрей затестил и говорит, что ограничения в размерах сильное – 80 на 80 в бесплатном тарифе и 140 на 140 в платном.

А по поводу анимаций:

Сами анимации - это такое. Нужно найти сначала нужную картинку-реф, и сгенерить скелет. Потом по скелету каждый кадр всё таки в ручную надо генерить. И он не сможет генерить слеш и частицы на ударах


———

Короче, я думаю, что нужно искать именно такие инструменты – что-то, что интегрируется с уже существующими, но автоматизирует какую-то часть, при этом бесшовно.

Но видимо, пока такого не много 🤷‍♂️
🤔1
анимация, как она на сайте
👍2
Часть 4/4. Опять ChatGPT

На самом деле, она плохо справляется только тогда, когда входная картинка не похожа на то, как генерит изображения сама DALLE. Это очевидно, она ведь просто генерит картинки с нуля на основе описания.

Но вот если сразу использовать ее для генерации объектов, то они все будут совпадать с фирменным стилем DALLE и проблем не будет.

Правда с анимациями все равно будет сложно – при просьбе поменять положение тела, все остальное может поехать.

P.s. я часто по несколько раз перезапускал генерацию, чтобы получить такой результат
👍2
Так, надо какие-то выводы из всего этого сделать. Что там с использованием графических нейронок в повседневных задачах

* Большая часть инструментов, которые я пробовал – ощущаются очень сырыми

* Лучший пользовательский опыт будет у тех инструментов, которые интегрируются в уже существующие и привычные

* Но их придется дольше ждать, а сейчас можно костыльно использовать универсальные

* Даже мое поверхностное тестирование привело к неплохому результату. Уверен, если закопаться чуть глубже и поискать модели, заточенные на пиксельарт, или затестить самые топовые штуки (Midjorney или интеграцию в Adobe), то будет еще лучше.

———
В общем, уже сейчас можно много задач решать не через найм специалистов, а с помощью нейронок 🤷‍♂️

А вот вам пока Лунтик, если бы он был персонажем в доте:
4🔥1😁1
К​ак предсказывать будущее

Если показать мне быка и спросить, сколько он весит, я, вероятно, сильно ошибусь. Если повторить это действие со всеми подписчиками этого канала и усреднить, мы скорее всего окажемся очень близки к правде. По крайней мере, Фрэнсис Гэлтон получил какие-то такие результаты.

Этот эффект называется мудростью толпы (или для душнил Теорема Кондорсе о жюри).

Его использовали ВМФ США про поиске затонувшей подлодки Скорпион. Он же заложен в некоторые алгоритмы машинного обучения (например, random forest). А еще в 1999 усредненный коллективный разум достаточно долго играл в шахматы с Каспаровым. И это не говоря про фондовый рынок, где оценки компаний определяются суммарным мнением сотен тысяч людей.

Короче, было бы круто, если бы можно было узнать усредненное мнение по разным вопросам, правда ведь?

И как здорово, что такие места есть. Например, manifold.markets и polymarket.com – это площадки, где люди делают ставки на события.

То есть, это не просто мнения, а еще и подкрепленные долларом. Можете посмотреть сами, там есть достаточно любопытные, но лучше идти в глубь, потому что главные страницы сейчас забиты американскими выборами.

Так что вот вам самый популярный вопрос на затравку
💯21
AI и грабли
К​​ак предсказывать будущее Если показать мне быка и спросить, сколько он весит, я, вероятно, сильно ошибусь. Если повторить это действие со всеми подписчиками этого канала и усреднить, мы скорее всего окажемся очень близки к правде. По крайней мере, Фрэнсис…
У меня несколько человек за последние дни спросили, как я так прикрепляю к постам картинки снизу.

Вообще, там магия с закреплением ссылки на картинку к пробелу нулевой ширины. Это не очень удобно делать руками, так что я сделал бота, который делает все за вас. Пользуйтесь на здоровье.

@attach_image_bot
🔥4👍1
AI и грабли
К​​ак предсказывать будущее Если показать мне быка и спросить, сколько он весит, я, вероятно, сильно ошибусь. Если повторить это действие со всеми подписчиками этого канала и усреднить, мы скорее всего окажемся очень близки к правде. По крайней мере, Фрэнсис…
Мудрость толпы ч. 2

Интересно, что эта штука работает только тогда, когда у участников толпы есть хоть какая-то предсказательная способность. Ну то есть, если люди вообще не видят быка, и даже не знают, что это, то нет смысла надеятся на их оценки.

Тут мне товарищ как раз припомнил одно исследование, которое провел психолог Филип Тетлок. Он там несколько десятилетий проводил исследование всяких экспертов в политике и экономике. В результате, обнаружил, что они справляются с бинарными прогнозами хуже, чем с ними справлялась бы брошенная монетка 🤡

Тогда по всей логике, толпа таких экспертов становится еще более бесполезной, да?
Блин, а можно я тоже буду так уметь не триггериться на претензии?
🤩73
Поражаюсь, насколько много людей делают свою работу в стол.

Тут у Кириллика была инициатива на создание микро-коммьюнити, мол, подписчики, создавайте чатики, большая часть быстро умрет, но парочка окажется в руках прирожденных коммьюнити-менеджеров и заживет своей жизнью.

Я из любопытства добавился в пару из них и офигел от того, как много люди что-то делают, но нигде этим не делятся. Большая часть интро в чате AI девелоперов содержит в себе фразу "публичного демо еще нет".

Вообще, считаю, что мой главный блокер сейчас – страх публичности. Иначе, я бы давно уже столько идей, подписчиков и клиентов нашел, рассказывая на каждом шагу что я делаю. И это драйвило бы делать дальше и больше. Интересно, у кого еще так?