эйай ньюз
77.6K subscribers
1.73K photos
900 videos
7 files
2.04K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Сравнение OpenAI Dalle-2 vs Stable Diffusion

Я даю вам факты. Выводы делайте сами 😐

@ai_newz
😁130🤣33🔥18👍8🤯6🤡5👎3👏1
Тем временем у художников в твиттере дико бомбит, они требуют запретить бесовское AI. А аккаунт StableDiffusion уже выглядит так.

@ai_newz
🤡152😱17😁9👍3🤔21🤩1
Что думаете по поводу этого, господа?

Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более конкурентноспособными?

Этично ли использовать картины из открытого доступа для тренировки моделей?

Вэлком ту комментс.

@ai_newz
😁64🤡27👍10😢9👎2
Media is too big
VIEW IN TELEGRAM
Человек очень неплохо потрудился и написал сценарий истории нашего мира, вместив его в 36 текстовых промптов (что само по себе нетривиально). Затем он попросил Stable Diffusion сделать интерполяцию между запросами и создал это очешуенное видео.

Вот чем не искусство? Как раз пример хорошей работы артиста в симбиозе с машиной. SD - тут всего лишь инструмент для вооплощения идеи творца.

Но, конечно же, мне любопытно, когда нейросеть сама будет понимать смысл фразы "нарисуей историю человечества" без предоставления ей промежуточных промптов. Кажется тогда креативность художника может состоять в чем-то другом. Что думаете? Особенно интересно мнение художников.

@ai_newz
🔥163👍15❤‍🔥7🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Между делом Гугел отмасштабировал языковые модели и натренировал модель PaLM на 540 миллиардов (!) параметров . Для сравнения у GPT-3 было 175 миллиардов.

На гифке - примеры, демонстрирующие 1-shot способности PaLM 540B на бенчмарке BIG-bench: маркировка причин и следствий, концептуальное понимание, угадывание фильмов по смайликам, поиск синонимов и причинно-следственных связей.

@ai_newz
🔥87👍43😱3
В статье про PaLM дохульен авторов, но у двух первых взяли интервью. Кстати еще одна новость в том, что Google Research сегодня запустил свой канал на ютубе, где они будут регулярно постить интервью с ресерчерами и короткие видео про свои SOTA статьи. В общем, я подписался.
👍27😍7🔥3
Занятная ботанская картинка показывающая таксономию и связи между различными мерами и расстояниями.

Хозяйке на заметку.

@ai_newz
50👍21🤩4🤯1
Ввиду всех этих далле и стабильных диффузий, предлагаю вашему вниманию CLIP-Допрашиватель! Штука помогает человеку без фантазии разобрать картинку в промпт с правильными ключевыми словами. То есть понравилась картинка - запихнул ее в интеррогатор, получил промпт и сгенерил еще кучу вариаций с помощью любимой диффузии.

Как работает? (а) Делаем captioning входной картинки с помощью BLIP. Затем пробегаемся по словарю стилей, жанров, течений в искусстве и арт платформ, и (b) с помощью CLIP находим наиболее релевантные для входной картинки. Комбинация (а) и (b) будет итоговым промптом.

Результат моего теста - на картинках:
1. Входное фото. Интеррогатор выдал «a little girl standing in front of a fire, a stock photo by Marina Abramović, shutterstock contest winner, tachisme, furaffinity, destructive, stock photo»
2. Выход Stable Diffusion по этому промпту.

Enjoy!

❱❱ Google colab

@ai_newz
🔥45👍20😁52👎2👏1
Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz
👍17🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Diffusion стартовал вторую фазу беты и вышел из дискорда в веб. Любому желающему бесплатно дают кредитов на 200 генераций, а дальше за золотишко.

Я потыкал, и вот что у меня вышло. Честно сказать, если хочется что-то нормальное сгенерить, то 200 кредитов улетают со скоростью света, потому что в большинсвте своём генерится дегенеративный арт, а не дизайнерские конфетки.

Промт-инжениринг дело не легкое. Очевидно, что в скрытом пространстве сети только некоторые индивидуальный точки выглядят красиво и эстетично, и уходит много времени, чтобы их нащупать. В идеале, следующее поколение генеративных сетей должно решать именно эту проблему. Подбор промптов автоматически - это первый уродливый костыль в том направлении.

@ai_newz
👍35🔥112🤔2👎1😁1
Forwarded from Derp Learning
Народная версия кода #stablediffusion для пролетариата!
512x512 теперь влезает даже в 4гб карточки!

Вы только посмотрите на эти счастливые лица промт инженеров из светлого будущего!


Реализация довольно простая - везде half precision, и всё, что в данный момент не используем, кладем на cpu.

Гит

@derplearning
🔥42👍114👎2👏1😁1
Веса Stable Diffusion официально релизнули в открытый доступ. Выкуси, OpenAI.

https://stability.ai/blog/stable-diffusion-public-release

Новый чекпоинт тут.
Что такое Stable Diffusion тут.

@ai_newz
80🔥13👍5😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Пока половина интернета носится со стейбл диффузией, другие люди делают реальные научные прорывы.

FAIR/MetaAI выпустили ESM2 – языковую модель для протеинов (до 15 млрд параметров), которая на уровне с AlphaFold по точности, но на порядок быстрее. Что открывает новые возможности для использования ее реальными молекулярными биологами в повседневной работе.

Одна из многих задач, которую умеет решать модель - это восстановление полной атомарной структуры белка, по небольшой входной последовательности.

❱❱ Статья
❱❱ Код и веса

@ai_newz
🔥77👍156🤯1
Познавательная лекция от Michael Zollhöfer, ученого из Meta Reality Labs, о разработках в области теле-присутствия: реалистичные аватары, живой звуке в метаверсе, нейронный рендеринг для пространств и прочие крутые штуки.

Лекция

@ai_newz
🔥13👍9
This media is not supported in your browser
VIEW IN TELEGRAM
У дезигнеров бушует фантазия, создают вот такие концепты модных шмоток с помощью инпейнтинга в далле-2.

На видео около 100 генераций.

@ai_newz
🔥1096👍5😢3👎2