Complete AI
7.82K subscribers
494 photos
35 videos
10 files
269 links
Меня зовут Андрей Кузнецов

Директор FusionBrain Lab в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
🔥🔥🔥Команда Berkley на днях представила новую модель InstructPix2Pix, которая позволяет редактировать изображения в соответствии с текстовой инструкцией.

#простой_ai: авторы учат модель для управления изменениями на изображении через текстовые инструкции («добавь корабль на воду», «замени человека инопланетянином» и т.д.) - сначала учится одна модель для синтеза этих инструкций, а затем вторая - учится генерировать похожее изменённое в соответствии с инструкцией изображение.

Задача редактирования изображений решается в классическом supervised режиме:
1. На первом этапе создаётся датасет обсечения, который включает в себя текстовые инструкции, исходные и соответствующие изменённых изображений
2. На втором обучается диффузионная модель для редактирования изображений на этом синтезированном наборе данных

При этом обучение на синтетических данных (вопреки принятому мнению, что лучше учить на реальных чистых данных) не портит модель синтеза изображений.

Синтез инструкций выполняется посредством файнтюна модели GPT3 Davinci на 700 промтах из LAION-Aesthetics V2 6.5+ в течение одной эпохи. В результате на основе входного текстового описания синтезируется как сама текстовая инструкция для редактирования изображения, так и изменённое в соответствии с интукцией текстовое описание изображения. Затем два текстовых промта преобразуются в пару соответствующих изображений с помощью модели, основанной на StableDiffusion (по 100 сэмплов на каждую пару описаний). Для того, чтобы генерации по двум близким промтам не сильно отличались (что свойственно в обычном режиме генерации), авторы используют метод Prompt-to-Prompt, который позволяет увеличить сходство нескольких генераций диффузионной модели. Это делается с помощью переноса весов cross attention на некотором количестве шагов деноизинга.

Больше деталей можно как всегда найти в статье⬇️

📕 статья
🖥 GitHub
🏆HF demo - медленная:(

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🤗1
Forwarded from Технологии | Нейросети | Боты
Вы думаете, что я вас не переиграю? Я вас уничтожу!

Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov

• Больше моделей для StableDiffusion
👍8😁3🔥1
Всем доброго утра/дня/вечера!

Подумываю над новыми форматами для своего канала.

Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.

Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.

По реакциям на пост пойму ваш настрой😉⚡️
👍54🔥10👏1🤔1💩1
🎤Увидимся 6-7 марта на OpenTalks в Ереване!

Кто собирается?
🔥20👍62
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Скрипт для массового обращения к ChatGPT

Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.

🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.

@doomgrad

👉 GitHub
🔥8😱1
⚡️⚡️⚡️Прямо сейчас Майкрософт и OpenAI проводит live про их Bing поиск с применением ChatGPT и другие продукты

LIVE
🔥9
FYI
👍10🔥4🤯2
⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗

@complete_ai
👍42🔥117😁7🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!

SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.

Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.

Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.

Поддержать ребят можно здесь
👍33🥴21🔥1
Достаточно неожиданно🤗
👍15🔥3
⚡️2 марта в Ереване пройдёт первая ML Party в 2023 году

ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.

Митап можно посетить офлайн или подключиться к онлайн-трансляции.

Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍5👎1
Утро в офисе сегодня такое☀️
🔥3416🐳2
⚡️Поговорим про мультимодальные модели

В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.

На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.

Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.

📕Обзорная статья

@complete_ai
👍15🔥63👏1
🫤🤤😐Почти на серьёзных щах готовились сегодня к opentalks.ai с Глебом @tired_glebmikheev и Серёгой @successfulproduct.

📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
👍19🔥10