🔥Google Research 2022 & Beyond
GR стартует серию постов о прошедших и будущих исследованиях. Первый - о мультмодальности и генеративных моделях.
https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html
GR стартует серию постов о прошедших и будущих исследованиях. Первый - о мультмодальности и генеративных моделях.
https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html
research.google
Google Research, 2022 & beyond: Language, vision and generative models
Posted by Jeff Dean, Senior Fellow and SVP of Google Research, on behalf of the Google Research community Today we kick off a series of blog posts ...
❤5👍2🤗1
🔥🔥🔥Команда Berkley на днях представила новую модель InstructPix2Pix, которая позволяет редактировать изображения в соответствии с текстовой инструкцией.
#простой_ai: авторы учат модель для управления изменениями на изображении через текстовые инструкции («добавь корабль на воду», «замени человека инопланетянином» и т.д.) - сначала учится одна модель для синтеза этих инструкций, а затем вторая - учится генерировать похожее изменённое в соответствии с инструкцией изображение.
Задача редактирования изображений решается в классическом supervised режиме:
1. На первом этапе создаётся датасет обсечения, который включает в себя текстовые инструкции, исходные и соответствующие изменённых изображений
2. На втором обучается диффузионная модель для редактирования изображений на этом синтезированном наборе данных
При этом обучение на синтетических данных (вопреки принятому мнению, что лучше учить на реальных чистых данных) не портит модель синтеза изображений.
Синтез инструкций выполняется посредством файнтюна модели GPT3 Davinci на 700 промтах из LAION-Aesthetics V2 6.5+ в течение одной эпохи. В результате на основе входного текстового описания синтезируется как сама текстовая инструкция для редактирования изображения, так и изменённое в соответствии с интукцией текстовое описание изображения. Затем два текстовых промта преобразуются в пару соответствующих изображений с помощью модели, основанной на StableDiffusion (по 100 сэмплов на каждую пару описаний). Для того, чтобы генерации по двум близким промтам не сильно отличались (что свойственно в обычном режиме генерации), авторы используют метод Prompt-to-Prompt, который позволяет увеличить сходство нескольких генераций диффузионной модели. Это делается с помощью переноса весов cross attention на некотором количестве шагов деноизинга.
Больше деталей можно как всегда найти в статье⬇️
📕 статья
🖥 GitHub
🏆HF demo - медленная:(
@complete_ai
#простой_ai: авторы учат модель для управления изменениями на изображении через текстовые инструкции («добавь корабль на воду», «замени человека инопланетянином» и т.д.) - сначала учится одна модель для синтеза этих инструкций, а затем вторая - учится генерировать похожее изменённое в соответствии с инструкцией изображение.
Задача редактирования изображений решается в классическом supervised режиме:
1. На первом этапе создаётся датасет обсечения, который включает в себя текстовые инструкции, исходные и соответствующие изменённых изображений
2. На втором обучается диффузионная модель для редактирования изображений на этом синтезированном наборе данных
При этом обучение на синтетических данных (вопреки принятому мнению, что лучше учить на реальных чистых данных) не портит модель синтеза изображений.
Синтез инструкций выполняется посредством файнтюна модели GPT3 Davinci на 700 промтах из LAION-Aesthetics V2 6.5+ в течение одной эпохи. В результате на основе входного текстового описания синтезируется как сама текстовая инструкция для редактирования изображения, так и изменённое в соответствии с интукцией текстовое описание изображения. Затем два текстовых промта преобразуются в пару соответствующих изображений с помощью модели, основанной на StableDiffusion (по 100 сэмплов на каждую пару описаний). Для того, чтобы генерации по двум близким промтам не сильно отличались (что свойственно в обычном режиме генерации), авторы используют метод Prompt-to-Prompt, который позволяет увеличить сходство нескольких генераций диффузионной модели. Это делается с помощью переноса весов cross attention на некотором количестве шагов деноизинга.
Больше деталей можно как всегда найти в статье⬇️
📕 статья
🏆HF demo - медленная:(
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🤗1
Forwarded from Технологии | Нейросети | Боты
Вы думаете, что я вас не переиграю? Я вас уничтожу!
Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov
• Больше моделей для StableDiffusion
Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov
• Больше моделей для StableDiffusion
👍8😁3🔥1
Всем доброго утра/дня/вечера!
Подумываю над новыми форматами для своего канала.
Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.
Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.
По реакциям на пост пойму ваш настрой😉⚡️
Подумываю над новыми форматами для своего канала.
Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.
Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.
По реакциям на пост пойму ваш настрой😉⚡️
👍54🔥10👏1🤔1💩1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Скрипт для массового обращения к ChatGPT
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
👉 GitHub
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
👉 GitHub
🔥8😱1
⚡️⚡️⚡️Прямо сейчас Майкрософт и OpenAI проводит live про их Bing поиск с применением ChatGPT и другие продукты
LIVE
LIVE
The Verge
Microsoft’s ChatGPT event live blog
Microsoft is holding a surprise in-person event where it’s likely to demo a version of Bing with ChatGPT integrated and much more.
🔥9
⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗
@complete_ai
@complete_ai
👍42🔥11❤7😁7🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
👍33🥴2❤1🔥1
ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.
Митап можно посетить офлайн или подключиться к онлайн-трансляции.
Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
ML Party Yerevan
ML Party — регулярные встречи о самых разных применениях машинного обучения в IT. Приглашаем вас принять участие в первой ML Party в 2023 году, которая пройдет в гибридном формате — встретимся офлайн в Ереване (Армения) и онлайн на YouTube.
❤13👍5👎1