эйай ньюз
73.3K subscribers
1.62K photos
866 videos
7 files
1.94K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Топовый кэпшенинг в каждый проект

Никто не просил, никто не ждал, но я наконец доделал и выложил самый(вероятно) быстрый captioning на русском языке.
Модель основанная на работе CLIP prefix caption, обучена на ruCOCO на 2*1080ti и выложена

Алсо моделька умеет в ZS и при должном promt может решать простенькие VQA задачки

github
hf 🤗
HFspaces🤗
collab 🔮

Лайк шер звездочка
Ну это прям крутая фича. С помощью DALLE-2 и ее потомков можно иллюстрировать книги и поэзию. На вход абзац – на выходе из сети картинка.

Интересно только, насколько там передается смысл абзаца. Есть подозрение, что нейронка сгенерирует просто некое впечатление, упуская детали.
Побаловался с нейронками «Рерайтер» и «Суммаризатор», которые Сбер представил на днях. Первый сервис переписывает другими словами текст с сохранением смысла. Второй — сокращает исходный текст, но сохраняет важные тезисы.

Вот пример, как работает «Рерайтер». Исходный текст:

— Режим нерабочих дней, по заключениям экспертов, может прервать цепочку заражений коронавирусом, заявил пресс-секретарь президента России Дмитрий Песков.

Результат работы нейронки (она даёт пять вариантов, я прикладываю два):

1. Песков заявил, что режим нерабочих дней может прервать цепочку заражений коронавирусом.

2. В России могут отменить режим нерабочих дней, сообщил пресс-секретарь президента РФ Дмитрий Песков.

В целом выглядит бодро, хотя местами текст выглядит машинно. Но для рекламных креативов в таргетинге, для длинных текстов (которые всё равно читать никто не будет) или для быстрого рерайта ради уникальности пойдёт.

Если вы редактор, копирайтер, студент или ещё как-то взаимодействуете с текстом — полезно сохранить.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая разработка с Али-экспресса. Робот-конвертер из PDF в рукописный конспект.

Это ровно то, чего мне не хватало, когда тетка, принимающая зачёт по социологии с ухмылкой просила предъявить рукописный конспект по сабжу. При его неимении студент (то есть я) шел на перезду и трое суток переписывал конспект у отличницы 🤬.

@Artem Gradient
🔥Ахтунг! Google разбил DALLE-2, выпустив свою text-2-image дифузионную модель Imagen

Основная идея: Large Pretrained Language Model × Cascaded Diffusion Model. То есть, мощная большая предобученная текстовая модель это залог успеха в генерации фотореалистичных картинок по описанию.

В статье есть куча подробного анализа и сравнений.

https://gweb-research-imagen.appspot.com/

@Artem Gradient
Примеры генерации новой модельки от Google – Imagen.

Не знаю, как вам, но мне они больше нравятся, чем DALLE-2.

@Artem Gradient