эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Forwarded from Denis Sexy IT 🤖
Самое клевое, это конечно правильные геометрические фигуры – баловаться с ними одно удовольствие. 

Автор, которым я вдохновлялся тут.
Würstchen V2 — быстрее чем SDXL

Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.

Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.

Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.

Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.

По скорости выходит в 2-2.5 раза быстрее чем SDXL.

По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.

В автоматик1111, конечно же ещё не завезли.

Блог + демо
Код
Веса
Google Colab

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, война против машин уже началась. Сначала конусы, а теперь в ход идут молотки.

10 сентября, Сан-Франциско.

@ai_newz
Большое обновление Google Bard

Вчера Google выкатил свою продвинутую версию Bard, которая интегрирована с другими продуктами Google - эдакий универсальный помощник по вашим делам. Еще добавили факт-чекинг.

— Теперь Bard может брать информаци из других приложений Google (типа аналог плагинов у ChatGPT)
— Можно работать с данными из Maps, YouTube, Hotels и Flights. Модель сама запросит инфу у нужного сервиса.
— Возможность взаимодействовать с вашей приватнйо информацией из Gmail, Docs и Drive, чтобы находить, сжимать и отвечать на вопросы.
— Ответы Барда теперь можно дполнительно факт-чекнуть с помощью Google It v2 для большей уверенности в информации. Система дополнительно погуглит и попытается найти подтверждения фактам со ссылками в интернете. Текст подсветится разными цветами.
— Возможность по ссылке продолжить диалог, начатый другими, и использовать его для вдохновения. Например, так будет удобно шарить промптики.
— Можно загружать изображения и включать их в ваш промпт, задавать по ним вопросы.


Это серьезная заявоча на конкуренцию с другими LLM-сервисами. Учитывая огромную базу пользователей GDrive и GMail, может взлететь если сам продукт не будет сильно лажать.

Блогпост (3 мин)
Потыкать в Bard Chat самому

@ai_newz
Потыкал я в обновленного Bard-а.

Я бы никогда не дал доступ ChatGPT к своим письмам, но т.к. письма и так уже на серверах гугла, то перешагнуть этот порог с Бардом было нетрудно. Интересно было посмотреть как он хорошо ищет в моих мейлах. Оказалось, что не очень.

Пытался узнать, что мне впервые написал мой PhD научник из Хайдельберга - Prof. Björn Ommer. В итоге я очень долго мучал Барда, чтобы тот смог найти емейлы по имени отправителя. Паршивец наотрез отказывался, пока я явно не выписал e-mail адрес. Затем он не хотел искать письма раньше чем 2021 год (а у меня их там тысячи), пока я несколько раз не сказал явно, мол "I had emails from Björn before 2021". Только после этого он осилил задачку.

Письмо от Авг. 2015 реально существует, где я спрашивал у Бьёрна что мне делать по прибытию в Германию в первую неделю. Но это было не первое письмо все равно!

Короче, продукт работает, но еще довольно сырой.

Попробовать можно тут. Не забудьте включить "Extensions" для доступа к gdrive и gmail.

#мойпуть #personal
@ai_newz
🔥 OpenAI анонсировали DALL-E 3

DALL-E 3 обещает быть интегрированной с ChatGPT, то есть не нужно будет думать над промптами (привет промпт-инженерам). Достаточно будет в пару слов описать, что вы хотите нарисовать, и ChatGPT придумает детальные промпты для вас.

Особое внимание уделили деталям и научили модель лучше прнимать контекст изображения, описанный в длинных промптах (DALLE-3 любит многословность описаний).

Пока никому не дают потрогать модель, показали только с дюжину генераций. Поэтому трудно судить насколько это будет SOTA, и как медленно это будет работать.

Я полагаю, это будет огромная диффузия в несколько этапов с GPT-4 в качестве текстового энкодера и всяческими свистелками-перделками, о которых мы не узнаем.

В октябре обещают дать доступ юзерам ChatGPT Plus and ChatGPT Enterprise. А после этого может быть ресерчерам.

https://openai.com/dall-e-3

@ai_newz
Модель максимально кастрировали алайнментом и фильтрами нежелательного контента. Dalle-3 откажется генерить известных людей, любые картины в стиле существующих художников и любой небезопасный контент по мнению OpenAI. Так компания обезопасила себя от судебных исков.

Кажется, что фотореалистичный контент модель тоже слабо умеет генерировать. Везде видна стилизация, картинки выглядят отрендеренными и слегка пластмассовыми, а не как реальные фотографии, даже если в промпте явно написать "photograph".

Промпты:

1. Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.

2. A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.

3. A photo of an ancient shipwreck nestled on the ocean floor
...

@ai_newz
эйай ньюз
Модель максимально кастрировали алайнментом и фильтрами нежелательного контента. Dalle-3 откажется генерить известных людей, любые картины в стиле существующих художников и любой небезопасный контент по мнению OpenAI. Так компания обезопасила себя от судебных…
3-ий промпт: A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure, and fish swim in and out of its hollow spaces. Sunken treasures and old cannons are scattered around, providing a glimpse into the past.

Ради справделивости, эта генерация выглядит наиболее как фотография. Хотя в реальности под водой фото выглядело бы совсем иначе.
Еще картиночек от DALLE-3. По сути это почти все, что нам показали на текущий момент.

Ни кода, ни блога, ни визуального сравнения с SOTA, ни бенчмарков.

OpenAI, что еще сказать 🌝

@ai_newz