эйай ньюз
65.8K subscribers
1.49K photos
792 videos
7 files
1.81K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Мои знакомые (ex-deepcake) выпустили AI-сервис Rask.ai для локализации видео-контента на 50+ языках в несколько кликов.

На Rask.ai можно перевести видео длинной до минуты с любого языка на английский бесплатно.

Скоро обещают ещё и липсинк приделать. Такой сервис для блогеров и ютуберов – то что нужно, чтобы распространить свой контент на более широкую аудиторию.

На прикрепленных видео я перевел русский оригинал на английский и японский с помощью rask.

Кстати, ребята сейчас пытаются подняться в ранке на product hunt. Поддержать команду, а также попробовать продукт и дать фидбэк можно по ссылке.

@ai_newz
🔥Stability.ai релизнули новую модель SDXL beta!

По слухам, новая модель имеет 2.3-2.4 B параметров, что в несколько раз больше чем предыдущая версия. Других подробностей пока нет.

Чтобы попробовать SDXL дают совсем немного бесплатных кредитов. Я потестил, и на мой взгляд, качестве сильно увеличилось, ещё лучше генерит иллюстрации. Но в этой модели сильно подкрутили фильтры и возможно порешали датасет. Теперь она не понимает некоторые известные имена. Вместо Яна ЛеКуна генерит азиата, хотя и слегка похожего на Яна.

Уходит примерно 8 сек, чтобы сгенерить 4 картинки за 50 шагов.

Интересно посмотреть, зарелизят ли веса этой модели, или кончилась эпоха щедрости?

Попробовать SDXL тут.

@ai_newz
Ещё, SDXL, кажется, чуть лучше умеет в текст, чем SD v2.1. Но всё ещё не дотягивает.

Пытался заставить ее сгенерить на табличке "I love AI newz". У меня это все равно до конца не вышло.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Segment Anything
[Meta AI]

Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.

Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.

SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".

Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.

Мало того, веса и код модели полностью открыты!

Сайт проекта
Demo

@ai_newz
Segment Anything: Архитектура

Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.

1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.

Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).

Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.

Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.

@ai_newz
Хотите получить ценные знания из области машинного обучения и аналитики от эксперта и опытного менеджера? Рекомендую присоединиться к каналу Валеры Бабушкина @cryptovalerii

Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.

Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Я протестил модельку Segment Anything у себя в браузере.

Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.

Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.

Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.

Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.

Демка тут.

@ai_newz
Альтернативные интерфейсы для ChatGPT

Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.

Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.

Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.

Читать пост.

@ai_newz
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything

Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.

Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.

Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.

Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.

Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.

Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.

Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.

Код на гитхабе.

@ai_newz
эйай ньюз
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion. Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой…
This media is not supported in your browser
VIEW IN TELEGRAM
Segment Anything + Stable Diffusion в Automatic1111

Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.

Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.

* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.

❱❱ Код расширения
Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.

Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.

@ai_newz
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах

Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).

В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.

Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!

Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?

generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")

generatetext("Who is Shcmidhuber?")


Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.

*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.

Блогпост про Dolly 2.0

@ai_newz
Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где разъебал сильно улучшил 3D реконструкцию и рендеринг больших сцен.

Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.

В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.

Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.

Сайт проекта

Вот ещё ссылка на либу с GUI для разных нерфов

@ai_newz