эйай ньюз
77.6K subscribers
1.73K photos
900 videos
7 files
2.04K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything

Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.

Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.

Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.

Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.

Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.

Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.

Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.

Код на гитхабе.

@ai_newz
102👍44🔥15👏5
эйай ньюз
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion. Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой…
This media is not supported in your browser
VIEW IN TELEGRAM
Segment Anything + Stable Diffusion в Automatic1111

Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.

Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.

* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.

❱❱ Код расширения
🔥72👍195👏1
Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.

Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.

@ai_newz
87👍17👏3😁3
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах

Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).

В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.

Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!

Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?

generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")

generatetext("Who is Shcmidhuber?")


Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.

*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.

Блогпост про Dolly 2.0

@ai_newz
🔥160👍4119🌚3
Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где разъебал сильно улучшил 3D реконструкцию и рендеринг больших сцен.

Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.

В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.

Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.

Сайт проекта

Вот ещё ссылка на либу с GUI для разных нерфов

@ai_newz
76🔥48👍19🤯10😱8❤‍🔥2🤣1
Насколько полезным сейчас является скилл программирования на CUDA? Если я хочу производительности для своих нейронок - достаточно ли пайторча? (Вопрос от подписчика)

CUDA - это довольно редкий скилл. И если ты умеешь программировать на CUDA, то без работы точно не останешься. Мало кто из ресерчеров умеет программировать на куде. А скилл очень полезный, например для оптимизирования кернелов и ускорения нейронных сеток. В больших компаниях (типа Меты) есть отдельные команды, которы умеют делать такую магию, например команды PyTorch и AITemplate. Люди там занимаются именно низкоуровневой оптимизацией.

Например, мы придумали новую архитектуру, какие-нибудь замудренные трансформеры с нестандартными блоками, и нужно, чтобы они быстро работали. Тут в первую очередь вступают в игру те люди, которые умеют в низко-уровневую оптимизацию и переписывают некоторые операции на CUDA. А вызовы нативных функций пайторча меняются на оптимизированные куда-кернелы. Это очень ценный скилл.

Еще одно применение CUDA программирования в зрении — это когда работаешь с нейронным рендрингом. Есть методы, которые полностью написаны на куде, например Instant-NGP. Либо наша статья VisCo Grids на NeurIPS 2022, где мы просто садились и писали все кернелы на CUDA для forward и backward pass нашей модели. Иначе все слишком медленно получалось. Обычным пайторчем там нельзя было обойтись.

В ноябре я рассказывал, что разговаривал с Matthias Nießner, который искал к себе в лабу в TUM студентов, которые знают CUDA, чтобы заниматься нейронным рендерингом. То есть и во время PhD это ценнейший скилл.

Я быстренько набросал небольшую статью со ссылками на материалы, которые я использовал в прошлом году, чтобы освоить CUDA программирование за неделю. Может кому пригодиться!

#карьера

@ai_newz
👍194🔥7425🙏1
Про боязнь доминации AGI

Действительно. Ян считает, что бояться нам нечего. Тем более, чтобы захватить контроль над человечеством, нужно этого хотеть. У людей желание доминировать сложилось эволюционно в результате того, что мы социальные существа.

У машины же такого желания быть не может, если мы его не заложим в нее. Все в наших руках.

Кстати, Юдковский не пропускает ни одного твита ЛеКуна 😁

@ai_newz
🔥100👍38👎203🌚1
Яндекс Браузер релизнул перевод видео с китайского на русский

Об особенностях китайского можно рассказывать долго: тут и множество диалектов, влияющие на смысл тоны, а также грамматические нюансы. Со всем этим разработчики Яндекс Браузера сталкивались впервые и по ходу обучения модели придумывали различные решения трудностей.

Проект выдался поистине уникальным, поскольку никто раньше не разбирал китайский язык в контексте перевода в реальном времени так детально — подробнее об этом можно прочитать в статье, написанной участником разработки.

@ai_newz
👍136👎32😁26🔥236❤‍🔥1
📑RedPajama: текстовый датасет на 1.2 триллиона токенов!

Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!

RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.

RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:

- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы

Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.

Блогпост
Скачать датасет

@ai_newz
🔥179👍1713🌭2🤔1
Media is too big
VIEW IN TELEGRAM
🚀Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
[CVPR 2023]

Кажется, этот год будет годом генерации видео!
Тут авторы Stable Diffusion постажировались в NVIDIA и выкатили Latent Diffusion для синтеза видео.

Со слов автора статьи и моего одногруппника Робина, важной частью тут является временной fine-tuning декодера для видео — он исправляет мерцающие артефакты, возникающие при наивном декодировании.

Кода и весов не будет, потому что это NVIDIA🌚. Так что наслаждайтесь примерами и ждем реиплементации от китайцев.

Сайт проекта

@ai_newz
🔥59👍10😢65🤯5❤‍🔥2😱1🤬1
😁138👍2🔥21
Что нужно ученому для счастья

Сегодня после обеда было паршивое настроение из-за XFN партнеров. Что я сделал? Взял самые лютые статейки по трактовке диффузионных моделей через дифференциальные уравнения (например, [ICLR21, NIPS22]) и закопался в теорию. Сразу такое приятное и теплое чувство окутало, и на душе полегчало. Так что читайте побольше статей, будьте добрее:)

#карьера
@ai_newz
117🥰25🐳13🤣11👍5🔥4👏4👎2
В индустрии сейчас есть тенденция на сближение фундаментальных ресерч команд с продуктовыми делами. AI уже не маленький пиздючок, который ничего без взрослых не может. Хватит играть в песочнице, пора бы и хлеб в дом приносить.

Теперь больше нет отдельной компании DeepMind, вчера она окончательно слилась с Google, где попала в состав бо‌льшой команды Google DeepMind, куда так же вошла и ресерч команда Google Brain. Я так понимаю, теперь ресерчеры будут ближе к продуктам, ближе к импакту.

Кроме того, Jeff Dean был назначен главным учёным всей компании (Google’s Chief Scientist), который стоит над всеми ресерчерами и докладывает напрямую CEO.

@ai_newz
👍8117🤔11😢5💯5😁4👎3🔥3❤‍🔥1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы только посмотрите какого малыша я встретил! ❤️

Стричь лужайку полагается в определенном порядке, и в этом ему помогает ChatGPT-4, сорян, ну уж точно нет! Юд, кстати, в ужасе.

Хайп настолько велик, что не удивляйтесь, если теперь будете видеть технику с наклейкой "ChatGPT внутри". Это все грязный маркетинг, но обыватель будет брать.

@ai_newz
😁4533👍8🌚8❤‍🔥1👎1🤔1🙏1
Scaling Transformer to 1M tokens and beyond with RMT

Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!

Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.

Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.

Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.

Код для BERT
Статья

@ai_newz
👍129🔥6419🤩9🤯1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Что у нас по SOTA self-supervised сетям для зрения?

Зарелизили DINOv2.

Это трансформер для картинок, который натренирован абсолютно без лейблов.

Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.

В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.

Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!

Блог
Код
Демо

@ai_newz
🔥135👍237🤩2🌭1
Про обобщение DINOv2 на другие задачи и трюки обучения

DINOv2 тренировалась на сбалансированном large-scale датасете, да ещё и без лейблов, то есть информация, на которой обучают сеть, не ограничена качеством текстовых аннотациями.

Авторы тут еще применили серию SOTA трюков для тренировки self-supervised моделей на картинках:
— Обучали одновременно и на целых изображениях и на патчах, чтобы учить сеть замечать более мелкие детали на изображениях
— Варьировали разрешение картинок во время тренировки
— Использовали регуляризатор, который максимизирует энтропию фичей внутри батча
— и несколько других трюков, про которые можно почитать в статье.

В итоге фичи DINOv2 хорошо показывают себя на ряде новых задач, например на предсказании глубины, сегментации и матчинге точек на парах изображений. Причем без всякого файнтюнинга. Просто берутся замороженные фичи DINOv2 и поверх них тренируется один линейный слой, которые решает новую задачу.

Конечно, можно и файнтюнить, если у вас данных достаточно.

@ai_newz
47🔥24👍14❤‍🔥2