эйай ньюз

В четверг, 13 апреля, в 15 по Лондону делаем аудио чат в этом канале вместе с Игорем планируем разбирать различные твиты и контр-твиты, вроде этого, где делаются следующие заявление:
Relax.

The industrial revolution changed every aspect of daily life for…

Хотите получить ценные знания из области машинного обучения и аналитики от эксперта и опытного менеджера? Рекомендую присоединиться к каналу Валеры Бабушкина @cryptovalerii

Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.

Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг

@ai_newz

Время Валеры

14.7K views18:00

April 9, 2023

Я протестил модельку Segment Anything у себя в браузере.

Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.

Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.

Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.

Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.

Демка тут.

@ai_newz

25.3K views06:01

April 10, 2023

Альтернативные интерфейсы для ChatGPT

Альтернативные интерфейсы для ChatGPT

Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.

Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.

Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.

Читать пост.

@ai_newz

Teletype

Вас тоже бесит, что на chat.openai.com нужно каждый день логинитсья заново? В последнее время я всегда держу ChatGPT открытой...

19.1K viewsedited 21:17

April 10, 2023

0:07

Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything

Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.

Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.

Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.

Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.

Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.

Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.

Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.

Код на гитхабе.

@ai_newz

17.6K views07:03

April 11, 2023

Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion. Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой…

Segment Anything + Stable Diffusion в Automatic1111

Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.

Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.

* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.

❱❱ Код расширения

17.8K views20:59

April 11, 2023

Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.

Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.

@ai_newz

Очередная крутая работа от OpenAI: Diffusion Models Beat GANs on Image Synthesis. SOTA для генерации картинок на ImageNet

Предлагается новый тип генеративных моделей — вероятностная модель диффузии (Diffusion Probabilistic Model), для краткости «диффузионная…

16.2K viewsedited 11:35

April 12, 2023

🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах

Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).

В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.

Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!

Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?


generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")

generatetext("Who is Shcmidhuber?")

Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.

*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.

Блогпост про Dolly 2.0

@ai_newz

60.8K viewsedited 09:16

April 13, 2023

Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где ~~разъебал~~ сильно улучшил 3D реконструкцию и рендеринг больших сцен.

Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.

В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.

Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.

Сайт проекта

Вот ещё ссылка на либу с GUI для разных нерфов

@ai_newz

18.5K views09:55

April 16, 2023

Kickstart in CUDA (by ai newz)

Насколько полезным сейчас является скилл программирования на CUDA? Если я хочу производительности для своих нейронок - достаточно ли пайторча? (Вопрос от подписчика)

CUDA - это довольно редкий скилл. И если ты умеешь программировать на CUDA, то без работы точно не останешься. Мало кто из ресерчеров умеет программировать на куде. А скилл очень полезный, например для оптимизирования кернелов и ускорения нейронных сеток. В больших компаниях (типа Меты) есть отдельные команды, которы умеют делать такую магию, например команды PyTorch и AITemplate. Люди там занимаются именно низкоуровневой оптимизацией.

Например, мы придумали новую архитектуру, какие-нибудь замудренные трансформеры с нестандартными блоками, и нужно, чтобы они быстро работали. Тут в первую очередь вступают в игру те люди, которые умеют в низко-уровневую оптимизацию и переписывают некоторые операции на CUDA. А вызовы нативных функций пайторча меняются на оптимизированные куда-кернелы. Это очень ценный скилл.

Еще одно применение CUDA программирования в зрении — это когда работаешь с нейронным рендрингом. Есть методы, которые полностью написаны на куде, например Instant-NGP. Либо наша статья VisCo Grids на NeurIPS 2022, где мы просто садились и писали все кернелы на CUDA для forward и backward pass нашей модели. Иначе все слишком медленно получалось. Обычным пайторчем там нельзя было обойтись.

В ноябре я рассказывал, что разговаривал с Matthias Nießner, который искал к себе в лабу в TUM студентов, которые знают CUDA, чтобы заниматься нейронным рендерингом. То есть и во время PhD это ценнейший скилл.

Я быстренько набросал небольшую статью со ссылками на материалы, которые я использовал в прошлом году, чтобы освоить CUDA программирование за неделю. Может кому пригодиться!

#карьера

@ai_newz

Telegraph

I will briefly give some links that I used to learn CUDA programming (disclaimer: I had only C and C++ background). Plus I provide a short conspect of some key definitions that are somewhat not always clear from the official the docs. List of tutorials that…

18.9K viewsedited 18:53

April 16, 2023

Про боязнь доминации AGI

Действительно. Ян считает, что бояться нам нечего. Тем более, чтобы захватить контроль над человечеством, нужно этого хотеть. У людей желание доминировать сложилось эволюционно в результате того, что мы социальные существа.

У машины же такого желания быть не может, если мы его не заложим в нее. Все в наших руках.

Кстати, Юдковский не пропускает ни одного твита ЛеКуна 😁

@ai_newz

16.6K viewsedited 11:17

April 17, 2023

Китайский язык очень сложный. Мы сделали для него перевод видео

Яндекс Браузер релизнул перевод видео с китайского на русский

Об особенностях китайского можно рассказывать долго: тут и множество диалектов, влияющие на смысл тоны, а также грамматические нюансы. Со всем этим разработчики Яндекс Браузера сталкивались впервые и по ходу обучения модели придумывали различные решения трудностей.

Проект выдался поистине уникальным, поскольку никто раньше не разбирал китайский язык в контексте перевода в реальном времени так детально — подробнее об этом можно прочитать в статье, написанной участником разработки.

@ai_newz

Хабр

Привет, меня зовут Артур Яковлев, я делаю голосовой перевод видео в Яндекс Браузере. Примерно с лета я работаю над тем, чтобы научить Браузер переводить с китайского на русский. Почему мы посчитали...

16.6K views18:00

April 17, 2023

📑RedPajama: текстовый датасет на 1.2 триллиона токенов!

Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!

RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.

RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:

- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы

Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.

Блогпост
Скачать датасет

@ai_newz

23.2K views20:35

April 17, 2023

🚀Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
[CVPR 2023]

Кажется, этот год будет годом генерации видео!
Тут авторы Stable Diffusion постажировались в NVIDIA и выкатили Latent Diffusion для синтеза видео.

Со слов автора статьи и моего одногруппника Робина, важной частью тут является временной fine-tuning декодера для видео — он исправляет мерцающие артефакты, возникающие при наивном декодировании.

Кода и весов не будет, потому что это NVIDIA🌚. Так что наслаждайтесь примерами и ждем реиплементации от китайцев.

Сайт проекта

@ai_newz

19.4K views13:37

April 19, 2023

Forwarded from Love. Death. Transformers.

16.8K views00:00

April 20, 2023

Что нужно ученому для счастья

Сегодня после обеда было паршивое настроение из-за XFN партнеров. Что я сделал? Взял

самые лютые статейки по трактовке диффузионных моделей через дифференциальные уравнения (например,

[ICLR21

, NIPS22

])

и закопался в теорию. Сразу такое приятное и теплое чувство окутало, и на душе полегчало. Так что читайте побольше статей, будьте добрее:)

#карьера
@ai_newz

17.7K viewsedited 18:37

April 20, 2023

Google DeepMind: Bringing together two world-class AI teams

В индустрии сейчас есть тенденция на сближение фундаментальных ресерч команд с продуктовыми делами. AI уже не маленький пиздючок, который ничего без взрослых не может. Хватит играть в песочнице, пора бы и хлеб в дом приносить.

Теперь больше нет отдельной компании DeepMind, вчера она окончательно слилась с Google, где попала в состав бо‌льшой команды Google DeepMind, куда так же вошла и ресерч команда Google Brain. Я так понимаю, теперь ресерчеры будут ближе к продуктам, ближе к импакту.

Кроме того, Jeff Dean был назначен главным учёным всей компании (Google’s Chief Scientist), который стоит над всеми ресерчерами и докладывает напрямую CEO.

@ai_newz

Google

We announced some changes that will accelerate our progress in AI and help us develop more capable AI systems more safely and responsibly.

16.6K viewsedited 09:53

April 21, 2023

0:36

Вы только посмотрите какого малыша я встретил! ❤️

Стричь лужайку полагается в определенном порядке, и в этом ему помогает ChatGPT-4,

сорян, ну уж точно нет

! Юд, кстати, в ужасе.

Хайп настолько велик, что не удивляйтесь, если теперь будете видеть технику с наклейкой "ChatGPT внутри". Это все грязный маркетинг, но обыватель будет брать.

@ai_newz

16.1K viewsedited 12:05

April 22, 2023