эйай ньюз
73.2K subscribers
1.62K photos
859 videos
7 files
1.93K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Нейродайджест за неделю (#4)

🖼 Google Research представил свою Text-to-Image модель Muse
Модель обучается по текстовому эмбеддингу из предобученной LM предсказываиб маскированные токены изображения. Главная фишка Muse - это скорость генерации изображений: Muse на порядок обходит Imagen и LDM.

🧔3D Avatar Diffusion
Майкрософт выпустил диффузионную модель, которая способна построить 3D аватар по одной фотографии человека.

🙈 Нейросеть от Tencent Different Dimension Me превращает фото в аниме
[Немного треша в посте]

🎱 Очередная Yolo, уже V8
Авторы из Ultralytics проведут онлайн-семинар, посвященный новой версии, 24 января на YouTube

🕵️‍♀️ Художники подали в суд на Stability AI и Midjourney за нелицензированное использовагие их работ
[Прыгнуть на пост]

👨‍🎨 InstructPix2Pix: Редактор изображений с помощью текста от исследователей из Беркли на базе диффузионных моделей (с кодом и демкой) [Подробнее]

☠️ Лэйофы в индустрии: Google увольняет 12 тысяч сотрудников, а Microsoft — 10 тысяч.

❱❱ Читать нейродайджест #3

@ai_newz
The Artificial Intelligence (AI) Residency Program

У Меты есть годовая программа AI Residency, на которой к вам приставят опытного ментора из числа ресерчеров, вы будете импелементить идеи и работать над научными публикациями и open-source проектами. То есть вас будут учить работе исследователя. Бэкраунгд в AI и Deep Learning не обязателен, но нужно иметь техническое образование.

Колобочки, это, кажется, лучшая возможность для тех, кто закончил бакалавриат или магу и хочет серьезно вкатиться в AI. По сути это своеобразные подготовительные курсы перед поступлением на профильное PhD. Если бы я знал в свое время о существовании таких программ, я бы точно не упустил ни одной возможности.

Подозреваю, что конкурс там будет не маленький, но я все равно рекомендую всем заинтересованным отправлять свои заявки.

Подать на программу в США можно тут до вечера 24 января.

@ai_newz
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Вы, наверное заметили, что про Ганы (GANs) для генерации картинок никто больше не говорит, они как-то отъехали на задний план после появления диффузионных моделей типа SD. Все потому что их трудно тренировать и они часто коллапсируют. Единственное преимущество у Ганов было только в том, что они генерят картинку за один прогон (forward pass), а не за десятки прогонов, как диффузионные модели.

Но вот на поляну вышел новый игрок от Ганов  -- StyleGAN-T. Это GAN для tex2image генерации, которые генерит достойные результаты, да еще и супер быстро (0.1 сек на картинку 512x512). Новая архитектура базируется на StyleGAN-XL, но переосмысливает дизайн генератора и дискриминатора и использует СLIP для alignment-а текстового промпта и сгенеренных картинок. См. архитектуру в посте ниже.

В общем, теперь StyleGAN-T генерит по тексту гораздо лучше, чем другие ганы и работает все очень быстро. Но, конечно о качестве полноразмерной модели SD там речи не идет, Ганы все еще всасывают. Но, думаю, все идет к тому, что через ~1 год мы сможем генерить супер качественные картинки по тексту за время в пределах 1 секунды. И будет это что-то среднее между Ганом и диффузионной моделью.

❱❱ Сайт проекта (код скоро будет)

@ai_newz
Архитектура StyleGAN-T. Много интересных трюков, как и в каждой статье по StyleGAN.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Всем привет! Я недавно писал про платный поисковик kagi.com, который использует большие языковые модели (LLM) типа GPT-3.

Так вот появился ещё один поисковик you.com, который обучил свою модель, похожую на ChatGPT и встроил ее прямо в поиск. То есть можно искать страницы как обычно по запросу, а можно напрямую общаться с ботом, и он вам будет отвечать, ссылаясь на релевантные ссылки.

Я потестил его, спросил про Шмидхубера. Ботик справился хорошо, даже указал на известную критику Юргена (он ведь временами любит обосрать других ресерчеров). Но, конечно, стиль и тон ответа очень зависит от запроса.

Пока этот поиск в бете, но любой желающий может его попробовать бесплатно.

Кажется, Гуглу все же придется провести скорую модернизацию своего поиска. Очень много конкурентов появляется в последнее время. А я проведу эксперимент и попробую одну неделю пользоваться только you, потом расскажу свои впечатления.

@ai_newz
🤬 Осторожно, нецензурщина!

Сегодня некий доброжелатель слил 44 гигов исходников разных продуктов Яндекса. Архив можно нагуглить, ссылку постить тут не буду.

Особо ничего полезного, свой Яндекс на коленке из этого снепшота не соберёшь, ведь очень много чего завязано на их инфру, да и код не полный.

Из занятного, там есть часть данных, на которых тренили, например Алису. На скринах стоп слова и всякие ругательства, которые, видимо, использовали чтобы "фильтровать базар" пользователей.

А теперь, представьте, что будет если дообучить LLM на этом богатстве и сделать матную Алису 2.0 без цензуры. Еще поставить такую у себя дома, чтобы гостей развлекала 😅.

@ai_newz
эйай ньюз
Photo
Ещё, кстати, данных для обучения всяких Copilot-ов прибавилось.
Нейродайджест за неделю (#5)

🤯 Бекенд исключительно на GPT: проект победителей scaleAI хакатона
Участники реализовали приложение со списком дел, где функциональную часть бекенда заменили промптами для GPT. Чтобы не использовать БД, предыдущее состояне списка добавляется к текушему промпту. В результатае возможно задавать эндпроинты как deleteAllTodosDealingWithFood() или sorttodosbyestimatedtime(), которые не были определены в коде.

🧑‍🏫 Лекция от Andrej Karpathy по имплементации GPT с нуля

🦖 Разбавим новости про GPT и диффузионне модели: StyleGAN-T
Работает хуже, чем диффузия, но быстро (~0.1c). ГАНы все еще в деле! [Прыгнуть на пост]

👩‍💻 cursor.so: IDE в которой интеграция с AI-ассистентом выходит на новый уровень
Глубоко интегрированная LLM позволяет задавать открытые текстовые запросы, задавать вопросы про уже написанный код, описывать требуемые изменения и многое другое.

📈 Модели от OpenAI теперь доступны в рамках Azure OpenAI Service. Microsoft продолжает интегрировать технологии OpenAI.

🎷 MusicLM: Модель от гугла для генерации музыки по текстовому запросу.
MusicLM может генерировать семплы длиной в несколько минут с гармоничным звучанием. Модель так же может стилизовать по текстовому запросу обычные напевы в диктофон. Кода нет, но есть примеры.

🎧 playlistAI: Приложение, которое генерит плейлисты для Spotify и Apple Music по текстовому запросу.

🧠 Новое поколение поисковиков набирает обороты.
Пока Гуглу пытается угнаться за ChatGPT, несколько новых поисковиков-стартапов уже интегрировали LLM в свои продукты. Говорить, что они перевернули игру еще рано, но уже можно затестить. [Прыгнуть на пост]

❱❱ Читать предыдущий нейродайджест

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Хорошие новости для представителей дизайнерских профессий. Теперь Stable Diffusion зашёл в Photoshop бесплатно (не то, что предыдущий плагин за $50/мес).

Более того новый плагин Stable.art ещё и в оупенсорсе и лежит на гитхабе. Плагин использует Automatic1111 как бекенд, который крутит сеть локально либо в Google Colab. Нужна только машина с GPU либо подписка на Коллаб.

@ai_newz
В проекте по анализу картин во время моего PhD мне нужно было парсить сайты музеев и краулить картинки с них. Я часто пытался расколупать какую-то API и мне приходилось реверсинженерить скрипты на javascript. Так вот теперь бы у меня было гораздо меньше боли, потому что ChatGPT заявляет свое превосходство.

На вход - обфусцированный жабасскрипт. На выходе - нормальный код с вменяемыми названиями переменных и функций.

Если на пальцах, то это работает, потому что сеть бьет все на токены, да еще и во время обучения на исходниках она учит инвариантность к названиям объектов. Ведь в коде важнее инструкции и их последовательность, а не то как называется переменная.

🌀Еще, вчера вышло обновление ChatGPT, в котором ей добавили знаний по математике.

#карьера

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Google Research, 2022 & beyond: Language, vision and generative models

Джефф Дин — это как раз тот чел из Гугла, который компилирует и запускает свой код перед коммитом, но только чтобы проверить на баги компилятор и CPU.

Так вот Джеф написал классный блогпост, подытоживающий, что же они там наделали за 2022 год в сфере языковых моделей, CV, мультимодальный моделей и генеративок. Хорошо для чтения на досуге.

@ai_newz
Гугл пытается выкатить на публику свою диалоговую систему LaMDA, очень уж ChatGPT хайпует. Можно записаться в вейтлист на получение доступа. Я уже жду.

Тем временем сегодня Сергей Брин в первые за годы закомитил код в прод. Совпадение?

@ai_newz
🥂🍾 Нас теперь 26.000!

Очень рад видеть, как нас становится все больше и больше – энтузиастов и экспертов в эйай. Значит я пишу не зря и вы находите мой контент полезным/интересным. А это очень мотивирует.

Для новеньких: Добро пожаловать в наше уютненькое сообщество! А вот в этом посте я рассказывал про себя, и чем я занимаюсь.

Кстати, я не забыл про обещанный стрим по разбору статьи. Давайте остановимся на папирах по зрению, т.к. в этой области у меня наиболее глубокая экспертиза.

Накидайте статей в комментариях, которые бы вы хотели, чтоб я разобрал. Я сделаю шорт-лист и проведем голосование.

@ai_newz
Stanford Webinar - GPT-3 & Beyond

Вчера посмотрел эту прелестную лекцию из Стенфорда о новейших Языковых моделях. Проф С. Potts очень классно дал общий обзор языковых моделей и быстренько рассказал, как мы докатились до таких чудес как, например, GPT-3 и ChatGPT. Затем он порассуждал о том, в каких подтемах NLP можно еще что-то привнести обычному смертному, если у вас нет миллионов долларов на обучение SOTA моделей.

И вот какие актуальные темы для рисерча:
🔵 Retrival augmented in-context learning (условно, как поженить поиск и LLM)
🔵 Создание лучших бенчмарков, датасетов
🔵 "Last mile" for productive apps: Адаптация огромных моделей для конечных приложений, упрощающих жизнь
🔵 Исследования в сторону объяснения и верификации результатов, выданных LLM (огромными языковыми моделями).

Сами они в научной группе этого профа, с его слов, почти перестали тренировать модели и, кажется, занимаются промт-инженирингом и докручиванием уже натренированных LLM по вышеуказанным направлениям.

Получилась не очень тяжелая, но очень вдохновляющая лекция! Может после этого вы захотите написать диссер в области NLP. Ну, либо создать стартап.

@ai_newz
Навеяло.

@ai_newz