Масштабируем трансформеры для компьютерного зрения до 22 млрд параметров.
Существует огромный резерв для улучшения возможностей наших моделей зрения, особенно учитывая уроки, которые мы извлекли из LLM. Авторы представляют ViT-22B, крупнейший на сегодняшний день backbone для компьютерного зрения.
Они делятся рецептом очень эффективного и стабильного обучения масштабных ViT с впечатляющими результатами. Авторы надеются вдохновить усилия по масштабированию моделей зрения и объединить высококлассные модели зрения с лучшими LLM, что станет важным шагом в развитии ИИ (всем бы еще их бюджет на вычисления выделили).
📖 Статья
Существует огромный резерв для улучшения возможностей наших моделей зрения, особенно учитывая уроки, которые мы извлекли из LLM. Авторы представляют ViT-22B, крупнейший на сегодняшний день backbone для компьютерного зрения.
Они делятся рецептом очень эффективного и стабильного обучения масштабных ViT с впечатляющими результатами. Авторы надеются вдохновить усилия по масштабированию моделей зрения и объединить высококлассные модели зрения с лучшими LLM, что станет важным шагом в развитии ИИ (всем бы еще их бюджет на вычисления выделили).
📖 Статья
ChatGPT показал высокие результаты в медицинском тесте (USMLE)
Мы недавно писали о BioGPT и вот ещё одна новость про LLM в медицине.
USMLE - это тест в США, который должны пройти врачи, чтобы получить разрешение на медицинскую практику.
ChatGPT набирал в нём в среднем 60%, что соответствует проходному баллу, и таким образом превзошёл предыдущую модель PubMedGPT, у которой в среднем было 50% (правда на другом датасете).
Но самое интересное то, что PubMedGPT была дообучена на медицинских корпусах, в то время как ChatGPT использовался как есть без дополнительных промтов.
Экзаменаторы также отметили высокую точность и корректные объяснения (правда на более сложных этапах теста частота таких ответов снижалась)
📖Статья
@karray
Мы недавно писали о BioGPT и вот ещё одна новость про LLM в медицине.
USMLE - это тест в США, который должны пройти врачи, чтобы получить разрешение на медицинскую практику.
ChatGPT набирал в нём в среднем 60%, что соответствует проходному баллу, и таким образом превзошёл предыдущую модель PubMedGPT, у которой в среднем было 50% (правда на другом датасете).
Но самое интересное то, что PubMedGPT была дообучена на медицинских корпусах, в то время как ChatGPT использовался как есть без дополнительных промтов.
Экзаменаторы также отметили высокую точность и корректные объяснения (правда на более сложных этапах теста частота таких ответов снижалась)
📖Статья
@karray
GLAZE - инструмент для "маскировки стиля"
Не успел утихнуть шум вокруг NoAI в сообществе художников, как подвезли способ “защитить” свой арт от копирования.
Мы уже много слышали об одежде, которая сделает вас невидимым для ИИ (и для беспилотных авто) и тут авторы используют похожий подход.
Идея проста - “маскировка” добавляет к изображениям незаметный глазу шум. При обучении на таких данных, модели вместо стиля “жертвы” (так авторы называют художников) будут учить ложные стили, заложенные в этот шум.
Вообще, авторы много внимание уделяют тому, что чуть ли не каждый пытается украсть у независимых художников их стиль и то время, которое они потратили на приобретение навыка, ушло в пустую, потому что каждый может сгенерировать арт в их стиле за секунды. Но они не затрагивают позитивную сторону - генеративные модели могут служить вдохновением или ассистентом для упрощения работы.
Прочитав интро этой статьи, любой художник, который не сильно разбирается в ИИ, обязательно захочет застраховаться. А между тем, такая “маскировка” может подложить свинью в датасеты, в то время как человечество стоит на пороге дефицита данных и это - плохая новость.
📜 Статья
@karray
Не успел утихнуть шум вокруг NoAI в сообществе художников, как подвезли способ “защитить” свой арт от копирования.
Мы уже много слышали об одежде, которая сделает вас невидимым для ИИ (и для беспилотных авто) и тут авторы используют похожий подход.
Идея проста - “маскировка” добавляет к изображениям незаметный глазу шум. При обучении на таких данных, модели вместо стиля “жертвы” (так авторы называют художников) будут учить ложные стили, заложенные в этот шум.
Вообще, авторы много внимание уделяют тому, что чуть ли не каждый пытается украсть у независимых художников их стиль и то время, которое они потратили на приобретение навыка, ушло в пустую, потому что каждый может сгенерировать арт в их стиле за секунды. Но они не затрагивают позитивную сторону - генеративные модели могут служить вдохновением или ассистентом для упрощения работы.
Прочитав интро этой статьи, любой художник, который не сильно разбирается в ИИ, обязательно захочет застраховаться. А между тем, такая “маскировка” может подложить свинью в датасеты, в то время как человечество стоит на пороге дефицита данных и это - плохая новость.
📜 Статья
@karray
GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
А теперь к техническим деталям. Предложенный подход был явно вдохновлен Adversarial Attack. Но в отличие от прямого вычисления градиента в сторону другого стиля, авторы используют предобученную диффузионную модель (ха-ха, обратим диффузию против себя) для трансформации стиля “жертвы” в ложный стиль (например, Пикассо).
Затем они извлекают эмбеддинги (например, используя предобученный VAE) из оригинала и измененного изображения и вычисляют нужный шум, минимизируя L2 норму между ними, сохраняя при этом визуальное сходство с оригиналом, используя LPIPS регуляризацию.
Таким образом можно локализовать специфичные признаки стиля в виде шума, который подмешивается к оригинальному изображению. Если мы зафайнтюним нашу модель на таких изображениях, при текстовом запросе “котик в стиле X” мы получим котика в стиле Y.
Авторы утверждают, что Adversarial Attack - не оптимальный подход, но между строк читается, что у них не хватило сил на тренировку классификатора стилей и ресурсов для вычисления градиент напрямую (диффузионные модели очень ресурсоёмкие).
Весь их пайплайн построен на предобученных моделях, что выглядит как выстрел в ногу, учитывая цель “маскировки”.
📜 Статья
@karray
А теперь к техническим деталям. Предложенный подход был явно вдохновлен Adversarial Attack. Но в отличие от прямого вычисления градиента в сторону другого стиля, авторы используют предобученную диффузионную модель (ха-ха, обратим диффузию против себя) для трансформации стиля “жертвы” в ложный стиль (например, Пикассо).
Затем они извлекают эмбеддинги (например, используя предобученный VAE) из оригинала и измененного изображения и вычисляют нужный шум, минимизируя L2 норму между ними, сохраняя при этом визуальное сходство с оригиналом, используя LPIPS регуляризацию.
Таким образом можно локализовать специфичные признаки стиля в виде шума, который подмешивается к оригинальному изображению. Если мы зафайнтюним нашу модель на таких изображениях, при текстовом запросе “котик в стиле X” мы получим котика в стиле Y.
Авторы утверждают, что Adversarial Attack - не оптимальный подход, но между строк читается, что у них не хватило сил на тренировку классификатора стилей и ресурсов для вычисления градиент напрямую (диффузионные модели очень ресурсоёмкие).
Весь их пайплайн построен на предобученных моделях, что выглядит как выстрел в ногу, учитывая цель “маскировки”.
📜 Статья
@karray
Вышел GitHub Copilot для бизнеса
GitHub Copilot - первый в мире масштабный инструмент для разработчиков ИИ, и теперь его предлагают каждому разработчику, команде, организации и предприятию.
Новые возможности:
* Более мощная модель искусственного интеллекта: Новые алгоритмы моделирования улучшают качество предложений по коду.
* Фильтрация уязвимостей безопасности на основе ИИ: GitHub Copilot автоматически обращает внимание на hardcoded учетные данные, SQL-инъекции и на кучу других опасных моментов.
* Поддержка VPN-прокси: GitHub Copilot работает с VPN, в том числе с самоподписанными сертификатами, поэтому разработчики могут использовать его в любой рабочей среде.
* Простая регистрация: Любая компания может быстро приобрести лицензии Copilot for Business онлайн и легко назначить места - даже если она не использует платформу GitHub для своего исходного кода.
Стоит эта радость 19$ за пользователя
Подробности тут
GitHub Copilot - первый в мире масштабный инструмент для разработчиков ИИ, и теперь его предлагают каждому разработчику, команде, организации и предприятию.
Новые возможности:
* Более мощная модель искусственного интеллекта: Новые алгоритмы моделирования улучшают качество предложений по коду.
* Фильтрация уязвимостей безопасности на основе ИИ: GitHub Copilot автоматически обращает внимание на hardcoded учетные данные, SQL-инъекции и на кучу других опасных моментов.
* Поддержка VPN-прокси: GitHub Copilot работает с VPN, в том числе с самоподписанными сертификатами, поэтому разработчики могут использовать его в любой рабочей среде.
* Простая регистрация: Любая компания может быстро приобрести лицензии Copilot for Business онлайн и легко назначить места - даже если она не использует платформу GitHub для своего исходного кода.
Стоит эта радость 19$ за пользователя
Подробности тут
Андрей Карпаты анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
Как должен себя вести AI?
OpenAI опубликовали блог-пост, в котором описывается поведение и процесс настройки и файнтюнинга системы искусственного интеллекта ChatGPT. Цель этого блог-поста - ответить на обоснованные опасения пользователей по поводу предвзятых, оскорбительных и неприемлемых результатов, а также разъяснить, как формируется и совершенствуется система ChatGPT.
Нейронная сеть проходит этап предварительного обучения для изучения грамматики, фактов и рассуждений, а затем подвергается файнтюнингу на более отобранном наборе данных.
В посте подчеркивается приверженность OpenAI к устранению предвзятости и прозрачности своей политики, а также приглашается общественность к участию в принятии решений. OpenAI изучает способы улучшения процесса и стремится обеспечить доступ, преимущества и влияние ИИ и AGI на благо всего человечества.
Блог-пост
OpenAI опубликовали блог-пост, в котором описывается поведение и процесс настройки и файнтюнинга системы искусственного интеллекта ChatGPT. Цель этого блог-поста - ответить на обоснованные опасения пользователей по поводу предвзятых, оскорбительных и неприемлемых результатов, а также разъяснить, как формируется и совершенствуется система ChatGPT.
Нейронная сеть проходит этап предварительного обучения для изучения грамматики, фактов и рассуждений, а затем подвергается файнтюнингу на более отобранном наборе данных.
В посте подчеркивается приверженность OpenAI к устранению предвзятости и прозрачности своей политики, а также приглашается общественность к участию в принятии решений. OpenAI изучает способы улучшения процесса и стремится обеспечить доступ, преимущества и влияние ИИ и AGI на благо всего человечества.
Блог-пост
ARTINA для определения стуктуры белка по МР спектру
Предсказывать структуру белка по последовательности, безусловно, важно. И бесценно "увидеть" эту структуру во время эксперимента.
Основным методом структурной биологии с коллекцией из более 11 800 белковых структур является уже знакомая ЯМР спектроскопия.
Ее мощные возможности ограничены, мягко говоря, утомительным процессом анализа данных.
ARTINA позволяет автоматизировать анализ спектров белка и занимает нескольких часов (после завершения измерений, что тоже очень небыстрая процедура).
Учёные из Цюриха, Франкфурта и Токио использовали целый арсенал МЛ инструментов:
детекция объектов pp-ResNet для определения положения пиков,
деконволюция deconv-ResNet для перекрывающихся сигналов,
оценка плотности KDE для реконструкции исходных положений пиков,
графы GNN для оценки химического сдвига,
деревья GBT для выбора структуры.
Теперь лаборатории могут сфокусировать усилия на подготовке образца и измерениях спектров.
🖲Код
🌐Сайт
📖Статья
@GingerSpacetail
Предсказывать структуру белка по последовательности, безусловно, важно. И бесценно "увидеть" эту структуру во время эксперимента.
Основным методом структурной биологии с коллекцией из более 11 800 белковых структур является уже знакомая ЯМР спектроскопия.
Ее мощные возможности ограничены, мягко говоря, утомительным процессом анализа данных.
ARTINA позволяет автоматизировать анализ спектров белка и занимает нескольких часов (после завершения измерений, что тоже очень небыстрая процедура).
Учёные из Цюриха, Франкфурта и Токио использовали целый арсенал МЛ инструментов:
детекция объектов pp-ResNet для определения положения пиков,
деконволюция deconv-ResNet для перекрывающихся сигналов,
оценка плотности KDE для реконструкции исходных положений пиков,
графы GNN для оценки химического сдвига,
деревья GBT для выбора структуры.
Теперь лаборатории могут сфокусировать усилия на подготовке образца и измерениях спектров.
🖲Код
🌐Сайт
📖Статья
@GingerSpacetail
Forwarded from DLStories
Краткий ликбез по self-supervised learning (SSL)
(под недавними постами несколько людей спрашивали, что это такое. Плюс, следующий пост тоже будет посвящен модельке для SSL)
В двух словах, self-supervised learning — это когда мы учим модельку понимать что-то о природе данных (или даже решать какие-то осмысленные задачи) на данных без разметки.
Подробнее:
Возьмем задачу классификации картинок. Обычно, чтобы научить модельку решать эту задачу, вам нужны данные вида (картинка, класс). То есть, нужно собрать датасет из кучи картинок, где каждая картинка размечена, т.е. к каждой картинке известен ответ: что на ней изображено. Обучение моделей на таких датасетах с разметкой называется supervised learning .
Собирать датасеты для supervised learning сложно, долго и дорого. Есть разные способы, как это делать. Самые распространенные — такие:
✔️ посадить живых людей размечать данные. Это позволяет получить довольно "чистый" датасет (без явных ошибок в разметке), но очень долгий и дорогой. А если вы хотите сэкономить и мало платить разметчикам, это может вызвать скандал. Вот с OpenAI недавно был: они платили всего $2 в час людям, которые выявляли "неподобающий" контент среди того, что генерирует ChatGPT;
✔️ собрать данные с разметкой из интернета автоматичеки. Например, для той же задачи классификации можно сделать так: вбиваем слово "песик" в гугл и скриптом скачиваем все выданные картинки. Этот подход намного проще и дешевле, чем первый, но у него тоже есть явные недостатки:
- данные получаются довольно "грязные". На запрос "песик" вы можете получить картинки далеко не милых собачек. Например, вот эта картинка выдалась мне на четвертой строке картинок в гугле по запросу "песик" =)
- данные в интернете могут быть защищены авторскими правами. Использование таких данных для обучения моделей, кхм, не приветствуется.
- этот способ подходит не для всех задач. Для классификации или генерации картинок по текстовому описанию понятно, как собрать датасет (см. LAION, на котором обучалась Stable Diffusion). А вот с сегментацией, например, все сильно сложнее.
Короче говоря, собрать датасеты с разметкой сложно. Поэтому активно развиваются исследования в области self-supervised learning. Это когда вы учите нейросеть на данных, к которым разметки нет.
Пример self-supervised learning — обучение языковых моделей типа GPT-3. Для них нужны просто куча текста и никакой разметки. Модель учится предсказывать следующий токен на основе предыдущих.
Надо сказать, что для задач, связанных с картинками, придумать self-supervised подходы довольно сложно. Что-то типа языковой модели не прокатит. Вот примеры SSL-подходов для картинок:
- делаем аугментации картинок из трейн сета (повороты, блюр, закрываем часть картинки и т.п.) и учим нейросеть выдавать одинковые ответы на одни и те же картинки, аугментированные разными способами;
- Masked AE: закрываем рандомные части картинок и учим автоэнкодер(AE) восстанавливать эти части.
При обучении подобным образом нейросеть начинает "понимать" что-то о природе картинок и объектов на них, и затем эти ее знания можно использовать в других задачах. Например, можно дообучить такую сеть на задачу классификации картинок. И для этого понадобится намного меньше размеченных данных, чем для обучения сети на эту задачу "с нуля". Про Masked AE я даже пост писала, вот тут.
На SSL, получается, еще можно смотреть так: SSL — это когда у вас есть неразмеченные данные, и вы на них придумываете псевдо-supervised задачу. Придумываете таким образом, чтобы сеть в процессе обучения выучила что-то полезное.
Ну и, стоит сказать, что есть подходы "между" supervised и self-supervised:
- semi-supervised learning. Это когда часть данных для задачи размечена, а часть — нет;
- weakly-supervised learning. Это когда данные размечены, но разметка очень "грязная" (слабая) или местами неполная.
Как-то так. В завершение рекомендую почитать этот пост про self-supervision в блоге Александра Дьяконова.
(под недавними постами несколько людей спрашивали, что это такое. Плюс, следующий пост тоже будет посвящен модельке для SSL)
В двух словах, self-supervised learning — это когда мы учим модельку понимать что-то о природе данных (или даже решать какие-то осмысленные задачи) на данных без разметки.
Подробнее:
Возьмем задачу классификации картинок. Обычно, чтобы научить модельку решать эту задачу, вам нужны данные вида (картинка, класс). То есть, нужно собрать датасет из кучи картинок, где каждая картинка размечена, т.е. к каждой картинке известен ответ: что на ней изображено. Обучение моделей на таких датасетах с разметкой называется supervised learning .
Собирать датасеты для supervised learning сложно, долго и дорого. Есть разные способы, как это делать. Самые распространенные — такие:
✔️ посадить живых людей размечать данные. Это позволяет получить довольно "чистый" датасет (без явных ошибок в разметке), но очень долгий и дорогой. А если вы хотите сэкономить и мало платить разметчикам, это может вызвать скандал. Вот с OpenAI недавно был: они платили всего $2 в час людям, которые выявляли "неподобающий" контент среди того, что генерирует ChatGPT;
✔️ собрать данные с разметкой из интернета автоматичеки. Например, для той же задачи классификации можно сделать так: вбиваем слово "песик" в гугл и скриптом скачиваем все выданные картинки. Этот подход намного проще и дешевле, чем первый, но у него тоже есть явные недостатки:
- данные получаются довольно "грязные". На запрос "песик" вы можете получить картинки далеко не милых собачек. Например, вот эта картинка выдалась мне на четвертой строке картинок в гугле по запросу "песик" =)
- данные в интернете могут быть защищены авторскими правами. Использование таких данных для обучения моделей, кхм, не приветствуется.
- этот способ подходит не для всех задач. Для классификации или генерации картинок по текстовому описанию понятно, как собрать датасет (см. LAION, на котором обучалась Stable Diffusion). А вот с сегментацией, например, все сильно сложнее.
Короче говоря, собрать датасеты с разметкой сложно. Поэтому активно развиваются исследования в области self-supervised learning. Это когда вы учите нейросеть на данных, к которым разметки нет.
Пример self-supervised learning — обучение языковых моделей типа GPT-3. Для них нужны просто куча текста и никакой разметки. Модель учится предсказывать следующий токен на основе предыдущих.
Надо сказать, что для задач, связанных с картинками, придумать self-supervised подходы довольно сложно. Что-то типа языковой модели не прокатит. Вот примеры SSL-подходов для картинок:
- делаем аугментации картинок из трейн сета (повороты, блюр, закрываем часть картинки и т.п.) и учим нейросеть выдавать одинковые ответы на одни и те же картинки, аугментированные разными способами;
- Masked AE: закрываем рандомные части картинок и учим автоэнкодер(AE) восстанавливать эти части.
При обучении подобным образом нейросеть начинает "понимать" что-то о природе картинок и объектов на них, и затем эти ее знания можно использовать в других задачах. Например, можно дообучить такую сеть на задачу классификации картинок. И для этого понадобится намного меньше размеченных данных, чем для обучения сети на эту задачу "с нуля". Про Masked AE я даже пост писала, вот тут.
На SSL, получается, еще можно смотреть так: SSL — это когда у вас есть неразмеченные данные, и вы на них придумываете псевдо-supervised задачу. Придумываете таким образом, чтобы сеть в процессе обучения выучила что-то полезное.
Ну и, стоит сказать, что есть подходы "между" supervised и self-supervised:
- semi-supervised learning. Это когда часть данных для задачи размечена, а часть — нет;
- weakly-supervised learning. Это когда данные размечены, но разметка очень "грязная" (слабая) или местами неполная.
Как-то так. В завершение рекомендую почитать этот пост про self-supervision в блоге Александра Дьяконова.
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
FROMAGe: самый простой способ сделать мультимодального чатбота
Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.
За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].
Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).
Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂
P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.
Статья, GitHub, блог
Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.
За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].
Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).
Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂
P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.
Статья, GitHub, блог
Connected Papers: визуализация связей академических работ
Читая научные работы часто бывает необходимо прыгать по источникам, чтобы понять контекст исследования или найти первоисточник. Кроме того, важно найти наиболее актуальные работы по теме.
Connected Papers позволяет искать научные статьи и создавать интерактивную визуализацию связей между ними. Алгоритм не строит обычное дерево цитирования, а создает граф из статей в соответствии с их сходством. Это позволяет находить статьи, которые не цитируют друг друга напрямую. Таким образом, получается обзор литературы как прошлых, так и будущих статей относительно оригинала.
Размер каждого узла в графе соответствует количеству цитирований, а цвет отражает дату публикации. Также, кликая по работам, можно прочитать абстракт.
Сервис условно бесплатный, но режим инкогнито никто не отменял 😉
🌐 Сайт
@karray
Читая научные работы часто бывает необходимо прыгать по источникам, чтобы понять контекст исследования или найти первоисточник. Кроме того, важно найти наиболее актуальные работы по теме.
Connected Papers позволяет искать научные статьи и создавать интерактивную визуализацию связей между ними. Алгоритм не строит обычное дерево цитирования, а создает граф из статей в соответствии с их сходством. Это позволяет находить статьи, которые не цитируют друг друга напрямую. Таким образом, получается обзор литературы как прошлых, так и будущих статей относительно оригинала.
Размер каждого узла в графе соответствует количеству цитирований, а цвет отражает дату публикации. Также, кликая по работам, можно прочитать абстракт.
Сервис условно бесплатный
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Earth&Climate Tech
Простая нейронная сеть для классификации зерен цикрона
Британские ученые (это еще мем?) соорудили нейронную сеть, основанную на древней, по меркам развития ИИ, нейронной сети VGG для автоматического определения типа магмы 🌋 по форме кристаллов циркона.
Для чего это нужно вообще? Циркон 💎 — распространенный минерал, встречающийся в горных породах, связанных с магматизмом. Цирконы могут иметь различные формы, размеры и внутреннюю структуру, которые отражают магматические условия, где кристаллизовался циркон. Вероятно цирконы, полученные из магм, связанных с медно-порфировыми месторождениями, экономически ценными источниками меди, могут иметь специфическую морфологию и текстуру. Авторы обучили модель глубокого обучения для классификации цирконов из медно-порфировых пород, которая способна распознавать края, зоны и включения в кристаллах циркона. Теперь их нейронную сеть можно использовать для идентификации цирконов, связанных с медно-порфировыми отложениями в тысячи раз эффективнее, чем сейчас.
Такой незамысловатый, но полезный пример автоматизации с помощью ИИ, который в принципе может сделать любой желающий.
Статья 📖
Британские ученые (это еще мем?) соорудили нейронную сеть, основанную на древней, по меркам развития ИИ, нейронной сети VGG для автоматического определения типа магмы 🌋 по форме кристаллов циркона.
Для чего это нужно вообще? Циркон 💎 — распространенный минерал, встречающийся в горных породах, связанных с магматизмом. Цирконы могут иметь различные формы, размеры и внутреннюю структуру, которые отражают магматические условия, где кристаллизовался циркон. Вероятно цирконы, полученные из магм, связанных с медно-порфировыми месторождениями, экономически ценными источниками меди, могут иметь специфическую морфологию и текстуру. Авторы обучили модель глубокого обучения для классификации цирконов из медно-порфировых пород, которая способна распознавать края, зоны и включения в кристаллах циркона. Теперь их нейронную сеть можно использовать для идентификации цирконов, связанных с медно-порфировыми отложениями в тысячи раз эффективнее, чем сейчас.
Такой незамысловатый, но полезный пример автоматизации с помощью ИИ, который в принципе может сделать любой желающий.
Статья 📖
Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers
Авторы предлагают новый класс линейных трансформеров, называемых Фурье-трансформерами (FLTs), которые используют преобразования Фурье для работы с относительным позиционным энкодингом (RPEs).
FLT строят оптимальный механизм RPE неявно, изучая его спектральное представление. FLT практичны с точки зрения использования памяти и не требуют дополнительных предположений о структуре RPE-маски. FLT позволяют также применять определенные методы структурного индуктивного смещения для определения стратегий маскирования, например, они обеспечивают способ обучения так называемым локальным RPE, представленным в данной работе, и обеспечивают прирост точности по сравнению с некоторыми другими линейныни трансфорерами для моделирования языка.
Авторы также тщательно протестировали FLT на других модальностях данных. Для 3D-данных FLT являются первыми архитектурами трансформеров, обеспечивающими линейное внимание с усилением RPE.
Ссылка
Авторы предлагают новый класс линейных трансформеров, называемых Фурье-трансформерами (FLTs), которые используют преобразования Фурье для работы с относительным позиционным энкодингом (RPEs).
FLT строят оптимальный механизм RPE неявно, изучая его спектральное представление. FLT практичны с точки зрения использования памяти и не требуют дополнительных предположений о структуре RPE-маски. FLT позволяют также применять определенные методы структурного индуктивного смещения для определения стратегий маскирования, например, они обеспечивают способ обучения так называемым локальным RPE, представленным в данной работе, и обеспечивают прирост точности по сравнению с некоторыми другими линейныни трансфорерами для моделирования языка.
Авторы также тщательно протестировали FLT на других модальностях данных. Для 3D-данных FLT являются первыми архитектурами трансформеров, обеспечивающими линейное внимание с усилением RPE.
Ссылка
Forwarded from DLStories
ControlNet, или как научить одну модельку генерить картинки на основе разных входных данных.
Ребята из Стенфорда придумали способ "обобщить" text-to-image модельки на генерацию на основе других видов входов (не только текста). То есть, научили одну модельку генерить картинки на основе:
- скетча;
- human pose;
- маски сегментации;
- карты глубины
- ...
Примеры генераций см. на первой картинке к посту. А вот какая идея у ControlNet:
Современные нейросети обычно имеют блочную структуру. Давайте возьмем предобученную нейросеть (например, Stable Diffusion — SD), и сделаем копию каждого блока этой сети. На вход сети-копии будет подаваться входная информация, на основе которой модель в итоге должна сгенерить картинку (т.е. скетч, human pose и т.п.).
Каждую блок-копию соединим с соответствующим ему блоком исходной сети (вторая картинка к посту). Соединим так: на вход блок-копия будет принимать сумму выхода предыдущего блока-копии и выхода предыдущего блока исходной сети. И далее выход блока-копии будет складываться с выходом соответствующего блока исходной сети и дальше течь по исходной сети.
На третьей картинке к посту показано, как будет выглядеть итоговое устройство модели (исходная сеть + сеть-копия) на примере U-Net из Stable Diffusion. Здесь авторы соединили соответствующие блоки двух копий сетей только в декодере U-Net. Это логично, потому что именно в декодере и происходит генерация картинки (точнее, в случае SD, ее латентного представления).
Ну и дальше, собственно, обучаем сеть-копию end-t-end. Подаем на вход сети-копии скетч/human pose/карту глубины/... и на выходе ожидаем картинку, сгенерированную в соответствии с этим скетчем/human pose/...
Вспомним еще, что Stable Diffusion — это text-to-image model. Поэтому на вход ContolNet можно подавать еще и текст, и тем самым чуть изменять вид получаемой картинки. Например, попросить "картинку на основе скетча в стиле Пикассо" или не просто черепашку, а "черепашку у реки" (см. первую картинку к посту)
Заметим, что исходная сеть (левая часть монстрика с третьей картинки) не обучается. Получается, задача сети-копии в такой модели — переработать информацию из входного скетча/карты глубины так, чтобы исходная предобученная сеть с помощью этой инфы смогла сгенерировать нужную картинку. То, что каждая блок-копия имеет доступ к выходу предыдущего блока исходной сети, помогает блоку-копии лучше переработать информацию для дальнейшего внедрения ее в исходную сеть.
Конечно, для обучения ControlNet понадобятся датасеты вида (скетч, картинка), (карта глубина, картинка) и т.д. Авторы статьи собрали несколько таких датасетов автоматическим способом. Т.е. использовали общедоступные инструмены для получения human pose/карт глубины по картинкам. Полученные датасеты получились небольшими, но ControlNet при этом не переобчается. Авторы утверждают, что это и есть одно из главных преимуществ ControlNet перед обычным дообучением исходной Stable Diffusion на каждую из задач в отдельности.
В завершение еще заметим, что идею ControlNet можно применить для совершенно разных моделей, а не только для Stable Diffusion .
Cсылки:
📄 Статья
🛠Код на GitHub
Ребята из Стенфорда придумали способ "обобщить" text-to-image модельки на генерацию на основе других видов входов (не только текста). То есть, научили одну модельку генерить картинки на основе:
- скетча;
- human pose;
- маски сегментации;
- карты глубины
- ...
Примеры генераций см. на первой картинке к посту. А вот какая идея у ControlNet:
Современные нейросети обычно имеют блочную структуру. Давайте возьмем предобученную нейросеть (например, Stable Diffusion — SD), и сделаем копию каждого блока этой сети. На вход сети-копии будет подаваться входная информация, на основе которой модель в итоге должна сгенерить картинку (т.е. скетч, human pose и т.п.).
Каждую блок-копию соединим с соответствующим ему блоком исходной сети (вторая картинка к посту). Соединим так: на вход блок-копия будет принимать сумму выхода предыдущего блока-копии и выхода предыдущего блока исходной сети. И далее выход блока-копии будет складываться с выходом соответствующего блока исходной сети и дальше течь по исходной сети.
На третьей картинке к посту показано, как будет выглядеть итоговое устройство модели (исходная сеть + сеть-копия) на примере U-Net из Stable Diffusion. Здесь авторы соединили соответствующие блоки двух копий сетей только в декодере U-Net. Это логично, потому что именно в декодере и происходит генерация картинки (точнее, в случае SD, ее латентного представления).
Ну и дальше, собственно, обучаем сеть-копию end-t-end. Подаем на вход сети-копии скетч/human pose/карту глубины/... и на выходе ожидаем картинку, сгенерированную в соответствии с этим скетчем/human pose/...
Вспомним еще, что Stable Diffusion — это text-to-image model. Поэтому на вход ContolNet можно подавать еще и текст, и тем самым чуть изменять вид получаемой картинки. Например, попросить "картинку на основе скетча в стиле Пикассо" или не просто черепашку, а "черепашку у реки" (см. первую картинку к посту)
Заметим, что исходная сеть (левая часть монстрика с третьей картинки) не обучается. Получается, задача сети-копии в такой модели — переработать информацию из входного скетча/карты глубины так, чтобы исходная предобученная сеть с помощью этой инфы смогла сгенерировать нужную картинку. То, что каждая блок-копия имеет доступ к выходу предыдущего блока исходной сети, помогает блоку-копии лучше переработать информацию для дальнейшего внедрения ее в исходную сеть.
Конечно, для обучения ControlNet понадобятся датасеты вида (скетч, картинка), (карта глубина, картинка) и т.д. Авторы статьи собрали несколько таких датасетов автоматическим способом. Т.е. использовали общедоступные инструмены для получения human pose/карт глубины по картинкам. Полученные датасеты получились небольшими, но ControlNet при этом не переобчается. Авторы утверждают, что это и есть одно из главных преимуществ ControlNet перед обычным дообучением исходной Stable Diffusion на каждую из задач в отдельности.
В завершение еще заметим, что идею ControlNet можно применить для совершенно разных моделей, а не только для Stable Diffusion .
Cсылки:
📄 Статья
🛠Код на GitHub
Forwarded from TechSparks
Вот и запрещенная в России Мета включилась в соревнование техногигантов “кто что крутого проанонсирует в области языковых моделей”: там дали исследователям доступ к трем версиям своей модели LLaMA, в 7, 13, 33 и 65 млрд. параметров.
Доступ дается только с исследовательскими целями; ни своих продуктов не анонсировано, ни другим делать нельзя.
Так оно намного спокойнее, но можно честно сказать, что доступ к относительно большим моделям они демократизировали ради науки и прогресса.
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
Доступ дается только с исследовательскими целями; ни своих продуктов не анонсировано, ни другим делать нельзя.
Так оно намного спокойнее, но можно честно сказать, что доступ к относительно большим моделям они демократизировали ради науки и прогресса.
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
Meta
Introducing LLaMA: A foundational, 65-billion-parameter language model
Today, we’re releasing our LLaMA (Large Language Model Meta AI) foundational model with a gated release. LLaMA is more efficient and competitive with previously published models of a similar size on existing benchmarks.
Snap добавил ИИ друга на основе chatGPT для платных подписчиков
После увольнения 20% сотрудников и закрытия ряда проектов в рамках реструктуризации бизнеса Snap, кажется, нашел способ поправить дела. Пока Microsoft пытается справиться со сложностями применения ChatGPT для поиска и в качестве серьезного исследовательского инструмента, Snapchat решил дать пользователям возможность использовать LLM как это сейчас делает большинство - для поболтать. Snap-воплощение ChatGPT называется My AI, имеет аватарку, не нагружен дисклеймерами о своих ограничениях и просто ждёт сообщения от пользователя, чтобы начать общение.
Реализован My AI через новую dev платформу Foundry, которую OpenAI недавно анонсировала для коммерческого доступа с высокой нагрузкой и тонкой настройкой GPT-3.5.
Насчёт тонкой настройки факт - My AI жёстко зафайнтьюнена на соблюдение всех возможных кодексов чести: от не говорить о политике до не помогать школьникам с домашкой.
Ок, а общение с ИИ конфиденциально?
💭Источник
@GingerSpacetail
После увольнения 20% сотрудников и закрытия ряда проектов в рамках реструктуризации бизнеса Snap, кажется, нашел способ поправить дела. Пока Microsoft пытается справиться со сложностями применения ChatGPT для поиска и в качестве серьезного исследовательского инструмента, Snapchat решил дать пользователям возможность использовать LLM как это сейчас делает большинство - для поболтать. Snap-воплощение ChatGPT называется My AI, имеет аватарку, не нагружен дисклеймерами о своих ограничениях и просто ждёт сообщения от пользователя, чтобы начать общение.
Реализован My AI через новую dev платформу Foundry, которую OpenAI недавно анонсировала для коммерческого доступа с высокой нагрузкой и тонкой настройкой GPT-3.5.
Насчёт тонкой настройки факт - My AI жёстко зафайнтьюнена на соблюдение всех возможных кодексов чести: от не говорить о политике до не помогать школьникам с домашкой.
Ок, а общение с ИИ конфиденциально?
💭Источник
@GingerSpacetail
Гайд по промпт инжинирингу
Инженерия подсказок - это относительно новая дисциплина для разработки и оптимизации подсказок (они же промпты) с целью эффективного использования языковых моделей для широкого спектра приложений.
Навыки инженерии подсказок помогают лучше понять возможности и ограничения больших языковых моделей (LLM) и как следствие лучше понять генеративные нейросети, которые рисуют картинки.
Исследователи используют инженерию подсказок для улучшения возможностей LLM в широком спектре обычных и сложных задач, таких как ответы на вопросы и арифметические рассуждения. Разработчики используют инженерию подсказок для разработки надежных и эффективных методов подсказки, которые взаимодействуют с LLM и другими инструментами.
Мотивированные высоким интересом к разработке с использованием LLM, авторы создали новое руководство по разработке подсказок, которое содержит все последние статьи, учебные пособия, лекции, ссылки и инструменты, связанные с разработкой подсказок.
👀 Ссылка
Инженерия подсказок - это относительно новая дисциплина для разработки и оптимизации подсказок (они же промпты) с целью эффективного использования языковых моделей для широкого спектра приложений.
Навыки инженерии подсказок помогают лучше понять возможности и ограничения больших языковых моделей (LLM) и как следствие лучше понять генеративные нейросети, которые рисуют картинки.
Исследователи используют инженерию подсказок для улучшения возможностей LLM в широком спектре обычных и сложных задач, таких как ответы на вопросы и арифметические рассуждения. Разработчики используют инженерию подсказок для разработки надежных и эффективных методов подсказки, которые взаимодействуют с LLM и другими инструментами.
Мотивированные высоким интересом к разработке с использованием LLM, авторы создали новое руководство по разработке подсказок, которое содержит все последние статьи, учебные пособия, лекции, ссылки и инструменты, связанные с разработкой подсказок.
👀 Ссылка
Forwarded from TechSparks
“All you need is love,” пели прекрасные Beatles, но у Microsoft иная песня: Language is not all you need. В работе с именно таким названием команда тамошних исследователей представила MLLM — мультимодальную большую языковую модель. Называется она Kosmos-1, и выглядит на первый взгляд действительно как “просто космос!”
Ей на вход можно подавать не только текст, но и картинки и аудио. Пример диалога на картинке здесь; в статье есть еще впечатляющие скриншоты. Приятно, что теперь можно будет общаться с алгоритмом, который умеет не только читать, но и видеть и слышать. Вскорости и рисовать его научат — понятно же, с кем скрещивать:)
Меня, конечно, впечатляет: за годы существования канала еще не было случая, чтоб крутейшие новости таким плотным и пока не собирающимся иссякать потоком поступали бы от Майкрософта. К чему бы это:)
Ей на вход можно подавать не только текст, но и картинки и аудио. Пример диалога на картинке здесь; в статье есть еще впечатляющие скриншоты. Приятно, что теперь можно будет общаться с алгоритмом, который умеет не только читать, но и видеть и слышать. Вскорости и рисовать его научат — понятно же, с кем скрещивать:)
Меня, конечно, впечатляет: за годы существования канала еще не было случая, чтоб крутейшие новости таким плотным и пока не собирающимся иссякать потоком поступали бы от Майкрософта. К чему бы это:)