This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN-T - ГАН жив!
Пик популярности ГАНов пришелся на 2020 год, а в январе следующего была представлена DALLE-2. С тех пор мы редко слышим о ГАНах, но это не значит, что исследования в этой области не ведутся - у старых (10 лет 😱) добрых ГАНов есть ряд преимуществ:
- менее ресурсоемкие
- быстрее обучить (хотя не без своих проблем)
- быстрый инференс
И главное на, мой взгляд - “распутанное” латентное пространство (об это в следующем посте). Это позволяет, напрмер, делать эффектный морфинг, как на видео.
Но проблема по сравнению с диффузными моделями - ГАНы не могут генерировать объекты из разных доменов. Например, одна и та же модель не сможет нормально генерировать котиков и людей.
На днях вышла новая статья, в которой авторы показывают, что большие ГАНы способны на это. За основу они вязли StyleGAN-XL, а вместо классов использовали ембеддинги из языковой модели, а точнее предварительно обученный CLIP ViT-L/14 в качестве текстового энкодера. Сама идея не нова, но объединив эти два подхода, им удалось добиться генерации разнообразных изображений по текстовому промту.
📜 Статья
👩💻 Код обещают
@karray
Пик популярности ГАНов пришелся на 2020 год, а в январе следующего была представлена DALLE-2. С тех пор мы редко слышим о ГАНах, но это не значит, что исследования в этой области не ведутся - у старых (10 лет 😱) добрых ГАНов есть ряд преимуществ:
- менее ресурсоемкие
- быстрее обучить (хотя не без своих проблем)
- быстрый инференс
И главное на, мой взгляд - “распутанное” латентное пространство (об это в следующем посте). Это позволяет, напрмер, делать эффектный морфинг, как на видео.
Но проблема по сравнению с диффузными моделями - ГАНы не могут генерировать объекты из разных доменов. Например, одна и та же модель не сможет нормально генерировать котиков и людей.
На днях вышла новая статья, в которой авторы показывают, что большие ГАНы способны на это. За основу они вязли StyleGAN-XL, а вместо классов использовали ембеддинги из языковой модели, а точнее предварительно обученный CLIP ViT-L/14 в качестве текстового энкодера. Сама идея не нова, но объединив эти два подхода, им удалось добиться генерации разнообразных изображений по текстовому промту.
📜 Статья
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN для извлечения скрытых признаков
Обучая генеративную модель создавать лица, мы имеем дело с очень большим многомерном пространством. Например, для изображения 16х16x1 (256 оттенков серого🤨 ) размер пространства будет 256 в степени 16х16. Но зачем нам столько пикселей, когда мы можем описать лица несколькими признаками (цвет глаз и волос, угол наклона головы)? Это и есть скрытые признаки, а задача StyleGAN - найти их.
Эти признаки, затем, могут быть использованы для различных задач - от классификации до кластеризации и самое замечательное в этом то, что каждый признак имеет семантическое значение (ноэтонеточно).
Но есть один момент: ГАНы не умеют в инверсию - это когда мы хотим обратить процесс и вместо генерации извлечь скрытые признаки из реальных изображений.
Есть несколько способов добиться этого и про один из них мы уже писали. Но на сколько хороша StyleGAN как экстрактор скрытых признаков? Ответ на этот вопрос вы найдётся в моем блоге.Как всегда - не все так однозначно.
PS: на гифке EditGAN.
📖 Пост
@karray
Обучая генеративную модель создавать лица, мы имеем дело с очень большим многомерном пространством. Например, для изображения 16х16x1 (256 оттенков серого
Эти признаки, затем, могут быть использованы для различных задач - от классификации до кластеризации и самое замечательное в этом то, что каждый признак имеет семантическое значение (ноэтонеточно).
Но есть один момент: ГАНы не умеют в инверсию - это когда мы хотим обратить процесс и вместо генерации извлечь скрытые признаки из реальных изображений.
Есть несколько способов добиться этого и про один из них мы уже писали. Но на сколько хороша StyleGAN как экстрактор скрытых признаков? Ответ на этот вопрос вы найдётся в моем блоге.
📖 Пост
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
ML для NMR spectroscopy
Одна из областей, где есть интересные МЛ задачи - спектроскопия ядерного магнитного резонанса (NMR spectroscopy). Да, физика, как в МРТ.
Зачем NMR в медицине:
⁃ количественная оценка продуктов обмена веществ
⁃ получение структуры белков, ДНК, РНК
⁃ анализ связываемости молекул
А значит, для:
▪️неинвазивной диагностики
▪️понимания патофизиологии заболеваний
▪️разработки лекарств
Где полезен МЛ:
1. Реконструкция полного спектра.
Спектр не непрерывная кривая, а выборка точек, реконструкция может приводить к потере информации
2. Денойзинг.
Идеально, если пики хорошо различимы, но сырые данные часто имеют низкий SND из-за перекрывающихся сигналов
3. Интерпретация спектра.
У опытного специалиста аннотация занимает до нескольких месяцев🥺
4. Объединение частотного и временного домена.
Т.к. дискретное преобразование Фурье может давать искажения
В следующих сериях - пробы, ошибки и достижения
P.S. В мире 300 000 MLE, а нужны миллионы. Велком в МЛ
🧲 Img из статьи
@GingerSpacetail
Одна из областей, где есть интересные МЛ задачи - спектроскопия ядерного магнитного резонанса (NMR spectroscopy). Да, физика, как в МРТ.
Зачем NMR в медицине:
⁃ количественная оценка продуктов обмена веществ
⁃ получение структуры белков, ДНК, РНК
⁃ анализ связываемости молекул
А значит, для:
▪️неинвазивной диагностики
▪️понимания патофизиологии заболеваний
▪️разработки лекарств
Где полезен МЛ:
1. Реконструкция полного спектра.
Спектр не непрерывная кривая, а выборка точек, реконструкция может приводить к потере информации
2. Денойзинг.
Идеально, если пики хорошо различимы, но сырые данные часто имеют низкий SND из-за перекрывающихся сигналов
3. Интерпретация спектра.
У опытного специалиста аннотация занимает до нескольких месяцев🥺
4. Объединение частотного и временного домена.
Т.к. дискретное преобразование Фурье может давать искажения
В следующих сериях - пробы, ошибки и достижения
P.S. В мире 300 000 MLE, а нужны миллионы. Велком в МЛ
🧲 Img из статьи
@GingerSpacetail
Про Dall-E и эстетику
Иглман [Stanford PHD] называет то, как генераторы изображений учатся и создают искусство, "карикатурной версией" того, как это делают люди. Во-первых, утверждает он, недостаточно просто создавать новые вещи. Чтобы быть полностью творческим, человек - или творческая машина - должен уметь фильтровать эти новые вещи и отбирать наиболее резонансные и значимые на основе человеческих критериев, говорит он. "DALL-E не может этого сделать. У него есть новизна, но нет фильтрации, избирательности", - говорит он. "Ему придется узнать, что такое быть человеком, прежде чем он сможет фильтровать на основе человеческих критериев, прежде чем он сможет понять, оценят ли люди тот или иной рисунок или почему".
Что-то подобное мы уже слышали про языковые модели, а оказалось что RLHF (reinforcement Learning with human feedback) это именно то самое недостающее звено. Думаю что Stability уже наняли толпу кенийцев-арт студентов для разметки и ранжирования.
Статья
Иглман [Stanford PHD] называет то, как генераторы изображений учатся и создают искусство, "карикатурной версией" того, как это делают люди. Во-первых, утверждает он, недостаточно просто создавать новые вещи. Чтобы быть полностью творческим, человек - или творческая машина - должен уметь фильтровать эти новые вещи и отбирать наиболее резонансные и значимые на основе человеческих критериев, говорит он. "DALL-E не может этого сделать. У него есть новизна, но нет фильтрации, избирательности", - говорит он. "Ему придется узнать, что такое быть человеком, прежде чем он сможет фильтровать на основе человеческих критериев, прежде чем он сможет понять, оценят ли люди тот или иной рисунок или почему".
Что-то подобное мы уже слышали про языковые модели, а оказалось что RLHF (reinforcement Learning with human feedback) это именно то самое недостающее звено. Думаю что Stability уже наняли толпу кенийцев-арт студентов для разметки и ранжирования.
Статья
You Only Need a Good Embeddings Extractor to Fix Spurious Correlations
Ложные корреляции в обучающих данных часто приводят к потере надежности, поскольку модели учатся использовать их в качестве подсказок при выборе ответа. Например, при предсказании того, является ли объект коровой, модель может научиться полагаться на его зеленый фон, поэтому будет плохо работать с коровой на песчаном фоне.
В этой работе авторы из Meta показывают, что могут достичь точности до 90% без использования какой-либо информации о подгруппах в обучающем наборе, просто используя эмбеддинги из большого предварительно обученного экстрактора модели зрения и обучая линейный классификатор поверх него.
Оказалось, мощность модели предварительного обучения и размер набора данных для предварительного обучения имеют значение. Их эксперименты показывают, что трансформеры работают лучше сверточных сетей, а больший набор данных для предварительного обучения приводит к улучшению точности на наборе данных с ложными корреляциями.
🐄 Статья
Ложные корреляции в обучающих данных часто приводят к потере надежности, поскольку модели учатся использовать их в качестве подсказок при выборе ответа. Например, при предсказании того, является ли объект коровой, модель может научиться полагаться на его зеленый фон, поэтому будет плохо работать с коровой на песчаном фоне.
В этой работе авторы из Meta показывают, что могут достичь точности до 90% без использования какой-либо информации о подгруппах в обучающем наборе, просто используя эмбеддинги из большого предварительно обученного экстрактора модели зрения и обучая линейный классификатор поверх него.
Оказалось, мощность модели предварительного обучения и размер набора данных для предварительного обучения имеют значение. Их эксперименты показывают, что трансформеры работают лучше сверточных сетей, а больший набор данных для предварительного обучения приводит к улучшению точности на наборе данных с ложными корреляциями.
🐄 Статья
С математикой вроде и впрямь стало лучше, с фактами - нет. Модель галлюцинирует как и прежде
👉 Играть тут
👉 Играть тут
Вы наверное слышали, что OpenAI стали добавлять скрытый watermark к своим NLP продуктам (GPT-3, ChatGPT и тд). Если вы думали что они это делают, потому что они добрые и заботливые - подумайте еще.
На самом деле они это делают, что бы не учить свои сети на своем же сгенерированном мусоре.
На самом деле они это делают, что бы не учить свои сети на своем же сгенерированном мусоре.
Forwarded from Бэкдор
Московский студент защитил диплом, написанный ChatGPT. Нейронка одолела десятки запросов с кустарным переводом из Яндекса, отсортировала весь материал с источниками и подбила выводы.
ChatGPT не справился только с методичкой ВУЗа на 100 страниц, но такое и не каждому человеку под силу. Суммарно студент потратил 23 часа.
А теперь внимание, финальный результат: 82% уникальности. Из минусов: на защите комиссия отметила «нетрадиционную» организацию в дипломе, но за это пока не сажают.
Российский государственный гуманитарный университет, передаём вам привет! А студента поздравляем!
@whackdoor
ChatGPT не справился только с методичкой ВУЗа на 100 страниц, но такое и не каждому человеку под силу. Суммарно студент потратил 23 часа.
А теперь внимание, финальный результат: 82% уникальности. Из минусов: на защите комиссия отметила «нетрадиционную» организацию в дипломе, но за это пока не сажают.
Российский государственный гуманитарный университет, передаём вам привет! А студента поздравляем!
@whackdoor
Forwarded from Earth&Climate Tech
Использование цветовой палитры в научных исследованиях
На протяжении многих лет при построении карт и моделей я использовал радужную цветовую палитру 🌈. Несмотря на то, что радужные цветовые палитры могут быть эстетически привлекательными, экстремальные значения в стандартном красно-зелено-синем (RGB) преобладают и, следовательно, могут отвлекать от основного визуального сообщения. На иллюстрациях с такой палитрой желтый цвет является самым ярким и больше всего привлекает внимание, но он не находится ни в конце, ни в центре цветовой карты. Такое расположение цветов может некорректно выделять одну часть пространства и скрывать другую. Кроме того радужные палитры, значительно меняют то, как мы воспринимаем данные. Они добавляют искусственные границы к некоторым частям диапазона данных, скрывая небольшие вариации в других частях. Радужная карта нарушает любой визуальный интуитивный порядок, и делает данные "нечитаемыми" для читателей с нарушениями цветового зрения.
Некоторое время я отвыкал от радужных карт при построении моделей, и сейчас вообще их не использую. По этому поводу есть прекрасная статья в Nature, в которой подробно описывается почему радужные карты это не гуд. Хотя я прекрасно понимаю людей, которым тяжело отвыкнуть от их использования.
На протяжении многих лет при построении карт и моделей я использовал радужную цветовую палитру 🌈. Несмотря на то, что радужные цветовые палитры могут быть эстетически привлекательными, экстремальные значения в стандартном красно-зелено-синем (RGB) преобладают и, следовательно, могут отвлекать от основного визуального сообщения. На иллюстрациях с такой палитрой желтый цвет является самым ярким и больше всего привлекает внимание, но он не находится ни в конце, ни в центре цветовой карты. Такое расположение цветов может некорректно выделять одну часть пространства и скрывать другую. Кроме того радужные палитры, значительно меняют то, как мы воспринимаем данные. Они добавляют искусственные границы к некоторым частям диапазона данных, скрывая небольшие вариации в других частях. Радужная карта нарушает любой визуальный интуитивный порядок, и делает данные "нечитаемыми" для читателей с нарушениями цветового зрения.
Некоторое время я отвыкал от радужных карт при построении моделей, и сейчас вообще их не использую. По этому поводу есть прекрасная статья в Nature, в которой подробно описывается почему радужные карты это не гуд. Хотя я прекрасно понимаю людей, которым тяжело отвыкнуть от их использования.
Nature
The misuse of colour in science communication
Nature Communications - The accurate representation of data is essential in science communication, however, colour maps that visually distort data through uneven colour gradients or are unreadable...
Как Viridis стала палитрой по умолчанию
И ещё про цветовые карты - это важная тема, т.к. правильная палитра позволяет увидеть структуры в сырых данных.
Долгое время в matplotlib палитрой по умолчанию была JET (радуга), но, начиная с версии 2.0, используется Viridis. При её разработке (которая была PhD работой) основными требованиями были:
- перцептивная однородность (даже в ч/б)
- доступность для людей с цветовой слепотой
Viridis была разработан так, чтобы цвета были равномерно распределёнными в цветовом пространстве - схожие значения представлены похожими цветами, но при этом достаточно отчётливыми даже в ч/б и для людей с цветовой слепотой.
JET не соответствует этим требованиям - некоторые цвета превалируют больше других, что может привести к неверной интерпретации данных.
Рекомендую посмотреть видео, которое за 20 минут весело и задорно расскажет о теории цвета, а также полистать пост с более подробной информацией. А в качестве бонуса вот вам инструмент для создания собственной палитры.
🎞 Видео
🌐 Пост
@karray
И ещё про цветовые карты - это важная тема, т.к. правильная палитра позволяет увидеть структуры в сырых данных.
Долгое время в matplotlib палитрой по умолчанию была JET (радуга), но, начиная с версии 2.0, используется Viridis. При её разработке (которая была PhD работой) основными требованиями были:
- перцептивная однородность (даже в ч/б)
- доступность для людей с цветовой слепотой
Viridis была разработан так, чтобы цвета были равномерно распределёнными в цветовом пространстве - схожие значения представлены похожими цветами, но при этом достаточно отчётливыми даже в ч/б и для людей с цветовой слепотой.
JET не соответствует этим требованиям - некоторые цвета превалируют больше других, что может привести к неверной интерпретации данных.
Рекомендую посмотреть видео, которое за 20 минут весело и задорно расскажет о теории цвета, а также полистать пост с более подробной информацией. А в качестве бонуса вот вам инструмент для создания собственной палитры.
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Dreamix: Video Diffusion Models (VDM) as General Video Editors
Представлен новый метод видеомонтажа на базе предобученной Imagen-Video.
Imagen-Video - это каскадная VDM, которая состоит из текстового энкодера, базовой VDM модели с низким разрешением, 3 spatial super-resolution (SSR) для апскейла и 3 temporal superresolution для создания промежуточных кадров.
Это работает так: оригинальное видео даунсемплится с добавлением шума и скармливается вместе с промтом базовой VDM с низким разрешением для генерации основной темы. Для повышения качества Imagen-Video (базовая модель и первые два SSR) файнтюниться на оригинальном видео с использованием несуществующего слова для промта, а потом на неупорядоченных кадрах (с заморозкой temporal слоев) - это позволяет ей запоминать детали в высоком разрешении из оригинального видео. Далее, видео с низким качеством апскейлить оставшимися моделями.
В качестве бонуса этот метод также можно использовать для анимации статических изображений.
📜 Статья
👩💻 Сайт с примерами
@karray
Представлен новый метод видеомонтажа на базе предобученной Imagen-Video.
Imagen-Video - это каскадная VDM, которая состоит из текстового энкодера, базовой VDM модели с низким разрешением, 3 spatial super-resolution (SSR) для апскейла и 3 temporal superresolution для создания промежуточных кадров.
Это работает так: оригинальное видео даунсемплится с добавлением шума и скармливается вместе с промтом базовой VDM с низким разрешением для генерации основной темы. Для повышения качества Imagen-Video (базовая модель и первые два SSR) файнтюниться на оригинальном видео с использованием несуществующего слова для промта, а потом на неупорядоченных кадрах (с заморозкой temporal слоев) - это позволяет ей запоминать детали в высоком разрешении из оригинального видео. Далее, видео с низким качеством апскейлить оставшимися моделями.
В качестве бонуса этот метод также можно использовать для анимации статических изображений.
📜 Статья
👩💻 Сайт с примерами
@karray
{скромные} успехи в NMR spectroscopy
Опытный специалист может по МР спектру определить, какие химические соединения были в 🧪образце. Но это занимает чудовищное количество времени.
Авторы статьи (в т.ч. разработчики популярной MestreLab) подошли к проблеме как к задаче компьютерного зрения. Взяли несколько классов (липиды, нуклеотиды и тд) и применили четыре подхода:
Image similarities
Гипотеза: изображения спектров внутри классов близки.
Проверили MobileNetV2 с евклидовым расстоянием, ORB feature matching и Structural Similarity Index (SSIM) и ничего не получили.
Image registration
Гипотеза: для спектров из одного класса нужно минимум преобразований, чтобы их совместить.
Использовали VoxelMorph и тоже ничего не получили.
Кластеризация
Гипотеза: горшочек, вари уже.
Применили VGG16 для feature extraction + PCA + k-means для разбивки на 9 кластеров. Тоже не вышло.
Классификация
Натренировали CNN и получили точность ~60%. Это хотя бы proof-of-concept.
Го помогать ученым?
📖Статья
🧑🔬Код
@GingerSpacetail
Опытный специалист может по МР спектру определить, какие химические соединения были в 🧪образце. Но это занимает чудовищное количество времени.
Авторы статьи (в т.ч. разработчики популярной MestreLab) подошли к проблеме как к задаче компьютерного зрения. Взяли несколько классов (липиды, нуклеотиды и тд) и применили четыре подхода:
Image similarities
Гипотеза: изображения спектров внутри классов близки.
Проверили MobileNetV2 с евклидовым расстоянием, ORB feature matching и Structural Similarity Index (SSIM) и ничего не получили.
Image registration
Гипотеза: для спектров из одного класса нужно минимум преобразований, чтобы их совместить.
Использовали VoxelMorph и тоже ничего не получили.
Кластеризация
Гипотеза: горшочек, вари уже.
Применили VGG16 для feature extraction + PCA + k-means для разбивки на 9 кластеров. Тоже не вышло.
Классификация
Натренировали CNN и получили точность ~60%. Это хотя бы proof-of-concept.
Го помогать ученым?
📖Статья
🧑🔬Код
@GingerSpacetail
This media is not supported in your browser
VIEW IN TELEGRAM
RunWay ML выпустили Video-to-Video
RunWay ML - стартап, который можно описать как Голливуд для бедных (с AI и другими радостями машинного обучения) - выпустили нейросеть, которая может стилизовывать видео. И что круто, без всяких подергиваний и кислотного трипа.
Модель называется Gen-1 (про нее рассказывают начиная с 38 секунды видео), что намекает нам на то, что со временем качество будет только улучшаться. Пока модель в бета-тесте, подать заявку на ее использование можно тут.
🎥 Сайт продукта
RunWay ML - стартап, который можно описать как Голливуд для бедных (с AI и другими радостями машинного обучения) - выпустили нейросеть, которая может стилизовывать видео. И что круто, без всяких подергиваний и кислотного трипа.
Модель называется Gen-1 (про нее рассказывают начиная с 38 секунды видео), что намекает нам на то, что со временем качество будет только улучшаться. Пока модель в бета-тесте, подать заявку на ее использование можно тут.
🎥 Сайт продукта
Мое предположение: Bard умеет оценивать собственную уверенность в ответах (скорее всего через какой нибудь sampling uncertainty, типа masksembles)
Вот это чел только uncertainties и robustness занимается
https://twitter.com/dustinvtran/status/1622720476002021376?s=46&t=A6lQj2TZZX1Rh1hZ2hfqSA
P.S.: хотя я бы его Bart лучше назвал, можно было бы шкодливость некую оправдать
Вот это чел только uncertainties и robustness занимается
https://twitter.com/dustinvtran/status/1622720476002021376?s=46&t=A6lQj2TZZX1Rh1hZ2hfqSA
P.S.: хотя я бы его Bart лучше назвал, можно было бы шкодливость некую оправдать
Twitter
Official Bard announcement! Team has been hard at work (myself humbly included). Excited to release and share more details soon.
BioGPT - SOTA модель для четырех биомедицинских NLP задач
О главном: нет, BioGPT не напишет вместо вас научную статью.
BioGPT - большая языковая модель от Microsoft с архитектурой GPT-2-medium, у BioGPT-large в основе GPT-2 XL.
Pretraining: модели обучены с нуля на 15-миллионном корпусе абстрактов PubMed.
Словарный запас: специфичен для биомедицинского домена и справляется с терминологией, даже если это редко используемые аббревиатуры в духе R2-D2🤖 и C3-PO🟡🤖
Fine-tuning: можно решать задачи сквозного извлечения связей, ответов на вопросы (как в PubMedQA), классификации документов (например, по ныне известным 10 признакам рака) и очень ограниченно - для генерации текста.
Теперь это SOTA модель для:
извлечения связей между
▪️лекарством и биологической целью
▪️патологией и ее биохимией
▪️лекарствами
и ответов на вопросы (точность BioGPT-large 81%), но требует промпта в формате <вопрос>, <контекст>, <цель>.
Btw, генерации (и галлюцинации) очень релевантные
📖Статья
🤗 Модели (демо, QA)
@GingerSpacetail
О главном: нет, BioGPT не напишет вместо вас научную статью.
BioGPT - большая языковая модель от Microsoft с архитектурой GPT-2-medium, у BioGPT-large в основе GPT-2 XL.
Pretraining: модели обучены с нуля на 15-миллионном корпусе абстрактов PubMed.
Словарный запас: специфичен для биомедицинского домена и справляется с терминологией, даже если это редко используемые аббревиатуры в духе R2-D2🤖 и C3-PO🟡🤖
Fine-tuning: можно решать задачи сквозного извлечения связей, ответов на вопросы (как в PubMedQA), классификации документов (например, по ныне известным 10 признакам рака) и очень ограниченно - для генерации текста.
Теперь это SOTA модель для:
извлечения связей между
▪️лекарством и биологической целью
▪️патологией и ее биохимией
▪️лекарствами
и ответов на вопросы (точность BioGPT-large 81%), но требует промпта в формате <вопрос>, <контекст>, <цель>.
Btw, генерации (и галлюцинации) очень релевантные
📖Статья
🤗 Модели (демо, QA)
@GingerSpacetail
Трансформер для универсальной сегментации картинок
Авторы предлагают использовать OneFormer, универсальную систему сегментации изображений, которая объединяет сегментацию с многозадачным обучением.
Сначала они тренируют сетку на ground truth каждой области (семантическая, инстансная и паноптическая сегментация) в рамках одного многозадачного процесса обучения.
Затем добавляют специальный токен для каждой задачи, что позволяет сделать модель динамичной и многозадачной.
После этого используют контрастный лосс между запросом и текстом во время обучения, чтобы установить лучшие межзадачные и межклассовые различия.
Примечательно, что OneFormer превосходит специализированные модели Mask2Former во всех трех задачах сегментации на ADE20k, Cityscapes и COCO, несмотря на то, что последняя обучалась на каждой из трех задач отдельно с использованием в три раза большего количества ресурсов.
📙 Статья
🐙 Проект
Авторы предлагают использовать OneFormer, универсальную систему сегментации изображений, которая объединяет сегментацию с многозадачным обучением.
Сначала они тренируют сетку на ground truth каждой области (семантическая, инстансная и паноптическая сегментация) в рамках одного многозадачного процесса обучения.
Затем добавляют специальный токен для каждой задачи, что позволяет сделать модель динамичной и многозадачной.
После этого используют контрастный лосс между запросом и текстом во время обучения, чтобы установить лучшие межзадачные и межклассовые различия.
Примечательно, что OneFormer превосходит специализированные модели Mask2Former во всех трех задачах сегментации на ADE20k, Cityscapes и COCO, несмотря на то, что последняя обучалась на каждой из трех задач отдельно с использованием в три раза большего количества ресурсов.
📙 Статья
🐙 Проект
Transformers learn in-context by gradient descent
Трансформеры стали самой современной архитектурой нейронных сетей во многих областях машинного обучения. Отчасти это объясняется их выдающейся способностью к контекстному обучению на небольшом количестве примеров. Тем не менее, механизмы, с помощью которых трансформеры становятся обучаемыми в контексте, недостаточно хорошо изучены.
Авторы исследования утверждают, что обучение трансформеров на авторегрессионных задачах может быть тесно связано с известными формулами метаобучения на основе градиента.
Они начинают с простой конструкции весов, которая показывает эквивалентность преобразований данных, вызванных 1) одним линейным слоем self-attention и 2) градиентным спуском (GD) на регрессионных потерях.
В статье показывают, как обученные трансформеры реализуют градиентный спуск в своем прямом проходе. Это позволяет понять внутреннюю работу оптимизированных трансформеров, которые обучаются в контексте.
📖 Статья
Трансформеры стали самой современной архитектурой нейронных сетей во многих областях машинного обучения. Отчасти это объясняется их выдающейся способностью к контекстному обучению на небольшом количестве примеров. Тем не менее, механизмы, с помощью которых трансформеры становятся обучаемыми в контексте, недостаточно хорошо изучены.
Авторы исследования утверждают, что обучение трансформеров на авторегрессионных задачах может быть тесно связано с известными формулами метаобучения на основе градиента.
Они начинают с простой конструкции весов, которая показывает эквивалентность преобразований данных, вызванных 1) одним линейным слоем self-attention и 2) градиентным спуском (GD) на регрессионных потерях.
В статье показывают, как обученные трансформеры реализуют градиентный спуск в своем прямом проходе. Это позволяет понять внутреннюю работу оптимизированных трансформеров, которые обучаются в контексте.
📖 Статья
Новый клип Linkin Park нарисовала нейросеть.
Нейросеть нарисовала клип на до этого неизданную песню Linkin Park.
В кредитах к клипу указан целый отдел AI production. Вот так вот неожиданно будущее добралось даже до самого духа предыдущего поколения.
Клип
Нейросеть нарисовала клип на до этого неизданную песню Linkin Park.
В кредитах к клипу указан целый отдел AI production. Вот так вот неожиданно будущее добралось даже до самого духа предыдущего поколения.
Клип
YouTube
Lost [Official Music Video] - Linkin Park
Watch the official music video for Lost by Linkin Park from the album Meteora|20.
----------
From Zero | The New Album | Available Now
Order Now: https://lprk.co/fromzero
Official Linkin Park Merch: https://lprk.co/store
Text/Call: https://lprk.co/text
Newsletter…
----------
From Zero | The New Album | Available Now
Order Now: https://lprk.co/fromzero
Official Linkin Park Merch: https://lprk.co/store
Text/Call: https://lprk.co/text
Newsletter…