TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты.
#Arxiv
#Arxiv
CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Предложенная модель решает задачу распознавания текста на изображении сцены как задачу мультиклассовой классификации изображения. По результатам экспериментов на 6 датасетах, CSTR выдает сравнимые с state-of-the-art подходами результаты.
#Arxiv
#Arxiv
PF-AFN — это нейросеть, которая генерирует изображения с примеркой одежды. Модель принимает на вход изображение человека и изображение предмета одежды. На выходе модель отдает изображение, на котором на целевую персону надет предмет одежды. Нейросеть обходит предыдущие подходы, которые основываются на модели сегментации частей человека.
#CV #Arxiv
#CV #Arxiv
TextFlint – это мультиязычная, многозадачная платформа для анализа устойчивости NLP-моделей. В открытом доступе для английского и китайского языков, другие языки разрабатываются.
#Development #Arxiv #NLP #Opensource
#Development #Arxiv #NLP #Opensource
StyleCLIP — это связка моделей CLIP и StyleGAN, предназначенная для управления стилем изображений при помощи текстового описания. Код в открытом доступе, включая блокноты Google Colab.
#AppliedDS #Arxiv
#AppliedDS #Arxiv
ArtFlow — это фреймворк для переноса стиля изображения без потерь с помощью обратимых нейронных потоков. Код в открытом доступе на Github.
#stateoftheart #arXiv #styletransfer #opensource
#stateoftheart #arXiv #styletransfer #opensource