Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
😱1
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548