Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
😱1
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548
В этой статье автор расскажет, что и в какой степени влияет на качество моделей, а также для дата-сайентистов приведет код Python, который был использован для получения картинок в задании.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.
Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.
Github: https://github.com/zhoudaquan/ChatAnything
Paper: https://arxiv.org/abs/2311.06772
Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py
Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.
Github: https://github.com/zhoudaquan/ChatAnything
Paper: https://arxiv.org/abs/2311.06772
Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py
Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.
Github: https://github.com/PKU-YuanGroup/Video-LLaVA
Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
Paper: https://arxiv.org/abs/2311.10122v1
Dataset: https://paperswithcode.com/dataset/mmbench
Github: https://github.com/PKU-YuanGroup/Video-LLaVA
Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
Paper: https://arxiv.org/abs/2311.10122v1
Dataset: https://paperswithcode.com/dataset/mmbench