BIG-EX | Machine Learning, Big Data & Data Science
1.25K subscribers
953 photos
941 links
Публикуем лучший материал по Machine Learning, Big Data, Data Science, Искусственному интеллекту и не только!

Купить рекламу:
@oksi_young

Положительный отзыв на telega.in - 1 реклама 1/24 бесплатно.
https://telega.in/c/big_data_go
Download Telegram
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.

Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.

Code: https://github.com/Lightricks/LongAnimateDiff

HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.

Github: https://github.com/guoyww/animatediff/

Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

Paper: https://arxiv.org/abs/2307.04725

Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.

Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Paper: https://arxiv.org/abs/2304.08485

Website: https://llava-vl.github.io/

YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.

code: https://github.com/philz1337x/clarity-upscaler

page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.

Github: https://github.com/LTH14/rcg

Paper: https://arxiv.org/abs/2312.03701

Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.

Code: https://github.com/wxxshirley/awesome-graph-prompt

Project: https://graphprompt.github.io/

Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.

Code: https://github.com/archerfmy/sd-t2i-360panoimage

Paper: https://arxiv.org/abs/2311.13141v1

Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.

Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.

Code: https://github.com/dangeng/visual_anagrams

Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing

Project: https://dangeng.github.io/visual_anagrams/

Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.

Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.

Github: https://github.com/amaai-lab/video2music

Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.

Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.

Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!

Blog: https://sakana.ai/evolutionary-model-merge/

Paper: https://arxiv.org/abs/2403.13187
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.

Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.

Paper: https://arxiv.org/abs/2403.12036

Code: https://github.com/GaParmar/img2img-turbo

Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.

Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.

ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.

Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

Project: https://sharegpt4v.github.io/

Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

Paper: https://arxiv.org/pdf/2311.12793.pdf

Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.

👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.

Github: https://github.com/lavague-ai/LaVague

Docs: https://docs.lavague.ai/en/latest/docs/

Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
😱1
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

Code: https://stability.ai/news/stability-ai-sdxl-turbo

Demo: https://clipdrop.co/stable-diffusion-turbo

Model weights https://huggingface.co/stabilityai/sdxl-turbo

Paper:https://stability.ai/research/adversarial-diffusion-distillation
Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

Github: https://github.com/foivospar/Arc2Face

Project: https://arc2face.github.io

Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face

Paper: https://arxiv.org/abs/2403.11641
DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

Github: https://github.com/AssafSinger94/dino-tracker

Project: https://dino-tracker.github.io/

Paper: https://arxiv.org/abs/2403.14548
В этой статье автор расскажет, что и в какой степени влияет на качество моделей, а также для дата-сайентистов приведет код Python, который был использован для получения картинок в задании.

👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.

Github: https://github.com/zhoudaquan/ChatAnything

Paper: https://arxiv.org/abs/2311.06772

Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py
Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

Github: https://github.com/PKU-YuanGroup/Video-LLaVA

Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench