BIG-EX | Machine Learning, Big Data & Data Science
1.24K subscribers
953 photos
941 links
Публикуем лучший материал по Machine Learning, Big Data, Data Science, Искусственному интеллекту и не только!

Купить рекламу:
@oksi_young

Положительный отзыв на telega.in - 1 реклама 1/24 бесплатно.
https://telega.in/c/big_data_go
Download Telegram
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.

Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).

Github

Project
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.

Github: https://github.com/showlab/MotionDirector

Paper: https://arxiv.org/abs/2310.08465

Project: showlab.github.io/MotionDirector/
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.

Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.

Code: https://github.com/Koukyosyumei/AIJack

Paper: https://arxiv.org/abs/2312.17667v1

Docs: https://koukyosyumei.github.io/AIJack/
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.

Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.

Code: https://github.com/Lightricks/LongAnimateDiff

HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.

Github: https://github.com/guoyww/animatediff/

Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

Paper: https://arxiv.org/abs/2307.04725

Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.

Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Paper: https://arxiv.org/abs/2304.08485

Website: https://llava-vl.github.io/

YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.

code: https://github.com/philz1337x/clarity-upscaler

page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.

Github: https://github.com/LTH14/rcg

Paper: https://arxiv.org/abs/2312.03701

Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.

Code: https://github.com/wxxshirley/awesome-graph-prompt

Project: https://graphprompt.github.io/

Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.

Code: https://github.com/archerfmy/sd-t2i-360panoimage

Paper: https://arxiv.org/abs/2311.13141v1

Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.

Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.

Code: https://github.com/dangeng/visual_anagrams

Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing

Project: https://dangeng.github.io/visual_anagrams/

Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.

Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.

Github: https://github.com/amaai-lab/video2music

Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.

Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.

Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!

Blog: https://sakana.ai/evolutionary-model-merge/

Paper: https://arxiv.org/abs/2403.13187
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.

Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.

Paper: https://arxiv.org/abs/2403.12036

Code: https://github.com/GaParmar/img2img-turbo

Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.

Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.

ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.

Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

Project: https://sharegpt4v.github.io/

Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

Paper: https://arxiv.org/pdf/2311.12793.pdf

Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.

👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.

Github: https://github.com/lavague-ai/LaVague

Docs: https://docs.lavague.ai/en/latest/docs/

Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
😱1
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

Code: https://stability.ai/news/stability-ai-sdxl-turbo

Demo: https://clipdrop.co/stable-diffusion-turbo

Model weights https://huggingface.co/stabilityai/sdxl-turbo

Paper:https://stability.ai/research/adversarial-diffusion-distillation
Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

Github: https://github.com/foivospar/Arc2Face

Project: https://arc2face.github.io

Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face

Paper: https://arxiv.org/abs/2403.11641
DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

Github: https://github.com/AssafSinger94/dino-tracker

Project: https://dino-tracker.github.io/

Paper: https://arxiv.org/abs/2403.14548