BIG-EX | Machine Learning, Big Data & Data Science
1.25K subscribers
953 photos
941 links
Публикуем лучший материал по Machine Learning, Big Data, Data Science, Искусственному интеллекту и не только!

Купить рекламу:
@oksi_young

Положительный отзыв на telega.in - 1 реклама 1/24 бесплатно.
https://telega.in/c/big_data_go
Download Telegram
В этой статье специалисты Яндекса рассказали, как внедрили в Браузер пересказ видео любой длины от нейросети. В материале привели полный пайплайн решения, рассказали о реализации с технической и с точки зрения UX продукта и разобрали причины, почему модель YandexGPT, заточенная под суммаризацию статей, не подходит для пересказа видео.

👉 Ссылка на статью
Amphion — набор инструментов для создания аудио, музыки и речи. Его цель — поддержать воспроизводимые исследования и помочь младшим исследователям и инженерам начать работу в области исследований и разработок в области аудио, музыки и генерации речи. Amphion предлагает уникальную функцию: визуализацию классических моделей или архитектур.

GitHub: https://github.com/open-mmlab/Amphion

Paper: arxiv.org/abs/2312.09911

HF: https://huggingface.co/amphion
MagicAnimate стремится анимировать эталонное изображение, придерживаясь последовательностей движений с временной согласованностью.

Github: https://github.com/magic-research/magic-animate

HF: https://huggingface.co/spaces/zcxu-eric/magicanimate

Paper: arxiv.org/abs/2311.16498
Новый фреймворк предназначенный для диффузионных моделей (например, SD) для создания изображений с любым разрешением и соотношением сторон. В отличие от других методов генерации с заданным разрешениями, которые обрабатывают изображения с последующей обработкой, ResAdapter напрямую генерирует изображения с заданным разрешением.

page: https://res-adapter.github.io

paper: https://arxiv.org/abs/2403.02084

code: https://github.com/bytedance/res-adapter
В этом документе представлена новая структура, которая позволяет настраивать количество изменений на пиксель или на область изображения. Нашу структуру можно интегрировать в любую существующую модель распространения, дополнив ее этой возможностью. Такой детальный контроль над количеством изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени изменения отдельных объектов или возможность вводить постепенные пространственные изменения.

code: github.com/exx8/differential-diffusion

page: differential-diffusion.github.io

paper: arxiv.org/abs/2306.00950
Набор данных ImageNet содержит 14 197 122 аннотированных изображения в соответствии с иерархией WordNet. С 2010 года набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), эталоне в классификации изображений и обнаружении объектов. Публично опубликованный набор данных содержит набор обучающих изображений, аннотированных вручную.

Github: https://github.com/LTH14/rcg

Paper: https://arxiv.org/abs/2312.03701

Dataset: https://paperswithcode.com/dataset/imagenet
TripoSR, современной модели с открытым исходным кодом для быстрой 3D-реконструкции с прямой связью из одного изображения, совместно разработанной Tripo AI и Stability AI.

Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.

page: https://tripo3d.ai

paper:https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view

code
: https://github.com/VAST-AI-Research/TripoSR
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.

Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).

Github

Project
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.

Github: https://github.com/showlab/MotionDirector

Paper: https://arxiv.org/abs/2310.08465

Project: showlab.github.io/MotionDirector/
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.

Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.

Code: https://github.com/Koukyosyumei/AIJack

Paper: https://arxiv.org/abs/2312.17667v1

Docs: https://koukyosyumei.github.io/AIJack/
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.

Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.

Code: https://github.com/Lightricks/LongAnimateDiff

HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.

Github: https://github.com/guoyww/animatediff/

Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

Paper: https://arxiv.org/abs/2307.04725

Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.

Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

Paper: https://arxiv.org/abs/2304.08485

Website: https://llava-vl.github.io/

YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.

code: https://github.com/philz1337x/clarity-upscaler

page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.

Github: https://github.com/LTH14/rcg

Paper: https://arxiv.org/abs/2312.03701

Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.

Code: https://github.com/wxxshirley/awesome-graph-prompt

Project: https://graphprompt.github.io/

Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.

Code: https://github.com/archerfmy/sd-t2i-360panoimage

Paper: https://arxiv.org/abs/2311.13141v1

Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.

Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.

Code: https://github.com/dangeng/visual_anagrams

Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing

Project: https://dangeng.github.io/visual_anagrams/

Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.

Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.

Github: https://github.com/amaai-lab/video2music

Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.

Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.

Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!

Blog: https://sakana.ai/evolutionary-model-merge/

Paper: https://arxiv.org/abs/2403.13187