В этой статье специалисты Яндекса рассказали, как внедрили в Браузер пересказ видео любой длины от нейросети. В материале привели полный пайплайн решения, рассказали о реализации с технической и с точки зрения UX продукта и разобрали причины, почему модель YandexGPT, заточенная под суммаризацию статей, не подходит для пересказа видео.
👉 Ссылка на статью
👉 Ссылка на статью
Amphion — набор инструментов для создания аудио, музыки и речи. Его цель — поддержать воспроизводимые исследования и помочь младшим исследователям и инженерам начать работу в области исследований и разработок в области аудио, музыки и генерации речи. Amphion предлагает уникальную функцию: визуализацию классических моделей или архитектур.
GitHub: https://github.com/open-mmlab/Amphion
Paper: arxiv.org/abs/2312.09911
HF: https://huggingface.co/amphion
GitHub: https://github.com/open-mmlab/Amphion
Paper: arxiv.org/abs/2312.09911
HF: https://huggingface.co/amphion
MagicAnimate стремится анимировать эталонное изображение, придерживаясь последовательностей движений с временной согласованностью.
Github: https://github.com/magic-research/magic-animate
HF: https://huggingface.co/spaces/zcxu-eric/magicanimate
Paper: arxiv.org/abs/2311.16498
Github: https://github.com/magic-research/magic-animate
HF: https://huggingface.co/spaces/zcxu-eric/magicanimate
Paper: arxiv.org/abs/2311.16498
Новый фреймворк предназначенный для диффузионных моделей (например, SD) для создания изображений с любым разрешением и соотношением сторон. В отличие от других методов генерации с заданным разрешениями, которые обрабатывают изображения с последующей обработкой, ResAdapter напрямую генерирует изображения с заданным разрешением.
page: https://res-adapter.github.io
paper: https://arxiv.org/abs/2403.02084
code: https://github.com/bytedance/res-adapter
page: https://res-adapter.github.io
paper: https://arxiv.org/abs/2403.02084
code: https://github.com/bytedance/res-adapter
В этом документе представлена новая структура, которая позволяет настраивать количество изменений на пиксель или на область изображения. Нашу структуру можно интегрировать в любую существующую модель распространения, дополнив ее этой возможностью. Такой детальный контроль над количеством изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени изменения отдельных объектов или возможность вводить постепенные пространственные изменения.
code: github.com/exx8/differential-diffusion
page: differential-diffusion.github.io
paper: arxiv.org/abs/2306.00950
code: github.com/exx8/differential-diffusion
page: differential-diffusion.github.io
paper: arxiv.org/abs/2306.00950
Набор данных ImageNet содержит 14 197 122 аннотированных изображения в соответствии с иерархией WordNet. С 2010 года набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), эталоне в классификации изображений и обнаружении объектов. Публично опубликованный набор данных содержит набор обучающих изображений, аннотированных вручную.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
TripoSR, современной модели с открытым исходным кодом для быстрой 3D-реконструкции с прямой связью из одного изображения, совместно разработанной Tripo AI и Stability AI.
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
page: https://tripo3d.ai
paper:https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
code: https://github.com/VAST-AI-Research/TripoSR
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
page: https://tripo3d.ai
paper:https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
code: https://github.com/VAST-AI-Research/TripoSR
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187