Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Code: https://github.com/wxxshirley/awesome-graph-prompt
Project: https://graphprompt.github.io/
Paper: https://arxiv.org/abs/2311.16534v1
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Code: https://github.com/archerfmy/sd-t2i-360panoimage
Paper: https://arxiv.org/abs/2311.13141v1
Dataset: https://paperswithcode.com/dataset/sun360
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
Code: https://github.com/dangeng/visual_anagrams
Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
Project: https://dangeng.github.io/visual_anagrams/
Paper: https://arxiv.org/abs/2311.17919
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
Github: https://github.com/amaai-lab/video2music
Paper: https://arxiv.org/abs/2311.00968v1
Demo: https://llmrec.github.io/
Dataset: https://zenodo.org/records/10057093
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
Project: https://sharegpt4v.github.io/
Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Paper: https://arxiv.org/pdf/2311.12793.pdf
Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
😱1
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.
Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.
Code: https://stability.ai/news/stability-ai-sdxl-turbo
Demo: https://clipdrop.co/stable-diffusion-turbo
Model weights → https://huggingface.co/stabilityai/sdxl-turbo
Paper:https://stability.ai/research/adversarial-diffusion-distillation
Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.
Github: https://github.com/foivospar/Arc2Face
Project: https://arc2face.github.io
Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
Paper: https://arxiv.org/abs/2403.11641
DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548
Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.
Github: https://github.com/AssafSinger94/dino-tracker
Project: https://dino-tracker.github.io/
Paper: https://arxiv.org/abs/2403.14548
В этой статье автор расскажет, что и в какой степени влияет на качество моделей, а также для дата-сайентистов приведет код Python, который был использован для получения картинок в задании.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.
Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.
Github: https://github.com/zhoudaquan/ChatAnything
Paper: https://arxiv.org/abs/2311.06772
Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py
Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.
Github: https://github.com/zhoudaquan/ChatAnything
Paper: https://arxiv.org/abs/2311.06772
Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py
Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.
Github: https://github.com/PKU-YuanGroup/Video-LLaVA
Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
Paper: https://arxiv.org/abs/2311.10122v1
Dataset: https://paperswithcode.com/dataset/mmbench
Github: https://github.com/PKU-YuanGroup/Video-LLaVA
Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
Paper: https://arxiv.org/abs/2311.10122v1
Dataset: https://paperswithcode.com/dataset/mmbench
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
Github: https://github.com/hehao13/CameraCtrl
Paper: https://arxiv.org/abs/2404.02101
Project: https://hehao13.github.io/projects-CameraCtrl/
Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
Github: https://github.com/hehao13/CameraCtrl
Paper: https://arxiv.org/abs/2404.02101
Project: https://hehao13.github.io/projects-CameraCtrl/
Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
Github: https://github.com/NVIDIA/makani
Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
Github: https://github.com/NVIDIA/makani
Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.
Github: https://github.com/vcherepanova/tabular-feature-selection
Paper: https://arxiv.org/pdf/2311.05877v1.pdf
Tasks: https://paperswithcode.com/task/feature-selection
Github: https://github.com/vcherepanova/tabular-feature-selection
Paper: https://arxiv.org/pdf/2311.05877v1.pdf
Tasks: https://paperswithcode.com/task/feature-selection
Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
proj: https://boheumd.github.io/MA-LMM/
repo: https://github.com/boheumd/MA-LMM
abs: https://arxiv.org/abs/2404.05726
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
proj: https://boheumd.github.io/MA-LMM/
repo: https://github.com/boheumd/MA-LMM
abs: https://arxiv.org/abs/2404.05726