В этой статье мы расскажем, откуда еще берутся ресурсы для запуска сложных моделей, как ИИ и облачные вычисления переплетаются между собой.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье автор расскажет расскажет вам про особенности алгоритмов CatBoost и LightGBM, для чего они нужны, в чём их фишки и как они облегчают нам работу с данными.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье автор разберет популярные паттерны проектирования ML-систем, а также вы узнаете какой способ выбрать для деплоя модели в production.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
TIAToolbox — это набор инструментов для вычислительной патологии, разработанный TIA Center, который предоставляет комплексный API для анализа изображений патологии с использованием лучших практик. Он основан на PyTorch , популярной платформе глубокого обучения, которая обеспечивает эффективную и гибкую реализацию самых современных алгоритмов. TIAToolbox поддерживает множество функций через интерфейс командной строки и может интегрироваться со стандартными модулями PyTorch. Он также предлагает инструменты для загрузки данных, предварительной обработки, вывода модели, постобработки и визуализации.
👉 Github: https://github.com/tissueimageanalytics/tiatoolbox
👉 Paper: https://arxiv.org/pdf/2402.09990v1.pdf
👉 Tasks: https://paperswithcode.com/task/whole-slide-images
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье специалисты Яндекса рассказали, как внедрили в Браузер пересказ видео любой длины от нейросети. В материале привели полный пайплайн решения, рассказали о реализации с технической и с точки зрения UX продукта и разобрали причины, почему модель YandexGPT, заточенная под суммаризацию статей, не подходит для пересказа видео.
👉 Ссылка на статью
👉 Ссылка на статью
Amphion — набор инструментов для создания аудио, музыки и речи. Его цель — поддержать воспроизводимые исследования и помочь младшим исследователям и инженерам начать работу в области исследований и разработок в области аудио, музыки и генерации речи. Amphion предлагает уникальную функцию: визуализацию классических моделей или архитектур.
GitHub: https://github.com/open-mmlab/Amphion
Paper: arxiv.org/abs/2312.09911
HF: https://huggingface.co/amphion
GitHub: https://github.com/open-mmlab/Amphion
Paper: arxiv.org/abs/2312.09911
HF: https://huggingface.co/amphion
MagicAnimate стремится анимировать эталонное изображение, придерживаясь последовательностей движений с временной согласованностью.
Github: https://github.com/magic-research/magic-animate
HF: https://huggingface.co/spaces/zcxu-eric/magicanimate
Paper: arxiv.org/abs/2311.16498
Github: https://github.com/magic-research/magic-animate
HF: https://huggingface.co/spaces/zcxu-eric/magicanimate
Paper: arxiv.org/abs/2311.16498
Новый фреймворк предназначенный для диффузионных моделей (например, SD) для создания изображений с любым разрешением и соотношением сторон. В отличие от других методов генерации с заданным разрешениями, которые обрабатывают изображения с последующей обработкой, ResAdapter напрямую генерирует изображения с заданным разрешением.
page: https://res-adapter.github.io
paper: https://arxiv.org/abs/2403.02084
code: https://github.com/bytedance/res-adapter
page: https://res-adapter.github.io
paper: https://arxiv.org/abs/2403.02084
code: https://github.com/bytedance/res-adapter
В этом документе представлена новая структура, которая позволяет настраивать количество изменений на пиксель или на область изображения. Нашу структуру можно интегрировать в любую существующую модель распространения, дополнив ее этой возможностью. Такой детальный контроль над количеством изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени изменения отдельных объектов или возможность вводить постепенные пространственные изменения.
code: github.com/exx8/differential-diffusion
page: differential-diffusion.github.io
paper: arxiv.org/abs/2306.00950
code: github.com/exx8/differential-diffusion
page: differential-diffusion.github.io
paper: arxiv.org/abs/2306.00950
Набор данных ImageNet содержит 14 197 122 аннотированных изображения в соответствии с иерархией WordNet. С 2010 года набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), эталоне в классификации изображений и обнаружении объектов. Публично опубликованный набор данных содержит набор обучающих изображений, аннотированных вручную.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
TripoSR, современной модели с открытым исходным кодом для быстрой 3D-реконструкции с прямой связью из одного изображения, совместно разработанной Tripo AI и Stability AI.
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
page: https://tripo3d.ai
paper:https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
code: https://github.com/VAST-AI-Research/TripoSR
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
page: https://tripo3d.ai
paper:https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
code: https://github.com/VAST-AI-Research/TripoSR
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
Github
Project
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
Github: https://github.com/showlab/MotionDirector
Paper: https://arxiv.org/abs/2310.08465
Project: showlab.github.io/MotionDirector/
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
Code: https://github.com/Koukyosyumei/AIJack
Paper: https://arxiv.org/abs/2312.17667v1
Docs: https://koukyosyumei.github.io/AIJack/
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
Code: https://github.com/Lightricks/LongAnimateDiff
HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
Github: https://github.com/guoyww/animatediff/
Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
Paper: https://arxiv.org/abs/2307.04725
Project: https://animatediff.github.io/
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
Paper: https://arxiv.org/abs/2304.08485
Website: https://llava-vl.github.io/
YouTube: https://youtube.com/watch?v=k7i2BpeLUss
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet
Github: https://github.com/LTH14/rcg
Paper: https://arxiv.org/abs/2312.03701
Dataset: https://paperswithcode.com/dataset/imagenet