CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
Github: https://github.com/hehao13/CameraCtrl
Paper: https://arxiv.org/abs/2404.02101
Project: https://hehao13.github.io/projects-CameraCtrl/
Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
Github: https://github.com/hehao13/CameraCtrl
Paper: https://arxiv.org/abs/2404.02101
Project: https://hehao13.github.io/projects-CameraCtrl/
Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
Github: https://github.com/NVIDIA/makani
Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
Github: https://github.com/NVIDIA/makani
Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.
Github: https://github.com/vcherepanova/tabular-feature-selection
Paper: https://arxiv.org/pdf/2311.05877v1.pdf
Tasks: https://paperswithcode.com/task/feature-selection
Github: https://github.com/vcherepanova/tabular-feature-selection
Paper: https://arxiv.org/pdf/2311.05877v1.pdf
Tasks: https://paperswithcode.com/task/feature-selection
Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
proj: https://boheumd.github.io/MA-LMM/
repo: https://github.com/boheumd/MA-LMM
abs: https://arxiv.org/abs/2404.05726
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
proj: https://boheumd.github.io/MA-LMM/
repo: https://github.com/boheumd/MA-LMM
abs: https://arxiv.org/abs/2404.05726
Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
Github
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
Github
Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
GitHub
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
GitHub
Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
Статья: arxiv.org/abs/2402.19427
Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
Статья: arxiv.org/abs/2402.19427
Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
В этой статье автор расскажет, как сделали облачное хранилище понятным и структурированным источником информации для Hoff, и почему надежность хранилища определяется качеством системы оповещений, то есть алертингом.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
Github
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
Github
В данной статье автор покажет основные этапы создания игры, где пользователь выбирает роль (Х или О), играя с компьютером.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.
Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.
LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.
Github: https://github.com/luosiallen/latent-consistency-model
Paper: https://arxiv.org/abs/2311.05556v1
Project: https://latent-consistency-models.github.io
Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.
LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.
Github: https://github.com/luosiallen/latent-consistency-model
Paper: https://arxiv.org/abs/2311.05556v1
Project: https://latent-consistency-models.github.io
Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
Мощный инструмент для решения практически всех задач извлечения и унификации информации.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
Github: https://github.com/Spico197/Mirror
Paper: https://arxiv.org/abs/2311.05419v1
Dataset: https://paperswithcode.com/dataset/glue
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
Github: https://github.com/Spico197/Mirror
Paper: https://arxiv.org/abs/2311.05419v1
Dataset: https://paperswithcode.com/dataset/glue
Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).
TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.
В новую версию Text Generation Inference добавлена поддержка модели Command R+.
Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!
• Github
• Установка
TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.
В новую версию Text Generation Inference добавлена поддержка модели Command R+.
Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!
• Github
• Установка
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора.
GitHub
DUSt3R не требует калибровки камеры или данных о точке обзора.
GitHub
EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.
Github: https://github.com/qqlu/entity
Paper: https://arxiv.org/abs/2311.03352v1
Dataset: https://paperswithcode.com/dataset/coco
Github: https://github.com/qqlu/entity
Paper: https://arxiv.org/abs/2311.03352v1
Dataset: https://paperswithcode.com/dataset/coco
В открытом доступе появилась первая фундаментальная ИИ-модель человеческого познания — Centaur, способная предсказывать и симулировать поведение людей в различных экспериментах. Она использует интуицию и анализ для значительного улучшения качества ответов.
Centaur создана на базе Llama 3.1 70B и обучена на 160 психологических экспериментах с участием 60 тысяч человек, что позволяет модели с высокой точностью прогнозировать поведение людей в любых условиях.
Будущее уже близко! Ознакомиться с исследованием можно по ссылке, а исходный код доступен здесь.
Centaur создана на базе Llama 3.1 70B и обучена на 160 психологических экспериментах с участием 60 тысяч человек, что позволяет модели с высокой точностью прогнозировать поведение людей в любых условиях.
Будущее уже близко! Ознакомиться с исследованием можно по ссылке, а исходный код доступен здесь.
TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.
TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.
Github: https://github.com/ensta-u2is/torch-uncertainty
Paper: https://arxiv.org/abs/2311.01434v1
Project: https://llmrec.github.io/
Api: https://torch-uncertainty.github.io/api.html
Dataset: https://paperswithcode.com/dataset/cifar-10
TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.
Github: https://github.com/ensta-u2is/torch-uncertainty
Paper: https://arxiv.org/abs/2311.01434v1
Project: https://llmrec.github.io/
Api: https://torch-uncertainty.github.io/api.html
Dataset: https://paperswithcode.com/dataset/cifar-10