Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Кураторский список ссылок для MLOps

https://github.com/visenger/awesome-mlops
Forwarded from Python (github trends)
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь вы можете без особых усилий создавать расширенную видеоаналитику.


Language: Python

💥Stars: 1.3
📝Forks: 96
https://github.com/roboflow/supervision
👍1
FastViT: быстрый гибридный преобразователь зрения, использующий структурную репараметризацию

Слияние трансформаторной и сверточной архитектур открыло новую эру повышенной точности и эффективности моделей, и FastViT находится в авангарде этой революции. Эта новая архитектура гибридного преобразователя зрения может похвастаться впечатляющим компромиссом между задержкой и точностью, устанавливая новые стандарты в этой области. Ключом к его успеху является RepMixer, инновационный оператор микширования токенов, который использует структурную репараметризацию для сокращения затрат на доступ к памяти за счет отказа от традиционных пропускных соединений.

С практической точки зрения мастерство FastViT неоспоримо. Он не только в 3,5 раза быстрее, чем CMT на мобильных устройствах для точности ImageNet, но и оставляет позади EfficientNet и ConvNeXt, которые в 4,9 и 1,9 раза быстрее соответственно. Кроме того, в сравнении с MobileOne с аналогичной задержкой FastViT выходит победителем с точностью на 4,2% выше, чем у Top-1. По всему спектру задач, от классификации и обнаружения изображений до сегментации и регрессии 3D-сетки, FastViT неизменно превосходит своих конкурентов, демонстрируя замечательную скорость и устойчивость к образцам, не входящим в дистрибутив, и искажениям.

Ссылка на статью: https://huggingface.co/papers/2303.14189
Ссылка на код: https://github.com/apple/ml-fastvit
Обзор статьи: https://andlukyane.com/blog/paper-review-fastvit
This media is not supported in your browser
VIEW IN TELEGRAM
Roboflow только что выпустил новую версию «supervision». Это швейцарский армейский нож с открытым исходным кодом для всего, что касается Computer Vision. Он позволяет реализовать обнаружение, классификацию, сегментацию, аннотирование любого видео. Это новое обновление добавляет расширенную видеоаналитику: трекеры, зоны, аннотаторы и многое другое.
https://github.com/roboflow/supervision
Простая нейронная сеть без библиотек и матриц. Обучение с учителем

Руководство? Гайд? В общем ремейк описания моего опыта создания простой, а главное понятной любому новичку нейросети :) https://habr.com/ru/articles/755096/
Стэнфорд только что выпустил все лекции профессора Кристофера Поттса по курсу Stanford XCS224U: «Понимание естественного языка»


Код: https://github.com/cgpotts/cs224u/
Видео: https://www.youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp
1
This media is not supported in your browser
VIEW IN TELEGRAM
GigaGAN: крупномасштабная сеть GAN для преобразования текста в изображение

GigaGAN — это GAN с параметрами 1B, которая может масштабироваться в 36 раз больше, чем StyleGAN. Модель от Adobe/CMU доказывает, что GAN можно масштабировать до больших наборов данных и оставаться стабильными.

https://mingukkang.github.io/GigaGAN/
Бесконечное радио создаваемое нейронными сетями. Open-source проект

Привет всем увлеченным нейронными сетями или тем, кто хочет вникнуть в технологии. Сегодня я хотел бы познакомить вас со своим захватывающим проектом с открытым исходным кодом «Бесконечное нейронное радио». Бесконечное, потому что lofi музыка и подкасты могут генерироваться нейронными сетями бесконечно. В этой статье я бы хотел углубиться в то, как все работает изнутри.

Вдохновением для этого проекта послужило для меня разочарование в моем любимом музыкальном приложении. Поскольку со временем приложение стало не удобным для меня, я почувствовал потребность создать что‑то свое с лофи‑музыкой — жанра, который помогает сосредоточиться во время программирования или просто служит расслабляющим фоном в вечернее время. Приложение содержит цитаты, сгенерированные нейронными сетями, в сопровождении GIF‑анимации в пиксельном стиле, которая тоже частино сгенерировано нейронными сетями. Если подкасты вам не по душе, вы можете их отключить и выбрать только нейронную музыку или даже настроиться на радиостанцию, которая уже делается людьми.

Узнать как работаетhttps://habr.com/ru/articles/755788/
This media is not supported in your browser
VIEW IN TELEGRAM
StableVideo: текстовое редактирование диффузионного видео с учетом согласованности

Методы на основе диффузии могут генерировать реалистичные изображения и видео, но они затрудняют редактирование существующих объектов в видео, сохраняя при этом их внешний вид с течением времени. Это предотвращает применение моделей распространения для естественного редактирования видео в практических сценариях. В этой статье мы решаем эту проблему, вводя временную зависимость в существующие модели распространения, управляемые текстом, что позволяет им генерировать согласованный внешний вид для редактируемых объектов. https://rese1f.github.io/StableVideo/
Бесплатный курс Python для науки о данных

https://www.youtube.com/playlist?list=PLeLGx0BaYD6bsy5mfwo0mxONYWfR1VVbO
Квантование наборов данных (DQ) - это новая схема сжатия больших наборов данных в небольшие наборы, которые могут быть использованы для обучения любых нейросетевых архитектур.


🖥 Github: https://github.com/magic-research/dataset_quantization

📕 Статья: https://arxiv.org/abs/2308.10524v1

☑️ Dataset: https://paperswithcode.com/dataset/gsm8k
Понимание автоматической дифференциации в 30 строках Python

Я инженер по машинному обучению и использую в своей работе такие библиотеки, как Tensorflow и Pytorch, для обучения нейронных сетей. И я давно не хотел написать простейший фрагмент кода для выполнения так называемого автоматического дифференцирования , которое лежит в основе обучения нейронных сетей. https://vmartin.fr/understanding-automatic-differentiation-in-30-lines-of-python.html?utm_source=substack&utm_medium=email
Сможет ли Python пережить это? Компания Modular, стоящая за Mojo, только что собрала 100 миллионов долларов на исправление инфраструктуры искусственного интеллекта для разработчиков. Это много денег! Mojo — это язык программирования для разработчиков искусственного интеллекта, который в 35 000 раз быстрее Python https://venturebeat.com/ai/modular-looks-to-boost-ai-mojo-with-100m-funding-raise/
Современные большие языковые модели (Large Language Models, LLM) произвели революцию в нашей способности обрабатывать и понимать огромные объемы текстовых данных. Однако эти модели, такие как LLaMA и LLaMA2, часто имеют недостаток: они ограничены фиксированной длиной контекста, что означает, что они не могут работать с длинными последовательностями входных данных при оценке. В данной работе это ограничение решается путем исследования различных методов "экстраполяции длины контекста", что, по сути, позволяет этим моделям понимать и работать с более длинными текстовыми последовательностями.

Ссылка на статью: https://arxiv.org/abs/2308.10882
Ссылка на код: https://github.com/abacusai/Long-Context

Обзор статьи: https://andlukyane.com/blog/paper-review-giraffe
Создание простого образа Docker Data Science

В этом кратком руководстве рассказывается о настройке среды обработки данных Python с использованием Docker, описывается создание файла Dockerfile, создание образа, запуск контейнера, совместное использование и развертывание изображений, а также их отправка в Docker Hub. https://www.kdnuggets.com/2023/08/simple-docker-data-science-image.html
Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1).

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)? 

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI*  весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Читать далее https://habr.com/ru/companies/sberdevices/articles/757606/
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
CoTracker — модель для отслеживания любой точки (пикселя) на видео.

Эта архитектура основана на нескольких идеях из литературы по оптическим потокам и отслеживанию и объединяет их в новую, гибкую и мощную конструкцию. Он основан на сети преобразователей, которая моделирует корреляцию различных моментов времени с помощью специализированных уровней внимания.

Бумага: https://arxiv.org/abs/2307.07635
Код: https://github.com/facebookresearch/co-tracker
Демо: https://huggingface.co/spaces/facebook/cotracker

Сайт: https://co-tracker.github.io/
This media is not supported in your browser
VIEW IN TELEGRAM
В этой работе разрабатывается оптимизированный подход машинного обучения для оценки позы рук человека с помощью одних умных часов.

На двух примерах использования мы демонстрируем, что этот интуитивно понятный интерфейс управления позволяет пользователям быстро вмешиваться в поведение робота, временно корректировать свои цели или обучать совершенно новым политикам управления путем имитации.

https://arxiv.org/abs/2306.13192
Наблюдение и аналитика с открытым исходным кодом для приложений LLM

Langfuse — это решение для наблюдения и аналитики с открытым исходным кодом для приложений на основе LLM. Он в основном ориентирован на производственное использование, но некоторые пользователи также используют его для локальной разработки своих приложений LLM.

https://github.com/langfuse/langfuse