Нейроканал
9.29K subscribers
362 photos
142 videos
7 files
1.18K links
Искусственный интеллект, нейросети, машинное обучение

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

Другие наши проекты: https://tprg.ru/media
Download Telegram
Kornia: компьютерное зрение на новом уровне

Kornia — это мощная библиотека компьютерного зрения на Python, которая позволяет легко экспериментировать с обработкой изображений, а по своему функционалу в некотором превосходит даже OpenCV.

Основные преимущества перед аналогами:
— работа на GPU;
— дифференцируемость;
— интеграция с PyTorch;
— обрабатка изображения батчами.

В этой статье рассматриваются практические примеры загрузки изображений, применения различных фильтров и преобразований с использованием Kornia.

Репозиторий: https://github.com/kornia/kornia

#статья #kornia #cv
92
NorthPole: сапфир в мире процессоров для ИИ

Корпорация IBM выпустила революционный процессор NorthPole для ИИ-задач. Разработка чипа заняла 8 лет. Он имеет 22 млрд транзисторов и 256 ядер.

Уникальная архитектура предусматривает выделенную память для каждого ядра, что даёт колоссальный прирост скорости передачи данных. В ходе тестирования он продемонстрировал энергоэффективность в 25 раз выше, чем у графического чипа NVIDIA V100 Tensor Core.

NorthPole нацелен на обработку изображений, прежде всего цифрового машинного зрения. Речь идёт об автопилотировании, роботах-диагностах и т. п.

#новости #cv
😁7🔥52
9 полезных инструментов для аннотирования изображений в 2023 году

Аннотирование изображений по-прежнему остаётся важным этапом при создании проектов компьютерного зрения.

В этой статье рассматриваются 9 популярных инструментов: Encord Annotate, Scale, CVAT, Labelbox, Playment, Appen, Dataloop, V7 Labs и Hive.

Каждый инструмент оценивается по ключевым критериям: функциональности, поддерживаемым типам данных, интеграции с ML, безопасности, управлению проектами и т.д.

#статья #cv
5
This media is not supported in your browser
VIEW IN TELEGRAM
3D Gaussian Splatting — новый метод визуализации трёхмерных сцен на основе анализа фотографий с разных ракурсов. Пространство моделируется как агрегация гауссовых функций с оптимизированными параметрами.

По результатам тестирования, Gaussian Splatting превосходит аналогичные методы, обеспечивая высококачественный рендеринг при разрешении 1080p в реальном времени. Он достигает уровня визуализации, сопоставимого с лучшими подходами, такими как Mip-NeRF, при этом требуя гораздо меньше времени обучения (всего несколько минут вместо часов).

Репозиторий GitHub.

#статья #cv
🔥9👍4
UNINEXT: инспектор гаджет в мире компьютерного зрения

Разделение изображения на отдельные группы одна из наиболее важных и сложных проблем компьютерного зрения. UNINEXT решает это, объединяя 10 задач распознавания объектов в одну модель.

Она гибко воспринимает разные объекты, используя подсказки — названия, описания и аннотации. Это позволяет обучать модель на огромных данных и извлекать универсальные признаки объектов.

UNINEXT показала отличные результаты в 20 сложных тестах. А ещё заняла 2 место на конференции по компьютерному зрению CVPR 2023 в категории «‎Проблемы отслеживания и сегментации нескольких объектов».

Читать: https://arxiv.org/pdf/2303.06674.pdf

Репозиторий: https://github.com/MasterBin-IIAU/UNINEXT

#статья #cv
5
This media is not supported in your browser
VIEW IN TELEGRAM
Студент из Джорджии при помощи компьютерного зрения сделал бота, который наказывает его, если обнаружит отвлечение от заданий.

Когда бот видит, что пользователь отвлёкся на телефон, то включает устройства, ослепляющие ярким светом и воспроизводящие неприятные звуки.

А если ты тот самый заядлый прокрастинатор, то держи доступ к репозиторию.

#cv #python
😁24👍52🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Автор видео, наблюдая за матчами чемпионата мира по футболу FIFA, заинтересовался технологией VAR (Video Assistant Referee), а именно модулем определения положения «вне игры». Выяснилось, что это делается с помощью распознавания поз по нескольким камерам.

В результате своих исследований автор создал аналогичную систему дома, воспользовавшись двумя камерами и моделью YOLOv7 для компьютерного зрения.

Репозиторий | Процесс создания

#cv #project
👍17
This media is not supported in your browser
VIEW IN TELEGRAM
В Чили начали собирать яблоки при помощи дронов и компьютерного зрения

👍 — если бы хотел, чтобы дроны научились копать картошку на даче твоей бабушки

#нейроновости #cv
👍423
Глаз не имею, но объекты вижу, что я?

Как вы уже могли догадаться, сегодня мы поговорим о компьютерном зрении, а если точнее как реализовать компьютерное зрение.

И в этом нам поможет этот 37-часовой курс, охватывающий широкий спектр тем, начиная от основ тензоров и переменных и заканчивая реализацией продвинутых моделей глубокого обучения для сложных задач, таких как обнаружение человеческих эмоций и генерация изображений.

Всё обучение проходит по госту фри код кэмпа и объясняется на практических кейсах и использованием самых современных подходов.

#нейровидео #cv
👍6❤‍🔥42
Лучшие модели обнаружения объектов

В этом видео автор подготовил подробный обзор моделей для распознавания объектов, таких как YOLOv8, YOLOv7, RTMDet, DETA и GroundingDINO. Он тщательно проанализировал их, оценивая по ключевым критериям: точность, поддержка сообщества, наличие удобной документации и открытых лицензий.

Помимо этого, в видео есть практические рекомендации по выбору оптимальной модели в зависимости от конкретных задач, которые предстоит решать.

#cv #позалипать
👍112🆒2
Mamba расширяет возможности
 
Ранее мы уже говорили об этой архитектуре, но время идёт, и прогресс не стоит на месте. Последние исследования затронули применение Mamba в компьютерном зрении, аналогично использованию ViT с трансформерами.
 
В ходе этих исследований выяснилось, что по сравнению с ViT, Vision Mamba (ViM) представляет собой более эффективное решение благодаря использованию модели пространства состояний (SSM), особенно это заметно в случае высококачественных изображений.
 
Статья | GitHub 

#cv #mamba #статья
👍52
Как реализовать распознавание лиц с нуля на Python

Если вы хотите погрузиться в мир компьютерного зрения и уже ищете идеи для написания своего первого проекта, то распознавание лиц — отличный вариант для старта.

В представленном видео демонстрируется пошаговый туториал по созданию простого скрипта для распознавания лиц на Python с использованием хорошо известной библиотеки OpenCV.

#cv #python #opencv
👍92🆒1
YOLO-World: распознавание объектов с высокой точностью за считаные секунды

Представляем вашему вниманию новую open source модельку семейства YOLO. Однако, в отличие от своих предшественников, она способна распознавать объекты в режиме реального времени и это всё без предварительного обучения! Для обнаружения необходимо всего лишь составить промпт, по которому будут отбираться объекты.

Касаемо бенчмарков YOLO-World также не стала скромничать и показала прирост в производительности в 20 раз в сравнении с прошлыми моделями.

Hugging Face | Github | Статья | Блогпост

#yolo #cv
👍16❤‍🔥4😱2
Какие технологии самые востребованные в 2024 году?

Ответ можно найти в этой карте. Её авторы отобрали самых активных ML-разработчиков на Stack Overflow, отсортировали и подсчитали все их запросы и теги.

В результате получилась карта технических навыков, которые разработчики регулярно используют в своей работе. Размер навыка соответствует количеству связанных с ним запросов. Чем ближе два навыка на карте, тем чаще они встречаются в похожих контекстах.

Помимо этого, при нажатии на навык можно получить его описание, альтернативы и динамику интереса.

#ml #nlp #cv
👍53🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Просыпаемся, нам релизнули YOLOv9
 
Ещё одно пополнение в семействе Yolo не заставило себя долго ждать.

Ключевые улучшения: 
— Завезли новую архитектуру GELAN, которая значительно улучшила эффективность и точность при меньших вычислительных затратах. 
— Совместимость с Transformer.js: а это значит можем запустить прямо с браузера и без серверов.
— Метод PGI борется с потерей информации.

Demo | Cтатья | Github | Гайд

#yolo #cv
👍14
Как отследить время ожидания покупателя в пятёрочке в real-time
 
На самом деле не обязательно ограничиваться сценарием с пятёрочкой, можно отслеживать время нахождения машин в пробке или бати в туалете. Последнее не стоит видеть, да и бизнесу едва ли поможет.
 
А касательно самой задачи, на первый взгляд она не такая уж сложная, однако при обработке видео потоков в real-time возникает скрытая проблема — колебания частоты кадров и производительности модели.

Для статичных видео файлов с постоянной частотой кадров расчёт времени прост - подсчитываем число кадров и делим на FPS. Но при работе с потоками ситуация усложняется, так как FPS потока и модели могут различаться. В этом видео вы найдёте наглядный туториал, как избежать этих подводных камней.

#cv
👍4😁2
​​ИИ для глухих

Прекраснейший пет-проект разработчика Кевина Томаса, помогающий общаться на языке жестов.

Большинство существующих инструментов перевода языка глухонемых основаны на ошибочном представлении о том, что он аналогичен английскому. Но теперь у людей с ограниченнным восприятием есть система на базе компьютерного зрения и датасета языка жестов, чтобы вести полноценные диалоги.

#cv #пет_проект

@neuro_channel
👍8🔥5
​​YOLOv7 для начинающих

Годный плейлист YouTube на 2+ часа, посвящённый одному из самых популярных сегодня фреймворков в области компьютерного зрения. Хорошо подходит тем, кто уже умеет в Python, но только подступается к теме CV.

#cv

@neuro_channel
👍4
​​Roboflow | Готовим датасет для моделей Computer Vision

Ютубер рассказал в туториале на 24 минуты, как хакнуть капчу Google и размечать изображения в специальном веб-интерфейсе, чтобы потом в 10 строк кода запустить передовую CV-модель YOLOv8.

#cv

@neuro_channel
1