Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation

What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation

Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-fusion-analytics-warehouse-sr-creation
Детекция объектов. R-CNN, Fast R-CNN, Faster R-CNN. Часть 1

Кто такой детектор?

Данная статья посвящена постановке задачи детекции и обзору первых двухстадийных детекторов, таких как: R-CNN, Fast R-CNN и Faster RCNN.


Читать: https://habr.com/ru/articles/789942/
От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.


Читать: https://habr.com/ru/companies/airi/articles/790394/
Годовой дайджест по аналитике и ML за 2023

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мега-дайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.


Читать: https://habr.com/ru/companies/selectel/articles/790368/
Как проводят оценку качества данных в Airbnb

Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.


Читать: https://habr.com/ru/companies/itsumma/articles/786228/
Как мы не выбрали Airbyte

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно «но»…

Читать: https://habr.com/ru/companies/selectel/articles/788302/
Forwarded from Нейроканал
Любители комиксов и Data Science на месте?

Нашли уникальный в своём роде ресурс с обучающими материалами на тему Data Science от Allison Horst.

На сайте представлена комиксы о статистике, линейной регрессии, библиотекам и прочим прелестям, которые сопровождаются крутой графикой.

Вот если бы статьи с arXiv выглядели бы также

#позалипать
2
Победитель А: СТАРТ: groql — бизнес-аналитика на основе ИИ

Сегодня такие компании, как Microsoft и Tableau прекратили поддержку своих продуктов в России. Это привело к резкому уменьшению числа приложений для бизнес-аналитики данных. Ситуацию решила изменить команда стартапа groql из Новосибирска, победитель осенней сессии А:СТАРТ 2023 года.

Приложение groql позволяет пользователю общаться с базами данных на естественном (русском) языке без опыта в области программирования и получать визуализации в виде графиков, диаграмм и графов. Граф — это абстрактное представление множества объектов и связей между ними. Примером может служить схема авиалиний, где вершины — это аэропорты, а ребра — это маршруты.

Главное преимущество этого стартапа — в визуальном представлении данных. После обработки запроса пользователь увидит графическое представление данных, которое поможет лучше понять связи между различными данными. Работодателю это поможет сократить издержки — за счет сокращения времени и упрощения работы с данными. Так компания в среднем тратит на 50% меньше на мидл-аналитиков.

Пользователь может спросить: «Каков был общий объем продаж в прошлом квартале по регионам?». ИИ-система интерпретирует этот запрос, преобразует в SQL-запрос и извлекает необходимые данные из базы. Решение актуально для ритейла, финансового сектора, недвижимости и ГИС.

Игорь Учанов, руководитель продукта, попытался доходчиво объяснить суть решения и его достоинства:

«Groql — это про понятную бизнес-аналитику на основе ИИ.

У основного сегмента нашей ЦА (банки, ритейл, недвижимость и ГИС) существует ряд проблем: аналитики не разбираются в языках программирования. Все изучают их с нуля, при этом нет какого-то стандартного набора инструментов. А каждый запрос в базу данных занимает много времени.


Читать: https://habr.com/ru/articles/791358/
1
Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.


Читать: https://habr.com/ru/companies/ozontech/articles/791684/
2
Иерархия ИИ-потребностей

Как это часто бывает с быстро развивающимися технологиями, ИИ породил массовые проявления синдрома упущенных возможностей, страха, неуверенности, сомнений и междоусобиц. Некоторые из них имеют под собой основания, некоторые — нет, но всё это бросается в глаза. Все от мала до велика, от незаметных стартапов до финтех-гигантов и государственных учреждений, сформировали команды специалистов, которые лихорадочно разрабатывают ИИ-стратегии.

Команда VK Cloud перевела статью о том, как использовать ИИ и машинное обучение, чтобы лучше справляться с тем, что мы делаем.


Читать: https://habr.com/ru/companies/vk/articles/790362/
2
Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.


Читать: https://habr.com/ru/articles/792292/
👍1
Детекция объектов. YOLO. Часть 2

Кто такой YOLO?

Когда пытаешься разобраться в работе YOLO по статьям в интернете, постоянно натыкаешься на примерно такое объяснение: «Алгоритм делит изображение сеткой SxS, где каждому элементу этой сетки соответствует N ббоксов с координатами, предсказаниями классов и тд...». Но лично мне становилось только непонятнее от такого высокоуровнего описания.. Ведь в исследованиях часто всё происходит примерно так: перебирают гипотезы, пока не получат приемлемый результат, а потом уже придумывают красивое описание. Поэтому для ясности хочется в данной статье рассказать, как вообще приходили к идеям, которые ложились в основу YOLOv1 и последующих версий.


Читать: https://habr.com/ru/articles/792926/
Forwarded from Нейроканал
YOLO-World: распознавание объектов с высокой точностью за считаные секунды

Представляем вашему вниманию новую open source модельку семейства YOLO. Однако, в отличие от своих предшественников, она способна распознавать объекты в режиме реального времени и это всё без предварительного обучения! Для обнаружения необходимо всего лишь составить промпт, по которому будут отбираться объекты.

Касаемо бенчмарков YOLO-World также не стала скромничать и показала прирост в производительности в 20 раз в сравнении с прошлыми моделями.

Hugging Face | Github | Статья | Блогпост

#yolo #cv
👍1
Дайджест новостей из мира искусственного интеллекта, машинного обучения, будущего и роботов за январь

Отфильтровав для Вас большое количество источников, представляю все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/articles/793544/
Особенности разработки информационной системы для сети автомобильных электрозаправочных станций

Аннотация. В статье анализируются технические требования, предъявляемые к электрозаправочным станциям с точки зрения определения возможности и особенностей проектирования информационной системы по их обслуживанию. Показаны основные особенности работы электрозаправочных станций, согласно стандартам, принятым в Европе, США и Китае. Рассмотрены их функциональные характеристики и специфика работы для удаленного управления с помощью информационной системы.

Сформулированы требования к информационной системе, которая может быть создана на основе микросервисной архитектуры. Показано, что для обеспечения взаимодействия между отдельными частями информационной системы должна быть обеспечена стабильность ее работы в режиме 24/7.

В ходе исследования определено, что:
– взаимодействие клиента с сервером может быть реализовано посредством некоторого приложения или web-интерфейса и должно быть стабильным и устойчивым;
– эта система будет включать в себя платежный модуль, электрическую балансировку, а обработка поступающих данных на сервер будет представлять собой распределенную систему обработки информации, имеющей в своей основе очередь с приоритетами;
– сама информационная система должна быть спроектирована на основе архитектуры, реализующей клиент-серверный принцип работы;
– специальная система мониторинга должна быть распределенной, что позволит своевременно обрабатывать поступающие запросы, видеть проблемы и своевременно решать их...


Читать: https://habr.com/ru/articles/793664/
Forwarded from Нейроканал
Признавайтесь, у кого тут 4 гига, 4 ядра?

На той неделе Google представила решение для разработчиков, столкнувшихся с проблемой нехватки GPU для обучения языковых моделей. Компания выпустила открытый набор инструментов localllm, позволяющий запускать квантованные языковые модели локально на процессоре и в Workstations — полностью управляемой среде разработки Google Cloud.

Если у вас возник вопрос, а что за сущность вообще эти квантованные языковые модели, то вот вам ответ — это оптимизированные модели искусственного интеллекта, предназначенные для работы на устройствах с ограниченными вычислительными ресурсами.

Подробная документация, примеры кода и инструкции по настройке ищите в этом репозитории.

#localllm #llm #инструмент
1