Data Analysis / Big Data
2.84K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
17 мгновений миграции DWH X5 Group

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.


Читать: https://habr.com/ru/companies/X5Tech/articles/787334/
1
Революция в аналитике данных: погружение в мир NoSQL

Привет, Хабр! Сегодня мы исследуем мир NoSQL – технологии, которая радикально изменяет подходы к аналитике данных. В этой статье мы углубимся в особенности NoSQL, сравним его с традиционными SQL-базами данных и исследуем, как NoSQL преобразует сферу аналитики данных. Для более глубокого погружения в тему, присоединяйтесь к нашему обсуждению на DataTechCommunity.


Читать: https://habr.com/ru/articles/787574/
Uplevel your dbt workflow with these tools and techniques

Read: https://www.startdataengineering.com/post/uplevel-dbt-workflow/
Какие ML-платформы нужны бизнесу, и кто их может сделать

Привет, Хабр! Меня зовут Виктор Кантор, я директор Big Data МТС. Около 14 лет я работаю с технологиями, связанными с Machine Learning, Big Data, Data Science. Но есть одна проблема, с которой я постоянно сталкиваюсь. Например, поставлена задача, которую нужно решить при помощи ML-моделей. А потом появляется новая, с аналогичным процессом разработки и кодом. А затем ещё одна, вторая, третья…

В итоге я решил всё это формализовать, структурировать, привести к состоянию платформ, которые можно использовать повторно. Зачем? Чтобы специалисты по ML, Data Science и из смежных отраслей не писали один и тот же код много раз. В статье об этом и поговорим. Если тема вас заинтересовала, прошу под кат.


Читать: https://habr.com/ru/companies/ru_mts/articles/787726/
Анализ объявлений Airbnb в Нью-Йорке за 2019 год

Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.

В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.


Читать: https://habr.com/ru/articles/787982/
Enabling OCI Notifications for Data Flows in Oracle Analytics Cloud

Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-data-flow-notification-system
Deploy Network Components for Oracle Fusion Analytics Service Endpoints

Deploy in minutes the initial network components for Oracle Fusion Analytics service endpoints using Oracle Cloud Shell and the Terraform OCI provider.

Read: https://blogs.oracle.com/analytics/post/deploy-network-components-for-oracle-fusion-analytics-service-endpoints
Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей компании перейти на автоматическую маршрутизацию курьеров.

Мы умеем отслеживать прохождение грузом всей транспортной цепочки, включая промежуточные склады. Но посылку нужно ставить на конкретный маршрут до того, как весь груз придет на склад доставки. И даже до того, как он попадет в ERP‑систему СDEK (посылки оформят в офисах). То есть задача такая: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут!


Читать: https://habr.com/ru/companies/cdek_blog/articles/788816/
👍1
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation

What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation

Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-fusion-analytics-warehouse-sr-creation
Детекция объектов. R-CNN, Fast R-CNN, Faster R-CNN. Часть 1

Кто такой детектор?

Данная статья посвящена постановке задачи детекции и обзору первых двухстадийных детекторов, таких как: R-CNN, Fast R-CNN и Faster RCNN.


Читать: https://habr.com/ru/articles/789942/
От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.


Читать: https://habr.com/ru/companies/airi/articles/790394/
Годовой дайджест по аналитике и ML за 2023

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мега-дайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.


Читать: https://habr.com/ru/companies/selectel/articles/790368/
Как проводят оценку качества данных в Airbnb

Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.


Читать: https://habr.com/ru/companies/itsumma/articles/786228/
Как мы не выбрали Airbyte

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно «но»…

Читать: https://habr.com/ru/companies/selectel/articles/788302/
Forwarded from Нейроканал
Любители комиксов и Data Science на месте?

Нашли уникальный в своём роде ресурс с обучающими материалами на тему Data Science от Allison Horst.

На сайте представлена комиксы о статистике, линейной регрессии, библиотекам и прочим прелестям, которые сопровождаются крутой графикой.

Вот если бы статьи с arXiv выглядели бы также

#позалипать
2
Победитель А: СТАРТ: groql — бизнес-аналитика на основе ИИ

Сегодня такие компании, как Microsoft и Tableau прекратили поддержку своих продуктов в России. Это привело к резкому уменьшению числа приложений для бизнес-аналитики данных. Ситуацию решила изменить команда стартапа groql из Новосибирска, победитель осенней сессии А:СТАРТ 2023 года.

Приложение groql позволяет пользователю общаться с базами данных на естественном (русском) языке без опыта в области программирования и получать визуализации в виде графиков, диаграмм и графов. Граф — это абстрактное представление множества объектов и связей между ними. Примером может служить схема авиалиний, где вершины — это аэропорты, а ребра — это маршруты.

Главное преимущество этого стартапа — в визуальном представлении данных. После обработки запроса пользователь увидит графическое представление данных, которое поможет лучше понять связи между различными данными. Работодателю это поможет сократить издержки — за счет сокращения времени и упрощения работы с данными. Так компания в среднем тратит на 50% меньше на мидл-аналитиков.

Пользователь может спросить: «Каков был общий объем продаж в прошлом квартале по регионам?». ИИ-система интерпретирует этот запрос, преобразует в SQL-запрос и извлекает необходимые данные из базы. Решение актуально для ритейла, финансового сектора, недвижимости и ГИС.

Игорь Учанов, руководитель продукта, попытался доходчиво объяснить суть решения и его достоинства:

«Groql — это про понятную бизнес-аналитику на основе ИИ.

У основного сегмента нашей ЦА (банки, ритейл, недвижимость и ГИС) существует ряд проблем: аналитики не разбираются в языках программирования. Все изучают их с нуля, при этом нет какого-то стандартного набора инструментов. А каждый запрос в базу данных занимает много времени.


Читать: https://habr.com/ru/articles/791358/
1