Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Concert venue ticket pricing analytics - Part 2: Using an image as a map

Can a concert venue realize the revenue currently captured by ticket-resellers by raising ticket prices? By how much, for which seats, and for which concert genres? In part 2 of this series, learn how to upload an image to serve as a “map” to enhance the analysis.

Read: https://blogs.oracle.com/analytics/post/concert-venue-ticket-pricing-analytics-2
NER в поисках брендов. Часть 1

Опыт показывает, что построение результативных коммуникаций в маркетинге требует пристального изучения целевой аудитории и неочевидных знаний о ней. А значит, нужны новые подходы. Наши специалисты из CleverData предлагают использовать практику data science и рассмотреть один из таких подходов, как бренд-анализ. Хотим поделиться опытом, как с помощью NER (техники распознавания именованных сущностей) мы начали выделять бренды в покупках целевой аудитории одного из европейских производителей автомобилей. Оказалось, что эта аудитория предпочитает бутилированную воду, товары для взрослых Durex и электронику Apple. Расскажем, как мы пришли к таким выводам и чем они могут быть полезны.


Читать: https://habr.com/ru/post/708414/
👍1
Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Когда два года назад Лэй Ван стала аннотатором данных, её работа была относительно простой: определять гендер людей на фотографиях. Но с тех пор Ван заметила, что сложность её задач становится всё выше: от разметки гендера до разметки возраста, от рамок вокруг 2D-объектов до 3D-разметки, от фотографий при дневном свете до сцен ночью и в тумане, и так далее.

Ван 25 лет. Она работала секретарём в приёмной, однако когда в 2017 году её компания закрылась, друг, работавший разработчиком алгоритмов, предложил ей исследовать новый карьерный путь в аннотировании данных — процессе разметки данных, позволяющем применять их в системах искусственного интеллекта, особенно с использованием машинного обучения с учителем. Став безработной, она решила рискнуть.

Два года спустя Ван уже работала помощником проект-менеджера в пекинской компании Testin. Обычно она начинает свой рабочий день со встречи с клиентами, которые в основном представляют китайские технологические компании и стартапы в сфере AI. Клиент сначала передаёт ей в качестве теста небольшую долю массива данных. Если результаты удовлетворяют требованиям, Ван получает массив данных полностью. Затем она передаёт его производственной команде, обычно состоящей из десяти разметчиков и трёх контролёров. Такие команды настроены на эффективность и могут, например, аннотировать 10 тысяч изображений для распознавания дорожных полос примерно за восемь дней с точностью в 95%.


Читать: https://habr.com/ru/post/706974/
Connecting Oracle Analytics Cloud to Apache Hive on OCI Big Data Service residing at different OCI region

This article guides you in setting up connectivity between Oracle Analytics Cloud & OCI Big Data Services (BDS) when both the services are deployed in different OCI regions.
The article provides step-by-step instructions for configuring the Virtual Cloud Network (VCN) & OCI Big Data Service (BDS) that hosts the Apache Hive Service deployed in Phoenix region making it accessible from Oracle Analytics Cloud which is deployed in Ashburn region. No system can access it over the public Internet.

Read: https://blogs.oracle.com/analytics/post/connecting-oracle-analytics-cloud-to-apache-hive-on-oci-big-data-service-residing-at-different-oci-region
ETL и коннекторы к источникам данных: российские реалии

За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.

Зачем?

Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.

Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.

Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.


Читать: https://habr.com/ru/post/709996/
Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data


Читать: https://habr.com/ru/post/710338/
Create and schedule aggregates without an ETL tool in Oracle Fusion Analytics Warehouse

As enterprise data volumes surge, customers of Oracle Fusion Analytics Warehouse often need to create custom aggregate tables. This article addresses this critical need by outlining how custom aggregates can be created from transactional fact tables and scheduled automatically.

Read: https://blogs.oracle.com/analytics/post/faw_create-schedule-aggregates
👍1
Improve cache management in Oracle Analytics Cloud with Python

Learn how to manage the semantic model cache in Oracle Analytics Cloud using Python.

Read: https://blogs.oracle.com/analytics/post/improve-oac-cache-management-with-python
Как погода влияет на отзывы людей в интернете?

Как погода влияет на отзывы людей в интернете?

Ожидается, что мир преодолеет порог глобального потепления между 2027 и 2042 годами. Используя математические модели, которые анализируют текущее состояние климата Земли, ученые ожидают, что температура повысится на 1,5 градуса, как только мы достигнем этого уровня.

Правительства и экологические активисты многих стран мира бьют тревогу по поводу необходимости остановить климатическую катастрофу, которая нарастает быстрее, чем предполагалось в первоначальных прогнозах. Тем не менее, новые технологии будут играть важную роль в формировании политики и разработке инноваций, направленных на решение климатических проблем.

Если абстрагироваться от глобальных перемен климата и рассмотреть изменения состояния погоды, например, в России, то можно сделать несколько любопытных наблюдений.


Читать: https://habr.com/ru/post/710818/
RSNA 2022 Cervical Spine Fracture Detection, или как я переломы шейных позвонков искал

Доброго времени суток всем уважаемым хабровчанам. Меня зовут Алексей, и в данный момент я работаю в “Филиале №11 ООО "ОЦРВ" Сириус”. В этой статье я хотел бы поделиться с вами опытом своего участия в соревновании на достаточно известной соревновательной платформе по Data Science’у - Kaggle.
Перейдем к сути

Читать: https://habr.com/ru/post/710876/
ML-задача на 30 минут: гадаем по cookie

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

Приглашаем вас попробовать составить портрет пользователя на основе этих данных и посмотреть, насколько точным он получится. Также под катом вы найдете наш baseline решения, написание которого займет около получаса.


Читать: https://habr.com/ru/post/709602/
🔥1
Дайджест Python: итоги 2022 года, обзор версии 3.11 и курсы от Google

Дайджест интересных статей о Python: что нового в версии 3.11, гайды по программированию на Python и обучающие статьи.

Читать: «Дайджест Python: итоги 2022 года, обзор версии 3.11 и курсы от Google»
A look at the re-imagined Oracle Analytics mobile app

The Oracle Analytics mobile application has a new look and feel and improved user experience. Now you can stay connected to the information that you need on the go, search across all your reports and dashboards, and navigate through your personal and shared folders.

Read: https://blogs.oracle.com/analytics/post/a-look-at-the-re-imagined-oracle-analytics-mobile-app
👍1
Как стать архитектором ПО в 2023 году?

IT-архитектор — это проектировщик, который принимает ключевые решения. В банковской сфере IT-архитектору приходится строить сложные системы, учитывая такие особенности, как работа с большим количеством пользователей и объёмами данных.

Если любите стратегические задачи и большие проекты, эта специальность может стать работой мечты. Вместе с Владимиром Григорьевым, экспертом по архитектуре Газпромбанка, выделили области знаний, которые помогут сориентироваться в профессии:

Читать: https://tprg.ru/iEcW
Цвет сезона – слива. Что мы сделали с GreenPlum в 2022-м и что планируем в 2023-м

Привет, Хабр! Меня зовут Марк Лебедев, работаю архитектором в GlowByte. В июне 2022 года на митапе DataPeople мы с командой рассказывали о наших планах в части GreenPlum (запись выступления). Если коротко, тогда мы сфокусировались на развитии open-source и собирались выложить в публичный доступ наши наработки относительно мониторинга кластера и мониторинга запросов, плейбуки по инсталляции и наши подходы для нагрузочного тестирования. Собственно про них и хотелось бы поговорить подробно. В этой статье мы подведём итоги, что нам удалось сделать за прошедшие 6 месяцев, и расскажем о планах на будущий год. В конце статьи укажем все ссылки на репозитории.


Читать: https://habr.com/ru/post/711206/