Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
7 направлений оптимизации ClickHouse, которые помогают в BI

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации.
А что там с оптимизацией ClickHouse?

Читать: https://habr.com/ru/companies/visiology/articles/794456/
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.


Читать: https://habr.com/ru/companies/alfa/articles/788290/
Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса

В современном мире данные играют все более важную роль в развитии бизнеса. Они позволяют принимать обоснованные и осознанные решения, а также выявлять потенциальные возможности для оптимизации и роста. Однако, необходимо понимать, что накопление большого объема данных само по себе недостаточно для достижения успеха. Чтобы преобразовать цифры в ценные инсайты, требуется искусство продуктовой аналитики.
Узнать подробнее

Читать: https://habr.com/ru/articles/794670/
👍2
Единая модель безопасности в Дельта BI

Для многих компаний анализ больших данных становится обыденной задачей. Этому способствует развитие технологий и снижение стоимости систем хранения. Поэтому сегодня многие компании могут собирать и хранить большие объемы разнородных данных. Кроме сбора и хранения данных, часто возникает необходимость их преобразования в удобный для пользователей вид, в чем помогают различные BI-системы.

Согласно исследованию IDC «Аналитика больших данных» более 50% опрошенных заявляют, что одним из ключевых факторов, влияющих на выбор решения для анализа больших данных является безопасность.

А как обстоят дела с безопасностью в Дельта BI?


Читать: https://habr.com/ru/companies/navicon/articles/794744/
Экзоскелет мощностью 1 лошадиная сила для ежедневных путешествий

Мы все испытывали усталость и беспомощность, таскали тяжелые предметы снаряжения, проходили десятки тысяч шагов, отставали на трассе и в конечном итоге разрушали свои планы.

С оснащенным экзоскелетом Hypershell Omega, вы можете идти на большие расстояния, взбираться на высокие горы, бегать быстро и нести больше груза, или просто идти с меньшими усилиями.


Читать: https://habr.com/ru/articles/794833/
FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Хабр, привет!

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.


Читать: https://habr.com/ru/companies/glowbyte/articles/795303/
Подготовка к собеседованию на позицию Data Scientist. Часть 1: Live Coding

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.


Читать: https://habr.com/ru/companies/megafon/articles/795261/
Forwarded from Нейроканал
OpenAI запустила форум для исследователей ИИ

На нём будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.

А тем, кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только. Для вступления необходимо проходить по некоторым критериям, но попробовать точно стоит!

#openai #нейроновости
1
Как связать натуральные ключи с суррогатным в Anchor Modeling

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?
Получить ответ

Читать: https://habr.com/ru/articles/795689/
How Banks Can Boost Cross-Selling: The Ultimate Guide

We explore how a central CRM system, mobile banking app and analytics software can help banks to succeed in cross-selling.

Read: https://www.scnsoft.com/finance/cross-selling-in-banking-guide
Типичные задачи аналитика. Часть 2. А есть ли тренд?

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.


Читать: https://habr.com/ru/articles/795251/
1
Banks need emotion recognition software to increase customer loyalty

Banking software consultants advice using text, voice and image analysis software to interpret customers’ emotions and boost customer loyalty.

Read: https://www.scnsoft.com/finance/banks-need-emotion-recognition-software-to-increase-customer-loyalty
👍1
Недвижимость и Big Data: плюсы технологии

Big Data представляет колоссальные массивы информации, собранные с различных платформ — начиная от социальных сетей и заканчивая данными о местоположении. Главное здесь — не сам объем данных, а способность эффективно их анализировать для извлечения значимых выводов.
Как Big Data помогает в работе с данными

Читать: https://habr.com/ru/articles/796923/
1
Кейс: разметка приложение с нуля на конкретном примере

Привет! На связи Сергей Матросов и команда X5 Tech, ответственная за аналитику в “Пятёрочке”. Хотим поделиться с вами тем, как мы внедрили трекер AppMetrica от Яндекса и сделали с помощью него разметку для приложения “Пятёрочки”. Почему мы остановились именно на этом фреймворке, какую мы выбрали архитектуру разметки, как писали правила и словари, а также разберём процесс разметки на живом примере разметки экрана приложения. Очень надеемся, что эта статья поможет вам сэкономить много времени, если перед вами будет стоять аналогичная задача.


Читать: https://habr.com/ru/companies/X5Tech/articles/797185/
Куда и как съехать с Qlik Sense

Куда и как съехать с Qlik Sense

Привет, Хабр! Сегодня я расскажу о том, как выбрать российскую BI, чтобы не потерять привычный уровень работы с данными в компании — и с чем придется столкнуться в процессе миграции.


Читать: https://habr.com/ru/companies/navicon/articles/797207/
Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.


Читать: https://habr.com/ru/articles/797361/
Configuring a Private SMTP Server in Oracle Analytics Cloud using OCI Load Balancers

This post describes how to leverage private SMTP servers with Oracle Analytics Cloud (OAC) while harnessing the power of Oracle Cloud Infrastructure (OCI) load balancers.

Read: https://blogs.oracle.com/analytics/post/oac-private-smtp
Deploy DNS Components for Oracle Fusion Analytics Service Endpoints Internet Access

Deploy in minutes the DNS components necessary for Internet access to Oracle Fusion Analytics service endpoints using Oracle Private DNS, Oracle Cloud Shell, and the Terraform OCI provider.

Read: https://blogs.oracle.com/analytics/post/deploy-dns-components-for-oracle-fusion-analytics-service-endpoints-internet-access
Системы автоматизации, SGRC

Современная кибербезопасность включает в себя множество различных аспектов, объектов и субъектов защиты: информационные активы компании (ИТ-системы, бизнес-приложения, серверы, рабочие станции, сетевое оборудование), файлы и данные в самых разных форматах (от структурированных в базах данных до "озер данных" и накапливаемых огромных объемов Big Data), процессы компании (основные бизнес-процессы, вспомогательные, ИТ-процессы, процессы кибербезопасности), персонал (от уборщиц до топ-менеджеров), различные используемые технологии (разнообразное программное и аппаратное обеспечение). Все данные сущности подлежат анализу с точки зрения кибербезопасности, которая в современной компании сфокусирована на защите процессов, персонала, технологий, данных. Основными процессами кибербезопасности являются:


Читать: https://habr.com/ru/articles/798233/

@big_data_analysis