Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Forwarded from Типичный программист
Если вам нужен швейцарский нож для работы с базами данных, попробуйте DBeaver

Это бесплатный инструмент для разработчиков, администраторов баз данных и аналитиков, поддерживающий практически любую базу данных с драйвером JDBC (что по сути означает - ЛЮБУЮ базу данных).

Функционал: DBeaver предлагает мощный SQL-редактор с подсветкой синтаксиса, автодополнением и форматированием запросов, редактор метаданных, диаграммы ERD, инструменты для экспорта, импорта и миграции данных, а также анализ планов выполнения SQL и т.д.

А благодаря поддержке плагинов, DBeaver можно легко адаптировать к вашим нуждам, добавляя специальные функции для работы с различными базами данных.

Осталось только лайк поставить и сохранить👍

#SQL #инструменты #dbeaver
👍6
Big Data мертвы, да здравствуют Smart Data

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.


Читать: https://habr.com/ru/companies/magnus-tech/articles/853192/

#ru

@big_data_analysis | Другие наши каналы
Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях.

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.


Читать: https://habr.com/ru/companies/data_light/articles/858540/

#ru

@big_data_analysis | Другие наши каналы
Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.


Читать: https://habr.com/ru/articles/857754/

#ru

@big_data_analysis | Другие наши каналы
Data catalog: от истории до сравнения решений

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных.

Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.


Читать: https://habr.com/ru/companies/vk/articles/857894/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer BI-tools

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.


Читать: https://habr.com/ru/articles/856922/

#ru

@big_data_analysis | Другие наши каналы
Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и ковергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.

Начнем с того, что мы понимаем под продажами ШПД и конвергенции.


Читать: https://habr.com/ru/companies/beeline_tech/articles/858904/

#ru

@big_data_analysis | Другие наши каналы
A/B тестирование в офлайне: как не потерять миллионы на масштабировании

Всем привет!

Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.


Читать: https://habr.com/ru/companies/lentatech/articles/858890/

#ru

@big_data_analysis | Другие наши каналы
Увеличиваем размер выборки и прокрашиваем серые метрики: неочевидная ошибка при проведении А/B — тестов

Иногда мы настолько бываем увлечены способами увеличения мощности тестов, снижения дисперсии, уменьшения длительности теста, что забываем смотреть на данные при использовании стандартного критерия Стьюдента. В этой статье я постараюсь простым языком рассказать о последствиях, к которым может привести слепой запуск A/B-тестов без предварительного А/А-тестирования.


Читать: https://habr.com/ru/articles/859088/

#ru

@big_data_analysis | Другие наши каналы
Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)


Читать: https://habr.com/ru/articles/859298/

#ru

@big_data_analysis | Другие наши каналы
Предельная польза продукта на примере Power BI

Продукт нельзя совершенствовать до бесконечности. У него всегда есть точка, после которой предельная полезность достигнута. И после её достижения дальнейшие обновления носят экспериментальный характер и менее востребованы, чем фундаментальный функционал. Расскажу, как понять, что предельная полезность достигнута на примере Power BI.


Читать: https://habr.com/ru/articles/859674/

#ru

@big_data_analysis | Другие наши каналы
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.


Читать: https://habr.com/ru/companies/cian/articles/859484/

#ru

@big_data_analysis | Другие наши каналы
Как мы работаем с качеством данных в Электронной коммерции

Привет! Меня зовут Саша Нефедова, и я работаю ведущим аналитиком по качеству данных в «Магните». Я больше года отвечала за направление Электронной коммерции, и в этой статье расскажу, как устроены наши процессы и какой результат дает командная работа на поприще управления данными.


Читать: https://habr.com/ru/companies/magnit/articles/859738/

#ru

@big_data_analysis | Другие наши каналы
Oracle Analytics вновь признан лидером

Nucleus Research в очередной раз назвал Oracle Analytics лидером в рейтинге Embedded Analytics Value Matrix. Узнайте, почему это решение для аналитики продолжает занимать топовые позиции и какие преимущества оно предлагает пользователям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔒 Как защитить Oracle Analytics Cloud: Zero Trust в действии

Узнайте, как технология Zero Trust Packet Routing помогает обеспечить безопасность ресурсов Oracle Analytics Cloud. Обзор важнейших принципов внедрения системы, которая защищает ваши данные, минимизируя риски доступа. Разберитесь, как укрепить ваш бизнес в условиях цифровых угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обеспечиваем безопасность Oracle Analytics с Zero Trust

В статье рассматривается использование компонентов маршрутизации пакетов с политикой нулевого доверия для повышения безопасности Oracle Analytics Services. Узнайте, как эти меры могут защитить ваши данные от потенциальных угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как LLM может валидировать данные

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.


Читать: https://habr.com/ru/articles/859874/

#ru

@big_data_analysis | Другие наши каналы
Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/859944/

#ru

@big_data_analysis | Другие наши каналы
Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.


Читать: https://habr.com/ru/articles/860050/

#ru

@big_data_analysis | Другие наши каналы
Четыре вида аналитики данных: дескриптивная, диагностическая, предиктивная, прескриптивная

В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.

В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных:

- Описательном

- Диагностическом

- Предиктивном

- Предписывающем


Читать: https://habr.com/ru/articles/860078/

#ru

@big_data_analysis | Другие наши каналы