Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Highlighting data with conditional decorations in Oracle Analytics Cloud

This article demonstrates the capabilities in Oracle Analytics Cloud to conditionally display icons and emojis using conditional formatting rules in tiles, tables, pivot tables, and tile sections of composite visualizations on dashboards.

Read: https://blogs.oracle.com/analytics/post/highlighting-data-with-conditional-decorations-in-oac

@big_data_analysis
Где аналитику данных искать стажировки в России и зарубежом? + более 40 горящих стажировок

Стажировка, на мой взгляд, один из самых удачных способов запрыгнуть в аналитику данных.

👉 3 месяца стажировки в самом неприглядном месте лучше, чем то же время в поисках “идеальной” вакансии

👉 Стажировка в резюме выглядит привлекательнее учебных проектов

👉 После стажировки есть возможность трудоустройства в компанию
Читать больше и найти стажировку

Читать: https://habr.com/ru/articles/802943/

@big_data_analysis
​​Централизация дата-процессов экономит время и силы компании, а со временем повышает и рентабельность всего бизнеса

Но это только в том случае, если все процессы построены правильно. Технический директор платформы данных и менеджер продукта «Нейрошлюз» из «Ростелекома» рассказывают, как им удалось прийти к data-driven культуре в компани.

#советы
Forwarded from Нейроканал
​​Как превратить ChatGPT в верного помощника для анализа данных
 
Многие уже сейчас используют нейронки при написании простых рабочих задач. Но проблема в том, что на выходе мы получаем не всегда, тот результат, которого хотели, а иногда вообще кусок нелепицы
 
Чтобы исправить это дело, предлагаем обратить внимание на эту статью. Там вы найдёте примеры эффективных подсказок для ChatGPT, которые помогут в анализе данных, работе с SQL и Python. А также список плагинов и инструментов, которые расширяют возможности ChatGPT для автоматизации задач по анализу данных.

@neuro_channel
👍2
Первый этап внедрения ML: как провести разметку данных

В статье рассказываем, как подготовиться к разметке данных и провести оценку качества. А при неимении специалистов — кому её поручить. Бонусом в конце статьи чек-лист.

Читать: «Первый этап внедрения ML: как провести разметку данных»

@big_data_analysis
👍2
ANNA – сервис для автоматической разработки нейронных сетей

Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.


Читать: https://habr.com/ru/companies/alfa/articles/804085/

@big_data_analysis
🥰2
AutoML на практике — как делать автоматизацию, а не её иллюзию

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.


Читать: https://habr.com/ru/companies/alfa/articles/801435/

@big_data_analysis
Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты

Всем привет! Меня зовут Вячеслав Назаров, я лид аналитики промо в СберМаркете. В этой статье я расскажу, как оценивать маркетинговые кампании, если провести A/B- тесты нельзя. Еще обсудим логику в Propensity Score Matching (PSM), и то, какую пользу инструмент может принести вашему бизнесу. А в конце статьи покажу, как достаточно просто можно развернуть такую штуку у себя.


Читать: https://habr.com/ru/companies/sbermarket/articles/804875/

@big_data_analysis
👍2
Газпромбанк запускает GPB.Level Up: Data Science

Молодые специалисты могут пройти стажировку и получить оффер

Читать: «Газпромбанк запускает GPB.Level Up: Data Science»

@big_data_analysis
3 способа запуска Spark в Kubernetes из Airflow

После того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос, как это правильно делать. Во всемирной паутине предлагается несколько вариантов и мне было непонятно, какой из них стоит выбрать. Поэтому я попробовал некоторые из них и сейчас поделюсь полученным опытом.


Читать: https://habr.com/ru/articles/805143/

@big_data_analysis
Оптимизируем параметры запуска приложения Spark. Часть первая

Привет! Меня зовут Андрей Чучалов, я работаю в билайн, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.

Для чего это вообще нужно

Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».

В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.


Читать: https://habr.com/ru/companies/beeline_tech/articles/804513/

@big_data_analysis
Перфокарты против перфокарт: война систем до появления iOS и Android

Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.


Читать: https://habr.com/ru/articles/805519/

@big_data_analysis
The Role of Native Credentials in Oracle Analytics Cloud

This blog describes the role of native credentials in Oracle Analytics Cloud when using data source connection dialogs, the Model Administration Tool, Catalog Manager CLI, IDCS, REST APIs, and the Data Migration utility.

Read: https://blogs.oracle.com/analytics/post/oac-native-cred

@big_data_analysis
Implementing a Multi-Tenancy Model in Oracle Analytics Cloud: Securing Customer Data and Reports

This blog describes how to secure customer data and reports when implementing a multi-tenancy model in Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/oac-mtm-secure-customer-data

@big_data_analysis
Disaster Recovery for Oracle Analytics Server on Oracle Cloud Using RCU Schemas and Block Volume Replication

This blog describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and block volume replication.

Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-block-volume-replication

@big_data_analysis
1
Connecting an On-Premises Oracle Analytics Server to an IAM Domain for Single Sign-On Using the IAM App Gateway

This blog describes how to connect an on-premises Oracle Analytics Server to an OCI IAM Domain for Single Sign-On (SSO) using the App Gateway.

Read: https://blogs.oracle.com/analytics/post/onpremises-oas-sso-app-gateway

@big_data_analysis
​​Куда развиваться системным аналитикам в 2024 году

Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы

Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».

#советы
Python streaming (spark+kafka)

В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ


Читать: https://habr.com/ru/articles/806287/

@big_data_analysis
Ликбез по методологиям проектирования хранилищ данных

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.


Читать: https://habr.com/ru/articles/806347/

@big_data_analysis
Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики

В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.


Читать: https://habr.com/ru/companies/productstar/articles/806529/

@big_data_analysis
👍42