Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Oracle Analytics Server is Available on Oracle Cloud Marketplace

Oracle Analytics Server (OAS) is available on Oracle Cloud Marketplace to make deployment on Oracle Cloud Infrastructure (OCI) quick and easy. With just a few short clicks, you have a fully configurable Oracle Analytics Server instance deployed securely in OCI.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-servernow-available-on-oci-marketplace

@big_data_analysis
Сотни миллионов рублей: посчитали, сколько тратит бизнес на российские BI-решения

Из чего складывается стоимость BI-решения? Сколько стоят отечественные BI-системы? Достоверные ответы на эти вопросы вы не нагуглите просто так. Да и для заказчиков ценник часто становится сюрпризом, уже не говоря о полной стоимости владения BI-системами.

Мы решили подсчитать, во сколько же на самом деле обходится BI для российских компаний, и провели небольшое исследование. О результатах которого я и рассказываю в этой статье (плюс провожу небольшой опрос).
Читать статью и пройти опрос

Читать: https://habr.com/ru/companies/sapiens_solutions/articles/801977/

@big_data_analysis
Манифест Киберправды

Данный текст является ответом на опубликованную накануне «Оду бесполезности споров» с целью рассказать о проекте, который намерен принципиально решить проблему анализа достоверности информации в Интернете и оценки репутации ее авторов. Я считаю, что новые никогда ранее не существовавшие децентрализованные технологии дают нам возможность наконец найти ответ на извечный вопрос «Что есть истина?», которым уже почти две тысячи лет задается человечество.


Читать: https://habr.com/ru/articles/802419/

@big_data_analysis
Highlighting data with conditional decorations in Oracle Analytics Cloud

This article demonstrates the capabilities in Oracle Analytics Cloud to conditionally display icons and emojis using conditional formatting rules in tiles, tables, pivot tables, and tile sections of composite visualizations on dashboards.

Read: https://blogs.oracle.com/analytics/post/highlighting-data-with-conditional-decorations-in-oac

@big_data_analysis
Где аналитику данных искать стажировки в России и зарубежом? + более 40 горящих стажировок

Стажировка, на мой взгляд, один из самых удачных способов запрыгнуть в аналитику данных.

👉 3 месяца стажировки в самом неприглядном месте лучше, чем то же время в поисках “идеальной” вакансии

👉 Стажировка в резюме выглядит привлекательнее учебных проектов

👉 После стажировки есть возможность трудоустройства в компанию
Читать больше и найти стажировку

Читать: https://habr.com/ru/articles/802943/

@big_data_analysis
​​Централизация дата-процессов экономит время и силы компании, а со временем повышает и рентабельность всего бизнеса

Но это только в том случае, если все процессы построены правильно. Технический директор платформы данных и менеджер продукта «Нейрошлюз» из «Ростелекома» рассказывают, как им удалось прийти к data-driven культуре в компани.

#советы
Forwarded from Нейроканал
​​Как превратить ChatGPT в верного помощника для анализа данных
 
Многие уже сейчас используют нейронки при написании простых рабочих задач. Но проблема в том, что на выходе мы получаем не всегда, тот результат, которого хотели, а иногда вообще кусок нелепицы
 
Чтобы исправить это дело, предлагаем обратить внимание на эту статью. Там вы найдёте примеры эффективных подсказок для ChatGPT, которые помогут в анализе данных, работе с SQL и Python. А также список плагинов и инструментов, которые расширяют возможности ChatGPT для автоматизации задач по анализу данных.

@neuro_channel
👍2
Первый этап внедрения ML: как провести разметку данных

В статье рассказываем, как подготовиться к разметке данных и провести оценку качества. А при неимении специалистов — кому её поручить. Бонусом в конце статьи чек-лист.

Читать: «Первый этап внедрения ML: как провести разметку данных»

@big_data_analysis
👍2
ANNA – сервис для автоматической разработки нейронных сетей

Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.


Читать: https://habr.com/ru/companies/alfa/articles/804085/

@big_data_analysis
🥰2
AutoML на практике — как делать автоматизацию, а не её иллюзию

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.


Читать: https://habr.com/ru/companies/alfa/articles/801435/

@big_data_analysis
Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты

Всем привет! Меня зовут Вячеслав Назаров, я лид аналитики промо в СберМаркете. В этой статье я расскажу, как оценивать маркетинговые кампании, если провести A/B- тесты нельзя. Еще обсудим логику в Propensity Score Matching (PSM), и то, какую пользу инструмент может принести вашему бизнесу. А в конце статьи покажу, как достаточно просто можно развернуть такую штуку у себя.


Читать: https://habr.com/ru/companies/sbermarket/articles/804875/

@big_data_analysis
👍2
Газпромбанк запускает GPB.Level Up: Data Science

Молодые специалисты могут пройти стажировку и получить оффер

Читать: «Газпромбанк запускает GPB.Level Up: Data Science»

@big_data_analysis
3 способа запуска Spark в Kubernetes из Airflow

После того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос, как это правильно делать. Во всемирной паутине предлагается несколько вариантов и мне было непонятно, какой из них стоит выбрать. Поэтому я попробовал некоторые из них и сейчас поделюсь полученным опытом.


Читать: https://habr.com/ru/articles/805143/

@big_data_analysis
Оптимизируем параметры запуска приложения Spark. Часть первая

Привет! Меня зовут Андрей Чучалов, я работаю в билайн, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.

Для чего это вообще нужно

Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».

В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.


Читать: https://habr.com/ru/companies/beeline_tech/articles/804513/

@big_data_analysis
Перфокарты против перфокарт: война систем до появления iOS и Android

Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.


Читать: https://habr.com/ru/articles/805519/

@big_data_analysis
The Role of Native Credentials in Oracle Analytics Cloud

This blog describes the role of native credentials in Oracle Analytics Cloud when using data source connection dialogs, the Model Administration Tool, Catalog Manager CLI, IDCS, REST APIs, and the Data Migration utility.

Read: https://blogs.oracle.com/analytics/post/oac-native-cred

@big_data_analysis
Implementing a Multi-Tenancy Model in Oracle Analytics Cloud: Securing Customer Data and Reports

This blog describes how to secure customer data and reports when implementing a multi-tenancy model in Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/oac-mtm-secure-customer-data

@big_data_analysis
Disaster Recovery for Oracle Analytics Server on Oracle Cloud Using RCU Schemas and Block Volume Replication

This blog describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and block volume replication.

Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-block-volume-replication

@big_data_analysis
1
Connecting an On-Premises Oracle Analytics Server to an IAM Domain for Single Sign-On Using the IAM App Gateway

This blog describes how to connect an on-premises Oracle Analytics Server to an OCI IAM Domain for Single Sign-On (SSO) using the App Gateway.

Read: https://blogs.oracle.com/analytics/post/onpremises-oas-sso-app-gateway

@big_data_analysis
​​Куда развиваться системным аналитикам в 2024 году

Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы

Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».

#советы