Data Analysis / Big Data
2.82K subscribers
575 photos
4 videos
2 files
2.72K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут

Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.

В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.

Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.
Далее про наш кейс

Читать: https://habr.com/ru/post/722882/
Advisor Webcast: Security Integration of Oracle Analytics Server with E-Business Suite

ADVISOR WEBCAST: Security Integration of Oracle Analytics Server with E-Business Suite on March 29, 2023 (Doc ID 2920301.2)

Read: https://blogs.oracle.com/analytics/post/advisor-webcast-security-integration-of-oracle-analytics-server-with-e-business-suite
Oracle Analytics platform for both business and IT-led analytics

Learn about mode 1 and mode 2 analytics, and why every organization needs both.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-platform-for-both-business-and-it-led-analytics
Работа с научными данными в рамках data-driven подхода

В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.

В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.


Читать: https://habr.com/ru/post/723402/
YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT,  ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.


Читать: https://habr.com/ru/post/721526/
Почему Data Science не для вас?

Data Science сейчас во многом благодаря активному маркетингу становится очень популярной темой. Быть датасаентистом – модно и, как говорят многие рекламки, которые часто попадаются на глаза, не так уж и сложно. Ходят слухи, что работодатели стоят в очереди за возможность взять человека с курсов. Получить оффер на работу крайне легко, ведь в ваши обязанности будет входить требование данных от заказчика (как обычно говорят, чем больше данных – тем лучше) и закидывать их в искусственный интеллект, который работает по принципу черного ящика. Кстати, еще и платят немереное количество денег за всё это.

Спойлер: это не так.

В этой душераздирающей статье решили попробовать отговорить людей, которые готовы оставить кучу денег за курсы по Data Science, браться за это дело, а может быть и помочь определиться с тем, что на самом деле стоит сделать, чтобы встать на путь истинный.


Читать: https://habr.com/ru/post/723542/
[recovery mode] 7 причин интегрировать IT в свой бизнес

1. It поможет вам защитить свой бизнес от целенаправленных кибератак.  По мере того как киберугрозы становятся все более изощренными, ИТ-команда поможет защитить ваш бизнес от потенциальных кибератак, которые могут привести к потере данных, ущербу для репутации и финансовым потерям.


Читать: https://habr.com/ru/post/724140/
Access Oracle Analytics Cloud logs through integration with Oracle Cloud Infrastructure Logging

Oracle Analytics Cloud audit and diagnostic logs can now be emitted to the Oracle Cloud Infrastructure Logging service. Learn what is logged, how to access logs, and options for analyzing logs.

Read: https://blogs.oracle.com/analytics/post/access-oac-logs-with-oracle-cloud-infrastructure-logging
👍1
Не цель важна, а важен путь. Как определить оптимальную подпоследовательность тем при автоматизации чатов

При разработке чат-бота мы столкнулись с задачей планирования этапов автоматизации. Эта задача возникает, когда охватить все темы невозможно из-за их многочисленности и постоянного изменения их содержания. Поэтому перед реализацией сценариев важно понимать, какое множество тем чатов необходимо покрыть в первую очередь, чтобы за фиксированный период времени и с ограниченным количеством ресурсов достичь максимального эффекта. В статье разберем постановку задачи, ее формализацию и одно из решений.


Читать: https://habr.com/ru/post/720832/
Ищем человека, который будет строить сообщество по темам Python / Data Science / AI в Tproger

Если вы довольно неплохо разбираетесь в этих темах и при этом видите в себе желание рассказывать об этом другим разработчикам и вовлекать их в горячие обсуждения — возможно, это именно ваша вакансия.

Подробности, тестовое задание и отклик здесь: https://tprg.ru/GEZL
An Engineering Guide to Data Creation - A Data Contract perspective - Part 1

Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-creation
Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.


Читать: https://habr.com/ru/post/724286/
NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

NULL - это специальное значение, которое используется в SQL для обозначения отсутствия данных. Оно отличается от пустой строки или нулевого значения, так как NULL означает отсутствие какого-либо значения в ячейке таблицы.

История появления NULL в SQL довольно интересна и длинна. В начале 1970-х годов Д. Камерер (D. Chamberlin) и Р. Бойд (R. Boyce) предложили использовать реляционную модель для полной замены иерархических и сетевых моделей данных, которые были актуальны в то время. Полная замена предполагала возможность хранения значений NULL в таблицах структуры базы данных.

Первоначально, NULL был создан как интегральный элемент реляционной модели данных. Это означало, что NULL мог быть использован в качестве значения для любого типа данных (целого числа, строки и т.д.) или даже целой строки (например, таких значений как "неизвестно" или "нет данных").

Когда была разработана SQL, NULL был реализован как специальное значение или маркер, который указывает на отсутствие значения в столбце. Таким образом, в SQL NULL означает отсутствие значения или неопределенное значение.

Однако, NULL создал некоторые проблемы при работе с данными в SQL. Например, если вы выполняете операцию на столбце, содержащем NULL значение, результат операции также будет NULL. Это означает, что использование NULL может приводить к нежелательным результатам, таким как непредсказуемое поведение.

Однако, важно понимать, что NULL не обязательно означает отсутствие информации или отсутствие значения в столбце. NULL может быть использован для разных целей, таких как указание на неопределенный результат для вычислений или как маркер для отметки отсутствия значения в таблице.


Читать: https://habr.com/ru/post/725214/
Весенний бум: 6 востребованных IT-специальностей

Собрали для вас список из шести перспективных IT-профессий, где уже сейчас остро требуются толковые специалисты.

Читать: «Весенний бум: 6 востребованных IT-специальностей»
👍1
Весенний бум: 6 востребованных IT-специальностей

Собрали для вас список из шести перспективных IT-профессий, где уже сейчас остро требуются толковые специалисты.

Читать: «Весенний бум: 6 востребованных IT-специальностей»
Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.


Читать: https://habr.com/ru/post/725414/
🔥4
Using Oracle Fusion HCM Analytics to reconcile Data Integrity – Analyze, understand, and action on fusion rejects

Making informed decisions requires two key components: fostering data literacy within your organization company and keeping reliable data in your underlying transaction system. Read this post to understand how Fusion Analytics helps you on both fronts by identifying erroneous transactions in source Cloud HCM.

Read: https://blogs.oracle.com/analytics/post/hcm-analytics-rejects-guidance
Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live

Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-oas-2023-update-700-is-live