Перфокарты против перфокарт: война систем до появления iOS и Android
Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.
Читать: https://habr.com/ru/articles/805519/
@big_data_analysis
Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.
Читать: https://habr.com/ru/articles/805519/
@big_data_analysis
The Role of Native Credentials in Oracle Analytics Cloud
This blog describes the role of native credentials in Oracle Analytics Cloud when using data source connection dialogs, the Model Administration Tool, Catalog Manager CLI, IDCS, REST APIs, and the Data Migration utility.
Read: https://blogs.oracle.com/analytics/post/oac-native-cred
@big_data_analysis
This blog describes the role of native credentials in Oracle Analytics Cloud when using data source connection dialogs, the Model Administration Tool, Catalog Manager CLI, IDCS, REST APIs, and the Data Migration utility.
Read: https://blogs.oracle.com/analytics/post/oac-native-cred
@big_data_analysis
Oracle
The Role of Native Credentials in Oracle Analytics Cloud
The Role of Native Credentials in Oracle Analytics Cloud while using Data Source Connections Dialog, BI Admin Tool, Catalog Manager, IDCS and OAC REST APIs, and Data Migration Utility
Implementing a Multi-Tenancy Model in Oracle Analytics Cloud: Securing Customer Data and Reports
This blog describes how to secure customer data and reports when implementing a multi-tenancy model in Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-mtm-secure-customer-data
@big_data_analysis
This blog describes how to secure customer data and reports when implementing a multi-tenancy model in Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-mtm-secure-customer-data
@big_data_analysis
Disaster Recovery for Oracle Analytics Server on Oracle Cloud Using RCU Schemas and Block Volume Replication
This blog describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and block volume replication.
Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-block-volume-replication
@big_data_analysis
This blog describes how to implement disaster recovery for Oracle Analytics Server on Oracle Cloud using RCU schemas replication and block volume replication.
Read: https://blogs.oracle.com/analytics/post/oas-dr-rcu-block-volume-replication
@big_data_analysis
Oracle
Disaster Recovery of Oracle Analytics Server on Oracle Cloud using RCU Schemas and Block Volume Replication
Disaster Recovery of Oracle Analytics Server on Oracle Cloud Marketplace and Compute Instance using RCU Schemas Replication and Block Volume Replication
❤1
Connecting an On-Premises Oracle Analytics Server to an IAM Domain for Single Sign-On Using the IAM App Gateway
This blog describes how to connect an on-premises Oracle Analytics Server to an OCI IAM Domain for Single Sign-On (SSO) using the App Gateway.
Read: https://blogs.oracle.com/analytics/post/onpremises-oas-sso-app-gateway
@big_data_analysis
This blog describes how to connect an on-premises Oracle Analytics Server to an OCI IAM Domain for Single Sign-On (SSO) using the App Gateway.
Read: https://blogs.oracle.com/analytics/post/onpremises-oas-sso-app-gateway
@big_data_analysis
Oracle
Connecting the Oracle Analytics Server On-Premises to the IAM Domain for Single Sign-On using the IAM App Gateway
Куда развиваться системным аналитикам в 2024 году
Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы
Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».
#советы
Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы
Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».
#советы
Python streaming (spark+kafka)
В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ
Читать: https://habr.com/ru/articles/806287/
@big_data_analysis
В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ
Читать: https://habr.com/ru/articles/806287/
@big_data_analysis
Ликбез по методологиям проектирования хранилищ данных
Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.
Рассмотрим сильные и слабые стороны самых популярных методологий.
Читать: https://habr.com/ru/articles/806347/
@big_data_analysis
Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.
Рассмотрим сильные и слабые стороны самых популярных методологий.
Читать: https://habr.com/ru/articles/806347/
@big_data_analysis
Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики
В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.
Читать: https://habr.com/ru/companies/productstar/articles/806529/
@big_data_analysis
В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.
Читать: https://habr.com/ru/companies/productstar/articles/806529/
@big_data_analysis
👍4❤2
Более 250 бесплатных курсов и ресурсов по аналитике
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать.
Читать: https://habr.com/ru/articles/806753/
@big_data_analysis
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать.
Читать: https://habr.com/ru/articles/806753/
@big_data_analysis
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Давайте смотреть датасет
Читать: https://habr.com/ru/articles/806857/
@big_data_analysis
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Давайте смотреть датасет
Читать: https://habr.com/ru/articles/806857/
@big_data_analysis
Геоаналитика в FineBI действии: разбираем кейс Tele2 и подключаем “Яндекс”, Google и другие карты
Привет, любознательные друзья данных!
Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.
Читать: https://habr.com/ru/companies/glowbyte/articles/807329/
@big_data_analysis
Привет, любознательные друзья данных!
Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.
Читать: https://habr.com/ru/companies/glowbyte/articles/807329/
@big_data_analysis
Spark. План запросов на примерах
Всем привет!
В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
Читать: https://habr.com/ru/articles/807421/
@big_data_analysis
Всем привет!
В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
Читать: https://habr.com/ru/articles/807421/
@big_data_analysis
Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU
С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.
Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.
Читать: https://habr.com/ru/companies/hostkey/articles/808251/
@big_data_analysis
С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.
Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.
Читать: https://habr.com/ru/companies/hostkey/articles/808251/
@big_data_analysis
Predictive Analytics — все, что нужно знать (обзор ключевых моментов)
Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»
Читать: https://habr.com/ru/articles/808423/
@big_data_analysis
Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»
Читать: https://habr.com/ru/articles/808423/
@big_data_analysis
Восхитительная теория [якорных] баз данных от Ларса Рённбека
Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...
Читать: https://habr.com/ru/articles/808191/
@big_data_analysis
Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...
Читать: https://habr.com/ru/articles/808191/
@big_data_analysis
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,
— тут у нас функции
Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа
Предупреждение о сложности материала
Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.
Читать: https://habr.com/ru/articles/808483/
@big_data_analysis
В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,
SELECT
MAX(score1, score2, score3, score4, score5) AS max_score,
MIN(score1, score2, score3, score4, score5) AS min_score,
MEDIAN(score1, score2, score3, score4, score5) AS median_score,
score1 + score2 + score3 + score4 + score5 AS score_sum
FROM raw_scores INTO final_scores
WHERE ABS(score1 + score2 + score3 + score4 + score5) > $score_margin;
— тут у нас функции
MAX
, MIN
и MEDIAN
принимают любое количество аргументов типа Double
и возвращают Double
, а ABS
только один такой аргумент.Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа
>=
или LIKE
, которые у нас уже были реализованы, но хардкодом, сделаем такими же подключаемыми.Предупреждение о сложности материала
Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.
Читать: https://habr.com/ru/articles/808483/
@big_data_analysis
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.
В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.
Читать: https://habr.com/ru/companies/megafon/articles/808585/
@big_data_analysis
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.
В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.
Читать: https://habr.com/ru/companies/megafon/articles/808585/
@big_data_analysis
Embedding Analytics for the Win
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports data, they feel more connected to the success of the players and teams they support.
Read: https://blogs.oracle.com/analytics/post/embedding-analytics-for-the-win
@big_data_analysis
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports data, they feel more connected to the success of the players and teams they support.
Read: https://blogs.oracle.com/analytics/post/embedding-analytics-for-the-win
@big_data_analysis
Oracle
Embedding Analytics for the Win
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports…
Разработка программного средства по обработке данных фонокардиограммы
Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).
Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.
ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].
Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).
Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.
Читать: https://habr.com/ru/articles/809095/
@big_data_analysis
Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).
Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.
ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].
Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).
Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.
Читать: https://habr.com/ru/articles/809095/
@big_data_analysis