By the Numbers: Harry Kane’s 200 Premier League Goals
Check out how Oracle Cloud data analysis provides a deep dive into the Tottenham striker’s career milestone.
Read: https://blogs.oracle.com/analytics/post/premier-league-harry-kane
Check out how Oracle Cloud data analysis provides a deep dive into the Tottenham striker’s career milestone.
Read: https://blogs.oracle.com/analytics/post/premier-league-harry-kane
Гайд по созданию Big Data-проектов в облаке: технологический стек, этапы и подводные камни
Любой специалист, который когда-либо работал с Big Data знает, что в подобных проектах большой не только объем данных. Также это внушительные вычислительные ресурсы, разветвленный технологический стек и мощная инфраструктура. Поэтому Big Data-проекты часто реализовывают в облаке.
Меня зовут Алексей Бестужев, я архитектор VK Cloud, и в этой статье мы обсудим нюансы и неочевидные особенности запуска процессов при работе с большими данными в облаке.
Материал подготовлен на основе нашего совместного вебинара с Кириллом Сливчиковым, управляющим партнером компании 7RedLines.
Читать: https://habr.com/ru/post/714124/
Любой специалист, который когда-либо работал с Big Data знает, что в подобных проектах большой не только объем данных. Также это внушительные вычислительные ресурсы, разветвленный технологический стек и мощная инфраструктура. Поэтому Big Data-проекты часто реализовывают в облаке.
Меня зовут Алексей Бестужев, я архитектор VK Cloud, и в этой статье мы обсудим нюансы и неочевидные особенности запуска процессов при работе с большими данными в облаке.
Материал подготовлен на основе нашего совместного вебинара с Кириллом Сливчиковым, управляющим партнером компании 7RedLines.
Читать: https://habr.com/ru/post/714124/
Реальный путь в data science
Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.
Читать: https://habr.com/ru/post/715234/
Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.
Читать: https://habr.com/ru/post/715234/
Select the best option to render dashboards in Oracle Analytics Cloud
This article describes the options available for rendering dashboards in Oracle Analytics Cloud
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-dashboard-rendering-mode-options
This article describes the options available for rendering dashboards in Oracle Analytics Cloud
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-dashboard-rendering-mode-options
Oracle
Oracle Analytics Dashboard Rendering Mode Options
understand the options for rendering dashboards in Oracle Analytics Cloud
Embedding Fusion Analytics Content in Oracle Application Cloud
A Digital Sales Oracle Application Cloud customer, who has also bought the Fusion Analytics warehouse; there are some use cases that warrant embedding Fusion Analytics content in Oracle Application Cloud as it provides contextual information on the primary CX application that the users use.
Read: https://blogs.oracle.com/analytics/post/embedding-fusion-analytics-content-in-oracle-application-cloud
A Digital Sales Oracle Application Cloud customer, who has also bought the Fusion Analytics warehouse; there are some use cases that warrant embedding Fusion Analytics content in Oracle Application Cloud as it provides contextual information on the primary CX application that the users use.
Read: https://blogs.oracle.com/analytics/post/embedding-fusion-analytics-content-in-oracle-application-cloud
Создаём оптимизированный план ТОиР с помощью F5 EAM Optimizer
Дефицит комплектующих, изменение логистических маршрутов, последствия коронакризиса и влияние западных санкций в 2022 году подтолкнули российские промышленные предприятия искать новые способы сохранения и повышения эффективности производства. Промышленным предприятиям нужны решения для оптимизации процессов техобслуживания и ремонта «сейчас» и построения концепции цифрового предприятия «завтра». На старте, как правило, покрываются основные элементы ТОиР, затем можно переходить к расширенным сценариям мониторинга на основе данных телеметрии и к оптимизации планов, и уже после этого внедрять модели предиктивного анализа. В этой статье мы хотим рассказать о том, как оптимизировать планы технического обслуживания и ремонта с помощью системы F5 EAM и ее модуля EAM Optimizer.
Читать: https://habr.com/ru/post/715354/
Дефицит комплектующих, изменение логистических маршрутов, последствия коронакризиса и влияние западных санкций в 2022 году подтолкнули российские промышленные предприятия искать новые способы сохранения и повышения эффективности производства. Промышленным предприятиям нужны решения для оптимизации процессов техобслуживания и ремонта «сейчас» и построения концепции цифрового предприятия «завтра». На старте, как правило, покрываются основные элементы ТОиР, затем можно переходить к расширенным сценариям мониторинга на основе данных телеметрии и к оптимизации планов, и уже после этого внедрять модели предиктивного анализа. В этой статье мы хотим рассказать о том, как оптимизировать планы технического обслуживания и ремонта с помощью системы F5 EAM и ее модуля EAM Optimizer.
Читать: https://habr.com/ru/post/715354/
❤1
Меры центральности в Network Science
Привет, Хабр!
Меня зовут Сергей Коньков, я Data Scientist и участник профессионального сообщества NTA. За последние 10 лет интерес к науке Network Science неимоверно возрос, что повлекло за собой закономерное развитие всевозможных инструментов для исследований в данной области. Одним из таких инструментов является python-библиотека NetworkX, предназначенная для анализа графов или других сетевых структур. Этот пост будет направлен на объяснение и демонстрацию работы основных мер центральности, вычисляемых в графах.
Читать: https://habr.com/ru/post/715386/
Привет, Хабр!
Меня зовут Сергей Коньков, я Data Scientist и участник профессионального сообщества NTA. За последние 10 лет интерес к науке Network Science неимоверно возрос, что повлекло за собой закономерное развитие всевозможных инструментов для исследований в данной области. Одним из таких инструментов является python-библиотека NetworkX, предназначенная для анализа графов или других сетевых структур. Этот пост будет направлен на объяснение и демонстрацию работы основных мер центральности, вычисляемых в графах.
Читать: https://habr.com/ru/post/715386/
Tackle Order-to-Cash Challenges with Oracle Fusion Analytics
Discover how to identify, predict, and mitigate risks across order-to-cash processes with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/tackle-order-to-cash-challenges-with-oracle-fusion-analytics
Discover how to identify, predict, and mitigate risks across order-to-cash processes with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/tackle-order-to-cash-challenges-with-oracle-fusion-analytics
Oracle
Tackle Order-to-Cash Challenges with Oracle Fusion Analytics
Discover how to identify, predict and mitigate risks across order-to cash processes with Oracle Fusion Analytics.
Oracle Analytics technical support videos are available
Now available: Oracle Analytics technical support videos
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-technical-support-videos-are-available
Now available: Oracle Analytics technical support videos
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-technical-support-videos-are-available
Oracle
Oracle Analytics technical support videos are available
Now available: Oracle Analytics technical support videos
Платформа данных в Леруа Мерлен — как мы победили масштабирование
Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.
Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.
Читать: https://habr.com/ru/post/712946/
Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.
Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.
Читать: https://habr.com/ru/post/712946/
MLOps в облаке: как организовать работу над ML-экспериментами с помощью MLflow
В свое время DevOps заметно изменил подход к разработке программного обеспечения. Последние пару лет благодаря практикам MLOps меняются принципы и подходы к работе дата-специалистов. Александр Волынский (Technical Product Manager ML Platform VK Cloud) и Сергей Артюхин (преподаватель программы «Симулятор ML» в Karpov Courses) рассказывают, почему MLOps — «новый черный» и как безболезненно реализовать этот подход в своем проекте.
Читать: https://habr.com/ru/post/712900/
В свое время DevOps заметно изменил подход к разработке программного обеспечения. Последние пару лет благодаря практикам MLOps меняются принципы и подходы к работе дата-специалистов. Александр Волынский (Technical Product Manager ML Platform VK Cloud) и Сергей Артюхин (преподаватель программы «Симулятор ML» в Karpov Courses) рассказывают, почему MLOps — «новый черный» и как безболезненно реализовать этот подход в своем проекте.
Читать: https://habr.com/ru/post/712900/
Биоинформатика — это не набор инструкций
У Бластима недавно завершился интенсив «анализ NGS-данных». На прошедшем потоке к команде лекторов присоединился новый преподаватель Алексей Зарубин. Перед стартом курса мы задали ему несколько вопросов про профессиональный рост и текущие научные задачи, а также спросили совета, что нужно для успешной карьеры в области «сухой биологии». Публикуем самое интересное из интервью с Алексеем.
Читать: https://habr.com/ru/post/713344/
У Бластима недавно завершился интенсив «анализ NGS-данных». На прошедшем потоке к команде лекторов присоединился новый преподаватель Алексей Зарубин. Перед стартом курса мы задали ему несколько вопросов про профессиональный рост и текущие научные задачи, а также спросили совета, что нужно для успешной карьеры в области «сухой биологии». Публикуем самое интересное из интервью с Алексеем.
Читать: https://habr.com/ru/post/713344/
Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark
Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они используются в машинном обучении для управления процессом обучения модели. Соответственно, подбор оптимальных гиперпараметров — критически важный этап в построении ML-моделей. Это даёт возможность не только повысить точность, но и бороться с переобучением.
Привычный тюнинг параметров в Python для моделей машинного обучения представляет собой множество техник и способов, например GridSearch, RandomSearch, HyperOpt, Optuna. Но бывают случаи, когда предобработка данных занимает слишком много времени или же объём данных слишком велик, чтобы уместиться в оперативную память одной машины. Для этого на помощь приходит Spark. Подробности — под катом.
Как всё это работает?
Читать: https://habr.com/ru/post/715678/
Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они используются в машинном обучении для управления процессом обучения модели. Соответственно, подбор оптимальных гиперпараметров — критически важный этап в построении ML-моделей. Это даёт возможность не только повысить точность, но и бороться с переобучением.
Привычный тюнинг параметров в Python для моделей машинного обучения представляет собой множество техник и способов, например GridSearch, RandomSearch, HyperOpt, Optuna. Но бывают случаи, когда предобработка данных занимает слишком много времени или же объём данных слишком велик, чтобы уместиться в оперативную память одной машины. Для этого на помощь приходит Spark. Подробности — под катом.
Как всё это работает?
Читать: https://habr.com/ru/post/715678/
Strategies for validating observational studies 1/2
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/02/strategies-for-validating-observational-studies.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/02/strategies-for-validating-observational-studies.html
Как тестировать в Databricks: Nutter Framework
Если с тестированием привычных программных продуктов более-менее ясно, то вот с BigData возникает множество вопросов. Если у вас Java - у вас есть как минимум JUnit, а абсолютное большинство фреймворков заботятся о простоте тестирования. Например Spring посвящает этому очень много документации. Тестирование фронтенда тоже хорошо проработано: от Selenium до JestJs. Тестировать блокчейн и смарт-контракты одно удовольствие (хотя бы на Ethereum сети благодаря Truffle Suite)
Что делать, если вы используете Databricks? Обычные библиотеки для тестирования туда плохо заходят, и даже несколько официальных руководств по тестированию не отвечают на все вопросы. Ответ, который нашла наша команда, - Nutter Framework.
Как же его использовать?
Читать: https://habr.com/ru/post/715524/
Если с тестированием привычных программных продуктов более-менее ясно, то вот с BigData возникает множество вопросов. Если у вас Java - у вас есть как минимум JUnit, а абсолютное большинство фреймворков заботятся о простоте тестирования. Например Spring посвящает этому очень много документации. Тестирование фронтенда тоже хорошо проработано: от Selenium до JestJs. Тестировать блокчейн и смарт-контракты одно удовольствие (хотя бы на Ethereum сети благодаря Truffle Suite)
Что делать, если вы используете Databricks? Обычные библиотеки для тестирования туда плохо заходят, и даже несколько официальных руководств по тестированию не отвечают на все вопросы. Ответ, который нашла наша команда, - Nutter Framework.
Как же его использовать?
Читать: https://habr.com/ru/post/715524/
👍2
Шпаргалки для data science
Подготовил шпаргалки для людей, использующих в своей работе python, sql, git, pandas numpy
Читать: https://habr.com/ru/post/715752/
Подготовил шпаргалки для людей, использующих в своей работе python, sql, git, pandas numpy
Читать: https://habr.com/ru/post/715752/
👍1👎1
Strategies for validating observational studies 2/2
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/02/strategies-for-validating-observational-studies-22.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/02/strategies-for-validating-observational-studies-22.html
Независимый рейтинг TAdviser: чем Visiology отличается от других вендоров российского BI?
Привет, Хабр! Буквально на днях был опубликован рейтинг TAdviser рынка BI. Редакция долго готовила свой обзор, хотя для составления рейтингов компаний использовались данные 2021 года. В общем-то промедление в данном случае понятно, ведь мы оказались в состоянии переходного периода, когда западные системы внезапно перешли для пользователей в “серую” зону. Но зато результаты этой аналитической работы принесли сразу несколько интересных мыслей, на которые я хотел бы обратить внимание в этом посте.
Читать: https://habr.com/ru/post/716136/
Привет, Хабр! Буквально на днях был опубликован рейтинг TAdviser рынка BI. Редакция долго готовила свой обзор, хотя для составления рейтингов компаний использовались данные 2021 года. В общем-то промедление в данном случае понятно, ведь мы оказались в состоянии переходного периода, когда западные системы внезапно перешли для пользователей в “серую” зону. Но зато результаты этой аналитической работы принесли сразу несколько интересных мыслей, на которые я хотел бы обратить внимание в этом посте.
Читать: https://habr.com/ru/post/716136/
Как найти информативные фичи с лассо и в лесу
Ну здравствуй, Хабр! Меня зовут Кирилл Тобола, я Data Scientist в Сбере. Сегодня поговорим о данных. Думаю, ни для кого не секрет, что они бывают разные. В нашей работе нередко встречаются данные, содержащие сотни, а иногда и тысячи признаков. При этом количество информативных часто оказывается меньше общего числа признаков.
Если работать с ними, не производя предварительную обработку, то модели становятся сложными. Как следствие, данные требуют большего количества времени для работы и теряют в качестве. Это важно, поскольку проблема быстродействия может быть критичной для рекомендательных систем, а проблема качества свойственна, в принципе, для всех моделей. Перед нами встаёт вопрос, вернее, задача снижения размерности. Она заключается в уменьшении общего числа признаков для анализируемого набора данных. Обо всём этом сегодня и поговорим.
Узнать, как решить задачу!
Читать: https://habr.com/ru/post/716172/
Ну здравствуй, Хабр! Меня зовут Кирилл Тобола, я Data Scientist в Сбере. Сегодня поговорим о данных. Думаю, ни для кого не секрет, что они бывают разные. В нашей работе нередко встречаются данные, содержащие сотни, а иногда и тысячи признаков. При этом количество информативных часто оказывается меньше общего числа признаков.
Если работать с ними, не производя предварительную обработку, то модели становятся сложными. Как следствие, данные требуют большего количества времени для работы и теряют в качестве. Это важно, поскольку проблема быстродействия может быть критичной для рекомендательных систем, а проблема качества свойственна, в принципе, для всех моделей. Перед нами встаёт вопрос, вернее, задача снижения размерности. Она заключается в уменьшении общего числа признаков для анализируемого набора данных. Обо всём этом сегодня и поговорим.
Узнать, как решить задачу!
Читать: https://habr.com/ru/post/716172/
Кластер ElasticSearch на 1Ptb+
Черновик статьи был написан еще год назад, когда я работал на крупном международном проекте, но из-за разных событий прошлого года он остался неопубликованным.
На проекте в моем ведении находилось несколько on-premise кластеров в нескольких европейских датацентрах. «Мы» в этой статье — небольшая команда DataOps из 5 человек.
Было дело я читал на Хабре статью про «Кластер Elasticsearch на 200 ТБ+» и примерял написанное к нам, у нас такой кластер считался средним, самый маленький кластер под 0,1Ptb, а большой тогда был под 0,5Ptb. Потом была поставлена задача подготовить кластер к увеличению объемов входящих данных в 2-3 раза, а срок хранения в 2 раза, т. е. объем хранимых данных, если грубо экстраполировать, должен был стать в районе 2-3Ptb.
Хочу поделиться нашим опытом, может кому пригодиться.
Читать: https://habr.com/ru/post/716430/
Черновик статьи был написан еще год назад, когда я работал на крупном международном проекте, но из-за разных событий прошлого года он остался неопубликованным.
На проекте в моем ведении находилось несколько on-premise кластеров в нескольких европейских датацентрах. «Мы» в этой статье — небольшая команда DataOps из 5 человек.
Было дело я читал на Хабре статью про «Кластер Elasticsearch на 200 ТБ+» и примерял написанное к нам, у нас такой кластер считался средним, самый маленький кластер под 0,1Ptb, а большой тогда был под 0,5Ptb. Потом была поставлена задача подготовить кластер к увеличению объемов входящих данных в 2-3 раза, а срок хранения в 2 раза, т. е. объем хранимых данных, если грубо экстраполировать, должен был стать в районе 2-3Ptb.
Хочу поделиться нашим опытом, может кому пригодиться.
Читать: https://habr.com/ru/post/716430/
👍1