Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL
"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.
Читать: https://habr.com/ru/post/692876/
"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.
Читать: https://habr.com/ru/post/692876/
Next Step: как перейти из продакта в Data Science
Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.
Читать: https://habr.com/ru/post/693088/
Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.
Читать: https://habr.com/ru/post/693088/
👍1
Upgrade to Athena engine version 3 to increase query performance and access more analytics features
Read: https://aws.amazon.com/blogs/big-data/upgrade-to-athena-engine-version-3-to-increase-query-performance-and-access-more-analytics-features/
Read: https://aws.amazon.com/blogs/big-data/upgrade-to-athena-engine-version-3-to-increase-query-performance-and-access-more-analytics-features/
Build incremental crawls of data lakes with existing Glue catalog tables
Read: https://aws.amazon.com/blogs/big-data/build-incremental-crawls-of-data-lakes-with-existing-glue-catalog-tables/
Read: https://aws.amazon.com/blogs/big-data/build-incremental-crawls-of-data-lakes-with-existing-glue-catalog-tables/
Code versioning using AWS Glue Studio and GitHub
Read: https://aws.amazon.com/blogs/big-data/code-versioning-using-aws-glue-studio-and-github/
Read: https://aws.amazon.com/blogs/big-data/code-versioning-using-aws-glue-studio-and-github/
Теория временных рядов, применение трансформеров
В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов
Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать)
Читать: https://habr.com/ru/post/693562/
В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов
Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать)
Читать: https://habr.com/ru/post/693562/
Линейный прогноз в Tableau. Терапевтический очерк
Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...
Читать: https://habr.com/ru/post/692692/
Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...
Читать: https://habr.com/ru/post/692692/
Data Engineering Weekly #103
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-103
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-103
All evidence are not created equal and some evidence are more equal than others
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/all-evidence-are-not-created-equal-and-some-evidence-are-more-equal-than-others.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/all-evidence-are-not-created-equal-and-some-evidence-are-more-equal-than-others.html
Get started with Apache Hudi using AWS Glue by implementing key design concepts – Part 1
Read: https://aws.amazon.com/blogs/big-data/part-1-get-started-with-apache-hudi-using-aws-glue-by-implementing-key-design-concepts/
Read: https://aws.amazon.com/blogs/big-data/part-1-get-started-with-apache-hudi-using-aws-glue-by-implementing-key-design-concepts/
Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны
Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.
Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.
В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать: https://habr.com/ru/post/694006/
Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.
Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.
В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать: https://habr.com/ru/post/694006/
👍1
Непрерывное обучение для продакшен-систем
Жизненный цикл машинного обучения
Введение
Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.
Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.
Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать: https://habr.com/ru/post/686212/
Жизненный цикл машинного обучения
Введение
Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.
Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.
Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать: https://habr.com/ru/post/686212/
Introducing runtime roles for Amazon EMR steps: Use IAM roles and AWS Lake Formation for access control with Amazon EMR
Read: https://aws.amazon.com/blogs/big-data/introducing-runtime-roles-for-amazon-emr-steps-use-iam-roles-and-aws-lake-formation-for-access-control-with-amazon-emr/
Read: https://aws.amazon.com/blogs/big-data/introducing-runtime-roles-for-amazon-emr-steps-use-iam-roles-and-aws-lake-formation-for-access-control-with-amazon-emr/
Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных
Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса.
Введение
Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой.
Читать: https://habr.com/ru/post/692554/
Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса.
Введение
Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой.
Читать: https://habr.com/ru/post/692554/
Как уменьшить размер образа Docker для JVM
Если вы уже достаточно долго пишете на Kotlin, или Scala, или на любом другом языке, основанном на JVM, то могли заметить: начиная с Java 11 среда Java Runtime Environment (JRE) больше не поставляется в виде отдельного дистрибутива, а распространяется только в составе Java Development Kit (JDK). В результате такого изменения многие официальные образы Docker не предлагают вариант образа «только для JRE». Таковы, например, официальные образы openjdk, образы corretto от Amazon. В моем случае при использовании такого образа в качестве заготовки получался образ приложения, завешивавший на 414 MB, тогда как само приложение занимало всего около 60 MB. Мы стремимся к эффективной и бережливой разработке, поэтому такая расточительность для нас непозволительна.
Давайте же рассмотрим, как можно радикально уменьшить размер Docker-образа для Java.
Читать: https://habr.com/ru/post/692992/
Если вы уже достаточно долго пишете на Kotlin, или Scala, или на любом другом языке, основанном на JVM, то могли заметить: начиная с Java 11 среда Java Runtime Environment (JRE) больше не поставляется в виде отдельного дистрибутива, а распространяется только в составе Java Development Kit (JDK). В результате такого изменения многие официальные образы Docker не предлагают вариант образа «только для JRE». Таковы, например, официальные образы openjdk, образы corretto от Amazon. В моем случае при использовании такого образа в качестве заготовки получался образ приложения, завешивавший на 414 MB, тогда как само приложение занимало всего около 60 MB. Мы стремимся к эффективной и бережливой разработке, поэтому такая расточительность для нас непозволительна.
Давайте же рассмотрим, как можно радикально уменьшить размер Docker-образа для Java.
Читать: https://habr.com/ru/post/692992/
Gelman's Museum of Scholarly Misconduct
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/gelmans-museum-of-scholarly-misconduct-1.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/gelmans-museum-of-scholarly-misconduct-1.html
Как мы делали МЦОД для самого холодного региона России
Привет, Хабр! Меня зовут Федор Клименко, я СЕО компании GreenMDC – мы занимаемся разработкой и производством модульных дата-центров. И иногда доставляем и собираем наши МЦОДы в экзотических регионах. Например, в марте запустили МЦОД в Якутске, где зимой столбик термометра опускается до -60 градусов. Сегодня расскажу о том, как мы везли дата-центр за 9 000 км и собирали его при -30, сколько слоев одежды было на монтажниках, как мы нашли работающий при такой погоде кран и избежали пайки фреонопроводов на морозе.
Предыстория
Для начала скажу, что хоть и являюсь гендиром компании, но в душе остаюсь инженером и люблю путешествовать. А потому часто работаю «в полях» и лично принимаю участие в монтаже и запуске МЦОДов, особенно, если проект интересный – такой как в Якутске.
Этот модульный ЦОД мы разработали по заказу «Республиканского центра информационных технологий» Республики Саха (Якутия) и сделали это в рамках проекта по цифровизации региональных госуслуг. Соответственно, МЦОД хранит и обрабатывает информацию, которая касается таких сфер жизни, как здравоохранение, образование, служба МЧС, банковские услуги, сельское хозяйство и др. Здесь, например, разместился портал госуслуг, мониторинг обстановки при ЧС, в том числе лесных пожаров, колл-центр 122, интеллектуальная транспортная система региона и единая система электронного документооборота.
Читать: https://habr.com/ru/post/694694/
Привет, Хабр! Меня зовут Федор Клименко, я СЕО компании GreenMDC – мы занимаемся разработкой и производством модульных дата-центров. И иногда доставляем и собираем наши МЦОДы в экзотических регионах. Например, в марте запустили МЦОД в Якутске, где зимой столбик термометра опускается до -60 градусов. Сегодня расскажу о том, как мы везли дата-центр за 9 000 км и собирали его при -30, сколько слоев одежды было на монтажниках, как мы нашли работающий при такой погоде кран и избежали пайки фреонопроводов на морозе.
Предыстория
Для начала скажу, что хоть и являюсь гендиром компании, но в душе остаюсь инженером и люблю путешествовать. А потому часто работаю «в полях» и лично принимаю участие в монтаже и запуске МЦОДов, особенно, если проект интересный – такой как в Якутске.
Этот модульный ЦОД мы разработали по заказу «Республиканского центра информационных технологий» Республики Саха (Якутия) и сделали это в рамках проекта по цифровизации региональных госуслуг. Соответственно, МЦОД хранит и обрабатывает информацию, которая касается таких сфер жизни, как здравоохранение, образование, служба МЧС, банковские услуги, сельское хозяйство и др. Здесь, например, разместился портал госуслуг, мониторинг обстановки при ЧС, в том числе лесных пожаров, колл-центр 122, интеллектуальная транспортная система региона и единая система электронного документооборота.
Читать: https://habr.com/ru/post/694694/
Data Engineering Weekly #104
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-104
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-104
Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.
Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).
В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать: https://habr.com/ru/post/693360/
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.
Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).
В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать: https://habr.com/ru/post/693360/
👍1
Geointellect.Urban — индекс комфортности по кварталам
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье расскажу об одном из инструментов, который мы используем при оценке удобства проживания в городе.
Обеспечить комфортную среду проживания - одна из приоритетных целей городского развития. Но для ее достижения нужно заниматься постоянным мониторингом и модернизацией социальной инфраструктуры. К соц инфраструктуре относятся организации, связанные с системами здравоохранения и образования, сферами общественного питания, досуга и отдыха, транспорта и др. Отслеживание проблем в доступности и работе этих объектов нужно для поддержания, улучшения уровня жизни горожан. Поэтому возникает необходимость создания комплексного инструмента, который позволит оценить уровень удобства проживания в городе. Для решения этой задачи и был разработан Geointellect.Urban.
В основе Geointellect.Urban лежит математическая модель, которая описывает комфортность проживания в кварталах города с точки зрения доступности объектов инфраструктуры, таких как продуктовые магазины, аптеки, школы, детские сады, ТЦ, парки и прочее. Иными словами, он служит оценкой уровня благоустройства города.
Его расчет основывается на построении и нахождении длин маршрутов от центроидов кварталов города до рассматриваемой группы объектов. При этом инструмент учитывает автомобильную или пешеходную доступность к объектам в зависимости от того, каким образом люди обычно до них добираются. Например, до аэропортов или ж/д вокзалов строятся маршруты на автомобиле, а до аптек и продуктовых магазинов - маршруты пешком. Полученное значение времени пути по кварталам нормируется: переводится в шкалу от 0 до 100, где 0 — лучшая доступность, 100 — худшая. Таким образом, мы получаем оценку привлекательности кварталов по разным параметрам. Данный индекс можно рассчитать по любому городу, имея данные о местоположении объектов инфраструктуры, делении города на кварталы, а также графы пешеходных и автомобильных дорог.
Читать: https://habr.com/ru/post/695084/
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье расскажу об одном из инструментов, который мы используем при оценке удобства проживания в городе.
Обеспечить комфортную среду проживания - одна из приоритетных целей городского развития. Но для ее достижения нужно заниматься постоянным мониторингом и модернизацией социальной инфраструктуры. К соц инфраструктуре относятся организации, связанные с системами здравоохранения и образования, сферами общественного питания, досуга и отдыха, транспорта и др. Отслеживание проблем в доступности и работе этих объектов нужно для поддержания, улучшения уровня жизни горожан. Поэтому возникает необходимость создания комплексного инструмента, который позволит оценить уровень удобства проживания в городе. Для решения этой задачи и был разработан Geointellect.Urban.
В основе Geointellect.Urban лежит математическая модель, которая описывает комфортность проживания в кварталах города с точки зрения доступности объектов инфраструктуры, таких как продуктовые магазины, аптеки, школы, детские сады, ТЦ, парки и прочее. Иными словами, он служит оценкой уровня благоустройства города.
Его расчет основывается на построении и нахождении длин маршрутов от центроидов кварталов города до рассматриваемой группы объектов. При этом инструмент учитывает автомобильную или пешеходную доступность к объектам в зависимости от того, каким образом люди обычно до них добираются. Например, до аэропортов или ж/д вокзалов строятся маршруты на автомобиле, а до аптек и продуктовых магазинов - маршруты пешком. Полученное значение времени пути по кварталам нормируется: переводится в шкалу от 0 до 100, где 0 — лучшая доступность, 100 — худшая. Таким образом, мы получаем оценку привлекательности кварталов по разным параметрам. Данный индекс можно рассчитать по любому городу, имея данные о местоположении объектов инфраструктуры, делении города на кварталы, а также графы пешеходных и автомобильных дорог.
Читать: https://habr.com/ru/post/695084/
👍3
Что ждет data-инжиниринг в будущем
Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными.
Что такое data-инжиниринг
Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.
Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет? В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании.
Читать: https://habr.com/ru/post/693126/
Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными.
Что такое data-инжиниринг
Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.
Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет? В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании.
Читать: https://habr.com/ru/post/693126/