Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.86K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как мы делали МЦОД для самого холодного региона России

Привет, Хабр! Меня зовут Федор Клименко, я СЕО компании GreenMDC – мы занимаемся разработкой и производством модульных дата-центров. И иногда доставляем и собираем наши МЦОДы в экзотических регионах. Например, в марте запустили МЦОД в Якутске, где зимой столбик термометра опускается до -60 градусов. Сегодня расскажу о том, как мы везли дата-центр за 9 000 км и собирали его при -30, сколько слоев одежды было на монтажниках, как мы нашли работающий при такой погоде кран и избежали пайки фреонопроводов на морозе.

Предыстория

Для начала скажу, что хоть и являюсь гендиром компании, но в душе остаюсь инженером и люблю путешествовать. А потому часто работаю «в полях» и лично принимаю участие в монтаже и запуске МЦОДов, особенно, если проект интересный – такой как в Якутске.

Этот модульный ЦОД мы разработали по заказу «Республиканского центра информационных технологий» Республики Саха (Якутия) и сделали это в рамках проекта по цифровизации региональных госуслуг. Соответственно, МЦОД хранит и обрабатывает информацию, которая касается таких сфер жизни, как здравоохранение, образование, служба МЧС, банковские услуги, сельское хозяйство и др. Здесь, например, разместился портал госуслуг, мониторинг обстановки при ЧС, в том числе лесных пожаров, колл-центр 122, интеллектуальная транспортная система региона и единая система электронного документооборота.


Читать: https://habr.com/ru/post/694694/
Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.

Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).

В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.


Читать: https://habr.com/ru/post/693360/
👍1
Geointellect.Urban — индекс комфортности по кварталам

Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье расскажу об одном из инструментов, который мы используем при оценке удобства проживания в городе.

Обеспечить комфортную среду проживания - одна из приоритетных целей городского развития. Но для ее достижения нужно заниматься постоянным мониторингом и модернизацией социальной инфраструктуры. К соц инфраструктуре относятся организации, связанные с системами здравоохранения и образования, сферами общественного питания, досуга и отдыха, транспорта и др. Отслеживание проблем в доступности и работе этих объектов нужно для поддержания, улучшения уровня жизни горожан. Поэтому возникает необходимость создания комплексного инструмента, который позволит оценить уровень удобства проживания в городе. Для решения этой задачи и был разработан Geointellect.Urban.

В основе Geointellect.Urban  лежит математическая модель, которая описывает комфортность проживания в кварталах города с точки зрения доступности объектов инфраструктуры, таких как продуктовые магазины, аптеки, школы, детские сады, ТЦ, парки и прочее. Иными словами, он служит оценкой уровня благоустройства города.

Его расчет основывается на построении и нахождении длин маршрутов от центроидов кварталов города до рассматриваемой группы объектов. При этом инструмент учитывает автомобильную или пешеходную доступность к объектам в зависимости от того, каким образом люди обычно до них добираются. Например, до аэропортов или ж/д вокзалов строятся маршруты на автомобиле, а до аптек и продуктовых магазинов - маршруты пешком. Полученное значение времени пути по кварталам нормируется: переводится в шкалу от 0 до 100, где 0 — лучшая доступность, 100 — худшая. Таким образом, мы получаем оценку привлекательности кварталов по разным параметрам. Данный индекс можно рассчитать по любому городу, имея данные о местоположении объектов инфраструктуры, делении города на кварталы, а также графы пешеходных и автомобильных дорог.


Читать: https://habr.com/ru/post/695084/
👍3
Что ждет data-инжиниринг в будущем

Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными.
Что такое data-инжиниринг

Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.
Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет?  В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании.


Читать: https://habr.com/ru/post/693126/
Как понять, что пришло время внедрять платформу для анализа данных?

Эффективные управленческие решения основаны на качественной аналитике данных. Но информации становится больше, а ее анализ — труднее. Всё чаще на помощь компаниям приходит прогнозная или предиктивная аналитика, позволяющая справиться с экспоненциальным ростом информации благодаря использованию методов машинного обучения.

В этой статье мы рассмотрим предпосылки и признаки необходимости внедрения платформенных решений, а также укажем на аспекты, о которых надо помнить перед или при внедрении системы.


Читать: https://habr.com/ru/post/695622/
#3 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector

Здесь должна быть шутка
Сегодня я хочу представить вам третью статью из серии «Нейронные сети для начинающих». Мы научимся обрабатывать изображения и сохранять результаты в отдельные файлы. Вот небольшой список задач, которые будут разобраны ниже:
1. Преобразование изображения в оттенки серого.
2. Уменьшение размерности изображения (в пикселях) в 4 раза.
3. Нахождение и выделение (рамкой) самого тёмного объекта на изображении.


Читать: https://habr.com/ru/post/694994/
Автоматический подбор параметров для Spark-приложений

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из


Читать: https://habr.com/ru/post/695562/
9 продуктов для создания дашбордов

Четыре Open Source, два платных и два low-code-продукта для визуализации BI-аналитики от AFFINAGE

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.


Читать: https://habr.com/ru/post/695310/
Подборка актуальных вакансий

Системный аналитик
Где: Москва
Опыт: от 1 года

Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа
Что учесть при разработке интеграций информационных систем

Невозможно представить современную информационную систему (далее – ИС), которая бы стояла особняком, и не была бы интегрирована с другими. Особенно, если мы говорим о корпоративных или государственных данных. Вопросу интеграций посвящены целые книги, такие как «Шаблоны интеграции корпоративных приложений» Грегора Хопа. Некоторые издания пытаются рассматривать не только технические, но и организационные вопросы интеграции (например, «Предметно-ориентированное проектирование (DDD)» Эрика Эванса). Между тем, современный уровень технологий и высокий уровень компетентности разработчиков очень сильно снижает технические риски, выставляя на первый план организационные. В этой статье мы рассмотрим интеграции информационных систем именно с точки зрения организационных рисков.


Читать: https://habr.com/ru/post/696102/
ViRush 2022: давайте обсудим реальность и перспективы российского BI

Привет, друзья и коллеги! Сегодня я хочу пригласить вас всех на ViRush 2022. Это ежегодная конференция, на которой мы рассказываем о наших достижениях и планах, делимся опытом и раскрываем перспективы развития платформы Visiology. В этом году мы представим и вживую покажем совершенно новую Visiology 3.0, а также послушаем доклады специалистов, которые занимались самых интересными проектами BI внедрений и миграций. Хотите узнать больше? Все подробности — под катом.


Читать: https://habr.com/ru/post/696424/
Вижу цель: три решения задачи по созданию предсказательной ML-модели

Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.

Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.


Читать: https://habr.com/ru/post/695564/
ML | Hydra

Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели...


Читать: https://habr.com/ru/post/696820/
Мониторинг в Apache NiFi. Часть вторая

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.


Читать: https://habr.com/ru/post/695926/