Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.86K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Автоматический подбор параметров для Spark-приложений

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из


Читать: https://habr.com/ru/post/695562/
9 продуктов для создания дашбордов

Четыре Open Source, два платных и два low-code-продукта для визуализации BI-аналитики от AFFINAGE

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.


Читать: https://habr.com/ru/post/695310/
Подборка актуальных вакансий

Системный аналитик
Где: Москва
Опыт: от 1 года

Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа
Что учесть при разработке интеграций информационных систем

Невозможно представить современную информационную систему (далее – ИС), которая бы стояла особняком, и не была бы интегрирована с другими. Особенно, если мы говорим о корпоративных или государственных данных. Вопросу интеграций посвящены целые книги, такие как «Шаблоны интеграции корпоративных приложений» Грегора Хопа. Некоторые издания пытаются рассматривать не только технические, но и организационные вопросы интеграции (например, «Предметно-ориентированное проектирование (DDD)» Эрика Эванса). Между тем, современный уровень технологий и высокий уровень компетентности разработчиков очень сильно снижает технические риски, выставляя на первый план организационные. В этой статье мы рассмотрим интеграции информационных систем именно с точки зрения организационных рисков.


Читать: https://habr.com/ru/post/696102/
ViRush 2022: давайте обсудим реальность и перспективы российского BI

Привет, друзья и коллеги! Сегодня я хочу пригласить вас всех на ViRush 2022. Это ежегодная конференция, на которой мы рассказываем о наших достижениях и планах, делимся опытом и раскрываем перспективы развития платформы Visiology. В этом году мы представим и вживую покажем совершенно новую Visiology 3.0, а также послушаем доклады специалистов, которые занимались самых интересными проектами BI внедрений и миграций. Хотите узнать больше? Все подробности — под катом.


Читать: https://habr.com/ru/post/696424/
Вижу цель: три решения задачи по созданию предсказательной ML-модели

Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.

Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.


Читать: https://habr.com/ru/post/695564/
ML | Hydra

Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели...


Читать: https://habr.com/ru/post/696820/
Мониторинг в Apache NiFi. Часть вторая

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.


Читать: https://habr.com/ru/post/695926/
Как в Tinkoff создавали Data Catalog

В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.

Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.


Читать: https://habr.com/ru/post/697220/
От Single-Instance-прототипа до облачной промышленной платформы интернета вещей: как мы разрабатывали Cloud IoT Platform

В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей.


Читать: https://habr.com/ru/post/697100/
Как математика помогает логистике быть точнее. Опыт ПГК

Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.


Читать: https://habr.com/ru/post/697278/
Совсем другая история: как мы проводим A/B-тесты в офлайне и чем они отличаются от классических онлайн-экспериментов

Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье.


Читать: https://habr.com/ru/post/697282/
Подборка актуальных вакансий

Системный аналитик
Где: Москва
Опыт: от 1 года

Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа
👍2
10 критериев выбора BI-платформы для миграции по версии ex-Accenture

Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько  соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...

Читать: https://habr.com/ru/post/661789/
Рейтинги как способ прогнозирования в условиях кризисной ситуации

Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье я хочу рассказать об одном из интересных кейсов из нашей практики.

Рейтинги. Слово знакомое многим, потому что практически каждый сталкивается с различными списками ежедневно. Почему они так популярны? Ответ простой: упрощают выбор. Этот выбор может быть связан с бытовыми задачами (какому бренду сыров отдать предпочтение?), с рабочими (какого поставщика выбрать?) или с личными (куда мне поехать в отпуск?). И для того, чтобы упростить этот процесс, и существуют рейтинги.

И, конечно же, выборы могут быть связаны с бизнес-задачами. И в данном случае рейтинги могут помочь определиться с более глобальными решениями и сделать рациональный выбор. Такой формат может быть удобен и когда Вы рассматриваете 2 альтернативы, и, когда их значительно больше. Главное в этом вопросе – это правильно подобрать критерии, создать единую шкалу и определиться с весом каждого фактора. Чтобы показать, насколько рейтинги необходимы в процессе принятия решений, предлагаем Вам рассмотреть следующий кейс.


Читать: https://habr.com/ru/post/698012/
Большой объём данных для машинного обучения — не панацея

Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.

Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.

Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.


Читать: https://habr.com/ru/post/695548/
Entity resolution: как обстоят дела и какие open-source инструменты доступны

Всем привет!

Мы хотим рассказать немного об entity resolution как об академической дисциплине, о доступных инструментах для решения этой задачи, и о нашем опыте с одним из инструментов.


Читать: https://habr.com/ru/post/698268/