BI & Big Data
266 subscribers
23 photos
2 files
133 links
Канал компании CoreWin. Бизнес-аналитика и Big Data: новости, тенденции и инструменты.

@BBDfeedback_bot - напишите нам.
Download Telegram
​​Как #BigData меняют сферу туризма и путешествий.

Бронирование

Многие из нас теперь используют сайты сравнения цен и сайты для бронирования, а не идут в турагентства на центральной улице 🛣. Собирая данные из социальных сетей и анализируя то, что людям нравится или не нравится, компании могут использовать целевую рекламу с индивидуальными сообщениями.

И это не просто перевод на их сайт, где используются #BigData и аналитика. Чтобы веб-сайт создавал для вас наилучшую сделку, он должен иметь огромную базу данных для 🔎, а также потому, что существует множество веб-сайтов, предлагающих то же самое, они должны быть уверены, что делают это быстро. Например, одна немецкая туристическая компания создала свою собственную систему Big Data, чтобы она могла обрабатывать 1000 запросов в секунду, выполняя поиск 18 миллиардов предложений и предоставляя ответ потребителю в течение секунды!

Аэропорт

Это не просто цифровые платформы, которые могут использовать Big Data, чтобы повлиять на ваше путешествие; аэропорты также собирают информацию. Big Data используются в аэропорту, чтобы измерить количество людей, находящихся в настоящее время в здании, и какие районы наиболее загружены в режиме реального времени.

Они также собирают данные, основанные на передвижениях людей через ворота безопасности, отслеживая, как далеко люди уходят от своих ворот отправления и в каком направлении люди естественным образом 🚶🏻‍♂️, они могут составить более точные планы и подготовиться к тому, где разместить магазины и рестораны.

Гостиница

Отели также используют Bib Data для улучшения качества обслуживания клиентов. В интернете легко узнать, хороший отель или нет, так как многие люди оставляют отзывы и рекомендации. Отели, собирающие эти данные, могут определить, где могут быть их слабые стороны, а затем могут найти пути для улучшения ситуации.

Они также могут анализировать поведение потребителей и социальные сети, чтобы узнать, чего хотят их клиенты в определенное время года. Узнав, чего на самом деле хочет клиент, отель может узнать, на что обратить внимание, и обеспечить лучшее обслуживание и качество обслуживания клиентов.

BigData действительно революционизируют в индустрию туризма, и это оказывает огромное влияние на наше путешествие, от бронирования отпуска до его фактического посещения. И собираемые данные будут только расти и, будем надеяться, улучшать наш опыт ✈️
​​Аналитики всё чаще приходят к программистам за советом. Нашли канал @smart_dev. Авторы публикуют свежие новости веб-разработки, статьи и переводы.

Плюс есть чат, в котором разбираются кейсы из собеседований или рабочие задачи @smart_dev_chat.
Обработка живой речи (#NLP) в бизнес-аналитике (#BI)

Обработка естественной речи - это область информатики и компьютерной лингвистики, связанная с взаимодействием между человеческим (естественным) языком и компьютером. Обработка естественной речи направлена ​​на то, чтобы помочь компьютерам использовать семантические структуры информации - контекст в данных - для понимания смысла.

NLP уже проник в повседневную жизнь. Наиболее распространенными примерами естественного языка являются такие технологии, как Alexa, Siri и Google Assistant, которые распознают шаблоны в речи, чтобы вывести смысл и дать соответствующий ответ. Другим распространенным примером NLP в действии являются поисковые системы в Интернете. Когда вы вводите фразу в поисковую систему, она будет отображать предложения, основанные на других аналогичных режимах поиска.

Сегодня поставщики бизнес-аналитики (BI) предлагают интерфейс визуализации на естественном языке, чтобы пользователи могли естественным образом взаимодействовать со своими данными, задавая вопросы так, как они о них думают.

Обработка естественной речи открывает анализ данных для всех уровней пользователей, от начинающих до продвинутых аналитиков, потому что использование технологии не требует глубоких знаний инструмента BI.

Возможности естественного языка в инструментах BI позволяют людям получать информацию, просто общаясь со своими данными. По мере развития NLP в индустрии бизнес-аналитики, эта технология разрушит барьеры использования аналитики в организациях и изменит способы взаимодействия людей с данными.
​​Диаграмма размаха: что и к чему

В этом посте я попробую разобрать такую распространенную диаграмму, как диаграмму размаха или ящик-с-усиками (box-and-whiskers). Она часто присутствует как стандартный инструмент визуализации во многих решениях. Но, как показывает моя практика, прочитать её могут далеко не все. Не говоря уже о использовании в отчетах.

В этом примере я сравниваю продолжительность жизни небольшого неслучайного набора животных. Есть два основополагающих подхода к формированию диаграммы размаха: базовый (техника Mary Spear) - и продвинутый (техника John Tukey)

Базовый подход

Шаг 1. Рассчитать квартили.

Квартили разбивают набор данных на 4 отрезка. Q1, медиану, Q3 (приблизительно) расположены на 25-м, 50-м и 75-м процентилях соответственно. Нахождение медианы требует нахождения среднего числа, когда значения упорядочены от наименьшего к наибольшему. При наличии четного количества точек данных два числа в середине усредняются.
Здесь медиана - средняя продолжительность жизни кошки и собаки.
ПРИМЕЧАНИЕ. Если при четном наборе значений два в середине будут разными, нижнее из двух значений будет в 50-м процентиле и не будет таким же показателем, как медиана.
Как только медиана будет найдена, найдите другие квартили таким же образом: среднее значение в нижнем наборе значений (Q1), затем среднее значение в верхнем наборе (Q3)
​​Шаг 2. Используя эти 5 точек сформировать диаграмму.

Весьма простой подход, который дает быстрый результат и, обычно, не требует больших затрат сил и времени. Именно такой подход мы часто видим, когда эту диаграмму используют не задумываясь, для красоты.
​​Продвинутый подход.

Шаг 1. Определить IQR или межквартильный диапазон.

Межквартильный диапазон - это разница или разброс между третьим и первым квартилем, отражающий средние 50% набора данных. IQR строит «коробочную» часть коробочного графика.
​​Шаг 2. Умножаем IQR на 1.5
​​Шаг 3. Определяем границы усиков.

1,5 x IQR затем вычитается из нижнего квартиля и добавляется в верхний квартиль для определения границы.
​​Шаг 4. Анализируем участников числового ряда, которые не попали в заданные границы.

Поскольку продолжительность жизни ни одного животного не ниже -5 лет, в этом конкретном наборе данных невозможно выделить участников набора, которые не вошли по нижней границе; однако, одно животное в этом наборе данных живет за пределами 31 года, а это выходит за границы диаграммы.
​​Шаг 5. Строим диаграмму.
​​Преимущества диаграммы размаха:

▪️ визуально суммирует вариации в больших наборах данных
▪️ показывает тех участников, которые не вошли в выборку
▪️ сравнивает несколько распределений
▪️ указывает симметрию и асимметрию в некоторой степени
▪️ можно быстро набросать
▪️ прикольное название (особенно вариант «коробка-с-усиками»)
Недостатки диаграммы:

▪️ скрывает мультимодальность и другие особенности распределений
▪️ запутывает некоторых пользователей
▪️ определение аутсайдеров очень жесткое

Ниже наглядный пример неудачного использования этой диаграммы
​​Спасибо, надеюсь я вдохновил кого-то из вас обратить внимание на ящик-с-усиками или диаграмму размаха.
Для окончательного вдохновения – несколько вариантов творческого подхода к вопросу 😁
​​Праздничная аналитика

Так как наш бизнес-аналитик ушёл на встречу с другими бизнес-аналитиками, сегодня не будет классификаций диаграмм и источников данных. Вместо этого мы порадуем вас анализом расходов (правда, только американских) на подарки в честь того самого Дня.

Оказалось, что желания не всегда совпадают с реальностью. Хочется дарить валентинки, конфеты и цветы, а приходится ювелирные украшения.
​​Топ 5: #навыки, которыми необходимо овладеть в 2019
(в сфере #BigData, конечно же)

Вдумайтесь 🤔. У нас есть 33 буквы в алфавите и 10 основных цифр. Тем не менее, каким-то образом, ежедневно генерируеться более 2,5 квинтиллионнов байтов данных. Это, по сути, миллион в пятой степени.

Учитывая тот факт, что ценной информации теперь более чем достаточна для всех, сейчас идеальное время, чтобы точно узнать, как ее использовать. И чтобы помочь вам в этом, мы рассмотрим основные типы инструментов, которые вы можете использовать.

1️⃣ Data Visualization – Tableau, PowerBI, Qlik. – инструменты front-end, которыми легко пользоваться, и которые представляют информацию в простой и доступной форме.

2️⃣ Data Engineering – Python. Python особенно удобен, поскольку предоставляет множество библиотек для настройки необработанных данных. Он может взаимодействовать с такими источниками, как Hive, Cloudera Impala, списки MS SharePoint, файлы MS Excel, PostgreSQL, Teradata, MS SQL Server и различными текстовыми файлами, чтобы обеспечить агрегирование данных, изменение формы, разнородное вложение источников, а также автоматизацию.

3️⃣ Data Analytics – SQL. Также известный как язык структурированных запросов, это система, которая используется не только для разработки программного обеспечения, но и для управления данными для реляционных баз данных. Его функциональные возможности делают его исключительно эффективным при чтении, обработке и корректировке данных. Учитывая все вышесказанное, сильная сторона SQL заключается в его способности выполнять широкий спектр агрегаций на обширных наборах данных плюс многочисленные таблицы одновременно.

4️⃣ Big Data – HIVE. Xотя обширная база данных считается активом, так уж сложилось, что она также может стать серьезной проблемой, когда речь заходит об управлении. И именно поэтому они придумали такие инструменты для работы с большими данными, как Hive.

5️⃣ Advanced Analytics – SparkSQL. SparkSQL является чрезвычайно выдающимся инструментом, когда речь заходит о продвинутой аналитике. Разработанный для обработки структурированных и полуструктурированных данных, SparkSQL - это интерфейс spark, который не только служит механизмом распределенных SQL-запросов, но и облегчает абстрагирование сценариев в DataFrames.
​​Архивирование Big Data

Есть три задачи, с которыми должен справляться современный архив:

1️⃣ масштабирование, вызванное ростом объёма данных (от терабайтов к петабайтам)
2️⃣ необходимость не только хранить, но и использовать архивные данные
3️⃣ автоматизация процесса и его перевод в SaaS-сферу

Достаточно успешно с Big Data на украинском рынке работает продукт Megapolis.DocNet – система внутреннего электронного документооборота.

DocNet позволяет обрабатывать и хранить до 100 ТБ данных в течение 10-ти лет. Пока нет ни одного клиента, который бы превысил этот рубеж, достигнутый максимум – 80 ТБ.

Налажен мгновенный поиск любого документа. Скорость поиска достигается хранением атрибутов документов в СУБД, при этом сами документы сохраняются на выбранном блочном устройстве, в простейшем случае - в файловой системе.

При необходимости масштабирования и отказоустойчивости используются либо специализированные файловые системы (zfs, btrfs), либо программно-аппаратные комплексы, например, Dell EMC.
​​The Oscars

Фильм Зелёная книга был признан лучшим фильмом года Американской Киноакадемией. Номинатов же было восемь.

Lindsey Poulter (@datavizlinds) собрала данные об их общем количестве номинаций (не только Оскар), успешности в домашнем прокате и рейтинге на Rotten Tomatoes, чтобы ответить на несколько вопросов:

1️⃣ Выбирают ли разные жюри одних и тех же победителей?
2️⃣ Повышает ли награда за лучшую актрису/актёра второго плана шансы на звание лучшего фильма или же награды распределяются равномерно?
3️⃣ Влияют ли кассовые сборы или рейтинг Rotten Tomatoes на конечный результат? (спойлер - нет)

А вы довольны результатами Оскара?
​​Наши читатели - компания N-iX - поделились интересной вакансией.

Команда приглашает BigData-гуру присоединиться к необычному проекту GOGO, цель которого состоит в предоставлении сервиса Wi-Fi-доступа на борту самолетов.
Уже сейчас сервис доступен на более 2900 коммерческих и более 6600 бизнес-самолетов! ✈️

N-iX сотрудничает в таких направлениях как BigData, Business Intelligence, Data Analysis и ищет таланты, которые могут внести свой вклад в развитие проекта.

Если есть опыт работы с Apache Spark, Python и Scala, у тебя хорошее понимание методологий разработки программного обеспечения и хороший английский, работал с Hadoop architecture и AWS (S3, EMR cluster, Lambda, Kinesis), тогда ты идеальный кандидат!