Как #BigData меняют сферу туризма и путешествий.
Бронирование
Многие из нас теперь используют сайты сравнения цен и сайты для бронирования, а не идут в турагентства на центральной улице 🛣. Собирая данные из социальных сетей и анализируя то, что людям нравится или не нравится, компании могут использовать целевую рекламу с индивидуальными сообщениями.
И это не просто перевод на их сайт, где используются #BigData и аналитика. Чтобы веб-сайт создавал для вас наилучшую сделку, он должен иметь огромную базу данных для 🔎, а также потому, что существует множество веб-сайтов, предлагающих то же самое, они должны быть уверены, что делают это быстро. Например, одна немецкая туристическая компания создала свою собственную систему Big Data, чтобы она могла обрабатывать 1000 запросов в секунду, выполняя поиск 18 миллиардов предложений и предоставляя ответ потребителю в течение секунды!
Аэропорт
Это не просто цифровые платформы, которые могут использовать Big Data, чтобы повлиять на ваше путешествие; аэропорты также собирают информацию. Big Data используются в аэропорту, чтобы измерить количество людей, находящихся в настоящее время в здании, и какие районы наиболее загружены в режиме реального времени.
Они также собирают данные, основанные на передвижениях людей через ворота безопасности, отслеживая, как далеко люди уходят от своих ворот отправления и в каком направлении люди естественным образом 🚶🏻♂️, они могут составить более точные планы и подготовиться к тому, где разместить магазины и рестораны.
Гостиница
Отели также используют Bib Data для улучшения качества обслуживания клиентов. В интернете легко узнать, хороший отель или нет, так как многие люди оставляют отзывы и рекомендации. Отели, собирающие эти данные, могут определить, где могут быть их слабые стороны, а затем могут найти пути для улучшения ситуации.
Они также могут анализировать поведение потребителей и социальные сети, чтобы узнать, чего хотят их клиенты в определенное время года. Узнав, чего на самом деле хочет клиент, отель может узнать, на что обратить внимание, и обеспечить лучшее обслуживание и качество обслуживания клиентов.
BigData действительно революционизируют в индустрию туризма, и это оказывает огромное влияние на наше путешествие, от бронирования отпуска до его фактического посещения. И собираемые данные будут только расти и, будем надеяться, улучшать наш опыт ✈️
Бронирование
Многие из нас теперь используют сайты сравнения цен и сайты для бронирования, а не идут в турагентства на центральной улице 🛣. Собирая данные из социальных сетей и анализируя то, что людям нравится или не нравится, компании могут использовать целевую рекламу с индивидуальными сообщениями.
И это не просто перевод на их сайт, где используются #BigData и аналитика. Чтобы веб-сайт создавал для вас наилучшую сделку, он должен иметь огромную базу данных для 🔎, а также потому, что существует множество веб-сайтов, предлагающих то же самое, они должны быть уверены, что делают это быстро. Например, одна немецкая туристическая компания создала свою собственную систему Big Data, чтобы она могла обрабатывать 1000 запросов в секунду, выполняя поиск 18 миллиардов предложений и предоставляя ответ потребителю в течение секунды!
Аэропорт
Это не просто цифровые платформы, которые могут использовать Big Data, чтобы повлиять на ваше путешествие; аэропорты также собирают информацию. Big Data используются в аэропорту, чтобы измерить количество людей, находящихся в настоящее время в здании, и какие районы наиболее загружены в режиме реального времени.
Они также собирают данные, основанные на передвижениях людей через ворота безопасности, отслеживая, как далеко люди уходят от своих ворот отправления и в каком направлении люди естественным образом 🚶🏻♂️, они могут составить более точные планы и подготовиться к тому, где разместить магазины и рестораны.
Гостиница
Отели также используют Bib Data для улучшения качества обслуживания клиентов. В интернете легко узнать, хороший отель или нет, так как многие люди оставляют отзывы и рекомендации. Отели, собирающие эти данные, могут определить, где могут быть их слабые стороны, а затем могут найти пути для улучшения ситуации.
Они также могут анализировать поведение потребителей и социальные сети, чтобы узнать, чего хотят их клиенты в определенное время года. Узнав, чего на самом деле хочет клиент, отель может узнать, на что обратить внимание, и обеспечить лучшее обслуживание и качество обслуживания клиентов.
BigData действительно революционизируют в индустрию туризма, и это оказывает огромное влияние на наше путешествие, от бронирования отпуска до его фактического посещения. И собираемые данные будут только расти и, будем надеяться, улучшать наш опыт ✈️
Аналитики всё чаще приходят к программистам за советом. Нашли канал @smart_dev. Авторы публикуют свежие новости веб-разработки, статьи и переводы.
Плюс есть чат, в котором разбираются кейсы из собеседований или рабочие задачи @smart_dev_chat.
Плюс есть чат, в котором разбираются кейсы из собеседований или рабочие задачи @smart_dev_chat.
Обработка живой речи (#NLP) в бизнес-аналитике (#BI)
Обработка естественной речи - это область информатики и компьютерной лингвистики, связанная с взаимодействием между человеческим (естественным) языком и компьютером. Обработка естественной речи направлена на то, чтобы помочь компьютерам использовать семантические структуры информации - контекст в данных - для понимания смысла.
NLP уже проник в повседневную жизнь. Наиболее распространенными примерами естественного языка являются такие технологии, как Alexa, Siri и Google Assistant, которые распознают шаблоны в речи, чтобы вывести смысл и дать соответствующий ответ. Другим распространенным примером NLP в действии являются поисковые системы в Интернете. Когда вы вводите фразу в поисковую систему, она будет отображать предложения, основанные на других аналогичных режимах поиска.
Сегодня поставщики бизнес-аналитики (BI) предлагают интерфейс визуализации на естественном языке, чтобы пользователи могли естественным образом взаимодействовать со своими данными, задавая вопросы так, как они о них думают.
Обработка естественной речи открывает анализ данных для всех уровней пользователей, от начинающих до продвинутых аналитиков, потому что использование технологии не требует глубоких знаний инструмента BI.
Возможности естественного языка в инструментах BI позволяют людям получать информацию, просто общаясь со своими данными. По мере развития NLP в индустрии бизнес-аналитики, эта технология разрушит барьеры использования аналитики в организациях и изменит способы взаимодействия людей с данными.
Обработка естественной речи - это область информатики и компьютерной лингвистики, связанная с взаимодействием между человеческим (естественным) языком и компьютером. Обработка естественной речи направлена на то, чтобы помочь компьютерам использовать семантические структуры информации - контекст в данных - для понимания смысла.
NLP уже проник в повседневную жизнь. Наиболее распространенными примерами естественного языка являются такие технологии, как Alexa, Siri и Google Assistant, которые распознают шаблоны в речи, чтобы вывести смысл и дать соответствующий ответ. Другим распространенным примером NLP в действии являются поисковые системы в Интернете. Когда вы вводите фразу в поисковую систему, она будет отображать предложения, основанные на других аналогичных режимах поиска.
Сегодня поставщики бизнес-аналитики (BI) предлагают интерфейс визуализации на естественном языке, чтобы пользователи могли естественным образом взаимодействовать со своими данными, задавая вопросы так, как они о них думают.
Обработка естественной речи открывает анализ данных для всех уровней пользователей, от начинающих до продвинутых аналитиков, потому что использование технологии не требует глубоких знаний инструмента BI.
Возможности естественного языка в инструментах BI позволяют людям получать информацию, просто общаясь со своими данными. По мере развития NLP в индустрии бизнес-аналитики, эта технология разрушит барьеры использования аналитики в организациях и изменит способы взаимодействия людей с данными.
Диаграмма размаха: что и к чему
В этом посте я попробую разобрать такую распространенную диаграмму, как диаграмму размаха или ящик-с-усиками (box-and-whiskers). Она часто присутствует как стандартный инструмент визуализации во многих решениях. Но, как показывает моя практика, прочитать её могут далеко не все. Не говоря уже о использовании в отчетах.
В этом примере я сравниваю продолжительность жизни небольшого неслучайного набора животных. Есть два основополагающих подхода к формированию диаграммы размаха: базовый (техника Mary Spear) - и продвинутый (техника John Tukey)
Базовый подход
Шаг 1. Рассчитать квартили.
Квартили разбивают набор данных на 4 отрезка. Q1, медиану, Q3 (приблизительно) расположены на 25-м, 50-м и 75-м процентилях соответственно. Нахождение медианы требует нахождения среднего числа, когда значения упорядочены от наименьшего к наибольшему. При наличии четного количества точек данных два числа в середине усредняются.
Здесь медиана - средняя продолжительность жизни кошки и собаки.
ПРИМЕЧАНИЕ. Если при четном наборе значений два в середине будут разными, нижнее из двух значений будет в 50-м процентиле и не будет таким же показателем, как медиана.
Как только медиана будет найдена, найдите другие квартили таким же образом: среднее значение в нижнем наборе значений (Q1), затем среднее значение в верхнем наборе (Q3)
В этом посте я попробую разобрать такую распространенную диаграмму, как диаграмму размаха или ящик-с-усиками (box-and-whiskers). Она часто присутствует как стандартный инструмент визуализации во многих решениях. Но, как показывает моя практика, прочитать её могут далеко не все. Не говоря уже о использовании в отчетах.
В этом примере я сравниваю продолжительность жизни небольшого неслучайного набора животных. Есть два основополагающих подхода к формированию диаграммы размаха: базовый (техника Mary Spear) - и продвинутый (техника John Tukey)
Базовый подход
Шаг 1. Рассчитать квартили.
Квартили разбивают набор данных на 4 отрезка. Q1, медиану, Q3 (приблизительно) расположены на 25-м, 50-м и 75-м процентилях соответственно. Нахождение медианы требует нахождения среднего числа, когда значения упорядочены от наименьшего к наибольшему. При наличии четного количества точек данных два числа в середине усредняются.
Здесь медиана - средняя продолжительность жизни кошки и собаки.
ПРИМЕЧАНИЕ. Если при четном наборе значений два в середине будут разными, нижнее из двух значений будет в 50-м процентиле и не будет таким же показателем, как медиана.
Как только медиана будет найдена, найдите другие квартили таким же образом: среднее значение в нижнем наборе значений (Q1), затем среднее значение в верхнем наборе (Q3)
Шаг 2. Используя эти 5 точек сформировать диаграмму.
Весьма простой подход, который дает быстрый результат и, обычно, не требует больших затрат сил и времени. Именно такой подход мы часто видим, когда эту диаграмму используют не задумываясь, для красоты.
Весьма простой подход, который дает быстрый результат и, обычно, не требует больших затрат сил и времени. Именно такой подход мы часто видим, когда эту диаграмму используют не задумываясь, для красоты.
Продвинутый подход.
Шаг 1. Определить IQR или межквартильный диапазон.
Межквартильный диапазон - это разница или разброс между третьим и первым квартилем, отражающий средние 50% набора данных. IQR строит «коробочную» часть коробочного графика.
Шаг 1. Определить IQR или межквартильный диапазон.
Межквартильный диапазон - это разница или разброс между третьим и первым квартилем, отражающий средние 50% набора данных. IQR строит «коробочную» часть коробочного графика.
Шаг 3. Определяем границы усиков.
1,5 x IQR затем вычитается из нижнего квартиля и добавляется в верхний квартиль для определения границы.
1,5 x IQR затем вычитается из нижнего квартиля и добавляется в верхний квартиль для определения границы.
Шаг 4. Анализируем участников числового ряда, которые не попали в заданные границы.
Поскольку продолжительность жизни ни одного животного не ниже -5 лет, в этом конкретном наборе данных невозможно выделить участников набора, которые не вошли по нижней границе; однако, одно животное в этом наборе данных живет за пределами 31 года, а это выходит за границы диаграммы.
Поскольку продолжительность жизни ни одного животного не ниже -5 лет, в этом конкретном наборе данных невозможно выделить участников набора, которые не вошли по нижней границе; однако, одно животное в этом наборе данных живет за пределами 31 года, а это выходит за границы диаграммы.
Преимущества диаграммы размаха:
▪️ визуально суммирует вариации в больших наборах данных
▪️ показывает тех участников, которые не вошли в выборку
▪️ сравнивает несколько распределений
▪️ указывает симметрию и асимметрию в некоторой степени
▪️ можно быстро набросать
▪️ прикольное название (особенно вариант «коробка-с-усиками»)
▪️ визуально суммирует вариации в больших наборах данных
▪️ показывает тех участников, которые не вошли в выборку
▪️ сравнивает несколько распределений
▪️ указывает симметрию и асимметрию в некоторой степени
▪️ можно быстро набросать
▪️ прикольное название (особенно вариант «коробка-с-усиками»)
Недостатки диаграммы:
▪️ скрывает мультимодальность и другие особенности распределений
▪️ запутывает некоторых пользователей
▪️ определение аутсайдеров очень жесткое
Ниже наглядный пример неудачного использования этой диаграммы
▪️ скрывает мультимодальность и другие особенности распределений
▪️ запутывает некоторых пользователей
▪️ определение аутсайдеров очень жесткое
Ниже наглядный пример неудачного использования этой диаграммы
Праздничная аналитика
Так как наш бизнес-аналитик ушёл на встречу с другими бизнес-аналитиками, сегодня не будет классификаций диаграмм и источников данных. Вместо этого мы порадуем вас анализом расходов (правда, только американских) на подарки в честь того самого Дня.
Оказалось, что желания не всегда совпадают с реальностью. Хочется дарить валентинки, конфеты и цветы, а приходится ювелирные украшения.
Так как наш бизнес-аналитик ушёл на встречу с другими бизнес-аналитиками, сегодня не будет классификаций диаграмм и источников данных. Вместо этого мы порадуем вас анализом расходов (правда, только американских) на подарки в честь того самого Дня.
Оказалось, что желания не всегда совпадают с реальностью. Хочется дарить валентинки, конфеты и цветы, а приходится ювелирные украшения.
Топ 5: #навыки, которыми необходимо овладеть в 2019
(в сфере #BigData, конечно же)
Вдумайтесь 🤔. У нас есть 33 буквы в алфавите и 10 основных цифр. Тем не менее, каким-то образом, ежедневно генерируеться более 2,5 квинтиллионнов байтов данных. Это, по сути, миллион в пятой степени.
Учитывая тот факт, что ценной информации теперь более чем достаточна для всех, сейчас идеальное время, чтобы точно узнать, как ее использовать. И чтобы помочь вам в этом, мы рассмотрим основные типы инструментов, которые вы можете использовать.
1️⃣ Data Visualization – Tableau, PowerBI, Qlik. – инструменты front-end, которыми легко пользоваться, и которые представляют информацию в простой и доступной форме.
2️⃣ Data Engineering – Python. Python особенно удобен, поскольку предоставляет множество библиотек для настройки необработанных данных. Он может взаимодействовать с такими источниками, как Hive, Cloudera Impala, списки MS SharePoint, файлы MS Excel, PostgreSQL, Teradata, MS SQL Server и различными текстовыми файлами, чтобы обеспечить агрегирование данных, изменение формы, разнородное вложение источников, а также автоматизацию.
3️⃣ Data Analytics – SQL. Также известный как язык структурированных запросов, это система, которая используется не только для разработки программного обеспечения, но и для управления данными для реляционных баз данных. Его функциональные возможности делают его исключительно эффективным при чтении, обработке и корректировке данных. Учитывая все вышесказанное, сильная сторона SQL заключается в его способности выполнять широкий спектр агрегаций на обширных наборах данных плюс многочисленные таблицы одновременно.
4️⃣ Big Data – HIVE. Xотя обширная база данных считается активом, так уж сложилось, что она также может стать серьезной проблемой, когда речь заходит об управлении. И именно поэтому они придумали такие инструменты для работы с большими данными, как Hive.
5️⃣ Advanced Analytics – SparkSQL. SparkSQL является чрезвычайно выдающимся инструментом, когда речь заходит о продвинутой аналитике. Разработанный для обработки структурированных и полуструктурированных данных, SparkSQL - это интерфейс spark, который не только служит механизмом распределенных SQL-запросов, но и облегчает абстрагирование сценариев в DataFrames.
(в сфере #BigData, конечно же)
Вдумайтесь 🤔. У нас есть 33 буквы в алфавите и 10 основных цифр. Тем не менее, каким-то образом, ежедневно генерируеться более 2,5 квинтиллионнов байтов данных. Это, по сути, миллион в пятой степени.
Учитывая тот факт, что ценной информации теперь более чем достаточна для всех, сейчас идеальное время, чтобы точно узнать, как ее использовать. И чтобы помочь вам в этом, мы рассмотрим основные типы инструментов, которые вы можете использовать.
1️⃣ Data Visualization – Tableau, PowerBI, Qlik. – инструменты front-end, которыми легко пользоваться, и которые представляют информацию в простой и доступной форме.
2️⃣ Data Engineering – Python. Python особенно удобен, поскольку предоставляет множество библиотек для настройки необработанных данных. Он может взаимодействовать с такими источниками, как Hive, Cloudera Impala, списки MS SharePoint, файлы MS Excel, PostgreSQL, Teradata, MS SQL Server и различными текстовыми файлами, чтобы обеспечить агрегирование данных, изменение формы, разнородное вложение источников, а также автоматизацию.
3️⃣ Data Analytics – SQL. Также известный как язык структурированных запросов, это система, которая используется не только для разработки программного обеспечения, но и для управления данными для реляционных баз данных. Его функциональные возможности делают его исключительно эффективным при чтении, обработке и корректировке данных. Учитывая все вышесказанное, сильная сторона SQL заключается в его способности выполнять широкий спектр агрегаций на обширных наборах данных плюс многочисленные таблицы одновременно.
4️⃣ Big Data – HIVE. Xотя обширная база данных считается активом, так уж сложилось, что она также может стать серьезной проблемой, когда речь заходит об управлении. И именно поэтому они придумали такие инструменты для работы с большими данными, как Hive.
5️⃣ Advanced Analytics – SparkSQL. SparkSQL является чрезвычайно выдающимся инструментом, когда речь заходит о продвинутой аналитике. Разработанный для обработки структурированных и полуструктурированных данных, SparkSQL - это интерфейс spark, который не только служит механизмом распределенных SQL-запросов, но и облегчает абстрагирование сценариев в DataFrames.
Архивирование Big Data
Есть три задачи, с которыми должен справляться современный архив:
1️⃣ масштабирование, вызванное ростом объёма данных (от терабайтов к петабайтам)
2️⃣ необходимость не только хранить, но и использовать архивные данные
3️⃣ автоматизация процесса и его перевод в SaaS-сферу
Достаточно успешно с Big Data на украинском рынке работает продукт Megapolis.DocNet – система внутреннего электронного документооборота.
DocNet позволяет обрабатывать и хранить до 100 ТБ данных в течение 10-ти лет. Пока нет ни одного клиента, который бы превысил этот рубеж, достигнутый максимум – 80 ТБ.
Налажен мгновенный поиск любого документа. Скорость поиска достигается хранением атрибутов документов в СУБД, при этом сами документы сохраняются на выбранном блочном устройстве, в простейшем случае - в файловой системе.
При необходимости масштабирования и отказоустойчивости используются либо специализированные файловые системы (zfs, btrfs), либо программно-аппаратные комплексы, например, Dell EMC.
Есть три задачи, с которыми должен справляться современный архив:
1️⃣ масштабирование, вызванное ростом объёма данных (от терабайтов к петабайтам)
2️⃣ необходимость не только хранить, но и использовать архивные данные
3️⃣ автоматизация процесса и его перевод в SaaS-сферу
Достаточно успешно с Big Data на украинском рынке работает продукт Megapolis.DocNet – система внутреннего электронного документооборота.
DocNet позволяет обрабатывать и хранить до 100 ТБ данных в течение 10-ти лет. Пока нет ни одного клиента, который бы превысил этот рубеж, достигнутый максимум – 80 ТБ.
Налажен мгновенный поиск любого документа. Скорость поиска достигается хранением атрибутов документов в СУБД, при этом сами документы сохраняются на выбранном блочном устройстве, в простейшем случае - в файловой системе.
При необходимости масштабирования и отказоустойчивости используются либо специализированные файловые системы (zfs, btrfs), либо программно-аппаратные комплексы, например, Dell EMC.
The Oscars
Фильм Зелёная книга был признан лучшим фильмом года Американской Киноакадемией. Номинатов же было восемь.
Lindsey Poulter (@datavizlinds) собрала данные об их общем количестве номинаций (не только Оскар), успешности в домашнем прокате и рейтинге на Rotten Tomatoes, чтобы ответить на несколько вопросов:
1️⃣ Выбирают ли разные жюри одних и тех же победителей?
2️⃣ Повышает ли награда за лучшую актрису/актёра второго плана шансы на звание лучшего фильма или же награды распределяются равномерно?
3️⃣ Влияют ли кассовые сборы или рейтинг Rotten Tomatoes на конечный результат? (спойлер - нет)
А вы довольны результатами Оскара?
Фильм Зелёная книга был признан лучшим фильмом года Американской Киноакадемией. Номинатов же было восемь.
Lindsey Poulter (@datavizlinds) собрала данные об их общем количестве номинаций (не только Оскар), успешности в домашнем прокате и рейтинге на Rotten Tomatoes, чтобы ответить на несколько вопросов:
1️⃣ Выбирают ли разные жюри одних и тех же победителей?
2️⃣ Повышает ли награда за лучшую актрису/актёра второго плана шансы на звание лучшего фильма или же награды распределяются равномерно?
3️⃣ Влияют ли кассовые сборы или рейтинг Rotten Tomatoes на конечный результат? (спойлер - нет)
А вы довольны результатами Оскара?
Наши читатели - компания N-iX - поделились интересной вакансией.
Команда приглашает BigData-гуру присоединиться к необычному проекту GOGO, цель которого состоит в предоставлении сервиса Wi-Fi-доступа на борту самолетов.
Уже сейчас сервис доступен на более 2900 коммерческих и более 6600 бизнес-самолетов! ✈️
N-iX сотрудничает в таких направлениях как BigData, Business Intelligence, Data Analysis и ищет таланты, которые могут внести свой вклад в развитие проекта.
Если есть опыт работы с Apache Spark, Python и Scala, у тебя хорошее понимание методологий разработки программного обеспечения и хороший английский, работал с Hadoop architecture и AWS (S3, EMR cluster, Lambda, Kinesis), тогда ты идеальный кандидат!
Команда приглашает BigData-гуру присоединиться к необычному проекту GOGO, цель которого состоит в предоставлении сервиса Wi-Fi-доступа на борту самолетов.
Уже сейчас сервис доступен на более 2900 коммерческих и более 6600 бизнес-самолетов! ✈️
N-iX сотрудничает в таких направлениях как BigData, Business Intelligence, Data Analysis и ищет таланты, которые могут внести свой вклад в развитие проекта.
Если есть опыт работы с Apache Spark, Python и Scala, у тебя хорошее понимание методологий разработки программного обеспечения и хороший английский, работал с Hadoop architecture и AWS (S3, EMR cluster, Lambda, Kinesis), тогда ты идеальный кандидат!
Топ 9 статей о BigData за февраль:
1️⃣ arXiv.org для ИИ
2️⃣ Какие должности скоро хахватит ИИ
3️⃣ 6 способов как аналитикой сократить расходы
4️⃣ Архитектура Apache Kafka
5️⃣ Роль аналитики в Product Development
6️⃣ Как квантовые компьютеры могут изменить все
7️⃣ Как машинное обучение дополняет бизнес-аналитику
8️⃣ Инфографика: нехватка Data Scientist
9️⃣ 8 шагов для того чтобы стать Data Scientist
1️⃣ arXiv.org для ИИ
2️⃣ Какие должности скоро хахватит ИИ
3️⃣ 6 способов как аналитикой сократить расходы
4️⃣ Архитектура Apache Kafka
5️⃣ Роль аналитики в Product Development
6️⃣ Как квантовые компьютеры могут изменить все
7️⃣ Как машинное обучение дополняет бизнес-аналитику
8️⃣ Инфографика: нехватка Data Scientist
9️⃣ 8 шагов для того чтобы стать Data Scientist