BI & Big Data
266 subscribers
23 photos
2 files
133 links
Канал компании CoreWin. Бизнес-аналитика и Big Data: новости, тенденции и инструменты.

@BBDfeedback_bot - напишите нам.
Download Telegram
​​Мобильный BI

Компании должны принимать решения всё быстрее. Системы мобильной бизнес-аналитики (BI) развёртываются как раз для того, чтобы идти в ногу с соперниками и получать преимущество.

Что такое #MobileBI?

По сути, это доступ и анализ информации с помощью мобильных устройств. С ростом использования мобильных устройств для работы - и не только на управленческих позициях - мобильный BI способен предоставить доступную бизнес-аналитику пользователю где и когда угодно.

Мобильный BI - не просто отображение содержимого системы, но и интерактивное взаимодействие с ним. Необходимо определить мобильную стратегию, чтобы отображать информацию на разных моделях и диагоналях.

В целом, мобильный BI обеспечивает большую доступность информации, скорость реакции и эффективную работу, а также улучшает внутренние коммуникации и сокращает длительность рабочих процессов.

Наконец, наличие мобильных приложений расширяет аудиторию и позволяет использовать BI даже новичкам.
​​Выбор BI

#Выбор инструмента бизнес-аналитики - это краеугольный проект для любой компании. То самое "всерьёз и надолго", определяющее, насколько эффективными станут решения компании в ближайшем будущем.

Ниже - краткие подсказки о том, на что стоит обратить внимание при выборе #BI.

Сначала задайтесь вопросом: "Какие задачи необходимо решить?" 1️⃣ шагом, который обеспечит успех BI, является определение болевых точек. Он требует постоянной связи с членами вашей компании, которые будут администрировать программное обеспечение и строить аналитику.

Далее спросите себя: "Кто будет пользоваться системой" Какие рабочие роли они заполняют?
Какова степень их технологических навыков?
Они обычно работают в офисе или путешествуют?
Используют ноутбук, смартфон или планшет?

Рекомендуем отдавать предпочтение тому разработчику и интегратору, который понимает ваш рынок, вашу специфику. Пышные речи не всегда предвестник результата.

Наконец, попросите интегратора пообщаться с существующим клиентом. Если решение хорошее, обычно коллеги по рынку (даже конкуренты) готовы поделиться 🗣 своими впечатлениями и опытом.

Важное примечание. Не продешевите. Бизнес-аналитика — это не то, на чём стоит экономить. Скупой платит дважды, поэтому выберите оптимальное решение. И если сейчас денег на него нет - отложите покупку.

Ниже - ссылка на скачивания отчёта о всех игроках BI-рынка от компании #BetterBuys. Он должен облегчить поиск вариантов.
BI и обработка живой речи (Natural Language Processing)

Достижения в обработке живой речи изумляют. Теоретически NLP позволяет работать с BI-системой как с Google, отправляя запросы на обычном, "человеческом" языке и получая релеватные результаты.

Но развитие #NLP (Natural Language Processing) для #BI идёт достаточно медленно. Почему же?
________________________
▪️Определение границ предложений

Для того, чтобы NLP правильно определяла значение для строк и слов, компьютер должен знать, где начинается и заканчивается одна идея, одно предложение.

▪️Маркировка частей речи

После определения последовательности слов есть ещё одна задача, которую NLP должна решить. Это идентификация частей речи, содержащихся в строке.

▪️Распознавание контекста

Программе сложно определить, что означает «Вашингтон» - имя или штат. Распознавание контекста слова - сложная задача для програмиста.
________________________
И при этом NLP таит в себе неограниченные возможности
________________________
▫️Одним из применений NLP, уже существующим в BI, является перевод аналитических результатов на общий язык. Это делает информацию доступной для более широкой аудитории.

▫️Второе применение - использование NLP в качестве средства перевода общих предложений в используемые запросы в базы данных.
________________________

Детальнее: https://bit.ly/2O2NcuJ
​​Real Time Data 🌐

Одна из последних тенденций Big Data – отказ от центральной базы данных. Её с успехом заменяют фреймворки (как с открытым исходным кодом, так и коммерческие), которые позволяют управлять потоками данных и нагрузками на аппаратное обеспечение в режиме реального времени.

Пакетная обработка осталась в прошлом. Современные ETL-сценарии извлекают данные из плоских файлов (Excel, csv), преобразовывают их в полезную структуру (т.е. пригодную к дальнейшему использованию в SQL или BI) и загружают в базу данных или другую систему управления данными.
________________________
ETL может быть:

⚙️ развёрнут непосредственно на сервере и адаптирован для работы с инструментами а-ля Unix cron
⚙️ реализован как скрипт, выполняемый при появлении новых данных
⚙️ спроектирован сторонним разработчиком ПО (Informatica, Tableau, Talend, IBM, Microsoft etc)

Как только данные были «захвачены», их – чаще всего – нужно быстро проанализовать.

🔺Для игроков финансового рынка – это конкурентное преимущество.
🔺Для потребительских платформ – ускорение процесса (н-р, распознавание клиента) и персонализация рекламы.
🔺Для больниц, аэропортов, зон строительства, электростанций - вопрос жизни и смерти.

Здесь критически необходимо выявлять аномалии или инспектировать условия безопасности.
________________________
Потоки данных в режиме реального времени – относительно молодой, но весьма перспективный подход. В течение следующих нескольких лет организации с успешной его реализацией смогут на голову опередить конкурентов.
​​Только коробка под кроватью. Только хардкор!

Удачных выходных!
​​Сложности принятия современной культуры данных

Независимо размера компании, данные - важный для неё ресурс. 🔥, дающий толчок в развитии. Но как показывает практика, мало нанять команду инженеров и развернуть несколько IT-систем.

Современная #культура данных означает, что каждый сотрудник (или клиент) компании может воспользоваться накопленными компанией данными и получить позитивный результат.

К примеру, Domino’s Pizza в 2012 решила применить данную стратегию и начала собирать данные о потребителях и их заказах, что привело к тому уровню онлайн-сервиса, который мы видим сегодня.

Какие же препятствия возникают при попытках реализовать такую стратегию?

1️⃣ Нет инфраструктуры для данных. 🏠 начинается с фундамента. Данным нужны сервера и программные комплексы, защищённые и надёжные.

2️⃣ Страх сотрудников перед организационными изменениями. Важно подготовить коллектив к изменениям до внедрения, чтобы сотрудники понимали плюсы такой стратегии и не оставались с 👻 перемен один-на-один.

3️⃣ Разбросанные, повреждённые данные. Надо смириться с одной истиной. Для того, чтобы автоматизировать обработку сырья - это сырье необходимо привести в пригодную для оборудования форму. Данные - не исключение. Без интеллектуальной подготовки данных человеком 🥘 не сварить.

Чтобы позволить каждому человеку стать "человеком данных", компании должны создавать условия для интеграции между аналитическими и операционными системами. В конечном счёте, цель состоит в том, чтобы позволить большему количеству людей принимать более эффективные решения, основанные на данных.
​​Публично доступные данные

Данные повсеместны, но иногда бывает трудно увидеть нужную иголку в стоге сена. Многие компании полагают, что им придётся собирать данные, чтобы увидеть преимущества от аналитики данных, но всё намного проще.

Существуют сотни (если не тысячи) свободных наборов данных, готовых к использованию и анализу. Главное - знать, где их искать. Ниже приведено 2 публикации с источниками данных, их там больше 50. Эти данные польностью #публичные и доступны каждому.

Ну и, конечно же, стоит отметить портал, где доступны открытые данные 🇺🇦, ссылка на ресурс внизу.

Для читателей, который занимаются аналитикой профессионально (или только учатся), наличие источника, на котором можно тренировать свои навыки, - критически важно.
​​Как работать с ETL, если ты не программист?

Не так давно мы делали обзор каналов Reddit’а
(t.iss.one/bi_bigdata/32), посвящённых BI и Big Data. Среди них был и канал /r/BusinessIntelligence/, где обнаружился любопытный топик – “Как работать с ETL, если я не программист?”

Для справки. ETL-системы – Extraction, Transform, Load:

⚙️ извлекают данные из нескольких внешних источников
⚙️ трансформируют их, приводя к пригодному для дальнейшей работы виду
⚙️ загружают в хранилища данных

Автор не знает языков программирования, но перед ним стоит задача извлечь и очистить данные. Что делать? (с)

Кроме очевидных советов из серии “Стань программистом”, мы нашли подробный анализ лучших ETL-средств на рынке для людей с разным уровнем подготовки и указанием, какие знания им потребуются.

Вывод в итоге следующий: да, без знаний языков программирования можно работать с ETL, но без знаний SQL – очень сложно.
​​Data Discovery

Data Discovery – это процесс извлечения из данных полезной для BI информации по уже готовым шаблонам и критериям (людьми или искусственным интеллектом).

В отличии от Data Mining, Data Discovery работает с достаточно узкими параметрами поиска. Инструментами обнаружения данных служат карты тепла, сводные таблицы, круговые диаграммы, гистограммы и географические карты etc.

Если провести аналогию, Data Discovery помогает скульптору найти кусок мрамора, а Data Mining – кусок мрамора нужной формы и текстуры.

В этот вечер советуем почитать две статьи.

Первая описывает суть Data Discovery как явления, вторая сравнивает его с BI-подходом.
Forwarded from DataRoot Labs
​​CEO и основатель DataRoot Labs Макс Фролов — ментор на Global Hack Weekend 2018!

DataRoot Labs — лаборатория с фокусом на исследованиях в области Artificial Intelligence и большим объемом данных. Лаборатория является одним из крупнейших исследовательских центров в Украине в своем сегменте. Макс Фролов — лектор на курсе «Data Science & Engineering» в DataRoot University. Возглавил рейтинг молодых предпринимателей до 25 лет "Новые имена" от медиа ресурса MC.Today.

#GHW 2018 — это экстремальный катализатор роста. 1000 участников под одной крышей и только 48 часов для создания продукта.

Команда-победитель поедет на WEB Summit в Лиссабон.

Даты: 23-25 ноября
Регистрация по ссылке: https://ghw.com.ua/
​​Советы аналитку

Даже опытные аналитки часто входят в определенный режим работы и иногда забывают о прописных истинах #визуализации Вот некоторые из них:

1️⃣ Выбирайте нужный тип графика в зависимости от типа данных. Для анализа во времени – линейный график, для сравнения групп – столбиковая диаграмма, для анализа данных в пространстве – карта.
2️⃣ Держите креативность в узде. В ходе дизайна дэшборда легко увлечься и нарисовать что-то очень красивое. Но не стоит забывать, что визуализация должна быть в первую очередь понятной. И только потом красивой.
3️⃣ Простота – залог успеха. Пытайтесь делать несколько простых графиков, а не показать на одном графике всё. Сделать график перегруженным проще, чем кажется.
4️⃣ Не забывайте выставлять иерархии данных. Только с ними у пользователя появится возможность проваливаться вниз и видеть данные от общего к частному.

Это азы, которые усваиваются при первых же дэшбордах. Если вы уже давно занимаетесь визуализацией, то я рекомендую познакомиться с Дзен мастерами данных. Дзен мастера – это программа для лучших аналитиков от компании Tableau.
Доступны сайты и твитер-страницы мастеров, их также можно найти на Tableau Public. Обычно они весьма отзывчивы и готовы помочь.
​​Жуткое Deep Learning 👻

Пока все заканчивают праздновать Хэллоуин, расскажем вам о нескольких весьма устрашающих вариациях deep learning.

🎃 Nightmare Machine. Исследователи MIT обучили AI преобразовывать фотографии людей (и не только) в монстров и жуткие дома. Зачем - не до конца понятно, но вы можете помочь машине в обучении тут.

🎃 Deep Empathy. Другая группа из MIT "скормила" машине фото Сирии. В результате AI преобразовывает всем знакомые города в развалины. Цель проекта - поднять уровень сочувствия у людей по всему миру и тем самым бороться с войной. Присоединиться к обучению AI можно тут.

🎃 Norman. Прототипом этой машины стал психопат из фильма Хичкока "Психо". Её обучили на Reddit, а именно на самой тёмной его ветке. В резльтате получился первый ИИ-психопат. Он видит на картинках теста Роршаха только смерть и убийства. Сейчас исследователи пытаются его вылечить. Вы можете помочь Норману тут.
​​Тренды BI в 2019

Появляются первые прогнозы 📈 в сфере бизнес аналитики на 2019.

Топ 5️⃣ самых вероятных трендов в бизнес-аналитике:

Пятое место - #культура данных, подразумевается возможность коллектива извлекать из данных релевантную информацию.

Четвертое место - #управление данными, с вступлением в силу GDPR многие аспекты управления данными стали обязательными.

Третье место - простой в использовании (#self-service) BI. Тренд, который остается уже много лет подряд. BI должен быть доступен бизнес-пользователям.

Второе место - #обнаружение данных. Решения типа data #discovery предлагают пользователям интерактивный графический пользовательский интерфейс, базирующийся на архитектуре in-memory.

Первое место - #качество данных и управление им. Построение системы чистки, проверки данных, которые используются для аналитики.

По сравнению с 2016 годом больше всего веса приобрел тренд #подготовки данных для бизнес-пользователей. Это говорит о том, что управленцы стали значительно ближе к BI.

Больше всего веса потерял тренд интегрированной системы аналитики и управления производительностью. 🌍 двигается в сторону разьединения систем, поскольку все чаще они используются для разных целей.
​​Что такое инсайт или BI vs Machine Learning

Психологией остается необъясненным такой феномен, как озарение, или инсайт. Инсайт - это так называемый эффект "Ага!" или "Эврика!". Момент, когда мозг и психика неожиданно выдают решение проблемы и после именно этого момента решение кажется очевидным.
Некоторые исследователи выделяют именно феномен инсайта, как основу для эффекта "черного лебедя".

Другой аспект инсайта заиграл новыми красками с развитием #MachineLearning. Именно с развитием этой технологии стало понятно, насколько инсайт влияет на картину 🌍. Именно он обеспечивает гибкость в восприятии мира. Чтобы это осознать вот два примера.

1️⃣ Музыка, написанная #AI. Машинное обучение позволяет только создавать музыку в определённом жанре, стиле. В определенном смысле только пародировать исполнителей. Одна из таких "пародий" на Beatles.

2️⃣ Если AI обучить на пейзажах моря, то море он будет видеть во всем. Также с цветами и другими изображениями. Видео тут.

Одним из первых исследователей #инсайт был Пуанкаре. Он выделил такие этапы обработки задачи человеком:

1️⃣ Подготовка. Исследование нового материала, обработка и планирование, обдумывание задач. Период осознанной концентрации над проблемой.
2️⃣ Инкубация. Отвлечение от задачи, когда «ментальные события» начинают происходить непроизвольно, без контроля сознания.
3️⃣ Озарение. Вспышка осознания, что решение проблемы найдено.
4️⃣ Проверка. Контроль сознания за найденным решением, отбор идей и проверка гипотез.

Если первый, четвертый и возможно второй этапе можно воссоздать в программе, то Озарение пока что воссоздать не удалось.

Именно поэтому аналитика (#BI) еще долго не сойдет со сцены. Роль BI как раз и состоит в представлении данных в таком виде, чтобы повысить вероятность инсайта. Чтобы возгласы "Ага!" звучали все чаще.
​​Сегодня хотим посоветовать любопытнейший сайт – Diagrammm by Roman Sverdan.
Там собраны примеры диаграмм для визуализации информации, а также советы, как их лучше оформить и где лучше использовать.

Визуализация стала современным инструментом коммуникации, который раскрывает содержание данных. С его помощью поток цифр становится ясным и последовательным образом. Это экономит время, подчёркивает значимую информацию, помогает сформировать видение. И чем важнее запрос, тем точнее должны быть данные и сама визуализация.

Diagrammm был разработан как онлайн-источник правил и подсказок. Его можно рассматривать как справочник советов о том, как правильно и адекватно разрабатывать различные типы визуализаций. Описаны фундаментальные принципы хорошей информационной графики.

Ресурс предлагает организованные, структурированные и подробные руководства о том, как сделать визуальный продукт последовательным, надёжным и точным. Кроме того, предоставлен список ссылок, книг и других дополнительных материалов, которые использовались в качестве источников информации.

Diagrammm будет полезен для широкой аудитории - как для опытных пользователей визуализации данных, так и начинающих специалистов. Первые смогут улучшить свои навыки, а последние буду учиться сразу делать «правильную» визуализацию.

Сайт полностью создан и управляется нашим соотечественником, который является информационным дизайнером из Львова.
​​Big Data и спасение мира

Несколько проектов #BigData, которые пытаются быть полезными 🌍 и человечеству.

Conservation International. Цель проекта - защита биологического разнообразия, платформа мониторит состояние флоры в тропических лесах.

Conservation.io - это мобильное приложение, созданное для учёных, природоохранных организаций и менеджеров ресурсов, чтобы помочь 🗣 общественность о том, что делается для охраны внешней среды.

GTOPP - это программа, которая маркирует морских живтоных и анализирует эти массивы данных. Цель - понять поведение животных и обеспечить лучшую охрану среды их обитания.

Bumble Bee Watch - это краудсорсинговый проект, который записывает местоположение и виды пчёл.

State of the Polar Bear - проект по исследованию здоровья популяции белых медведей.
Опрос пользователей BI

Сегодня хотим поговорить про статью, в которой была собрана аналитика по поводу частых проблем, с которыми сталкивается специалист #BI.

В ней представлены результаты исследования, проведённого в августе #2018 года. Была надежда, что, выявив текущие проблемы, можно найти и способы их устранения.

Опрос был отправлен случайным лицам в LinkedIn с заголовками, которые включают BI. Всего было собрано 93 ответа, некоторые из них оказались неполными и были удалены из анализа. Общее количество полных ответов составило 58.

Результаты опроса представлены ниже, конечно же, в форме графиков.