Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Оказывается я совершенно упустил эту новость, но в июне этого года оказывается Google купили за 2.6 млрд долларов США сервис Looker [1], один из лучших облачных сервисов по Business Intelligence. Теперь сервис переползает на Google Cloud, а в Google Cloud появляется нечто что имеет реальную ценность для многих корпоративных пользователей.

В принципе скупка онлайн BI сервисов крупными облачными игроками - это нечто что находится прямо на поверхности. Одна из проблем внешнего BI - это необходимость открывать для сервисов доступ к своим СУБД дистанционно и гонять довольно большие объёмы данных, а также безопасность вот этого всего. Перенос в облако даёт возможность и данные из облака подгружать и безопасность обеспечивать без необходимости открывать порты/коннекторы к конкретным базам данных.

Аналогично Looker'у в мае 2019 года был куплен Periscope Data [2], правда купили их Sisense, создатели другого BI решения, но я предсказываю что те облачные провайдеры которые не купят или построят свой BI будут договариваться о развертывании платформ на своей инфраструктуре.

Ссылки:
[1] https://looker.com/
[2] https://www.periscopedata.com/

#bi #businessintelligence #analytics
Вышел Apache Superset 1.0 [1] важная веха в развитии этого одного из лучших продуктов открытым кодом по Business Intelligence.

В релиз вошли:
- значительное ускорение производительности
- личные лендинговые страницы
- улучшенные дашборды
- графики через Apache eCharts
- удобное REST API

и ещё многое другое.

Из недостатков Superset остался тот что он плохо из коробки работает с NoSQL базами данных вроде MongoDB или ArangoDB, но для этого существует множество коннекторов через инструменты вроде Panoply, Stitch, Presto

Участникам хакатонов и конкурсов на заметку, Superset - это хороший конструктор для быстрой сборки визуальных продуктов. Не стоит стесняться его использовать и его стоит изучать.

Ссылки:
[1] https://github.com/apache/superset

#opensource #bi #data
У Бэна Стэнсила, основателя и руководителя аналитиками в стартапе Mode, замечательная заметка в его рассылке, с рефлексией о том как компании сейчас потребляют данные и как это возможно в будущем [1]. Основной посыл заметки в том что "фронтэнд разваливается" и приводит в пример десятки разных способов донесения данных через дашборды, тетрадки, сервисы визуализации, разные виды, формы и ориентации BI продукты и так далее. Идея в том что можно ли сделать открытый продукт к которому разные формы потребления данных можно было бы добавлять плагинами? По аналогии с Wordpress'ом и другими аналогичными экосистемными продуктами.

Идея интересная, созвучная многим, включая меня. Хотя я пока и не чувствую что разваливается именно фронтэнд и конечное потребление данных, скорее современный стек данных превращается в набор для сборки, а для кого-то и в паззл где своими силами ты делаешь только то что не можешь собрать из кубиков. Или делаешь то что хочешь продать/продавать. Отсюда и растущий запрос не просто на дата-инженеров, а на платформенных дата-инженеров, а может уже пора ввести понятие data-constructor ?

Когда я сейчас проектирую стартап и продукт по анализу и/или/или не обработки данных, я, как и многие, не мыслю категориями разработать его с нуля. Я смотрю на open source и облачные продукты и понимаю что: вот тут для ELT можно взять вот это, вот тут для BI вот это, вот тут для хранилища вот это, вот тут для сбора данных в реальном времени вот это, для пользовательского интерфейса вот это и так далее.

А рассылка Бэна весьма популярна в среде аналитиков и дата инженеров, всячески его рекомендую.

Ссылки:
[1] https://benn.substack.com/p/business-in-the-back-party-in-the-front

#data #thoughts #reading #dataengineering #bi
Вышла новая версия Metabase [1] опенсорсной и облачной системы визуализации дашбордами (BI системы). В этой версии добавили поддержку моделей и возможности моделирования структуры отображаемых данных для нетехнических пользователей и, в принципе, видно что продукт эволюционирует в сторону повышения его доступености для аналитиков без технического бэкграунда и большей поддержке облачных продуктов.

Собственно основные продукты по визуализации данных с открытым кодом готовые к быстрому корпоративному применению - это Metabase и Superset. Изменения в них весьма интересны.

Ссылки:
[1] https://www.metabase.com/blog/Metabase-0.42/index.html

# datatools #cloud #bi #metabase #opensource
Хороший текст “Semantic-free” is the future of Business Intelligence [1] о семантически-свободных BI продуктах и то что headless BI - это тоже семантически-свободный BI. Расшифровывается это как то что все BI инструменты должны соблюдать общие стандарты в результате применения которых можно использовать комбинации BI инструментов. Звучит здорово, но вообще безвендорный мир или мир с ослаблением вендоров сложен без административного или мощного рыночного давления.

Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.

Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563

#bi #datastandards
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.

Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.

В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.

Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.

Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.

Ссылки:
[1] https://evidence.dev

#opensource #dataviz #bi #startups
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.

Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.

Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.

Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)

Ссылки:
[1] https://superset.apache.org

#opendata #datasets #data #datatools #superset #bi #datacatalogs
Свежий любопытный инструмент Chartbrew [1], частичная замена Superset и ряду других BI инструментам. Одновременно существует как open source и как сервис.

Из плюсов:
- MIT лицензия
- поддержка MongoDB сразу и из коробки
- выглядит достаточно быстрым, судя по их живому демо

Минусы:
- никаких корпоративных СУБД, скорее акцент на онлайн сервисы
- есть сомнения в высокой настраиваемости, то что более продвинутые BI умеют хорошо
- непонятно что с локализацией, нет примеров

В итоге и судя по позиционированию выглядит как low-code BI для веб студий для их клиентов, там даже предусмотрена возможность создания аккаунтов клиентов.

Выглядит не очень продвинуто пока, но свою нишу может найти.

Ссылки:
[1] https://github.com/chartbrew/chartbrew
[2] https://app.chartbrew.com/live-demo

#opensource #bi #datatools
Не успела появится профессия BI Engineer как её скоро заменит AI [1]. Полезная статья в блоге Rill о применении AI для корпоративной аналитики.

Это, кстати, вполне реалистичное применение технологий. Вместо построения дашбордов использование естественного языка для получения аналитики. Правда аналитики останутся без работы даже быстрее чем многие другие профессии. Потому что ничто не мешает членам совета директоров хотья прямо на совещании делать промпты на естественном языке к языковой модели которая имеет доступ к корпоративному хранилищу и получать почти моментальные ответы.

Ссылки:
[1] https://www.rilldata.com/blog/bi-as-code-and-the-new-era-of-genbi

#bi #analytics #ai #thoughts