Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading
Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket
all_by_list_20220711_public.xlsx
217.3 KB
А раз Минцифры таки начнут чистить реестр аккредитованных компаний, то вот ещё один кусок из нашей аналитической базы. Это разного рода списки компаний, сортируются по первой колонке "category" включают такие категории как
- Разработка, производство, испытание и ремонт авиационной техники
- Финансовые организации
- Частные охранные организации
- Организации имеющие государственного или муниципального учредителя (РФ)
- Организации имеющие ПО зарегистрированное в реестре отечественного ПО
- Больничные организации
- Страховые организации
- Некоммерческие организации
- Радио и телекомпании
- Телекоммуникационные компании
- Высшие учебные заведения

Обратите внимание что почти все телеком компании в России были аккредитованы как ИТ.

Ну и остальных там хватает.

Это только те организации которых хотя бы 4 в одной категории набирается, а ещё куча разной экзотики вроде онлайн аптек, гостиниц, риэлторов и тд.

Но пусть с этим сами сотрудники Минцифры РФ уже разбираются.

#opendata #data #analytics #itmarket
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.

По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%

Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.

И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.

Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.

И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.



Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/

#data #analytics #careers
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.

Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].

Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.

Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats

#data #datatools #analytics
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.

Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.

Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/

#ai #analytics #llmops
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools
Вот прям очень интересное исследование от Сбериндекса со многих точек зрения, но главное - это взгляд на проблемы работы с муниципальными данными
#analytics #opendata
Не успела появится профессия BI Engineer как её скоро заменит AI [1]. Полезная статья в блоге Rill о применении AI для корпоративной аналитики.

Это, кстати, вполне реалистичное применение технологий. Вместо построения дашбордов использование естественного языка для получения аналитики. Правда аналитики останутся без работы даже быстрее чем многие другие профессии. Потому что ничто не мешает членам совета директоров хотья прямо на совещании делать промпты на естественном языке к языковой модели которая имеет доступ к корпоративному хранилищу и получать почти моментальные ответы.

Ссылки:
[1] https://www.rilldata.com/blog/bi-as-code-and-the-new-era-of-genbi

#bi #analytics #ai #thoughts