Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В файлах goscontr2010.pdf и goscontr_2009.pdf - обзоры структуры госзаказа по рынкам. Главный вывод - в коллосальном дисбалансе распределения средств и фокусе контролеров от реальных потоков государственных расходов на те которые менее активны на «административном рынке» . #clearspending #spending #procurement #analytics
Многие уже написали о проекте USAFacts [1] который представляется как "USAFacts is a new data-driven portrait of the American population, our government’s finances, and government’s impact on society."

Действительно, интереснейший проект с собранными и удобно поданными данными о населении, финансах, доходах и расходах бюджета и многом другом.

Проект, очень хорошо сделан, в нем интересно что цифры предоставляются в сравнении с 1980 года и в том что за каждой цифрой есть тщательная методология [2], вдохновением для проекта оказался разговор Стива Балмера с женой [3], в котором он задался вопрос о том что государство делает с теми деньгами что оно собирает в виде налогов.

На мой взгляд это одна из лучших визуализаций бюджетов стран и, конечно, это ровно тот проект который логично было бы иметь любому государственному мозговому центру до начала любых реформ. В какой-то степени он напомнил мне проект DataUSA [4], который тоже совсем недавно упоминался и в котором собрана локальная и гиперлокальная статистика образования, производства, здравоохранения, населения и многое другое.

Подобный проекты практически всегда основанные на открытых данных. Но на открытых данных прошедших тщательную верификацию и упаковку в аналитический продукт.

Ссылки:
[1] https://www.usafacts.org
[2] https://www.usafacts.org/methodology
[3] https://www.usafacts.org/about
[4] https://datausa.io/

#opendata #data #analytics

P.S. Теперь я также начал вести блог на Medium и для тех кому это удобнее, можно читать меня там https://medium.com/@ibegtin/usafacts-e5c623c81097
Countable [1] пример настоящего общественного контроля граждан за государством в США активизирует публичные дискуссии вокруг проектов законопроектов в конгрессе и собирает их десятками тысяч, а также предлагает инструкции того как писать представителям в конгрессе своё мнение.

В основе проекта - чёткое, краткое и ясное изложение законопроекта и активное вовлечение к дискуссии.

В апреле этого года они совместно с USAFacts [2] планирует выпускать углублённую аналитику по ключевым вопросам госполитики.

Ссылки:
[1] https://www.countable.us
[2] https://www.countable.us/articles/3919-countable-usafacts-savvy-civic-synergy

#opendata #analytics #openbudget
Многие знают термин GONGO (Government oriented NGO) который характеризует некоммерческие организации де-факто помогающие осуществлять госполитику и напрямую или опосредованно аффилированные с государством. Гораздо реже звучит термин BINGO - это Big International NGO, подвид некоммерческих международных организаций особо большого размера.

Их не так много в мире, около 50, и годовая выручка некоторых из них может превосходить 1 миллиард фунтов стерлингов, они работают всегда во множестве направлений и охватывают более 50+ стран каждая.

В исследовании "Whither large International Non-Governmental Organisations?" [1] (Куда движутся крупные международные некоммерческие организации) разбирается то что с ними происходит сейчас и какие варианты у них есть для развития, в том числе, цифровой трансформации которая явно в таком виде не упоминается, но присутствует по сути. Всё это в контексте Великобритании

Вот лишь несколько вызовов с которыми BINGO сталкиваются:
1. Растущая зависимость от государственных грантов и контрактов.
2. Развитие технологий позволяет финансировать местные сообщества напрямую и становится непонятной роль крупнейших НКО которые обычно создают цепочку из партнёров через которых осуществляют свои программы.
3. Рост организаций привел к существенной забюрократизированности и, соответственно, снижению эффективности.
4. Неготовность организаций к быстром соответствию меняющемуся контексту, использованию технологий и тд.
5. Снижение доверия к BINGO по причинам необоснованного роста зарплат руководителей НКО, недостаточной коммуникацией с поддерживающими их гражданами.

Итоговые рекомендации в 3-х вариантах направлений развития:
1. Фрагментация
Разделения крупной INGO на множество меньшего размера и выделение в отдельную компанию всей обслуживающей и сервисной инфраструктуры. Фактически это модель франшиз и децентрализации под единым брендом.

2. Консолидация
Приобретение малых НКО/компаний которые могут обеспечить качественное технологическое изменение или же объединение с похожими INGO в общую группу. Пример: Age UK было создано в 2009 году на базе Help the Aged и Age Concern

3. Платформизация
Или Уберизация. Цифровая трансформация - это примеры Wikipedia, Airbnb, We Farm. Примерами могут быть ведущие онлайн сообщества и стартапы, идея в полной перезагрузке работы организации.


Исследование хотя и небольшое и хотя и охватывает только аспекты и особенности НКО в Великобритании, очень интересное и в осмыслении будущего НКО в России.

Ссылки:
[1] https://www.birmingham.ac.uk/generic/tsrc/documents/tsrc/working-papers/working-paper-142.pdf

#ngo #analytics
Оказывается я совершенно упустил эту новость, но в июне этого года оказывается Google купили за 2.6 млрд долларов США сервис Looker [1], один из лучших облачных сервисов по Business Intelligence. Теперь сервис переползает на Google Cloud, а в Google Cloud появляется нечто что имеет реальную ценность для многих корпоративных пользователей.

В принципе скупка онлайн BI сервисов крупными облачными игроками - это нечто что находится прямо на поверхности. Одна из проблем внешнего BI - это необходимость открывать для сервисов доступ к своим СУБД дистанционно и гонять довольно большие объёмы данных, а также безопасность вот этого всего. Перенос в облако даёт возможность и данные из облака подгружать и безопасность обеспечивать без необходимости открывать порты/коннекторы к конкретным базам данных.

Аналогично Looker'у в мае 2019 года был куплен Periscope Data [2], правда купили их Sisense, создатели другого BI решения, но я предсказываю что те облачные провайдеры которые не купят или построят свой BI будут договариваться о развертывании платформ на своей инфраструктуре.

Ссылки:
[1] https://looker.com/
[2] https://www.periscopedata.com/

#bi #businessintelligence #analytics
Из симпатичных лично мне стартапов хочу отдельно выделить те которые помогают работать с данными удобным образом и помогают неспециалистам/не ИТшникам делать это с большим комфортом.

Пример: Trevor.io.
Авторы создали интерактивный визуальный построитель запросов (query builder), поместили в облако, поддержали наиболее популярные базы данных и связали с Google таблицами, Slack'ом и возможностью строить дашборды.

Получилось очень неплохо, я бы даже сказал что получилось отлично. Авторы подняли небольшую неизвестную сумму инвестиций и сам стартап происходит из Берлина. Но учитывая как хорошо и аккуратно он сделан я не сомневаюсь что скоро их приобретёт один из крупных онлайн игроков облачной аналитики.

Минус у продукта такой же как и у других облачных сервисов в том что надо много доверия чтобы подключать к облаку свою боевую базу. А то есть всё таки нужно приложить усилия чтобы доверять сервису. Но, с другой стороны, если у Вас база данных и так в облаке, то и риски не превышают тех что были ранее.

Другой облачный аналитический стартап Mode.
В нём нет такого интерактива в построении SQL запросов, зато очень много возможностей создания быстрых аналитических продуктов. Отчёты, дашборды - всё это то для чего Mode подходит практически идеально.

Те же минусы что у всех других продуктов облачной аналитики - надо отдавать доступ к своей базе данных и те же плюсы, минимальные расходы на покупку лицензий BI и возможность очень быстро сделать аналитику из коробки.

Этот стартап кремниевой долины поднял в общей сложности $46,4M с 2013 года в общей сложности. Причём последние $23M в феврале 2019 года.


И, наконец, Looker, облачная аналитическая система, полноценная cloud BI.
Поддерживает более 50 SQL диалектов, удобная для аналитиков в работе с данными, не такая удобная в построении SQL запросов, но весьма гибкая система для 99% процентов задач по визуальному анализу данных бизнеса. Цены не раскрывают, но обещают большие скидки для НКО и образовательных организаций.

Я всё чаще вижу Looker в технологических стеках компаний, особенно при стыковке с облаком Google и онлайн сервисами. Одна из важных возможностей - это преднастроенные шаблоны под цифровой маркетинг или продажи, буквально аналитика из коробки. У Looker особенно хороша поддержка большого числа корпоративных баз данных и крупных облачных сервисов от Amazon, Microsoft, Google и других.

Создан в 2011 году, получил инвестиций в $280M и, в итоге был куплен Google за $2.6B.

Из других онлайн аналитических продуктов заслуживают внимания: Domo, Tableau, Sisense Data Teams (ранее Periscope Data), Студия данных Google, Redash, Databox

Для российского потребителя пока у них у всех одна беда - плохая интеграция с российскими сервисами.

#onlineanalytics #analytics
Свежая подборка стратегических технологических трендов от Gartner [1]:
1. Internet of Behaviors
2. Total experience
3. Privacy-enhancing computation
4. Distributed cloud
5. Anywhere operations
6. Cybersecurity mesh
7. Intelligent composable business
8. AI engineering
9. Hyperautomation

Как ни странно, про данные там только 3-й тренд Privacy-enhancing computation, всё остальное связано с данными, но не данные в чистом виде.

Для тех кто мог подзабыть, для сравнения стратегические технологические тренды 2020 года [2]:
1. Hyperautomation
2. Multiexperience
3. Democratization
4. Human Augmentation
5. Transparency and Traceability
6. Empowered Edge
7. Distributed Cloud
8. Autonomous Things
9. Practical Blockchain
10. AI Security

Можно сказать что из стратегических трендов Gartner убран блокчейн и неизменными сохранились Hyperautomation и Distributed Cloud.

И, отдельно, у Gartner же топ 10 технологий в данных и аналитике за 2020 год [3]
1. Smarter, faster, more responsible AI
2. Decline of the dashboard
3. Decision intelligence
4. X analytics
5. Augmented data management
6. Cloud is a given
7. Data and analytics worlds collide
8. Data marketplaces and exchanges
9. Blockchain in data and analytics
10. Relationships form the foundation of data and analytics value

Каждый из этих трендов - это отдельная большая тема, иногда очень большая, и требующая особого внимания.

Ссылки:
[1] https://www.gartner.com/smarterwithgartner/gartner-top-strategic-technology-trends-for-2021/
[2] https://www.it2b.com.br/wp-content/uploads/2020/09/Gartner_Top-tech-trends-2020.pdf
[3] https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/

#gartner #tech #data #analytics #trends
Статистическое ведомство Канады внедрило сервис виртуальной лаборатории для данных связанных с COVID-19 [1]. Лаборатория представлена в виде дистанционного рабочего места в которое включены такие продукты как Jupiter Notebook, R Studio, Kubeflow, Seldon, Shiny и другие. Подробнее в презентации [2] и в документации [3]

Все инструменты приведены с исходным кодом [4].

Все вместе они формируют Data analytics as a Platform (DaaP).

Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan

#data #canada #analytics
Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading
Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket
all_by_list_20220711_public.xlsx
217.3 KB
А раз Минцифры таки начнут чистить реестр аккредитованных компаний, то вот ещё один кусок из нашей аналитической базы. Это разного рода списки компаний, сортируются по первой колонке "category" включают такие категории как
- Разработка, производство, испытание и ремонт авиационной техники
- Финансовые организации
- Частные охранные организации
- Организации имеющие государственного или муниципального учредителя (РФ)
- Организации имеющие ПО зарегистрированное в реестре отечественного ПО
- Больничные организации
- Страховые организации
- Некоммерческие организации
- Радио и телекомпании
- Телекоммуникационные компании
- Высшие учебные заведения

Обратите внимание что почти все телеком компании в России были аккредитованы как ИТ.

Ну и остальных там хватает.

Это только те организации которых хотя бы 4 в одной категории набирается, а ещё куча разной экзотики вроде онлайн аптек, гостиниц, риэлторов и тд.

Но пусть с этим сами сотрудники Минцифры РФ уже разбираются.

#opendata #data #analytics #itmarket
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.

По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%

Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.

И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.

Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.

И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.



Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/

#data #analytics #careers
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.

Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].

Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.

Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats

#data #datatools #analytics
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.

Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.

Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/

#ai #analytics #llmops
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools