Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.

- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.

- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]

- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.

Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".

Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n

#nocode #lowcode #platforms #tools
В рубрике полезного регулярного чтения, Руководство по цифровому участию [1] от People Powered о том как выбирать платформу и как организовывать процесс участия граждан в принятии решений - как собирать обратную связь, как обеспечивать онлайн голосование и многое другое. Руководство есть и на русском языке в том числе.

Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].

Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.

Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)

А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.

Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo

#opengovernment #participation #opensource
... Дмитрий Данилов сообщил, что в дальнейшем планируется расширить функции нового подразделения, поручив ему надзор за исполнением законодательства о защите персональных данных граждан и информации ограниченного доступа, в том числе хранящейся в автоматизированных информационных системах государственных органов, корпораций с госучастием, а также научных учреждений и организаций. Соответствующие возможности прокурорам открывает внесенный в Госдуму законопроект, позволяющий в рамках надзора получать персональные данные. Его уже одобрил думский комитет по безопасности и противодействию коррупции.

В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.

Ссылки:
[1] https://www.kommersant.ru/doc/5216010

#digital #russia
Есть и другие новости, Налоговая служба США (IRS) законтрактовалась с компанием ID.me на работы по идентификации и распознаванию по лицам тех кто сдаёт личную налоговую отчетность онлайн. Об этом статья в Scientific American [1] со ссылкой на сайт IRS [2]. Главная причина - резкий всплеск мошенничества и преступлений связанных с подменой личности. Об этом в США был большой госдоклад за 2020 год [3] систематизирующий такие преступления.

Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.

По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.

Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf

#privacy #facialrecognition #biometrics #usa #irs
Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.

То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.

Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.

Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.

Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.

Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html

#data #datatools #dataconcepts
В рубрике полезных инструментов с открытым кодом для работы с данными Datasette [1]. Незаменим когда надо очень быстро и простым образом опубликовать данные так чтобы можно было их не просто скачать, но и связывать с другими данными, делать SQL запросы и просматривать онлайн.

Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.

Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.

Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.

Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/

#datatools #opendata #data #opensource
Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.

Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.

Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.

Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi

#data #datamarket #roi #kpi
Я ранее писал о headless BI [1] и headless CMS [2], так называемых безголовых (headless) продуктов, не имеющих интерфейсов для конечных пользователей. В случае CMS это достаточно давнее изменение в подходе, его смысл в том что разделить интерфейсы редактирования текста и интерфейсы его представления. А важно это потому что каналы дистрибуции контента могут быть множественными: веб сайт, приложение для телефона, сайт для планшета, канал в Telegram, канал в Slack и ещё много чего. Поэтому headless CMS довольно неплохо развиваются, своя ниша у них уже давно есть.

С headless BI все чуть сложнее, но несколько стартапов в этой области уже существуют. Отделить создание аналитической базы и базы метрик от пользовательского интерфейса также важно в некоторых случаях поскольку систем интерфейсов может быть много и разных, а метрики нужны одни и те же.

Другой пример headless продуктов это Netlify, Fly.io, Appfleet и ещё с десяток других FaaS провайдеров (Functions-as-a-Service), где от веб интерфейса остаётся только биллинг, а вообще вся работа идёт через командную строку или API. Для работы с этими платформами можно использовать любой инструмент, свой, из экосистемы, сделать на заказ и тд. Эти продукты тоже можно отнести к headless.

Практически все headless продукты экосистемные, с заходом на то что они быстро и легко в существующую экосистему встраиваются и также позволяют поверх них и в связке создавать свои продукты.

Интересный вопрос в том какие headless продукты будут следующими? Headless CRM, ERP, CDP? Такого пока нет. Headless mobile apps пока подпадает под headless CMS. Продукты в области data engineering и data science почти все безголовые от рождения, кроме старых ETL систем разве что.

Если есть идеи куда может развиваться эта концепция и какие продукты можно создавать то поделитесь своими мыслями в чате @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://t.iss.one/begtin/1902

#headless #data #products #startups
Pinterest заопонсорсили MemQ [1], высокопроизводительную PubSub платформу которую они сделали на замену Kafka. Они ранее писали про неё осенью 2021 г. о том что после замены Kafka на MemQ получили экономию в 80%, правда применяют его для передачи логов и тестировали на AWS, но как бы это показательно.

Продукт выглядит интересно, единственный недостаток что может Kafka будет и медленнее, но универсальнее и вокруг уже много продуктов в экосистеме.

Ссылки:
[1] https://github.com/pinterest/memq
[2] https://medium.com/pinterest-engineering/memq-an-efficient-scalable-cloud-native-pubsub-system-4402695dd4e7

#data #datatools #opensource
В рубрике "как это работает у них" портал открытых данных Министерства экономики Франции data.economie.gouv.fr [1]. На портале опубликовано 418 наборов данных 21 подразделения министерства.

Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.

Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]

Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/

#opendata #france #data #economics
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards
Даже не знаю как такое прокомментировать. А сколько "взломов" может происходить прямым подкупом админов? А кто в нашей стране отвечает за аудит информационных систем?
Forwarded from ВЧК-ОГПУ
16 февраля 2022 года ГУ МВД по Москве возбуждено дело, которое может стать одним из самых громких за последнее время. Сотрудникам Управления К МВД РФ и УФСБ по Москве и МО удалось выявить хакеров, которые взломали «критическую информационную инфраструктуру Российской Федерации».
 
Речь идет о взломе ГИС РД dom.mos.ru («Дома Москвы»), интегрированной в Государственную информационную систему ЖКХ (ГИС ЖКХ) dom.gosuslugi.ru. С хакерами за работу расплатились криптовалютой (USDT Tether), однако выявить заказчиков атаки на «критическую инфраструктуру» удалось. И ими оказались вовсе не западные враги. Главным подозреваемыми в рамках возбужденного дела по статье 274.1 УК РФ ( Неправомерное воздействие на критическую информационную инфраструктуру Российской Федерации) является… группа столичных чиновников, включая руководство Жилищной инспекции по ЗАО Москвы, действовавших вместе с руководителями управляющих компаний (так и сказано в материалах дела) .
 
А услуги хакеров им были нужны, чтобы более 1000 жилых домов, фактически являющихся аварийными, были приняты Мосжилинспекцией к сезонной зимней эксплуатации без соответствующих документов.

Хакеры взломали dom.gosuslugi.ru и внесли ложные отметки в государственной информационной системе ГИС "ЖКХ", будто дома, которые в реальности являются аварийными, готовы и приняты к зиме, без фактической подгрузки документов в систему.  

Пока дело возбуждено в отношении «неустановленных лиц», но вскоре в нем появятся обвиняемые. 
Коммерсант пишет о том что Правительство Москвы в лице ДИТ заказало разработку мобильного приложения "Сводка" [1] которое теперь будет отслеживать ещё и частоты слов в Yandex Wordstat и Googe Trends для мониторинга криминогенной обстановки.

Я прокомментировал в статье и повторюсь сейчас - важнее не получение данных государством из коммерческих систем, а раскрытие данных государством. У Правительства Москвы уже много лет существует система мониторинга преступности использующая не только данные МВД, но и многие другие источники. Нет никаких ограничений, кроме политических чтобы раскрывать эти данные с детальностью до района, а я точно знаю, что там возможно детальность и до улицы, и до блока в 500 метров.

Если деньги налогоплательщиков тратятся на создание очередной системы измерения качества жизни граждан, то и эти данные должны быть открыты. А общественное и коммерческое применение им найдется, есть много сервисов которые знают как положить их на карту и создать востребованных гражданами продукты.

Данные о качестве жизни должны быть общедоступны - это данные о преступности, качестве здравоохранения, образования, состояния окружающей среды, инфраструктуре и многое другое.

Ссылки:
[1] https://www.kommersant.ru/doc/5218189

#opendata #police #crimedata
Forwarded from Инфокультура
Приглашаем на День открытых данных 2022 — онлайн

4-5 марта 2022 года Инфокультура проведет ежегодную конференцию, приуроченную к международному Дню открытых данных.

Присоединяйтесь ко Дню открытых данных, чтобы узнать:
— Как открывать код, данные, знания, созданные за счет госбюджета.
— Как в 2022 году в России регулируется оборот персональных данных.
— Эволюция открытости: от открытых данных по умолчанию к Data4Good.
— Что известно о доступности медицинских данных в эпоху пандемии.
— Где взять данные о жизни в стране: официальные и альтернативные источники.
— Какие проблемы доступности государственных данных сейчас наиболее актуальны.
— Как решить проблему совместимости открытых лицензий в разных юрисдикциях.

Подробности и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.
В рубрике как это работает у них, каталог научных данных геологической службы США (USGS) [1], всего более 23 тысяч наборов данных в основном в CSV, XML и Shape форматах, очень много данных с геопривязкой, наверное даже большая их часть.

Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.

Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.

Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений


Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search

#opendata #sciencedata #usa #geology
В рубрике интересных наборов данных Awesome-forests [1] коллекция ссылок на наборы данных о лесах. Много интересного для тех кто интересуется этой темой, включая наборы данных для распознавания деревьев, классификации, данных спутникового мониторинга и так далее.

Ссылки:
[1] https://github.com/blutjens/awesome-forests

#datasets #opendata
В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].

Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.

Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.

К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.

Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.

Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.

Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.

Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.iss.one/openregistry

#opendata #petitions #moscow #ecology #lifequality
В блоге Datahub, open source продукта каталога корпоративных данных пост про то как составлять бизнес глоссарии [1] в привязке к данным. То что в Datahub называется бизнес глоссарием - это просто другой взгляд на те же semantic types, смысловые категории данных. В Datahub всё решают через самостоятельное составление этого глоссария и через тэгирование данных что тоже вполне себе подход для многих задач.

Я же могу сказать что это та область которая хорошо поддаётся автоматизации и алгоритмизации и я над ней думаю уже наверное с 10 лет, в разных направлениях, но основное - это всегда data undestanding, понимание данных, в том числе когда до этого никакой информации именно об этой базе данных или наборе данных не было.

В каталогах данных вроде Datahub другой подход, в том что есть ручная разметка и ручное документирование и в дополнение к ним кое что может автоматизироваться, выявление некоторых типов персональных данных к примеру.

Вообще же могу сказать что мне лично в этом всём нехватает большого числа разных данных. Всё основное что можно было собрать по российским порталам открытых данных уже или загружено в DataCrafter [2], или лежит большими слепками вроде слепка данных в data.gov.ru или, ещё, с крупных зарубежных порталов данных. В общей сложности около 75 тысяч наборов данных по которым не менее 300 тысяч полей/метаданных доступны. Но это всё общедоступные данные, там почти нет чувствительных персональных данных (кроме некоторых исключений).

Для задач распознавания типов данных всегда нехватает данных предметных областей: финансовой, коммерческой, транспорта, медицины и тд. В общем и целом постоянное ощущение что данных мало сколько бы их не было;)

В ситуации дефицита данных для обучения алгоритмов альтернативный способ всегда остаётся тем же, наличием возможности пользователю самому создавать бизнес глоссарии.

Ссылки:
[1] https://medium.com/datahub-project/creating-a-business-glossary-and-putting-it-to-use-in-datahub-43a088323c12
[2] https://data.apicrafter.ru

#datacatalogs #metadata