Ivan Begtin

В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.

- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.

- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]

- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.

Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".

Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n

#nocode #lowcode #platforms #tools

GitHub

GitHub - Budibase/budibase: Low code platform for building business apps and workflows in minutes. Supports PostgreSQL, MySQL,…

Low code platform for building business apps and workflows in minutes. Supports PostgreSQL, MySQL, MariaDB, MSSQL, MongoDB, Rest API, Docker, K8s, and more 🚀 - GitHub - Budibase/budibase: Low cod...

1.3K viewsIvan Begtin, 14:38

Ivan Begtin

В рубрике полезного регулярного чтения, Руководство по цифровому участию [1] от People Powered о том как выбирать платформу и как организовывать процесс участия граждан в принятии решений - как собирать обратную связь, как обеспечивать онлайн голосование и многое другое. Руководство есть и на русском языке в том числе.

Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].

Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.

Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)

А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.

Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo

#opengovernment #participation #opensource

People Powered

Введение в Руководство по платформам цифрового участия - People Powered

Если вы хотите привлечь свое сообщество к работе с помощью цифровой платформы, это руководство для вас. Оно объясняет, что это такое, и показывает, как их выбрать, настроить и запустить.

1.4K viewsIvan Begtin, 20:08

Ivan Begtin

... Дмитрий Данилов сообщил, что в дальнейшем планируется расширить функции нового подразделения, поручив ему надзор за исполнением законодательства о защите персональных данных граждан и информации ограниченного доступа, в том числе хранящейся в автоматизированных информационных системах государственных органов, корпораций с госучастием, а также научных учреждений и организаций. Соответствующие возможности прокурорам открывает внесенный в Госдуму законопроект, позволяющий в рамках надзора получать персональные данные. Его уже одобрил думский комитет по безопасности и противодействию коррупции.

В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.

Ссылки:
[1] https://www.kommersant.ru/doc/5216010

#digital #russia

Коммерсантъ

Искусственный интеллект попал под надзор

Генпрокуратура взяла под контроль развитие «Цифровой экономики»

4.2K viewsIvan Begtin, 11:04

Ivan Begtin

Есть и другие новости, Налоговая служба США (IRS) законтрактовалась с компанием ID.me на работы по идентификации и распознаванию по лицам тех кто сдаёт личную налоговую отчетность онлайн. Об этом статья в Scientific American [1] со ссылкой на сайт IRS [2]. Главная причина - резкий всплеск мошенничества и преступлений связанных с подменой личности. Об этом в США был большой госдоклад за 2020 год [3] систематизирующий такие преступления.

Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.

По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.

Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf

#privacy #facialrecognition #biometrics #usa #irs

Scientific American

Facial Recognition Plan from IRS Raises Big Concerns

Government agencies are tapping a facial recognition company to prove you’re you

1.2K viewsIvan Begtin, edited 11:26

Ivan Begtin

Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.

То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.

Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.

Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.

Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.

Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html

#data #datatools #dataconcepts

GitHub

GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…

Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter

1.5K viewsIvan Begtin, 13:32

Ivan Begtin

В рубрике полезных инструментов с открытым кодом для работы с данными Datasette [1]. Незаменим когда надо очень быстро и простым образом опубликовать данные так чтобы можно было их не просто скачать, но и связывать с другими данными, делать SQL запросы и просматривать онлайн.

Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.

Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.

Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.

Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/

#datatools #opendata #data #opensource

1.2K viewsIvan Begtin, 06:43

Ivan Begtin

Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.

Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.

Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.

Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi

#data #datamarket #roi #kpi

Medium

How to think about the ROI of data work

In a way that makes you look smarter than your boss

1.2K viewsIvan Begtin, 09:04

Ivan Begtin

Я ранее писал о headless BI [1] и headless CMS [2], так называемых безголовых (headless) продуктов, не имеющих интерфейсов для конечных пользователей. В случае CMS это достаточно давнее изменение в подходе, его смысл в том что разделить интерфейсы редактирования текста и интерфейсы его представления. А важно это потому что каналы дистрибуции контента могут быть множественными: веб сайт, приложение для телефона, сайт для планшета, канал в Telegram, канал в Slack и ещё много чего. Поэтому headless CMS довольно неплохо развиваются, своя ниша у них уже давно есть.

С headless BI все чуть сложнее, но несколько стартапов в этой области уже существуют. Отделить создание аналитической базы и базы метрик от пользовательского интерфейса также важно в некоторых случаях поскольку систем интерфейсов может быть много и разных, а метрики нужны одни и те же.

Другой пример headless продуктов это Netlify, Fly.io, Appfleet и ещё с десяток других FaaS провайдеров (Functions-as-a-Service), где от веб интерфейса остаётся только биллинг, а вообще вся работа идёт через командную строку или API. Для работы с этими платформами можно использовать любой инструмент, свой, из экосистемы, сделать на заказ и тд. Эти продукты тоже можно отнести к headless.

Практически все headless продукты экосистемные, с заходом на то что они быстро и легко в существующую экосистему встраиваются и также позволяют поверх них и в связке создавать свои продукты.

Интересный вопрос в том какие headless продукты будут следующими? Headless CRM, ERP, CDP? Такого пока нет. Headless mobile apps пока подпадает под headless CMS. Продукты в области data engineering и data science почти все безголовые от рождения, кроме старых ETL систем разве что.

Если есть идеи куда может развиваться эта концепция и какие продукты можно создавать то поделитесь своими мыслями в чате @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://t.iss.one/begtin/1902

#headless #data #products #startups

Ivan’s Begtin Newsletter on digital, open and preserved government

#19. Headless and reverse data

Историк - это перевернутый пророк (c) Фридрих Шлегель

1.2K viewsIvan Begtin, 10:09

Ivan Begtin

Pinterest заопонсорсили MemQ [1], высокопроизводительную PubSub платформу которую они сделали на замену Kafka. Они ранее писали про неё осенью 2021 г. о том что после замены Kafka на MemQ получили экономию в 80%, правда применяют его для передачи логов и тестировали на AWS, но как бы это показательно.

Продукт выглядит интересно, единственный недостаток что может Kafka будет и медленнее, но универсальнее и вокруг уже много продуктов в экосистеме.

Ссылки:
[1] https://github.com/pinterest/memq
[2] https://medium.com/pinterest-engineering/memq-an-efficient-scalable-cloud-native-pubsub-system-4402695dd4e7

#data #datatools #opensource

GitHub

GitHub - pinterest/memq: MemQ is an efficient, scalable cloud native PubSub system

MemQ is an efficient, scalable cloud native PubSub system - pinterest/memq

1.2K viewsIvan Begtin, 17:07

Ivan Begtin

В рубрике "как это работает у них" портал открытых данных Министерства экономики Франции data.economie.gouv.fr [1]. На портале опубликовано 418 наборов данных 21 подразделения министерства.

Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.

Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]

Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/

#opendata #france #data #economics

1.2K viewsIvan Begtin, 17:23

Ivan Begtin

Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards

egeria-project.org

Egeria Project - Open metadata and governance for enterprises

Open metadata and governance for enterprises - automatically capturing, managing and exchanging metadata between tools and platforms

1.3K viewsIvan Begtin, edited 05:58

Ivan Begtin

Даже не знаю как такое прокомментировать. А сколько "взломов" может происходить прямым подкупом админов? А кто в нашей стране отвечает за аудит информационных систем?

986 viewsIvan Begtin, 06:00

Ivan Begtin

Forwarded from ВЧК-ОГПУ

16 февраля 2022 года ГУ МВД по Москве возбуждено дело, которое может стать одним из самых громких за последнее время. Сотрудникам Управления К МВД РФ и УФСБ по Москве и МО удалось выявить хакеров, которые взломали «критическую информационную инфраструктуру Российской Федерации».

Речь идет о взломе ГИС РД dom.mos.ru («Дома Москвы»), интегрированной в Государственную информационную систему ЖКХ (ГИС ЖКХ) dom.gosuslugi.ru. С хакерами за работу расплатились криптовалютой (USDT Tether), однако выявить заказчиков атаки на «критическую инфраструктуру» удалось. И ими оказались вовсе не западные враги. Главным подозреваемыми в рамках возбужденного дела по статье 274.1 УК РФ ( Неправомерное воздействие на критическую информационную инфраструктуру Российской Федерации) является… группа столичных чиновников, включая руководство Жилищной инспекции по ЗАО Москвы, действовавших вместе с руководителями управляющих компаний (так и сказано в материалах дела) .

А услуги хакеров им были нужны, чтобы более 1000 жилых домов, фактически являющихся аварийными, были приняты Мосжилинспекцией к сезонной зимней эксплуатации без соответствующих документов.

Хакеры взломали dom.gosuslugi.ru и внесли ложные отметки в государственной информационной системе ГИС "ЖКХ", будто дома, которые в реальности являются аварийными, готовы и приняты к зиме, без фактической подгрузки документов в систему.

Пока дело возбуждено в отношении «неустановленных лиц», но вскоре в нем появятся обвиняемые.

942 viewsIvan Begtin, 06:00

Ivan Begtin

Коммерсант пишет о том что Правительство Москвы в лице ДИТ заказало разработку мобильного приложения "Сводка" [1] которое теперь будет отслеживать ещё и частоты слов в Yandex Wordstat и Googe Trends для мониторинга криминогенной обстановки.

Я прокомментировал в статье и повторюсь сейчас - важнее не получение данных государством из коммерческих систем, а раскрытие данных государством. У Правительства Москвы уже много лет существует система мониторинга преступности использующая не только данные МВД, но и многие другие источники. Нет никаких ограничений, кроме политических чтобы раскрывать эти данные с детальностью до района, а я точно знаю, что там возможно детальность и до улицы, и до блока в 500 метров.

Если деньги налогоплательщиков тратятся на создание очередной системы измерения качества жизни граждан, то и эти данные должны быть открыты. А общественное и коммерческое применение им найдется, есть много сервисов которые знают как положить их на карту и создать востребованных гражданами продукты.

Данные о качестве жизни должны быть общедоступны - это данные о преступности, качестве здравоохранения, образования, состояния окружающей среды, инфраструктуре и многое другое.

Ссылки:
[1] https://www.kommersant.ru/doc/5218189

#opendata #police #crimedata

Коммерсантъ

Московскую преступность мобилизуют

Для контроля криминогенной обстановки в городе разработают приложение

1.1K viewsIvan Begtin, edited 06:10

Ivan Begtin

Forwarded from Инфокультура

Приглашаем на День открытых данных 2022 — онлайн

4-5 марта 2022 года Инфокультура проведет ежегодную конференцию, приуроченную к международному Дню открытых данных.

Присоединяйтесь ко Дню открытых данных, чтобы узнать:
— Как открывать код, данные, знания, созданные за счет госбюджета.
— Как в 2022 году в России регулируется оборот персональных данных.
— Эволюция открытости: от открытых данных по умолчанию к Data4Good.
— Что известно о доступности медицинских данных в эпоху пандемии.
— Где взять данные о жизни в стране: официальные и альтернативные источники.
— Какие проблемы доступности государственных данных сейчас наиболее актуальны.
— Как решить проблему совместимости открытых лицензий в разных юрисдикциях.

Подробности и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.

1.1K viewsIvan Begtin, 08:56

Ivan Begtin

В рубрике как это работает у них, каталог научных данных геологической службы США (USGS) [1], всего более 23 тысяч наборов данных в основном в CSV, XML и Shape форматах, очень много данных с геопривязкой, наверное даже большая их часть.

Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.

Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.

Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений

Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search

#opendata #sciencedata #usa #geology

1.2K viewsIvan Begtin, 17:09

Ivan Begtin

В рубрике интересных наборов данных Awesome-forests [1] коллекция ссылок на наборы данных о лесах. Много интересного для тех кто интересуется этой темой, включая наборы данных для распознавания деревьев, классификации, данных спутникового мониторинга и так далее.

Ссылки:
[1] https://github.com/blutjens/awesome-forests

#datasets #opendata

GitHub

GitHub - blutjens/awesome-forests: 🌳 A curated list of ground-truth forest datasets for the machine learning and forestry community.

🌳 A curated list of ground-truth forest datasets for the machine learning and forestry community. - blutjens/awesome-forests

1.2K viewsIvan Begtin, 08:01

Ivan Begtin

В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].

Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.

Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.

К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.

Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.

Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.

Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.

Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.iss.one/openregistry

#opendata #petitions #moscow #ecology #lifequality

Change.org

Подпишите петицию

Опубликуйте реестр зелёных насаждений Москвы!

1.2K viewsIvan Begtin, edited 08:30

Ivan Begtin

В блоге Datahub, open source продукта каталога корпоративных данных пост про то как составлять бизнес глоссарии [1] в привязке к данным. То что в Datahub называется бизнес глоссарием - это просто другой взгляд на те же semantic types, смысловые категории данных. В Datahub всё решают через самостоятельное составление этого глоссария и через тэгирование данных что тоже вполне себе подход для многих задач.

Я же могу сказать что это та область которая хорошо поддаётся автоматизации и алгоритмизации и я над ней думаю уже наверное с 10 лет, в разных направлениях, но основное - это всегда data undestanding, понимание данных, в том числе когда до этого никакой информации именно об этой базе данных или наборе данных не было.

В каталогах данных вроде Datahub другой подход, в том что есть ручная разметка и ручное документирование и в дополнение к ним кое что может автоматизироваться, выявление некоторых типов персональных данных к примеру.

Вообще же могу сказать что мне лично в этом всём нехватает большого числа разных данных. Всё основное что можно было собрать по российским порталам открытых данных уже или загружено в DataCrafter [2], или лежит большими слепками вроде слепка данных в data.gov.ru или, ещё, с крупных зарубежных порталов данных. В общей сложности около 75 тысяч наборов данных по которым не менее 300 тысяч полей/метаданных доступны. Но это всё общедоступные данные, там почти нет чувствительных персональных данных (кроме некоторых исключений).

Для задач распознавания типов данных всегда нехватает данных предметных областей: финансовой, коммерческой, транспорта, медицины и тд. В общем и целом постоянное ощущение что данных мало сколько бы их не было;)

В ситуации дефицита данных для обучения алгоритмов альтернативный способ всегда остаётся тем же, наличием возможности пользователю самому создавать бизнес глоссарии.

Ссылки:
[1] https://medium.com/datahub-project/creating-a-business-glossary-and-putting-it-to-use-in-datahub-43a088323c12
[2] https://data.apicrafter.ru

#datacatalogs #metadata

Medium

Creating a Business Glossary and Putting it to use in DataHub

In a previous post, we covered the high-level differences between Tags and Glossary Terms, two powerful labeling methods in DataHub.

1.2K viewsIvan Begtin, 09:09

About

Blog

Apps

Platform