Полезное чтение про разное
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
stackoverflow.blog
How often do people actually copy and paste from Stack Overflow? Now we know. - Stack Overflow
В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.
- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.
- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.
- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)
Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.
#opendata #dataportals #datasets #datadiscovery
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.
- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.
- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.
- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)
Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.
#opendata #dataportals #datasets #datadiscovery
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
GitHub
GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.
JuiceFS is a distributed POSIX file system built on top of Redis and S3. - juicedata/juicefs
В рубрике интересных наборов данных, Google Mobility Report, данные о передвижении жителей стран во время COVID-19. Компания опубликовала и обновляет файлы в виде CSV файла по всему миру, CSV файлов по странам и в виде PDF отчетов по каждой стране [1]. Всего данных на 844 МБ в распакованном виде, данные по России тоже есть.
Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.
Тем не менее практическое применение этим данным вполне возможно найти.
Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru
#opendata #data #covid19
Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.
Тем не менее практическое применение этим данным вполне возможно найти.
Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru
#opendata #data #covid19
COVID-19 Community Mobility Report
See how your community moved differently due to COVID-19
Несомненно полезная визуализация онтологии инициатив Data and AI for Good [1]. Автор Jake Porway, сооснователь проекта DataKind просистематизировал несколько десятков инициатив по неплохой методологии [2] собрал вот такую визуальную картину.
Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу
Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.
Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу
Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.
Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Я уже писал про содержание российского портала data.gov.ru [1] и выкладывал его дамп для тех кто хочет его исследовать [2].
Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.
Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные
Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB
Откуда такая разница и почему на российском национальном портале данных их так мало?
Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.
И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.
Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.
Ссылки:
[1] https://t.iss.one/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #dataportals #data
Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.
Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные
Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB
Откуда такая разница и почему на российском национальном портале данных их так мало?
Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.
И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.
Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.
Ссылки:
[1] https://t.iss.one/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #dataportals #data
Telegram
Ivan Begtin
Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его…
О ГосТехе в канале Координация профанации вышло аж 3 публикации [1] [2] [3] где автор весьма дотошно разбирает историю ГосТеха в России. Что не значит что ГосТех совершенно бесмысленная история, но что означает что то как он запускается и публичные коммуникации вокруг вызывают очень много вопросов.
Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.
Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13
#govtech #government #it
Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.
Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13
#govtech #government #it
Telegram
Координация профанации
Нелицеприятно и невзирая на лица - о госинформатизации, цифровой трансформации и профанах.
Практически "Короли и капуста" - только с уклоном в госИТ
Вопросы, критику, инсайды отправляйте в
ТГ: @CynicAdmin, @ExEx_IT
Рекламы на канале нет и не будет
Практически "Короли и капуста" - только с уклоном в госИТ
Вопросы, критику, инсайды отправляйте в
ТГ: @CynicAdmin, @ExEx_IT
Рекламы на канале нет и не будет
В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.
- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.
- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]
- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.
Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".
Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n
#nocode #lowcode #platforms #tools
- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.
- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]
- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.
Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".
Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n
#nocode #lowcode #platforms #tools
GitHub
GitHub - Budibase/budibase: Create business apps and automate workflows in minutes. Supports PostgreSQL, MySQL, MariaDB, MSSQL…
Create business apps and automate workflows in minutes. Supports PostgreSQL, MySQL, MariaDB, MSSQL, MongoDB, Rest API, Docker, K8s, and more 🚀 No code / Low code platform.. - Budibase/budibase
В рубрике полезного регулярного чтения, Руководство по цифровому участию [1] от People Powered о том как выбирать платформу и как организовывать процесс участия граждан в принятии решений - как собирать обратную связь, как обеспечивать онлайн голосование и многое другое. Руководство есть и на русском языке в том числе.
Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].
Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.
Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)
А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.
Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo
#opengovernment #participation #opensource
Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].
Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.
Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)
А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.
Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo
#opengovernment #participation #opensource
People Powered
Введение в Руководство по платформам цифрового участия - People Powered
Если вы хотите привлечь свое сообщество к работе с помощью цифровой платформы, это руководство для вас. Оно объясняет, что это такое, и показывает, как их выбрать, настроить и запустить.
... Дмитрий Данилов сообщил, что в дальнейшем планируется расширить функции нового подразделения, поручив ему надзор за исполнением законодательства о защите персональных данных граждан и информации ограниченного доступа, в том числе хранящейся в автоматизированных информационных системах государственных органов, корпораций с госучастием, а также научных учреждений и организаций. Соответствующие возможности прокурорам открывает внесенный в Госдуму законопроект, позволяющий в рамках надзора получать персональные данные. Его уже одобрил думский комитет по безопасности и противодействию коррупции.
В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.
Ссылки:
[1] https://www.kommersant.ru/doc/5216010
#digital #russia
В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.
Ссылки:
[1] https://www.kommersant.ru/doc/5216010
#digital #russia
Коммерсантъ
Искусственный интеллект попал под надзор
Генпрокуратура взяла под контроль развитие «Цифровой экономики»
Есть и другие новости, Налоговая служба США (IRS) законтрактовалась с компанием ID.me на работы по идентификации и распознаванию по лицам тех кто сдаёт личную налоговую отчетность онлайн. Об этом статья в Scientific American [1] со ссылкой на сайт IRS [2]. Главная причина - резкий всплеск мошенничества и преступлений связанных с подменой личности. Об этом в США был большой госдоклад за 2020 год [3] систематизирующий такие преступления.
Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.
По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.
Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf
#privacy #facialrecognition #biometrics #usa #irs
Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.
По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.
Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf
#privacy #facialrecognition #biometrics #usa #irs
Scientific American
Facial Recognition Plan from IRS Raises Big Concerns
Government agencies are tapping a facial recognition company to prove you’re you
Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.
То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.
Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.
Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.
Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.
Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html
#data #datatools #dataconcepts
То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.
Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.
Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.
Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.
Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html
#data #datatools #dataconcepts
GitHub
GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…
Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter
В рубрике полезных инструментов с открытым кодом для работы с данными Datasette [1]. Незаменим когда надо очень быстро и простым образом опубликовать данные так чтобы можно было их не просто скачать, но и связывать с другими данными, делать SQL запросы и просматривать онлайн.
Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.
Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.
Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.
Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/
#datatools #opendata #data #opensource
Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.
Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.
Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.
Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/
#datatools #opendata #data #opensource
Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.
Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.
Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.
Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi
#data #datamarket #roi #kpi
Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.
Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.
Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi
#data #datamarket #roi #kpi
Medium
How to think about the ROI of data work
In a way that makes you look smarter than your boss
Я ранее писал о headless BI [1] и headless CMS [2], так называемых безголовых (headless) продуктов, не имеющих интерфейсов для конечных пользователей. В случае CMS это достаточно давнее изменение в подходе, его смысл в том что разделить интерфейсы редактирования текста и интерфейсы его представления. А важно это потому что каналы дистрибуции контента могут быть множественными: веб сайт, приложение для телефона, сайт для планшета, канал в Telegram, канал в Slack и ещё много чего. Поэтому headless CMS довольно неплохо развиваются, своя ниша у них уже давно есть.
С headless BI все чуть сложнее, но несколько стартапов в этой области уже существуют. Отделить создание аналитической базы и базы метрик от пользовательского интерфейса также важно в некоторых случаях поскольку систем интерфейсов может быть много и разных, а метрики нужны одни и те же.
Другой пример headless продуктов это Netlify, Fly.io, Appfleet и ещё с десяток других FaaS провайдеров (Functions-as-a-Service), где от веб интерфейса остаётся только биллинг, а вообще вся работа идёт через командную строку или API. Для работы с этими платформами можно использовать любой инструмент, свой, из экосистемы, сделать на заказ и тд. Эти продукты тоже можно отнести к headless.
Практически все headless продукты экосистемные, с заходом на то что они быстро и легко в существующую экосистему встраиваются и также позволяют поверх них и в связке создавать свои продукты.
Интересный вопрос в том какие headless продукты будут следующими? Headless CRM, ERP, CDP? Такого пока нет. Headless mobile apps пока подпадает под headless CMS. Продукты в области data engineering и data science почти все безголовые от рождения, кроме старых ETL систем разве что.
Если есть идеи куда может развиваться эта концепция и какие продукты можно создавать то поделитесь своими мыслями в чате @begtinchat.
Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://t.iss.one/begtin/1902
#headless #data #products #startups
С headless BI все чуть сложнее, но несколько стартапов в этой области уже существуют. Отделить создание аналитической базы и базы метрик от пользовательского интерфейса также важно в некоторых случаях поскольку систем интерфейсов может быть много и разных, а метрики нужны одни и те же.
Другой пример headless продуктов это Netlify, Fly.io, Appfleet и ещё с десяток других FaaS провайдеров (Functions-as-a-Service), где от веб интерфейса остаётся только биллинг, а вообще вся работа идёт через командную строку или API. Для работы с этими платформами можно использовать любой инструмент, свой, из экосистемы, сделать на заказ и тд. Эти продукты тоже можно отнести к headless.
Практически все headless продукты экосистемные, с заходом на то что они быстро и легко в существующую экосистему встраиваются и также позволяют поверх них и в связке создавать свои продукты.
Интересный вопрос в том какие headless продукты будут следующими? Headless CRM, ERP, CDP? Такого пока нет. Headless mobile apps пока подпадает под headless CMS. Продукты в области data engineering и data science почти все безголовые от рождения, кроме старых ETL систем разве что.
Если есть идеи куда может развиваться эта концепция и какие продукты можно создавать то поделитесь своими мыслями в чате @begtinchat.
Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://t.iss.one/begtin/1902
#headless #data #products #startups
Ivan’s Begtin Newsletter on digital, open and preserved government
#19. Headless and reverse data
Историк - это перевернутый пророк (c) Фридрих Шлегель
Pinterest заопонсорсили MemQ [1], высокопроизводительную PubSub платформу которую они сделали на замену Kafka. Они ранее писали про неё осенью 2021 г. о том что после замены Kafka на MemQ получили экономию в 80%, правда применяют его для передачи логов и тестировали на AWS, но как бы это показательно.
Продукт выглядит интересно, единственный недостаток что может Kafka будет и медленнее, но универсальнее и вокруг уже много продуктов в экосистеме.
Ссылки:
[1] https://github.com/pinterest/memq
[2] https://medium.com/pinterest-engineering/memq-an-efficient-scalable-cloud-native-pubsub-system-4402695dd4e7
#data #datatools #opensource
Продукт выглядит интересно, единственный недостаток что может Kafka будет и медленнее, но универсальнее и вокруг уже много продуктов в экосистеме.
Ссылки:
[1] https://github.com/pinterest/memq
[2] https://medium.com/pinterest-engineering/memq-an-efficient-scalable-cloud-native-pubsub-system-4402695dd4e7
#data #datatools #opensource
GitHub
GitHub - pinterest/memq: MemQ is an efficient, scalable cloud native PubSub system
MemQ is an efficient, scalable cloud native PubSub system - pinterest/memq
В рубрике "как это работает у них" портал открытых данных Министерства экономики Франции data.economie.gouv.fr [1]. На портале опубликовано 418 наборов данных 21 подразделения министерства.
Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.
Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]
Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/
#opendata #france #data #economics
Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.
Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]
Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/
#opendata #france #data #economics
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.
Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.
А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.
В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.
По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.
Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/
#datadiscovery #opendata #data #datatools #standards
Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.
А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.
В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.
По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.
Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/
#datadiscovery #opendata #data #datatools #standards
egeria-project.org
Egeria Project - Open metadata and governance for enterprises
Open metadata and governance for enterprises - automatically capturing, managing and exchanging metadata between tools and platforms
Даже не знаю как такое прокомментировать. А сколько "взломов" может происходить прямым подкупом админов? А кто в нашей стране отвечает за аудит информационных систем?
Forwarded from ВЧК-ОГПУ
16 февраля 2022 года ГУ МВД по Москве возбуждено дело, которое может стать одним из самых громких за последнее время. Сотрудникам Управления К МВД РФ и УФСБ по Москве и МО удалось выявить хакеров, которые взломали «критическую информационную инфраструктуру Российской Федерации».
Речь идет о взломе ГИС РД dom.mos.ru («Дома Москвы»), интегрированной в Государственную информационную систему ЖКХ (ГИС ЖКХ) dom.gosuslugi.ru. С хакерами за работу расплатились криптовалютой (USDT Tether), однако выявить заказчиков атаки на «критическую инфраструктуру» удалось. И ими оказались вовсе не западные враги. Главным подозреваемыми в рамках возбужденного дела по статье 274.1 УК РФ ( Неправомерное воздействие на критическую информационную инфраструктуру Российской Федерации) является… группа столичных чиновников, включая руководство Жилищной инспекции по ЗАО Москвы, действовавших вместе с руководителями управляющих компаний (так и сказано в материалах дела) .
А услуги хакеров им были нужны, чтобы более 1000 жилых домов, фактически являющихся аварийными, были приняты Мосжилинспекцией к сезонной зимней эксплуатации без соответствующих документов.
Хакеры взломали dom.gosuslugi.ru и внесли ложные отметки в государственной информационной системе ГИС "ЖКХ", будто дома, которые в реальности являются аварийными, готовы и приняты к зиме, без фактической подгрузки документов в систему.
Пока дело возбуждено в отношении «неустановленных лиц», но вскоре в нем появятся обвиняемые.
Речь идет о взломе ГИС РД dom.mos.ru («Дома Москвы»), интегрированной в Государственную информационную систему ЖКХ (ГИС ЖКХ) dom.gosuslugi.ru. С хакерами за работу расплатились криптовалютой (USDT Tether), однако выявить заказчиков атаки на «критическую инфраструктуру» удалось. И ими оказались вовсе не западные враги. Главным подозреваемыми в рамках возбужденного дела по статье 274.1 УК РФ ( Неправомерное воздействие на критическую информационную инфраструктуру Российской Федерации) является… группа столичных чиновников, включая руководство Жилищной инспекции по ЗАО Москвы, действовавших вместе с руководителями управляющих компаний (так и сказано в материалах дела) .
А услуги хакеров им были нужны, чтобы более 1000 жилых домов, фактически являющихся аварийными, были приняты Мосжилинспекцией к сезонной зимней эксплуатации без соответствующих документов.
Хакеры взломали dom.gosuslugi.ru и внесли ложные отметки в государственной информационной системе ГИС "ЖКХ", будто дома, которые в реальности являются аварийными, готовы и приняты к зиме, без фактической подгрузки документов в систему.
Пока дело возбуждено в отношении «неустановленных лиц», но вскоре в нем появятся обвиняемые.