Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Коммерсант пишет что В цифровую модель поверхности России на ближайшие годы вписывают четыре региона [1], Росреестр запускает единую цифровую платформу «Национальная система пространственных данных» [2] и там уже участвуют Краснодарский и Пермский края, Иркутская область и Республика Татарстан.

Новость, казалось бы, хорошая. Её портит то что упоминается в статье В частности, доступ к геопространственным данным цифровой платформы можно будет получить на портале госуслуг — «Роскадастр».

Доступ к данным через госуслуги - это плохая идея. И то что открытые геоданные нигде не упомянуты также не здорово. Геоданные одни из наиболее востребованных в мире, они должны быть общедоступны настолько насколько возможно, именно это даёт максимальный экономический эффект и приводит к созданию новых цифровых продуктов.

Ссылки:
[1] https://www.kommersant.ru/doc/5180820
[2] https://rosreestr.gov.ru/activity/gosudarstvennye-programmy/natsionalnaya-sistema-prostranstvennykh-dannykh/

#opendata #geo #geodata #rosreestr
January 24, 2022
Подборка свежих, новых или интересных open source инструментов по работе с данными.
- Tapestry Pipeline [1] - система управления данными с открытым кодом. Управления не в смысле management, а в смысле orchestration. Более точным переводом будет оркестровка, но по русски это звучит немного странно. Сам же движок. Выполняет те же задачи что и другие data orchestration frameworks [2] такие как Flyte, Prefect, Dagster и др. Интегрируется в dbt, Airbyte и другими инструментами.
- Prefect Orion [3] как пишут сами авторы the second-generation workflow orchestration engine. А то есть система управления потоками данных второго поколения. О нем же в блоге Prefect [4] с акцентом на то что можно не разделять обработку данных пачками и потоками.
- Prefect Artifact API [5] те же Prefect добавили Artifact API в последний open-source релиз. Это API для визуализации данных проходящих оркестровку и с демо использования Great Expectations как движка по контролю качества данных.
- Guardian [6] система управления доступом к базам данным и инструментам их обработки. Сейчас поддерживает Google BigQuery, Metabase, Airflow и облачные хранилища. Нет UI, но есть продвинутая командная строка и управление через yaml конфигурационные файлы. Проект делает команда ODPF (Open DataOps Foundation) из Индии и у них же большая подборка проектов на open source для разных аспектов работы с данными [7]
- Optimus [8] ещё один проект по оркестровке данных, от той же команды ODPF. Без UI, всё с командной строки. Сосредоточено вокруг Google Big Query, полезно тем кто создает продукты в этой среде. Но, находится в состоянии "глубокой разработки", API может часто меняться. Надо отдать должное, в ODPF любят и умеют документировать продукты.
- DataX [9] инструмент от команды Alibaba по синхронизации данных между разными СУБД, в том числе принципиально разными SQL и NoSQL. Такими как Postgres, Oracle, MongoDB, TSDB и другие. Почти всё на китайском языке. А также AddaX [10] построенный на DataX и чуть более развитый, как обещает автор. Тоже почти всё на китайском. Все учим китайский!

Ссылки:
[1] https://tapestry-pipeline.github.io
[2] https://www.moderndatastack.xyz/companies/Data-Orchestration
[3] https://orion-docs.prefect.io
[4] https://medium.com/the-prefect-blog/you-no-longer-need-two-separate-systems-for-batch-processing-and-streaming-88b3b9c1a203
[5] https://medium.com/the-prefect-blog/introducing-the-artifacts-api-b9e5972db043
[6] https://github.com/odpf/guardian
[7] https://github.com/odpf
[8] https://github.com/odpf/optimus
[9] https://github.com/alibaba/DataX
[10] https://github.com/wgzhao/Addax

#data #datatools #opensource #datapipelines #moderndatastack
January 24, 2022
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

и многие другие.

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекций в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification
January 25, 2022
В блоге Open Data Charter, Darine Benkalha пишет про стандартизацию данных на порталах открытых данных [1]. То о чём я также регулярно пишу и уже приводил ссылки на имеющиеся стандарты, правда пока не раскрывал подробнее в чём проблемы с публикациями данных в России.

Автор упоминает опыт Южной Кореи с созданием единой пан-государственной системы метаданных и принятые стандарты публикации данных и гайды Правительства Каталонии по публикации данных и метаданных.

Полезно для всех кто работает со стандартами данных, как публикатор и как пользователь.

Ссылки:
[1] https://medium.com/opendatacharter/spotlight-a-plea-from-the-odcs-iwg-data-standardisation-matters-4d26329a18bb

#opendata #data #dataportals #datastandards
January 25, 2022
Forwarded from Инфокультура
January 25, 2022
January 25, 2022
В рубрике интересных инструментов работы с данными NocoDb [1], open source #nocode платформа по работе с данными в форме таблиц. Фактический аналог Airtable, только с открытым кодом [2]. Собственно открытость кода это и есть главное достоинство, потому что Airtable это уже довольно продвинутый продукт, SaaS аналог MS Access. Но у Airtable есть множество ограничений, например, в максимальный размер таблицы в 50 тысяч записей, в далеко не идеальном API и, самое главное, конечно в том что приходится держать свои данные в облачном сервисе. В то же время Airtable стремительно создали вокруг себя экосистему и сейчас с ними интегрированы и на них основаны многие продукты.

К примеру, каталог каталогов данных datacatalogs.ru Инфокультуры собран в Airtable, а интерфейс над ним построен с помощью стартапа Softr.

Так вот NocoDB может быть разумной альтернативой тем чьи данные точно не могут быть открытыми, а гибкость управления данными нужна.

Альтернативно существуют такие проекты как:
- Rowy [3] - давно не обновлялся, но вроде живой
- Baserow [4] - воспроизводит Airtable почти один в один и также существует в облаке [5]

А также частично функции аналогичные Airtable могут выполнять продукты класса Headless CMS такие как Strapi [6] где также можно настраивать концепты/объекты и предоставлять их через API. Но с ограничениями что headless CMS не про табличное редактирование данных, а только про гибкие интерфейсы их внесения.

Ссылки:
[1] https://nocodb.com
[2] https://github.com/nocodb/nocodb
[3] https://github.com/rowyio/rowy
[4] https://gitlab.com/bramw/baserow
[5] https://baserow.io
[6] https://strapi.io

#opensource #databases #data #airtable
January 25, 2022
January 25, 2022
На всякий случай напомню что в 2019 году я публиковал исследование по "легальным утечкам" из государственных информационных систем [1], вот тут можно скачать его в PDF целиком [2]. И с той поры несколько раз собирался его обновить/повторить, но в итоге отложил на неопределенный срок потому что очень сложно делать такое исследование публично и не навредить тем чьи данные утекают, а непублично его можно делать только по чьему-то заказу, а в России, повторюсь, нет активного интересанта регулятора способного такую работу заказать.

По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.

Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] https://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1

#privacy #leaks #personaldata
January 25, 2022
January 26, 2022
Интересный стартап Dropbase автоматизации работы с облачными базами данных [1] с финансируемый в Y Combinator [2] на неназванную сумму. Создан полностью поверх Snoflake, фактически является красивой надстройкой над ним, позволяет импортировать CSV и Excel файлы и проводить трансформации над ними прямо в облаке. Интеграция устроена по принципу что не он интегрируется, а даёт ключи для прямого подключения к базе Snowflake.

Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.

Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase

#datatools #startups #datawrangling
January 26, 2022
January 26, 2022
January 26, 2022
Forwarded from Roskomsvoboda
January 26, 2022
Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.

Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.

Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/

#data #startups #dataenrichment
January 26, 2022
Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.

Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.

А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].

После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].

После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]

А вся история на английском языке есть в Apple Insider [5].

История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.

Хочется надеяться что в России после этого AirTag не запретят.

Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency

#privacy #security #airtag #germany #specialagencies
January 26, 2022
January 26, 2022
January 27, 2022