Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Весьма полезное руководство по форматам файлов геоданных оптимизированных для облаков [1], а это такие форматы как:
Cloud Optimized GeoTIFFs (COG)
- Zarr
- Kerchunk
- Cloud-Optimized HDF5 and NetCDF
- Cloud-Optimized Point Clouds (COPC)
- GeoParquet
- FlatGeobuf
- PMTiles

Многие из них могут быть малоизвестными широкой публике, но они быстро набирают популярность.

Ссылки:
[1] https://guide.cloudnativegeo.org

#dataformats #opendata #geodata #data
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives
В рубрике особо больших наборов данных. Пока в некоторых странах невозможно найти открытыми даже базовые геоданные, в Новой Зеландии Правительство публикует наборы данных LiDAR по отдельным территориям.

Например:
- Southland LiDAR 1m DEM (2020-2024) [1]
- Waikato LiDAR 1m DEM (2021) [2]
- Gisborne LiDAR 1m DEM (2023) [3]

И многие другие. Разброс объёмов данных в формате GeoTIFF от 10 до 65 GB.

В общей сложности это больше десятка терабайт открытых геоданных LiDAR по относительно небольшой стране.

Кроме Новой Зеландии данные LiDAR в больших объёмах доступны во Франции и ряде других развитых стран.

Ссылки:
[1] https://data.linz.govt.nz/layer/113172-southland-lidar-1m-dem-2020-2024/
[2] https://data.linz.govt.nz/layer/113203-waikato-lidar-1m-dem-2021/
[3] https://data.linz.govt.nz/layer/115847-gisborne-lidar-1m-dem-2023/

#opendata #geodata #newzealand #lidar
Я слышал в другом варианте. "А что с замедлением ютуба? Ещё раз спросишь лицензию оператора заберу!";) Сложно не смеяться.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Пожалуй, самое оригинальное про новую ИТ-ипотеку (можно еще и версию про разблокировку Youtube сделать):

«Приходит Чебурашка в Минцифры и говорит:
— Постановление по ипотеке вышло?
— Нет,— говорит Шадаев.— Как выйдет сообщу!
На следующий день Чебурашка снова приходит в минцифры и спрашивает:
— Постановление вышло?
А Шадаев говорит:
— Если ты еще хоть раз спросишь про постановление, я у тебя аккредитацию заберу!
На третий день Чебурашка приходит и спрашивает:
— А вы можете просто так аккредитацию забрать?
Нет, не можем,— отвечает Шадаев.
— А постановление по ипотеке вышло?»

(с) @mixmebar из ИТ-чата @MIT_union
Про разного рода технически сложные задачи и их решения.

Я тут регулярно пишу про разные форматы файлов данных и могу сказать что, конечно, файловых форматов как и стандартов какое-то бесконечное количество. Когда-то я и сам делал и периодически обновляю инструменты вроде undatum [1] по работе с некоторыми из них. Так в undatum я недавно добавил работу с множеством алгоритмов сжатия обработкой файлов с минимизацией объёма их хранения и нагрузкой на оперативную память, с быстрым преобразованием из JSON lines / BSON в аналогичные форматы со сжатием xzip, zstd и др. В общем-то из-за банальных задач уменьшения объёма хранения JSON lines файлов, но с возможностью работы с ними.

Однако вот сейчас я смотрю на задачу преобразования данных в условно "диком состоянии", а то есть в большинстве популярных форматов, среди которых, конечно, лидируют CSV и Excel файлы и могу сказать что самые типовые задачи решает DuckDB, а чуть более сложные DuckDB + Polars + Pandas + предобработка некоторых форматов файлов на входе.

Причём именно в такой комбинации. Почему так?

DuckDb - даёт большую скорость в работе с табличными и большей частью иерархичных данных. Но DuckDb не умеет читать файлы Excel, ORC, ORC и тд. Их умеют читать Pandas и Polars. И частично их писать.

Из фундаментальных проблем DuckDB - непонимание кодировок кроме utf-8 для CSV файлов что решается их предобработкой. Вторая проблема в том что DuckDB не умеет определять структуру CSV файлов если заголовки не в начале файла. Это вообще не все инструменты умеют и это, в принципе, умеют немногие инструменты, особенно с открытым кодом.

CSV самый распространённый формат, плохо стандартизированный в "диком виде", слишком часто CSV файлы лежат в открытом доступе после экспорта из Excel.

Еще один недостаток DuckDB при работе с CSV файлами - это отсутствие поддержки алгоритмов сжатия за исключением GZip. Если исходить из эффективности хранения и стоимости хранения - это важный фактор. Например, несколько сотен тысяч CSV файлов в Dateno - это около 4TB данных. Хранить их в оригинальном виде неэффективно, сжатыми GZip лучше, а ещё лучше в чём то вроде zstd или даже сразу в Parquet со сжатием. Что логично поскольку эти данные статичны.

Но в итоге именно DuckDB + Polars + Pandas + предобработка + постобоработка данных + хранение первичных данных в Parquet оказывается наиболее универсальным решением в таких задачах.

Ссылки:
[1] https://github.com/datacoon/undatum

#thoughts #data #datatools #fileformats #dateno
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.

Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.

Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.

В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.

Чувствуете разницу?

В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.

Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".

#privacy #russia #regulation
В качестве регулярного напоминания, в России уже 16 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] https://t.iss.one/begtin/4714

#opendata #closeddata #russia
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics