Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Коммерсант пишет что В цифровую модель поверхности России на ближайшие годы вписывают четыре региона [1], Росреестр запускает единую цифровую платформу «Национальная система пространственных данных» [2] и там уже участвуют Краснодарский и Пермский края, Иркутская область и Республика Татарстан.

Новость, казалось бы, хорошая. Её портит то что упоминается в статье В частности, доступ к геопространственным данным цифровой платформы можно будет получить на портале госуслуг — «Роскадастр».

Доступ к данным через госуслуги - это плохая идея. И то что открытые геоданные нигде не упомянуты также не здорово. Геоданные одни из наиболее востребованных в мире, они должны быть общедоступны настолько насколько возможно, именно это даёт максимальный экономический эффект и приводит к созданию новых цифровых продуктов.

Ссылки:
[1] https://www.kommersant.ru/doc/5180820
[2] https://rosreestr.gov.ru/activity/gosudarstvennye-programmy/natsionalnaya-sistema-prostranstvennykh-dannykh/

#opendata #geo #geodata #rosreestr
This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике больших наборов данных Awesome Google Earth Engine Community Datasets [1] каталог геоданных специально подготовленных для быстрого подключения к Google Earth. В каталоге, в общей сложности 105.7 TB данных, 584 тысячи изображений, всего коллекций с изображениями 268, с описаниями объектов 414 и более 518 миллионов характеристик (features) объектов в общей сложности.

Из особенно интересного, там есть данные LandScan [3] собираемые ORNL (Oak Ridge National Laboratory) [4] в США. LandScan даёт возможность просматривать плотность населения на территориях с очень высоким разрешением.

Кроме того там много других интересных наборов данных для всех кто работает с геоданными.

Ссылки:
[1] https://samapriya.github.io/awesome-gee-community-datasets/
[2] https://samapriya.github.io/awesome-gee-community-datasets/stats/
[3] https://samapriya.github.io/awesome-gee-community-datasets/projects/landscan/
[4] https://landscan.ornl.gov

#opendata #datasets #geo #googleearth #datacatalogs
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
В рубрике интересных наборов данных OpenAddresses.io [1] огромная база адресов, кадастровым участкам и зданиям по многим странам мира и отдельным территориям. Проект с огромным числом участников, контрибьюторов и, хоть и не тотальным, но серьёзным покрытием. Например, там есть данные по всему Казахстану, по некоторым регионам РФ, Республике Беларусь, Литве, Эстонии и ещё по многим странам на разных континентах.

Общий объём измеряется сотнями гигабайт, учитывая архивные релизы, в последнем релизе данные глобального покрытия порядка 35ГБ.

Из особенностей - для скачивания просят авторизоваться. С необычным аргументом в пользу этого в том что надо платить за хостинг на AWS S3, а такой механизм нагрузку на бюджет снижает.

В остальном это полноценные открытые данные. В основном скомпилированные из открытых государственных источников.

Ссылки:
[1] https://openaddresses.io

#opendata #datasets #geo #data
Подборка чтения про данные, технологии и не только:

- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]

- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.

- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.

- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.

- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.

Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen

#opendata #opensource #openaccess #readings #geo #spatial