Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Наконец-то инициатива отделяющая Open Source от бизнес моделей с ограничениями, но то же с раскрытием кода. Называется Fair Source [1] или, по-русски, Программное обеспечение с честным исходным кодом (FSS).

Его основные принципы:
1. Общедоступно для чтения;
2. Допускает использование, модификацию и распространение с минимальными ограничениями для защиты бизнес-модели производителя; 3. Проходит процедуру отложенной публикации с открытым исходным кодом (DOSP).

У них есть две лицензии [2]
- Fair Core License (FCL)
- Business Source License (BUSL or BSL)

С обещаниями раскрытия исходного кода через 2 и 4 года соответственно.

Хорошая новость - этому явлению теперь есть более точное название чем часть Open Source

Плохая новость - пока не придумал;)

Что думаете про инициативу?

Ссылки:
[1] https://fair.io
[2] https://fair.io/licenses/

#opensource #fairsource #code #licenses
Существует множество деклараций открытого доступа и вот ещё одна. Учитывая охват и масштаб Sci-Hub она точно заслуживает внимания.
В постах от 18 и 20 апреля с.г. я сообщал, что Александра Элбакян, создатель популярного в мировом научном сообществе сайта Sci-Hub (который помог многим коллегам получить доступ к научным статьям, даже если их организация не подписана на соответствующий журнал), защитила диссертацию на соискание ученой степени кандидата философских наук в Институте философии РАН. Я также писал о том, что я прочитал диссертацию Александры, которая посвящена проблемам философских оснований открытого знания, и что она мне весьма понравилась.

Сегодня я получил от коллег сообщение, что А.Элбакян вернулась к практической деятельности по продвижению идей открытого доступа к научному знанию. Насколько можно понять, она хотела бы сделать проект Sci-Hub полностью легальным. Для этого нужно, чтобы научное сообщество выступило в поддержку свободных научных библиотек.

Александра предлагает на рассмотрение научного сообщества следующую Декларацию об открытом доступе к научному знанию:

https://disk.yandex.ru/i/Y1ok2R2t-N25VQ

Прочитав этот документ, я считаю, что он содержит важные положения, однако детали того, что предлагается, требуют дополнительной проработки. Возможно, было бы правильно организовать обсуждение этой декларации в научном сообществе. Публикуя данный пост, я хотел бы привлечь внимание к декларации и призвать к обсуждению ее основных положений.
Такое чувство что производители облачных СУБД "почувствовали фишку" / осознали возможность демонстрации своих продуктов через наглядное представление больших датасетов. Я ранее писал про OSS Insight [1] от TiDB Cloud с данными извлечёнными из Github, а теперь и команда ClickHouse анонсировала [2] CryptoHouse [3] как бесплатный открытый сервис для блокчейн аналитики. Просто открываешь веб интерфейс и делаешь SQL запросы. А то что интерфейс не требует даже авторизации - это лишнее подтверждение способности выдерживать большие нагрузки.

Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.

Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.

Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui

#opendata #clickhouse #sql #blockchain
В рубрике как это устроено у них каталог каталогов данных и иных знаний созданный ЮНЕСКО для систематизации источников информации об океанах, ODIS [1]. В общей сложности это 3135 источников, существенная часть которых - это каталоги данных, базы данных и другие дата продукты.

Это хорошо систематизированный каталог, с возможностью фасетного поиска по стандартам публикации информации, темам, политикам, странам. Например, есть 25 источников из РФ и даже есть источники данных по Ирану.

Ссылки:
[1] https://catalogue.odis.org/

#opendata #data #oceans #datacatalogs
В рубрике как это устроено у них портал по инвентаризации данных Туниса (registre.data.gov.tn) [1]. Недавно начатый правительством страны проект по инвентаризации данных органов власти. Идея в том что вне зависимости от того будут публиковаться данные или нет, их метаданные должны быть систематизированы, описаны, каталогизированы и быть предметом общественного обсуждения, надо ли их открывать и насколько.

Проект на ранней стадии, но само по себе движение правильное. По такому пути шли в США при первоначальном наполнении портала data.gov.

Ссылки:
[1] https://registre.data.gov.tn/fr/

#opendata #tunis #datainventory
Испанский доклад про инновации в муниципальном управлении связанные с открытыми данными и с ИИ [1].

Короткий, всего 30 слайдов/страниц, фокус на урбанистику, геоданные и муниципальное управление. Про ИИ мало, про сервисы на данных много. Всё на испанском, но довольно понятно. По большей части про коммерческие продукты управления городской инфраструктурой.

Ссылки:
[1] https://datos.gob.es/es/documentacion/innovacion-municipal-traves-de-datos-abiertos-soluciones-para-hacer-mas-accesibles-0

#opendata #data #cities #spain
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.

В любом случае больше хакатонов интересных и разных.

#opendata #data #google #centralasia #caucasus #ai
Forwarded from Open Data Armenia
Google организует в Астане хакатон ИИ-решений проблем, связанных с экологией, сельским хозяйством и продовольственной безопасностью. Участвовать могут граждане стран Южного Кавказа и Центральной Азии.

Дедлайн заявок – 15 августа, предварительная дата хакатона – 15 сентября.

Возможно, получилась бы неплохая разминка перед нашим следующим конкурсом.
В рубрике интересных наборов данных OpenAddresses.io [1] огромная база адресов, кадастровым участкам и зданиям по многим странам мира и отдельным территориям. Проект с огромным числом участников, контрибьюторов и, хоть и не тотальным, но серьёзным покрытием. Например, там есть данные по всему Казахстану, по некоторым регионам РФ, Республике Беларусь, Литве, Эстонии и ещё по многим странам на разных континентах.

Общий объём измеряется сотнями гигабайт, учитывая архивные релизы, в последнем релизе данные глобального покрытия порядка 35ГБ.

Из особенностей - для скачивания просят авторизоваться. С необычным аргументом в пользу этого в том что надо платить за хостинг на AWS S3, а такой механизм нагрузку на бюджет снижает.

В остальном это полноценные открытые данные. В основном скомпилированные из открытых государственных источников.

Ссылки:
[1] https://openaddresses.io

#opendata #datasets #geo #data
К предыдущей теме про лицензии Fair Source полезный текст по той же теме Why We Picked AGPL от команды ParadeDB. Для тех кто не знает, ParadeDB - это замена поиск Elastic с помощью Postgres, довольно популярная замена. Они хорошо и структурированно рассказали как выбирали лицензию и по каким критериям.

Если кратко, их резоны просты:
1. Лицензия должна быть понятной и знакомой
2. Лицензия должна быть открытой/свободной
3. Лицензия должна защитить их бизнес от cloud vendors

В итоге, выбрали AGPL и объяснили почему так.

#opensource #openlicenses
Довольно странный и смешной проект с открытым кодом whenfs [1] по превращению Google календаря в файловую систему. Я даже не представляю себе как автор до такого додумался, но тем не менее в примерах сохранение небольших картинок в виде огромного числа записей об эвентах в календаре. Что-то невероятное, там выходит 3 килобайта за 7 секунд!

Впрочем это специфика взгляда, я вот смотрю на всё как на таблицы и данные, а есть люди которые смотрят на всё как графовые структуры или как правила для бизнес логики, или как на код. А в данном случае автор посмотрел на гугл календарь как на файловую систему.

А если про серьёзное, то конечно, гораздо интереснее было бы посмотреть на Google календарь, контакты или почту как на базы данных. Вот мне лично очень нехватает SQL интерфейса или чего-то очень похожего к почте и к контактам.

#google #calendar #funny #filesystem #opensource
Весьма полезное руководство по форматам файлов геоданных оптимизированных для облаков [1], а это такие форматы как:
Cloud Optimized GeoTIFFs (COG)
- Zarr
- Kerchunk
- Cloud-Optimized HDF5 and NetCDF
- Cloud-Optimized Point Clouds (COPC)
- GeoParquet
- FlatGeobuf
- PMTiles

Многие из них могут быть малоизвестными широкой публике, но они быстро набирают популярность.

Ссылки:
[1] https://guide.cloudnativegeo.org

#dataformats #opendata #geodata #data
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives
В рубрике особо больших наборов данных. Пока в некоторых странах невозможно найти открытыми даже базовые геоданные, в Новой Зеландии Правительство публикует наборы данных LiDAR по отдельным территориям.

Например:
- Southland LiDAR 1m DEM (2020-2024) [1]
- Waikato LiDAR 1m DEM (2021) [2]
- Gisborne LiDAR 1m DEM (2023) [3]

И многие другие. Разброс объёмов данных в формате GeoTIFF от 10 до 65 GB.

В общей сложности это больше десятка терабайт открытых геоданных LiDAR по относительно небольшой стране.

Кроме Новой Зеландии данные LiDAR в больших объёмах доступны во Франции и ряде других развитых стран.

Ссылки:
[1] https://data.linz.govt.nz/layer/113172-southland-lidar-1m-dem-2020-2024/
[2] https://data.linz.govt.nz/layer/113203-waikato-lidar-1m-dem-2021/
[3] https://data.linz.govt.nz/layer/115847-gisborne-lidar-1m-dem-2023/

#opendata #geodata #newzealand #lidar