Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Существует множество деклараций открытого доступа и вот ещё одна. Учитывая охват и масштаб Sci-Hub она точно заслуживает внимания.
В постах от 18 и 20 апреля с.г. я сообщал, что Александра Элбакян, создатель популярного в мировом научном сообществе сайта Sci-Hub (который помог многим коллегам получить доступ к научным статьям, даже если их организация не подписана на соответствующий журнал), защитила диссертацию на соискание ученой степени кандидата философских наук в Институте философии РАН. Я также писал о том, что я прочитал диссертацию Александры, которая посвящена проблемам философских оснований открытого знания, и что она мне весьма понравилась.

Сегодня я получил от коллег сообщение, что А.Элбакян вернулась к практической деятельности по продвижению идей открытого доступа к научному знанию. Насколько можно понять, она хотела бы сделать проект Sci-Hub полностью легальным. Для этого нужно, чтобы научное сообщество выступило в поддержку свободных научных библиотек.

Александра предлагает на рассмотрение научного сообщества следующую Декларацию об открытом доступе к научному знанию:

https://disk.yandex.ru/i/Y1ok2R2t-N25VQ

Прочитав этот документ, я считаю, что он содержит важные положения, однако детали того, что предлагается, требуют дополнительной проработки. Возможно, было бы правильно организовать обсуждение этой декларации в научном сообществе. Публикуя данный пост, я хотел бы привлечь внимание к декларации и призвать к обсуждению ее основных положений.
Такое чувство что производители облачных СУБД "почувствовали фишку" / осознали возможность демонстрации своих продуктов через наглядное представление больших датасетов. Я ранее писал про OSS Insight [1] от TiDB Cloud с данными извлечёнными из Github, а теперь и команда ClickHouse анонсировала [2] CryptoHouse [3] как бесплатный открытый сервис для блокчейн аналитики. Просто открываешь веб интерфейс и делаешь SQL запросы. А то что интерфейс не требует даже авторизации - это лишнее подтверждение способности выдерживать большие нагрузки.

Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.

Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.

Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui

#opendata #clickhouse #sql #blockchain
В рубрике как это устроено у них каталог каталогов данных и иных знаний созданный ЮНЕСКО для систематизации источников информации об океанах, ODIS [1]. В общей сложности это 3135 источников, существенная часть которых - это каталоги данных, базы данных и другие дата продукты.

Это хорошо систематизированный каталог, с возможностью фасетного поиска по стандартам публикации информации, темам, политикам, странам. Например, есть 25 источников из РФ и даже есть источники данных по Ирану.

Ссылки:
[1] https://catalogue.odis.org/

#opendata #data #oceans #datacatalogs
В рубрике как это устроено у них портал по инвентаризации данных Туниса (registre.data.gov.tn) [1]. Недавно начатый правительством страны проект по инвентаризации данных органов власти. Идея в том что вне зависимости от того будут публиковаться данные или нет, их метаданные должны быть систематизированы, описаны, каталогизированы и быть предметом общественного обсуждения, надо ли их открывать и насколько.

Проект на ранней стадии, но само по себе движение правильное. По такому пути шли в США при первоначальном наполнении портала data.gov.

Ссылки:
[1] https://registre.data.gov.tn/fr/

#opendata #tunis #datainventory
Испанский доклад про инновации в муниципальном управлении связанные с открытыми данными и с ИИ [1].

Короткий, всего 30 слайдов/страниц, фокус на урбанистику, геоданные и муниципальное управление. Про ИИ мало, про сервисы на данных много. Всё на испанском, но довольно понятно. По большей части про коммерческие продукты управления городской инфраструктурой.

Ссылки:
[1] https://datos.gob.es/es/documentacion/innovacion-municipal-traves-de-datos-abiertos-soluciones-para-hacer-mas-accesibles-0

#opendata #data #cities #spain
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.

В любом случае больше хакатонов интересных и разных.

#opendata #data #google #centralasia #caucasus #ai
Forwarded from Open Data Armenia
Google организует в Астане хакатон ИИ-решений проблем, связанных с экологией, сельским хозяйством и продовольственной безопасностью. Участвовать могут граждане стран Южного Кавказа и Центральной Азии.

Дедлайн заявок – 15 августа, предварительная дата хакатона – 15 сентября.

Возможно, получилась бы неплохая разминка перед нашим следующим конкурсом.
В рубрике интересных наборов данных OpenAddresses.io [1] огромная база адресов, кадастровым участкам и зданиям по многим странам мира и отдельным территориям. Проект с огромным числом участников, контрибьюторов и, хоть и не тотальным, но серьёзным покрытием. Например, там есть данные по всему Казахстану, по некоторым регионам РФ, Республике Беларусь, Литве, Эстонии и ещё по многим странам на разных континентах.

Общий объём измеряется сотнями гигабайт, учитывая архивные релизы, в последнем релизе данные глобального покрытия порядка 35ГБ.

Из особенностей - для скачивания просят авторизоваться. С необычным аргументом в пользу этого в том что надо платить за хостинг на AWS S3, а такой механизм нагрузку на бюджет снижает.

В остальном это полноценные открытые данные. В основном скомпилированные из открытых государственных источников.

Ссылки:
[1] https://openaddresses.io

#opendata #datasets #geo #data
К предыдущей теме про лицензии Fair Source полезный текст по той же теме Why We Picked AGPL от команды ParadeDB. Для тех кто не знает, ParadeDB - это замена поиск Elastic с помощью Postgres, довольно популярная замена. Они хорошо и структурированно рассказали как выбирали лицензию и по каким критериям.

Если кратко, их резоны просты:
1. Лицензия должна быть понятной и знакомой
2. Лицензия должна быть открытой/свободной
3. Лицензия должна защитить их бизнес от cloud vendors

В итоге, выбрали AGPL и объяснили почему так.

#opensource #openlicenses
Довольно странный и смешной проект с открытым кодом whenfs [1] по превращению Google календаря в файловую систему. Я даже не представляю себе как автор до такого додумался, но тем не менее в примерах сохранение небольших картинок в виде огромного числа записей об эвентах в календаре. Что-то невероятное, там выходит 3 килобайта за 7 секунд!

Впрочем это специфика взгляда, я вот смотрю на всё как на таблицы и данные, а есть люди которые смотрят на всё как графовые структуры или как правила для бизнес логики, или как на код. А в данном случае автор посмотрел на гугл календарь как на файловую систему.

А если про серьёзное, то конечно, гораздо интереснее было бы посмотреть на Google календарь, контакты или почту как на базы данных. Вот мне лично очень нехватает SQL интерфейса или чего-то очень похожего к почте и к контактам.

#google #calendar #funny #filesystem #opensource
Весьма полезное руководство по форматам файлов геоданных оптимизированных для облаков [1], а это такие форматы как:
Cloud Optimized GeoTIFFs (COG)
- Zarr
- Kerchunk
- Cloud-Optimized HDF5 and NetCDF
- Cloud-Optimized Point Clouds (COPC)
- GeoParquet
- FlatGeobuf
- PMTiles

Многие из них могут быть малоизвестными широкой публике, но они быстро набирают популярность.

Ссылки:
[1] https://guide.cloudnativegeo.org

#dataformats #opendata #geodata #data
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives
В рубрике особо больших наборов данных. Пока в некоторых странах невозможно найти открытыми даже базовые геоданные, в Новой Зеландии Правительство публикует наборы данных LiDAR по отдельным территориям.

Например:
- Southland LiDAR 1m DEM (2020-2024) [1]
- Waikato LiDAR 1m DEM (2021) [2]
- Gisborne LiDAR 1m DEM (2023) [3]

И многие другие. Разброс объёмов данных в формате GeoTIFF от 10 до 65 GB.

В общей сложности это больше десятка терабайт открытых геоданных LiDAR по относительно небольшой стране.

Кроме Новой Зеландии данные LiDAR в больших объёмах доступны во Франции и ряде других развитых стран.

Ссылки:
[1] https://data.linz.govt.nz/layer/113172-southland-lidar-1m-dem-2020-2024/
[2] https://data.linz.govt.nz/layer/113203-waikato-lidar-1m-dem-2021/
[3] https://data.linz.govt.nz/layer/115847-gisborne-lidar-1m-dem-2023/

#opendata #geodata #newzealand #lidar
Я слышал в другом варианте. "А что с замедлением ютуба? Ещё раз спросишь лицензию оператора заберу!";) Сложно не смеяться.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Пожалуй, самое оригинальное про новую ИТ-ипотеку (можно еще и версию про разблокировку Youtube сделать):

«Приходит Чебурашка в Минцифры и говорит:
— Постановление по ипотеке вышло?
— Нет,— говорит Шадаев.— Как выйдет сообщу!
На следующий день Чебурашка снова приходит в минцифры и спрашивает:
— Постановление вышло?
А Шадаев говорит:
— Если ты еще хоть раз спросишь про постановление, я у тебя аккредитацию заберу!
На третий день Чебурашка приходит и спрашивает:
— А вы можете просто так аккредитацию забрать?
Нет, не можем,— отвечает Шадаев.
— А постановление по ипотеке вышло?»

(с) @mixmebar из ИТ-чата @MIT_union