Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Яндекс выкладывает в опенсорс одну из основных инфраструктурных BigData-систем собственной разработки — YTsaurus. Это платформа, предназначенная для распределённого хранения и обработки больших данных.

Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.

В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.

Ссылки на посты на Хабре и Медиуме.
В рубрике как это работает у них проект Sciencebase.gov [1], каталог публикаций, материалов, карт и геоданных Геологической службы США (USGS). В каталоге содержится более 50 тысяч наборов данных связанных только с геологическими исследованиями, там же публикуются выпуски данных геологической службы и данные полученные исследователями и научными службами финансируемыми USGS.

Интересно и то что этот репозиторий лишь один из нескольких десятков аккредитованных USGS как рекомендуемых к публикации научных данных [2], все они, либо государственные, либо академические, либо от консорциумов университетов/научных центров.

В случае Sciencebase у всех записей большой объём метаданных включающий геокоординаты набора данных, уникальные идентификаторы, информацию о авторах, организации и многое другое.

Ссылки։
[1] https://www.sciencebase.gov/catalog/
[2] https://www.usgs.gov/office-of-science-quality-and-integrity/acceptable-digital-repositories-usgs-scientific

#opendata #openaccess #openscience
Из интересного про YTsaurus от Яндекса
- полноценный продукт для операций MapReduce, замена Hadoop'а для тех кто ещё его использовал
- внутри работа с ClickHouse, YDB и Apache Spark, ИМХО, интереснее всего использование ClickHouse, хотя и было бы интересно посмотреть на бенчмарки
- собственный аналог виртуальной файловой системы и хранилища метаданных Cypress
- собственные форматы хранения данных YSON и Skiff. YSON как замена JSON с несколькими дополнительными типами данных и Skiff как бинарный формат похожий на Protobuff.
- в опубликованном коде нет UI кроме командной строки и примеров кода, потенциальная возможность для стартапов по созданию онлайн сервисов с веб уи и настройкой под себя, как это со многими другими опен сорс продуктами по модели։ открытый код + облачная подписка? просто предположение
- особенность в том что он реально про данные большого объёма, условно от десятков терабайт, хотя в Success Stories приведены примеры с сотнями терабайт. Если работа идёт с меньшим объёмом данных, то скорее всего это будет overkill, а вот если объём и инфраструктура разумно велики, то надо пробовать.

По всем ощущениям продукт очень интересный, хочется в будущем увидеть более подробные его разборы на конкретных кейсах применения и сравнениями.

#opensource #datatools #dataops #dataengineering
Написал в рассылку текст #32. Открытые данные в мире, в фактах и тезисах [1] о том как развиваются открытые данные в мире, в науке, в рамках политической подотчетности, в корпорациях и не только. Фактически это ответ вопросы "что не так с порталом открытых данных моей страны?" и "А как там у других?", а у других вот так.

А также не могу не напомнить об одном из недавних текстов #26. Открытость как признак жизни [2] о том что открытость данных, государства и не только - это один из признаков жизнеспособности какой-либо области/темы. Если нет науки, то и нет открытости науки, если нет журналистики, то и данные для журналистов не раскрываются, если нет политики, то и политическая подотчетность сводится к минимуму.

Ссылки:
[1] https://begtin.substack.com/p/d4f
[2] https://begtin.substack.com/p/26

#opendata
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china
Команда проекта Если быть точным сделала неплохой обзор того что исчезает с сайтов органов власти. Почитайте, там всё хорошо систематизировано и многое описано, есть о чём подумать.
Я также регулярно пишу про закрываемые в России данные здесь в телеграм канале по тэгу #closeddata.

При этом закрывается данных гораздо больше, просто трудно отследить все изменения. Многое из закрываемого никогда как открытые данные и не публиковалось, это могут быть доклады, отчеты, статистика и открытые контуры информационных систем. Часто о их закрытии знают только отраслевые специалисты, часто закрывается не всё, а только самое главное что делает остальное бессмысленным.

При этом, поскольку изначально в России уровень открытости государства был довольно велик, хотя и специфичен (госфинансы - открыты, а данные о качестве жизни нет), то до сих пор может казаться что не всё так плохо. Но не надо обманываться, важнее всего то что у государства в России внятной национальной стратегии работы с данными нет.
Правительство теперь официально может засекречивать любую статистику. Как минимум 14 ведомств уже это сделали – причем еще до принятия нового закона

В конце февраля Госдума приняла закон, позволяющий правительству приостанавливать публикацию любой государственной статистики. По факту этот процесс идет уже давно: мы рассказывали, что за первые полгода с начала военного конфликта с Украиной как минимум 10 ведомств закрыли свою статистику.

Теперь их стало еще больше. Мы насчитали 14 органов власти, которые частично или полностью ограничили доступ к своим данным. Некоторые полностью закрыли разделы со статистикой, другие – частично ограничили доступность.

Например, Минфин закрыл доступ к оперативным данным о доходах и расходах бюджета, но их все еще можно вытащить обходными путями – через виджет на сайте.

Из хороших новостей: в экономической статистике наметилась небольшая оттепель. ФТС частично возобновила публикацию данных по внешней торговле (которые и так можно было собрать), о планах вернуть обязательную отчетность банков заявил Центробанк.

С другой стороны, среди закрытых показателей больше всего было именно экономических. Так что сломить тренд на снижение доступности данных это не сможет.

👉 подробнее – на нашем сайте
В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.

Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.

А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.

В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.

А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.

Ссылки:
[1] https://nada.ihsn.org/
[2] https://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] https://www.ihsn.org/software/ddi-metadata-editor

#opendata #microdata #statistics #knowhow
По поводу того что в Минцифре анонсировали создание "российского Pornhub (простите - Github)" и то что на это будет направлено 1,3 млрд. рублей, это примерно 16 миллионов долларов США) [1] все уже по десять раз обсудили. А я вот, честно говоря, не считаю её глупой или бессмысленной, я выражу сомнения иначе. С момента запуска Github привлёк $350 миллионов долларов США [2], а его ближайший конкурент Gitlab и того больше, $413.5 миллионов долларов США [3].

Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.

Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.

Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.

Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․

Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz

#opensource #russia #regulation #government #code
В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.

Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.

Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]

Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.

Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.

Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html

#opendata #geodata #usa #datasets
О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.

Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.

В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.

Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.

Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.

Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.

Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/

#openaccess #science #persistentidentifier #scientificifrastructure
Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.

Мне так много есть что сказать по этому поводу что короткого текста может не получится, но я постараюсь․ Начну же с того что предвидя такое развитие событий мы в Инфокультуре сделали полный слепок данных портала 2 февраля 2022 года [3], это 13ГБ в сжатом виде и 29ГБ в распакованном виде. За год данных на портале появилось и обновилось немного, так что дамп можно считать вполне полным.

Про качество данных на портале я писал неоднократно [4], но важно не только это. Важнее то что вот уже более 7 лет большинство порталов открытых государственных данных в России перестали обновляться и наполняться, Данные всё ещё публиковались на некоторых государственных информационных системах и отдельными органами власти, но, в целом, тему открытости начали "сливать" давно, вначале приведя к формальному исполнению требований и публикацией потока бессмысленных сверхмелких административных данных, а далее, при последнем российском правительстве, даже на это стали забивать.

Собственно и в этом событии важен уровень принятия решения. Это уровень не председателя Пр-ва, не вице-премьера, и даже не министра. Просто руководитель департамента в Минэкономразвития завил что мол мы портал закроем и когда-нибудь сделаем другой. В общем, портал не стал часть национальной цифровой инфраструктуры, а Минэкономразвития лишь одно из министерств без особых полномочий указывать другим органам власти что им публиковать в открытом доступе. Я, опять же, не про бессмысленный поток административных данных (вакансий, инфы по учреждениям и тд), а про реальные реестры, ведомственную статистику, крупные базы данных в управлении ФОИВов и их подведов.

Казалось бы что мешало Минэкономразвития создавать новую версию портала параллельно и анонсировать его замену после эксплуатации бета версии? Я вот не знаю что, я вижу что текущая ситуация больше похожа на заметание мусора под ковёр, чтобы никто их за руку не поймал с тем как плохо сопровождался этот портал.

В любом случае, проблема не только в словах о временном закрытии, которое с лёгкостью может стать постоянным. И даже не в анонсе переноса портала на несуществующий Гостех, а в том что даже если новый портал создать и даже не таким плохим технически как предыдущий, то чем его наполнять.

За многие годы не были видны никакие усилия Минэкономразвития в том чтобы была доступна детальная статистика по качеству жизни։ уровню преступности, загрязнении, качеству образования, здравоохранению, заболеваемости с детальностью до районов (да даже детальность до регионов не вся!). За все эти годы на портале даже не начинали публиковать наиболее востребованные данные по судебным производствам (привет Судебному Департаменту создавшему рядом коммерческую монополию) или свежезакрытым данным госфинансов или почти полностью отсутствующим в открытом пространстве геоданным, которые как раз более всего раскрываются по всем миру?

Эти риторические вопросы имеют лишь один ответ, блок на реальную открытость государства не только и не столько в этом портале. Он в отсутствии повестки открытости у текущего федерального правительства.

В качестве завершения я напомню что в мире сейчас нет развитых стран без порталов открытых данных. Даже в Китае такой есть, с акцентом на публикацию научных данных, зато неимоверного количества и объёма. Порталов открытых данных нет только у некоторых африканских стран, стран третьего мира иными словами. Стремление российского правительства руками Минэкономразвития, в данном случае, войти в список третьих стран лично у меня вызывает лишь недоверие ко всей остальной политической риторике о том "как тут всё хорошо" и как замечательно идут нацпроекты и поддержка бизнеса.

Никак не идут.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных РФ закрыт на ревизию

Федеральный портал открытых данных (data.gov.ru) с сегодняшнего дня недоступен, т.к. «закрыт на ревизию». По информации Минэка, портал планируют развивать «в рамках перехода системы на платформу «Гостех». О Гостехе хорошо пишет Циникс, который уже успел прокомментировать недоступность портала [1].

Пока сложно предположить, когда портал и данные станут снова доступными (и будут ли данные открытыми, бесплатными и доступными для скачивания без регистрации и смс), т.к. конкретные сроки не указаны (но планируют завершить работы «как можно скорее»), да и каких-либо содержательных комментариев по развитию портала не было.

Еще в феврале уточняла у Минэка, будет ли доступен портал в формате архива, сохранятся ли текущие ссылки на наборы данных, но, к сожалению, единственное, что сейчас доступно в открытом доступе, - это PDF-список с адресами сайтов госорганов, наборы которых были размещены на портале [2]. Но, как обычно, Иван Бегтин сделал копию сайта, ссылки на которую можно найти в его комментариях по порталу [3].

Что больше всего удивляет в данной ситуации:

- непонятно, зачем нужно закрывать сайт, и почему нельзя разрабатывать новую версию на тестовом сервере параллельно с доступностью текущей или хотя бы разместить архив/дамп с текущими наборами открытых данных?
- непонятно, почему перечень порталов публикуется в формате pdf, который не относится к открытым данным, не является пригодным для автоматической обработки и анализа?
- почему публикуются только списки госорганов и их главных страниц сайтов, если можно было выгрузить из БД портала и опубликовать весь реестр наборов данных и все ссылки на первоисточники? Почему перечень госорганов не разбит хотя бы по уровню власти?
- и больше всего удивляет недоступность открытых данных Минэкономразвития. Раньше я уже поднимала вопрос отсутствия полноценного раздела Открытых данных на сайте Минэка, но всегда получала ответ о том, что данные Минэк публикует только на портале ОД, а с его работой и доступностью проблем нет. Теперь же мы видим сообщение о том, что «все данные, которые ранее автоматически предоставлялись, вы можете получить на ресурсах, перечисленных в PDF-файле», находим в этом списке сайт Минэка, и не можем скачать данные с сайта Минэка, потому что их там и не было [2].
- и еще один важный вопрос, а доступны ли данные 3-летней или 7-летней давности на порталах госорганов? Ведь мы часто сталкиваемся с тем, что исторические данные удаляют, или, например, не переносят на новый портал при разработке новых версий сайтов.

Пока много вопросов и мало ответов.

[1] https://t.iss.one/CynExp/4149
[2] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[3] https://t.iss.one/begtin/4714
Один из лучших порталов открытых данных с акцентом на статистические данные совершенно неожиданно для меня обнаружился в Малайзии. OpenDOSM [1] проект Департамента статистики Малайзии (аналог российского Росстата) сделали портал с открытым кодом [2] в котором учли что среди пользователей портала есть ещё и дата сайентисты и отдают данные сразу в формате parquet, и в оригинальном csv и приводят пример кода на Python.

И дашборды, нормальные дашборды как это принято в BI системах совмещённых с каталогами данных. Вообще, конечно, хочется чтобы наконец обновлённые технологические инструменты пришли в официальную статистику потому что все эти многичисленные древние и узкоотраслевые системы вроде pxweb и им подобным кажутся архаичными.

Ссылки։
[1] https://open.dosm.gov.my
[2] https://github.com/dosm-malaysia?tab=repositories

#opendata #malaysia #datasets
Полезное чтение про данные, технологии и не только։
- Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню, Apache Arrow теперь используют во второй версии Pandas для значительно ускорения работы с датафреймами

- How fast is DuckDB really? [2] обзор производительности DuckDB от одного из ангельских инвесторов в MotherDuck и CEO Fivetran. Результаты ожидаемые - DuckDB работает быстрее многого, а ещё интересный вывод что MacBook Pro существенно обгоняет даже производительные сервера.

- Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam [3] о том как команда LinkedIn существенно ускорила производительность в обработке данных используя Apache Beam. Признаюсь я Apache Beam нигде ещё не применял и не знаю живых примеров рядом, но продукт интересный, может и надо присмотреться подробнее

- DragonflyDB reels in $21M for its speedy in-memory database [4] DragonflyDB - это эдакая замена Redis, с тем что обещают лучшую скорость для задач для key-value баз данных. В мае они же выпустили версию 1.0 [5] и декларировали 25-кратное ускорение по сравнению с Redis. Продукт с открытым кодом, а инвестиции они получают под развитие облачной версии DragonflyDB cloud

- The Right To Be Free From Automation [6] статья в Noema с рассуждениями о том обладают ли люди правом отказа от автоматизации работы, там упоминается история компании Pick n Pay которая попыталась в Южной Африке внедрить терминалы самооплаты и столкнулась с бойкотом профсоюзов и была вынуждена эти терминалы демонтировать.


Ссылки:
[1] https://arrow.apache.org/blog/2023/03/07/nanoarrow-0.1.0-release/
[2] https://www.fivetran.com/blog/how-fast-is-duckdb-really
[3] https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
[4] https://siliconangle.com/2023/03/21/dragonflydb-reels-21m-speedy-memory-database/
[5] https://dragonflydb.io/blog/dragonfly-production-ready
[6] https://www.noemamag.com/the-right-to-be-free-from-automation/

#opensource #data #readings
Ivan Begtin
Полезное чтение про данные, технологии и не только։ - Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню…
Вдогонку к тексту об исчезновении портала открытых данных data.gov.ru [1] прокомментирую желание сотрудников Минэка "проконсультироваться с рынком". Я могу сказать однозначно - это глубочайшее заблуждение что рынку нужен именно портал открытых данных.

Бизнесу нужны очень конкретные данные. Базы индикаторов, законов, юр. лиц, госзакупок, геоподосновы, реестров и так далее. Зависит от отрасли и задач, зависит от применения и так далее, но почти всегда это нечто очень конкретное. Порталы открытых данных - это лишь одна из форм представления этих данных которые чаще всего публикуются самими органами власти и иными госструктурами на своих сайтах или в своих информационных системах.

Для бизнеса гораздо важнее наличие госинициативы по раскрытию данных и возможность взаимодействовать с Пр-вом по доступу к тем данным которые ему нужны. В этом смысле порталы открытых данных - это лишь форма/инструмент, и не факт что лучший, для такого доступа.

Так зачем нужны порталы открытых данных и кому?

В мире такие порталы выполняют три основных функции:
- поисковая система/агрегатор для удобного поиска по данным
- сообщество и инструмент вовлечения пользователей
- система управления и распространения данными гос-ва

В форме поисковой системы существуют порталы большинства крупных стран - Франции, США, Индии, Австралии и других. Внутри портал является агрегатором в котором собираются метаданные из десятков и сотен других систем раскрытия данных. Особенно в Австралии яркий пример, где разработали специальный движок Magda работающий поисковиком поверх десятка федеральных порталов с данными.

В форме сообщества особенно заметны порталы открытых данных Индии и Франции, где изначально были предусмотрены и обсуждения наборов данных, и команды явно работали над вовлечением аудитории в дискуссии. Во Франции на госпортале открытых данных публикуются не только госданные, но, например, там есть данные Open Food Facts [2]

И третье применение, когда тема открытых данных является ключевой и значимой в государстве и портал оказывается ещё и инструментом распространения справочных данных и с самого начала разрабатывается как часть цифровой инфраструктуры государства. В этих случаях меньше акцентов на политической ответственности транспарентности и больше на практических задачах государственных информационных систем. Таких примеров тоже много.

Так кто аудитория порталов открытых данных? Их аудитория - это потребители государственной информации из самых разных групп. Это НКО решающие социальные проблемы, это журналисты пишущие статьи на данных, это аналитики, это исследователи и учёные ссылающиеся на данных в своих статьях и это географы/геоинформатики и все остальные работающие с геоданными и, конечно, это разработчики программных продуктов и сервисов.

У них гораздо чаще возникают задачи именно поиска и обсуждения конкретных наборов данных и потребность в использовании порталов открытых данных как поисковиков, в тех случаях когда те сделаны достаточно хорошо и хорошо собирают метаданные о наборах данных и сами наборы данных.

Задачи бизнеса в этом смысле иные. Единожды найдя первоисточник, подключится к нему и иметь канал связи с его разработчиками если что-то идёт не так. Это не значит что предприниматели не пользуются порталами открытых данных, это означает что их модель потребления данных существенно отличается.

Всё это о том что наличие действующей государственной инициативы по раскрытию данных, публикация данных по запросу бизнеса, НКО, отраслевых ассоциаций и специалистов, значительно важнее чем наличие портала открытых данных за 50 миллионов рублей.

Можно сделать портал хоть за 100 тысяч рублей на каком-нибудь движке с открытым кодом типа JKAN [3] или ещё с десяток простых решений за копейки, гораздо важнее то чем Вы его наполняете, с какими аудиториями работаете, и раскрываете ли ключевые данные.

Ссылки:
[1] https://t.iss.one/begtin/4714
[2] https://www.data.gouv.fr/fr/organizations/open-food-facts/
[3] https://github.com/OpenDataScotland/jkan

#opendata #russia #thoughts
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
Forwarded from 42 секунды
Politico: Франция будет использовать камеры наблюдения на базе ИИ для Олимпийских игр 2024

– Франция создает прецедент в сфере наблюдения для ЕС
– Камеры на основе ИИ будут работать в реальном времени
– ИИ определит странное поведение, брошенные вещи и др.
– Власти одобрили инициативу после 7 часов жарких дебатов
– При этом 40 чиновников ЕС просили их голосовать против
– Также против выступают разные защитники цифровых прав
– Еще решение противоречит новому законопроекту ЕС об ИИ
– Оно также может потом стать постоянным, как было в Китае

@ftsec