В рубрике как это работает у них большое изменение в статистике последних лет - это превращение статистических порталов в порталы данных. Если в классических стат порталах акцент был на визуализации и экспорте данных в XML/CSV/XLSX, то сейчас почти все новые порталы сразу называют порталами данных, включают API, как правило, REST API или более специфичное для статистики API на базе SDMX, а также добавляют возможность получения индикатора целиком и получение статистической базы целиком.
В качестве примера, порталы на базе open-source движка .Stat Suite [1].
- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты
и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.
При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.
Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/
#opendata #statistics #datacatalogs
В качестве примера, порталы на базе open-source движка .Stat Suite [1].
- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты
и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.
При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.
Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/
#opendata #statistics #datacatalogs
👍6❤2
Forwarded from Open Data Armenia
Номинация "Culture Apps" нашего конкурса [1] в мире относится к теме Цифровых гуманитарных наук, на английском языке Digital Humanities. В последние годы появляется всё большее число проектов в это области и для тех кто хочет поискать вдохновения для себя стоит взглянуть на проекты участников победителей международной премии Digital Humanitarian Awards [2] где есть множество интерактивных и визуальных проектов по представлению культуры и истории.
Вот некоторые из них, победители прошлых лет.
TravellersMap ( https://travellersmap.gr)
Проект наложением на карты современной Греции и Турции видеолекций о исторических местах и событиях связанных с древнегреческой культурой, со ссылками на Wiki и базы знаний по истории Греции
Archivo de Literatura Digital en América Latina (https://www.cartografiadigital.cl)
Интерактивная инфографика цифровой литературы Южной Америки
Battle of Hong Kong 1941 (https://digital.lib.hkbu.edu.hk/1941hkbattle/en/map.php)
Интерактивная карта визуализации битвы за Гонконг в 1941 году, с таймлайном события.
—
А также существует множество других технологических интересных гуманитарных проектов о которых мы будем рассказывать здесь в телеграм канале и на наших семинарах.
—
Подумайте о том какие события в истории Армении и армянского народа могли бы быть представлены наглядно. Как собрать данные и нужно ли их много? Иногда достаточно сесть с книгой в руках и выписать даты и события, пройтись по открытым источникам и найти фотографии, использовать удобные low-code инструменты и собрать на их основе интересный проект.
Если у Вас есть вопросы, идеи, мысли и желание продвинуться в этом, задавайте вопросы в нашем чате @opendataamchat.
И напоминаю заявки на конкурс мы принимаем до 18 февраля включительно.
Ссылки:
[1] https://contest.opendata.am
[2] https://dhawards.org
#digitalheritage #opendata #contest #history #dataviz #culture #armenia
Вот некоторые из них, победители прошлых лет.
TravellersMap ( https://travellersmap.gr)
Проект наложением на карты современной Греции и Турции видеолекций о исторических местах и событиях связанных с древнегреческой культурой, со ссылками на Wiki и базы знаний по истории Греции
Archivo de Literatura Digital en América Latina (https://www.cartografiadigital.cl)
Интерактивная инфографика цифровой литературы Южной Америки
Battle of Hong Kong 1941 (https://digital.lib.hkbu.edu.hk/1941hkbattle/en/map.php)
Интерактивная карта визуализации битвы за Гонконг в 1941 году, с таймлайном события.
—
А также существует множество других технологических интересных гуманитарных проектов о которых мы будем рассказывать здесь в телеграм канале и на наших семинарах.
—
Подумайте о том какие события в истории Армении и армянского народа могли бы быть представлены наглядно. Как собрать данные и нужно ли их много? Иногда достаточно сесть с книгой в руках и выписать даты и события, пройтись по открытым источникам и найти фотографии, использовать удобные low-code инструменты и собрать на их основе интересный проект.
Если у Вас есть вопросы, идеи, мысли и желание продвинуться в этом, задавайте вопросы в нашем чате @opendataamchat.
И напоминаю заявки на конкурс мы принимаем до 18 февраля включительно.
Ссылки:
[1] https://contest.opendata.am
[2] https://dhawards.org
#digitalheritage #opendata #contest #history #dataviz #culture #armenia
👍8🗿3
В рубрике закрытых данных в России.
1. Закрытие статистики Росавиации
С февраля 2022 года не публикуется ведомственная статистика Росавиации которая включает:
- Основные производственные показатели гражданской авиации [1]
- Перевозки пассажиров [2]
- Перевозки грузов и почты [3]
2. Закрытие статистики органов прокуратуры
Генпрокуратура не только не обновляет портал Crimestat.ru [4] с января 2023 года, но и с февраля 2023 года не размещает Статистические данные об основных показателях деятельности органов прокуратуры [5]. Ведомственная статистика осталась на сайтах региональных органов прокуратуры, например, Москвы [6]
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[2] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
[3] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-gruzov-i-pochty/
[4] https://crimestat.ru
[5] https://epp.genproc.gov.ru/web/gprf/activity/statistics/office/result
[6] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#closeddata #russia #opendata #statistics #transport #crime
1. Закрытие статистики Росавиации
С февраля 2022 года не публикуется ведомственная статистика Росавиации которая включает:
- Основные производственные показатели гражданской авиации [1]
- Перевозки пассажиров [2]
- Перевозки грузов и почты [3]
2. Закрытие статистики органов прокуратуры
Генпрокуратура не только не обновляет портал Crimestat.ru [4] с января 2023 года, но и с февраля 2023 года не размещает Статистические данные об основных показателях деятельности органов прокуратуры [5]. Ведомственная статистика осталась на сайтах региональных органов прокуратуры, например, Москвы [6]
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[2] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
[3] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-gruzov-i-pochty/
[4] https://crimestat.ru
[5] https://epp.genproc.gov.ru/web/gprf/activity/statistics/office/result
[6] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#closeddata #russia #opendata #statistics #transport #crime
😢16❤2👍2
О доступности статистики
Часть 1/2
К вопросу о доступности данных, так получается что у меня часто возникают задачи в которых необходимо искать данные в самых заковыристых местах, странах, общедоступных и не очевидных источниках. Собственно это часть работ по data discovery которыми я занимаюсь практически постоянно. Поделюсь наблюдением одной из причин широкого распространения открытых данных, оно в том что в ситуации изобилия производства данных уже давно планка ценности данных смещается в сторону 4-х принципов:
- гранулярности
- оперативности
- гарантии доставки
- простоты употребления.
Это немного похоже на 6 принципов открытых данных из хартии [1], но, по факту, это другое.
Рассмотрим пример, предположим есть индикаторы рождений и смертности. Предположим статистическая служба страны публикует его с детализацией ежегодного индикатора по стране. Ценны ли эти эти данные? Они бывают нужны, без них странно, но платить за них никто не будет. Годовой индикатор не конвертируется в любое оперативное решение.
Гранулярность
Пойдём далее, предложим что у нас есть эти индикаторы в разрезе регионов и по месяцам. Это уже гораздо более ценные данные, даже при том что ежемесячные данные, обычно, публикуются с задержкой от 1 до 2 месяцев, тем не менее, это уже некоторые показатели под которые можно адаптировать госполитику, принимать корпоративные решения.
Возможно ли лучше? Предположим есть эти же индикаторы с детализацией до города/района и в еженедельном или, даже, ежедневном разрезе. Всё это гранулярность - гранулярность географическая, гранулярность временная.
Оперативность
Оперативность доставки данных - это прямая характеристика срока их доступности после наступления события которые они отображают. Для годовых стат. данных часто задержка в их публикации может составлять до 1-1.5 лет, а для оперативных данных центральных банков, таких как уровень инфляции или курс валют, они доступны с задержкой не более чем в сутки.
Далее - гарантии доставки, это гарантии того что данные поступают непрерывно и их поставка не прервётся из-за какой-либо случайности. А простота использования в том что потребуется минимум усилий на использовать эти данные.
—
Всё это в первую очередь об индикативных временных рядах на основе которых можно принимать оперативные управленческие решения. Так вот таких временных рядов в открытых источниках в мире совсем немного. Например, данные ООН [2] и данные Всемирного банка [3] - это годовые данные, зачастую с задержкой от 1 до 5 лет, в зависимости от того как работают статслужбы стран. А, например, база индикаторов Банка международных расчётов (BIS) [4] на 92% состоит из квартальных временных рядов, на 7% из годовых и только 0.13% (около 1300) индикаторов с ежемесячной и ежесуточной гранулярностью. При это их географическое покрытие детализируется только до конкретной страны. В большинстве других больших база общедоступных индикаторов ситуация и того хуже, как правило доступны только годовые индикаторы и редко иначе.
Так вот, если судить о доступности данных по этим критериям, то может показаться что, к примеру, в России всё не так плохо. Есть немало индикаторов, в том числе публикуемых ежедневно и в том числе с детализацией до региона и, иногда, и до города которые дают прямое или косвенное измерение поведения потребителей, экономической активности, финансовой активности, состояния общества и так далее. Есть много стран по которым подобные индикаторы найти сложно, например, почти все африканские страны, Средняя Азия, Юго-Восточная Азия, Южная Америка и ещё много где. Да, есть исключения, но в целом самые интересные индикаторы доступны достаточно редко даже в развитых странах. Например, я как-то писал о том что в Исландии публикуют экспериментальную статистику по смертности в разрезе недель [5], аналогично поступают в Великобритании [6] и в Тасмании (штат Австралии) в рамках ковидного мониторинга [7].
Часть 1/2
К вопросу о доступности данных, так получается что у меня часто возникают задачи в которых необходимо искать данные в самых заковыристых местах, странах, общедоступных и не очевидных источниках. Собственно это часть работ по data discovery которыми я занимаюсь практически постоянно. Поделюсь наблюдением одной из причин широкого распространения открытых данных, оно в том что в ситуации изобилия производства данных уже давно планка ценности данных смещается в сторону 4-х принципов:
- гранулярности
- оперативности
- гарантии доставки
- простоты употребления.
Это немного похоже на 6 принципов открытых данных из хартии [1], но, по факту, это другое.
Рассмотрим пример, предположим есть индикаторы рождений и смертности. Предположим статистическая служба страны публикует его с детализацией ежегодного индикатора по стране. Ценны ли эти эти данные? Они бывают нужны, без них странно, но платить за них никто не будет. Годовой индикатор не конвертируется в любое оперативное решение.
Гранулярность
Пойдём далее, предложим что у нас есть эти индикаторы в разрезе регионов и по месяцам. Это уже гораздо более ценные данные, даже при том что ежемесячные данные, обычно, публикуются с задержкой от 1 до 2 месяцев, тем не менее, это уже некоторые показатели под которые можно адаптировать госполитику, принимать корпоративные решения.
Возможно ли лучше? Предположим есть эти же индикаторы с детализацией до города/района и в еженедельном или, даже, ежедневном разрезе. Всё это гранулярность - гранулярность географическая, гранулярность временная.
Оперативность
Оперативность доставки данных - это прямая характеристика срока их доступности после наступления события которые они отображают. Для годовых стат. данных часто задержка в их публикации может составлять до 1-1.5 лет, а для оперативных данных центральных банков, таких как уровень инфляции или курс валют, они доступны с задержкой не более чем в сутки.
Далее - гарантии доставки, это гарантии того что данные поступают непрерывно и их поставка не прервётся из-за какой-либо случайности. А простота использования в том что потребуется минимум усилий на использовать эти данные.
—
Всё это в первую очередь об индикативных временных рядах на основе которых можно принимать оперативные управленческие решения. Так вот таких временных рядов в открытых источниках в мире совсем немного. Например, данные ООН [2] и данные Всемирного банка [3] - это годовые данные, зачастую с задержкой от 1 до 5 лет, в зависимости от того как работают статслужбы стран. А, например, база индикаторов Банка международных расчётов (BIS) [4] на 92% состоит из квартальных временных рядов, на 7% из годовых и только 0.13% (около 1300) индикаторов с ежемесячной и ежесуточной гранулярностью. При это их географическое покрытие детализируется только до конкретной страны. В большинстве других больших база общедоступных индикаторов ситуация и того хуже, как правило доступны только годовые индикаторы и редко иначе.
Так вот, если судить о доступности данных по этим критериям, то может показаться что, к примеру, в России всё не так плохо. Есть немало индикаторов, в том числе публикуемых ежедневно и в том числе с детализацией до региона и, иногда, и до города которые дают прямое или косвенное измерение поведения потребителей, экономической активности, финансовой активности, состояния общества и так далее. Есть много стран по которым подобные индикаторы найти сложно, например, почти все африканские страны, Средняя Азия, Юго-Восточная Азия, Южная Америка и ещё много где. Да, есть исключения, но в целом самые интересные индикаторы доступны достаточно редко даже в развитых странах. Например, я как-то писал о том что в Исландии публикуют экспериментальную статистику по смертности в разрезе недель [5], аналогично поступают в Великобритании [6] и в Тасмании (штат Австралии) в рамках ковидного мониторинга [7].
💯6⚡3👍1
О доступности статистики
Часть 2/2
Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.
Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.
С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.
А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.
Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics
#opendata #statistics #datasets #indicators #thoughts
Часть 2/2
Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.
Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.
С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.
А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.
Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics
#opendata #statistics #datasets #indicators #thoughts
💯10⚡5
В рубрике о закрытых данных в России, с октября 2022 года более не публикуются Оперативные данные «Единая энергетическая система России: промежуточные итоги». ранее публиковавшиеся в форме PDF отчетов информационных обзоров [1] со сведениями о энергопотреблении в России и другим индикаторам работы единой энергосистемы страны.
Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/
#opendata #closeddata #russia #energy #statistics
Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/
#opendata #closeddata #russia #energy #statistics
😢9✍3
Вот уже долгое время у меня в задачах висит провести опрос по поводу российского дня открытых данных. Мы в @infoculture проводим его уже много лет, в последние годы, начиная с ковидных годов дистанционно. Не проводили только в 2022 году. В 2024 году будем проводить, и российский, дистанционно и в Ереване, армянский, вживую.
Поэтому, во первых, если Вы хотите запартнёрится к организации ODD в России или в Армении то напишите мне в личку или на почту [email protected], а если хотите выступить спонсором так точно пишите)
С темами армянского ODD всё довольно понятно, мы его проводить будем в первый раз и в ситуации когда всё только начинается. А вот с темами того что обсуждать в России всегда есть вопрос, большой вопрос.
Самые очевидные темы:
- закрытие данных/сведений/документов/сайтов
- архивация данных везде где возможно
- оценка/обзор потенциальных госинициатив (портал данных для ИИ), которые пока незаметны, но обещаны
- что-то ещё?
Большой опрос под это делать не хочется, так что следующим постом я размещу мини-опрос в телеграме чтобы было понятно по каким темам собирать спикеров.
#opendata #russia #armenia #opengov #events
Поэтому, во первых, если Вы хотите запартнёрится к организации ODD в России или в Армении то напишите мне в личку или на почту [email protected], а если хотите выступить спонсором так точно пишите)
С темами армянского ODD всё довольно понятно, мы его проводить будем в первый раз и в ситуации когда всё только начинается. А вот с темами того что обсуждать в России всегда есть вопрос, большой вопрос.
Самые очевидные темы:
- закрытие данных/сведений/документов/сайтов
- архивация данных везде где возможно
- оценка/обзор потенциальных госинициатив (портал данных для ИИ), которые пока незаметны, но обещаны
- что-то ещё?
Большой опрос под это делать не хочется, так что следующим постом я размещу мини-опрос в телеграме чтобы было понятно по каким темам собирать спикеров.
#opendata #russia #armenia #opengov #events
🔥8👍1
Какие темы по открытым данным в России Вы бы хотели послушать на ODD 2024 (несколько ответов можно) ?
Anonymous Poll
31%
Как закрываются данные
22%
Про архивацию данных и архивацию вообще
35%
Данные для ИИ и госинициативы в этой области
34%
Открытость науки
46%
Инструменты работы с данными
27%
А что там в мире творится?
0%
Что-то другое, предложу в комментариях
10%
Пора уже завязывать с открытыми данными пока всех не пересажали/переиноагентили
16%
Просто хочу ответы посмотреть
👍3😁2
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.
В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].
Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета
Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.
А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.
Ссылки:
[1] https://t.iss.one/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/
#opendata #statistics #indicators #malaysia #datasets #datacatalogs
В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].
Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета
Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.
А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.
Ссылки:
[1] https://t.iss.one/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/
#opendata #statistics #indicators #malaysia #datasets #datacatalogs
👍13
У меня регулярно случаются разговоры вокруг темы "почему же в РФ всё ещё много открытых данных и не всё закрыли?". Говорят об этом многие как внутри страны так и за её пределами и на это есть много причин и мнений. Я озвучу то что наблюдаю своими глазами.
Далее тезисно:
1. Основная причина в том что в общем и в целом модель поведения российский властей соответствует принципу "ничего не происходит, всё идёт как было". Отчасти поэтому скрытие/закрытие данных точечное и оно скорее продолжает тенденцию последних 6-10 лет. Это подтверждается тем что в первую очередь власти закрывали данные про которые знали на 100% что они используются зарубежными аналитиками, в первую очередь военными и теми кто формирует санкционные списки. Результаты работы этих аналитиков не то чтобы сильно секретны, во всяком случае не настолько чтобы нельзя было узнать что именно используется. Поэтому исчезли данные об исполнении фед. бюджета, о компаниях под санкциями и теми кто работает с подсанкционными компаниями. Неприятно, но ожидаемо.
2. В то же так устроена информатизация/цифровизация и тд. что не публиковать некоторые данные невозможно поскольку уже выстроены экосистемы, вокруг них и совсем неочевидно что их можно использовать в каких-либо военных или санкционных целях. Таких данных много, многие индикаторы ведомственной статистики, и ещё много что раскрываются, многие данные публикуются. Их сокрытие является, в большей степени, от отсутствия открытости гос-ва в повестке Пр-ва, чем в конкретных событиях вокруг прошедших/идущих/грядущих военных конфликтов.
3. При этом важно знать что всё что видно в открытом контуре на госсайтах и иных госресурсах - это менее 0.1% данных которые реально собираются. В виду российской специфики почти полной неподотчетности исполнительной власти, реальные объёмы собираемых данных измеряются петабайтами (а может больше, не буду обманывать), в то же время в виде открытых данных и в любой иной форме публиковались гигабайты данных максимум. Если отделять данные от всего остального контента (видео, аудио) создаваемое гос-вом.
4. При этом были, есть и, хочется надеяться что будут косвенные индикаторы и базы данных на которых можно подсчитать индикаторы реальной экономической ситуации, демографии и тд. в общем признаки экономической и социальной активности. Некоторые индикаторы, даже, весьма оперативные и обстоятельные. Но они существуют ровно до той поры пока не о их использовании не становится известно публично. И здесь есть особая роль журналистов.
5. Работа любого профессионального журналиста - это подготовить публикацию которая бы приводила к изменениям в обществе, повышало бы его осведомленность, приводила бы к иным значимым качественным изменениям. Сейчас когда журналисты используют те или иные общедоступные данные которые отражают реальную ситуацию с экономикой или обществом в РФ это приводит к тому что на эти медийные триггеры срабатывают в Пр-ве, Администрации Пр-та или спецслужб и эти данные, если не немедленно, то довольно скоро исчезают.
6. Примеров таких исчезающих данных немало, тот что у меня перед глазами - это исчезновение в данных ФНС о юридических лицах сведений об учредителях НКО. Это произошло ещё в 2021 году, я неоднократно об этом писал и это, конечно, не единственный пример. Аналогично были закрыты данные о поставщиках госкорпораций по 223-ФЗ, это было ещё при Пр-ве Д. Медведева в 2018 году и ещё много всего.
7. Я не призываю журналистов не писать о чём либо, я говорю о том что реакция российский властей идёт на подтверждённое использование данных. И если какие-то данные скрыть сложно из-за их природы, то от сокрытия других куда меньше последствий. Поэтому результатом работы журналистов, а ещё точнее результатом реакции властей, является сокрытие данных. И это ещё один неприятный тренд последних лет.
(Часть 1/2)
#opendata #russia #thoughts
Далее тезисно:
1. Основная причина в том что в общем и в целом модель поведения российский властей соответствует принципу "ничего не происходит, всё идёт как было". Отчасти поэтому скрытие/закрытие данных точечное и оно скорее продолжает тенденцию последних 6-10 лет. Это подтверждается тем что в первую очередь власти закрывали данные про которые знали на 100% что они используются зарубежными аналитиками, в первую очередь военными и теми кто формирует санкционные списки. Результаты работы этих аналитиков не то чтобы сильно секретны, во всяком случае не настолько чтобы нельзя было узнать что именно используется. Поэтому исчезли данные об исполнении фед. бюджета, о компаниях под санкциями и теми кто работает с подсанкционными компаниями. Неприятно, но ожидаемо.
2. В то же так устроена информатизация/цифровизация и тд. что не публиковать некоторые данные невозможно поскольку уже выстроены экосистемы, вокруг них и совсем неочевидно что их можно использовать в каких-либо военных или санкционных целях. Таких данных много, многие индикаторы ведомственной статистики, и ещё много что раскрываются, многие данные публикуются. Их сокрытие является, в большей степени, от отсутствия открытости гос-ва в повестке Пр-ва, чем в конкретных событиях вокруг прошедших/идущих/грядущих военных конфликтов.
3. При этом важно знать что всё что видно в открытом контуре на госсайтах и иных госресурсах - это менее 0.1% данных которые реально собираются. В виду российской специфики почти полной неподотчетности исполнительной власти, реальные объёмы собираемых данных измеряются петабайтами (а может больше, не буду обманывать), в то же время в виде открытых данных и в любой иной форме публиковались гигабайты данных максимум. Если отделять данные от всего остального контента (видео, аудио) создаваемое гос-вом.
4. При этом были, есть и, хочется надеяться что будут косвенные индикаторы и базы данных на которых можно подсчитать индикаторы реальной экономической ситуации, демографии и тд. в общем признаки экономической и социальной активности. Некоторые индикаторы, даже, весьма оперативные и обстоятельные. Но они существуют ровно до той поры пока не о их использовании не становится известно публично. И здесь есть особая роль журналистов.
5. Работа любого профессионального журналиста - это подготовить публикацию которая бы приводила к изменениям в обществе, повышало бы его осведомленность, приводила бы к иным значимым качественным изменениям. Сейчас когда журналисты используют те или иные общедоступные данные которые отражают реальную ситуацию с экономикой или обществом в РФ это приводит к тому что на эти медийные триггеры срабатывают в Пр-ве, Администрации Пр-та или спецслужб и эти данные, если не немедленно, то довольно скоро исчезают.
6. Примеров таких исчезающих данных немало, тот что у меня перед глазами - это исчезновение в данных ФНС о юридических лицах сведений об учредителях НКО. Это произошло ещё в 2021 году, я неоднократно об этом писал и это, конечно, не единственный пример. Аналогично были закрыты данные о поставщиках госкорпораций по 223-ФЗ, это было ещё при Пр-ве Д. Медведева в 2018 году и ещё много всего.
7. Я не призываю журналистов не писать о чём либо, я говорю о том что реакция российский властей идёт на подтверждённое использование данных. И если какие-то данные скрыть сложно из-за их природы, то от сокрытия других куда меньше последствий. Поэтому результатом работы журналистов, а ещё точнее результатом реакции властей, является сокрытие данных. И это ещё один неприятный тренд последних лет.
(Часть 1/2)
#opendata #russia #thoughts
👍18
8. Собственно он и является той причиной почему, к примеру, я почти не пишу про какие-либо интересные данные внутри РФ и о том как они были бы полезны именно по той причине что их могут оперативно закрыть. Если уж и писать о чём-то то только если это что-то не столь ценно если исчезнет.
9. Вот, к примеру, 9 января я писал про геосервер Росреестра. Не прошло и недели как сотрудники Росреестра его скрыли. Не то чтобы неожиданная реакция, скорее, наоборот, ожидаемая.
10. Выводов у меня здесь нет, кроме того что триггерами дальнейшего закрытия данных будет их публичное использование. Пока никто не знает и знание непублично, данные будут доступны ещё долго. Как только об этом напишут хоть что-то осмысленное, данные начнут исчезать. Вот такая борьба со здравым смыслом и происходит.
(Часть 2/2)
#opendata #thoughts #russia
9. Вот, к примеру, 9 января я писал про геосервер Росреестра. Не прошло и недели как сотрудники Росреестра его скрыли. Не то чтобы неожиданная реакция, скорее, наоборот, ожидаемая.
10. Выводов у меня здесь нет, кроме того что триггерами дальнейшего закрытия данных будет их публичное использование. Пока никто не знает и знание непублично, данные будут доступны ещё долго. Как только об этом напишут хоть что-то осмысленное, данные начнут исчезать. Вот такая борьба со здравым смыслом и происходит.
(Часть 2/2)
#opendata #thoughts #russia
👍17😢8🤔3