Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Ко дню открытых данных завершилось голосование по Moscow Dataviz Awards 2021 [1] это ежегодная международная премия за достижения в области инфографики, визуализации данных и дата-арта.

Посмотрите на победителей, достойны не только они, но и огромное число других заявок. Лично я особенно рад что эта премия стала международной, много заявок было и из других стран.

О победителях подробнее в блоге Максима Осовского в Facebook [2]

Ссылки:
[1] https://moscowdatavizawards.com
[2] https://www.facebook.com/osovskiy/posts/10221955712660074

#opendata #dataviz #datajournalism #moscow #awards
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow
Объясните мне, знающие люди, зачем часть сайтов и, может быть, инфраструктуры Мэрии Москвы находится за пределами РФ? Например, хостится на серверах Hetzner, Германия. Это такой хостер-дискаунтер, хороший в своём классе, но далёкий от России.

Вот примеры:
- inno.mos.ru - IP: 78.46.71.197 (открывается пустая страница)
- cgrt.mos.ru - IP: 176.9.230.170 (не открывается)
- gk.tech.mos.ru - IP: 138.201.197.43 (заглушка на немецком языке)
- aupd-test.mos.ru - IP: 95.216.13.234 (тестовая страница Московской электронной школы)
- new.dit.mos.ru - IP: 176.9.230.170 (не открывается)

Я, конечно, всё понимаю, немецкое качество и всё такое, но как так можно случайно сделать?

Это не единственный зарубежный хостер на который указывают домены в зане mos.ru и этот список не финальный. Читающим меня сотрудникам ДИТ Москвы я бы посоветовал проверить тщательно, потому что нельзя так делать.

#privacy #security #internet #moscow
Forwarded from APICrafter
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей

Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.

На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч

Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.

#data #classifiers #moscow #catalogs #datacatalog
В качестве того как устроена работа порталов открытых данных, найду место не только для критики в адрес органов власти.

Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.

Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.

К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.

Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.

Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.

Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.

#opendata #datacatalogs #moscow #nsi
О том как в России обстоит дело с открытыми данными, приведу пример в виде портала открытых данных Правительства Москвы data.mos.ru

Если зайти на портал то можно обратить внимание что там опубликовано 993 набора данных [1]. Причём новые данные публикуются, согласно цифрам на странице описания портала [2] в течение 2020 года было раскрыто 153 новых датасета и их общее количество достигло 1250. Куда делись 257 наборов данных непонятно, но предположим что где-то цифры не сходятся и ошиблись в подсчётах.

За 2021 год новые данные не публиковались, фильтр по статусу "Новые" [3], выдаёт пустой список, но существующие данные обновляются, если не все то многие. Например, Адресный реестр объектов недвижимости города Москвы [4] обновляется ежесуточно, автоматически, примерно с недельной задержкой. На 17-е января данные там на 12 января [4].

Другой раздел - новости, не обновлялись с декабря 2019 года [5], а план публикации открытых данных был по ссылке [6], но в 2020 году его просто удалили.

Итого:
- план публикации открытых данных удалён
- новости не обновляются с декабря 2019 г.
- новые данные не публикуются с 2020 г.
- как минимум часть текущих данных обновляется

Итого портал существует, в чём то обновляется, но с нулевым развитием и раскрытием чего-то нового. Можно сказать что он частично заморожен и существует по инерционному сценарию.

При этом если сравнить московский портал открытых данных с порталами открытых данных Нью-Йорка [7], Лондона [8], Парижа [9], Пекина [10] и десятков других крупнейших городов мира, то с точки зрения объёмов опубликованных данных московский портал всё ещё выглядит неплохо, а с точки зрения новых и актуальных данных стремительно устаревает.

При том что он создавался до федерального портала, у него есть разработанный стандарт публикации данных [11], что редкость и для России и в мире, а сами данные публиковались автоматизировано и доступны через API, тоже довольно неплохое.

Ссылки:
[1] https://data.mos.ru/opendata?categoryId=241&IsArchive=true&IsActual=true
[2] https://data.mos.ru/about
[3] https://data.mos.ru/opendata?categoryId=241&IsNew=true
[4] https://data.mos.ru/opendata/60562/passport?versionNumber=3&releaseNumber=698
[5] https://data.mos.ru/news
[6] https://data.mos.ru/about/publicationplan
[7] https://opendata.cityofnewyork.us/
[8] https://data.london.gov.uk/
[9] https://opendata.paris.fr
[10] https://data.beijing.gov.cn/
[11] https://data.mos.ru/about/standarts

#opendata #moscow #citydata
Forwarded from APICrafter
В каталог DataCrafter'а добавлен открытый набор данных Реестр обязательных требований для организаций в городе Москве [1] полученный с сайта Открытый контроль (knd.mos.ru). Набор данных включает 87 тысяч записей, общим объёмом 470 МБ в формате JSONL и в 20 МБ в сжатом виде. Данные содержат обязательные требования предъявляемые организациям в зависимости от вида их деятельности.

Данные доступны через:
- в виде пакета данных (ZIP архив)
- в виде JSON lines файла экспорта
- через API платформы

Набор данных можно использовать, например, для создания сервиса определения перечня требований к организации по виду деятельности. На его основе можно создать специальный телеграм бот, мобильное приложение или веб интерфейс отличный от того что уже реализовано на портале Открытый контроль.

Ссылки:
[1] https://data.apicrafter.ru/packages/mosknd

#opendata #moscow #data #knd
В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].

Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.

Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.

К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.

Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.

Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.

Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.

Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.iss.one/openregistry

#opendata #petitions #moscow #ecology #lifequality
Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.

Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.

Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)

Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.

MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.

От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.

Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/

#opendata #idiotseverythere #data #moscow #government
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow
В рубрике закрытых данных в РФ Департамент транспорта Москвы ограничил доступ к реестру легковых такси [1], он доступен только с заполнение ГРЗ и вводом каптчи.

Ранее реестр такси был доступен в виде таблицы на сайте мэрии Москвы mos.ru

В отличие от других данных здесь меньше вероятность применения государственной цензуры и куда больше вероятность сокрытия персональных данных.

Причём произошло это примерно год назад.

Правда ещё есть реестр такси Московской области объединённый с реестром такси Москвы [2], но формально он реестром такси Москвы не является.

Что первично, раскрытие данных или приватность? В РФ до недавних пор было первое, в ЕС приватность чаще на первом месте.


Ссылки:
[1] https://transport.mos.ru/auto/reestr_taxi
[2] https://mtdi.mosreg.ru/taxi-cars

#opendata #closedata #taxi #moscow #moscowregion #privacy