Ivan Begtin
8.03K subscribers
1.94K photos
3 videos
102 files
4.65K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps
Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".

Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.

Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.

Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.

Не забудьте зарегистрироваться и присоединиться!

#opendata #opendataday #events #russia
В рубрике интересных наборов данных данные по тестированию дисков от облачного провайдера Backblaze [1] огромный датасет замеров работы почти 270 тысяч жестких дисков, с зарегистрированными фактами почти 17 тысяч отказов.

Общий объём датасета более 100GB, там же много аналитики от Backblaze про сами диски и это бесценная информация для всех кто выбирает диски для долгосрочного хранения. У них же очень интересная аналитика [2] за многие годы.

Ссылки:
[1] https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data
[2] https://www.backblaze.com/blog/backblaze-drive-stats-for-2023/

#opendata #data #datasets
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
День открытых данных: 6 марта с 11:00

6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.

В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.

Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.

Регистрация по ссылке: https://opendataday.ru/msk
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные в Армении

На прошлых выходных мы провели первый Open Data Day в Армении. Он прошел в уютной атмосфере лофта Еревана с выступлениями представителей госорганов, дата-специалистов и журналистов.

Армения находится в начале своего пути работы с открытыми данными, поэтому на Дне открытых данных планами Министерства Высокотехнологичной Промышленности поделился Аршак Левонович Керобян, начальник Управления цифровизации.

Самым интересным, на мой взгляд, является намерение Министерства поддерживать концепцию open by default - открытость по умолчанию. В этой концепции все, что не является закрытым, должно быть доступным и открытым. Россия не придерживается концепции открытости по умолчанию, поэтому существует (устаревший) список наборов данных, которые должны быть открытыми.

Вторым интересным моментом является инвентаризация всех государственных данных и публикация созданного каталога. При этом, была озвучена идея о том, что госорганы не могут пользоваться и ссылаться на те данные, которые не включены в каталог. На мой взгляд, это отличное решение для того, чтобы госорганы своевременно вносили информацию о своих наборах данных (тем самым актуализируя каталог) и не забывали публиковать их в открытом доступе.

Рассказывали также доработке закона О свободе информации и о том, какую бурную дискуссию он вызвал даже среди потенциальных бенефициаров, которые так долго боролись за повышение открытости и прозрачности.

Закон о персональных данных также сейчас разрабатывают. Удивительно, что для регистрации информации о гражданах существует несколько не связанных друг с другом реестров, каждый из которых устаревает через пять минут.

Надеюсь, что все это (ну или хотя бы то, что касается открытых данных) в ближайшее время будет реализовано.

Кстати, некоторое время назад мы запустили общественный портал открытых данных Армении (https://data.opendata.am), загрузив первые 815 наборов данных. Государственный портал армянское правительство тоже анонсировало.
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.

У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»

Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".

Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.

Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.

Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.

Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.

Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.

Не любят людей в Рослесхозе, ох как не любят.

P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц

Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest


#opendata #datasets #forestry #russia #closeddata #baddata
К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.

Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.

Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.

Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.

Но про эти ограничения важно не забывать.

#opendata #russia #dateno #datacatalogs