Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
ФАС России проводит опрос [1] по тому использует ли кто-либо их открытые данные. Скажу честно, проводят они его сами, ни со мной, ни с другими коллегами они не советовались и, вроде как, их к нему никто не принуждал. Так что это и хорошо что они ведут работу над тем чтобы говорить с аудиторией - пусть и путём опроса.

Прошу найти немного времени и пройти опрос, хотя бы и по тому чтобы у них не пропадала мотивация раскрывать данные. К вопросу о том что могут раскрывать органы власти, например, декларации о доходах руководителей практически ни одно ведомство не публикует в машиночитаемых форматах и хорошо ещё если не делают это в форматах сканов или картинок.


Ссылки:
[1] https://fas.gov.ru/surveys/29

#opendata #fasrf
Роскомнадзор публикует много открытых данных у себя на сайте https://rkn.gov.ru/opendata. Некоторые файлы ну такие, большие, на пару сотен мегабайт или гигабайты.

Но отдаёт их сайт их со скоростью 45KB/sec. Пару гигабайт так качать займёт 10 часов. А уж про архивацию их сайта, слов нет, одно сдавленное мычание и рука-лицо.

Органам власти на заметку. Если надо что-то публиковать, но оооочень не хочется. Например, декларации руководителей, или что-то полезное - рубите трафик к ним до 1KB/Sec !

Все формальные требования будут соблюдены. Кроме самых дотошных - никто не подкопается. Если что, говорите что это Ваша защита от DDoS.

#opendata #opengov
Forwarded from Городские данные (Andrey Karmatsky)
3 – 4 марта в Иннополисе состоится геоинформационный хакатон «Гадание на картах». Организаторы приглашают к участию всех желающих, кому небезраличны ГИС-технологии и их применение в различных областях, в том числе и в решении городских проблем.

Среди заявленных тем — геомаркетинг, городская аналитика, навигация, ГИС в черезвычайных ситуациях, обработка данных дистанционного зондирования (аэро и космоснимки).

Процитирую из анонса тему про Urban Analytics
Сделай городскую среду лучше и интересней.
— создай инструмент взаимодействия города, бизнеса и жителей на одной площадке;
— контролируй состояние городской инфраструктуры по данным дистанционного зондирования;
— используй идеи по 3D-моделированию городской инфраструктуры для решения задач бизнеса;
— моделируй в пространстве и времени устойчивое развитие нового жилого района;
— оценивай качество районов проживания жителей с учетом функционального назначения объектов окружения и мнений жителей.

Заявки от команд принимаюся на сайте организаторов до 2 марта: https://hack.gismart.ru/
Тем временем в ИТМО
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Сегодня в Университете ИТМО прошла лекция Г.О. Грефа. Красочная презентация была посвящена цифровизации, значительному увеличению объема данных, экосистеме Сбербанка, ядром которой является создание технологической платформы и многому другому (я думаю, что лекция записывалась и будет выложена в открытый доступ). Завершалось выступление забавным роликом о будущем искусственного интеллекта, подготовленным для инвесторов Сбербанка https://www.youtube.com/watch?v=NkULcuwevnc&feature=share.

После этого была "секция вопросов". Содержание вопросов от слушателей: blockchain, финансирование образовательных программ, наличие у Сбербанка research-центра и рассказ студентки о программе ИТМО "Научная коммуникация".

Итак, мы прослушали 45-минутное выступление о том, что теперь работа Сбербанка основана на данных, на новых технологиях, в мире количество данных только растет и в ближайшее время ситуация не изменится. Что же мы видим на практике? В конце ноября 2016 года Сбербанком был запущен портал Открытых данных https://www.sberbank.com/ru/analytics/opendata, вызвавший на тот момент большой интерес разработчиков.

Прошло чуть больше года, на нем до сих пор размещен ОДИН набор данных, плохо структурированный и содержащий 11 показателей с детализацией до региона. Лицензии нет, описания структуры данных нет, да и самих данных, фактически, тоже нет. Об этом год назад подробно писал Иван Бегтин https://habrahabr.ru/company/infoculture/blog/316186/, и с тех пор ничего не изменилось.

Был бы интересен ответ Сбербанк, планируется ли какое-то развитие данного портала или он так и останется рекламой платных исследований? Как видно из содержания вопросов, задать этот вопрос на выступлении шансов не было )).
В США обновился портал PlainLanguage.gov [1] посвящённый простоте языка в официальных текстах о чём подробнее в блоге 18F [2]. Сам сайт работает на новом государственном CMS движке Federalist [3] обеспечивающим хостинг неограниченного числа сайтов заказчика за $25 тысяч долларов в год (примерно 1.5 миллиона рублей).

Сама тема понятности языка в США существует очень давно, а в 2010 году появился закон "The Plain Writing Act of 2010" [4] благодаря которому массово стали переписываться тексты под простое описание и началось обучение госслужащих простоте языка.

Английский язык не единственный подвергающийся официальному упрощению. Испаноязычные страны имеют много официальных гайдов для своих официальных текстов. Они быстро находятся поисковами по словам "lenguaje claro" и "lenguaje ciudadano",

В России и на русском языке официальные рекомендации и гайды по упрощению языка отсутствут. Много лет назад появился наш маленький проект PlainRussian.ru [5] по измерению простоты текстов, но пока в России не появится сильного устойчивого сообщества практиков, то и он будет не востребован.

Ссылки:
[1] https://plainlanguage.gov
[2] https://18f.gsa.gov/2018/02/22/new-home-for-the-federal-plain-language-community/
[3] https://federalist.18f.gov/
[4] https://www.gpo.gov/fdsys/pkg/PLAW-111publ274/pdf/PLAW-111publ274.pdf
[5] https://plainrussian.ru

##plainlang
Forwarded from Городские данные (Andrey Karmatsky)
NACTO (National Association of City Transportation Officials) и Open Transport Partnership стартовали прекрасный проект — Shared Streets, платформу, в которую все муниципалитеты, департаменты транспорта, транспортные агентства или частные компании-перевозчики могли бы загружать даные и анализировать ситуацию в городе. Основная фишка в том, что можно пересекать различные данные от разных источников на одной карте (с точностью до участка дороги) и видеть инсайты о том, что происходит с транспортом в городе.

https://sharedstreets.io/

Подробнее о проекте на CityLab:
https://www.citylab.com/transportation/2018/02/a-powerful-map-promises-to-help-cities-keep-streets-free/553739/
Завтра вечером я выступаю на экономфакультете МГУ с лекцией про открытые данные. Не знаю пускают ли туда кого-то кроме студентов экономфака, но на всякий случай ссылка https://www.econ.msu.ru/students/Article.20180219181322_2745/
🔔 Программа Open Data Day в Москве, секция «Дата-журналистика».

3 марта
*Руслан Газиханов, Инфометр, доклад «Российские источники открытых данных и их качество»
*Екатерина Староверова, Кино Mail.ru «Считаем и рисуем: как журналисту не облажаться с данными»
*Алексей Кнорре, социолог, «Исследование наркопреступности в России: как академический продукт превратить в медийный?»
*Александра Поливанова, Сергей Бондаренко «Происхождение баз данных на основе исторических архивов»
*Александра Поливанова, Михаил Сергиенко, проект «Topos.memo»

4 марта
*Александр Богачев, РБК (мастер-класс), «Создание мультиграфиков (small multiples) в Excel»
*Игорь Лошиц, Яндекс.Исследования: «Исследования Яндекса: как жизнь отражается в данных»
*Андрей Дорожный, Сергей Устинов, «Дата-журналистика в России: опыт Mediagun»
*Алексей Новичков, ТАСС (мастер-класс), «Оперативная инфографика в Figma»
*Роман Анин, «Новая Газета», «Как работать с открытыми базами данных»

Регистрация 👉 : https://msk.opendataday.ru/
Небольшого анонса пост
—-
Мне хотелось сделать сюрприз, но то что я хочу сделать трудно сделать сюрпризом. Так что пишу в этом канале.

Есть общедоступная статистика по социальному профилю преступности в том числе в гендерном и возрастном разрезе. Я ищу специалиста(-ов) по инфографике кто бы на основе этих данных сделал бы красивый, броский, яркий плакат с конкретными цифрами.

Данные есть с сайта crimestat.ru в удобном виде. Сделать надо оперативно, поэтому мини конкурс мы скорее всего не успеем, день открытых данных съедает всё возможное время.
А заказать качественную работу да.

Пишите мне на [email protected] или тут на @ibegtin или в чат @begtinchat

#opendata #opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
3-4 марта пройдет традиционное, ежегодное, главное событие года в мире открытых данных - День открытых данных!

Мы собрали очень разносторонний набор докладов по направлению "государственные данные". В процессе подготовки направления меня удивила отзывчивость госорганов, их готовность выступать с презентациями, центром которых является работа с данными, внутренние рабочие процессы, реальные кейсы.

Откроет направление выступление Максима Панина и Тимура Алейникова из Минкультуры России, которые на примере своих данных и информационных систем расскажут, "Как министерству производить данные, а не дам".

Иван Бегтин из АНО "Инфокультура" поделится опытом нахождения "скрытых данных" - всего того, что опубликовано на гос. сайтах, но не афишируется (API, сканы документов, файлы).

Дмитрий Дубинин из Минкомсвязи России поделится "предложениями по формированию подходов к методическому и организационному обеспечению деятельности в области открытых данных".

Представитель от МИД России расскажет об открытых данных Министерства иностранных дел и планах по открытости.

Ирина Анисимова из Роструда поделится опытом создания порталов, данные которых используются десятками проектов, а Андрей Заводчиков из АЦ "Форум" (Проектный центр Открытого правительства) расскажет об анонимизации данных перед публикацией, с последующим обсуждением взаимодействия граждан с госорганами.

Завершится первый день междисциплинарным круглым столом "Новые технологии в правоохранительной сфере".

Если первый день состоит из докладов госорганов, то второй полностью посвящен докладам некоммерческих проектов и организаций.

Мы с Ксения Орлова расскажем о данных по госфинансам - количестве, качестве, гос. контрактах и публикации бюджетов региональными финансовыми органами.

О международном опыте раскрытия данных внешнеполитических ведомств расскажет Олег Шакиров из ЦСР.

Созданию машиночитаемых открытых данных посвящены сразу три доклада: Андрей Жвирблис из Декларатор расскажет о преобразовании деклараций в машиночитаемый вид и о том, почему "отсутствие стандарта раскрытия дискредитировало идею прозрачности"; Марина Смыслова из НПО "Криста" поделится опытом интеграции данных о региональных и муниципальных бюджетах, часть из которых мы уже в этом году сможем скачивать с портала электронного бюджета budget.gov.ru; Денис Савельев из Института проблем правоприменения выступит с презентацией об "открытом корпусе текстов российского законодательства" - машиночитаемые данные о 400 тысчах НПА.

Завершат направление гос. данные выступления Руслана Газиханова из Инфометра о рейтинге и качестве публикации данных ФОИВов в 2017 году и мастер-класс "Открытые и почти открытые данные об инфраструктуре Интернета" от Александра Исавнина из РосКомСвободы.

Регистрация на мероприятие пока еще открыта, но скоро закроется https://msk.opendataday.ru
А вот это очень интересные данные
Forwarded from Городские данные (Andrey Karmatsky)
Компания Skyhook, которая составляет базу общедоступных устройств Wifi и обслуживает запросы на определение местоположения по идентификаторам этих устройств, выложила в общий доступ данные о запросах пользователей (в анонимизированном виде, разумеется). Эти данные, как вы понимаете, неплхо репрезентуют активность и перемещения жителей в городе. Помимо визуализации данные можно скачать и использовать для своих проектов 😻

Ниже цитирую технические детали, для тех кому интересно:
OpenTIDE represents on-the-ground mobile device activity by measuring location requests from mobile devices throughout the world. These anonymous location requests are aggregated in time and space to produce a request count per hour in areas around the world in which Skyhook receives location requests.

The data are summarized to tiled areas approximately 100m x 100m (.000976 decimal degrees). For each of these areas mobile device activity is summarized across each of the 168 hours of a week. In other words, for every hour of the week in which Skyhook received location requests for an area, a value will be computed describing how much location request traffic was registered at that time and place. For example, a particular bar on Monday at 3 pm might have an Activity Count of 12, while that same Tile might have an Activity Count of 384 on Friday night at 9 pm.

These data sets are produced on an ongoing daily basis

https://skyhook.carto.com/

via Oleg Kiselev
В Ъ вышла статья про новые требования к региональным властям об обязательном раскрытии данных по ряду направлений, почти все данные инфраструктурные [1].

Честно говоря, в статье из полезного - только комментарии бизнеса. Написана она совсем без погружения в предметную область.

Списки требуемые к раскрытию - это "открытость по белым списком". Можно назвать это opendata whilelisting, а в мире стандарт требований это opendata by default. Не короткий список того что обязательно, а всё должно публиковаться в машиночитаемом виде. Opendata whitelisting - это плохая практика. Это практика при которой большая часть важной информации не публикуется, данные раскрываются постепенно и дозированно.

По поводу перечня раскрываемых данных, как бы помягче сказать, он оторван от реальности. Даже если все регионы эти данные начнут публиковать, то ни социальный ни экономический эффект от их публикации не изменится.

Есть основные продукты деятельности государства, в том числе региональных правительств, которые не публикуются или публикуются в неполном/искажённом объеме и которые наиболее чувствительны. Это всё что касается качества жизни, это результаты санитарных проверок, данные по заболеваемости, экологии, пожарам, преступности и многое другое.

А эти списки прописанные как обязательные - это инфраструктурные данные. Кстати, часть комментаторов от бизнеса в статье это понимают, потому и упоминают данные не в субъектах, а тот же Россреестр который в этот список не попадает.

Я напомню что у нас даже по подписанной ВВП в 2013 году хартии открытых данных [2] не выполнено более половины обязательства.

Это такие наборы данных как:
Companies Company/business register
Crime and Justice Crime statistics, safety
Earth observation Meteorological/weather, agriculture, forestry, fishing, and hunting
Education List of schools; performance of schools, digital skills
Energy and Environment Pollution levels, energy consumption
Finance and contracts Transaction spend, contracts let, call for tender, future tenders, local budget, national budget (planned and spent)
Geospatial Topography, postcodes, national maps, local maps
Global Development Aid, food security, extractives, land
Government Accountability and Democracy Government contact points, election results, legislation and statutes, salaries (pay scales), hospitality/gifts
Health Prescription data, performance data
Science and Research Genome data, research and educational activity, experiment results
Statistics National Statistics, Census, infrastructure, wealth, skills
Social mobility and welfare Housing, health insurance and unemployment benefits
Transport and Infrastructure Public transport timetables, access points broadband penetration

А, например, список из 8-ФЗ, ну вот честно скажем - слабый. Он не про информационные системы, а про публикацию того что и так должно было быть на сайтах (вакансии, подведы и тд) и просто перевести машиночитаемый вид. Эти данные - это до 500 килобайт в объёме в совокупности, для большинства органов. Ключевые данные как были так и остаются в государственных информационных системах.

Доступность данных оттуда - это обязательные списки ГИСов из которых они должны публиковаться, это рабочие группы по этим ГИСам или тематическим группам ГИСов и это Chief Data Officer'ы в органах.

При всём желании, я никак не могу сказать что белые обязательные списки - это благо. Всё можно было бы делать совсем иначе.

Ссылки:
[1] https://www.kommersant.ru/doc/3560627
[2] https://www.gov.uk/government/publications/open-data-charter/g8-open-data-charter-and-technical-annex

#opendata #opengov
Ранее лидировал Закон Самарской области от 25.02.2005 N 58-ГД «Об установлении границ муниципального района Волжский Самарской области» (принят Самарской Губернской Думой 22.02.2005) https://samara.news-city.info/docs/sistemsa/dok_ieyzzb.htm и там это было самое длинное предложение русского языка из 9387 слов, 61061 знака. Впрочем в словах и знаках постановление из Санкт-Петербурга по не измерялось, но несомненно оно является выдающимся памятником современной бюрократической российской культуры.
Комитет по соцполитике посрамил Толстого и Джойса фразой длиной 13 страниц
Одно-единственное предложение в распоряжении комитета по социальной политике Смольного растянулось на рекордные 13 страниц, которые вместили в себя пять с половиной тысяч слов. Документ за номером 62-р от 21 февраля неделей позже опубликовали на портале публикования нормативных документов Петербурга. https://www.fontanka.ru/2018/03/01/012/
В качестве data рефлекции на прозвучавшее послание Президента России, несколько ссылок про данные, инфографику и историю.

В архиве Johnston'а [1] большая общедоступная база по ядерным испытаниям, оружию и исследованиям. Визуализация по ядерному оружию есть на Our world in data [2] и показывает реальные мировые масштабы.

А также важно помнить что часы судного дня, ещё до послания, в январе 2018 года были переведены на без 2 минут до полуночи [3] о чём можно узнать подробнее в Bulletin of the Atomic Scientists [4].

Отдельно хочу напомнить что:
- в России нет специализированных образовательных ресурсов подготовки к ядерному взрыву аналогичных Ready.gov [4] в США
- нет единой системы оповещения и поиска убежищ
- государственная программа строительства ядерных убежищ не в входит в государственные стратегии 2020, 2025 и 2035
- подготовка к ядерной войне не включена в обязательную школьную программу

И многое другое.

Ссылки:
[1] https://www.johnstonsarchive.net/nuclear/index.html
[2] https://ourworldindata.org/nuclear-weapons
[3] https://www.nytimes.com/2018/01/25/world/americas/doomsday-clock-nuclear-scientists.html
[4] https://thebulletin.org/2018-doomsday-clock-statement
[5] https://www.fema.gov/media-library-data/1518630553964-bcdba2109ed603f4b4083bb7b2d6adbf/FEMA_InfoSheet_Nuclear_Explosion_02.05.18_508.pdf

#opendata