Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Наконец-то можно анонсировать. Аналитический доклад "Работа с открытыми данными: особенности публикации и использования в российском правовом поле" [1] он завершён и доступен. Читайте, распространяйте, задавайте вопросы и предлагайте примеры.

Ссылки:
[1] https://opendatareview.infoculture.ru/

#opendata #infoculture
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Ровно год назад, 18 ноября, мы запустили в Счетной палате проект «Госрасходы»!

Сложно было представить, что в мае 2019 года, через год после упразднения Открытого Правительства (полномочия которого, как мы все знаем, до сих пор никому не переданы), будет запущена разработка нового государственного проекта по открытым данным. Ещё и на домене spending.gov.ru, к которому мы, честно говоря, давно присматривались.

Мы более пяти лет работаем с открытыми данными, но опыт создания «Госрасходов» все равно нас многому научил:

1. Оказалось, что делать проект внутри госоргана - не так уж и страшно. Нам удалось с этим морально смириться на старте, и мы очень довольны тем, как все идёт. Правда, в этом и большая заслуга модернизирующейся Счетной Палаты - не уверена, что такое же впечатление было бы в другой госорганизации.

2. Мы всего за год смогли адаптироваться к рискам, связанным с использованием открытых государственных данных в госпроекте. Мы не аггрегируем данные о поставщиках (их качество недостаточно для использования в госпроекте), ловили некорректные обновления дампов данных и научились быстро откатываться к предыдущим версиям (например, один из дампов реестра субсидий пришёл без информации о ГРБС, получателях и финансировании и «обнулил» половину страниц на сайте проекта), столкнулись с тем, что в один день нам пришлось закрыть треть сайта из-за приостановки публикации данных на сайте Электронного бюджета.

3. Наша команда аналитиков и разработчиков научилась быстро и качественно составлять методики для расчётов всевозможных индикаторов и рейтингов, учитывающих не только сложную область госфинансов, но и особенности и качество данных (мы до сих пор открываем в них что-то новое).

4. Мы поработали с совершенно новыми данными о нацпроектах и теоретически готовы к тому, что в ближайшие месяцы нам придётся все переделывать из-за их перезапуска. Мы добрались до данных о госпрограммах (не буду ничего спойлерить) и приступаем к долгожданной обработке данных о бюджете.

6. У нас появились новые внешние партнеры, специализирующиеся на фирменном стиле проекта, интерактивной инфографике и SEO (готовы поделиться контактами, если вам нужны специалисты в этих отраслях).

7. Нас научили поисковой оптимизации и мы теперь радостно наблюдаем растущие графики из метрики и вебмастера. Кстати, на этой неделе нам удалось восстановить те позиции, которые у нас были до трехнедельного отключения субсидий на сайте проекта, и продолжить рост.

8. Не могу не отметить, что у нас отличная, развивающаяся и увеличивающаяся команда проекта (и мы, по-прежнему, будем рады новым аналитикам и разработчикам).

До конца года мы еще опубликуем новый функционал и аналитические материалы, и задумки по проекту на следующий год уже сформированы.

Отдельно хочу отметить, что мы сейчас находимся на той стадии развития открытых данных, когда уже не «ура, что-то открыли», а «спасибо, что еще не закрыли», но даже в этой ситуации у нас, как мне кажется, не так плохо получается развивать проект.

Спасибо команде нашего проекта и отдельно спасибо коллегам из Счетной Палаты!
Для тех кто ещё не устал читать доклады и аналитику, на сайте Счетной палаты опубликована экспертная записка про ИТ расходы государства [1] [2] где Альбертом Бертяковым очень подробно разобрано то как государство тратит деньги на ИТ и как оно учитывает потом эти траты. Заодно это будет полезно почитать всем тем кто ранее на портале Госрасходы [3] читал про рейтинг ИТ расходов органов власти [4]

Хотите знать о госИТ больше? Не проходите мимо.

Ссылки:
[1] https://ach.gov.ru/news/eksperty-sp-itbyudzhety-rastut-bystree-obshchikh-raskhodov-organov-vlasti
[2] https://ach.gov.ru/upload/pdf/Zapiska_IT_budgets.pdf
[3] https://spending.gov.ru
[4] https://spending.gov.ru/analytics/ratings/it/

#data #spending #it
Слишком часто меня в последнее время просят комментировать инициативы Минцифры. То же ожидаемое приложение "Стопкоронавирус - Контакты" [1]. А мне и прокомментировать, на самом деле, нечего комментировать пока оно не появится, а когда появится то желающих его разобрать по кусочкам и написать про то какое оно плохое или хорошее будет много.

Пока тезисами:
1. Существует список официальных приложений сделанных органами власти в разных странах на базе API уведомлений от Google и Apple [2]. Приложения появляются буквально каждую неделю их уже десятки
2. Из всех механизмов слежки и уведомлений - этот, пока, наиболее приватный.
3. Всё зависит от того как Минцифры сделают своё приложение, но им в любом случае надо провести его через ревью Google и Apple, то есть больше шансов на приватность.
4. Есть подробности о том как API будет работать [3], многое будет зависеть от пользователя который будет давать разрешение приложениям на доступ к информации.

Что вызывает куда большую тревогу у меня лично - это то с какой скоростью ДИТ Москвы (в лице ГКУ Информационный город) плодит мобильные приложения. Их уже 18 штук только в Google Play [4].

И там всё такое вкусное:
- Электронный дом Москва [5] для жителей многоквартирных домов
- Учет посещаемости [6] для выполнения учета посещаемости участников занятий, проводимых в рамках программы Московское Долголетие

и ещё много всего другого. Стоит посмотреть внимательнее.

Так что берегите себя и близких и не забывайте следить за правительством Москвы, потому что оно об этом никогда не забудет.

Ссылки:
[1] https://www.kommersant.ru/doc/4575726
[2] https://www.xda-developers.com/google-apple-covid-19-contact-tracing-exposure-notifications-api-app-list-countries/
[3] https://www.xda-developers.com/google-apple-contact-tracing-coronavirus/
[4] https://play.google.com/store/apps/developer?id=%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9+%D0%B3%D0%BE%D1%80%D0%BE%D0%B4+%D0%93%D0%9A%D0%A3
[5] https://play.google.com/store/apps/details?id=ru.mos.ed
[6] https://play.google.com/store/apps/details?id=com.dit.mosdollet

#apps #privacy #covid19 #security
Какой, оказывается, законопроект по привязке IMEI телефона к ЕСИА запланировали депутаты [1].

Идеи благие, но, к сожалению, в России, от права до обязанности - один шаг. Тревожно, впрочем как обычно.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1058353-7

#privacy
Для тех кто работает с открытыми данными и хочет оценить рынок, масштаб и особенности открытых данных, я собрал подборку исследований и публикаций, а также примеров.

Международные публикации
- Open Data Goldbook for Data Managers and Data Holders [1] "золотая книга" по открытым данным подготовленная Capgemini Consulting для Еврокомиссии.
- Open Data Impact Case Studies [2] коллекция примеров успешного применения открытых данных в общественных, государственных и коммерческих проектах.
- Open Data Global Impact [3] доклад The GovLab о глобальном эффекте открытости данных
- Open Data Barometer, отчёты за 2013 год [4], 2014 год [5], 2015 год [6], 2016 год [7] и 2017 год [8] в подробностях оценки и сравнение стран
- The State of Open Data 2019 [9] об открытых данных с точки зрения цифровой науки
- Open Data: The Researcher Perspective [10] доклад Elsevier с перспективами открытых данных в научном применении. 2017 год
- Open Government Data Report [11] доклад ОЭСР за 2018 год об открытых данных государств входящих в ОЭСР
- Open Data Maturity Report 2019 [12] доклад Евросоюза о зрелости открытых данных
- Open data: Unlocking innovation and performance with liquid information [13] доклад McKinsey Global Institute с оценкой что открытые данные создают экономику в 3 триллиона долларов.
- Open data. Driving growth, ingenuity and innovation [14] публикация Deloitte 2012 года

Российские материалы:
- Открытые данные. Годовой отчет, 2015 год [15] доклад АНО Инфокультура 2015 года об открытых данных
- Экспертный доклад. Открытость государства в России за 2019 [16] и 2020 [17] годы от Счетной палаты РФ
- Оценка открытости государственных информационных систем в России Аналитический доклад [18] от Счетной палаты РФ
- Open Data Review. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [19] свежий доклад АНО Информационная культура совместно с Центром цифровых прав

Российские материалы (ретроспективно):
- Доклад о реализации концепции открытых данных, 2013 год НИУ ВШЭ и Инфокультура [20]
Ссылки:
[1] https://www.europeandataportal.eu/sites/default/files/european_data_portal_-_open_data_goldbook.pdf
[2] https://odimpact.org/
[3] https://odimpact.org/key-findings.html
[4] https://opendatabarometer.org/doc/1stEdition/Open-Data-Barometer-2013-Global-Report.pdf
[5] https://opendatabarometer.org/assets/downloads/Open%20Data%20Barometer%20-%20Global%20Report%20-%202nd%20Edition%20-%20PRINT.pdf
[6] https://opendatabarometer.org/doc/3rdEdition/ODB-3rdEdition-GlobalReport.pdf
[7] https://opendatabarometer.org/doc/4thEdition/ODB-4thEdition-GlobalReport.pdf
[8] https://opendatabarometer.org/doc/leadersEdition/ODB-leadersEdition-Report.pdf
[9] https://digitalscience.figshare.com/articles/The_State_of_Open_Data_Report_2019/9980783
[10] https://www.elsevier.com/__data/assets/pdf_file/0004/281920/Open-data-report.pdf
[11] https://read.oecd.org/10.1787/9789264305847-en?format=pdf
[12] https://www.europeandataportal.eu/sites/default/files/open_data_maturity_report_2019.pdf
[13] https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/open-data-unlocking-innovation-and-performance-with-liquid-information
[14] https://www2.deloitte.com/content/dam/Deloitte/uk/Documents/deloitte-analytics/open-data-driving-growth-ingenuity-and-innovation.pdf
[15] https://datango.infoculture.ru/dataset/309b3ad7-e530-4de4-927a-6a8cfac25114/resource/9ea74080-9fa0-4218-9c31-16e3f1199e30/download/annual_report_2015.pdf
[16] https://www.infoculture.ru/wp-content/uploads/2019/06/Otkrytost-doklad.pdf
[17] https://ach.gov.ru/upload/pdf/Otkrytost-2020.pdf
[18] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%B3%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D1%85%20%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D1%85%20%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%20%D0%B2%20%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8.pdf
[19] https://opendatareview.infoculture.ru/
[20] https://gos.hse.ru/downloads/2013/DokladOPENDATA2013.pdf

#opendata #reports #review
28 ноября на ОГФ большая совместная площадка с Роскомсвободой. Не проходите мимо, будем говорить про открытость и приватность и всё с этим связанное
Forwarded from Roskomsvoboda
Руководитель Роскомсвободы Артём Козлюк о нашей площадке на ОГФ'2020☝️

28 ноября на Общероссийском гражданском форуме мы поговорим о цифровых ограничениях и ущемлениях прав, с которыми во время пандемии столкнулись граждане всего мира.

В течение всего дня вместе с АНО «Информационная культура» мы будем обсуждать сохранение права на приватность граждан и обеспечение открытости органов власти в период всеобщей борьбы с пандемией.

❗️Регистрируйтесь на ОГФ'2020 и включайтесь в защиту своих цифровых прав!

➡️ Подробнее
UNICEF инвестирует в создание платформы MagicBox [1] которую они позиционируют как a collaborative data sharing platform и через которую, например, собирают сведения о всех школах в Колумбии и Киргизстане [2] включая расстояние до школ для жителей и с перспективой распространения проекта на весь мир.

У проекта открытый код [3] да и, в принципе, UNICEF публикует немало открытого кода [4] и ведёт его разработку как и более десятка других структур и организаций входящих в ООН.

Справочно UNICEF (ЮНИСЕФ), Детский фонд ООН - международная организация, действующая под эгидой Организации Объединённых Наций.

Ссылки:
[1] https://www.unicef.org/innovation/Magicbox
[2] https://www.unicef.org/innovation/school-mapping
[3] https://github.com/unicef/magicbox
[4] https://github.com/unicef

#opendata #un #unicef
Свежая огромная утечка паролей под названием CitoDay [1] охватывает 226.8 миллионов аккаунтов и, хотя и не является проверенной утечкой паролей [2], но пароли лучше сменить.

Для проверки паролей к своим аккаунтом можно воспользоваться сервисом "';--have i been pwned?" Троя Ханта.

А для сохранения безопасности своих паролей:
- используйте менеджеры паролей;
- используйте только сильные пароли;
- не используйте один и тот же пароль в нескольких сервисах;
- не используйте сервисы без HTTPS
- по возможности, используйте VPN во всех случаях когда это возможно

Ссылки:
[1] https://www.troyhunt.com/inside-the-cit0day-breach-collection/
[2] https://haveibeenpwned.com/FAQs#UnverifiedBreach
[3] https://haveibeenpwned.com/

#privacy #security
Очень интересный проект ВкусыРоссии [1] с продуктами уникальных вкусов по российским регионам. Я так много лет думал делать его самому, а тут бабах и узнаю что его сделали!

Ну, почти сделали. Сейчас это рейтинг в котором можно голосовать, ему не хватает навигации не только по регионам, но и по типу вкуса, жирности, типу еды (сыры, соки, сладкое) и ещё нужна карта передвижения гастротуриста, виртуальная (по интернет магазинам) и реальная по кафе и ресторанам.

В целом и частом проект прекрасный, даже несмотря на то что он не про данные. И как я понимаю делают его при поддержке Минсельхоза РФ, странно что не Ростуризма.

Ссылки:
[1] https://вкусыроссии.рф/

#food #food #food
То о чём я совсем недавно писал про новые мобильные приложения Москвы теперь в новостях официальных
Новость на сайте С.С. Собянина Электронный дом. Новый этап развития жилищного самоуправления [1] как раз про то мобильное приложение о котором я недавно писал [2]

С точки зрения сервиса для граждан, конечно, очень удобно (теоретически, посмотрим как там заработает в итоге).

А вот с точки зрения конкуренции и приватности, ну прям слов нет.
Можно ведь было обязать управляющие компании и ТСЖ выбрать сервисы с рынка по конкурсу (да, на рынке решения есть или моментально бы появились), а вместо этого прямая трата бюджетных денег и махровейший патернализм.

Каждый раз когда видишь это напрашивается вопрос. Ну зачем? И в "лучшем" (в кавычках - лучшем) случае случае - это "освоение бюджетных средств"), а в худшем осознанная политика контроля над всеми данными собираемыми в городе. А данных в таких системах будет много, очень много, а как по ним можно скоринг потом проводить - просто идеальный источник данных для банков и тд. И для социальных рейтингов, кстати, тоже.

Ссылки:
[1] https://www.sobyanin.ru/elektronnyi-dom-novyi-etap
[2] https://t.iss.one/begtin/2261

#privacy #moscow
Свежий проект от Google Labs под названием Tree Canopy (Кроны деревьев) [1] где с помощью аэрофотосъемки определяется каждое дерево и районы измеряются по проценту покрытия кронами деревьев.

Хороший пример интеграции открытых данных, спутникового мониторинга и алгоритмов для создания гиперлокальных данных по качеству жизни.
Ссылки:
[1] https://insights.sustainability.google/labs/treecanopy

#opendata #localdata
С начала пандемии орган высшего аудита США (U.S. Government Accountability Office) опубликовали 208 отчетов, рекомендаций и исследований по теме COVID-19 [1].

Например, из отчета COVID-19 Contracting. Observations on Federal Contracting in Response to the Pandemic [2] можно узнать что к середине июня власти США потратили 17.8 миллиардов долларов США на борьбу с пандемией, если измерять в рублях то это чуть менее 1,4 триллона рублей.

Из этих средств 11 миллиардов долларов было потрачено на закупку товаров (вентиляторы, маски, лекарства и тд.). А также 9.4 миллиарда долларов были потрачены без конкурентных процедур.

Ссылки:
[1] https://www.gao.gov/coronavirus/newest_covid-related_reports
[2] https://www.gao.gov/products/GAO-20-632

#audit #opendata #opengov #covid19 #spending
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] https://ruarxive.org

#webarchive #ruarxive #archival
Собрать данные легко, ты попробуй их опиши (с)

Я как-то писал что данных у нашей команды и меня лично за эти годы накопилось столько что я сам не знаю даже сколько, точно много. Большая часть этих данных - это, или большие базы данных собранные в открытых источниках, или архивные данные собираемые начиная с 2005 года.

Данные чаще всего в CSV, XML, JSON форматах и дампах баз данных.

Но руки постепенно доходят, свежие датасеты о старом:
- Состав экспертного совета при Правительстве РФ на сентябрь 2015 года [1]. Может быть интересно всем изучающим госуправление и лоббизм.
- Ежесуточные времянные ряды по выездам скорой помощи в Москве с 2004 по 2013 годы [2]. Может быть интересно для сравнительной оценки смертности и заболеваемости в ретроспективе.
- Состав кадрового резерва при Президенте РФ в 2012 году [3]. Может быть интересно всем изучающим госуправление
- Данные на основе архива блога Дмитрия Медведева с 2008 по 2011 годы [4]. Включает статистику и первичные данные постов и комментариев. Может быть интересно всем кто изучает госуправление, обучает алгоритмы анализу жалоб и тд.
- Списки послов РФ за 2013 и 2017 годы [5] Может быть интересно всем изучающим гендерную политику МИД РФ, госуправление и внешнюю политику России
- Составы комиссий и советов при Правительстве РФ и Президенте РФ за 2019-2020 годы [6]. Все изменения за этой время. Может быть интересно всем кто изучает госуправление и лоббизм

Данные все лежат на портале данных НКО (Инфокультура - НКО), это один из 2-х общественных порталов открытых данных ngodata.ru [7] относительно новый и ориентированный на публикацию НКО результатов их деятельности. В случае Инфокультуры - это открытые данные идущих проектов и архивные данные.

И второй, старый портал, Хаб открытых данных [8] честно говоря заброшенный слегка. Не обновлённый и пока не понятно что с ним делать, у него, увы, нет сейчас "владельца продукта" и он остаётся как архив.

Дальше будут и новые наборы данных. Самое сложное, всегда их документировать. Это сложно делегировать когда знание осталось только у тебя в голове или когда все данные разноформатные и с разными метаданными.

Ссылки:
[1] https://ngodata.ru/dataset/govexp-2015
[2] https://ngodata.ru/dataset/emergency-msk-2004-2013
[3] https://ngodata.ru/dataset/kadryreserv-2012
[4] https://ngodata.ru/dataset/medvedevblog-archive
[5] https://ngodata.ru/dataset/amb-2013-2017
[6] https://ngodata.ru/dataset/govcomm
[7] https://ngodata.ru
[8] https://hubofdata.ru

#opendata #portals #datasets
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
ТАСС пишет что в ближайшие 3 года МВД создаст банк биометрических данных россиян [1]. Этот банк будет входить в ранее анонсированную систему ФИСБУ (Федеральная информационная система биометрических учетов) [2] созданной на базе пилотов системы Безопасный город в г. Москве.

При этом, в последней редакции открытой части плана информатизации МВД сведения об этой информационной системе отсутствуют [3].

Неизвестно будут ли туда вносится биометрические данные всех россиян и въезжающих в страну или же только в рамках существующих учётов.

Пока информации очень мало.

Ссылки:
[1] https://tass.ru/obschestvo/10067035
[2] https://www.vedomosti.ru/society/news/2020/02/24/823676-i
[3] https://мвд.рф/mvd/documents/20120328164545/item/21625373

#mvd #govsystems #gosit
Извините, но это очень смешно. Но не только то что это произошло, а то насколько упала планка в обеспечении безопасности в условиях пандемии.

#security #fun