Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В блоге Гугл интересный обзор текущего состояния журналистики данных [1]. Что характерно, исследование было довольно обстоятельно, они сделали 56 глубоких интервью и в 900 ньюсрумах в 4-х странах провели опросы.

Главный тезис - теперь "Дата журналистика" это и есть журналистика.

Главные выводы:
- 14% журналистов используют данные ежедневно
- 42% журналистов используют данные не менее 2-х раз в неделю
- более 50% журналистов не считаю что журналистика данных требует специальных навыков
- а среди журналистов работающих в области технологий таких более 70%
- более 50% респондентов указали что у них есть журналисты работающие именно с данными (dedicated data journalists)
- более всего журналистика данных используется для визуализаций связанных с политикой и с финансами
- более 2/3 дата историй во Франции создаются не дольше 1 дня
и так далее.

Подробнее можно узнать в отчете в PDF [2].

Ссылки:
[1] https://www.blog.google/topics/journalism-news/data-journalism-2017/
[2] https://newslab.withgoogle.com/assets/docs/data-journalism-in-2017.pdf

#opendata #opengov #datajournalism
Обратите внимание на проект "Our world in data" [1] в нем собрано много данных из баз всемирного банка [2], ООН [3] и многих других источников.

В то же время там используется гибридная модель - совмещения лонг-рида, инфографики и интерактивных таблиц и научной формы подачи материала.
Получается проект более похожий на укороченные научные статьи с хорошей визуализацией чем относительно привычные лонг-риды.
У интерактивных визуализаций в проекте открытый код [4].

Это один из примеров проектов который может быть источником вдохновения для тех кто хочет создать что-то свое.
Например, что-то близкое по форме подачи, но про Россию и ее регионы.

Ссылки:
[1] https://ourworldindata.org/
[2] https://data.worldbank.org
[3] https://data.un.org
[4] https://github.com/owid/owid-grapher
#opendata #visualization
Регулярное напоминание про множество всего что мы в Инфокультуре делаем

1. Идет конкурс BudgetApps на который есть еще чуть более месяца для подачи заявок - https://budgetapps.ru Идеи для проектов собраны нами тут https://github.com/infoculture/budgetapps/issues/ и наверняка есть у Вас!

2. Мы проводим опрос про открытые финансовые данные - прошу не полениться и потратить 10 минут https://ru.surveymonkey.com/r/BVKG6B2

3. Многочисленные идеи по проектам которые можно создать на открытых данных мы собрали в специальном репозитории на Github https://github.com/infoculture/datatasks/issues

4. 28 сентября мероприятие "Наркопреступления" о том как анализируются данные по преступности в этой сфере https://www.facebook.com/events/305274293274711/?fref=ts

5. Рассылка Инфокультуры - это хороший способ узнавать наши новости заранее https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

6. Очень много открытых данных мы накопили в хабе открытых данных https://hubofdata.ru - это проект который давно существует и который мы планируем развивать далее.

#opendata #opengov
О секретах популярности языка Python в сентябрьском исследовании от StackOverflow [1]. В качестве спойлера - главная причина в pandas [2], проекте поддерживаемом NUMFocus [3], организации поддерживающей качественные open source проекты полезные для науки.

В исследовании Stack Overflow это хорошо заметно, значительный прирост пользователей у Python происходит из аудитории "Academics" - это преподаватели, студенты и исследователи из университетской среды. Что и говорить, pandas - это отличный продукт по работе данными и полезный для любых задач анализа и обработки данных.

Ссылки:
[1] https://stackoverflow.blog/2017/09/14/python-growing-quickly/
[2] https://pandas.pydata.org/
[3] https://www.numfocus.org/open-source-projects/

#opendata #python #data
Вчера на одном совещании повесткой было было "а нужно ли вообще открытое правительство" после мая 2018 года. Не буду говорить где был разговор, но как минимум один федеральный министр там присутствовал.

В прошлом году я писал статью близкую к этой теме [1].

И подумываю написать свою позицию более развернуто однажды. Может быть даже в виде статьи.

Пока же сформулирую тезисы:
1. Текущие функции "министерства по открытому правительству" можно разделить на те которые относятся к деятельности в сфере общественных связей и к характеристикам основного, базового правительства.

2. Открытость не может быть "чужеродным наростом" системы государственного управления. Это характеристика, атрибут, "цифрового правительства", а не некая субстанция рядом.

3. Деятельность в направлении общественных связей - это, по сути, роли "министра по взаимодействию с гражданским обществом" или "министра по общественным связям". Нужна ли такая роль в будущем кабинете министров - я судить не берусь. Возможно, не повредит, но к открытости она имеет малое отношение.

4. Открытость основного правительства не может быть выделено в функцию/орган/проектный офис. Это доктрина которая должна быть неотъемлимой характеристикой государственного управления.

5. Реальности такова что в ближайшие годы (возможно десяток лет) Россия не вступит в ОЭСР, не вступит в Open Government Partnership, не исполняет G8 Open Data Charter (Хартии открытых данных Большой восьмерки) и не участвует в Хартии Открытых Данных (Open Data Charter). Иначе говоря - есть очень малое число международных обязательств в рамках которых может существовать сама доктрина открытости государства.

6. Но она существует, поскольку это явление которое лишь описывает запросы общества и бизнеса на взаимодействие с государством. Потребность в нем гораздо более фундаментально чем сам термин "открытость" который мы употребляем.

7. Лично у меня много претензий к открытому правительству в части слабой и неэффективной госполитики по открытым данным, но и я не уверен что его отсутствие сделает мир проще, лучше и тд.

8. Могу лишь точно сказать что чтобы ни пришло ему на смену - это не может быть очередное лоббистской структурой. Лишь прозрачность финансирования, деятельности, принятия решений и последовательность в этом - способно вызвать доверие гражданского и экспертного сообществ.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910

#opendata #opengov
В рубрике "их нравы" хочу отметить публикацию в блоге Sunlight Foundation о том как меняются государственные информационные ресурсы в США и как с них исчезает информация [1]. В Sunlight Foundation разработали классификацию того как чиновники удаляют информацию [2].

По их оценке это происходит следующими способами:
1. Изменение или удаление текстов и другого контента
2. Изменение или удаление ссылок
3. Перемещение целой страницы или коллекции страниц или установление редиректов
4. Изменение или удаление значимой секции веб-страницы или коллекции веб-страниц
5. Удаление целой страницы или документа
6. Удаление сайта целиком
7. Изменение или удаление веб-порталов пригодных для поиска
8. Изменение или удаление наборов данных

В посте много примеров и ссылок для тех кто хочет подтверждений.

Ссылки:
[1] https://sunlightfoundation.com/2017/10/04/classifying-changes-to-public-access-to-information-on-us-government-websites/
[2] https://sunlightfoundation.com/wp-content/uploads/2017/10/How-to-classify-changes-to-government-websites.pdf

#opendata #opengov #digitalpreservation
Совсем свежая новость - Президентская библиотека занялась созданием сетевого архива [1] и архивирует многочисленные государственные сайты с 2017 года.

Теперь я не могу утвержать что наш проект "Национальный цифровой архив" Инфокультуры [2] является единственным, но пока еще могу говорить что он является единственным открытым поскольку пока Президентская библиотека нигде не анонсировала доступа к этим накопленным архивным данным.

В любом случае - это хорошая новость и я рад что мои разговоры на конференциях и с библиотечным сообществом как-то подтолкнули коллег.

Я могу сказать что для архивации данных самое главное - это инфраструктура и методика. Я очень надеюсь что коллеги расскажут об этом подробнее. Есть много проектов кроме нашего кто хотел бы сформировать партнерство в сохранении современного цифрового наследия.

Ссылки:
[1] https://www.prlib.ru/news/689438
[2] https://archive.infoculture.ru

#digitalpreservation
В рубрике "Вы меня не спрашивали, но я отвечу (с)"

Один из результатов работы экспертного совета при Генпрокуратуре РФ - это утвержденная концепция цифровой трансформации [1]

Экспертный совет принимал участие в ее проработке и теперь это, насколько я знаю, это первый подобный документ принятый органом власти в России.

Там много специфичного именно для правоохранительной системы и тем важнее что эта трансформация начинается уже сейчас.

Ссылки:
[1] https://genproc.gov.ru/documents/orders/document-1253244/

#digitalgov
627.pdf
475.1 KB
Новости в мире открытых данных одним обзором:

1. Решение Совета ЕС о публикации документов в формате открытых данных [1] на их портале открытых данных Евросоюза [2]. Кстати, не все знают что у Евросоюза 2 портала открытых данных. Второй выступает как агргератор [3]

2. Крупнейший кооператив Великобритании планирует опубликовать информацию о более 4000 грантах выданных им местным сообществам [4]. Раскрытие будет происходить через портал 360Giving [5] где уже раскрывают данные о грантах десятки фондов.

3. Transparency Int и МИД Франции проводят совместный конкурс: Цифровой и прозрачный [6] по использованию открытых данных по противодействию коррупции. Представить себе подобное в России, пожалуй, невозможно. Не обязательно с Transparency, но по сути российская политика по противодействию коррупции пока далека от вовлечения граждан.

4. Французский кадарстр теперь доступен в формате GeoJSON, о чем пишут в блоге Etalab [7] и сам кадастр можно скачать с французского государственного портала открытых данных [8]


Ссылки:
[1] https://www.consilium.europa.eu/en/press/press-releases/2017/10/09-open-data-digital-services/
[2] https://data.europa.eu/euodp/en/data/publisher/consil
[3] https://www.europeandataportal.eu/
[4] https://blog.coop.co.uk/2017/10/09/were-sharing-data-on-our-co-ops-support-for-local-causes/
[5] https://www.threesixtygiving.org/about/
[6] https://www.transparency.org/prix-num%C3%A9rique-et-transparence
[7] https://www.etalab.gouv.fr/service-public-de-la-donnee-les-donnees-du-cadastre-sont-maintenant-disponibles-sur-data-gouv-fr
[8] https://www.data.gouv.fr/fr/datasets/cadastre/

#opendata #opengov
У нас есть такой особый жанр мероприятий - называется open data sprint. Это формат при котором мы готовим очень конкретные и четкие задания участникам и просим в течении 1 дня сделать как можно больше этих заданий от начала и до конца.

Побеждает тот кто лучше и быстрее сделает проекты по этим задачам.

Формат очень хорошо работает когда задачи четкие и конкретные. А они у нас такие и будут. В общем - это как спортивное программирование. Но, часто задачи с визуализацией и не только.

Я приглашаю всех кто не участвовал - приходить и поучаствовать, но прошу не приходить "просто посмотреть". Тут надо будет не смотреть, а очень и очень быстро оттачивать навыки:)

Записаться можно тут https://budget-apps.timepad.ru/event/591219/ и 15-го числа приходить.

#opendata #opengov #budgetapps
Обзор новостей открытых данных:

1. Большая коллекция инструментов по открытости государства, открытым данным и цифровизации государства на OGP Toolbox [1]. Более 1300 инструментов собрано от более чем 560 организаций.

2. В KyivPost публикация "Kateryna Onyiliogwu: Open Data in Ukraine – the good, the bad and the ugly?" [1] о состоянии открытых данных на Украине. Уникальных инсайдов нет, все как везде - есть те кто за, те кто сопротивляется и общее низкое качество данных.

3. Open Data Privacy Playbook [3] книга была опубликована еще в феврале 2017, полезна для всех кто занимается продвижением идеи открытости данных. Посвящена ограничениям приватности которые часто возникают при открытии наборов данных.

4. Книги опубликованные в США между 1923 и 1941 годах теперь будут публиковаться в открытом доступе в Archive.org [4]

5. Для тех кто ищет международные данные список - Awesome public datasets [5]

Ссылки:
[1] https://ogptoolbox.org/en/
[2] https://www.kyivpost.com/article/opinion/op-ed/kateryna-onyiliogwu-good-bad-ugly-developments-open-data.html
[3] https://cyber.harvard.edu/publications/2017/02/opendataprivacyplaybook
[4] https://blog.archive.org/2017/10/10/books-from-1923-to-1941-now-liberated/
[5] https://github.com/caesar0301/awesome-public-datasets

#opendata #opengov #privacy
Наконец-то мы можем анонсировать проект над которым давно работали и работать продолжаем - это проект Открытые НКО https://openngo.ru в котором собраны все данные по НКО, пока по финансам НКО, которые у нас были собраны за это время.

Там пока далеко не все данные и далеко не весь заявленный функционал, но очень многое уже сделано.

А вот тут презентации о проекте, об открытости НКО и о том как мы работали с данными для этого проекта https://komitetgi.ru/news/news/3468/
Будут вопросы, предложения и так далее - пишите на [email protected]

#opendata #opengov
С некоторым запозданием, но все же надо анонсировать.

Чуть меньше чем через час я буду вести вебинар [1] по бюджетам, субсидиям, госконтрактам и другим данным, а завтра в это же время буду рассказывать про налоговые и таможенные данные.

Я буду рассказывать о том как использовать данные сразу со многих точек зрения.

Рассказывать буду в интерактивном режиме, показывая как работать с теми или иными онлайн ресурсами.

Это вебинары про то "где-найти-нужные-мне-данные".
Будет полезно всем кто хочет что-то интересное делать на финансовых данных.

Ссылки:
[1] https://www.facebook.com/events/1146986132099492/

#opendata #opengov
В Эстонии маленькая-большая криптокатастрофа

Из за выявленной уязвимости в генераторе случайных чисел библиотеки RSA огромное число систем требуют обновления, а ведь некоторые используются, например, для идентификации граждан. Обо всем этом пишет Arstechnica в статье "Millions of high-security crypto keys crippled by newly discovered flaw" [1] где упоминается и необходимость перевыпуска 750 тысяч идентификационных карточек в Эстонии и другие последствия.

Ссылки:
[1] https://arstechnica.com/information-technology/2017/10/crypto-failure-cripples-millions-of-high-security-keys-750k-estonian-ids/

#privacy #security
Комиссия по ценным бумагам (SEC) в США предлагает превратить корпоративные страницы с документами в данные [1]. Это касается не только финансовых, но и нефинансовых данных об организациях. Тут можно вспомнить что SEC одним из первых агентств внедряло открытые данные в свою работу и доступность многочисленной корпоративной информации была обеспечена благодаря публикации базы EDGAR много лет назад [2]

Ссылки:
[1] https://www.datacoalition.org/sec-proposes-to-transform-corporate-cover-pages-from-documents-into-data/
[2]https://www.sec.gov/edgar.shtml

#opendata #opengov
Немного политоты в канал.
Актуальная сегодняшняя новость в том что Генеральная прокуратура не выявила нарушений закона в процессе создания фильма "Матильда", его финансирования и получения прокатного удостоверения [1] . Что немаловажно мы узнаем что депутат Наталья Поклонская сумела написать целых 43 депутатских запросов в Генпрокуратуру.

И тут то возникает небезинтересный вопрос, а сколько запросов и куда направляют наши депутаты? Не секрет что с ослаблением законодательной власти запросы являются одним из главных ресурсов в арсенале депутатов. Не пора ли Госдуме задуматься о собственной прозрачности и публиковать все без исключения запросы депутатов во все органы власти.

Кстати, для тех кто не знает, у Госдумы еще с 2012 года есть открытое API, с 2012 года не обновлявшееся [2] содержащее информацию о деятельности депутатов. К сожалению какое-либо дополнительной раскрытие информации об их деятельности с той поры не ведется.

Ссылки:
[1] https://www.interfax.ru/russia/583748
[2] https://api.duma.gov.ru/

#opendata #opengov
Не только в России у больших государственных систем могут отсутствовать резервные копии. База наличных и имущества в виде доказательств в департаменте полиции Нью-Йорка (NYPD) оказалась в центре скандала с выявившейся ситуацией отсутствия резервной копии [1].

Ситуация выяснилась во время судебного разбирательства [2] по запросу о свободе доступа к информации от Bronx Defenders, некоммерческой группы заинтересовавшейся исследованием содержания этой базы, однако в NYPD сослались на техническую сложность предоставления такого доступа

Об этой системе Property and Evidence Tracking System (PETS) писали еще год назад [3] и тогда выянилось что NYPD не могут даже подсчитать объем изъятых наличных которые они хранят. При том что сама система основана на SAP ERP в Capgemini [4] и на нее было потрачено 25.5 миллиона долларов с 2009 по 2012 годы (1 миллиард 453,5 миллиона рублей по курсу ЦБ на 20.10.2017) и резонный вопрос в том как же возникла вся эта ситуация.

Если у вас есть интересные материалы по открытым данным, данным вообще и цифровизации госуправления, пишите мне на @ibegtin или в чат @begtinchat и я включать их в обзоры.

Ссылки:
[1] https://arstechnica.com/information-technology/2017/10/nypd-database-that-tracks-seized-evidence-and-cash-has-no-backup/
[2] https://www.courthousenews.com/no-forfeiture-database-backup-millions-line-nypd-admits/
[3] https://arstechnica.com/information-technology/2016/09/nypd-cant-count-cash-theyve-seized-because-it-would-crash-computers/
[4] https://www.capgemini.com/fr-fr/wp-content/uploads/sites/2/2017/07/nypd_successfully_implements_property_and_evidence_tracking_system_0.pdf b

#opendata #opengov