Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Тем временем в Филлипинах произошла утечка персональных данных о 55 миллионах избирателей https://cnnphilippines.com/news/2016/04/21/Comelec-hack-data-registered-Filipino-voters.html #privacy и стоят за этим Anonymous Philippines. Похоже что в мире набирает тренд по взлому баз избирательных комиссий.
Британская библиотека опубликовала 1 миллион изображений из своих архивов. Всё для свободного использования (public domain) и доступно через сервис Flickr https://www.flickr.com/photos/britishlibrary/ . Подробнее на сайте Британской библиотеки https://britishlibrary.typepad.co.uk/digital-scholarship/2013/12/a-million-first-steps.html , в блоге Flickr https://blog.flickr.net/en/2013/12/16/welcome-the-british-library-to-the-commons/

Этот набор фотографий - это часть проекта The Commons https://www.flickr.com/commons организованного Flickr и через который более 100 архивов по всему миру публикуют свои изображения как общественное достояние.
Открытость банков - это миф или неизбежное будущее ? https://bosfera.ru/bo/zakrytyy-mir-otkrytyh-dannyh #‎opendata
Моя статья в банковском обозрении о том что в мире постепенно развивается тема открытости банков. Единственное что я там не затронул - это то что с развитием альтернативных платежных систем банки могут просто не успеть.
Тем временем многие проекты на открытых данных связанных с бизнес информацией активно монетизируются. OpenCorporates запустили серию продуктов с базами с коммерческой информацией. Они предоставляют данные по организациям в виде датасетов. По сути - это продажа баз данных и их ежемесячного обновления. https://opencorporates.com/products #opendata
"A Political Economy Framework for the Urban Data Revolution" новое исследование от The Urban Institute посвящённое выработке последовательной политики в работе с городскими данными. В исследовании много примеров из области политической экономии и изменения практик городского управления для выработки политики для создания и анализа данных. https://www.urban.org/sites/default/files/alfresco/publication-pdfs/2016.04.26%20Political%20Economy%20of%20the%20Urban%20Data%20Revolution_FINAL.pdf #opendata #urbandata
Вышло исследование "The Effects of Income Transparency on Well-Being Evidence from a Natural Experiment" проведённое Ricardo Perez-Truglia из Microsoft Research и посвящённая эффекту от раскрытия данных о доходах, налоговых данных граждан, в Норвегии в 2001 году.

В исследовании подробно рассказывается об опросах об удовлетворенности жизнью проведенных в Норвегии с 1985 по 2013 годы.
А также упоминается, например, о том что данные о налогах граждан раскрываются в Норвегии с середины 19-го века, но тогда, это было в виде публикаций в газетах, то сейчас в виде специального сайта.

Также в исследовании есть тезис что современные норвежцы чаще ищут декларации друг друга чем видео на Youtube.

Публикация https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2657808
#opendata #transparency
О АРХИВАХ САЙТОВ МВД и ФМС

Думал на майских успеть сделать копии сайтов упраздняемых агентсв. ФСКН получается, Росфиннадзор получается, а вот с ФМС беда.

Вместо их сайта https://www.fms.gov.ru/ теперь заглушка с перенаправлением на сайт МВД.

Силовики вообще мастера заметать следы в публичном пространстве. Не могу забыть как в 2011 году МВД уничтожило одномоментно все официальные сайты УВД субъектов и создало новые в поддомене mvd.ru. Все архивы с отчетами чтобы были доступны просто исчезли.

Это всё о том как к информации относятся российские госорганы. Так как будто они тут ненадолго.

Только ЦБ РФ архивирует документы с 1998 года и сохранил сайты ФСФР https://cbr.ru/finmarkets/?PrtId=archive

Но это уникальная ситуация, большая часть других всё или многое уничтожают без архивации при смене сайта или орг реформах.

Какие ещё ресурсы надо срочно архивировать? Пишите мне на @ibegtin. Также я продолжаю искать тех кто поможет мне создать интерфейс над уже накопленными архивами сайтов за последние лет 5
Голландский Гринпис опубликовали утечку из более половины проекта соглашения между США и Евросоюзом https://www.ttip-leaks.org/ так называемое TTIP соглашение (Transatlantic Trade and Investment Partnership).

После чего 1-го мая выпустили пресс-релиз https://www.greenpeace.org/international/en/press/releases/2016/Leaked-TTIP-documents-confirm-major-risks-for-climate-environment-and-consumer-safety/ в котором обращают внимание на то что соглашение ограничивает исследования по изменению климата, снимает принцип евросоюза по допуску еды на рынки только после проверки, снимает несколько приниципов защиты окружающей среды

Arstechnica обращает внимание https://arstechnica.co.uk/tech-policy/2016/05/ttip-to-fail-leak-reveals-us-isds-gmos-demands/ что не только окружающая среда, но и многие технологические аспекты подозрительны в этом соглашении. Например, телекоммуникационные компании получают право игнорировать европейское законодательство о чём пишет группа EDRi после исследования соответствующего раздела TTIP https://edri.org/breaking-ttip-leaks-confirm-dangers-for-digital-rights/

После панамских бумаг и многих малых утечек очень похоже на то что этот год превзойдёт все предыдущие по вытаскиванию правды на свет. Всё тайное стало очень тяжело сохранять тайным.

#privacy #digitalrights
Полный архив Panama Papers ещё недоступен, но то что ранее публиковали уже активно переводят в наборы данных

И вот наборы данных по панамским бумагам
- в CSV https://github.com/amaboura/panama-papers-dataset-2016
- данные для Neo4J https://www.thereportertimes.com/panama-papers-icij-offshore-leaks-database-documents/23489/

И самое главное. База https://offshoreleaks.icij.org со всеми засвеченными при утечке организациями.

Думаю что 1-2 недели и найдутся активисты которые переделают её в наборы данных

#opendata #opengov #panamapapers
для тех кто ищет данные с исчезающих сайтов госорганов и правоохранительных органов в частности на хабе открытых данных теперь есть группа данных которая так и называется "Архивы сайтов правоохранительных органов России"
https://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #‎opendata #‎opengov #‎webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на [email protected]
Моя статья в РБК «Темная сторона открытости: почему не все данные стоит раскрывать» https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f о том какие данные можно и какие наоборот рискованно публиковать. Для многих неожиданность когда я выступаю в амплуа не открытости, а рисков открытости. Хотя в мире как раз всё так и устроено и вопросы персональных данных всегда идут рядом с вопросами открытости. Правильный баланс и гибкое управление рисками при раскрытии информации это необходимое условие. #opendata #privacy
В Исландии пиратская партия выходит в парламентские лидеры с 36% поддержкой со стороны избирателей. В Arstechnica гадают какое будущее Исландию ждёт https://arstechnica.co.uk/tech-policy/2016/05/icelandic-pirate-party-snowden-whistleblowers/

Теперь высока вероятность что Исландия предоставит гражданство Эдварду Сноудену, о чём уже говорили представители Пиратской партии, и то что там начнут внедрять прямую демократию, полную декриминализацию наркотиков и 35 часовую рабочую неделю.

Ещё один вероятный результат - это внедрение в Исландии идеи Transparency Haven https://en.immi.is/immi-resolution/ с защитой для журналистов по всему миру.

За этим не только интересно будет пронаблюдать, но и всё больше хочется в этом принять участие #opendata #privacy
«Гниение ссылок» (Reference rot) - это важная проблема работы с научной и юридической информацией на которую обращают внимание Гарвардские исследователи в статье «Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations» https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2329161

Более 70% в журналах на которые ссылаются авторы электронных статей устаревают. Дословно:
«We documented a serious problem of reference rot: more than 70%
of the URLs within the above mentioned journals, and 50% of the
URLs within U.S. Supreme Court opinions suffer reference rot —
meaning, again, that they do not produce the information originally
cited.»

И это коллосальная проблема связанная ещё и с регулярным обновленеим ПО официальных сайтов многих государственных органов. Все они забывают о «ссылочной целостности» при этих операциях. И не только в США, но и в России. #opendata #archives
Тем временем в Калифорнии принимают закон о переводе всех результатов работы госорганов под копирайт. Об этом пишут в Electronic Frontier Foundation https://www.eff.org/deeplinks/2016/04/ab-2880 это затрагивает все виды документов и материалов: отчёты, карты, аудио и видео

В Калифорнии уже был случай когда городской округ Inglewood подали в суд за нарушение копирайта на одного из жителей который загрузил видео с критикой мэрии на основе одного из роликов городского совета https://www.latimes.com/opinion/opinion-la/la-ol-inglewood-copyright-lawsuit-20150602-story.html

Проблема копирайта как цензура становится всё более актуальной и открытость государства постоянно подвергается рискам что этой открытости существовать осталось недолго #opengov #opendata
О том что сейчас происходит с открытостью данных в России на примере портала открытых данных Москвы.
Чтобы понять какая текущая ситуация в России с открытыми госданными стоит взглянуть на один из лучших (из российских) порталов - портал Открытых данных Москвы data.mos.ru
За большими средствами на его создание, рекламную кампанию, современным дизайном скрывается всего-ничего - 463 набора данных из которых более 100 - это "справочная информация" из органов власти https://data.mos.ru/opendata?categoryId=21&IsActual=true по 3-10 строки в каждом наборе данных.
Есть ли в городе данные которые можно было бы открыть? Сложно ли это сделать?
Только поверхностный анализ выявляет более 10 тысяч только Excel файлов со всевозможными реестрами, справочниками, статистикой и перечнями опубликовали департаменты и учреждения Москвы за эти годы. Реально же их большее количество поскольку многие файлы Excel находятся внутри ZIP архивов и их оттуда надо вытаскивать.
Все они могут быть, могли бы быть, сконвертированы в открытые данные в сравнительно короткие сроки. При неспешной, аккуратной работе 1 человека и 20 минутах на один набор - по 24 набора данных могли бы добавляться ежедневно.
И это, напомню, не какие-то новые данные, а те что уже публиковались ранее и то что не требует дополнительных согласований. Это простая, постоянная рутинная работа которую никто не делает.
Та же ситуация в большинстве, если не во всех, российских регионах и в органах власти. Те наборы данных опубликованные в рамках "обязательного списка" - это толика в море реально доступных данных которые могли бы быть переведены в машиночитаемый вид.
У федералов ситуация не лучше ни коим образом. Федеральный портал на котором у многих ведомств вообще ничего не опубликовано, а уже если говорить про опубликованное то он не выполняет ни функций агрегатора, нет и половины регионов, ни функций по консолидации открытых данных ФОИВов.
В итоге и по сей день большую часть ключевых данных те кому они нужны собирают скрейпингом или преобразованием Excel'вских реестров.
#‎opendata #‎opengov
О том как работать в связке «открытые данные - персональные данные» можно увидеть на примере Administrative Data Research Network в Великобритании https://adrn.ac.uk/ это государственный проект на базе университета Эссекса в котором исследователи получают доступ к детальным персонифицированным, но деперсонализированным данным таким как перепись, реестры новорожденных, базы пациентов, базы учителей включая их результативность и многое другое.

Эти данные персонифицированы - это означает что они предоставляются не в агрегированном виде. Каждая запись представлена как есть, за исключением, и это оговаривается явно, персональных данных. Из каждой записи удаляются: ФИО, адрес, национальные идентификаторы.

При этом, даже после деперсонализации, эти данные сохраняют высокий риск повторной идентификации человека (re-identification) и по этой причине доступ к ним предоставляется только после одобрения заявки и только со специальных терминалов в нескольких университетах.

А для того чтобы исследователи могли понять какие данные в принципе есть в наличии, каждый набор данных детально описан и его описание всегда доступно онлайн. И там же конкретные примеров результатов на основе этих данных https://adrn.ac.uk/research-projects/case-studies/

#opendata #opengov #privacy
Hitachi Consulting вместе с мэрией Копенгагена создали Сity Data Exchange (https://www.citydataexchange.com) , специальный сайт для продажи, покупки, распространения наборов данных. Туда они загрузили первые 56 наборов данных и рассчитывают на то что бизнес и органы власти будут не только публиковать данные, но и формировать общую экосистему продавая те данные которые имеют коммерческую ценность.

При этом, на сегодняшний день, портал больше похож на маркетинговую брошюру чем на полезный инструмент. Hitachi очень постарались в его визуальной упаковке, маркетинге. Например, их описание проекта https://www.hitachiinsightgroup.com/en-us/pdf/solution-profile/hitachi-solution-profile-city-data-exchange.pdf , статьи и прочие материалы о Умных городах https://www.hitachiinsightgroup.com/en-us/smart-cities.html Но реальность далеко не столь радужна.

Первые пользователи пишут о портале https://blog.ldodds.com/2016/05/21/first-impressions-of-copenhagens-city-data-exchange/ в нелицеприятном свете. Отмечая:
- неудобство работы
- то что данные взяты с портала открытых данных и помещены под закрытую лицензию
- то что API отделено от самих данных

Сама идея создания универсальной инфраструктуры имеет смысл, но качество и акценты в реализации также важны.

Итоговые впечатления о портале можно будет сделать где-то через полгода после того как станет понятно будет ли готов бизнес использовать его для продажи своих данных.

И, на закуску. Цифра в 1,511,028,278 bytes of data которую трансилируют они на главной странице - это, всего лишь, 1,5 гигабайта данных. Очень скромно по современным меркам. Ровно тот случай когда «высасывание из пальца» маркетинговых цифр сразу портит всё впечатление.

#opendata #opengov #smartcity