Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Многочисленные напоминания и в них приходится отходить от стилистики выноса ссылок в конец поста.

1. Прием заявок на конкурс BudgetApps продлен до 5 ноября https://www.facebook.com/budgetappsru/ и https://budgetapps.ru подробности. Еще есть время доделать недоделанное и улучшить неулучшенное!

2. Мы регулярно проводим мероприятия в DataSreda https://datasreda.ru/ в котором интересные лекторы рассказывают об открытых данных и тому как ими пользоваться. Акцент на темах близких к медиа и СМИ, но главное - на данных, не только открытых, кстати, но и данных социальных сетей. Совместный проект НИУ ВШЭ, Инфокультуры и SocialDataHub

3. Мой канал в телеграме https://t.iss.one/begtin посвящен темам данных, госуправления и современных технологий. То о чем я пишу можно обсудить в чате https://t.iss.one/begtinchat

4. Обратите внимание на раздел "Приложения" на проекте КГИ Госзатраты https://clearspending.ru/apps/ мы добавляем туда новые и если у Вас есть проекты именно на данных Госзатрат или его API - присылайте нам и мы добавим его туда в раздел и разрекламируем. Любой проект использующий API - всячески приветствуется. Готовы продвигать рекламировать и не только. Если мы упустили Ваш проект - не стесняйтесь, пишите нам на [email protected]

5. В нашем проекте "Открытая полиция" в последний год многое сдвинулось от открытости данных к понятности, но вопрос открытости тоже не исчез. Если у Вы знаете интересные данные правоохранительной системы и готовы нам их скинуть - пишите нам на [email protected]

6. В специальном репозитории мы собираем задачи на открытых данных которые могут помочь Вам лучше разобраться в том как они устроены - https://github.com/infoculture/datatasks/issues
Если у Вас наоборот, есть задачи которые Вы бы хотели предоставить другим - пишите на [email protected] или в телеграм на https://t.iss.one/ibegtin

7. В репозиториях https://github.com/infoculture/awesome-opendata-rus и https://github.com/infoculture/awesome-datajournalism мы собираем ссылки на все ресурсы по открытым данным на русском языке и по дата журналистике. Ищите интересное для себя и предлагайте новое что там не упомянуто.

8. Хаб открытых данных - наш огромный репозиторий данных https://hubofdata.ru поможет найти данные которых там нехватает. Он обновляется реже чем нам бы хотелось и мы готовы партнерствовать со всеми кто готов выгружать оттуда данные и загружать свои. Пишите на [email protected] или https://t.iss.one/ibegtin

Я не упомянул еще о десятках проектов и ресурсов создаваемых нами и нашими друзьями и партнерами. Так что еще не раз буду делать эти регулярные напоминания.

#opendata #opengov #openpolice
Для тех кто любит работать с данными, интересуется открытыми данными и работает в области кибербезопасности, отличный awesome list посвященный теме машинного обучения в кибербезопасности [1].

Я бы выделил отдельно, база вредоносных урлов [2], база лаборатории в Лос Аламо [3].

Также не могу не упомянуть Censys.io [4], крупнейшую общедоступную базу с открытыми данными по киберинфраструктуре - IP адресам, веб серверам и не только.

Ссылки:
[1] https://github.com/jivoi/awesome-ml-for-cybersecurity
[2] https://sysnet.ucsd.edu/projects/url/
[3] https://csr.lanl.gov/data/
[4] https://censys.io/

#opendata #cybersecurity
От Knights Foundation вышло большое исследование "Scaling civic tech" [1] посвященное развитию гражданских технологий.

Поскольку термин не четкий, с самого начала исследований они уточняют что
Civic tech: Technology used to inform, engage and connect residents with government and one another to advance civic outcomes.

Что по русский означает что: "Гражданские технологии: Технологии используемые для информирования, вовлечения и взаимодействия граждан с органами власти и друг с другом для развития социального эффекта".

Исследование интересное и не пропустите в нем раздел "Landscape analysis: Open data and transparency" [2] посвященный открытым данным.


Ссылки:
[1] https://knightfoundation.org/features/civictechbiz
[2] https://knightfoundation.org/features/civictechbiz#step-12

#opendata #opengov #civictech
Open Knowledge International (OKI) выиграли грант от Open Data Institute (Великобритания) на создание Open Data publication toolkit [1]

Фактически это будет набор инструментов и стандартов по публикации открытых данных в удобных форматах.

Всячески могу посоветовать следить за результатами их работы, OKI невероятно круты в создании подобных инструментов. Многие из их продуктов, такие как CKAN, используются по всему миру.

И, конечно, нельзя не посетовать на российские доморощенные методические рекомендации Минэкономразвития по публикации открытых данных. Они устарели уже более 4 лет назад, но внутри государства сейчас нет сильного драйвера работы с открытыми данными. Открытое правительство вместо методической работы, занимается не пойми чем, а с остальными центрами притяжения в области госданных не сильно лучше.

Ссылки:
[1] https://blog.okfn.org/2017/10/31/oki-wins-funds-from-odi-to-create-open-data-publication-toolkit/

#opendata #opengov #oki
Вот, видите! Их профессура готова к бою, а наша только и может смотреть в микроскопы и бабочек ловить! (с) Дежавю, фильм, 1989 г.

В США прямо сейчас проходит большой конкурс с Hidden Signals Challenge[1] с призовым фондом в 300 тысяч долларов и посвященный выявлению биоугроз и с большим объемом открытых научных и иных данных для этой задачи [2].

Конкурс проводит US Department of Homeland Security, так похожий на российские аналогичные службы безопасности и охраны граждан. Можно только удивиться готовности их органов безопасности вовлекать общество в совместное решение важнейших проблем и неготовность российских к аналогичной работе.

Ссылки:
[1] https://www.hiddensignalschallenge.com/
[2] https://www.hiddensignalschallenge.com/additional-resources/

#opendata #opengov
Вчера, 2 ноября, в США офис доходов от национальных ресурсов Департамента внутренних дел подписал о выходе США из соглашения EITI (Extractive Industries Transparency Initiatives) созданного для раскрытия информации о доходах, налогах и деятельности организаций добывающих природные ресурсы, а также анонсировали закрытие проекта. Причем выход происходит с большим числом оговорок о том что США поддерживают инициативу, о том как это важно, но, тем не менее, выходят из организации из-за "несоответствия ее требований и законодательства США". Подробнее об этом в публикации на сайте Publish what you pay us [1], организации продвигающей стандарт EITI [2] в мире и в США.

Сейчас EITI охватывает 52 страны [3], а также существует множество связанных с ним инициатив охватывающих другие области финансовой деятельности добывающиз компаний. Часть из них приведена на проекте Extract-a-fact [4].

Из них я бы выделил такие проекты как:
- Resource Contracts [5] - A directory of Petroleum & Mineral Contracts
- Resource Projects [6] - A repository of open-source data on oil, gas and mining projects
- OpenOil [7] - imagine an open oil industry...

Все эти проекты созданы, в том числе, используя данные раскрываемые в рамках EITI странами и отдельными компаниями.

К вопросу о теме, в России она актуальна не менее, если не более. Но нет, Россия не участвует в EITI и других проектах по прозрачности добывающего сектора.

Я даже не могу представить себе чтобы кто-то сейчас решился и сделал бы такой проект в России и о России, слишком уж много тут личных рисков возникает. Но мало есть чего-то более актуального чем эта тема.

Ссылки:
[1] https://www.pwypusa.org/pwyp-news/trump-administration-further-erodes-us-leadership-on-combatting-corruption/
[2] https://eiti.org
[3] https://eiti.org/countries
[4] https://www.extractafact.org/data-tools.html
[5] https://www.resourcecontracts.org/
[6] https://www.resourceprojects.org/
[7] https://openoil.net/

#opendata #opengov #realdata #gaz #oil #extractives
Всемирный банк выпустил отчет о том как в течении 5 лет они развивают Открытые данные по всему миру [1]. Отчет написан в позитивном жанре и рассказывает о 45 странах где Всемирный банк продвигает эту тему. Россия там тоже есть с упоминанием Ульяновской области и федеральных инициатив в 2012 году. Правда вот о том что было после 2012 года они не пишут, но это и понятно почему.

Отчет, в любом случае, прочитать стоит чтобы хотя бы быть в курсе происходящего

Ссылки:
[1] https://blogs.worldbank.org/opendata/five-years-investments-open-data

#opendata #opengov
На какие каналы стоит подписаться тем кто любит читать про данные?

1. Mapporn - https://t.iss.one/mapporn визуализация на картах, схемах и в виде инфографики
2. Городские данные - https://t.iss.one/urbandata про данные города, ведет Андрей Кармацкий. Всячески рекомендую
3. Дата публикации - https://t.iss.one/data_publication канал про журналистику данных от Андрея Дорожного
4. Open Data Science - https://t.iss.one/opendatascience автор неизвестен, тема открытость данных в научном применении
5. Картинкамация https://t.iss.one/kartinkamaciya - много инфографики

Если вы знаете другие интересные каналы про данные, визуализацию, открытость гос-ва и не только - пишите мне на @ibegtin или в чат @begtinchat

#opendata #telegram
Как человек не только говорящий про открытые данные, но и работающий с ними я могу сказать что, конечно, полнота и качество до сих пор самые критичные проблемы.

Вот важнейшие из них:
1. На многих разделах официальных сайтов и порталах данные не обновляются по 2 года и даже более.

2. Многие данные не содержат полных реквизитов и атрибутов, опубликованы в обрезаном виде. Например, нет кодов ОГРН/ИНН организаций и, в результате, данные по организациям требуют ручного сопоставления.

3. Многие ключевые данные не публикуются. Например, торговые реестры публикуются в открытом доступе далеко не везде, а в машиночитаемом виде так вообще в ограниченном числе регионов. К примеру, в Москве торговый реестр открытыми данными не является, а в Санкт-Петербурге он публикуется на сайте профильного управления в формате Excel

4. Видно что не ведется работа по систематизации данных. В большинстве регионов, ФОИВах и тд, она была проведена пару-тройку лет назад и с тех пор не повторяется. У многих госпорталов есть недокументированное API, или же публикуются открытые данные, но в порталы открытых данных они не включены

5. До сих пор часто проще написать "парсер данных" с веб страниц, чем выгружать их в машиночитаемых форматах в виду ошибок в данных мешающих их разбору.

6. Есть хорошие, но сложные примеры публикации больших наборов данных. Когда организация публикует каждый раз многогигабайтный XML файл полного дампа базы. Это гораздо удобнее чем выгружать парсером сотни тысяч записей, но тяжело в обработке каждый раз разбирать и сопоставлять с прошлой версией.

7. "Кривые API" порталов открытых данных. Большая часть разработчиков порталов пытается подавать их еще и как хранилища и данные загруженные туда, как правило, Заранее приведены в плоскую табличную форму хранимую внутри базы данных и экспортируемую пользователю по запросу. Но сделано это, чаще неудобно. К примеру, API портала открытых данных Санкт-Петербурга data.gov.spb.ru не синхронизовано с веб-интерфейсом.

Через API можно обращаться к базе данных и получать структуру полей, но там используются внутренние идентификаторы баз данных, а веб интерфейсе есть возможность получить сразу набор данных в форматах для экспорта, но используются другие идентификаторы. В итоге проще разбирать веб-интерфейс

В API data.mos.ru есть не только ошибки экспорта, но и оно в принципе плохо документировано в части, опять же выгрузки файлов которые у них разделены между выгрузкой через EHD хранилище и ссылками на файлы которые указываются в паспорте набора данных. В паспортах указана только выгрузка данных в ZIP'ованных XLSX файлах.

Эти смысловые и технические нюансы лишь одни из многих, ограничивающих использование данных.

Появление порталов открытых данных и публикации данных вообще лишь отчасти облегчило жизнь тем кто работает с ними, создает собственные проекты, коммерческие и общественные.

Пока я могу сказать что если говорить про объем данных, то в одном только портале bus.gov.ru Минфина опубликовано больше данных чем на всех порталах открытых данных субъектов федерации вместе взятых

Я считаю что тема открытых данных требует в России перезагрузки. Как и когда, я надеюсь мы узнаем это этой осенью, вне зависимости от того будут ли новости радостные или печальные.

#opendata #opengov
Региональное неравенство в 2016 году:

1. Расходы бюджета Москвы (как субъекта) больше, чем расходы бюджетов 42 регионов или 3 федеральных округов.

2. Расходы бюджета Московской области больше расходов бюджета Санкт-Петербурга. ТОП-5 регионов: Москва, Московская область, Санкт-Петербург, Татарстан и Краснодарский край.

3. На 47 регионов приходится 20% всех региональных расходов, на оставшиеся 39 - 80% (86-ой субъект - это г. Байконур).

4. Расходы бюджета Москвы больше, чем региональные расходы любого федерального округа за исключением ЦФО (в который она входит)
HM Land Registry в Великобритании опубликовало набор данных с 3 миллионами записей о владении частными компаниями землей и имуществом [1]. Сам набор данных можно посмотреть по ссылке [2]. Безусловно он поспособствует журналистким расследованиям которые активно развиваются в последние годы именно на данных о владении компаниями, землей и иным имуществом

Ссылки:
[1] https://www.gov.uk/government/news/hm-land-registry-makes-commercial-ownership-data-free
[2] https://www.gov.uk/guidance/hm-land-registry-commercial-and-corporate-ownership-data

#opendata #uk
В блоге OGP публикация о том как в странах с высоким доходом снижается доверие граждан к государству [1]. Это как еще одно подтверждение того что сама идея и идеология открытости государства идет от государства, а не от технологий. Это скорее попытка/попытки политиков адаптировать новые механизмы доверия к собственной деятельности.

Отчасти это и ответ на вопрос почему идея открытости государства получила ограниченное развитие в России. Доверие слишком сложная концепция в ситуациях неравного диалога власти и граждан и бизнеса.

Ссылки:
[1] https://www.opengovpartnership.org/stories/gathering-of-high-income-countries-address-declining-trust-government

#opendata #opengov
Анализ социальных затрат и результатов открытых данных - исследование на голландском языке по данным Нидерландов [1].

Много интересного, особенно много полезных ссылок на другие исследования и материалы.

Кстати, в TU Delft много и других публикаций именно по открытым данным [2] многие из которых на английском языке.

Ссылки:
[1] https://repository.tudelft.nl/islandora/object/uuid:b34165f8-7a62-431f-8b20-6120cafc6ae8
[2] https://repository.tudelft.nl/islandora/search/subject%3A%22open%255C%2Bdata%22
#opendata #europe
Открытые данные - это не только общественное достояние, но и складывающийся рынок сервисов по обеспечению прозрачности.

На сегодняшний день, можно сказать что в мире его делять 3 основных игрока:
- OpenGov [1]
- Socrata [2]
- OpenDataSoft [3]

OpenGov - это изначально проект по SaaS сервисам открытости бюджетов/расходов, а теперь и предлагающий создание порталов открытости, открытых данных.

Socrata - это один из наиболее давних игроков на рынке публикации данных, со своей платформой и сервисами по визуализации. Они охватывают значительное число штатов в США и множество стран.

OpenDataSoft - это французский стартап который сейчас вышел на американский рынок и сразу с заявкой на охват 500 городов в проекте Open Data America [4]

Если сравнить их по объему инвестиций, то Socrata смогли привлечь 54,5 млн. USD [5], OpenDataSoft 6.5 млн. USD [6], а OpenGov все 80 млн. USD [7]

При этом все они конкурируют, в основном, с бесплатными решениями такими как CKAN, DKAN и другими открытыми продуктами для каталогов открытых данных.

Сейчас все еще трудно предсказать в какую сторону будет развиваться рынок сервисов для открытых данных - консолидации данны на национальном уровне, платформ для разработчиков или как-то иначе, но можно говорить о наличии компаний вполне успешно зарабатывающих на их использовании.

И это только те кто создает инфраструктуру, без учета значительного большего и куда сложнее измеримого сектора пользователей открытых данных.

Ссылки:
[1] https://opengov.com
[2] https://socrata.com/
[4] https://statescoop.com/french-startup-piloting-open-data-portals-for-500-u-s-cities
[5] https://www.crunchbase.com/organization/socrata
[6] https://www.crunchbase.com/organization/opendatasoft
[7] https://www.crunchbase.com/organization/opengov

#opendata #opengov
Для тех кто мог упустить - 25 ноября пройдет Общероссийский гражданский форум [1] программа которого стала доступна онлайн и Вы там можете обнаружить секции про открытость государства и открытые данные и многое другое не менее интересное.

Мой день там будет очень плотно расписан, но немного свободного времени тоже будет, если Вы захотите меня там выловить - лучше напишите заранее.

И, кстати, зарегистрироваться еще не поздно зарегистрироваться, завтра последний день регистрации - не пропустите его!

[1] https://www.civil-forum.ru
[2] https://www.civil-forum.ru/forums/2017/programm/
[3] https://2017.civil-forum.ru/

#opendata #opengovernment #civicforum
О том как на базе данных делают работу исследователи-журналисты данных в публикации Paul Bradshow [1]

Он разбирает 4 истории:
1. Анализ 300 тысяч песен из MusicNotes и выявление певцов с наиболее широким диапазоном голосом и публикация в The Mirror [2]
2. She Giggles, He Gallops (Она хихикает, он скачет). Гендерные диалоги в фильмах [3] , исследование Julia Silge с анализом более 2000 диалогов из фильмов с выявлением гендерных стереотипов.
3. Исследование BuzzFeed по теннисным матчам [4]
4. ... и работа David Robinson о том как и кто публикует твиты Дональда Трампа [5], вплоть до выявления времени когда больше вероятности что твит написал он сам и когда, наоборот, пишут его помощники.

И у того же Paul Bradshow есть отличная публикация о том как делать красивые графики прямо в тексте используя шрифт AtF Spark [6]. Я пока не видел ни одного российского издания которое бы его использовало. Так что это может быть забавной фичей. Подробнее о шрифте и его создателях у них на сайте [7]

Ссылки:
[1] https://medium.com/@paulbradshaw/introducing-computational-thinking-to-journalists-23d7c260ef16
[2] https://www.mirror.co.uk/news/uk-news/singer-best-vocal-range-uk-4323076
[3] https://pudding.cool/2017/08/screen-direction/
[4] https://www.buzzfeed.com/johntemplon/how-we-used-data-to-investigate-match-fixing-in-tennis?utm_term=.xyqaBVVBXJ#.jxYYaMMaXp
[5] https://varianceexplained.org/r/trump-tweets/
[6] https://medium.com/@paulbradshaw/how-to-use-the-atf-spark-font-to-create-charts-with-just-text-6925b978fed3
[7] https://aftertheflood.co/projects/atf-spark

#opendata #datajournalism