Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Ещё одна актуальная задача для волонтёров в том чтобы собрать данные с портала data.gov.ru и сделать библиотеку/инструмент доступа для R или Python. [1]

Задача очень простая. Я бы даже сказал чрезвычайно и должна занять не более пары дней.
Учитывая что data.gov.ru [2] это свалка не меньше чем наш общественный портал hubofdata.ru [3] то надо нам:
1. Собрать оттуда данные
2. Архивировать собранное
3. Анализировать качество и тд.

Нам нужны данные о данных потому что пришла пора понять - насколько/хорошо плохо с ними поставлена работа и что с этим дальше делать.

#opendata #opengov

Ссылки:
[1] https://github.com/infoculture/datatasks/issues/57
[2] https://data.gov.ru
[3] https://hubofdata.ru
В США бюро переписи населения выпустило специальную программу [1] для учителей и школьников старших классов помогающую в освоении статистики на базе предметов уже идущих в школе.

В разделе «Statistics in Schools» [2] на сайте переписи собраны задачи по математике и истории. Очень простые задачи для школьников любого возраста, сразу готовые под то чтобы их распечатать как учебные материалы. Они включают игры, карты, инфографику, инструменты поиска информации, то как объяснить как устроена перепись и многое другое.

Хорошая инициатива в том как готовить специалистов владеющих навыками работы с данными прямо со школы.

Ссылки:
[1] https://www.commerce.gov/news/blog/2016/09/us-census-bureau-unveils-new-statistics-schools-program-new-website-provides-data
[2] https://www.census.gov/schools/

#opendata #opengov #openeducation
"Мы не ждём открытые данные, мы сами их создаём" (c)

Для всех кто любит работать данными, кто ищет данные или же хочет помочь, выступить волонтёром, ещё один небольшой, но важный проект по сбору задач по web scraping (извлечению данных из веб сайтов).
Web scraping - это когда нет данных для удобной выгрузки и приходится писать специальные программы для извлечения данных из HTML.

Вот тут описание - https://github.com/infoculture/scrapetasks
А вот тут список задач - https://github.com/infoculture/scrapetasks/issues

Эти задачи не заменяют, а дополняют наши задачи для хакатонов - https://github.com/infoculture/datatasks/issues
Но задачи для хакатонов претендуют на некоторую законченность, а работа с данными не создаёт ничего кроме скриптов и данных. Но может помочь и
Вам и многим другим в будущих проектах.

Как всегда - если нехватает времени написать подробную задачу - напишите мне со ссылкой на текущий онлайн ресурс/сайт и я сделаю для него отдельную задачу там же.

(Со мной можно связаться через чат к этому каналу https://telegram.me/begtinchat или через телеграм напрямую https://telegram.me/ibegtin)

#opendata #opengov #scraping
В 2011 году я начал писать книгу «Открытое государство» о том как открытость государства (государственного управления) устроена и о том откуда она происходит и как должна реализоваться. В то же время и в России началось «Открытое правительство», а также я много усилий посвятил практическим проектам таким как «Госзатраты» и «Открытая полиция» в итоге после нескольких подходов книгу я всё откладывал, надеясь пополнить живыми примерами через год-два.

Но увы, к нынешнему 2016 году всё поменялось настолько что уже написанные главы требуют вдумчивого переписывания, а новое не покажет российскую практики открытости в лучшем свете. За очень редким исключением.

Привожу ту главу которая остаётся неизменной - это глава «Термины»
——
ВЕЛИКОБРИТАНИЯ 1993 ГОД. ПЕРВЫЙ ОФИЦИАЛЬНЫЙ ДОКУМЕНТ Одно из самых первых серьёзных и детально раскрытых определений Открытости государства содержится в документе 1993 года, в докладе герцога Ланкастера в главе 1 и пункте 1.1: “1.1 Открытое государство - это часть эффективной демократии. Граждане должны иметь адекватный доступ к информации и анализу на основе которого государство работает. Министры и публичные служащие обязаны разъяснять их законы, решений и действия общественности. Государство, тем не менее, нуждается в том чтобы хранить некоторые секреты и обязано защищать личную жизнь тех кто кем оно управляет.” «Open Government» Presented to Parliament by the Chancellor of The Duchy of Lancaster By Command of Her Majesty July 1993 В том же документе это неоднократно раскрывается и я приведу еще несколько выдержек оттуда же из главы 4, пункт 4.3: “4.3 Ключевыми условиями для того чтобы положения данного документа были уставлены являются: - четкая формулировка принципов на которых информация может быть доступна; - четкая формулировка условий на которых информация может быть оправданно сокрыта; - обособленный, авторитетный и независимый контроль” Оригинал: https://www.official-documents.gov.uk/document/cm22/2290/2290.pdf Две этих коротких выдержки вполне четко определяют что такое открытое государство. Открытость – это в первую очередь доступ к информации, пусть и с некоторым оговорками которые здесь упомянуты. Двинемся дальше.
УЭЛЬС 2002 ГОД. МИНИСТР ОТКРЫТОГО ГОСУДАРСТВА Выступление министра открытого государства Уэльса Карвина Джонса. … Создание открытого государства – это большое испытание, но намерение в том чтобы администрация достигла целей и превзошла требования Законодательство о свободе информации (Freedom of Information legislation). Наши цели амбициозны и испытывающие, но наш выбор искренен… Оригинал: https://new.wales.gov.uk/newsroom/businessandeconomy/2002/4027277/?lang=en В этом определении мы можем увидеть еще более точную формулировку и она раскрывается через так называемые законы свободы доступа к информации FOI (Freedom of Information)
OECD POLICY BRIEF (ПУБЛИКАЦИИ ОЭСР) 2005 ГОД С точки зрения общественности, открытое государство, то, где бизнес, общественные организации и граждане могут: • “знать” – получать релевантную и понимаемую информацию; • “приобретать” – получать сервисы и взаимодействовать с государством; • “создавать” – принимать участие в процессе принятия решений. Принципы хорошего управления – прозрачность и подотчетность; честность и равенство; действенность и результативность; уважение к закону; и высокие стандарты этичного поведения – представляют основу того на чем построено открытое государство. Оригинал: https://www.oecd.org/dataoecd/1/35/34455306.pdf На сей раз определение становится шире и в нем можно увидеть, как тех на кого открытое государство ориентировано – бизнес, общественные организации и граждане и то что является его неотъемлемой частью – доступ к информации (“знать”), эффективность (“приобретать”) и вовлечение (“создавать”). Даже с оглядкой на то что ОЭСР – это международная организация с акцентом на экономике, безусловно это определение достаточно хорошо чтобы его можно было бы использовать и сейчас.
ВЕЛИКОБРИТАНИЯ 2007 ГОД. ИНФОРМАЦИОННЫЙ КОМИССАР РИЧАРД ТОМАС
В одном из выступлений в 2007 году к теме открытости государства обратился информационный комиссар Великобритании, Ричард Томас. Если общество сейчас в большинстве видит пользу от большей открытости, позвольте мне обратится к отражению глубоких конституционных, законодательных, политических и административных размышлений приводящих к тому что открытое государство это безусловно хорошее государство. Возможно есть презумпция раскрытия информации, но, свобода информации, в значительной степени, это возможность применения конкретных исключений и взвешивание конкурирующих общественных интересов. Это неизбежно, что линии границы все еще прочерчиваются. Оригинал: https://www.ico.gov.uk/upload/documents/library/freedom_of_information/research_and_reports/northumbria_text.pdf Это то что можно назвать наиболее осторожным определением. При том что в Великобритании довольно давно считается что свобода доступа к информации – это хорошо, однако в всегда существуют оговорки по открытию той информации что составляет государственную тайну. А также существуют ограничения на публикацию личной информации, то что называют персональными данными. Соблюдение баланса интересов различных групп общества – это, пожалуй, один из наиболее важных аргументов в дискуссиях об открытости в зарубежных странах. И вот здесь я сделаю небольшое отступление и обращусь к другому термину упомянутому в этом. Хорошее государство или Good Government можно раскрыть и как хорошее или надлежащее управление.
ЕВРОПЕЙСКОЕ УПРАВЛЕНИЕ. GOOD GOVERNANCE. 2001 ГОД Этот термин, Good Governance или, на русском языке, “Надлежащее управление”, был упомянут и подробно раскрыт в официальном документе Европейского союза под названием “European Governance”. Что это такое раскрывается в следующих принципах: • Открытость. Институты должны работать в более открытой манере. Вместе со странами участниками они должны активно взаимодействовать о том что ЕС делает и какие решения принимает. Они должны использовать язык которые доступен и понятен широкой общественности. Это особенно значимо по в целях улучшения доверия сложным институтам. • Участие. Качество, соответствие и эффективность стратегий ЕС зависят от того насколько мы широко участие по всей цепочке принятия решений — от концепции до реализации. Улучшение в участии ведет к большему доверию к конечному результату и Институтам проводящим политику. Участие зависит от центральных правительств включающих подобных подход при разработке и реализации политик ЕС. • Подотчетность. Роли законодательного и исполнительного процесса требуют большей ясности. Каждый из Институтов ЕС должен разъяснить и взять ответственность за то что они делают в Европе. Однако также требуется большая ясность и ответственность от входящих стран и всех кто вовлечен в разработку и внедрение политик ЕС на любом уровне. • Эффективность. Политики должны быть эффективными и своевременными, представляя то что необходимо основываясь на ясных целях, оценке последующего эффекта и, где возможно, прошлом опыте. Эффективность также зависит от реализации политик ЕС в пропорциональной манере и принятии решений на наиболее подходящем уровне. • Слаженность. Политики и действия должны быть согласованными и легко понимаемыми. Необходимости согласованности в Союзе возрастает, число задач растет, увеличение влечет рост разнообразия таких как климатические и демографические изменения по границам и секторальные политики на которых Союз основан; региональные и местные власти все более вовлекаются в политики ЕС. Согласованность требует политического лидерства и сильной ответственности в части Институтов для уверенности адекватного подхода к комплексным системам. Источник: https://eur-lex.europa.eu/LexUriServ/site/en/com/2001/com2001_0428en01.pdf ДЕКЛАРАЦИЯ ПАРТНЕРСТВА ОТКРЫТЫХ ПРАВИТЕЛЬСТВ. НАШИ ДНИ.
Пройдя через все определения выше мы наконец-то приходим к тому что же происходит в мире сейчас. Все те принципы что звучали ранее, в разных формах и подробностях нашли свое отражение в документе партнерства открытых правительств (Open Government Partnership). Эта международная организация была создана в сентябре 2011 года как раз с целью развития открытости стран. Обратимся к её декларации.
— Мы признаем что люди по всему миру требуют большей открытости от государства. Они призывают к большему участию граждан в публичных отношениях, ищут пути к тому чтобы сделать их государства более открытыми, ответственными, подотчетными и эффективными. Мы осознаем что страны находятся на разных стадиях в их усилиях по распространению открытости в государстве и каждый из нас выбирает подход соответствующий нашим национальным приоритетам и условиям и пожеланиям сограждан. Мы принимаем ответственность в участии в усилении нашего вклада для распространения прозрачности, борьбы с коррупцией, вовлечении граждан и использовании мощи новых технологии для обеспечения государства более эффективным и подотчетным. Мы поддерживаем ценности открытости в нашем взаимодействии с гражданами для улучшении услуг, управления общественными ресурсами, распространении инноваций и создания безопасных сообществ. Мы видим принципы прозрачности и открытости государства в целью достижения большего процветания, качества жизни и человеческого достоинства в наших собственных странах и все более объединенном мире. Источник: https://www.opengovpartnership.org/sites/www.opengovpartnership.org/files/page_files/OGP_Declaration.pdf У этого безусловно важного документа есть лишь один недостаток – многие определения открытости там установлены как данность, они не раскрыты и предполагается что все мы под открытостью понимаем что-то одно и этот термин сам означен. —
Василий Гатов в FB написал хорошо связанные сжатые предложения [1] о том как можно изменить/трансформировать медиа в России.

Я бы, честно говоря, только ими не ограничивался. Есть отдельные, не менее важные аспекты такие как:
- региональная и муниципальная материальная поддержка СМИ;
- государственное владение и регулирование инфраструктурой и общими ресурсами необходимыми для работы широковещательных СМИ;
- декриминализация работы журналистов.
Реформа медиа так или иначе будет связана другими давно назревшими реформами.
Например, предположим что будет трансформация налоговой и бюджетной политики и больше средств будет оставляться на региональном и муниципальном уровнях власти. К чему это приведёт? В первую очередь к усилению расходов губернаторов и мэров на "PR-сопровождение". Достаточно вспомнить резкий рост расходов на СМИ от Администрации Сахалинской области [2].

Другой пример - РТРС [3] - "федеральная сеть башен" и разрешения на частоты для радио и телевещания. Да, постепенно не-Интернет СМИ будут ослабевать, но их влияние всё ещё велико и государство имеет рычаги владения на них владея всей инфраструктурой их вещания.

Третий пример - использование "Роскомнадзора" как дубины против онлайн СМИ. Самоцензура - это вполне действенный механизм когда есть что терять. А потерять можно сейчас довольно быстро, например, в случае блокировки сайта СМИ хотя бы на несколько дней.

Ссылки:
[1] https://www.facebook.com/prinzip/posts/10155235573249689
[2] https://rg.ru/2015/03/10/gubernator.html
[3] https://rtrs.ru

#spending #government
Какими визуальными инструментами пользоваться тем кто хочет анализировать данные всерьёз и для практической цели ?

Вот краткий список:
- Orange - https://orange.biolab.si/
- Rapidminer - https://rapidminer.com
- R Analytic Flow - https://r.analyticflow.com/
- R Studio - https://www.rstudio.com/
- Deducer - https://www.deducer.org/pmwiki/pmwiki.php
- Alterix - https://www.alteryx.com/ (платное)
- Microsoft R Server - https://www.microsoft.com/en-us/cloud-platform/r-server (платное)
- Daidaku DSS - https://www.dataiku.com/ (платное)

#opendata #data #datamining
В рамках проекта GODAN (Global Open Data in Agriculture & Nutrition) - глобальные открытые данные в сельском хозяйстве и потреблении еды выходит всё больше интересных материалов о международной кооперации в области данных.

Команда The Engine Room [1] в лице Lindsay Ferris и Zara Rahman подготовили брошюру Responsible Data in Agriculture [2] о востребованности и особенностях открытых данных в сельском хозяйстве и производстве и потреблении еды.

Исследователи Dean Allemang и Bobbin Teegarden из Working Ontologist [3] подготовили документ A Global Data Ecosystem for Agriculture and Food [4] с акцентом на интеграцию данных создаваемых в многочисленных исследовательских центрах.

И от Jeremy de Beer из Университета Оттавы документ «Ownership of Open Data: Governance Options for Agriculture and Nutrition» [5] о том кто и как владеет открытыми данными и как необходимо менять законодательство и международные соглашения чтобы это изменить.

На сегодняшний день России и стран постсоветского пространства нет в этом проекте ни в какой форме. Проект был запущен в 2013 году на саммите OGP и существует в форме 5 летнего проекта с общим бюджетом в $6.5 миллионов долларов на при 5 постоянных позициях. Финансирование обеспечивают: Правительства США и Великобритании и группой межгосударственной и международных организаций [6]. Все это происходит в партнёрстве с 380 организациями по всему миру [7]

Из интересных результатов я бы уже отметил VEST Agroportal Map of Standards [8] и Agroportal [9], каталоги стандартов работы с данными в сельском хозяйстве. Можно увидеть как сельское хозяйство претерпевает те же изменения что и биология ранее. Биология разделилась на «мокрую» и «сухую» в которой существенное место заняло биоинформатика. Сейчас большие данные и принципы биоинформатики формируют сельхозинформатику или агроинформатику и новую профессию agricultural data scientist [10].

Ссылки:
[1] https://www.theengineroom.org/
[2] https://www.godan.info/documents/responsible-data-agriculture
[3] https://workingontologist.com/
[4] https://www.godan.info/documents/data-ecosystem-agriculture-and-food
[5] https://www.godan.info/documents/ownership-open-data-governance-options-agriculture-and-nutrition-0
[6] https://www.godan.info/pages/resources-and-financing
[7] https://www.godan.info/partners
[8] https://vest.agrisemantics.org
[9] https://agroportal.lirmm.fr
[10] https://www.indeed.com/q-Agriculture-Technology-Platform-Data-Scientist-jobs.html

#opendata #opengov #nutrition #agriculture
На днях произошла интереснейшая утечка большого объёма данных - структуры доменной зоны сайтов Северной Кореи [1] включающей множество ссылок на существующие веб-сайты в этой стране, включая сайты корпораций, госорганов и университетов.

Удалось это из-за некорректно настроенных доменных серверов что удалось узнать автору утечки во время своего проекта TLDR [2] (A Continuously Updated Historical TLD Records Archive).

Чем это закончится внутри самой кореи - кто знает, а вот посмотреть на некоторые их интернет ресурсы - очень интересно.


Ссылки:
[1] https://github.com/mandatoryprogrammer/NorthKoreaDNSLeak
[2] https://github.com/mandatoryprogrammer/TLDR

#opendata #internet #northkorea
Сегодня на Радио Метрикс эфик про открытые данные и большие данные с моим участием - https://www.youtube.com/watch?v=_C-JeQ_GHIc

В этот раз, как и уже часто в последнее время, вопросы возникают не только по открытости данных в принципе, но и про персональные данные, те данные которые нельзя раскрывать и не только.

#opendata #opengov
Минкосвязи России анонсировало появление портала «Безопасные дороги» [1] с картой и большим объёмом данных по происшествиям на дорогах. Портал любопытный, это впервые происходит так что выкладывается подобный объём гиперлокальных данных. Это позволит не только проводить исследования по качеству дорожной обстановки, но и создать множество интересных визуализаций для журналистов и сопоставлять цифры с данными официальной статистики.

Тут важно напомнить и про появление другого похожего портала от ГИБДД [2] сравнительно недавно, однако с меньшим объёмом данных о происшествиях.

Могу лишь добавить что вскоре мы (скорее всего я лично) выложим переработанный набор данных который должен быть удобнее для пользователей чем то что было представлено на сегодня.

Ссылки:
[1] https://minsvyaz.ru/ru/events/35738/
[2] https://stat.gibdd.ru

#opendata #opengov
Минкомсвязи+МВД предоставили данные по авариям на дорогах на портале безопасныедороги.рф, но данные которые там опубликованы категорически неудобны для работы. Это один гигантский JSON файл в гигабайт.

Публикую набор данных на данных по ДТП с их сайта в котором сделаны следующие изменения:
- добавлены геометки
- добавлен дамп в BSON (формат для загрузки в MongoDB)
- добавлена выгрузка в JSON с каждым объектом как отдельной строкой
- добавлена выгрузка по всем субъектам федерации по отдельности - можно теперь анализировать данные только по выбранной области. С той оговоркой что у половины данных по ДТП нет привязки к региону и есть только адрес, надо будет в будущем проделать работу по распознаванию региона (геокодированию). Это не очень сложно, оставляю пока как факультативную работу.

Ссылка на набор данных:
- https://hubofdata.ru/dataset/roadcrash

Ссылка на данные и, далее код, на github'е - https://github.com/infoculture/transport-data

Все данные публикуются в открытом репозитории.

#opendata #opengov
Recode пишут [1] про массивную утечку данных более чем 200 миллионов пользователей Yahoo начиная с 2012 года. Информация об этом, просочилась ещё в августе [2] когда хакер с ником «Peace» начал продавать их в «тёмном вебе» за $1800. А теперь Yahoo официально подтвердили эту утечку.

Данные содержат логины, даты рождения, адреса электронной почты и легко расшифрованные пароли пользователей.

Это уже не первая крупная утечка ведущих сервисов для пользователей - ранее подобные случались у MySpace и LinkedIn.

Ссылки:
[1] https://www.recode.net/2016/9/22/13012836/yahoo-is-expected-to-confirm-massive-data-breach-impacting-hundreds-of-millions-of-users
[2] https://motherboard.vice.com/read/yahoo-supposed-data-breach-200-million-credentials-dark-web

#hacking #data #leaks #darkweb #yahoo
Для разнообразия, в этот раз дайджест актуальных новостей, а не отдельные новости по теме открытых данных.

О том как сделать так чтобы data.gov.uk стал лучше, пишет Owen Botswarva в своём блоге критикуя текущую реализацию и дефицит политической поли у Британского правительства
https://mapgubbins.tumblr.com/post/150404545090/how-to-fix-datagovuk-or-at-least-make-it-suck

На него ссылается Phil Archer из блога W3C предлагаю свои идеи для реализации в порталах на откртыых данных
https://www.w3.org/blog/2016/09/just-how-should-we-share-data-on-the-web/

The Atlantic пишет о проблемах у Sunlight Foundation и о их вкладе в открытость
https://www.theatlantic.com/technology/archive/2016/09/sunlight-sunset/501071/

О судьбе Sunlight Labs появился пост в их блоге. Всё не то чтобы радужно. Всё меньше становится civic tech идущих не от государства
https://sunlightfoundation.com/blog/2016/09/21/whats-next-for-sunlight-labs/

Ролик 5 years of OGP на Youtube с обзором о том что было сделано в OGP за 5 лет
https://www.youtube.com/watch?v=ab_oi-NJGJo

Пилотный проект по краудсорсингу в Агентстве по статистике Канады начнётся 17 октября 2016 года.
https://www.statcan.gc.ca/eng/crowdsourcing

Краудсорсинг конституции Европы в статье Deutche Welle
https://www.dw.com/en/crowdsource-europe-wants-people-to-write-their-own-constitution/a-19549472

#opendata #opengov
Где получать больше новостей про открытые данные? Откуда я собираю их сам?

1. Основной источник информации для меня - это созданный автоматический сервис Open Government Daily https://opengovdaily.com на базе Paper.li - простой и полезный источник автоматически собираемых новостей

2. Open Governmeny Daily в Scoop.it https://www.scoop.it/t/opengovdaily - это похожий проект на базе сервиса куда можно отправлять ссылки и сайты из разных источников и автоматически собираемые. Я забросил его с июня месяца, но периодически проверяю рекомендуемые сервисом новости.

3. Там же в Scoop.it у меня есть множество подписок на темы про данные и открытые данные https://www.scoop.it/u/ivan-begtin/followed-topics и там множество сервисов на которые можно подписаться за новостями.

4. Аналогично через сервис Nuzzel https://nuzzel.com/ibegtin практически все на кого я подписан в Twitter занимаются открытыми данными и доступны через этот сервис. Похоже на Paper.li

Это не полный список, но это наиболее автоматизированные сервисы. Ну а про открытые данные на русском языке - можно подписаться на мой канал в Telegram - https://telegram.me/begtin

(вопросы можно задавать мне через чат к этому каналу в Telegram https://telegram.me/begtinchat)

#opendata #opengov