Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
К вопросу о проектах и гиперлокальных данных и о том что можно сделать в тех случаях когда они доступны.
Вот, пример, проект по анализу состояния здоровья жителей Южной Каролины (США) https://healthyinsight.org/dashboard.html

Авторы - несколько крупных федеральных НКО в США занимающиеся проблемами здравоохранения. Они взяли около десятка наборов данных переписи, исследований ожирения, баз торговых точек здоровой едой и junk food и подсчитали множество рейтингов и не только с детализацией по муниципалитетам и округам переписи.

Зачем? Зная о проблемах в муниципалитетах можно далее знать какие приоритеты расставлять в помощи их жителям.
И да, ожирение - это, конечно, проблема приоритетная в США больше чем в других странах, но подобных подход применим и ко многим другим темам.

Например, хотите измерить качество жизни в регионах ? Можно считать дистанцию до ближайшей больницы в километрах или часах.

#opendata #opengov
Кстати, для тех кто хочет знать как правильно должна быть организована работа по сервисам для граждан и раскрытию открытых данных - обратите внимание на сервисы Комитета по правовой статистики Республики Казахстан [1]
и особенно на раздел криминальной статистики

где в виде Excel файлов раскрываются формы статистической отчётности

Данные криминальной статистики - это данные о качестве жизни. Не менее значимые чем, например, данные по качеству образования. И тут Казахстан нас обгоняет. В Казахстане официально доступна муниципальная статистика по качеству образования с детальностью до районов [3] пока в отчётах на сайте Министерства образования, но и хотя бы так.

А на сайтах отдельных департаментов образования областей эти данные есть в виде рейтинга школ. Пример: город Алма-ты [4], есть в в других городах и областях.

С текущим уровнем раскрытия данных у открытого правительства Республики Казахстан гораздо больше шансов занять высокую позицию в рейтинге открытых данных о качестве жизни если такой будет когда либо создан, например, нами в Инфокультуре.

Ссылки:
[1] https://service.pravstat.kz/portal/page/portal/POPageGroup/MainMenu
[2] https://service.pravstat.kz/portal/page/portal/POPageGroup/Services/Pravstat
[3] https://edu.gov.kz/ru/analytics/regionalnaya-obrazov-0
[4] https://dep.edualmaty.kz/ru/ent/30-itogi-ent

#opendata #opengov #kazakhstan
Российское федеральное правительство выпустило правила общественного обсуждения миллиардных закупок [1] в которых подробно прописаны механизмы того как технологически это должно происходить [2]. С одной стороны нельзя не приветствовать любые дополнительные механизмы и способы обеспечения публичности государственного заказа, с другой стороны.

Ключевая проблема во всей этой истории и всё регулировании миллиардных закупок в том что большинство граждан и даже наиболее образованные из них неспособны охватить их целиком. Большая часть контрактов по строительству, ремонту дорог или закупке фармпрепаратов настолько обложены нормативными документами что надо либо их знать, либо быть готовыми к тому что на любой здравомыслящий комментарий найдутся эксперты которые докажут что вот именно так и только так можно было проводить эту закупку.

Граждане, рядовые граждане, гораздо легче воспринимают суммы близкие к их пониманию и закупки связанные именно с их жизнью. Например, москвичей куда больше интересовали бы закупки затрагивающие изменение их инфраструктуры вроде городской программы «Мой город», жителей других городов не менее интересует благоустройство территорий, ремонт их домов, строительство школ или ремонт больниц и многое другое что влияет на качество жизни их именно там где они живут.

Миллиардные контракты такого влияния практически не оказывают или их влияние настолько размазано по стране что желающих давать свои замечания может просто не найтись.

Я считаю что механизмы общественного обсуждения, а ещё точнее «народной экспертизы закупок», должны быть массовыми. Они должны охватывать не только и не столько крупнейшие контракты, сколько все контракты касающиеся качества жизни граждан. Они должны охватывать не только стадию закупки, но и исполнения контракта. Мы, как граждане, должны иметь возможность добиваться от господрячиков гарантированного качества работ во всех случаях когда это касается создания и поддержания общественной инфраструктуры.

Ссылки:
[1] https://government.ru/docs/24288/
[2] https://government.ru/media/files/xl0P4TAANnmJB3AbnPwNopoFy9CYhiPn.pdf

#opendata #opengov #procurement
Пришла пора делать регулярные обзоры _негосударственных_ открытых данных. Начнём с данных затрагивающих крупные компании, открытость науки и робототехнику.

Ещё в марте 2016 года одна из исследовательских команд Google выложила набор данных с результатами обучения роботизированного распознавания предметов в виде наборов [1] и открытого кода для TensorFlow [2]. Подробнее о самих данных в публикации в блоге Google Research [3].
Публикация данных даёт не только возможность воспроизведения исследований, но и инвестиции в сообщество которое может на основе этих данных проводить собственный анализ.

Ссылки:
[1] https://sites.google.com/site/brainrobotdata/home
[2] https://www.tensorflow.org
[3] https://research.googleblog.com/2016/03/deep-learning-for-robots-learning-from.html

#opendata #openscience #google
В Kaggle, возможно наиболее известном сервисе соревнований алгоритмов на базе данных, появился раздел «Datasets» [1] с большим числом наборов данных, большая часть которых негосударственные, а собраны исследователями, предоставлены компаниями или энтузиастами. Например, данные с по футбольным матчам в Европе [2] или данные по кредитам выданным через Lending Club [3] или многое другое что каждый может найти для себя самостоятельно.

Ссылки:
[1] https://www.kaggle.com/datasets
[2] https://www.kaggle.com/hugomathien/soccer
[3] https://www.kaggle.com/wendykan/lending-club-loan-data

#opendata #datasets #contests
Буквально месяц назад, в июле 2016 года вышел доклад THE DATA ACT Vision & Value [1] опубликованный Data Foundation [2] посввящённый принятом в США в 2014 году The Digital Accountability and Transparency Act (DATA) [3]. Этот закон состоит из поправок к закону от 2006 года Federal Funding Accountability and Transparency Act (FFATA)[4] который в 2006 году прописал требование к созданию единого портала отчётности всех федеральных агентств США на портале USASpending.gov [5].

Кстати, в качестве отступления, первый портал по госрасходам в США был создан НКО OMB Watch [6] и назывался он FedSpending [7].
Fedspending.org появился в октябре 2006 и стал основной для USASpending.gov и тот существовал на том же коде около 2-х лет, после чего судьба двух этих порталов - негосударственного и государственного разошлась.

Как бы то ни было, FFATA обеспечивал лишь базовый уровень раскрытия информации и все эти годы НКО и активисты лоббировали повышение уровня раскрытия информации, её качества и находили многочисленные ошибки и проблемы в уже опубликованных данных. Например, в отчёте Sunlight Foundation и их проекте Clearspending [8].

Сейчас The Data Act должен обеспечить появление стандарта открытости бюджетных данных и с мая 2017 года все агентства в США должны будут публиковать данные в этом стандарте.

Об этом подробнее в самой первой ссылке, в свежем вышедшем докладе THE DATA ACT Vision & Value [1].

В качестве второго отступления - в России раскрытие данные о госзакупках идёт не менее чем 10 лет, с принятого закона 94-ФЗ который обязал с 1 января 2006 года публиковать все закупки и контракты федеральных органов власти в соответствующих федеральных информационных системах, а далее и вообще все органы власти, муниципальная власть и регулируемые корпорации попали под действие 44-ФЗ и 223-ФЗ ужесточившие эти требования. Уровень раскрытия информации о госрасходах превосходит раскрытие в США многократно. Несмотря на всю неэффективность и громозкость 44-ФЗ - его открытость - это ключевая особенность российской системы государственны и муниципальных финансов.

Ссылки:
[1] https://static1.squarespace.com/static/56534df0e4b0c2babdb6644d/t/578642f2893fc0672b741637/1468416780354/Electronic+Version+-+DATA+Act+Vision+and+Value.pdf
[2] https://www.datafoundation.org/
[3] https://www.gpo.gov/fdsys/pkg/PLAW-113publ101/pdf/PLAW-113publ101.pdf
[4] https://www.gpo.gov/fdsys/pkg/PLAW-109publ282/pdf/PLAW-109publ282.pdf
[5] https://usaspending.gov/
[6] https://www.ombwatch.org/about_us
[7] https://www.fedspending.org/
[8] https://sunlightfoundation.com/clearspending/

#opendata #opengov #spending #budget #procurement
Вышла моя колонка в Форбс о том почему в России недоступны данные о преступлениях и что нам с этим делать.
https://www.forbes.ru/mneniya/siloviki/327227-pochemu-v-rossii-nedostupna-informatsiya-o-prestupleniyakh

Текст почти в формате лонгрида и, кстати, я уже подумываю не сделать ли мне такой лонгрид на базе тильды. Нельзя же быть сапожником без сапог, учить дата журналистике и не делать проекты в этой теме хотя бы раз в месяц.

#opendata #opengov #openpolice #открытаяполиция
Вчера был день колонок про открытые данные. Вторая статья вышла в РБК о том почему не получится закрыть данные госорганов - https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910

Пока мало кто обратил внимание на раздел этой статьи связанный с хартией открытых данных подписанной Россией в 2013 году (Владимир Путин подписал её на встрече Большой Восьмёрки). Очень мало что из положений хартии выполнено в России. К счастью и ничего не закрыто.

Впрочем, подробнее именно в статье.

#opendata #opengov
Для тех кто любит Python, не очень любит, но вынужден работать с SQL и любит NoSQL формат работы с данными, для них подборка полезных инструментов:
- datasets: databases for lazy people https://dataset.readthedocs.io/en/latest/ инструмент для доступа к базам данных с запросами не через SQL, а в стиле MongoDB - словарями в Python
- Records: SQL for Humans https://github.com/kennethreitz/records аналогично datasets, удобная библиотека для доступа к SQL без знания SQL
- Tablib: Pythonic Tabular Datasets - https://docs.python-tablib.org/en/latest/ как работать с данными и делать наборы без баз данных.
- CsvKit https://github.com/wireservice/csvkit позволяет вытворять всякое с CSV файлами
- SmartCSV https://github.com/santiagobasulto/smartcsv умные разбиратель самых разных CSV файлов
- Docx2CSV https://github.com/ivbeg/docx2csv простая утилита извлечения таблиц из DOCX файлов

Ну а для тех кто любит Go, любит SQL и не любит NoSQL ещё есть:
- TextQL https://github.com/dinedal/textql позволяющий исполнять SQL против CSV файлов
- Q https://github.com/harelba/q аналогичный движок всё таки на Python, но давно не обновляемый

Для тех кому надо быстро обмениваться большими файлами. Есть dat - https://github.com/datproject/dat движок для обмена файлами с данными
#opendata #data #datascience
Нескольких участников хакатонов мы недавно привели к Алексею Кудрину рассказать о том что такое открытые данные [1], как создаются новые проекты и о том как важна открытость для роста общественной активности. У этого уже есть первые результаты - в программу Университета КГИ [2] включена тема открытых данных [3] и она же будет на Зимней школе Университета КГИ в этом году

Подробнее новости университета КГИ можно также узнать в телеграме Университета [4]

Не буду скрывать что в мои планы на 2016 и 2017 годы входит убеждение всех существующих грантодающих фондов и общественных организаций по поддержке проектов на открытых данных или же открытые данные создающие.

Ссылки:
[1] https://akudrin.ru/news/vstrecha-s-razrabotchikami-proektov-ispolzuyuschih-otkrytye-dannye
[2] https://komitetgi.ru/projects/2078/
[3] https://komitetgi.ru/news/news/2948/
[4] https://telegram.me/univerkgi

#opendata #opengov
Я просто никак не могу удержаться и не напомнить что мы с вашей помощью мы смогли собрать больше половины средств (75 556 рублей) на печать брошюры "Понятная полиция". За что, конечно, огромное спасибо всем кто пожертвовал.

Более того: мы нашли возможность увеличить тираж и за 120 000 рублей напечатать в 4 раза больше брошюр – не 250, как планировали, а 1000 экземпляров!

Запрос на брошюры действительно есть (у нас просят сразу по несколько сотен книжек).

Вы по-прежнему можете нам помочь:
- отправив денежное пожертвование через planeta.ru (https://planeta.ru/campaigns/openpolice)
- стать на один час волонтёром и помочь нам отправить готовые брошюры получателям (напишите об этом нам [email protected])
- рассказать знакомым НКО или активистам о нашей брошюре (если они хотят её получить),
- просто сделать репост этой записи.

До окончания кампании чуть менее 5 дней, поэтому лучше прямо сейчас перейти по ссылке и сделать пожертвование.

Это один из немногих нетехнологических, но важных проектов которыми занимается АНО «Инфокультура». В определённый момент мы поняли что понятность правоохранительных органов не менее важна чем их открытость.

#openpolice #opengov
Открытое правительство анонсировало курс по открытым данным [1] который полностью проводится онлайн на специальном сайте [2] и включает множество лекций о том как открытые данные устроены.

Этот курс, не является открытым - он требует регистрации, однако доступен под лицензией Creative Commons - Share Alike, правда там же висит и копирайт самого Открытого правительства. В общем, смешение смыслов.

Те кто зарегистрируются, Вы сразу увидите с первого же модуля что и я (Иван Бегтин) принимал участие в записи этого курса. Он начинался ещё год назад и весь этот год авторы его доделывали, а я лично и остальные лекторы были в легком неведении что же получится. И до сих пор я не то чтобы могу сказать получилось ли то что ожидалось или нет.

К сожалению, этот курс не авторский. У него де-факто нет научного руководителя, однако несмотря на первый блин комом я всё же надеюсь что многие из Вас найдут в нём что-то интересное для себя. И, конечно, не обращайте внимание что там сразу при заходе на сайте начинает работать видео. Открытое правительство никого из нас лекторов об этом не предупреждало.

И, да, я напоминаю про курс по открытым данным в рамках Университета КГИ [3] за который уже я несу полную ответственность и в рамках зимней школы КГИ будут лекции и мероприятия по открытым данным.

Если у Вас есть идеи и практические предложения того как, на каких площадках можно организовать курсы и иные просветительские мероприятия - пишите мне на [email protected]

Ссылки:
[1] https://open.gov.ru/events/5515416/
[2] https://odc.open.gov.ru/
[3] https://komitetgi.ru/news/news/2948/

#opendata #opengov
Продолжаю обзоры открытых данных создаваемых не-государством. На сей раз данные о инфраструктуре Интернета.

M-Lab (Measurement Lab) [1] - это консорциум посвящённый измерению Интернета. Он включает:
- New America’s Open Technology Institute (OTI)
- PlanetLab Consortium
- Google Inc.
- и множество академических инститов.

Проект создан для непрерывного мониторинга за качеством связи в Интернете, публикации данных о текущем состоянии этой связи и визуализации этих данных наглядно.

В рамках проекта раскрываются огромные объёмы данных [2] хранящиеся на Google Storage [3]. Это по несколько гигабайт архивных данных ежедневно.

В M-Lab уже накоплены данные созданы такими инструментами как:
- Glasnost [4] - определение приоритизации или цензуры сетевого трафика
- NDT [5] - инструмент измерения трафика TCP под большой нагрузкой
- Neurobot [6] - инструмент сбора информации о скорости каналов, сетевом нейтралитете и цензуре
- NPAD [7] - инструмент измеряющий проблемы в сетевом пути влияющие на производительность
- OONI [8] - инструмент измерения цензуры, прослушки и манипуляции трафиком
- Paris Traceroute [9] - инструмент картирующий топологию сети
- pathload2 [10] - инструмент для измерения ширины каналов
- ShaperProbe [11] - инструмент определения приоритизации трафика
- SlideStream [12] - инструмент измеряющий состояние TCP трафика и информацию о завершенных TCP соединениях
- mlab-collectd [13] - инструмент накопления статистики с серверов M-Lab

Все материалы публикуются под лицензией CC Zero. Практически весь код M-Lab раскрывается н Github [x]

Ссылки:
[1] https://www.measurementlab.net/about/
[2] https://www.measurementlab.net/data/
[3] https://www.measurementlab.net/data/gcs/
[4] https://console.developers.google.com/storage/browser/m-lab/glasnost/
[5] https://console.developers.google.com/storage/browser/m-lab/ndt/
[6] https://console.developers.google.com/storage/browser/m-lab/neubot/
[7] https://console.developers.google.com/storage/browser/m-lab/npad/
[8] https://console.cloud.google.com/storage/browser/m-lab/ooni/
[9] https://console.cloud.google.com/storage/browser/m-lab/paris-traceroute/
[10] https://console.developers.google.com/storage/browser/m-lab/pathload2/
[11] https://console.cloud.google.com/storage/browser/m-lab/shaperprobe/
[12] https://console.developers.google.com/storage/browser/m-lab/sidestream/
[13] https://console.developers.google.com/storage/browser/m-lab/utilization/
[14] https://github.com/m-lab

#opendata #opengov #internet
Для всех кто не просто интересуется журналистикой данных, но и уже почувствовал в себе амбиции к чему-то большему - появилась программа поддержки медиа стартапов. Лондонский акселератор Founders Factory [1] до 23 сентября принимает заявки от медиа стартапов [2]. Форма заявки доступна по ссылке [3], помните что приём идёт до 23 сентября!

В России, насколько я знаю, пока нет выделенного стартап фонда поддержки медийных стартапов, хотя и таких фондов и инкубаторов явно нехватает. В то же время для медиа стартапов остаётся немало возможностей и в рамках таких фондов как ФРИИ да и других существующих инкубаторов.

Ссылки:
[1] https://foundersfactory.co
[2] https://foundersfactory.co/accelerator/
[3] https://podio.com/webforms/12695852/867095

#opendata #opengov #datajournalism
Blavatnik School of Government и University of Oxford представили новый ежемесячный журнал Oxford Government Review (OGR) [1]. Темой первого выпуска стали вопросы доверия к государству (The Trust Issue) [2].

Создание журнала является продолжением конференции The Challenges in Government (Вызовы в государстве) [3] которая ежегодно проводится в Оксфордском университете и включает высокопоставленных спикеров, лидеров стран и обсуждение текущих вопросов демократии и государственного управления.

В первом выпуске журнала можно обратить внимание на упоминание на направление «Strengthen transparency and accountability» куда попадают инициативы по открытости данных, открытым контрактам (open contracting), open banking и многое другое. Конечно повестка, в основном, под британские особенности и акценты открытости государства.

Ссылки:
[1] https://www.bsg.ox.ac.uk/research/oxford-government-review
[2] https://www.bsg.ox.ac.uk/research/oxford-government-review/1-trust-issue
[3] https://www.bsg.ox.ac.uk/partner/cogc

#opendata #opengov