Ivan Begtin
9.32K subscribers
2.1K photos
3 videos
102 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
В Ъ вышла статья про новые требования к региональным властям об обязательном раскрытии данных по ряду направлений, почти все данные инфраструктурные [1].

Честно говоря, в статье из полезного - только комментарии бизнеса. Написана она совсем без погружения в предметную область.

Списки требуемые к раскрытию - это "открытость по белым списком". Можно назвать это opendata whilelisting, а в мире стандарт требований это opendata by default. Не короткий список того что обязательно, а всё должно публиковаться в машиночитаемом виде. Opendata whitelisting - это плохая практика. Это практика при которой большая часть важной информации не публикуется, данные раскрываются постепенно и дозированно.

По поводу перечня раскрываемых данных, как бы помягче сказать, он оторван от реальности. Даже если все регионы эти данные начнут публиковать, то ни социальный ни экономический эффект от их публикации не изменится.

Есть основные продукты деятельности государства, в том числе региональных правительств, которые не публикуются или публикуются в неполном/искажённом объеме и которые наиболее чувствительны. Это всё что касается качества жизни, это результаты санитарных проверок, данные по заболеваемости, экологии, пожарам, преступности и многое другое.

А эти списки прописанные как обязательные - это инфраструктурные данные. Кстати, часть комментаторов от бизнеса в статье это понимают, потому и упоминают данные не в субъектах, а тот же Россреестр который в этот список не попадает.

Я напомню что у нас даже по подписанной ВВП в 2013 году хартии открытых данных [2] не выполнено более половины обязательства.

Это такие наборы данных как:
Companies Company/business register
Crime and Justice Crime statistics, safety
Earth observation Meteorological/weather, agriculture, forestry, fishing, and hunting
Education List of schools; performance of schools, digital skills
Energy and Environment Pollution levels, energy consumption
Finance and contracts Transaction spend, contracts let, call for tender, future tenders, local budget, national budget (planned and spent)
Geospatial Topography, postcodes, national maps, local maps
Global Development Aid, food security, extractives, land
Government Accountability and Democracy Government contact points, election results, legislation and statutes, salaries (pay scales), hospitality/gifts
Health Prescription data, performance data
Science and Research Genome data, research and educational activity, experiment results
Statistics National Statistics, Census, infrastructure, wealth, skills
Social mobility and welfare Housing, health insurance and unemployment benefits
Transport and Infrastructure Public transport timetables, access points broadband penetration

А, например, список из 8-ФЗ, ну вот честно скажем - слабый. Он не про информационные системы, а про публикацию того что и так должно было быть на сайтах (вакансии, подведы и тд) и просто перевести машиночитаемый вид. Эти данные - это до 500 килобайт в объёме в совокупности, для большинства органов. Ключевые данные как были так и остаются в государственных информационных системах.

Доступность данных оттуда - это обязательные списки ГИСов из которых они должны публиковаться, это рабочие группы по этим ГИСам или тематическим группам ГИСов и это Chief Data Officer'ы в органах.

При всём желании, я никак не могу сказать что белые обязательные списки - это благо. Всё можно было бы делать совсем иначе.

Ссылки:
[1] https://www.kommersant.ru/doc/3560627
[2] https://www.gov.uk/government/publications/open-data-charter/g8-open-data-charter-and-technical-annex

#opendata #opengov
Ранее лидировал Закон Самарской области от 25.02.2005 N 58-ГД «Об установлении границ муниципального района Волжский Самарской области» (принят Самарской Губернской Думой 22.02.2005) https://samara.news-city.info/docs/sistemsa/dok_ieyzzb.htm и там это было самое длинное предложение русского языка из 9387 слов, 61061 знака. Впрочем в словах и знаках постановление из Санкт-Петербурга по не измерялось, но несомненно оно является выдающимся памятником современной бюрократической российской культуры.
Комитет по соцполитике посрамил Толстого и Джойса фразой длиной 13 страниц
Одно-единственное предложение в распоряжении комитета по социальной политике Смольного растянулось на рекордные 13 страниц, которые вместили в себя пять с половиной тысяч слов. Документ за номером 62-р от 21 февраля неделей позже опубликовали на портале публикования нормативных документов Петербурга. https://www.fontanka.ru/2018/03/01/012/
В качестве data рефлекции на прозвучавшее послание Президента России, несколько ссылок про данные, инфографику и историю.

В архиве Johnston'а [1] большая общедоступная база по ядерным испытаниям, оружию и исследованиям. Визуализация по ядерному оружию есть на Our world in data [2] и показывает реальные мировые масштабы.

А также важно помнить что часы судного дня, ещё до послания, в январе 2018 года были переведены на без 2 минут до полуночи [3] о чём можно узнать подробнее в Bulletin of the Atomic Scientists [4].

Отдельно хочу напомнить что:
- в России нет специализированных образовательных ресурсов подготовки к ядерному взрыву аналогичных Ready.gov [4] в США
- нет единой системы оповещения и поиска убежищ
- государственная программа строительства ядерных убежищ не в входит в государственные стратегии 2020, 2025 и 2035
- подготовка к ядерной войне не включена в обязательную школьную программу

И многое другое.

Ссылки:
[1] https://www.johnstonsarchive.net/nuclear/index.html
[2] https://ourworldindata.org/nuclear-weapons
[3] https://www.nytimes.com/2018/01/25/world/americas/doomsday-clock-nuclear-scientists.html
[4] https://thebulletin.org/2018-doomsday-clock-statement
[5] https://www.fema.gov/media-library-data/1518630553964-bcdba2109ed603f4b4083bb7b2d6adbf/FEMA_InfoSheet_Nuclear_Explosion_02.05.18_508.pdf

#opendata
Сегодня я весь день провёл на дне открытых данных. Завтра проведу его точно также, уже на секции бизнесу будут рассказывать про наш проект APICrafter.ru
Пока же для тех кто не смог принять участие, моя презентация о скрытых данных. Больше подробностей будут в видеозаписи на нашем канале Инфокультуры. Про остальные выступления я расскажу завтра вечером в сводном посте после ОДД
👌🏻Сегодня в 13:00 на дне открытых данных будем рассказывать про опыт mediagun в дата-журналистике. Трансляция: https://youtube.com/watch?v=kP6zFf_w0Wk&feature=youtu.be
Особенность открытых научных данных заключается в том что они представляют ценность не только в пределах страны, а, как правило, они международны и востребованы учёными разных стран. С другой стороны очень часто о наличии открытых данных в конкретных областях науки мало что знают те кто в эту науку не посвящён.

Тем не менее, именно научные данные составляют основной объём публикуемых данных в мире, а в некоторых странах, и открытого кода. Россия не является исключением, хотя и никто внутри государственных органов до сих пор не систематизировал того что и как раскрывается в виде данных научными коллективами.

Например, в астрономии. Проект RCSED [1] представляет собой базу данных по галактикам где данные опубликованы в формате FITS [2] в открытом доступе или базы данных космической погоды [3] или каталоги рассеяных скоплений [4].

Аналогично в физике, химии, биологии, лингвистике и других науках создаются тысячи баз данных многие из которых опубликованы или в ином виде находятся в открытом доступе.
Значительный объём открытых данных на портале data.gov [5] в США - это данные научных лабораторий.

Один из итогов работы нынешнего правительства - это отсутствие чёткой научной политики в части раскрытия информации. Ни в Минобрнауки, ни в ФАНО, ни в "Открытом Правительстве" тема доступности научных данных не обрела жизни и поддержки.

Ссылки:
[1] https://rcsed.sai.msu.ru
[2] https://rcsed.sai.msu.ru/data/
[3] https://213.131.1.8/smdc/structure.py
[4] https://ocl.sai.msu.ru/
[5] https://catalog.data.gov

#opendata #opengov #openscience
В США завершился редизайн сайта FOIA.gov [1] помогавший гражданам направлять запросы на раскрытие информации гражданами к органам власти. С самого начала этот сайт существовал ещё до развитие идеи открытых государственных данных и позволял запросить данные у федеральных органов США в любом формате, а они чаще всего отдавали документами или сканами.

Сайт существовал в довольно архаичном виде, но наконец-то команда 18F его переделала и сейчас он основан на открытых данных, открытом коде и современных стандартах дизайна веб-сайтов.

Наличие права на доступ к информации и централизованного ресурса, который не только позволяет запросить информацию, но и предоставляет API [2] и данные - это очень важно с точки зрения практической открытости государства.

Я напомню, свобода доступа к информации, идёт ДО открытых данных, не всякая информация государства машиночитаема. Но открытые данные имеют измеримый экономический и социальный эффект когда такое право реализуется потому как по мере раскрытия реестров в машиночитаемом виде снижается число запросов на информацию из них.

В России право на запрос информации формально есть в 8-ФЗ, но нет, ни единого ресурса, ни ведомства, ни учёта обращений, ни статистики, ни измерения обратной связи. Люди запрашивающие информацию от органов власти не рассматриваются как "референтные группы" или аудитория.

Как и многие другие важные темы открытости государства - эта тема выпала из деятельности "Открытого Правительства". Вы не найдете её ни в стандарте открытости органов исполнительной власти [3], ни на сайте открытого правительства [4], ни в деятельности правительственных комиссий, государственных программах и не только.

И раздел запросов данных на портале открытых данных ничуть не близок к этому, поскольку не делает ни один запрос официальным или обязательным к исполнению.

Лично для меня формирование нового правительства в апреле-мае - это ещё и детальная ревизия активности старого. А поскольку когда открытое правительство появлялось в 2012 году я принимал экспертное участие в его деятельности, то это и ревизия, насколько возможно объективная, всего того что было сделано и не сделано.

Ссылки:
[1] https://www.govtech.com/…/Whats-New-in-Civic-Tech-US-Justice…
[2] https://www.foia.gov/developer/
[3] https://openstandard.ru/
[4] https://open.gov.ru

#opendata #opengov
Для тех у кого не заблокирован Slideshare можно увидеть мою презентацию про скрытые данные тут https://www.slideshare.net/ivbeg/ss-90477593 и файл я ранее кидал в канал

Я рассказывал о них на дне открытых данных и это тема о которой говорить не принято, потому что она на стыке общедоступности и не общедоступности. Эдакая пограничная зона

#opendata
Forwarded from Городские данные (Andrey Karmatsky)
«Городские проекты» и ребята из NextGIS опубликовали карту смертей в ДТП. Напомню, «Городские проекты» взялись за эту тему в этом году достаточно плотно и тема с данными, один из шагов их программы.

Цитирую из fb Городских проектов:
«Cделали открытую карту смертей в ДТП. С помощью этой карты московские активисты и муниципальные депутаты смогут находить неблагополучные перекрестки в своих районах. Следующим шагом напишем, что с ними дальше делать.

Как вы помните, мы готовим полевое исследование и воркшоп по перепроектированиюсамый самого опасного перекрестка Москвы — пересечения Каширского шоссе и улицы Шипиловской. Документируем каждый шаг и делимся наработками в блоге Горпроектов. К нам уже присоединились активисты из Красноярска и Кирова, которые применяют наши наработки в своих городах.»

Карта: https://gorproekty.nextgis.com/resource/93/display
Forwarded from Инфокультура
Лишь 10-15% НКО-исполнителей соцуслуг реально работают, считают в Думе
https://clearspending.ru/news/lish-10-15-nko-ispolnitelej-socuslug-realno-rabotayut-schitayut-v-dume/

Из 95 социально ориентированных НКО, внесенных Минюстом в [реестр исполнителей
общественно-полезных услуг](https://unro.minjust.ru/NKOPerfServ.aspx), «реально
работают только 10-15%», считает глава думского комитета по развитию
гражданского общества, вопросам общественных и религиозных объединений
**Сергей Гаврилов**. Об этом он
[сообщил](https://www.duma.gov.ru/news/273/2223711/#photo1) во время круглого
стола по развитию систем мониторинга эффективности некоммерческих организаций.

«Вызывает нек
На дне открытых данных была выставка инфографики созданной на данных разными командами за последние пару лет. Если инфографику Вы любите и хорошие примеры Вам нравятся то посмотреть её можно в сообществе Инфокультуры в фэйсбуке [1].

А я хочу напомнить о том что на Github'е в Awesome DataJournalism [2] мы собираем ссылки на ресурсы и материалы помогающие журналистам работающим с данными. Любой желающий может присоединится и использовать или пополнять этот каталог

Я лично, как не-журналист занимаюсь скорее данными, чем журналистикой и роль Инфокультуры всё это время была в партнёрстве с сообществами data-журналистов в предоставлении данных, менторстве и иной работе по формированию сообщества.

Ссылки:
[1] https://www.facebook.com/events/1781400145263541/permalink/1845321355538086/
[2] https://github.com/infoculture/awesome-datajournalism

#opendata
BBC выпустили статью [1] о том как российские силовики закупают продукцию Cellebrite для быстрого взлома телефонов и с упоминанием только одного поставщика ЛАН-Проект и нескольких контрактов.

Там же про то что представители Cellebrite не подтвердили и не отрицали поставки продукции в России.

Статья полезная, но, конечно же неполная.

А факты таковы:
1. Cellebrite Mobile Synchronization Ltd. официально зарегистрировали продукт модели TOUCH 2 (сертификат соответствия Таможенного союза - ТС RU С-IL.МЕ61.В.01248) ещё в декабре 2015 года.
2. В России продукцию Cellebrite продают компании:
- ЗАО "ЭСТЕР Солюшнс" (преобразовано в ООО "Эстер Солюшнс") , сертифицировали модель UFED SYSTEM Touch Ultimate kit
- ООО "ИНСТИТУТ ЦИФРОВОЙ КРИМИНАЛИСТИКИ"
- ООО "ЛАН ПРОЕКТ" (уполномоченное лицо Cellebrite при регистрации), сертифицировали модели Cellebrite TOUCH
- ООО "Дюгонь"
возможно есть и другие, но их масштабы поставок сильно меньше будут.

2. Реквизиты организаций и контракты можно найти на Госзатратах [2].

3. Две из организаций находятся по одному ардресу: у Институт цифровой криминалистики и у ООО "Эстер Солюшнс" адрес: г Москва, пл Спартаковская, 14 / стр 2, лишь разные помещения.
Но между собой они конкурируют. Можно ли предположить их аффилированность? Как минимум подозревать.

4. Аналоги UFED TOUCH других производителей официально в России не продаются

5. В подобных исследованиях никто не ищет закупки по ключевым словам. Поиск идёт по поставщикам.

Конечно же надо поблагодарить наше Правительство за открытость госзакупок благодаря чему общедоступны, в том числе, подобные данные.

Ссылки:
[1] https://www.bbc.com/russian/news-43298602
[2] https://clearspending.ru

#opendata #security
Сергей Устинов сделал отличный проект по выборам на открытых данных и открытые данные отдающий.
Эксперт Университета КГИ, независимый разработчик, создатель ряда проектов на основе открытых данных Сергей Устинов (@ustnv) запустил проект «Вотум» https://votum.me. Проект собирает данные о выборах, упрощает доступ к ним и визуализирует для удобства восприятия. Он будет полезен федеральным и региональным журналистам, экспертам, активистам.

Что умеет сервис Вотум:
📍 собирает все данные с детализацией до каждого УИК;
визуализирует их на интерактивной карте с детализацией по регионам России и в виде рейтинга кандидатов;
📍 позволяет скачивать детализированные данные по УИК в формате csv для собственного анализа как по всей стране, так и по регионам;
📍 автоматически по имени и дате рождения собирает информацию о кандидатах - ссылки на страницы в Википедии, фотографии, возраст, род занятий, пол;
📍 подтягивает с карты нарушений «Голоса» сообщения о нарушениях.

Пока на сайте представлены только данные о президентских выборах. Для просмотра и скачивания сейчас доступны данные о прошлых выборах.

После 18 марта, как только ЦИК опубликует данные по результатам очередных президентских выборов, они автоматически подгрузятся на https://votum.me. Их можно будет найти на сайте, посмотреть визуализацию на карте, скачать исходники и даже проверить в них распределение Гаусса.
"Папа всегда говорил, уничтожай архивы" (c) (пьеса "Дракон", Евгений Львович Шварц)

Спасибо дорогому Правительство Москвы что теперь информация о НКО победителях конкурса субсидий города за 2013 и 2014 годы исчезла вместе с сайтом КОСа Москвы.

Это вот эти ссылки:
https://kos.mos.ru/deyatelnost/subsidy/2013/
https://kos.mos.ru/deyatelnost/subsidy/2014/

Я опоздал тогда буквально на 2 недели и начал архивацию сайта 20 августа 2017 года, а где-то между 6 и 20 августа он исчез. На новом сайте https://www.mos.ru/kos/ нет и 10% того что было на старом, а про архивные материалы до 2012 года я вообще молчу.

А вся причина в том что при переносе сайтов департаментов и комитетов из доменов *.mos.ru в разделы www.mos.ru разработчики забыли заархивировать имеющиеся документы. До МВД им ещё далеко, но масштабы исчезновения данных сопоставимы с тем что МВД сделало в 2012 году - переводя все сайты в домен www.mvd.ru

Это не значит что информация потеряна, конечно же есть и другие способы восстановить архивы, может быть, даже можно и в Московскую мэрию написать с просьбой дать эти данные, но шансов мало потому что есть подозрение что и там с архивацией "всё плохо (с)".

Как бы то ни было, списки получателей субсидий Москвы 2013-2014 года у нас есть;)

#digitalpreservation
Европейский стартап Elvis [1] был сделан на базе данных по закупкам нескольких стран Евросоюза и делает, немного не мало, а даёт возможность расследователям
смотреть на то какие отношения есть между разными подрядчиками и закачиками.

Очень интересный проект, не завершённый, явно декларирующий что он развивается. Фактически его аудитория - это НКО и журналисты расследователи. В Евросоюзе где условный рынок таких НКО существует и где много активных СМИ - он обязательно получит развитие, и я думаю что ещё станет медиа-проектом какого-нибудь года.

Я могу сказать что, конечно же, такой проект в России сделать очень просто. Я бы даже сказал феноменально просто. Когда мы проектировали Госзатраты [3] мы, конечно же, думали об этом, но тогда тоже решили что правильно разделить эти темы. Система раскрытия информации и система для расследователей - это 2 разных проекта. Система для расследователей гораздо больше имеет политических рисков, она требует другого интерфейса, вовлечения участников, работы с сообществом журналистов и расследователей, больший акцент на визуализации и многое другое.

Но, при этом на базе API Госзатрат сделать такую систему может кто угодно. Это именно то для чего API гораздо удобнее чем работа с первичными данными, потому что в расследовании нужны не все данные по всем организациям, а чёткий фокус и акцент на правильной упаковке материала.

API Госзатрат уже сейчас позволяет проводить расследованиям по массовым нарушениям, например, по факту латиница в госзакаке хорошо отслеживается через данные, как и многие другие нарушения.

В Госзатратах мы сознательно и тщательно отодвигались от любых антикоррупционных расследований. Я не устаю повторять что мне всё равно кто будет расследовать - журналисты "провластные" или журналисты "оппозиционные".

Но я хочу напомнить что проект существует уже 4 года, он никуда не денется, его API стабильно и про его API мы рассказываем, объясняем и помогаем. Это один из наиболее технологических и устойчивых проектов Комитета Гражданских Инициатив. И если Вы хотите технологизировать свои расследования - Вы знаете с помощью чего это можно сделать.


Ссылки:
[1] https://tenders.exposed/
[2] https://medium.com/startups-for-news/elvis-visualising-public-spending-and-investigating-corruption-7464fc30c7c0
[3] https://clearspending.ru

#opendata #clearspending #opengov #investigations
В последние месяцы у меня было много разговоров о том как государство использует или могло бы использовать данные, современные алгоритмы и, в будущем, искусственный интеллект.

Более всего, разумеется, упоминаются самые благие начинания - от повышения эффективности бюрократического аппарата, до повышения качества работы с госфинансами.

Но самые масштабные, самые серьёзные, самые масштабные области применения, конечно же совершенно в другом. Они в обработке бесконечного объёма данных с возможностью отслеживания любых действий каждого человека.

Правительство США в рамках программы IARPA финансирует две исследовательские программы Finder [1], Alladin Video [2] и Deep Intermodal Video Analytics (DIVA) [3].

Finder - это программа по извлечению геолокационных данных из фотографий без соответствующей информации в EXIF. Например, если пользователь запретил публиковать геоданные.

Alladin Video - это извлечение знаний/данных из видеозаписей на популярных видеохостингах. Это распознавание лиц, объектов, событий,

DIVA - это распознавание лиц и активности для потокового видео (в основном камер наблюдения) с автоматическим направлением уведомлений о событиях.

Отличие США от других стран лишь в лучшей организации научной составляющей этой работы, в остальном же важный интерес всех более менее крупных (богатых) государств не в оптимизации системы управления, а в тотальной слежке.



Ссылки:
[1] https://www.iarpa.gov/index.php/research-programs/finder
[2] https://www.iarpa.gov/index.php/research-programs/aladdin-video
[3] https://www.iarpa.gov/index.php/research-programs/diva

#data #algorithms