Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В блоге IOM, органа ООН по миграции, свежая публикация "Using “Big Data” to forecast migration" [1] о том как они используют данные из разных источников и моделируют потоки мигрантов и предсказывают направления миграции в будущем.

Немаловажно то откуда они берут данные, а это, например, Social Connectedness Index [2] от Facebook, в котором производится измерение связности территорий через социальные связи в Facebook.

Сам Facebook отдает эти данные в рамках инициативы Data for good [3] и они одни из крупнейших поставщиков данных для проекта Humanitarian Data Exchange [4].

Конкретно этот набор данных Social Connectedness Index [5] будет интересен исследователям в любой стране, но, России там нет. Возможно по причине плохих (отсутствующих) отношений России с Управлением по координации гуманитарных вопросов ООН (UN OCHA), а может быть Facebook не любит Россию, а может по каким-то ещё причинам.

А вот Беларусь, Украина, Киргизия, Грузия, Армения, Азербайджан, Казахстан, Узбекистан, Молдова, Таджикистан присутствуют.

Ссылки:
[1] https://medium.com/@UNmigration/using-big-data-to-forecast-migration-8c8e64703559
[2] https://dataforgood.fb.com/tools/social-connectedness-index/
[3] https://dataforgood.fb.com
[4] https://data.humdata.org/organization/facebook
[5] https://data.humdata.org/dataset/social-connectedness-index

#opendata #data #facebook #un #iom #migration
Для тех кто интересуется и впервые подписался на мой блог, я напомню о прошлых докладах и публикациях:
- Ежегодные доклады по открытости государства (совместно со Счетной палатой) и доклад по открытости ГИС
- Работа с открытыми данными: особенности публикации и использования в российском правовом поле
- Утечки персональных данных из государственных информационных систем (я публиковал его от себя лично в 2018 году, поскольку он был даже скорее про безопасность чем про приватность)
- Использование электронной почты в государственной инфраструктуре РФ

На самом деле их было куда больше, какие-то "пласты" моей жизни были посвящены тематике госзакупок и ещё в 2009 году я вскрывал и публиковал истории связанные именно с ними, далее было несколько проектов когда наша команда анализировала госсайты органов власти, это было около 2010 года.

Доклады - это большая и трудоёмкая работа, иногда удаётся её сделать быстро и дешево, например, доклад про утечки персональных данных из ГИС я лично готовил ещё в 2018 году и передавал чиновникам в Минцифре, Роскомнадзора и Генпрокуратуры, но эффект у него возник только после того как передал журналистам. Да, даже передача прокурорам не работает (а я тогда был председателем экспертного совета по цифре при Генпрокуратуре).

С другими документами та же история. Обратная связь от госорганов возникает только от докладов Счетной палаты, но она идет уже в режиме "Вы нам скажите как правильно и мы сделаем". И, наконец, самое "тяжёлое" ведомство это ДИТ Москвы. Содержательной реакции от них нет практически никогда.

В последнем докладе про 44 государственных мобильных приложения у нас многое не отражено. Чтобы провести тщательный анализ надо делать тестовую лабораторию, перехватывать все запросы приложений к сайтам, отслеживать каждый IP адрес и домен, идентифицировать какие из них каким компаниям, подсетям и юрисдикциям относятся, декомпилировать Java код приложений (предварительно проговорив такую юридическую возможность), провести интервью с разработчиками и тд. Это добавило бы/добавит гораздо больше содержания. Но проблема в том что на реакцию российских органов власти это _не влияет_ и это системная проблема. Работают только "медиадубинка" и "дубинка госконтроля/госаудита", позитивная мотивация не проглядывается. Хотя и с большим удовольствием хотелось бы исследовать и писать о хорошем - том какие замечательные кейсы использования открытых данных существуют и тому подобное.

Я вскоре напишу об этой проблеме лонгрид в begtin.substack.com и попробую поразмышлять о том как подобное преодолевать, подписывайтесь.

#opendata #research #reports
Что такое институты работы с данными (data institutions) и как они должны развиваться и в чём их роль? Об этом в публикации The Open Data Institute " What are data institutions and why are they important? " [1]

В каком-то смысле этот текст самореклама the ODI поскольку он даёт ответ на вопрос зачем сам ODI нужен, но в нём есть и здравое зерно по созданию того что в России принято называть центрами компетенций (но опять же в России это название стало уже "ругательным").

Текст полезный для понимания будущего регулирования данные в Евросоюзе и Великобритании.

Ссылки:
[1] https://theodi.org/article/what-are-data-institutions-and-why-are-they-important/

#data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий закрывается (даже если останется "открытым").

В середине декабря на сайте "Электронного бюджета" был закрыт реестр субсидий и, поскольку мы его скоро потеряем (а также потому что я немного устала отвечать на один и тот же вопрос о доступности данных о субсидиях в проектах "Госрасходы" и "Госзатраты"), вынесу информацию о реестре в отдельный пост.

Для баз данных наших проектов мы используем (использовали) реестр субсидий, который публикуется на портале Электронного бюджета. С середины декабря данный реестр стал недоступен, а с 20-х чисел января интерфейс для просмотра реестра снова открыли, но сам реестр пустой (API по-прежнему закрыт).

Некоторое время назад в канале "Координация профанации" поднимался важный вопрос о доступности в дальнейшем реестра субсидий на сайте Электронного бюджета [1, 2] из-за проекта документа, опубликованного Минфином России [3].

Проект документа вносит изменения в пункт 53 "Порядка ведения реестра соглашений (договоров) о предоставлении субсидий, бюджетных инвестиций, межбюджетных трансфертов, утвержденного приказом Министерства финансов Российской Федерации от 30 июля 2020 г. № 153н [4]".

Проект до сегодняшнего дня находится на стадии общественных обсуждений и, согласно проекта, практически все публиковавшиеся ранее поля реестра будут закрыты.

В открытом доступе останутся:

- сведения о распорядителе бюджетных средств
- вид, реквизиты и срок действия соглашения и решения или правового акта
- размер субсидии, бюджетных инвестиций, межбюджетного трансферта
- код классификации расходов бюджета.

Перестанут публиковаться:

- сведения о получателях (!)
- наименование бюджета, из которого предоставляется субсидия, и наименование бюджета субъекта РФ, которому предоставляется межбюджетный трансферт
- цель, целевое назначение субсидии, бюджетных инвестиций и трансфертов (!)
- плановые значения результатов использования субсидии (!)
- график перечисления субсидии, бюджетных инвестиций, межбюджетных трансфертов
- уникальный код объекта капитального строительства
- сведения о НПА, определяющего правила предоставления субсидий, бюджетных инвестиций, межбюджетных трансфертов
- копии соглашений о предоставлении субсидий (!)
- информация об осуществлении расходов в целях софинансирования
- копия отчетности, предоставленная получателем субсидии и иная отчетность об исполнении соглашения (!)
- информация о перечислении субсидии, межбюджетных инвестиций, межбюджетного трансферта (!).

Фактически период открытости реестра субсидий (как и Минфина России, и Федерального казначейства) закончился. Лучше бы Минфин России и Федеральное казначейство потратили свое время и ресурсы на исполнение текущих обязанностей и документов, а не на создание новых - например, федеральный бюджет до сих пор публикуется с ошибками, а данные по региональным бюджетам в принципе отсутствуют.

[1] https://t.iss.one/CynExp/2925
[2] https://t.iss.one/CynExp/2926
[3] https://regulation.gov.ru/projects#
[4] https://publication.pravo.gov.ru/Document/View/0001202010220024?index=0&rangeSize=1
Продолжая тему институциональных структур в области данных [1] и того как строится инфраструктура и работают инфраструктурные организации важным моментом является то как именно эти организации работают. Если посмотреть на классификацию data institution от The ODI то выходит что они делятся, по сути, на три направления, иногда пересекающихся. Далее моя интерпретация этой классификации:
- policy-making - вырабатывающие госполитику и рекомендации
- standards and tools - создающие общие стандарты и инструменты
- data infrastructure - общая инфраструктура, каталоги данных, облака и тд.

Обычно проекты/организации не совмещают эти роли, слишком разные знания и опыт для этого нужны, но специализируются на чём-то одном и вступают в союзы и разного рода партнерства.

Здесь особняком стоят инфраструктурные организации в области данных. Их полезность, эффективность, востребованность и устойчивость определяют числом вовлеченных поставщиков данных и участников обмена данными.

Например, успешность проект Humanitarian Data Exchange [2] можно измерить в том что 289 крупных международных и национальных организаций публикуют там данные о природных катастрофах, инфраструктуре и ликвидации последствий катастроф. Что их мотивирует? Целенаправленная политика UN OCHA по предоставлению данных из собственных подразделений, предоставление данных теми кто получает от них финансирование и корпоративная ответственность для крупных транснациональных холдингов вроде Facebook. Иначе говоря внутри три стопа:
- внутренняя мотивация и перестройка процессов
- вовлечение финансируемых организаций
- привлечение и мотивация партнеров

Есть и другие примеры. Например, UK Data Service [3], это инфраструктура научных данных Великобритании является продолжением обязательных научных архивов и для исследовательских центров финансируемых за счёт государства они являются обязательным центром "сдачи данных'.

Ещё один проект, Zenodo [4] - это европейская инициатива от CERN в основе которой европейская политика открытого доступа (open access) и создание инфраструктуры для публикации данных исследователями. Опять же с учётом того что выдача грантов ЕС научным учреждениям требует и учитывает последующее раскрытие ими данных.

А вот инфраструктурные коммерческие проекты делают сильный акцент на удобстве. Проекты вроде data.world или QRI фокусируются на удобстве обмена данными и на возможности их анализировать прямо в портале/каталоге/сервисе данных. И на бесплатности до определенного объёма. Хотя и можно обратить внимание что data.world всё более склоняется в платформу для дата-журналистики и не-научной аналитики, а QRI в инфраструктурный сервис для дата-инженерии, а также ещё есть несколько десятков похожих сервисов.

Особняком стоят проекты вроде Figshare [5] и Mendeley Data [6]. Это коммерческие проекты для публикации данных академическими институтами, но у них freemium модель, с сильным фокусом на потребности исследователей, в поиске данных для цитирования и в доступности их данных для цитируемых другими исследователями.
Что характерно:
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.

Ссылки:
[1] https://t.iss.one/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] https://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS

#data #datainfrastructure
Данные о 10 миллионах полетах самолётов в 2020 году [1] собраны краудсорсингом через OpenSky Network и публикуются в открытом доступе для анализа последствий COVID-19 [2]. Общий объём данных - 4.6 GB в сжатом виде и 61.4 GB в распакованном виде.

Уже есть примеры визуализации [2], но, несомненно есть те кто придумает новые. Обратите также внимание что в этой версии набора данных у всех самолетов уникальный анонимизированный номер, но, в его предыдущей редакции был номер ICAO24 и хвостовой номер самолёта (если он известен) [3]

Эти данные могут, также, заинтересовать и журналистов расследователей заинтересованных в полетах не только отдельных политиков, олигархов, но и с анализом больших данных.

Ссылки:
[1] https://zenodo.org/record/4419082
[2] https://traffic-viz.github.io/scenarios/covid19.html
[3] https://zenodo.org/record/3928550

#opendata #flights
Прекраснейшая визуализация [1] Codex Atlanticus (Атлантического кодекса) Леонардо Да Винчи [2] из более чем 1119 страниц текста и иллюстраций.

В визуализации все его материалы просистематизированы, классифицированы и разделены по хронологии.

Авторы работы The Visual Agency [3], они же публикуют данные проекта в CSV формате [4]

Проекту уже не меньше 1.5 лет, его авторы получили за него несколько престижных премий.

Лично я отнес бы его, как и многие другие проекты по визуализации, к цифровому культурному наследию. К сожалению, недолговечному, потому что пройдет 5-10 лет, сменятся технологии и не факт что останется и сайт и возможность видеть его теми средствами что мы сейчас используем.

Ссылки:
[1] https://codex-atlanticus.it
[2] https://en.wikipedia.org/wiki/Codex_Atlanticus
[3] https://thevisualagency.com/
[4] https://codex-atlanticus.it/data/Leonardo.csv

#visual #data #opendata #italy
Администрация Байдена опубликовала указ о научной честности [1] где декларируется необходимость применения принципов доказательной политики (от слова policy не politics) при принятии решений. А также в органах власти США появляется новая должность Chief science officer или по русски это "руководитель по науке" / "научный директор".

Фактически это возврат и развитие аналогичных принципов декларировавшихся Бараком Обамой и его указов о scientific integrity. И это, конечно, имеет прямое отношение к открытости науки финансируемой государством и открытости данных которые должны публиковаться по итогам исследований.

Ссылки:
[1] https://www.nextgov.com/analytics-data/2021/01/executive-order-creates-chief-science-officers-federal-agencies/171705/
[2] https://www.whitehouse.gov/briefing-room/presidential-actions/2021/01/27/memorandum-on-restoring-trust-in-government-through-scientific-integrity-and-evidence-based-policymaking/

#opendata #openaccess
В Германии в последние дни активно обсуждается и может быть усилено законодательство в защиту копирайта и могут быть введены фильтры на загрузку контента (upload filters). Об этом пишет Euroactive [1] с акцентом на то что это нарушает обещание правительства Германии 2-х летней давности. Правда, похоже, из-за общественного резонанса рассмотрение этого вопроса в прошедшую среду было отложено.

В любом случае можно наблюдать постепенное усиление правообладателей в давлении на крупнейшие цифровые платформы платформы и их пользователей.

Ссылки:
[1] https://www.euractiv.com/section/copyright/news/leak-german-government-reaches-agreement-on-copyright-law/

#copyright #germany
OpenCitation один из крупнейших инфраструктурных проектов по сбору данных о научном цитировании [1] на декабрь 2020 года включает:
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.

Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]

Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.

Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].

В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.

Ссылки:
[1] https://opencitations.net
[2] https://opencitations.net/download
[3] https://scoss.org/
[4] https://opencitations.net/querying

#openaccess #opendata #linkeddata
В 2015 году международная НКО Tactical Tech делали проект Trackography [1].
Это большое исследование национальных и местных СМИ на предмет передачи данных в другие страны.

Для этого они сделали робота который обращался к сайтам СМИ по ссылкам и определяли:
- где сайт хостится
- к каким хостам обращался браузер
- какие веб-трекеры установлены

Проекту уже более 6 лет, он минимум лет 5 не обновлялся, в нем охвачены только СМИ и то, по нынешним временам, далеко не самые популярные, но логика, методология и отчасти визуализация актуальны и сейчас.

Например, один из выводов по России
Russia: 77.78% of national media websites have connections which pass through the network infrastructure of the U.S and the UK.

Исходный код проекта и API полностью открыты [3]

Ссылки:
[1] https://trackography.org
[2] https://myshadow.org/trackography
[3] https://github.com/vecna/trackmap

#tracking #privacy #opendata
Этот год начался у всех с рефлексии о том как прошедший год, даже надежда на этот год была весьма скупой, но тем самым почти потерян был жанр прогнозов и предсказаний.

А такие предсказания есть, как минимум в части приватности, открытости и госуправления, да и про другие темы тоже.
Начну с приватности в привязке к нашим темам

Приватность 2021 году

1. Число госприложений в Google Play достигнет 100 за год(+56 к прошлому году)

Большая их часть будет создана региональными властями которые начнут плодить их массового в этом году, по 1-2 на регион. Они будут касаться госуслуг, единых билетов в музеи, доступа к бюджетам, дистанционной работы служащих, городских и областных гидов и так далее. Те кто поумнее будут покупать их на рынке и делать ребрендинг, остальные будут заказывать у системных интеграторов (с ожидаемым качеством). Примерно столько же приложений будет в AppStore

2. Практически все госприложения продолжат нарушать приватность

Они будут включать встроенные трекеры, запрашивать "опасные" разрешения, собирать избыточную информацию. Систематизированного регулирования этой деятельности не возникнет, а вот гражданских опасений будет много и призывов к тому чтобы запретить использовать эти приложения тоже много. Причем это гражданское беспокойство всё более будет выходить за пределы маргинализированных групп,

3. Тема приватности будет политизироваться

Неизбежно в этом году политика и приватность (политика как politics, не policy) проникнет в публичное пространство. Либо госслежка станет предметом общественных расследований, либо проникнет в активную (публичную) политику, в митинги и тд., либо и то и то вместе, но в любом случае ИТ будет продолжать политизироваться в России в ближайший год и далее. Включая обвинения крупнейших ИТ и телекоммуникационных компаний в слежке в пользу гос-ва.

4. Цифровой профиль заработает до конца года

К нему подключатся банки, крупные цифровые платформы и тд. многие будут приобретать банковские и иные лицензии и лоббировать расширение доступак профилю на другие типы компаний. С одной стороны это станет аналогом бюро кредитных историй с возможностью узнать кто получал доступ к твоим данных, с другой стороны - это будет во многих случаях очень забюрократизированным и единственным способом доступа к информации о гражданине. Очень многое будет зависеть от итоговой реализации.

5. Появятся централизованные государственные шлюзы для доступа в Интернет

Это системы централизованной фильтрации контента, через DNS сервера и прокси сервера. Выход из сетей школ, бюджетных учреждений и тд. постепенно будет переводится на работу только через эти шлюзы, вместо локальной фильтрации контента. Постепенно такие шлюзы будут основным способом фильтрафии в Рунете.

#privacy #foresight #prognoz
Дмитрий Медведев говорит в интервью что обособление России от Интернета возможно [1], а центр НАТО CCDCOE в декабрьской публикации Cyber Threats and NATO 2030: Horizon Scanning and Analysis [2] на полном серьёзе рассуждает о рисках для НАТО от такой формы национальной самоизоляции России.

И здесь хотелось бы сказать о том как умеют "петь хором" милитаристы всех мастей, для кого-то "угроза НАТО", для кого-то "Красная угроза", но суть одна, выгодно это только тем кто ничего не понимает в современной экономике, которая и есть цифровая экономика, не в красивых речах, а в фактической форме своего существования.

В целом даже обсуждать это со стороны публичных лиц - это опасный тренд. Если подобное событие реально станет вероятным то большая часть российских "национальных цифровых чемпионов", либо превратятся в тыкву, или де-факто станут государственными (либо жестко подотчетными гос-ву), либо убегут в другие юрисдикии, если успеют.

Ни один из этих сценариев оптимистичным не является.

Ссылки:
[1] https://tass.ru/obschestvo/10587069
[2] https://ccdcoe.org/uploads/2020/12/Cyber-Threats-and-NATO-2030_Horizon-Scanning-and-Analysis.pdf

#foresight #prognoz #runet
Ещё вчера по запросу "приватность госприложений" [1] или "Инфокультура" Яндекс выдавал ссылки на десятки новостей в СМИ, начиная со статьи в РБК, а теперь ни одной новости, ни одного события.
Если это сбой, то он очень похож на цензуру, а если это цензура то она совсем не похожа на сбой.
А я то всё ждал когда цензоры придут по нашу душу.

Или всё таки сбой? Что-то странное в общем, просветите кто знает.

P.S. Те кто мониторят Яндекс говорят мне что это не сбой, по другим запросам всё нормально, то есть цензура?

Ссылки:
[1] https://newssearch.yandex.ru/yandsearch?text=%D0%BF%D1%80%D0%B8%D0%B2%D0%B0%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%B3%D0%BE%D1%81%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9&rpt=nnews2&grhow=clutop
[2] https://www.rbc.ru/politics/27/01/2021/60115c209a79476980008933

#media
Исследование об исследованиях Systematic Mapping of Open Data Studies: Classification and Trends From a Technological Perspective [1] о том как открытые данные используются в научном сообществе, науке, как сообщества устроены и как ведутся исследования на открытых данных.

Большая работа, значительный акцент на semantic web и других темах связанных с работой с данными.

Вот несколько важных выводов:
1. До 2009 года публикации про открытые данные были незначительны и их рост начался с инициативы Барака Обамы и Open Government Directive.
2. В целом интерес исследователей к теме открытых данных снизился, скорее всего из-за того что тема перестала быть "хайповой", но при этом всё ещё актуальна.
3. Ключевые темы исследований: "software engineering", "government", "semantic web".
4. В исследованиях много тематических пробелов, на которые стоит обратить внимание. Многие темы не раскрыты.

Ссылки:
[1] https://ieeexplore.ieee.org/document/9326343

#opendata #government #ieee #study
Уже почти год Австралийская комиссия по делам конкуренции и потребителей ведет расследование платформ цифровой рекламы и 28 января опубликовали промежуточный отчет [1] с анализом устройства рынка рекламы, какие компании и в каком объёме на нём представлены, как реально устроены процессы размещения и управления рекламой на платформах, у потребителей, в системах подготовки рекламных кампаний и так далее. Это огромный содержательный и подробный отчет на 222 страницы с акцентом австралийский цифровой рынок, но актуально и для других стран, во многих случаях картина идентичная.

Это исследование закончится к августу 2021 года и можно ожидать нового регулирования AdTech индустрии не только в Австралии, но и в мире, поскольку законодатели по всему миру смотрят друг на друга и на то у кого же получится регулировать цифровые корпорации и каким образом.

Ссылки:
[1] https://www.accc.gov.au/system/files/Digital%20Advertising%20Services%20Inquiry%20-%20Interim%20report.pdf

#privacy #dmp #adtech #australia