Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Совершенно занимательная история о том что Мировой банк отказывается раскрывать результаты аудита договоров и сами тексты договоров с получателями средств [1]. Автор и ещё несколько представителей НКО запрашивали у представителей Мирового Банка сведения по контрактам заключённым в рамках мер противодействия COVID-19 и нескольких контрактов банка с его кредитополучателями.

Представители банка отказали в их предоставлении, но мировая бюрократия на то и мировая бюрократия чтобы там была процедура обжалования. И вот, например, 3 ноября банк опубликовал результаты рассмотрения жалобы (Appeal #88) [2] на получение данных о контракте в рамках финансирования по COVID-19 правительства Сьерра-Леоне. Самое интересное что в формулировках отказа присутствует упоминание о том что раскрытие содержание контракта в процессе его исполнения может нести репутационные риски для банка () и создать напряжение в отношениях между банком и получателем средств (в оригинале - Disclosing such information during a project under implementation may cause reputational risk to the Bank and strain the relationship between the Bank and the borrower).

Ко всему можно прибавить неспешность бюрократии банка.
- 2 ноября 2020 года они получают запрос на доступ к информации
- 23 февраля 2021 года банк отказывает предоставить сведения
- 29 марта 2021 года банк получает запрос на обжалование решения об отказе
- 3 ноября 2021 года банк публикует результаты рассмотрения обжалования

Там же автор упоминает и многие другие запросы, например, на сведения о контрактах на финансирование инфраструктуры обогрева в Вильнюсе (Литва) в 2002-2003 годах (Appeal #76) [3], а также проектах в Камеруне, Мозамбике, Буркина Фасо и других странах. Во всех решениях в отказе от раскрытия информации представители банка ссылаются на "prerogative" (исключительное право) в отказе от раскрытия информации в случае если представители банка считают что ущерб от раскрытия сведений перевешивает возможную пользу.

Похожая ситуация была в 2015 году когда Freedom Info запрашивали у банка сведения о контракте на выкачку воды из затопленной шахты в Сербии [4].

Вся описанная история интересна сразу с нескольких сторон:
1. Не стоит идеализировать открытость международных организаций, она работает только под постоянным давлением извне и часто значительно замедлена.
2. Можно обратить внимание на классический юридический подход к доступу информации через запросы. То что исследователи The GovLab определяли как "первую волну открытых данных" когда их можно было получить только через запросы на открытие сведений (Freedom of Information Requests).
3. Интересно что процедура обжалования непредоставления сведений и наличие специальной группы внутри банка ответственной за рассмотрение жалоб и тот факт что каждое рассмотрение практически как судебное решение, публикуется довольно подробно.
4. Важна и та часть где банк связывается с получателями средств, правительствами стран, запрашивая их разрешение на предоставление документов третьим сторонам (запрашивающим эти документы). Это, конечно, совсем не модель открытости по умолчанию, по видимому у Мирового Банка в договорах нет пункта о праве на раскрытие информации в одностороннем порядке, или не во всех договорах.

Ссылки:
[1] https://eyeonglobaltransparency.net/2021/11/12/world-bank-refuses-public-access-to-contract-reviews-and-contract-texts-too/
[2] https://thedocs.worldbank.org/en/doc/7d690d60be37ed3debef4bd51e63268b-0090012021/original/AIC-Decision-Case-AI7243-Merits.pdf
[3] https://thedocs.worldbank.org/en/doc/d16cfcc3a736d7bcd72b07fe9f2c5a3b-0090012020/original/AIC-Appeal-76-Case-AI6359-1.pdf
[4] https://www.freedominfo.org/2015/02/world-bank-rejects-request-for-serbian-project-report/

#opendata #spending #contracts #worldbank #covid19 #transparency
4 декабря я выступаю на Digital Innopolis Days с лекцией "Управление основанное на данных в государственном и частном секторе" и участвую в дискуссии "Практики предоставления государственных данных (data sharing). Потребности государства и бизнеса" [1].

Пока не знаю будет ли онлайн-трансляция, скорее всего будет и я размещу на неё ссылку. Если же Вы будете на конференции, приходите на лекцию и дискуссию.

Ссылки:
[1] https://digitalinnopolisdays.ru

#events #data
ngo_2021_11.csv
90.6 KB
8 ноября я писал [1] о том что в российском ЕГРЮЛ перестали раскрывать сведения об учредителях НКО - АНО, Фондов и других. Сейчас, 1-го декабря, мы перепроверили это и всё подтверждается. У НКО зарегистрированных в ноябре 2021 года в открытой части ЕГРЮЛ нет сведений об учредителях.

Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.

Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.

Всё таки, видимо, без официального запроса в ФНС тут никак.

Ссылки:
[1] https://t.iss.one/begtin/3227

#opendata #disclosure #fns
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте проекта СП РФ "Госрасходы" теперь доступен новый модуль - "Организации" (https://spending.gov.ru/orgs/) ^_^. Собрали первую версию профилей организаций, работающих со средствами из бюджета (получающих или распределяющих), на основе данных проекта: контрактов, субсидий (на конец 2020 года), расходов федерального бюджета. Пока бета-версия, будем постепенно расширять функционал.

А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/
В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.

А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]

Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] https://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/

#web #datasets
В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.

Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.

#API #data #opendata #dataset #opensource
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
Алишер Усманов вышел из капитала VK [1] и теперь основным владельцем группы компаний является Газпром через группу СОГАЗ.

Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.

Ссылки:
[1] https://www.kommersant.ru/doc/5102919

#itmarket #vk #gazprom #socialnetworks
30 ноября на площадке комиссии РСПП по медиаиндустрии и предпринимательству в информационной сфере прошло совещание по работе с данными государства для бизнеса. На сайте РСПП пресс-релиз [1], рекомендую его почитать. Позже будут доступны и другие материалы. Я также участвовал во встрече и помогал её организовать от лица АУРД (Ассоциации участников рынка данных) и чуть менее формально опишу свои впечатления.

- Представители органов власти и госинициатив про данные, в принципе, говорили про хорошее и про готовность развивать НСУД в сторону ещё больше "легализации" открытых данных и про практики взаимодействия с бизнесом. Это позитивный сигнал, безусловно.
- Анатолий Дюбанов из Минэкономразвития РФ озвучил идею того что Минэк должен выступить координатором инициатив в области открытых данных. Это можно только приветствовать и могу напомнить что, в принципе, по текущей нормативке это и так функция министерства. Если она будет усилена - так и славно.
- Андрей Никуличев из ЦЭКИ рассказал про инициативу подготовки данных для ИИ и заявительную модель создания таких данных это, в принципе, укладывается в мировой подход 3-й волны открытых данных Publish with the purpose для данных которые ещё не созданы или создание которых является дорогостоящим процессом.

Было ещё несколько разных полезных тем, подробнее посмотрите в пресс-релизе.

Я рассказывал про то как в мире регулируются практики обмена данными (data sharing), перезапускается тема открытых данных и многое другое.

Лично я считаю что тема открытых данных, безусловно, в России должна быть глубоко перезапущена и возможности для этого точно есть. Но важна не только доступность открытых данных, но и как правильно обратил внимание Юрий Хохлов и то о чём регулярно говорят многие другие эксперты включая меня - в России необходима национальная стратегия работы с данными.

А я напомню что АУРД [2] будет проводить и организовывать ещё множество мероприятий, уже скорее в следующем году. Наша ассоциация объединяет малый и средний бизнес работающий с данными. Как и все ассоциации она построена на интересах участников. Вступайте, не пожалеете;)

Ссылки:
[1] https://rspp.ru/events/news/komissiya-rspp-po-mediaindustrii-i-predprinimatelstvu-v-informatsionnoy-sfere-obsudila-voprosy-dostu-61a8cdf48b4c3/
[2] https://aurd.ru

#opendata #data #government
Написал большой текст (больше обычно) о технологиях headless BI и reverse ETL как часть Modern Data Stack в рассылку [1] и пока писал удивился что не нашёл об этих явлениях материалов на русском языке. Тема всё более актуальная и в России тоже.

На всякий случай напомню что я веду рассылку на begtin.substack.com [2] куда пишу значительно реже, но более объёмные тексты. Со временем, подумываю, преобразовать её для текстов которые я раньше писал колонками для СМИ. Я и сейчас колонки иногда пишу, но куда реже чем даже год назад, хотя тем меньше не становится. В любом случае подписывайтесь, конечно же.

Меня, в последнее время, больше интересуют темы современного стека данных (modern data stack) и активное развитие технологий в этой области. Пока я вижу очень большой разрыв, в первую очередь идеологический, между технологиями работы с данными применяемыми внутри корпораций, технологиями вокруг открытых данных и технологиями работы с данными у исследователей. Очень разные стеки, технологии и подходы, в разных экосистемах, даже несмотря на преимущественное использование открытого кода во всех случаях.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://begtin.substack.com

#opendata #datastack #data #tools
В Австралии офис уполномоченного комиссара по данным запустил два новых проекта.

Dataplace [1] - унифицированный сервис запросов данных у государства, как раз в соответствии с моделью Publish with the purpose, а то есть общественный или коммерческий интересант размещает запрос на данные и его получают и рассматривают все data custodians (хранители данных). Запросы рассматриваются на основании принципов обмена данными ранее разработанными в офисе уполномоченного [2]

Второй проект Data Inventories Pilot Program [3] сфокусирован на сборе метаданных о базах данных 20% органов власти в Австралии. По каждому набору данных собираются Core Metadata Attributes, специально сформированный перечень атрибутов для описания содержимого набора данных и его ключевых характеристик. Немного удивляет что они придумали собственную систему метаданных вместо DCAT2 [4], поскольку с DCAT/DCAT2 пересечения довольно заметные.

Ссылки:
[1] https://datacommissioner.gov.au/media-hub/dataplace-new-tool-promote-safe-and-effective-sharing-government-data
[2] https://www.datacommissioner.gov.au/data-legislation/assessing-data-requests
[3] https://datacommissioner.gov.au/media-hub/ondc-launches-pilot-project-australian-government-data-catalogue
[4] https://www.w3.org/TR/vocab-dcat-2/

#opendata #australia #datasharing #data
Forwarded from The Bell
❗️Новым главой VK с вероятностью 95% станет сын первого замглавы администрации президента Сергея Кириенко Владимир, рассказали The Bell два источника, знакомых с ходом сделки по продаже компании «Согазу».
Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.

Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.

Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia

#security #blocking
В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.

Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.

У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.

Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.


Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos

#contracts #open #opendata #spending
Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].

По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.

Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.

В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.

Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch

#metadata #datacatalogs
Open Data for Official Statistics: History, Principles, and Implementation [1] свежая статья от авторов Open Data Watch [2], международного НКО работающего в направлении открытости официальной статистики в мире. Статья подана в форме обзора практик с рекомендациями и с явным прицелом на то что в будущем эти рекомендации станут частью рекомендаций ООН по сбору статистики.

У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.

Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020

#opendata #statistics
Вышел доклад The State of Open Data 2021 [1] от холдинга Digital Science и посвящённый открытым исследовательским данным, а то есть данным которые учёные публикуют для ученых. Доклад в форме альманаха статей по темам, с обзором существующих академических систем раскрытия данных, внедрения новых, основных проблем стоящих перед исследователями, управление метаданными и так далее.

И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)

Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.

Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.

Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.

Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347

#opendata #openresearchdata #openscience #openacces
Если вспомнить, то темой открытости данных я занимаюсь уже больше 12 лет. С разными фокусами и акцентами, на political integrity, эффективность в гоусправлении, на необходимость для исследователей, на потребностях бизнеса. В самых разных формах от общественных проектов до коммерческих сервисов и каталогов.

Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.

Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.

Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.

И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.

Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.

#opendata #opengov