Ivan Begtin
8.02K subscribers
1.94K photos
3 videos
102 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
ngo_2021_11.csv
90.6 KB
8 ноября я писал [1] о том что в российском ЕГРЮЛ перестали раскрывать сведения об учредителях НКО - АНО, Фондов и других. Сейчас, 1-го декабря, мы перепроверили это и всё подтверждается. У НКО зарегистрированных в ноябре 2021 года в открытой части ЕГРЮЛ нет сведений об учредителях.

Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.

Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.

Всё таки, видимо, без официального запроса в ФНС тут никак.

Ссылки:
[1] https://t.iss.one/begtin/3227

#opendata #disclosure #fns
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте проекта СП РФ "Госрасходы" теперь доступен новый модуль - "Организации" (https://spending.gov.ru/orgs/) ^_^. Собрали первую версию профилей организаций, работающих со средствами из бюджета (получающих или распределяющих), на основе данных проекта: контрактов, субсидий (на конец 2020 года), расходов федерального бюджета. Пока бета-версия, будем постепенно расширять функционал.

А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/
В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.

А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]

Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] https://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/

#web #datasets
В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.

Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.

#API #data #opendata #dataset #opensource
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
Алишер Усманов вышел из капитала VK [1] и теперь основным владельцем группы компаний является Газпром через группу СОГАЗ.

Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.

Ссылки:
[1] https://www.kommersant.ru/doc/5102919

#itmarket #vk #gazprom #socialnetworks
30 ноября на площадке комиссии РСПП по медиаиндустрии и предпринимательству в информационной сфере прошло совещание по работе с данными государства для бизнеса. На сайте РСПП пресс-релиз [1], рекомендую его почитать. Позже будут доступны и другие материалы. Я также участвовал во встрече и помогал её организовать от лица АУРД (Ассоциации участников рынка данных) и чуть менее формально опишу свои впечатления.

- Представители органов власти и госинициатив про данные, в принципе, говорили про хорошее и про готовность развивать НСУД в сторону ещё больше "легализации" открытых данных и про практики взаимодействия с бизнесом. Это позитивный сигнал, безусловно.
- Анатолий Дюбанов из Минэкономразвития РФ озвучил идею того что Минэк должен выступить координатором инициатив в области открытых данных. Это можно только приветствовать и могу напомнить что, в принципе, по текущей нормативке это и так функция министерства. Если она будет усилена - так и славно.
- Андрей Никуличев из ЦЭКИ рассказал про инициативу подготовки данных для ИИ и заявительную модель создания таких данных это, в принципе, укладывается в мировой подход 3-й волны открытых данных Publish with the purpose для данных которые ещё не созданы или создание которых является дорогостоящим процессом.

Было ещё несколько разных полезных тем, подробнее посмотрите в пресс-релизе.

Я рассказывал про то как в мире регулируются практики обмена данными (data sharing), перезапускается тема открытых данных и многое другое.

Лично я считаю что тема открытых данных, безусловно, в России должна быть глубоко перезапущена и возможности для этого точно есть. Но важна не только доступность открытых данных, но и как правильно обратил внимание Юрий Хохлов и то о чём регулярно говорят многие другие эксперты включая меня - в России необходима национальная стратегия работы с данными.

А я напомню что АУРД [2] будет проводить и организовывать ещё множество мероприятий, уже скорее в следующем году. Наша ассоциация объединяет малый и средний бизнес работающий с данными. Как и все ассоциации она построена на интересах участников. Вступайте, не пожалеете;)

Ссылки:
[1] https://rspp.ru/events/news/komissiya-rspp-po-mediaindustrii-i-predprinimatelstvu-v-informatsionnoy-sfere-obsudila-voprosy-dostu-61a8cdf48b4c3/
[2] https://aurd.ru

#opendata #data #government
Написал большой текст (больше обычно) о технологиях headless BI и reverse ETL как часть Modern Data Stack в рассылку [1] и пока писал удивился что не нашёл об этих явлениях материалов на русском языке. Тема всё более актуальная и в России тоже.

На всякий случай напомню что я веду рассылку на begtin.substack.com [2] куда пишу значительно реже, но более объёмные тексты. Со временем, подумываю, преобразовать её для текстов которые я раньше писал колонками для СМИ. Я и сейчас колонки иногда пишу, но куда реже чем даже год назад, хотя тем меньше не становится. В любом случае подписывайтесь, конечно же.

Меня, в последнее время, больше интересуют темы современного стека данных (modern data stack) и активное развитие технологий в этой области. Пока я вижу очень большой разрыв, в первую очередь идеологический, между технологиями работы с данными применяемыми внутри корпораций, технологиями вокруг открытых данных и технологиями работы с данными у исследователей. Очень разные стеки, технологии и подходы, в разных экосистемах, даже несмотря на преимущественное использование открытого кода во всех случаях.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://begtin.substack.com

#opendata #datastack #data #tools
В Австралии офис уполномоченного комиссара по данным запустил два новых проекта.

Dataplace [1] - унифицированный сервис запросов данных у государства, как раз в соответствии с моделью Publish with the purpose, а то есть общественный или коммерческий интересант размещает запрос на данные и его получают и рассматривают все data custodians (хранители данных). Запросы рассматриваются на основании принципов обмена данными ранее разработанными в офисе уполномоченного [2]

Второй проект Data Inventories Pilot Program [3] сфокусирован на сборе метаданных о базах данных 20% органов власти в Австралии. По каждому набору данных собираются Core Metadata Attributes, специально сформированный перечень атрибутов для описания содержимого набора данных и его ключевых характеристик. Немного удивляет что они придумали собственную систему метаданных вместо DCAT2 [4], поскольку с DCAT/DCAT2 пересечения довольно заметные.

Ссылки:
[1] https://datacommissioner.gov.au/media-hub/dataplace-new-tool-promote-safe-and-effective-sharing-government-data
[2] https://www.datacommissioner.gov.au/data-legislation/assessing-data-requests
[3] https://datacommissioner.gov.au/media-hub/ondc-launches-pilot-project-australian-government-data-catalogue
[4] https://www.w3.org/TR/vocab-dcat-2/

#opendata #australia #datasharing #data
Forwarded from The Bell
❗️Новым главой VK с вероятностью 95% станет сын первого замглавы администрации президента Сергея Кириенко Владимир, рассказали The Bell два источника, знакомых с ходом сделки по продаже компании «Согазу».
Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.

Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.

Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia

#security #blocking
В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.

Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.

У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.

Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.


Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos

#contracts #open #opendata #spending
Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].

По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.

Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.

В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.

Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch

#metadata #datacatalogs
Open Data for Official Statistics: History, Principles, and Implementation [1] свежая статья от авторов Open Data Watch [2], международного НКО работающего в направлении открытости официальной статистики в мире. Статья подана в форме обзора практик с рекомендациями и с явным прицелом на то что в будущем эти рекомендации станут частью рекомендаций ООН по сбору статистики.

У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.

Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020

#opendata #statistics
Вышел доклад The State of Open Data 2021 [1] от холдинга Digital Science и посвящённый открытым исследовательским данным, а то есть данным которые учёные публикуют для ученых. Доклад в форме альманаха статей по темам, с обзором существующих академических систем раскрытия данных, внедрения новых, основных проблем стоящих перед исследователями, управление метаданными и так далее.

И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)

Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.

Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.

Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.

Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347

#opendata #openresearchdata #openscience #openacces
Если вспомнить, то темой открытости данных я занимаюсь уже больше 12 лет. С разными фокусами и акцентами, на political integrity, эффективность в гоусправлении, на необходимость для исследователей, на потребностях бизнеса. В самых разных формах от общественных проектов до коммерческих сервисов и каталогов.

Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.

Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.

Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.

И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.

Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.

#opendata #opengov
Для тех кто интересовался, видеозапись моей лекции в рамках Digital Innopolis Days "Управление основное на данных в государственном и частном секторе" [1]. Я много повторяюсь в эти годы, не потому что люблю повторяться, а потому что некоторые понятия/события/явления актуальны надолго, а двигаются медленно.

А также экспертной дискуссии "Экспертная дискуссия.Практики предоставления государственных данных (data sharing)" [2]. На дискуссии было много участников: Андрей Яковлев (НИУ ВШЭ), Дарья Цыплакова (Счетная палата РФ), Жанна Устименко (Минсельхоз России), Александр Гаврилин (Яндекс), Айрат Хасьянов и Елена Макарова (КАИ). Дискуссия была очень продуктивная, про кооперацию государства, бизнеса и исследователей в работе с данными.

Я участвовал и помогал в организации экспертной дискусии от нашей Ассоциации участников рынка данных (АУРД). В следующем году будет ещё несколько мероприятий который мы организуем от нашей ассоциации, о них я обязательно и ещё не один раз напишу.

Ссылки:
[1] https://www.youtube.com/watch?v=zFZQUQhz3Yo
[2] https://www.youtube.com/watch?v=S7N66ZepG0s

#opendata #data #datasharing #events
В каком-то смысле данные и проекты на данных становятся нормой в любой деятельности. Например, проект Native Data [1] о сборе и обмене личных данных, в первую очередь о здоровье между индейскими организациями/поселениями/сообществами в США.

Всё это подаётся как Tribal data sovereignty [2], контроль индейскими территориями собственных данных. Там много любопытного в этом подходе к реализации права на то чтобы знать о себе и иметь право управлять тем кто получает личные данные.

Ссылки:
[1] https://nativedata.npaihb.org/
[2] https://nativedata.npaihb.org/glossary/#tribal-data-sovereignty

#opendata #datasharing #tribes