Ivan Begtin – Telegram

Ivan Begtin

8.02K subscribers

1.94K photos

3 videos

102 files

4.64K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

8.02K subscribers

ngo_2021_11.csv

8 ноября я писал [1] о том что в российском ЕГРЮЛ перестали раскрывать сведения об учредителях НКО - АНО, Фондов и других. Сейчас, 1-го декабря, мы перепроверили это и всё подтверждается. У НКО зарегистрированных в ноябре 2021 года в открытой части ЕГРЮЛ нет сведений об учредителях.

Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.

Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.

Всё таки, видимо, без официального запроса в ФНС тут никак.

Ссылки:
[1] https://t.iss.one/begtin/3227

#opendata #disclosure #fns

1.3K viewsIvan Begtin, 06:12

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

На сайте проекта СП РФ "Госрасходы" теперь доступен новый модуль - "Организации" (https://spending.gov.ru/orgs/) ^_^. Собрали первую версию профилей организаций, работающих со средствами из бюджета (получающих или распределяющих), на основе данных проекта: контрактов, субсидий (на конец 2020 года), расходов федерального бюджета. Пока бета-версия, будем постепенно расширять функционал.

А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/

1.2K viewsIvan Begtin, 08:00

В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.

А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]

Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] https://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/

#web #datasets

1.3K viewsIvan Begtin, 12:11

В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.

Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.

#API #data #opendata #dataset #opensource

GitHub - datacoon/russiannames: Russian names parsers, gender identification and processing tools

Russian names parsers, gender identification and processing tools - datacoon/russiannames

1.4K viewsIvan Begtin, 08:44

Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading

Data Stack News

Updates from Meltano on best practices for the future of data and DataOps. Click to read Data Stack News, by Meltano, a Substack publication with hundreds of readers.

1.4K viewsIvan Begtin, 10:59

Алишер Усманов вышел из капитала VK [1] и теперь основным владельцем группы компаний является Газпром через группу СОГАЗ.

Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.

Ссылки:
[1] https://www.kommersant.ru/doc/5102919

#itmarket #vk #gazprom #socialnetworks

Коммерсантъ

USM выбирается из соцсетей

Холдинг продает VK СОГАЗу

1.4K viewsIvan Begtin, 11:31

30 ноября на площадке комиссии РСПП по медиаиндустрии и предпринимательству в информационной сфере прошло совещание по работе с данными государства для бизнеса. На сайте РСПП пресс-релиз [1], рекомендую его почитать. Позже будут доступны и другие материалы. Я также участвовал во встрече и помогал её организовать от лица АУРД (Ассоциации участников рынка данных) и чуть менее формально опишу свои впечатления.

- Представители органов власти и госинициатив про данные, в принципе, говорили про хорошее и про готовность развивать НСУД в сторону ещё больше "легализации" открытых данных и про практики взаимодействия с бизнесом. Это позитивный сигнал, безусловно.
- Анатолий Дюбанов из Минэкономразвития РФ озвучил идею того что Минэк должен выступить координатором инициатив в области открытых данных. Это можно только приветствовать и могу напомнить что, в принципе, по текущей нормативке это и так функция министерства. Если она будет усилена - так и славно.
- Андрей Никуличев из ЦЭКИ рассказал про инициативу подготовки данных для ИИ и заявительную модель создания таких данных это, в принципе, укладывается в мировой подход 3-й волны открытых данных Publish with the purpose для данных которые ещё не созданы или создание которых является дорогостоящим процессом.

Было ещё несколько разных полезных тем, подробнее посмотрите в пресс-релизе.

Я рассказывал про то как в мире регулируются практики обмена данными (data sharing), перезапускается тема открытых данных и многое другое.

Лично я считаю что тема открытых данных, безусловно, в России должна быть глубоко перезапущена и возможности для этого точно есть. Но важна не только доступность открытых данных, но и как правильно обратил внимание Юрий Хохлов и то о чём регулярно говорят многие другие эксперты включая меня - в России необходима национальная стратегия работы с данными.

А я напомню что АУРД [2] будет проводить и организовывать ещё множество мероприятий, уже скорее в следующем году. Наша ассоциация объединяет малый и средний бизнес работающий с данными. Как и все ассоциации она построена на интересах участников. Вступайте, не пожалеете;)

Ссылки:
[1] https://rspp.ru/events/news/komissiya-rspp-po-mediaindustrii-i-predprinimatelstvu-v-informatsionnoy-sfere-obsudila-voprosy-dostu-61a8cdf48b4c3/
[2] https://aurd.ru

#opendata #data #government

1.4K viewsIvan Begtin, edited 14:19

Написал большой текст (больше обычно) о технологиях headless BI и reverse ETL как часть Modern Data Stack в рассылку [1] и пока писал удивился что не нашёл об этих явлениях материалов на русском языке. Тема всё более актуальная и в России тоже.

На всякий случай напомню что я веду рассылку на begtin.substack.com [2] куда пишу значительно реже, но более объёмные тексты. Со временем, подумываю, преобразовать её для текстов которые я раньше писал колонками для СМИ. Я и сейчас колонки иногда пишу, но куда реже чем даже год назад, хотя тем меньше не становится. В любом случае подписывайтесь, конечно же.

Меня, в последнее время, больше интересуют темы современного стека данных (modern data stack) и активное развитие технологий в этой области. Пока я вижу очень большой разрыв, в первую очередь идеологический, между технологиями работы с данными применяемыми внутри корпораций, технологиями вокруг открытых данных и технологиями работы с данными у исследователей. Очень разные стеки, технологии и подходы, в разных экосистемах, даже несмотря на преимущественное использование открытого кода во всех случаях.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://begtin.substack.com

#opendata #datastack #data #tools

Ivan’s Begtin Newsletter on digital, open and preserved government

#19. Headless and reverse data

Историк - это перевернутый пророк (c) Фридрих Шлегель

1.4K viewsIvan Begtin, 05:33

В Австралии офис уполномоченного комиссара по данным запустил два новых проекта.

Dataplace [1] - унифицированный сервис запросов данных у государства, как раз в соответствии с моделью Publish with the purpose, а то есть общественный или коммерческий интересант размещает запрос на данные и его получают и рассматривают все data custodians (хранители данных). Запросы рассматриваются на основании принципов обмена данными ранее разработанными в офисе уполномоченного [2]

Второй проект Data Inventories Pilot Program [3] сфокусирован на сборе метаданных о базах данных 20% органов власти в Австралии. По каждому набору данных собираются Core Metadata Attributes, специально сформированный перечень атрибутов для описания содержимого набора данных и его ключевых характеристик. Немного удивляет что они придумали собственную систему метаданных вместо DCAT2 [4], поскольку с DCAT/DCAT2 пересечения довольно заметные.

Ссылки:
[1] https://datacommissioner.gov.au/media-hub/dataplace-new-tool-promote-safe-and-effective-sharing-government-data
[2] https://www.datacommissioner.gov.au/data-legislation/assessing-data-requests
[3] https://datacommissioner.gov.au/media-hub/ondc-launches-pilot-project-australian-government-data-catalogue
[4] https://www.w3.org/TR/vocab-dcat-2/

#opendata #australia #datasharing #data

Data Catalog Vocabulary (DCAT) - Version 2

DCAT is an RDF vocabulary designed to facilitate interoperability between data catalogs published on the Web.
This document defines the schema and provides examples for its use.

1.7K viewsIvan Begtin, 06:20

Forwarded from The Bell

❗️Новым главой VK с вероятностью 95% станет сын первого замглавы администрации президента Сергея Кириенко Владимир, рассказали The Bell два источника, знакомых с ходом сделки по продаже компании «Согазу».

1.5K viewsIvan Begtin, 10:39

Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.

Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.

Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia

#security #blocking

8.3K viewsIvan Begtin, 16:19

В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.

Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.

У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.

Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.

Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos

#contracts #open #opendata #spending

Todos los Contratos CR

Todos los Contratos CR es una plataforma que agrupa, analiza y evalúa los datos de las contrataciones alojadas en el Sistema Integrado de Compras Públicas (SICOP). Este espacio se pone a disposición con el fin de promover la vigilancia, prevenir la corrupción…

1.5K viewsIvan Begtin, 04:26

Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].

По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.

Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.

В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.

Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch

#metadata #datacatalogs

DataHub: A generalized metadata search & discovery tool

Co-authors: Mars Lan, Seyi Adebajo, Shirshanka Das

1.4K viewsIvan Begtin, 05:43

Сегодня, буквально сейчас, начинаю лекцию про управление основанное на данных https://youtu.be/zFZQUQhz3Yo в рамках Digital Innopolis Days

Визионерская лекция.Управление основное на данных в государственном и частном секторе

Визионерская лекция.
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2

1.4K viewsIvan Begtin, 07:33

Open Data for Official Statistics: History, Principles, and Implementation [1] свежая статья от авторов Open Data Watch [2], международного НКО работающего в направлении открытости официальной статистики в мире. Статья подана в форме обзора практик с рекомендациями и с явным прицелом на то что в будущем эти рекомендации станут частью рекомендаций ООН по сбору статистики.

У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.

Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020

#opendata #statistics

Open Data Watch

Open Data for Official Statistics: History, Principles, and Implentation

For data in national statistical offices to fully benefit society, they must be available to the public as open data. This report reviews the evolution of standards for open data, how standards are implemented, and what tools and models can guide NSOs in…

1.3K viewsIvan Begtin, 08:53

Вышел доклад The State of Open Data 2021 [1] от холдинга Digital Science и посвящённый открытым исследовательским данным, а то есть данным которые учёные публикуют для ученых. Доклад в форме альманаха статей по темам, с обзором существующих академических систем раскрытия данных, внедрения новых, основных проблем стоящих перед исследователями, управление метаданными и так далее.

И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)

Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.

Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.

Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.

Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347

#opendata #openresearchdata #openscience #openacces

The State of Open Data 2021

We're proud to release our sixth State of Open Data report.This year’s report includes contributions from around the world on data quality and curation, engaging researchers in open data practices, how open data can help validate research and combat scientific…

1.2K viewsIvan Begtin, 09:23

Если вспомнить, то темой открытости данных я занимаюсь уже больше 12 лет. С разными фокусами и акцентами, на political integrity, эффективность в гоусправлении, на необходимость для исследователей, на потребностях бизнеса. В самых разных формах от общественных проектов до коммерческих сервисов и каталогов.

Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.

Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.

Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.

И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.

Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.

#opendata #opengov

1.2K viewsIvan Begtin, 11:06

Для тех кто интересовался, видеозапись моей лекции в рамках Digital Innopolis Days "Управление основное на данных в государственном и частном секторе" [1]. Я много повторяюсь в эти годы, не потому что люблю повторяться, а потому что некоторые понятия/события/явления актуальны надолго, а двигаются медленно.

А также экспертной дискуссии "Экспертная дискуссия.Практики предоставления государственных данных (data sharing)" [2]. На дискуссии было много участников: Андрей Яковлев (НИУ ВШЭ), Дарья Цыплакова (Счетная палата РФ), Жанна Устименко (Минсельхоз России), Александр Гаврилин (Яндекс), Айрат Хасьянов и Елена Макарова (КАИ). Дискуссия была очень продуктивная, про кооперацию государства, бизнеса и исследователей в работе с данными.

Я участвовал и помогал в организации экспертной дискусии от нашей Ассоциации участников рынка данных (АУРД). В следующем году будет ещё несколько мероприятий который мы организуем от нашей ассоциации, о них я обязательно и ещё не один раз напишу.

Ссылки:
[1] https://www.youtube.com/watch?v=zFZQUQhz3Yo
[2] https://www.youtube.com/watch?v=S7N66ZepG0s

#opendata #data #datasharing #events

Визионерская лекция.Управление основное на данных в государственном и частном секторе

Визионерская лекция.
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2

1.2K viewsIvan Begtin, 12:45

В каком-то смысле данные и проекты на данных становятся нормой в любой деятельности. Например, проект Native Data [1] о сборе и обмене личных данных, в первую очередь о здоровье между индейскими организациями/поселениями/сообществами в США.

Всё это подаётся как Tribal data sovereignty [2], контроль индейскими территориями собственных данных. Там много любопытного в этом подходе к реализации права на то чтобы знать о себе и иметь право управлять тем кто получает личные данные.

Ссылки:
[1] https://nativedata.npaihb.org/
[2] https://nativedata.npaihb.org/glossary/#tribal-data-sovereignty

#opendata #datasharing #tribes

NPAIHB NativeDATA |

Home | NPAIHB NativeDATA

What is NativeDATA? NativeDATA is a free online resource that offers practical guidance for Tribes and Native-serving organizations on obtaining and sharing health data.

1.2K viewsIvan Begtin, 14:26