Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Несмотря на то что я много пишу тут в телеграме, тексты в СМИ и ещё веду много разной консультационной работы, программирование я почти никогда не бросал и хотя бы несколько часов в неделю всегда стараюсь найти, как минимум для того чтобы поддерживать навыки ну и просто потому что это же страшно интересно. Но если лет 15 назад моя работа состояла из программирования и проектирования ПО, а то как устроено государство и данные было хобби, то последние лет 8-9 скорее она состоит из всего остального, а программирование почти превратилось в хобби.

Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public

Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла

Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее

Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам

Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.

#opensource
Forwarded from Городские данные (Andrey Karmatsky)
Разработчики из GeoAlert разработали алгоритм и технологию автоматического картографирования по спутниковым снимкам: нейросеть распознаёт форму зданий и классифицирует их по типам.

Такие проекты уже были, но в данном случае речь идёт об открытых данных территории нашей необъятной. Ребята публикуют получившиеся данные по регионам России и активно принимают заявки какие из регионов нужно картографировать.

https://link.medium.com/kzQzWCqIxab
Вышел доклад Ответственное машинное обучение, Responsible Machine Learning [1] подготовленный ORelly. Документ полезный для тех кто уже думает о политиках ответственности систем искусственного интеллекта и алгоритмических систем.

Ссылки:
[1] https://www.h2o.ai/resources/ebook/responsible-machine-learning/

#ai #privacy
Для тех кто хочет поработать с большими данными, но не знает с какими, Национальная библиотека Новой Зеландии опубликовала набор данных Papers Past [1] включающей 235GB сканов газет Новой Зеландии с 1839 по 1899 годы и CSV файл с метаданными описывающими эти газеты. Всё вместе после распаковки 1.6TB данных

Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot

#opendata #nz #papers #culture
Как публиковать данные по коронавирусу наиболее правильным образом? В виде открытых данных для исследователей и в виде графиков для рядовых пользователей. В Великобритании на портале GOV.UK Coronavirus (COVID-19) in the UK [1] публикуются данные о:
- тестировании [2]
- выявленных случаях [3]
- нагрузке на систему здравоохранения [4]
- смертности [5]

Всё с детализацией до муниципального района, ежедневно, начиная с марта 2020 года.

Для разработчиков доступно API и SDK [6]

Ссылки:
[1] https://coronavirus-staging.data.gov.uk/
[2] https://coronavirus-staging.data.gov.uk/details/testing
[3] https://coronavirus-staging.data.gov.uk/details/cases
[4] https://coronavirus-staging.data.gov.uk/details/healthcare
[5] https://coronavirus-staging.data.gov.uk/details/deaths
[6] https://coronavirus-staging.data.gov.uk/details/developers-guide

#opendata #covid-19 #uk
Для тех кто хочет поработать с большими данными, изучает публикации в специализированных отраслях или, в принципе, заинтересован в исследовании научной мысли, ещё в апреле 2020 года Crossref выложили набор данных в 65GB и 112.5 миллионов записей [1]. В распакованном виде это около 1 терабайта. Эти данные всегда были доступны через их API api.crossref.org, но теперь стали доступны ещё и сразу для массовой выгрузки. С технической точки зрения эти данных хороши для построения больших графов и поиска взаимосвязей, аномалий и перспективных научных направлений.

Ссылки:
[1] https://www.crossref.org/blog/free-public-data-file-of-112-million-crossref-records/

#opendata #data
В блоге Facebook заметка о Nemo [1], их внутреннем инструменте для Data Discovery, продукте котором можно назвать каталогом данных, но правильнее называть инструментом обнаружения и использования данных для работы внутренних команд. Они не первые создавшие такой инструмент в Airbnb, Lyft, Netflix, и Uber есть свои аналогичные продукты. На рынке существует несколько десятков продуктов по созданию каталогов данных все из которых можно разделить на три условные категории:
- внутрикорпоративные каталоги данных (от метаданных до баз/таблиц/озер данных)
- порталы открытых данных
- порталы для открытых научных репозиториев

При этом именно внутрикорпоративные каталоги сейчас переживают бум расцвета, но со своей сильной спецификой на том что они ориентированы на интеграцию с разного рода корпоративными системами хранения и продуктами. И, как правило, предусматривают строгий контроль метаданных и их гармонизацию.

Есть определить основные характеристики этих всех продуктов то их отличия можно описать следующим образом.

Порталы открытых данных
- почти всегда публичны
- предполагают отсутствие контроля за первоисточниками
- включают метаданные характеризующие доступность данных, например, лицензии
- интегрированы на уровне сбора метаданных (OAI-PMH, CKAN Metadata и др)
- иногда предусматривают, но почти никогда не обеспечивают на 100% гармонизацию метаданных
- либо включают очень много наборов данных или фокус на конкретную область их применения (отрасль)

Порталы открытых научных данных (репозитории научных данных)
- почти всегда публичны
- не контролируют первоисточники, но устанавливают требования к структуре метаданных публикуемых материалов
- чаще всего созданы на базе репозиториев научных работ или связаны с ними общей логикой формирования метаданных
- почти всегда включают регистрацию уникальных ссылок (пермалинков) и инструменты генерации цитат в выбранном стиле для научного цитирования
- интегрированы на уровне сбора метаданных (OAI-PMH)

Внутрикорпоративные каталоги данных / порталы данных и системы метаданных
- непубличны
- интегрированы с внутренними озерами и данных и хранилищами данных
- предполагают полный или преимущественный контроль за хранимыми данными
- включают описания бизнес-словаря метаданных и гармонизацию метаданных

Из всего вышеперечисленного именно внутрикорпоративные каталоги данных - это самый трудоёмкий формат работы с данными именно из-за огромной работы с метаданными. Она требует выстраивания процессов так чтобы все изменения в таблицах регистрировались в каталоге в специальной форме описания метаданных. Это хорошо работает при небольшом числе контролируемых внутренних источников и плохо работает при большом числе внешних неконтролируемых источников данных.

Из открытых инструментов с открытым исходным кодом есть Apache Atlas [2] выступающий как репозиторий метаданных для контроля уровня чувствительности данных и Amundsen [3], для удобства специалистов по data science

Ссылки:
[1] https://engineering.fb.com/data-infrastructure/nemo/
[2] https://atlas.apache.org
[3] https://github.com/amundsen-io/amundsen

#opendata #data #opensource
Для тех кто хочет поработать с большими данными оцифрованных газет, Национальная библиотека Люксембурга опубликовала коллекцию датасетов отканированных газет 19-го века [1] сразу в нескольких форматах:
- от 250 мегабайт до 257 гигабайт отсканированных газет, максимальный за 10 лет (1860-1869)
- 2 гигабайта обработанных текстов за 38 лет (1841-1878)
- 125 мегабайт монографий за 228 лет (1690-1918)

Всё это данные высокого качества, с перепроверкой, вычисткой, в международных стандартах METS и ALGO. А также с открытыми лицензиями CC0.

Также на сайте у них есть API, ожидаются другие данные и открытый код публикуется на Github [2]

Можно лишь посетовать что про Россию там скорее всего немного и ничего на русском языке.

Ссылки:
[1] https://data.bnl.lu/data/historical-newspapers/
[2] https://github.com/natliblux

#opendata #openglam #data #libraries
Хорошо ли или плохо регулирование российской ИТ отрасли сейчас? Полезно ли было изменение схемы налогообложения?

Что-то всё хуже и хуже. Разработчики ПО с 1 января повышают цену на продукты продаваемые в России, поскольку закладывают туда НДС. Сегодня мне пришло такое письмо от Jetbrains.

У них одни из лучших продуктов для работы на многих языках программирования и не только, понятно что даже после повышения цен мы будем ими пользоваться. Но нельзя сказать что деятельность правительства реально помогает ИТ бизнесу

#it
Интернет архив ведет архивацию сайтов публикующих информацию о COVID-19. Их архив собран в специальной коллекции [1]. Анонс был ещё в феврале 2020 года [2] и было собрано уже 9019 сайтов на 51 языке, но, на удивление, нет ни одного веб сайта от России. Скорее всего потому что мало кто системно у нас в стране занимается архивацией сайтов на время COVID'а.

Если Вам не лень, потратьте немного времени и отправьте на архивацию те ресурсы про короновирус о которых Вы знаете, через форму отправки [3].

Если каждый раз заполнять форму тяжело, присылайте мне на [email protected] или в телеграм, мы соберем полный список ресурсов и отправим в IIPC и Archive.org для обязательной архивации.

Ссылки:
[1] https://archive-it.org/collections/13529
[2] https://netpreserveblog.wordpress.com/2020/02/13/cdg-collection-novel-coronavirus/
[3] https://docs.google.com/forms/d/e/1FAIpQLSc4jyson7OGxe8HWaAm2s5BWvAug8mgastWEtNxbFYQbZX62g/viewform

#digitalpreservation #archive
Новый термин RegTech, регуляторные технологии, о которых вышла публикация Regulatory Technology [1] из австралийского Council of Federal Financial Relations.

Если вкратце то это технологии позволяющие обеспечивать лучшее регулирование и достигать регуляторных целей.

В публикации практически все примеры из австралийского регулирования, однако основным рынком для продуктов RegTech называют США.

У RegTech много пересечений с технологиями мониторинга и контроля которые осуществляют органы власти, но, конечно, само это направление имеет собственную ценность.

Ссылки:
[1] https://www.pc.gov.au/research/completed/regulatory-technology

#regtech #governance #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Темы очередной еженедельной рассылки: #4. Государственные домены, непрозрачная информатизация Москвы и открытость законотворчества [1]. Её можно читать на сайте в substack.com [2] или подписавшись.

Ссылки:
[1] https://begtin.substack.com/p/4-
[2] https://begtin.substack.com
Минкомсвязь Минцифры России ищет 20 руководителей проектов и обещает платить от 200+ тысяч, большие проекты, сильную команду профессионалов, уникальные возможности и многое другое [1]

Столько всего интересного, я бы сам пошёл (подумал бы), но:
1) Я немного уже чувствую себя староватым когда надо руководить высоко-динамичными проектами
2) Часто чувствую себя что "моя чаша(-ка) уже переполнена", иначе говоря, слишком много своих мыслей чтобы реализовывать идеи других
3) Ничего нет там про открытые данные, очень большие данные и про этику тоже ничего
4) У меня уже есть много чем заняться;)

Но тем кто не связан семейными обязательствами, готовым работать по 7 дней в неделю, адреналиновым наркоманам с толерантностью к бюрократии - это самое оно.

P.S. К сожалению, это не реклама на канале за деньги или за плюшевые игрушки, рекламирую их бесплатно;)

Ссылки:
[1] https://digital.gov.ru/ru/ministry/vacancies/

#ministry #it
В мире довольно много цифровых репозиториев используемых исследователями. У них есть множество особенностей, в первую очередь связанных с работой с данными которые нельзя анонимизировать без потери смысла их применения, например, это касается медицинских данных.

Один из хороших примеров качественно проработанных репозиториев отраслевых исследовательских данных - это Health Data Innovation Gateway [1] в Великобритании.

В этом репозитории собрано 506 наборов данных, 48 инструментов от 371 зарегистрированных пользователей сделавших 107 запросов к непубличным данным. Проект создан UK Health Data Research Alliance [2] объединяющем более 30 медицинских исследовательских центров в США и управляемом/координируемом британским государственным исследовательским центром в области данных в медицине Health Data Research UK [3]

В чём важные отличия научных порталов/репозиториев данных?
1. Наборов данных в них может быть немного, но они хорошо выверены. Или если их много, то выверяются хотя бы ключевые. У них есть так называемые дата-сторожа (data custodians).
2. У наборов данных есть индикаторы качества метаданных (metadata quality) хотя бы по полноте заполненности метаданных с данным набором данных.
3. Практически всегда данные являются производным продуктом какого-либо проекта и от данных производными продуктами являются инструменты или публикации. В репозитории они связываются так чтобы можно было увидеть одно через другое

Практически все более-менее наполняемые научные репозитории создаются по инициативе тех кто платит деньги научным коллективам. В Великобритании - это Health Data Research UK (HDR UK), в Австралии CSIRO, в других странах иные центры научной координации и фонды финансирующие научные программы. В России - это как если РНФ или РГНФ или РФФИ или Минобрнауки обязали получателей научных грантов и субсидий сдавать данные в единый портал открытых данных или как это делают HDR UK, данных доступных по запросу.

Но во всех случаях справедливо то что без подобного управляющего (читай финансового) воздействия на научные учреждения сами они делятся данными куда менее охотно.

Ссылки:
[1] https://www.healthdatagateway.org/
[2] https://ukhealthdata.org
[3] https://www.hdruk.ac.uk/

#opendata #openaccess #data #digital
Почему я в последнее время так много внимания обращаю на ДИТ Москвы и московскую информатизацию? Свежая статья в Коммерсанте [1] о том что Мэрия Москвы потратит 155 млн руб.[2] на систему мониторинга пассажиропотока на основе MAC адресов устройств. Даже с учётом того что только в iPhone 12 рандомизация MAC включена по умолчанию, система эта будет работать как минимум в части дешёвых устройств андроид. Фактически - это новый имущественный ценз по тому насколько за человеком можно следить и то, временно, поскольку неизвестно сколь много пройдет времени и на всех устройствах не появится рандомизация MAC.

Хуже этого, безусловно, очередная ситуация введения очередного элемента слежки за гражданами в КИС МП (попробуйте найти хоть где-то описание того как эти данные хранятся и обрабатываются).

Но я приведу другой пример, вот контракт ДИТ Москвы с ООО "Элар" [3] [4] от 2 октября этого года. Контракт длинный, на 860 дней, контракт по оцифровке архивных данных Главного следственного управления ГУ МВД России по г. Москве.

Там есть очень много вопросов и нюансов, начиная с того что оцифровка всего архива уголовных дел - это большой объём персональных данных и продолжая тем что региональные управления МВД давно уже как федерального подчинения, так как Мэрия Москвы (в лице ДИТа Москвы) может тратить средства бюджета Москвы на создание такого архива? В целом - это нарушение 11 принципа бюджетной системы "Подведомственность расходов бюджетов" [5]

Другой вопрос в обосновании этой закупки. В техническом задании указаны следующие основания:
- постановление Правительства Москвы от 09.08.2011 № 349-ПП «Об утверждении Государственной программы города Москвы «Умный город»;
- соглашение об информационном взаимодействии между Правительством Москвы и Министерством внутренних дел Российской Федерации от 15.05.2012 № 77-581;
- поручение Мэра Москвы от 24.01.2019 № 4-15-92/9;
- пункт 11.1 плана мероприятий по закупке, созданию, внедрению и эксплуатации средств информационных технологий, связи и защиты информации в интересах Главного управления МВД России по городу Москве на 2019-2022 годы от 23.08.2019 № 4-14-1100/9.

И тут по шагам:
1. № 349-ПП от 09.08.2011 - это изначально программа "Информационный город" и только в таком неактуальном виде опубликована на сайте Мэрии Москвы [6], в сети можно поискать в более полном и актуальном объёме.
2. Соглашение между МВД России и Мэрий Москвы предполагает только обмен данными и доступ МВД России к данным Мэрии, а не финансирование работы для УВД по городу Москве [7]
3. А вот и самое интересное "поручение Мэра Москвы от 24.01.2019 № 4-15-92/9" не только не является нормативно-правовым документом, но и отсутствует в открытом доступе. Последние поручения Мэра Москвы публиковались в 2018 году [8]
4. Про позицию плана мероприятий я вообще молчу, основание закупки не сама позиция, а документ который должен её утверждать.

Итого что у нас, ИТ работы для территориального управления федерального органа власти оплачиваемые из бюджета субъекта федерации, со ссылками на несуществующие в открытом доступе документы и устаревшие версии не относящихся к этим услугам НПА.

Сколько здесь нарушений законов/правил/регламентов я сейчас судить не буду. Но зачем мэрии оплачивать оцифровку архива уголовных дел кроме как для получения доступа к этой информации. А зачем Мэрии Москвы доступ к архивной информации о уголовных делах московского УВД? Вот над этим стоит поразмыслить.

Ссылки:
[1] https://www.kommersant.ru/doc/4539137
[2] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0173200001420001132
[3] https://spending.gov.ru/goscontracts/contracts/2771087800020000119/
[4] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2771087800020000119
[5] https://budget.gov.ru/epbs/faces/p/Бюджетная система/Принципы бюджетной системы
[6] https://www.mos.ru/dit/documents/normativnye-pravovye-akty-goroda-moskvy/view/61220/
[7] https://docs.cntd.ru/document/537942874
[8] https://www.mos.ru/depnpol/documents/porucheniia-mera-moskvy/

#data #mvd #moscow #dit
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report