Ivan Begtin
8.01K subscribers
1.9K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
О том как в России обстоит дело с открытыми данными, приведу пример в виде портала открытых данных Правительства Москвы data.mos.ru

Если зайти на портал то можно обратить внимание что там опубликовано 993 набора данных [1]. Причём новые данные публикуются, согласно цифрам на странице описания портала [2] в течение 2020 года было раскрыто 153 новых датасета и их общее количество достигло 1250. Куда делись 257 наборов данных непонятно, но предположим что где-то цифры не сходятся и ошиблись в подсчётах.

За 2021 год новые данные не публиковались, фильтр по статусу "Новые" [3], выдаёт пустой список, но существующие данные обновляются, если не все то многие. Например, Адресный реестр объектов недвижимости города Москвы [4] обновляется ежесуточно, автоматически, примерно с недельной задержкой. На 17-е января данные там на 12 января [4].

Другой раздел - новости, не обновлялись с декабря 2019 года [5], а план публикации открытых данных был по ссылке [6], но в 2020 году его просто удалили.

Итого:
- план публикации открытых данных удалён
- новости не обновляются с декабря 2019 г.
- новые данные не публикуются с 2020 г.
- как минимум часть текущих данных обновляется

Итого портал существует, в чём то обновляется, но с нулевым развитием и раскрытием чего-то нового. Можно сказать что он частично заморожен и существует по инерционному сценарию.

При этом если сравнить московский портал открытых данных с порталами открытых данных Нью-Йорка [7], Лондона [8], Парижа [9], Пекина [10] и десятков других крупнейших городов мира, то с точки зрения объёмов опубликованных данных московский портал всё ещё выглядит неплохо, а с точки зрения новых и актуальных данных стремительно устаревает.

При том что он создавался до федерального портала, у него есть разработанный стандарт публикации данных [11], что редкость и для России и в мире, а сами данные публиковались автоматизировано и доступны через API, тоже довольно неплохое.

Ссылки:
[1] https://data.mos.ru/opendata?categoryId=241&IsArchive=true&IsActual=true
[2] https://data.mos.ru/about
[3] https://data.mos.ru/opendata?categoryId=241&IsNew=true
[4] https://data.mos.ru/opendata/60562/passport?versionNumber=3&releaseNumber=698
[5] https://data.mos.ru/news
[6] https://data.mos.ru/about/publicationplan
[7] https://opendata.cityofnewyork.us/
[8] https://data.london.gov.uk/
[9] https://opendata.paris.fr
[10] https://data.beijing.gov.cn/
[11] https://data.mos.ru/about/standarts

#opendata #moscow #citydata
Кстати, в 16 декабря Правительство РФ приняло постановление № 2314 Об утверждении Правил размещения и обновления федеральными органами исполнительной власти, органами исполнительной власти субъектов Российской Федерации, органами местного самоуправления или уполномоченными ими организациями информации о состоянии окружающей среды (экологической информации) на официальных сайтах в информационно-телекоммуникационной сети "Интернет" или с помощью государственных и муниципальных информационных систем, в том числе содержания информации о состоянии окружающей среды (экологической информации) и формы ее размещения [1]

Там много разного про публикацию экологической информации в том числе 17-й пункт
17. Экологическая информация размещается в сети "Интернет" в форме открытых данных в случае, если экологическая информация включена в перечень общедоступной информации о деятельности федеральных государственных органов, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных государственных органов, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации о деятельности органов государственной власти субъектов Российской Федерации и органов местного самоуправления, созданной указанными органами или поступившей к ним при осуществлении полномочий по предметам ведения Российской Федерации и полномочий Российской Федерации по предметам совместного ведения Российской Федерации и субъектов Российской Федерации, переданных для осуществления органам государственной власти субъектов Российской Федерации и органам местного самоуправления, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации, содержащей сведения из информационных ресурсов, реестров, регистров, ведение которых осуществляют государственные органы, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственные им федеральные государственные органы, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, утвержденные распоряжением Правительства Российской Федерации от 10 июля 2013 г. № 1187-р.

Там же таблица с перечнем данных которые подлежат публикации.

Надо сказать что язык у этого постановления абсолютно нечеловеческий, читать его очень тяжело, но важно что общедоступных данных о качестве жизни будет больше и даже в форматах открытых данных.

Ссылки:
[1] https://government.ru/docs/all/138391/

#opendata #opengov #lifequality #ecodata
В Великобритании HM Treasury (Казначейство) выпустили книгу/руководство The Rose Book: Guidance on knowledge asset management in government [1], как видно из названия, про управление активами знаний. Где можно обратить внимание что это не только копирайты, патенты, базы данных и торговые марки, но и экспертиза (люди) вовлеченные в эти процессы.

Сама книга это продолжение публикации Getting smart about intellectual property and other intangibles in the public sector [2] 2018 года о том как устроено управление интеллектуальной собственность гос-ва сейчас и рекомендации по развитию.

Например, инвентацизацию активов знаний они включили в Национальную стратегию данных Великобритании.

Ссылки:
[1] https://www.gov.uk/government/publications/knowledge-asset-management-in-government
[2] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/752003/Getting_smart_about_intellectual_property_and_other_intangibles_in_the_public_sector_-_Budget_2018.pdf

#opendata #knowledge #uk
У Clickhouse [1], несомненно одной из лучших OLAP баз данных приспособленных для аналитики, появился довольно интересный конкурент StarRocks [2]. СУБД совместимая с MySQL по синтаксису и протоколу, основанная на Apache Doris [3], когда-то известной под именем Palo и переданная в проект Apache компанией Baidu. Команда StarRocks пишут что взяли код Apache Doris в начале 2020 года и основательно его переписали и дополнили так что теперь только 40% кода идентично оригинальному проекту.

У StarRocks много многообещающих функций, например, query federation для прямого доступа к данным в MySQL или ElasticSearch без импорта данных, а также высокая производительность всех запросов.

У них в блоге большой обзор сравнения с Clickhouse при миграции баз данных в Trips.com [4], главные аргументы перехода там в том что StarRocks обеспечивает более быстрое выполнение запросов и то что у Clickhouse усечённый SQL диалект. Поэтому по всем параметрам на StarRocks стоит обратить внимание, особенно когда текущий стек данных основан на MySQL.

Правда, здесь важно помнить что Clickhouse в конце 2021 года привлек финансирование в 250 миллионов долларов США [5] и активно развивается. С точки зрения зрелости продукта, он конечно гораздо более пригоден для промышленной эксплуатации.

Ссылки:
[1] https://clickhouse.com
[2] https://www.starrocks.com
[3] https://doris.apache.org
[4] https://starrocks.medium.com/trip-com-starrocks-efficiently-supports-high-concurrent-queries-dramatically-reduces-labor-and-1e1921dd6bf8
[5] https://clickhouse.com/blog/en/2021/clickhouse-raises-250m-series-b/

#databases #data #startups #olap
По поводу принуждения к сдаче биометрии для получения Госуслуг [1] лично я считаю всё это ошибкой и принуждение к сдаче биометрических данных особенно. Причём ошибка эта двойная.

Первая её часть в том что если подталкиваешь к чему-то граждан то важна просветительская кампания которой не было, нет и, похоже, не планируется. Потому что найдутся те кто дойдет до Конституционного суда если их принуждать сдавать биометрию.

А вторая часть этой ошибки в том что тезисы о том что биометрия обеспечивает лучшую защиту очень спорный. Утечка биометрических данных невосполнима, лицо, отпечатки пальцев, голос и многое другое - не поменять и кроме биометрии есть и другие пути идентифицировать граждан/пользователей.

Я вообще не понимаю зачем именно гос-во ввязалось в создание ЕБС, сама идея с постепенным принуждением будет вызывать раздражение у граждан. Уже вызывает, на самом то деле. Граждане всё больше напрягаются на любые требования по сбору их личных данных и текущий подход по сбору биометрии ошибочен.

Ссылки:
[1] https://www.kommersant.ru/doc/5171552

#biometrics #security #authentication #government
В качестве небольшого пред-анонса, где-то через 1-2 недели планируем обновление DataCrafter'а в виде доступного сервиса идентификации типов данных. Сейчас в DataCrafter'е 76399 полей данных из которых 9722 автоматически классифицированы по классам вот [1]. Пока это делалось внутренним движком обрабатывающим данные в таблицах MongoDB и работающем по базе частично закодированных правил. Этот же движок делался для автоматизации анализа качества датасетов.

Этот код сейчас отчуждается и активно тестируется.

А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.

Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.

Ссылки:
[1] https://data.apicrafter.ru/class

#openservices #datacrafter #apicrafter #data #dataclassification
Forwarded from APICrafter
В каталог DataCrafter'а добавлен открытый набор данных Реестр обязательных требований для организаций в городе Москве [1] полученный с сайта Открытый контроль (knd.mos.ru). Набор данных включает 87 тысяч записей, общим объёмом 470 МБ в формате JSONL и в 20 МБ в сжатом виде. Данные содержат обязательные требования предъявляемые организациям в зависимости от вида их деятельности.

Данные доступны через:
- в виде пакета данных (ZIP архив)
- в виде JSON lines файла экспорта
- через API платформы

Набор данных можно использовать, например, для создания сервиса определения перечня требований к организации по виду деятельности. На его основе можно создать специальный телеграм бот, мобильное приложение или веб интерфейс отличный от того что уже реализовано на портале Открытый контроль.

Ссылки:
[1] https://data.apicrafter.ru/packages/mosknd

#opendata #moscow #data #knd
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts
Федеральное казначейство обновило систему торгов госимуществом torgi.gov.ru [1]. На ней даже есть раздел "Открытые данные", он обозначен, но пока неактивен. Обнадёживает что данные там скорее всего появятся и сама система работает не только как транзакционная система, но и как система раскрытия - предполагается общедоступным реестр договоров.

Ссылки:
[1] https://torgi.gov.ru/new/public

#opendata #fgis #torgi #property
В рубрике интересные наборы данных.

Политический журналист Derek Willis в течение нескольких лет заходил на сайты всех кандидатов в конгрессмены и партийных комитетов связанных с выборами и заполнял формы подписки на письма на специально созданный для этого email адрес. В итоге у него накопилась база в 100 000+ писем общим объёмом более 673 мегабайт. Об этом он пишет у себя в блоге [1] и выложил всю базу в открытый доступ [2] предварительно забрав её с помощью Google Takeout.

Забавный эксперимент который можно повторить и в наших реалиях, например, подписавшись на рассылки российских "инфоромалов" или разного рода религиозных групп или тех же кандидатов в депутаты/кого-там-ещё-выбирают и так далее.

Ссылки:
[1] https://createsend.com/t/t-97F63A7D578A8F0B2540EF23F30FEDED
[2] https://political-emails.herokuapp.com/emails

#opendata #datasets #email #politicaljournalism #datajournalism
Закрывается QRI [1], а на qri.cloud более нельзя размещать свои датасеты. QRI - это один из стартапов, публичный каталог данных, за которым я давно слежу. Проект существовал с 2016 года и удивительно что его создатели так и не привлекли инвестиций [2]. QRI позволяли подготовить данные для публикации с помощью довольно удобного инструмента QRI Desktop [3] или утилиту командной строки [4].

Например, если сравнивать QRI с Dolthub, Splitgraph и с Data.world, другими общедоступными каталогами данных, то им удалось привлечь финансирование и они продолжают развиваться.
А автор QRI делает два пессимистичных вывода что:
а) Данные - это не код (этот тезис понятный, но дискуссионный).
б) Сложно конкурировать с Web2 компаниями на стеке Web3 (этот тезис я не до конца понимаю)

В QRI было опубликовано 3,447 датасетов общим объёмом 49.2 гигабайта. Что, скажем честно, немного. К примеру в Splitgraph агрегирует 26 тысяч датасетов [5], в основном с порталов открытых данных США и Великобритании.

В DataCrafter'е у нас 3,4 терабайта данных [6] и 5972 набора данных, что, на самом деле, искусственное ограничение текущей архитектуры. В отличие от других каталогов данных DataCrafter базируется на NoSQL движке MongoDB, я рассказывал об этом на Smart Data Conf в презентации [7] и это даёт одновременно большие плюсы потому что данные не только плоские, а в DataCrafter'е больше половины данных это сложные структуры данных, не табличные. А с другой стороны это же и создает недостатки поскольку:
а) Стоимость хранения данных выше
б) У MongoDB есть ограничения числа коллекций на один экземпляр СУБД.

В остальном DataCrafter похож на Splitgraph. Нет данных от пользователей, только агрегируемые извне, ре-структурируемые и отдаваемые через API.

Возвращаясь к QRI я, по прежнему, удивлён что авторы закрывают его, а не перезапускают. Каталоги данных и технологии работы с ними сейчас на взлёте. Вообще на рынке работы с данными я вижу два восходящих тренда:
1) Технологии и продукты интегрированные в Modern Data Stack. Не "одна платформа/один продукт для всего", а именно что создание +1 компонента из которого дата инженеры собирают стек данных компании.
2) Альтернативные источники данных - в этом случае это data as a product, когда компания собирает какие-либо уникальные данные необходимые рынку. Более всего alternative data развито сейчас в финансовой сфере, особенно в сфере. Самый известный продукт в этой области - Quandl, купленный Nasdaq и превращённый в Nasdaq Data Link [8]

Ссылки:
[1] https://qri.io/winding_down
[2] https://www.crunchbase.com/organization/qri
[3] https://github.com/qri-io/desktop
[4] https://github.com/qri-io/qri
[5] https://www.splitgraph.com/explore
[6] https://data.apicrafter.ru/about
[7] https://www.beautiful.ai/player/-MtnRreZQZbCZH_PbKLf
[8] https://data.nasdaq.com/

#data #datacatalogs #qri #dataproducts
Киберспортсмен должен быть быстрым, выносливым и скоординированным.

Минспорта выпустили приказ от 01.12.2021 № 938 "Об утверждении федерального стандарта спортивной подготовки по виду спорта "компьютерный спорт"
(Зарегистрирован 11.01.2022 № 66814) [1] об этом уже написал tjournal.ru и другие издания.

Честно говоря даже не знаю как это прокомментировать.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202201130010?index=15&rangeSize=1

#humour #minsport #cybersport
Хочется едко пошутить, что если в России начнут отключать интернет, то майнеры не пострадают, потому что майнинг запретили раньше. А если по существу, то много что у нас запрещено, это не делает это "много что" менее популярным. Перевод криптовалюты из "серой" зоны в "чёрную" ничего хорошего не несет. Как майнили так и будут майнить, как использовали так и будут использовать. Появятся более хитрые обменники которые позволят пополнять криптокошельки.