Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Вышел свежий законопроект про НСУД [1], я набросал свои мысли по его поводу, формат достаточно большой чтобы не поместилось в канал, но недостаточно для рассылки, поэтому в блоге [2] для разнообразия.

Мне скорее не нравится то что получается чем нравится. Опять нет ничего про открытость данных, в закон вписывают одну ФГИС и одну ГИС, а Правительству РФ дают ещё один инструмент прямого влияния на муниципалитеты.

Ссылки:
[1] https://regulation.gov.ru/p/115660
[2] https://begtin.tech/nsudlaw/

#data #nsud
Одним из моих первых официальных мест работы в конце 90-х была небольшая телеком компания сидевшая в НИИ Радио, где я был сисадмином всякого телеком оборудования. В одной комнате сидели мы, в составе 4-5 человек собиравшие стенды из маршрутизаторов Motorola, адаптеров Cronyx и другого железа, которое потом развертывалось на далёких объектах для организации IP телефонии через спутниковые линки, а в соседней комнате уже какие-то дельцы (не удивлюсь что тогда бывшие или действующие сотрудники НИИ) организовали риэлторскую фирму. В самом институте только в нескольких местах/этажах тогда теплилась жизнь, так что мне ещё повезло что я был занят реальным делом.

Мне тогда довелось поездить по сибирским городам с ворохом железа в руках, поночевать в контейнерах, постах охраны, в серверных, понастраивать мониторинг оборудования через Tcl/Tk + Expect, постичь дзен в программировании на zsh и настройках маршрутизаторов и ещё много всего пригодившегося в будущем когда я много лет занимался программированием и автоматизацией тестирования ПО.

Всех сопричастным с Днём Радио!
На самом деле картинка не очень показательна, интереснее эти цифры выглядели бы в пропорциях:
- к расходам других крупнейших лоббистов
- к выручке этих компаний
- к капитализации этих компаний
и тд.

К сожалению, по России даже косвенно очень сложно измерить масштаб лоббирования цифровым бизнесом. Бизнес-модель другая, не цифровые конгломераты оказывают наибольшее влияние, а гос[банки/предприятия/корпорации] уходят в цифру.

#lobbying #it #digital
Расходы технологических компаний на лоббирование своих интересов

Не думаю, что какое-то значение имеет сама сумма расходов, но тренд показателен.

@ventureinpics
В продолжение о подходах к каталогизации данных, управлении метаданными, в Towards Data Science заметка от Prukalpa, сооснователя Atlan, про проблемы с документированием данных и их подход к этой теме [1].

Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.

Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]

Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.

Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)

Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.

Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?

Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/

#opendata #datasets
Небольшая команда из стартапа Quickwit использовали базу Common Crawl (бесплатный открытый поисковый индекс) и создали игрушку автоподсказчик продолжения поисковой фразы [1].

Сервис позволяет продолжать слова существительными или прилагательными, например "Cats are carnivores" или "Cats are awesome".
В этом демо у них использовались текст около 1 миллиарда веб страниц, с общим индексом в 6.8 терабайт.

А стоимость всей инфраструктуры выходит в $1000 ежемесячно. Вообще больше всего это похоже на рекламу Amazon и их сервисов работы с данными, потому что при желании можно было бы существенно расходы сократить, но усилий надо было бы приложить существенно больше.

В любом случае получилась небольшая технологическая игрушка, весьма забавная.

Ссылки:
[1] https://common-crawl.quickwit.io
Это как никогда острая и болезненная тема в том что первой реакцией государства на трагические события оказывается реакция по ограничению прав и свобод. Ключевая проблема не в анонимности в сети, а в отсутствии профилактики преступлений, в значительном падении роли участковых и так далее.

#privacy #anonymity
Forwarded from DRC LAW: IT-юристы
Опять началась широкая дискуссии по поводу анонимности в интернете.
После трагедии в Казане спикер Госдумы Вячеслав Володин предложил ограничить анонимность в Интернете. Покончить с анонимностью в соцсетях также предложили и в Общественной палате России, ссылаясь на международный опыт, в том числе опыт Австрии и Южной Кореи.

Следует сказать, что это уже не первая и не последняя попытка лишения российских пользователей анонимности. Власти и не отрицают своего желания деанонимизировать каждого в интернете, и даже несколько лет назад приняли неработающий закон об обязательной идентификации пользователей мессенджеров.

Однако все отсылки на международную практику являются не более чем манипуляцией общественным сознанием, не имеющей ничего общего с реальностью.

В 2019 году правящая партия Правительство Австрии действительно продвигала план по борьбе с языком ненависти, заставляя пользователей социальных сетей и онлайн-комментаторов сообщать подробности о своей реальной личности. Кроме того в том же году Правительство представило федеральный законопроект, получивший название «запрет на использование цифровых масок», который требовал бы от пользователей регистрацию на платформе и форумах с указанием имена и адреса, прежде чем они смогут оставить один комментарий. Однако после серьезной волны общественного обсуждения, Правительство Австрии отказалось от этих планов.

А в Южной Кореи Конституционный суд страны еще в 2012 году отменил нормы закона, обязывавшие интернет-пользователей, комментирующих сообщения, раскрывать свои настоящие имена. В постановлении было указано, что эти нормы ограничивают свободу слова в Южной Корее.

Как неоднократно отмечали в ООН, право на анонимность является фундаментальным правом человека и представляет из себя гарантию для реализации иных прав человека, в т.ч. права на свободу мнения и свободу слова.
Так что у вас есть право на анонимность. И любое наступление на это право следует воспринимать как наступление на базовые права человека, несовместимое с международными конвенциями. Не стоит обманывать себя самих. И ни в коем случае не давайте обманывать себя другим. Никакая деанонмизация не сделает нашу жизнь в онлайн или в оффлайне боле безопасной.
В рубрике интересных наборов данных данные Управления транспортной безопасности США которые еженедельно в PDF форматах публикуют статистику по пересечению границы США [1] с разбивкой до часа и конкретного терминала. ИТшник Mike Lorengo написал код по преобразованию этих документов в машиночитаемую форму и опубликовал вместе с данными [2] на Github и написал об этом всём на Reddit [3].

Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.

Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.

Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].

Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.

Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] https://03samara.ru/page/operativnaja-svodka

#timeseries #data
Прошло обсуждение о госполитике по доступу к информации и о мировых трендах сферы

Министерство информации и общественного развития РК и Центр прикладных исследований «Талап» совместно провели в онлайн-формате круглый стол «Государственная политика доступа к информации: Ситуация в Казахстане и мировые тренды».
Во время мероприятия директор Департамента развития коммуникаций государства и общества МИОР РК Бекзат Рахимов подробно рассказал о проекте «Годовой отчет о сотоянии сферы доступа к информации в Республике Казахстан» и презентовал его основные тезисы.
С темой «Открытые и большие данные в государственном управлении» выступил руководитель ассоциации участников рынка данных России Иван Бегтин.
Запись трансляции доступна по ссылке: ⤵️
https://youtu.be/-qGpmOb8O3g

@aqparatqogam
Observable [1], проект красивых интерактивных записных книжек (notebooks) по визуализации данных открыли код их библиотеки кода для Javascript, Observable Plot [2] используемой ими в их проекте. Библиотека выглядит очень привлекательно, а открытый код позволяет использовать те же визуализации что в коммерческом продукте Observable.



Ссылки:
[1] https://observablehq.com/
[2] https://observablehq.com/@observablehq/plot

#opensource #datavis
Начну неделю с ноты юмора и почти оффтопика и раскрыть что вот уже 10 лет пишу стихи и мелкое прозаическое творчество про государство. В 2019 году в Точке Кипения в АСИ появилась выставка Музей бюрократической культуры [1] и несколько лет пишу эти стихи в телеграм канал Министерство стихов [2]. В музее тщательное отобранные, лучшие произведения, а в канале вперемешку всякого, чаще посредственное, чем шедевры, поскольку сбрасываю я туда стихи и мелкую прозу без детальной вычитки и тд.

Иногда, реже, небольшие зарисовки как, например, Выездная виза [3] появляются ещё где-то, но в основных моих рабочих каналах блогах и рассылках.

Чаще всё написано довольно иронично, иногда до сарказма, иногда, очень редко удаётся написать что-то "доброе". В любом случае все совпадения случайны, при написании стихов ни одного кота не пострадало (с).

Признаться я всё не решаюсь собрать всё это в какой-то единый ресурс, нехватает времени и есть сомнения в большой исторической ценности этого, но надеюсь что написанное порадует любителей наблюдать за современной бюрократической культурой.


Эй, гражданский! Ты, ты не мешкай
Важный станешь, а не просто пешкой
Да забудь ты про картины свои и скульптуры
Любуйся! Красуйся! Впитывай!
Национальный музей бюрократической культуры!

Всё настоящее, без дури и липы
Видишь сгорбленная фигура над бумагой кипы?
Заполняет не абы что, а пожарные инструкции
Требует трудового законодательства конструкция

А вот экспонат, чиновник старой закалки
Опытен, хитёр и не без смекалки
Смотри, в текстах зачищает точки и запятые
Эй, не читай, все на сложные слова заменил простые

Эй, гражданский, не беги! Это же ностальгия!
И не надо мне тут про аллергию!
А то впишу сейчас тебе административное нарушение
За несанкционированное покидание музейного помещения!

Ссылки:
[1] https://ivanbegtinmuseum.tilda.ws/
[2] https://t.iss.one/ministryofpoems
[3] https://te.legra.ph/Vyezdnaya-viza-01-25

#poems #humour
Сразу несколько новых регуляторных документов, Постановлений Правительства про данные и информационные системы:
О генсхеме развития сетей связи и инфраструктуры хранения и обработки данных в РФ
Постановление Правительства Российской Федерации от 04.05.2021 № 703 "О федеральной государственной информационной системе "Генеральная схема развития сетей связи и инфраструктуры хранения и обработки данных Российской Федерации" [1]

О правилах проверки во ФГИС ЕФИР
Постановление Правительства Российской Федерации от 04.05.2021 № 715 "Об утверждении Правил проведения органами и организациями, указанными в статье 10 Федерального закона "О едином федеральном информационном регистре, содержащем сведения о населении Российской Федерации", проверки полноты, актуальности и достоверности сведений о населении Российской Федерации, предусмотренных в соответствии со статьей 10 указанного Федерального закона к направлению из государственных информационных систем данных органов и организаций для формирования и ведения единого федерального информационного регистра, содержащего сведения о населении Российской Федерации, а также при необходимости размещения в указанных государственных информационных системах ранее не размещенных сведений о населении Российской Федерации" [2]

А также Правительство утвердило положение о Единой информационной платформе управления данными [3] но об этом есть только новость на сайте Правительства РФ, но нет ещё самого документа. Ждём его на pravo.gov.ru.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202105130006
[2] https://publication.pravo.gov.ru/Document/View/0001202105120021
[3] https://government.ru/news/41888/

#nsud #data #regulation
Deep fake Geography (география дипфейков) это участившиеся случаи подлога спутниковых снимков с помощью искусственного интеллекта [1]. Об этом в статье A growing problem of ‘deepfake geography’: How AI falsifies satellite images [1] от Kim Eckart из Университета Вашингтона.

В статье приводится несколько примеров когда специальный алгоритм вносит в снимки несуществующие элементы которые потом невозможно доказать ненатренированному глазу. А с развитием технологий есть вероятность что и натренированному глазу и алгоритмам выявления дипфейков их не обнаружить.

Подробнее об этой проблеме в статье Deep fake geography? When geospatial data encounter Artificial Intelligence [2]

Тема довольно серьёзная, в связи с тем что многие страны до сих пор заинтересованы в сокрытии информации о многих объектах на своей территории. Например, военных объектов или тайных баз инопланетян. Как бы то ни было, есть реальный риск давления правительств некоторых стран для дипфейковости снимков некоторых участков снимаемых основными коммерческими поставщиками спутниковых данных.

Ну и, конечно, не всякому спутниковому кадру в СМИ и соцсетях можно верить.

Ссылки:
[1] https://www.washington.edu/news/2021/04/21/a-growing-problem-of-deepfake-geography-how-ai-falsifies-satellite-images/
[2] https://www.tandfonline.com/doi/full/10.1080/15230406.2021.1910075

#data #ai #deepfakes
Scheme flooding техника и одноимённый сервис [1] определения уникального идентификатора пользователя и то какие приложения установлены на его настольном компьютере. Работает через перебор протоколов по которым браузер запускает специализированные приложения такие как Zoom, Skype, Telegram и другие.

Результаты выглядят примерно вот так как на этой картинке. А подробнее в тексте авторов из [2] FingerpringJS

Работает на всех популярных браузерах кроме Opera (или с ним не тестили). Исходный код тестов открыт [3]


Ссылки:
[1] https://schemeflood.com/
[2] https://fingerprintjs.com/blog/external-protocol-flooding/
[3] https://github.com/fingerprintjs/external-protocol-flooding

#privacy #fingerprinting
Стал доступен текст Постановления Правительства РФ от 14 мая 2021 года №733 [1]. В тексте даны определения ряда понятий используемых в НСУД, в законопроекте поправок в 149-ФЗ.

Получается что сейчас постановление правительства дублирует положения проекта законопроекта. Документ уже подвергался критике экспертов [2], в том числе и довольно "циничной".


Ссылки:
[1] https://static.government.ru/media/files/UN7KKWcK3TgpjAmRcaTzRWUZezbIQQWf.pdf
[2] https://t.iss.one/smart_regulation/3449
[3] https://t.iss.one/CynExp/3241

#nsud #government #data
Особенность проектики проектирования регулирования данных в Великобритании, Австралии и ряда других стран анлосферы - это трёхэтапная разработка ключевых концептуальных документов.

На первом этапе инициируется создание концепции которая должна быть проработана достаточно чтобы её можно было бы обсуждать, но недостаточно для того чтобы принимать как есть.

На втором этапе интенсивный сбор обратной связи, запросами предложений и комментариев, предложений, идей и так далее. Активная работа с экспертами.

На третьем этапе подготовка Government Response на высказанные замечания, критику и идеи. В этом случае участвуют уже не только авторы первой версии концепции, но и представители власти ответственного органа.

В Великобритании только что опубликовали Government response to the consultation on the National Data Strategy [1], подробный документ-ответ на реакцию экспертов на национальную стратегию данных Великобритании, размещённую в сентябре 2020 года. Она была опубликована в начале сентября 2020 года, далее с 9 сентября по 9 декабря 2020 года (3 месяца) шёл сбор предложений и замечаний.

Это хороший пример того как работает медленная, но последовательная разработка законов в этой области.

Ссылки:
[1] https://www.gov.uk/government/consultations/uk-national-data-strategy-nds-consultation/outcome/government-response-to-the-consultation-on-the-national-data-strategy#conclusion-and-next-steps-delivering-the-national-data-strategy

#opendata #data #datastrategy