Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Scheme flooding техника и одноимённый сервис [1] определения уникального идентификатора пользователя и то какие приложения установлены на его настольном компьютере. Работает через перебор протоколов по которым браузер запускает специализированные приложения такие как Zoom, Skype, Telegram и другие.

Результаты выглядят примерно вот так как на этой картинке. А подробнее в тексте авторов из [2] FingerpringJS

Работает на всех популярных браузерах кроме Opera (или с ним не тестили). Исходный код тестов открыт [3]


Ссылки:
[1] https://schemeflood.com/
[2] https://fingerprintjs.com/blog/external-protocol-flooding/
[3] https://github.com/fingerprintjs/external-protocol-flooding

#privacy #fingerprinting
Стал доступен текст Постановления Правительства РФ от 14 мая 2021 года №733 [1]. В тексте даны определения ряда понятий используемых в НСУД, в законопроекте поправок в 149-ФЗ.

Получается что сейчас постановление правительства дублирует положения проекта законопроекта. Документ уже подвергался критике экспертов [2], в том числе и довольно "циничной".


Ссылки:
[1] https://static.government.ru/media/files/UN7KKWcK3TgpjAmRcaTzRWUZezbIQQWf.pdf
[2] https://t.iss.one/smart_regulation/3449
[3] https://t.iss.one/CynExp/3241

#nsud #government #data
Особенность проектики проектирования регулирования данных в Великобритании, Австралии и ряда других стран анлосферы - это трёхэтапная разработка ключевых концептуальных документов.

На первом этапе инициируется создание концепции которая должна быть проработана достаточно чтобы её можно было бы обсуждать, но недостаточно для того чтобы принимать как есть.

На втором этапе интенсивный сбор обратной связи, запросами предложений и комментариев, предложений, идей и так далее. Активная работа с экспертами.

На третьем этапе подготовка Government Response на высказанные замечания, критику и идеи. В этом случае участвуют уже не только авторы первой версии концепции, но и представители власти ответственного органа.

В Великобритании только что опубликовали Government response to the consultation on the National Data Strategy [1], подробный документ-ответ на реакцию экспертов на национальную стратегию данных Великобритании, размещённую в сентябре 2020 года. Она была опубликована в начале сентября 2020 года, далее с 9 сентября по 9 декабря 2020 года (3 месяца) шёл сбор предложений и замечаний.

Это хороший пример того как работает медленная, но последовательная разработка законов в этой области.

Ссылки:
[1] https://www.gov.uk/government/consultations/uk-national-data-strategy-nds-consultation/outcome/government-response-to-the-consultation-on-the-national-data-strategy#conclusion-and-next-steps-delivering-the-national-data-strategy

#opendata #data #datastrategy
Коммерсант пишет [1] что Минцифры повторно направило в правительство законопроект, регулирующий оборот обезличенных данных в России. Согласно новому варианту, бизнес безвозмездно должен будет передавать властям такие данные россиян. Их сбор нужен государству, чтобы начать оказание цифровых услуг, считают эксперты. Но, по мнению бизнеса, инициатива затормозит развитие рынка больших данных и проектов в области искусственного интеллекта.

Если всё так, то затронет это, в первую очередь, весь крупный бизнес владельцев данных.

Интересно увидеть итоговый текст документа, если он у Вас есть - поделитесь, обсудим его вместе предметно.

Ссылки:
[1] https://www.kommersant.ru/doc/4731592

#data #regulation
В рубрике интересные наборы данных, большой набор данных Russian Open Speech To Text опубликованный на Github [1] и Azure Open Datasets [2]. Это большой набор данных используемый в задачах распознавания речи на русском языке, пригодный, в первую очередь, для задач обучения алгоритмов. Но также это один из немногих наборов данных созданный за счёт пожертвований пользователей, авторы с сентября 2019 года сумели собрать $608 [3], что может быть и не так много, но вполне неплохо для работы связанной со сбором данных.

Впрочем важнее что сам набор данных весьма интересный и довольно редкий. А если он окажется и полезным, то не жалко и поддержать его авторов.

Ссылки:
[1] https://github.com/snakers4/open_stt
[2] https://azure.microsoft.com/en-us/services/open-datasets/catalog/open-speech-to-text/
[3] https://opencollective.com/open_stt

#opendata #datasets
Большой доклад 5G
Geothenological competition in the digital age [1] вышел у Booz Allen Hamilton.

Доклад про текущее состояние технологий 5G с позиционированием их как продолжение критерия измерения технологического лидерства стран. Доклад с рекомендациями для США, с явным посылом что США делят первое/второе место с Китаем.

Россия там, также упомянута, так что нельзя сказать что у нас тут полная технологическая отсталость. Про технологии и ПО работы с данными в сетях 5G там немного, но тоже есть. И, нельзя не обратить внимание что у доклада добротная инфографика.

Ссылки:
[1] https://www.boozallen.com/content/dam/boozallen_site/ccg/pdf/publications/5g-policy-paper.pdf

#5g #tech
В рубрике интересные наборы данных, коллекция 25 Гигабайт изображений сервиса Unsplash [1]. Это больше 2-х миллионов изображений, 5 миллионов ключевых слов и 250 миллионов поисковых запросов. Если Вы разрабатываете разного рода алгоритмы распознавания образов и тд., то это хорошая точка старта, но, конечно, не единственная.

Набор данных свободен для любого некоммерческого использования.

Ссылки:
[1] https://unsplash.com/data

#opendata #images #datasets
Explorium, стартап по подготовке данных (data preparation) получил очередной раунд венчурного финансирования в 75 миллионов USD [1] что теперь составляет 127 миллионов USD вложенных инвесторами в этот продукт. Продукт у них интересный [2], в виде создания платформы для очистки, обработки и, что важно, обогащения данных для чего они используют множество открытых и коммерческих источников дополняя данные загруженные на их платформу сведениями о компаниях, статистике в геопривязке, информацию о людях и не только. У них весьма большая External Data Library [3].

Задачи которые они решают повсеместны, большинство решает их используя собственный код, а тут комплексное и, скорее всего, дорогое решение. В России, конечно,не применимое в силу импортозамещения и ограничений в обработке данных за пределами российской юрисдикции.

Интереснее то что таких инструментов всё больше и значительные инвестиции идут в облачные продукты.

Ссылки:
[1] https://venturebeat.com/2021/05/18/data-prep-platform-explorium-raises-75m/
[2] https://www.explorium.ai/
[3] https://www.explorium.ai/platform-data-engine/

#tools #software #startups
На самом деле я даже не знаю как это прокомментировать. Как то что в долларовом эквиваленте это около 7.4 миллионов и что это не так много для глобальной системы, так и то что за перечисленные работы это выглядит слегка ... многовато.

#fgis #itspending
Forwarded from Госзатраты
Министерство цифрового развития, связи и массовых коммуникаций РФ заключило крупный госконтракт. 407 млн рублей из федерального бюджета потратят на развитие ФГИС «Единая система идентификации и аутентификации в инфраструктуре, обеспечивающей информационно-технологическое взаимодействие информационных систем, используемых для предоставления государственных и муниципальных услуг в электронной форме» (ЕСИА).

Исполнителем в рамках соглашения выступает ПАО «Ростелеком». Закупка проводилась у единственного поставщика. Срок действия контракта — до 15 ноября 2021 года. За оставшиеся шесть месяцев, по условиям контракта, исполнитель среди прочего обязуется разработать дизайн-макеты для экрана раздела ЕСИА, разработать и модернизировать одну веб-страницу раздела ЕСИА, улучшить часть ее функций и мобильное приложение.

Подробности — на сайте «Госзатраты»: https://amp.gs/bvKC
Land Portal Foundation совместно с Open Data Charter опубликовали руководство по работе с открытыми данными о земле. Руководство ориентировано на власти стран ответственные за работу с земляными участками, это службы кадастров, министерства ответственные за лесную политику и так далее.

Авторы доклада одновременно являются создателями Land Portal [2], большого проекта по мониторингу использования земли по всему миру. России и развитых стран там нет, а вот страны третьего мира почти все.

А для тех кто интересуется этой темой, вдогонку, добавлю что есть такой проект ка LandMatrix [3] где осуществляют мониторинг сделок с землёй и вот тут про Россию есть данные. Например вот [4], контракт на посадку леса, похоже эти сведения собирают вручную. Судя по всему их региональный партнер на Украине, потому что именно по Украине более всего внесено сделок в восточной европе, а по России всего 381 сделка.

Вообще же проектов по мониторингу использования земли всё больше и эти два далеко не единственные.

Ссылки:
[1] https://landportal.org/library/resources/open-data-improved-land-governance
[2] https://landportal.org
[3] https://landmatrix.org
[4] https://landmatrix.org/deal/7836/

#opendata #land
Незаслуженно пропущенная мной новость, появление Berlin Declaration on Digital Society and Value-based Digital Government [1]
По русски можно перевести как берлинская декларация о цифровом обществе и Цифровом государстве (правительстве) основанном на ценностях.

Декларация про применение европейских ценностей и фундаментальных прав при реализации цифрового государства, подписана всеми странами членами Евросоюза.

В декларации чётко артикулируются вопросы открытости, в том числе поддержке развития открытости данных и открытости кода. Отдельно упоминаются value-based, human-centred AI systems (ценностные человекориентированные системы ИИ).

Документ полезный, для понимания стратегий Евросоюза, также стоит посмотреть на их интерактивную инфографику на портале открытых данных Испании [2].

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/news/berlin-declaration-digital-society-and-value-based-digital-government
[2] https://datos.gob.es/en/noticia/data-related-strategies-will-mark-2021

#opendata #opengov #opensource
Ещё один незаслуженно не упомянутый мною документ Silo Busting: The Challenges and Success Factors for Sharing Intergovernmental Data [1] от IBM Center for The Business of Government.

О том как устроены практики обмена данными между органами власти в США, какие продукты на данных создаются и как органы власти договариваются между собой. Весь документ про американский контекст, но с большим количеством примеров. Например, там есть о том что во всех штатах США есть системы Statewide Longitudinal Data Systems (SLDS) в которых собираются данные о человеке начиная со школы, продолжая высшим/профессиональным образованием и местами работы. Это не только позволяет делать неразрывной статистику образования и занятости, но и даёт возможность создания проектов кросс-секторного типа.

Пример: Massachusett’s Opioid Integrated Data Sharing Initiative где в одной базе собираются данные из десятков разных баз данных: баз ветеранов, баз раковых больных, тюремных систем, госпитальных систем, баз регистрации рождений, SLDS и ещё много чего.
И на основе этого принимаются решения по профилактике преступлений, индивидуальной поддержке и тд.

Там ещё много примеров, полезное чтение о том что возможно на данных когда это юридически возможно.

Честно говоря задача практически не решаемая простым образом на уровне региональных властей в России. Везде ограничения самым главным из которых является закон о персональных данных.

Ссылки:
[1] https://www.businessofgovernment.org/sites/default/files/Silo%20Busting.pdf

#opendata #data #sharing #ibm #usa #usecases
Департамент субсидирования мертвых лошадей
Департамент развития мертвых лошадей
Департамент финансирования мертвых лошадей
И мертволошадиный жокей

Как то собрались написать методические рекомендации
По ускоренному умервщлению лошадиной популяции
Редко, но теперь я буду разбавлять скучные новости скучными стихами из @ministryofpoems
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Свежий проект от команды Github'а - FlatData [1] как набор инструментов для сбора и обработки данных в git репозиториях. Это подход который когда-то продвигал Simon Wilson [2], автор многих инструментов и проектов на данных. Действительно Github с его набором действий очень подходит для автоматизации сбора данных. У него же есть пример автоматизации сбора данных о пожарах в Калифорнии [3].

Не менее интересный инструмент Flat Viewer для просмотра простых (плоских) файлов [4].

Инструменты интересные, и открытым кодом и интегрированностью в Github, хотя вот скажу честно для работы с относительно большими наборами данных они уже ограничены.

Я могу сказать что про эти инструменты что про десятки других что я видел за последние годы, у них примерно одна и та же проблема - работа с плоскими данными. Данные с которыми я и моя команда работаем, к примеру, почти всегда не_плоские. Это сложные JSON или XML объекты декомпозиция которых назад в плоские таблицы - это большая работа, трудоёмкая и ресурсозатратная. Часто проще с самого начала сохранять сложность первичных данных, преобразуя их только тогда когда есть в этом необходимость. Для такого не подходят CSV и плоский JSON, а скорее файлы построчного JSON lines и BSON (используется в MongoDB)

Я сам выложил в открытый код как минимум 2 инструмента с таким подходом:
- undatum [5] - утилита для обработки данных, с акцентом как раз на JSON lines и BSON.
- apibackuper [6] - утилита для автоматизации выгрузки наборов данных из API с экспортом данных в JSON lines.

С другой стороны я знаю немало инициатив как раз по отказу от платформ вроде Github'а для хранения данных и использованию альтернатив. Например, Giftless [7] от Datopian даёт возможность эмулировать Git LFS поверх локального хранилища и хранилищ Google, Amazon и Azure, тем самым мигрируя с хранилища Github.

В любом случае современные проекты на данных - это чаще конструкторы. Иногда можно и нужно писать свой код, но чаще итоговый продукт или решение - это сборная солянка из множество компонентов.

Ссылки:
[1] https://octo.github.com/projects/flat-data
[2] https://simonwillison.net/2020/Oct/9/git-scraping/
[3] https://github.com/simonw/ca-fires-history
[4] https://flatgithub.com/the-pudding/data
[5] https://github.com/datacoon/undatum/
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/datopian/giftless

#opendata #datatools #opensource #git #github
В рубрике интересные наборы данных Longitudinal Employer-Household Dynamics [1] база бюро переписи США с данными о переходах работников с одного места работы на другое, с трудоустройством выпускников ВУЗов, со сведениями о рабочей миграции.

Данные интересны во многих разрезах, но, особенно, в разрезе конкретного образовательного учреждения, выпускников по направлениям в сопоставлении с направлениями занятости и в контексте рабочей миграции между территориями, можно увидеть разрезе отрасли, города и вида занятости.

На этих и других данных в открытой части базы данных переписи в США есть такой проект как DataUSA [2] где собраны данные с детализацией до муниципалитетов в США (города, графства и тд.) и есть возможность увидеть данные по 7000+ университетам и колледжам и 319 индустриям в весьма детальных цифрах и разрезах.

В России единственным более-менее приближенным аналогом был проект Graduate.edu.ru (сайт более не работает). Но его Минобрнауки перестали поддерживать уже несколько лет назад, без объяснения причин

Ссылки:
[1] https://lehd.ces.census.gov
[2] https://datausa.io

#opendata #education #workforce
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing