Ivan Begtin

Scheme flooding техника и одноимённый сервис [1] определения уникального идентификатора пользователя и то какие приложения установлены на его настольном компьютере. Работает через перебор протоколов по которым браузер запускает специализированные приложения такие как Zoom, Skype, Telegram и другие.

Результаты выглядят примерно вот так как на этой картинке. А подробнее в тексте авторов из [2] FingerpringJS

Работает на всех популярных браузерах кроме Opera (или с ним не тестили). Исходный код тестов открыт [3]

Ссылки:
[1] https://schemeflood.com/
[2] https://fingerprintjs.com/blog/external-protocol-flooding/
[3] https://github.com/fingerprintjs/external-protocol-flooding

#privacy #fingerprinting

1.7K viewsIvan Begtin, 17:04

Ivan Begtin

Forwarded from Ассоциация участников рынка данных

Стал доступен текст Постановления Правительства РФ от 14 мая 2021 года №733 [1]. В тексте даны определения ряда понятий используемых в НСУД, в законопроекте поправок в 149-ФЗ.

Получается что сейчас постановление правительства дублирует положения проекта законопроекта. Документ уже подвергался критике экспертов [2], в том числе и довольно "циничной".

Ссылки:
[1] https://static.government.ru/media/files/UN7KKWcK3TgpjAmRcaTzRWUZezbIQQWf.pdf
[2] https://t.iss.one/smart_regulation/3449
[3] https://t.iss.one/CynExp/3241

#nsud #government #data

1.4K viewsIvan Begtin, 08:56

Ivan Begtin

Особенность проектики проектирования регулирования данных в Великобритании, Австралии и ряда других стран анлосферы - это трёхэтапная разработка ключевых концептуальных документов.

На первом этапе инициируется создание концепции которая должна быть проработана достаточно чтобы её можно было бы обсуждать, но недостаточно для того чтобы принимать как есть.

На втором этапе интенсивный сбор обратной связи, запросами предложений и комментариев, предложений, идей и так далее. Активная работа с экспертами.

На третьем этапе подготовка Government Response на высказанные замечания, критику и идеи. В этом случае участвуют уже не только авторы первой версии концепции, но и представители власти ответственного органа.

В Великобритании только что опубликовали Government response to the consultation on the National Data Strategy [1], подробный документ-ответ на реакцию экспертов на национальную стратегию данных Великобритании, размещённую в сентябре 2020 года. Она была опубликована в начале сентября 2020 года, далее с 9 сентября по 9 декабря 2020 года (3 месяца) шёл сбор предложений и замечаний.

Это хороший пример того как работает медленная, но последовательная разработка законов в этой области.

Ссылки:
[1] https://www.gov.uk/government/consultations/uk-national-data-strategy-nds-consultation/outcome/government-response-to-the-consultation-on-the-national-data-strategy#conclusion-and-next-steps-delivering-the-national-data-strategy

#opendata #data #datastrategy

GOV.UK

Government response to the consultation on the National Data Strategy

1.7K viewsIvan Begtin, 09:35

Ivan Begtin

Коммерсант пишет [1] что Минцифры повторно направило в правительство законопроект, регулирующий оборот обезличенных данных в России. Согласно новому варианту, бизнес безвозмездно должен будет передавать властям такие данные россиян. Их сбор нужен государству, чтобы начать оказание цифровых услуг, считают эксперты. Но, по мнению бизнеса, инициатива затормозит развитие рынка больших данных и проектов в области искусственного интеллекта.

Если всё так, то затронет это, в первую очередь, весь крупный бизнес владельцев данных.

Интересно увидеть итоговый текст документа, если он у Вас есть - поделитесь, обсудим его вместе предметно.

Ссылки:
[1] https://www.kommersant.ru/doc/4731592

#data #regulation

Коммерсантъ

Пишите в обезличку

Власти бесплатно соберут с бизнеса данные россиян

1.5K viewsIvan Begtin, 11:24

Ivan Begtin

В рубрике интересные наборы данных, большой набор данных Russian Open Speech To Text опубликованный на Github [1] и Azure Open Datasets [2]. Это большой набор данных используемый в задачах распознавания речи на русском языке, пригодный, в первую очередь, для задач обучения алгоритмов. Но также это один из немногих наборов данных созданный за счёт пожертвований пользователей, авторы с сентября 2019 года сумели собрать $608 [3], что может быть и не так много, но вполне неплохо для работы связанной со сбором данных.

Впрочем важнее что сам набор данных весьма интересный и довольно редкий. А если он окажется и полезным, то не жалко и поддержать его авторов.

Ссылки:
[1] https://github.com/snakers4/open_stt
[2] https://azure.microsoft.com/en-us/services/open-datasets/catalog/open-speech-to-text/
[3] https://opencollective.com/open_stt

#opendata #datasets

GitHub

GitHub - snakers4/open_stt: Open STT

Open STT. Contribute to snakers4/open_stt development by creating an account on GitHub.

1.6K viewsIvan Begtin, 13:06

Ivan Begtin

Большой доклад 5G
Geothenological competition in the digital age [1] вышел у Booz Allen Hamilton.

Доклад про текущее состояние технологий 5G с позиционированием их как продолжение критерия измерения технологического лидерства стран. Доклад с рекомендациями для США, с явным посылом что США делят первое/второе место с Китаем.

Россия там, также упомянута, так что нельзя сказать что у нас тут полная технологическая отсталость. Про технологии и ПО работы с данными в сетях 5G там немного, но тоже есть. И, нельзя не обратить внимание что у доклада добротная инфографика.

Ссылки:
[1] https://www.boozallen.com/content/dam/boozallen_site/ccg/pdf/publications/5g-policy-paper.pdf

#5g #tech

1.8K viewsIvan Begtin, 14:50

Ivan Begtin

В рубрике интересные наборы данных, коллекция 25 Гигабайт изображений сервиса Unsplash [1]. Это больше 2-х миллионов изображений, 5 миллионов ключевых слов и 250 миллионов поисковых запросов. Если Вы разрабатываете разного рода алгоритмы распознавания образов и тд., то это хорошая точка старта, но, конечно, не единственная.

Набор данных свободен для любого некоммерческого использования.

Ссылки:
[1] https://unsplash.com/data

#opendata #images #datasets

Unsplash

Unsplash Dataset | The world’s largest open library dataset

Train and test models using the largest collaborative image dataset ever openly shared. The Unsplash Dataset is created by 250,000+ contributing photographers and billions of searches across thousands of applications, uses, and contexts.

1.6K viewsIvan Begtin, 14:57

Ivan Begtin

Explorium, стартап по подготовке данных (data preparation) получил очередной раунд венчурного финансирования в 75 миллионов USD [1] что теперь составляет 127 миллионов USD вложенных инвесторами в этот продукт. Продукт у них интересный [2], в виде создания платформы для очистки, обработки и, что важно, обогащения данных для чего они используют множество открытых и коммерческих источников дополняя данные загруженные на их платформу сведениями о компаниях, статистике в геопривязке, информацию о людях и не только. У них весьма большая External Data Library [3].

Задачи которые они решают повсеместны, большинство решает их используя собственный код, а тут комплексное и, скорее всего, дорогое решение. В России, конечно,не применимое в силу импортозамещения и ограничений в обработке данных за пределами российской юрисдикции.

Интереснее то что таких инструментов всё больше и значительные инвестиции идут в облачные продукты.

Ссылки:
[1] https://venturebeat.com/2021/05/18/data-prep-platform-explorium-raises-75m/
[2] https://www.explorium.ai/
[3] https://www.explorium.ai/platform-data-engine/

#tools #software #startups

VentureBeat

Data prep platform Explorium raises $75M

Explorium, a platform for feature engineering and data prep, has raised $75 million in a venture funding round.

1.8K viewsIvan Begtin, 07:16

Ivan Begtin

На самом деле я даже не знаю как это прокомментировать. Как то что в долларовом эквиваленте это около 7.4 миллионов и что это не так много для глобальной системы, так и то что за перечисленные работы это выглядит слегка ... многовато.

#fgis #itspending

1.5K viewsIvan Begtin, 12:16

Ivan Begtin

Forwarded from Госзатраты

Министерство цифрового развития, связи и массовых коммуникаций РФ заключило крупный госконтракт. 407 млн рублей из федерального бюджета потратят на развитие ФГИС «Единая система идентификации и аутентификации в инфраструктуре, обеспечивающей информационно-технологическое взаимодействие информационных систем, используемых для предоставления государственных и муниципальных услуг в электронной форме» (ЕСИА).

Исполнителем в рамках соглашения выступает ПАО «Ростелеком». Закупка проводилась у единственного поставщика. Срок действия контракта — до 15 ноября 2021 года. За оставшиеся шесть месяцев, по условиям контракта, исполнитель среди прочего обязуется разработать дизайн-макеты для экрана раздела ЕСИА, разработать и модернизировать одну веб-страницу раздела ЕСИА, улучшить часть ее функций и мобильное приложение.

Подробности — на сайте «Госзатраты»: https://amp.gs/bvKC

1.5K viewsIvan Begtin, 12:16

Ivan Begtin

Land Portal Foundation совместно с Open Data Charter опубликовали руководство по работе с открытыми данными о земле. Руководство ориентировано на власти стран ответственные за работу с земляными участками, это службы кадастров, министерства ответственные за лесную политику и так далее.

Авторы доклада одновременно являются создателями Land Portal [2], большого проекта по мониторингу использования земли по всему миру. России и развитых стран там нет, а вот страны третьего мира почти все.

А для тех кто интересуется этой темой, вдогонку, добавлю что есть такой проект ка LandMatrix [3] где осуществляют мониторинг сделок с землёй и вот тут про Россию есть данные. Например вот [4], контракт на посадку леса, похоже эти сведения собирают вручную. Судя по всему их региональный партнер на Украине, потому что именно по Украине более всего внесено сделок в восточной европе, а по России всего 381 сделка.

Вообще же проектов по мониторингу использования земли всё больше и эти два далеко не единственные.

Ссылки:
[1] https://landportal.org/library/resources/open-data-improved-land-governance
[2] https://landportal.org
[3] https://landmatrix.org
[4] https://landmatrix.org/deal/7836/

#opendata #land

Land Portal

Open data for improved land governance

Open for public comments: Land experts, data practitioners, and other stakeholders are invited to improve the Open Up Guide on Land Governance. We will be accepting public comments until July 31, 2021. You can do so by 1) Making comments directly in the…

2.5K viewsIvan Begtin, 12:38

Ivan Begtin

Незаслуженно пропущенная мной новость, появление Berlin Declaration on Digital Society and Value-based Digital Government [1]
По русски можно перевести как берлинская декларация о цифровом обществе и Цифровом государстве (правительстве) основанном на ценностях.

Декларация про применение европейских ценностей и фундаментальных прав при реализации цифрового государства, подписана всеми странами членами Евросоюза.

В декларации чётко артикулируются вопросы открытости, в том числе поддержке развития открытости данных и открытости кода. Отдельно упоминаются value-based, human-centred AI systems (ценностные человекориентированные системы ИИ).

Документ полезный, для понимания стратегий Евросоюза, также стоит посмотреть на их интерактивную инфографику на портале открытых данных Испании [2].

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/news/berlin-declaration-digital-society-and-value-based-digital-government
[2] https://datos.gob.es/en/noticia/data-related-strategies-will-mark-2021

#opendata #opengov #opensource

datos.gob.es

Las estrategias relacionadas con los datos que marcarán 2021 | datos.gob.es

La siguiente infografía muestra la situación estratégica, normativa y política que afectará al mundo de los datos abiertos en España y Europa. Para profundizar en su contenido puede leer los siguientes artículos: Las estrategias relacionadas con los datos…

1.6K viewsIvan Begtin, 05:36

Ivan Begtin

Ещё один незаслуженно не упомянутый мною документ Silo Busting: The Challenges and Success Factors for Sharing Intergovernmental Data [1] от IBM Center for The Business of Government.

О том как устроены практики обмена данными между органами власти в США, какие продукты на данных создаются и как органы власти договариваются между собой. Весь документ про американский контекст, но с большим количеством примеров. Например, там есть о том что во всех штатах США есть системы Statewide Longitudinal Data Systems (SLDS) в которых собираются данные о человеке начиная со школы, продолжая высшим/профессиональным образованием и местами работы. Это не только позволяет делать неразрывной статистику образования и занятости, но и даёт возможность создания проектов кросс-секторного типа.

Пример: Massachusett’s Opioid Integrated Data Sharing Initiative где в одной базе собираются данные из десятков разных баз данных: баз ветеранов, баз раковых больных, тюремных систем, госпитальных систем, баз регистрации рождений, SLDS и ещё много чего.
И на основе этого принимаются решения по профилактике преступлений, индивидуальной поддержке и тд.

Там ещё много примеров, полезное чтение о том что возможно на данных когда это юридически возможно.

Честно говоря задача практически не решаемая простым образом на уровне региональных властей в России. Везде ограничения самым главным из которых является закон о персональных данных.

Ссылки:
[1] https://www.businessofgovernment.org/sites/default/files/Silo%20Busting.pdf

#opendata #data #sharing #ibm #usa #usecases

1.7K viewsIvan Begtin, 07:28

Ivan Begtin

Департамент субсидирования мертвых лошадей
Департамент развития мертвых лошадей
Департамент финансирования мертвых лошадей
И мертволошадиный жокей

Как то собрались написать методические рекомендации
По ускоренному умервщлению лошадиной популяции

1.5K viewsIvan Begtin, edited 15:56

Ivan Begtin

Редко, но теперь я буду разбавлять скучные новости скучными стихами из @ministryofpoems

1.5K viewsIvan Begtin, 15:58

Ivan Begtin

28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates

3.1K viewsIvan Begtin, 18:23

Ivan Begtin

Свежий проект от команды Github'а - FlatData [1] как набор инструментов для сбора и обработки данных в git репозиториях. Это подход который когда-то продвигал Simon Wilson [2], автор многих инструментов и проектов на данных. Действительно Github с его набором действий очень подходит для автоматизации сбора данных. У него же есть пример автоматизации сбора данных о пожарах в Калифорнии [3].

Не менее интересный инструмент Flat Viewer для просмотра простых (плоских) файлов [4].

Инструменты интересные, и открытым кодом и интегрированностью в Github, хотя вот скажу честно для работы с относительно большими наборами данных они уже ограничены.

Я могу сказать что про эти инструменты что про десятки других что я видел за последние годы, у них примерно одна и та же проблема - работа с плоскими данными. Данные с которыми я и моя команда работаем, к примеру, почти всегда не_плоские. Это сложные JSON или XML объекты декомпозиция которых назад в плоские таблицы - это большая работа, трудоёмкая и ресурсозатратная. Часто проще с самого начала сохранять сложность первичных данных, преобразуя их только тогда когда есть в этом необходимость. Для такого не подходят CSV и плоский JSON, а скорее файлы построчного JSON lines и BSON (используется в MongoDB)

Я сам выложил в открытый код как минимум 2 инструмента с таким подходом:
- undatum [5] - утилита для обработки данных, с акцентом как раз на JSON lines и BSON.
- apibackuper [6] - утилита для автоматизации выгрузки наборов данных из API с экспортом данных в JSON lines.

С другой стороны я знаю немало инициатив как раз по отказу от платформ вроде Github'а для хранения данных и использованию альтернатив. Например, Giftless [7] от Datopian даёт возможность эмулировать Git LFS поверх локального хранилища и хранилищ Google, Amazon и Azure, тем самым мигрируя с хранилища Github.

В любом случае современные проекты на данных - это чаще конструкторы. Иногда можно и нужно писать свой код, но чаще итоговый продукт или решение - это сборная солянка из множество компонентов.

Ссылки:
[1] https://octo.github.com/projects/flat-data
[2] https://simonwillison.net/2020/Oct/9/git-scraping/
[3] https://github.com/simonw/ca-fires-history
[4] https://flatgithub.com/the-pudding/data
[5] https://github.com/datacoon/undatum/
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/datopian/giftless

#opendata #datatools #opensource #git #github

GitHub Next

GitHub Next | Flat Data

GitHub Next Project: Flat explores how to make it easy to work with data in git and GitHub, offering a simple pattern for bringing working datasets into your repositories and versioning them.

1.6K viewsIvan Begtin, 06:19

Ivan Begtin

В рубрике интересные наборы данных Longitudinal Employer-Household Dynamics [1] база бюро переписи США с данными о переходах работников с одного места работы на другое, с трудоустройством выпускников ВУЗов, со сведениями о рабочей миграции.

Данные интересны во многих разрезах, но, особенно, в разрезе конкретного образовательного учреждения, выпускников по направлениям в сопоставлении с направлениями занятости и в контексте рабочей миграции между территориями, можно увидеть разрезе отрасли, города и вида занятости.

На этих и других данных в открытой части базы данных переписи в США есть такой проект как DataUSA [2] где собраны данные с детализацией до муниципалитетов в США (города, графства и тд.) и есть возможность увидеть данные по 7000+ университетам и колледжам и 319 индустриям в весьма детальных цифрах и разрезах.

В России единственным более-менее приближенным аналогом был проект Graduate.edu.ru (сайт более не работает). Но его Минобрнауки перестали поддерживать уже несколько лет назад, без объяснения причин

Ссылки:
[1] https://lehd.ces.census.gov
[2] https://datausa.io

#opendata #education #workforce

lehd.ces.census.gov

Longitudinal Employer-Household Dynamics (LEHD)

1.5K viewsIvan Begtin, 06:21

Ivan Begtin

Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing

The Verge

An automated policing program got this man shot twice

The Chicago PD made a “heat list” to predict people involved with violent crimes — and instead, it caused them.

1.7K viewsIvan Begtin, 07:57

About

Blog

Apps

Platform