FSCP
18.3K subscribers
30.1K photos
3.44K videos
859 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.

О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.

Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.

Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime

#data #ai #precrime
Forwarded from Ivan Begtin (Ivan Begtin)
Ещё одна новость из Австралии и также из офиса Национального дата комиссионера (комиссара?).
На днях они опубликовали черновик для дискуссии документа регулирующего аккредитацию пользователей, сервисов и посредников в работе с чувствительными государственными данными.

Фактически основная идея в том чтобы привести на законодательном уровне к единым правилам все регламенты предоставления доступа к чувствительными данным (перс. данные, коммерческая тайна и тд.)

Основные тезисы:
- аккредитацию проводит Office of National Data Comissioner
- типы аккредитаций: Data Custodian, Accredited Data Service Provider, Accredited User
- аккредитацию должны проходить коммерческие сервисы которые хотят получить статус Accredited Data Service Provider и выполнять функции по: услугам обмена данными (Data Sharing Services) и комплексным услугам интеграции данных (Complex data integration services)
- организации проходящие аккредитацию могут быть любого размера, но должны продемонстрировать что "в должной мере" ими владеют австралийские граждане

Попробую привести гипотетический пример того как это может работать.
1. Предположим что налоговая служба Австралии будет готова делиться с банками с данными о налогоплательщиках в целях обеспечения процедур due diligence.
Им необходимо аккредитоваться как Data Custodian.
2. Некоторые data стартапы хотят добавить эти данные в их услуги скоринга - они должны аккредитоваться как Accredited Data Service Provider.
3. Ряд банков хочет воспользоваться сервисами этих стартапов и для этого им необходимо получать статус Accredited User.

Это довольно жёсткая форма аккредитации, с контролем на каждом этапе: владельца, посредников и конечных получателей. Для некоторых видов данных, таких как персональные данные, возможно других сценариев и быть не может, в принципе же это могло бы накладывать большие ограничения, но, на самом деле, это механизм по снятию ограничений с тех данных которые сейчас просто закрыты для любого использования.

Этот принцип уже применяется в австралийском статистическом ведомстве [2] для интеграционных проектов работающих с детальными статистическими данными.

Ссылки:
[1] https://www.datacommissioner.gov.au/exposure-draft/accreditation
[2] https://statistical-data-integration.govspace.gov.au/about-3/about-these-guidelines

#data #australia
Forwarded from Ivan Begtin (Ivan Begtin)
Не знаю как у Вас, а лично у меня возникает мощный диссонанс между тем что Росреестр контрактуется с Высшей школой экономики на 4,98 миллиона рублей [1] за НИР по теме "«Исследование вклада Росреестра в развитие экономики Российской Федерации»" и одновременно в Государственной Думе сейчас ко второму чтению готовится проект федерального закона № 962484-7 [2]

В котором, на 114 странице [3] текста представленного к первому чтению есть такие пункты:

24. Полученные органами государственной власти, органами местного самоуправления, организациями или гражданами сведения, содержащиеся в Едином государственном реестре недвижимости,
не могут быть предоставлены ими третьим лицам за плату.
25. Не допускается создание сайтов в информационно-телекоммуникационной сети "Интернет" (за исключением официального сайта), обеспечивающих возможность предоставления сведений, содержащихся в Едином государственном реестре недвижимости, и использование таких сайтов создавшими их гражданами, организациями или иными лицами в целях предоставления, в том числе организации
и (или) обеспечения предоставления, таких сведений заинтересованным лицам


Так каким же будет вклад Росреестра в экономику России после принятия этого законопроекта?

Ссылки:
[1] https://spending.gov.ru/goscontracts/contracts/1770656053620000057/
[2] https://sozd.duma.gov.ru/bill/962484-7
[3] https://sozd.duma.gov.ru/download/3B7F674D-DBE8-4140-84C3-D1C265483CEA

#data #government #rosreestr
Forwarded from Ivan Begtin (Ivan Begtin)
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
_______
Источник: https://t.iss.one/begtin/2188
Я регулярно пишу и выступаю о рынке "пробива информации" в России и неспособности силовых органов что-либо с этим поделать. А вот прилетают и последствия. Юра Синодов в FB пишет [1] про очередное расследование Bellingcat на основе данных по биллингу. А на сайте самих Bellingcat (его легко найти) в избытке информации собранной через пробив людей, их автомобилей и тд.

Даже не знаю что тут сказать. Многократный фэйспалм

Ссылки:
[1] https://www.facebook.com/sinodov/posts/10160272266922785

#data #darkmarket
_______
Источник: https://t.iss.one/begtin/2197
Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных - это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf

#privacy #data #germany
_______
Source: https://t.iss.one/begtin/2392
То что все боялись по поводу госслежки во время пандемии таки случилось, хотя и не в России. В Сингапуре полиция намерена использовать данные приложения TraceTogether в криминальных расследованиях [1] [2].

И, хотя и обещают что, данные будут хранится в безопасной платформе и доступ будет только у ограниченного числа полицейских, а за незаконный доступ к данным штрафы будут достигать S$5000 (примерно - 280 тысяч рублей) или заключением до 2-х лет, тем не менее факт остаётся фактом, данные будут накапливаться и применяться в официальных расследованиях.

Здесь важно напомнить что в Сингапуре используется не анонимизирующее API от Google/Apple на основе которого работают приложения правительств большинства стран, а собственное приложение и устройство TraceTogether работающее по Bluetooth [3] и предполагающее неанонимизированное отслеживание контактов.

Пример Сингапура имеет сразу несколько прецендентов:
1. То что государство может в любой момент изменить статус доступа к данным и что даже условия приватности в созданных системах могут поменяться очень быстро и имеют обратную силу.
2. То что действия Google/Apple по блокировке любых приложений использующих отслеживание не через их API было обосновано. TraceTogether обходит это ограничение за счёт внешнего устройства.

Ссылки:
[1] https://sg.news.yahoo.com/trace-together-data-criminal-investigations-desmond-tan-080806396.html
[2] https://www.channelnewsasia.com/news/singapore/singapore-police-force-can-obtain-tracetogether-data-covid-19-13889914
[3] https://www.tracetogether.gov.sg/

#govenment #singapore #data #privacy
_______
Источник: https://t.iss.one/begtin/2412
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
Не украли, а потеряли (с) так можно описать ситуацию с удалением 400 тысяч записей о преступлениях, преступниках и их идентификационных данных в системе регистрации преступлений Великобритании [1] [2].

Данные о более чем 26 тысячах записях ДНК о 21,7 тысячах персон, 30 тысячах отпечатков и ещё многие иные записи были удалены из-за технической ошибки. Несмотря на то что техники пытаются восстановить эти данные, ситуация уже вылилась в публичный скандал.

Что характерно, всё произошло из-за человеческой ошибки, а восстановить данные оказалось не так то просто.

Остаётся вопрос - бывают ли подобные ситуации в других странах, например, в России?

Ссылки:
[1] https://www.theguardian.com/politics/2021/jan/16/priti-patel-faces-increasing-pressure-over-deletion-of-police-records
[2] https://www.theguardian.com/politics/2021/jan/15/priti-patel-under-fire-as-150000-police-records-accidentally-lost

#privacy #errors #data
_______
Source: https://t.iss.one/begtin/2478
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]

С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.

Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.

Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you

#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
Монетизация обезличивания

Активное обсуждение проекта федерального закона, посвященного изменению регулирования обезличенных персональных данных идет последние две недели во многих каналах:
@rspectr @ict_moscow_ai @DataEconomyRU @GDPRru @privacyexperts @bureaucraticsecurity @Lgltech @Persdata @rks_legal_talk @roskomsvoboda @antidigital
Но пока аргументы всех сторон про обезличивание / анонимизацию носят исключительно качественный характер.
Ни пояснительная записка к законопроекту, ни традиционно пустое ФЭО, ни обсуждаемые поправки не содержат никаких расчетов:
- издержки операторов персональных данных на сбор / хранение согласий на обработку данных;
- издержки операторов на обезличивание;
- оценка ущерба субъектов персональных данных при использовании их данных без согласия или при де-обезличивании;
- объем рынка big data (ведь весь сыр-бор именно из-за него) и перспективы его роста в России.
При отсутствии этих данных любые правовые модели носят исключительно умозрительный характер, скрывая реальные цели лоббистов любой из продвигаемых моделей регулирования.
Короче, покажите ваши мозоли расчёты!
#PersonalData #data #данные #BigData #EvidenceBased
_______
Источник: https://t.iss.one/smart_regulation/3345
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.

Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.

Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf

В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.

Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].

Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.

А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.

Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru

#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764
Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.

Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.

Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.

Ссылки:
[1] opendata.tourism.gov.ru
[2] opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] minjust.gov.ru
[4] data.gov.ru
[5] мвд.рф
[6] мвд.рф/7727739372-sosprestupnost

#opendata #opengov #datasets #data
_______
Источник | #begtin
Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].

Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].

Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.

Ссылки:
[1] arstechnica.com
[2] www.businessinsider.com
[3] www.schneier.com

#zoom #data
_______
Источник | #begtin
Как исчезают официальные данные в сети - в первую очередь через ликвидацию организаций. Приведу в пример Уставной суд Санкт-Петербурга. Это был один из конституционных судов субъектов федерации, о нем есть статья в Википедии [1]. 31 марта 2021 года законодательное собрание Санкт-Петербурга приняло решение о его ликвидации [2], а с 1 июля (всего 2 месяца назад) суд ликвидирован, а сайт суда закрыт.

Обычно, если организация ликвидируется через реорганизацию, то у нее есть правопреемник, которому передаются архивы, имущество и тд.
Но уставной суд именно ликвидировался, а не реорганизовывался, имущество, скорее всего, было возвращено в собственность города, а вот процедуры сохранения материалов публикуемых в цифровой форме в России нет и не было.

Поэтому сайт суда просто одномоментно закрыли. В лучшем случае его решения остались в коммерческих системах вроде Консультант плюс или Гарант. С высокой вероятностью их нет в государственных системах регистрации нормативно-правовых документов, поскольку это был суд вне юрисдикции Судебного департамента и поскольку решения судов не регистрируются в pravo.gov.ru или системах Минюста России.

Это довольно маленький, очень небольшой пример, того как материалы органов власти исчезают при реорганизации. Он, конечно, несравним с моментальным закрытием всех материалов ФМС и ФСКН после их возврата в МВД. Тогда МВД убрали из сети все материалы этих ведомств в тот же день когда был анонсирован указ Президента РФ о реорганизации этих ведомств.

Ссылки:
[1] ru.wikipedia.org
[2] www.assembly.spb.ru

#digitalpreservation #data
_______
Источник | #begtin