FSCP
18.4K subscribers
30.1K photos
3.44K videos
859 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.

Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.

Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf

В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.

Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].

Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.

А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.

Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru

#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] www.theverge.com

#opendata #predictive #policing
_______
Причиной появления полицейских у его дверей был компьютерный алгоритм из научной фантастики, который идентифицировал Макдэниела на основе коллекции. источников данных, к которым ни одно гражданское лицо не могло получить доступ в качестве стрелка или жертвы стрельбы в некоторых будущих обстоятельствах, которые могут или не могут разыграться.

... он предсказал стрельбу, которая не произошла бы, если бы не предсказала стрельбу.

Руководство полиции Лос-Анджелеса завершило свою программу прогнозирующей полицейской деятельности, ориентированной на людей, в апреле 2020 года.

Источник | #begtin
Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.

Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.

Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.

Ссылки:
[1] opendata.tourism.gov.ru
[2] opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] minjust.gov.ru
[4] data.gov.ru
[5] мвд.рф
[6] мвд.рф/7727739372-sosprestupnost

#opendata #opengov #datasets #data
_______
Источник | #begtin
Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.

Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.

Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?

Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.

#opengov #opendata
_______
Источник | #begtin
В свежем расследовании Сергея Шпилькина про 29 миллионов переболевших [1] важно не только само расследование, к нему уже есть комментарии разбирающие его [2], важнее то что нет смысловой/содержательной/осмысленной реакции Минздрава РФ да и оперштаба тоже. Важная российская особенность в том что с начала пандемии российским Правительством / Минздравом / Оперштабами не опубликовано ни одного набора данных относящихся к COVID-19. Всё что есть было собрано активистами с сайтов вроде стопкоронавирус.рф, из поисковой выдачи поисковых систем, по другим косвенным признакам. Мы от Инфокультуры контактировали с теми кто такие данные собирал и выкладывали их на Humanitarian Data Exchange [3], фактически, выполняя ту работу которую должны делать правительственные и региональные чиновники.

Я хочу обратить внимание что за эти годы весь социальный блок органов власти в нашей стране по закрытости мог бы соревноваться разьве что с МВД или другими правоохранительными органами. Данные не раскрываются не только о COVID-19, в принципе медицинская статистика, даже региональная, а уж о более гранулярной и речи ещё нет, не публикуется. Диалога с обществом о доступности данных не ведётся и, не велось даже во время открытого пр-ва, сопротивление со стороны Минздрава, Минобра и др. было коллосальным.

Что хуже - это то что шло и идёт вымывание профессионалов из очень многих областей госусправления. Вот этот пример с номерами переболевших очень показателен. Может ли со стороны Минздрава кто-то содержательно подробно прокомментировать откуда возникла такая ситуация? Проблема в том что нет, не могут. Также как и в десятках других отраслей. В ИТ сфере это выражается в вымывании самого понятия архитектуры государственных ИТ решений причем в долгосрочном плане. Все настолько увлечены тактическими планами что "поговорить не с кем".

Ссылки:
[1] holod.media
[2] www.facebook.com
[3] data.humdata.org

#opendata #investigations
_______
Источник | #begtin
В США сенаторы и конгрессмены должны отчитываться о покупках и продажах акций. На основе этих данных инженер Tim Carambat [1] создал два проекта: House Stock Watcher [2] и Senate Stock Watcher [3] чтобы отслеживать как они инвестируют средства.

Всё на основе общедоступных раскрываемых сведений тут конгрессом [4] и сенатом [5].

Ссылки:
[1] twitter.com
[2] housestockwatcher.com
[3] senatestockwatcher.com
[4] disclosures-clerk.house.gov
[5] efdsearch.senate.gov

#opendata #dataviz
_______
Источник | #begtin
Для меня, если честно, тема выборов скорее неинтересна, а про технические особенности и проблемы с электронным голосованием в Москве хорошо пишут более мотивированные к этому авторы. Я сфокусируюсь на системных проблемах подрывающих доверие к системе электронного голосования у нас в стране с самого начала её апробации/запуска/тестирования.

1. На всякий случай я напомню что есть такое явление как разделение власти оно прописано в Конституции и предполагает независимость каждой ветви власти друг от друга. В частности, избирательные комиссии не являются органами власти - это особые структуры не находящиеся в подчинении федеральной власти или властей субъектов федерации. Принцип их формирования основан на независимом проведении выборов. Поэтому большая часть информатизации выборов все эти годы (десятилетия) шли с тем что ЦИК РФ был основным заказчиком работ системы ГАС Выборы. Для электронного голосования этот принцип был нарушен, разработка систем была передана исполнительным органам власти в лице ДИТ Москвы и Минфры России. Даже если предположить что там работают прекрасные люди, желающие стране хорошего тем не менее, они не являются и не могут являться даже формально независимыми сторонами.

2. Важная характеристика любой системы, в том числе информационной, это просматриваемость/наблюдаемость, на английском языке это звучит как observability. Главное отличие от прозрачности в том что прозрачность - это практическая реализация, а просматриваемость - это пригодность системы к такому наблюдению. Когда речь идёт об электронном голосовании и его реализации на блокчейне, то всё это, частично, имеет характеристики просматриваемости и прозрачности, но... Важная оговорка в том где эта система стыкуется с другими системами, техническими и человеческими. А вспомним насколько прозрачны эти системы. Есть ли цифры показывающие прозрачность и работу Госуслуг? Как получается что по такой продвинутой системе нет ежесуточной детальной статистики по демографии, активности, регистрациям, осуществляемым услугам и так далее. Аналогично по регистрации избирателей в Москве через портал mos.ru. Эти системы непрозрачны, ненаблюдаемы, не предполагающие не то что раскрытия их кода, но и даже раскрытия самых базовых показателей, не говоря уже о чём либо ещё.

3. В целом, участие Венедиктова как эдакого "общественного омбудсмена" дискредитирует электронное голосование не меньше чем его результаты. Венедиктов ничего не понимает в технической стороне, безапелляционные его утверждения настолько вне-рефлексивны и настолько не допускают даже вероятности ошибки (а добросовестные ошибки тут возможны), что не возможно делать никаких других интерпретаций кроме того что "человека назначили защищать, он и защищает как может". Может он плохо, от этого всё выглядит ещё хуже.

4. Раскрытие исходного кода электронного голосования выглядит довольно удручающе. Публиковать в репозитории код без документации, в виде архивов, это, конечно, показывает что, или это сделано "на отвали", или разработчики просто не имеют квалификации работать с репозиториями кода.

5. И, чуть ли не самое главное, а кто проектировал систему электронного голосования? Кто её архитектор, проектировщик, ведущие разработчики? не Венедиктов же и не Артём Костырко, выступающие говорящими головами. Получается что, либо разработчики настолько стыдятся своей работы что не готовы о ней говорить, либо их заказчиики боятся их выступления потому что "косяки" системы станут ещё более очевидными.
Схемы, логика, бизнес-процесс, архитектура этой системы должны быть открыты, равно как и должны быть открыты те кто её создает.

#opensource #opendata #observability #transparency #openness #elections
_______
Источник | #begtin
О том когда открытые данные - это не открытые данные. Например, Фонд пространственных данных Санкт-Петербурга упоминает многочисленные данные в своем каталоге как открытые данные. Но, в понимании создателей фонда, открытые данные - это такие данные по которым плата не взимается, но всё равно надо заполнить заявку с заполнением всех своих паспортных данных, то зачем тебе данные нужны и ещё много чего.

То есть открытое в их понимании - это бесплатное. Что, конечно же, не синонимы, а называть открытыми данными такое некорректно.

#opendata #spb #geodata
_______
Источник | #begtin
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech
_______
Источник | #begtin
ФНС России обновили и, я бы сказал, "поломали" свой аналитический портал analytic.nalog.ru [1].

Раньше на нём публиковались региональные налоговые паспорта, Excel файлы с подробной региональной ведомственной статистикой (у меня есть архив на руках) и немного цифр с визуализацией. Теперь много визуализации в стиле BI, но какого-то недоделанного BI без возможности выгрузки индикаторов, информации об актуализации и тд. А файлы налоговых паспортов регионов с сайта исчезли.

Если старый сайт был неудобен, то новый выглядит даже не недоделанным, а как-то совсем тяп-ляп, сделанным на коленках. В лучших традициях старая версия сайта исчезла, а до исчезновения в поисковиках не индексировалась, поскольку специально делалась неиндексируемой.

Для тех кому нужны архивы налоговых паспортов они есть в DataCrafter'е в открытом доступе [2]. Похоже надо усилить функцию DataCrafter'а по архивации данных.

Ссылки:
[1] analytic.nalog.ru
[2] data.apicrafter.ru

#nalog #data #opendata
_______
Источник | #begtin
В рубрике интересных наборов данных сведения о объёме газа в газовых хранилищах Европы [1] доступны в виде таблиц, выгрузки в Excel и через API. База данных создана и ведётся Gas Infrastructure Europe (GIE) ассоциацией Европейских газовых операторов.

Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.

Ссылки:
[1] agsi.gie.eu

#opendata #datasets #gas #europe
_______
Источник | #begtin
Forwarded from Ivan Begtin (Ivan Begtin)
reestr-inostrannyih-agentov-01-12-2022.zip
93 KB
Минюст опубликовал единый реестр иностранных агентов [1] в виде PDF файла в 15 страниц и 493 записи. Не буду комментировать странности ведения и публикации этого реестра в PDF файле и тем более его содержание.

В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.

Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf

#opendata #dataset
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.

Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.

При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.

Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.

Ссылки:
[1] bsr.sudrf.ru

#opendata #closeddata #russia
_______
Источник | #begtin
@F_S_C_P
Узнай судьбу картами Таро:
Anna Taro bot