FSCP
17.4K subscribers
30.5K photos
3.54K videos
862 files
77.9K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]

С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.

Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.

Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you

#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
Монетизация обезличивания

Активное обсуждение проекта федерального закона, посвященного изменению регулирования обезличенных персональных данных идет последние две недели во многих каналах:
@rspectr @ict_moscow_ai @DataEconomyRU @GDPRru @privacyexperts @bureaucraticsecurity @Lgltech @Persdata @rks_legal_talk @roskomsvoboda @antidigital
Но пока аргументы всех сторон про обезличивание / анонимизацию носят исключительно качественный характер.
Ни пояснительная записка к законопроекту, ни традиционно пустое ФЭО, ни обсуждаемые поправки не содержат никаких расчетов:
- издержки операторов персональных данных на сбор / хранение согласий на обработку данных;
- издержки операторов на обезличивание;
- оценка ущерба субъектов персональных данных при использовании их данных без согласия или при де-обезличивании;
- объем рынка big data (ведь весь сыр-бор именно из-за него) и перспективы его роста в России.
При отсутствии этих данных любые правовые модели носят исключительно умозрительный характер, скрывая реальные цели лоббистов любой из продвигаемых моделей регулирования.
Короче, покажите ваши мозоли расчёты!
#PersonalData #data #данные #BigData #EvidenceBased
_______
Источник: https://t.iss.one/smart_regulation/3345
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.

Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.

Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf

В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.

Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].

Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.

А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.

Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru

#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764
Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.

Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.

Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.

Ссылки:
[1] opendata.tourism.gov.ru
[2] opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] minjust.gov.ru
[4] data.gov.ru
[5] мвд.рф
[6] мвд.рф/7727739372-sosprestupnost

#opendata #opengov #datasets #data
_______
Источник | #begtin
Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].

Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].

Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.

Ссылки:
[1] arstechnica.com
[2] www.businessinsider.com
[3] www.schneier.com

#zoom #data
_______
Источник | #begtin
Как исчезают официальные данные в сети - в первую очередь через ликвидацию организаций. Приведу в пример Уставной суд Санкт-Петербурга. Это был один из конституционных судов субъектов федерации, о нем есть статья в Википедии [1]. 31 марта 2021 года законодательное собрание Санкт-Петербурга приняло решение о его ликвидации [2], а с 1 июля (всего 2 месяца назад) суд ликвидирован, а сайт суда закрыт.

Обычно, если организация ликвидируется через реорганизацию, то у нее есть правопреемник, которому передаются архивы, имущество и тд.
Но уставной суд именно ликвидировался, а не реорганизовывался, имущество, скорее всего, было возвращено в собственность города, а вот процедуры сохранения материалов публикуемых в цифровой форме в России нет и не было.

Поэтому сайт суда просто одномоментно закрыли. В лучшем случае его решения остались в коммерческих системах вроде Консультант плюс или Гарант. С высокой вероятностью их нет в государственных системах регистрации нормативно-правовых документов, поскольку это был суд вне юрисдикции Судебного департамента и поскольку решения судов не регистрируются в pravo.gov.ru или системах Минюста России.

Это довольно маленький, очень небольшой пример, того как материалы органов власти исчезают при реорганизации. Он, конечно, несравним с моментальным закрытием всех материалов ФМС и ФСКН после их возврата в МВД. Тогда МВД убрали из сети все материалы этих ведомств в тот же день когда был анонсирован указ Президента РФ о реорганизации этих ведомств.

Ссылки:
[1] ru.wikipedia.org
[2] www.assembly.spb.ru

#digitalpreservation #data
_______
Источник | #begtin
ФНС России обновили и, я бы сказал, "поломали" свой аналитический портал analytic.nalog.ru [1].

Раньше на нём публиковались региональные налоговые паспорта, Excel файлы с подробной региональной ведомственной статистикой (у меня есть архив на руках) и немного цифр с визуализацией. Теперь много визуализации в стиле BI, но какого-то недоделанного BI без возможности выгрузки индикаторов, информации об актуализации и тд. А файлы налоговых паспортов регионов с сайта исчезли.

Если старый сайт был неудобен, то новый выглядит даже не недоделанным, а как-то совсем тяп-ляп, сделанным на коленках. В лучших традициях старая версия сайта исчезла, а до исчезновения в поисковиках не индексировалась, поскольку специально делалась неиндексируемой.

Для тех кому нужны архивы налоговых паспортов они есть в DataCrafter'е в открытом доступе [2]. Похоже надо усилить функцию DataCrafter'а по архивации данных.

Ссылки:
[1] analytic.nalog.ru
[2] data.apicrafter.ru

#nalog #data #opendata
_______
Источник | #begtin
У русского человека из поколения в поколение передается рефлекс "при любом потрясении закупать продукты длительного хранения". И тем не менее нельзя не обратить внимание, что из магазинов пропали именно те продукты, которые Россия производит сама в огромных количествах:
7 место в мире по сахару (у нас огромные посевы сахарной свеклы) - см. www.isosugar.org
20-25 место по соли - pubs.usgs.gov
3 место по пшенице
2 место по подсолнечнику и маслу www.fao.org

А с учетом того, что экспорт РФ сейчас фактически остановлен, Россию ждет не дефицит, а изобилие этих плодов земных, которые надо еще будет как-то переработать и сохранить.

Интересно, кстати, что еще поколение назад Россия так фигово справлялась с сельских хозяйством, что закупала зерно в США (а половина своего производства сгнивала на полях и в хранении). Сейчас ситуация обратная: у нас возникли латифундии, конечно частью придворные, частью бандитские - но эти латифундии обеспечивают производство на уровне, когда мы из импортера зерна, мяса, масла стали экспортерами.

А обрыв экспорта и глобальнй дефицит русского зерна грозит вотпрямща голодом Египту, Ливии, Алжиру, части Тропической Африки, Бангладешу... под ударом до полмиллиарда человек. https://t.iss.one/zangaro/1276 Удивительная ирония истории, конечно... в древнюю эпоху Египет был житницей Европы, нильские земли кормили все Средиземноморье, а Рим взлетел на пик могущества, когда Египет был завоеван (и императоры стали кормить все население Рима бесплатно, базовый доход этакий 2000 лет назад). А теперь президент Египта срочно ездит в Москву... чтоб в Египте не было голодных бунтов. Предыдущие голодные бунты - это "арабская весна" 2011 года, походу.

Короче, я пока не тороплюсь за солью и маслом... думаю, и сделанные запасы граждане не скоро освоят. На днях от знакомого узнал, что его родители до сих пор хранят дома мешок сахара, купленный еще в 1998 году - "не приккоттиллсся". Сахар слежался в почти каменное состояние за это время. Ну что, целее будет. Макароны - те портятся довольно быстро, да и масло не вечное. Сахар и соль - с ними проще.
_______
Источник | #kedr2earth
🐮🐷 Самый потребляемый вид мяса в странах Азии

Источник,
_______
Источник | #mapsanddata
This media is not supported in your browser
VIEW IN TELEGRAM
Новый и очень красивый сервис для отрисовки графов — cosmograph.app.

Автор заявляет, что в его основе лежит самый быстрый алгоритм для веба, который позволяет отрисовывать в браузере действительно большие графы.

Алгоритм также можно использовать в своих проектах, в виде библиотеки для JS он лежит тут.
_______
Источник | #data_csv
Доля населения, посещающего церкви, и ожидаемая продолжительность жизни в штатах Америки, 2020 (Reddit)

Источники данных: Centers for Disease Control and Prevention, Pew Research Center

Рациональные числа / ++
_______
Источник | #rationalnumbers
Самый потребляемый вид мяса на душу населения в странах мира, 2020 (Visual Capitalist)

В данные также включены объёмы потребления рыбы и морепродуктов. «Остальное» — крольчатина, верблюжье мясо и мясо дичи

На первой картинке — самое потребляемое мясо в стране, на второй — топ-10 стран по потреблению разных видов мяса

Источник данныхх — Food and Agriculture Organization

Другие данные по производству и потреблению мяса:
Производство и потребление мяса в мире, 1961–2018
Распределение и плотность поголовья скота и птицы в мире, 2018
Потребление разных видов мяса в странах ОЭСР, 2022
Доля мясоедов, вегетарианцев и веганов в Великобритании, 2021
_______
Источник | #rationalnumbers
@F_S_C_P
Узнай судьбу картами Таро:
Anna Taro bot
This media is not supported in your browser
VIEW IN TELEGRAM
📈ГДР в статистике Германии
Люблю такое: ГДР нет уже более 30 лет, а статистика видит ее границы с легкостью — на анимации пример 10+ метрик.
_______
Источник | #data_publication
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).

А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.

В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]

В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.

Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.

На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].

Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.

Такое бывает и с опенсорс проектами переходящими в коммерциализацию.

Ссылки:
[1] opencellid.org
[2] wiki.opencellid.org
[3] unwiredlabs.com
[4] habr.com
[5] opencellid.org/downloads.php
[6] community.opencellid.org

#opendata #dataproducts #data

_______
Источник | #begtin
@F_S_C_P

Стань спонсором!