Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Новости открытости[закрытости] данных в России

❗️уже несколько недель не работает Государственный информационный ресурс бухгалтерской (финансовой) отчетности bo.nalog.ru, на сайте обещают что он заработает сегодня, 28 марта 2022 г. Никто не знает какая информация из него будет удалена, какая останется
❗️в выписках в ЕГРЮЛ по некоммерческим организациям окончательно пропали сведения о их учредителях, это легко проверить введя, например, 1157700000655 в форму на сайте egrul.nalog.ru или реквизиты любой другой НКО. Я писал об этом в январе 2022 [1] и в декабре 2021 г. [2]
❗️с начала 2022 года в ЕГР ЗАГС исчезла статистика за 2021 г. и теперь доступна только за 2022 г., совершенно непонятно за какой период времени. В принципе ЕГР ЗАГС содержит уникальные данные по демографии которые ни в какой форме ФНС России не публикуются кроме как в виде такой непонятной статистики которая ещё и убирается за прошлые годы.
❗️федеральный портал открытых данных data.gov.ru по прежнему недоступен, это длится уже месяц

Ссылки:
[1] https://t.iss.one/begtin/3450
[2] https://t.iss.one/begtin/3314

#opendata #russia #opengov
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.

Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.

Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.

P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.

Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv

#instagram #government #archives #socialnetworks
Вообще ничего хорошего в этой новости нет и худшее то что нет бэкапов. Все отмазки про отсутствие денег на бэкапы - это профнепригодность. А я не устаю повторять - архивы и бэкапы, вот два друга не только сисадмина, но и всех кто хочет чтобы после них хоть что-то осталось.

В каком-то смысле последние события - это стресс-тестирование на профпригодность государственных подрядчиков и госзаказчиков в области ИТ. Пока результаты неутешительные
Forwarded from Авиаторщина
В субботу утром произошла сильнейшая атака на IT-инфраструктуру российских авиавластей.

В Росавиации обрушена вся сеть, стёрт весь документооборот, почта, файлы на серверах, пропали все документы. Суммарно стёрто примерно 65 терабайтов данных.

«Пропал весь документооборот, электронные письма, файлы на серверах, сейчас идёт поиск реестра воздушных судов и авиационного персонала, удалена система государственных услуг. Потеряны все входящие и исходящие письма за 1,5 года. Как работать, не знаем», — говорит источник.

По его словам, бэкапов нет, так как деньги Минфином на это не выделялись.

Атака произошла из-за некачественного исполнения договорных обязательств со стороны предприятия ООО «ИнфАвиа», которое осуществляет эксплутацию ИТ-инфраструктуры Росавиации. С субботы в Росавиации сидят прокуратура и ФСБ.
Data50 [1] обзор крупнейших 50 компаний поставщиков ПО и сервисов по обработке данных формирующих modern data stack.
В лидерах Databricks, Fivetran, Scale и OneTrust с оценкой от $5 млрд. каждый, впрочем в списке нет компаний с минимальной оценкой меньше $100 млн.
Список полезный для понимания структуры рынка и структуры инвестиций, отчасти для понимания направлений развития и инноваций в этой области.

Ссылки:
[1] https://future.a16z.com/data50/

#data #datatools #startups
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открывается ли у вас сайт проекта «Госрасходы» (spending.gov.ru) без VPN?
Anonymous Poll
66%
Да, я в России
18%
Нет, я в России
0%
Да, я не в России
16%
Нет, я не в России
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
Полезное чтение про данные:
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности

Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.iss.onedium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8

#reading #datatools #data
В рубрике интересных наборов данных Research Organization Registry (ROR) [1] некоммерческий проект по созданию сводного полного реестра всех исследовательских организаций в мире. В общей сложности включает более 100 тысяч организаций для которых собраны сведения о их сайтах, названиях, идентификаторах в других реестрах таких как GRID, WikiData, ISNI и многих других. И присвоен свой идентификатор ROR.

У проекта есть описание хранимых данных и REST API [2], а все данные в виде дампа на регулярной основе публикуются в каталоге научных данных Zenodo [3], около 200MB в распакованном виде.

А также весь код проекта и его компонентов раскрывается [4], также как и планы его развития [5] также в виде проекта на Github

Ссылки:
[1] https://ror.org
[2] https://ror.readme.io/docs/ror-data-structure
[3] https://zenodo.org/record/6347575
[4] https://github.com/ror-community
[5] https://github.com/ror-community/ror-roadmap

#opendata #dataset #research
Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives
Когда-то много лет я потратил на тему которая может показаться многим странной - превращение сайтов в API причём с минимальным участием человека. Потом все эти наработки пошли в DataCrafter где наборы данных структурируются из изначально не особо структурированного вида и в кучу разного опенсорса. Дошли руки до актуального здесь и сейчас - доделать утилиту превращения сайтов на Wordpress в наборы данных.

Так что в рубрике интересных наборов данных... пам-пам-пам... все сайты на Wordpress.

#opendata #data #opensource
Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.

Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.

Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].

Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump

Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.

Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.

В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).

Найденные ошибки заполняйте в issues репозитория проекта wparc [3]

Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues

#wordpress #webarchives #digitalpreservation #opensource #tools
В рубрике интересных каталогов открытых данных большое открытие, Oracle Open Data [1], каталог огромных наборов данных доступный на базе облака компании Oracle.

Их особенность - это данные большого объёма, минимальные в десятках гигабайт, максимальные в сотнях терабайт. Акцент на данных о земле, данных расшифровки генома и так далее. Всё это под открытыми лицензиями и в удобном доступе на их инфраструктуре. По идеологии очень напоминает открытые датасеты на платформах Azure и Amazon AWS, а также данные которые доступны в Google Cloud. Но лидер по масштабам пока именно Amazon. И почти все делают акцент на наиболее востребованных научных данных.

Почему крупные BigTech корпорации создают такие каталоги? Потому что для их сервисов облачной инфраструктуры - это мощная "замануха" позволяющая убить сразу нескольких зайцев:
- социальный эффект от доступности для всех интересных наборов данных
- возможность с самого начала подсаживать на свою инфраструктуру студентов и исследователей
- маркетинг на общественно благих целях

Конечно без попыток vendor lock-in не обходится, но это, в целом, хорошие инициативы и за ними интересно наблюдать.

Кстати, если кто-то из российских облачных провайдеров задумается о том чтобы создать похожий каталог из очень больших датасетов связанных с Россией и нужных российской аудиторией - обращайтесь, мы как раз собрали масштабный каталог в DataCrafter'е (data.apicrafter.ru) и это ещё не все данные, а только те что успели обработать;)

Ссылки:
[1] https://opendata.oraclecloud.com

#opendata #datacatalogs #bigtech #oracle #data #datasets
В свете последних событий я слегка упустил тему с последними утечками персональных данных которые публиковали украинские хакеры (Яндекс.Еда, СДЭК и др.) и интенсивными хакерскими атаками в первую очередь на органы власти в России.

И тут есть два аспекта. Первый, что делать если "shit happened" и второй, что делать если "shit will happen soon".

Первый вопрос в том как должны себя вести компании когда у них произошли утечки данных и достаточно существенные чтобы это нельзя было бы скрыть.

Должны ли они?
- уведомить регулятора(-ов)
- уведомить всех пострадавших
- написать публичный отчет о подробностях инцидента
- поименовать и уволить/иным образом наказать ответственных
- описать полный перечень принимаемых действий для неповторения утечки в будущем
- обеспечить материальную компенсацию пострадавшим

Что-то ещё не перечисленное выше? Что компании должны сделать и делать в таких случаях?

Потому что текущие утечки - это серьёзно, но могут быть утечки и посерьёзнее. Например, утечки из крупных государственных систем или биллинга физ. лиц естественных монополий или внутренний документооборот крупных корпораций и многое другое.

А второй аспект про то что надо делать прямо сейчас компаниям/организациям для минимизации ущерба до того как дерьмо случится. Потому что можно почти на 100% быть уверенными что произошедшее только начало и оно точно случится, в зоне риска могут быть все недостаточно защищённые информационные системы, частные и государственные.

Регулирование в России и в мире развивается по принципу усиления ответственности для операторов и обработчиков персональных данных. И в России сейчас говорят об оборотных штрафах для компаний.
Что должны делать компании прямо сейчас?
- кратно увеличивать расходы на информационную безопасность
- проводить срочный аудит унаследованных информационных систем
- ужесточать ответственность за несанкционированный доступ к данным
и тд.

#security #privacy #leaks
Правительство Великобритании опубликовало The Digital, Data and Technology Playbook [1] о том как управлять цифровыми проектами на данных и технологиях. Руководство весьма конкретное, про то как такие продукты готовятся и запускаются и о том как взаимодействовать с коммерческими компаниями.

Ссылки:
[1] https://www.gov.uk/government/publications/the-digital-data-and-technology-playbook/the-digital-data-and-technology-playbook

#data #digital #government #uk
Цензура бывает не только в России не только в авторитарных странах, но имеет другую природу. Свежий законопроект в США SMART Copyright Act [1] предполагает введение практики технической блокировки онлайн ресурсов распространяющих материалы под копирайтом. Это не единственный и не первый такой нормативный документ в мире, ранее похожие инициативы были в Канаде и в Великобритании. Обо всём этом пишет Peter Routhier в блоге Archive.org [2].

Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].

Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.

Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] https://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act

#digital #censorship #copyright #copyleft #laws #usa
Я много писал про государство и технологии, всё больше про данные в предыдущий год и вот всё чаще про цифровые архивы. Может показаться что это не взаимосвязанные темы, но это не так. Веб архивы - это одна из форм данных очень большого объёма, полуструктурированных как правило, но тем не менее вполне подпадающих под задачи data science.

Один из примеров такого применения - это проект Archives Unleashed [1] его авторы создали множество инструментов того как представлять, обрабатывать, анализировать и иными способами работать с файлами веб архивов. Собственно их Archives Unleashed Toolkit (AUT) [2] это инструментарий по созданию инфраструктуры обработки WARC файлов с помощью Hadoop, Apache Spark, Jupiter Notebook и других инструментов работы с данными большого объёма.

Многие наборы данных были созданы с помощью AUT, также как и проведены многочисленные исследования [3]. Не стоит недооценивать эти инструменты, они весьма полезны исследователям современного мира и не только.

Ссылки:
[1] https://archivesunleashed.org/
[2] https://aut.docs.archivesunleashed.org/
[3] https://archivesunleashed.org/cohorts2022-2023/

#opendata #data #tools #opensource
Как устроены веб-архивы в мире?

Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].

Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․

Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.

Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].

Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection

#webarchives #australia #digitalpreservation
Продовольственная и сельскохозяйственная организация ООН (FAO) опубликовали отчёт Towards open and transparent forest data for climate action: Experiences and lessons learned [1]

В докладе опыт сразу нескольких проектов по работе с данными в FAO. Это, например:
- Global Forest Resources Assessment Platform [2] - платформа для мониторинга лесов
- Food and Agriculture Microdata Catalogue (FAM) [3] - каталог микроданных о еде и агрокультуре

и многое другое.

Доклад в формате Lessons Learned непривычен для российского читателя, у нас на удивление не принято признавать что не всё и не всегда идёт как планировалось и что надо учиться на ошибках, по крайней мере в публичном секторе.

Что важно так это то что открытые данные, открытый код, свободные лицензии становятся нетъемлимой частью работы структур ООН.

Ссылки:
[1] https://www.fao.org/documents/card/ru/c/cb8908en/
[2] https://fra-data.fao.org
[3] https://www.fao.org/food-agriculture-microdata/en

#opendata #data #un #food #agriculture #fao