Ivan Begtin

Когда-то много лет я потратил на тему которая может показаться многим странной - превращение сайтов в API причём с минимальным участием человека. Потом все эти наработки пошли в DataCrafter где наборы данных структурируются из изначально не особо структурированного вида и в кучу разного опенсорса. Дошли руки до актуального здесь и сейчас - доделать утилиту превращения сайтов на Wordpress в наборы данных.

Так что в рубрике интересных наборов данных... пам-пам-пам... все сайты на Wordpress.

#opendata #data #opensource

1.9K viewsIvan Begtin, 16:11

Ivan Begtin

Forwarded from Национальный цифровой архив

Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.

Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.

Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].

Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump

Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.

Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.

В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).

Найденные ошибки заполняйте в issues репозитория проекта wparc [3]

Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues

#wordpress #webarchives #digitalpreservation #opensource #tools

GitHub

GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool

Wordpress API data and files archival command line tool - GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool

1.8K viewsIvan Begtin, 16:11

Ivan Begtin

В рубрике интересных каталогов открытых данных большое открытие, Oracle Open Data [1], каталог огромных наборов данных доступный на базе облака компании Oracle.

Их особенность - это данные большого объёма, минимальные в десятках гигабайт, максимальные в сотнях терабайт. Акцент на данных о земле, данных расшифровки генома и так далее. Всё это под открытыми лицензиями и в удобном доступе на их инфраструктуре. По идеологии очень напоминает открытые датасеты на платформах Azure и Amazon AWS, а также данные которые доступны в Google Cloud. Но лидер по масштабам пока именно Amazon. И почти все делают акцент на наиболее востребованных научных данных.

Почему крупные BigTech корпорации создают такие каталоги? Потому что для их сервисов облачной инфраструктуры - это мощная "замануха" позволяющая убить сразу нескольких зайцев:
- социальный эффект от доступности для всех интересных наборов данных
- возможность с самого начала подсаживать на свою инфраструктуру студентов и исследователей
- маркетинг на общественно благих целях

Конечно без попыток vendor lock-in не обходится, но это, в целом, хорошие инициативы и за ними интересно наблюдать.

Кстати, если кто-то из российских облачных провайдеров задумается о том чтобы создать похожий каталог из очень больших датасетов связанных с Россией и нужных российской аудиторией - обращайтесь, мы как раз собрали масштабный каталог в DataCrafter'е (data.apicrafter.ru) и это ещё не все данные, а только те что успели обработать;)

Ссылки:
[1] https://opendata.oraclecloud.com

#opendata #datacatalogs #bigtech #oracle #data #datasets

2.2K viewsIvan Begtin, 17:08

Ivan Begtin

В свете последних событий я слегка упустил тему с последними утечками персональных данных которые публиковали украинские хакеры (Яндекс.Еда, СДЭК и др.) и интенсивными хакерскими атаками в первую очередь на органы власти в России.

И тут есть два аспекта. Первый, что делать если "shit happened" и второй, что делать если "shit will happen soon".

Первый вопрос в том как должны себя вести компании когда у них произошли утечки данных и достаточно существенные чтобы это нельзя было бы скрыть.

Должны ли они?
- уведомить регулятора(-ов)
- уведомить всех пострадавших
- написать публичный отчет о подробностях инцидента
- поименовать и уволить/иным образом наказать ответственных
- описать полный перечень принимаемых действий для неповторения утечки в будущем
- обеспечить материальную компенсацию пострадавшим

Что-то ещё не перечисленное выше? Что компании должны сделать и делать в таких случаях?

Потому что текущие утечки - это серьёзно, но могут быть утечки и посерьёзнее. Например, утечки из крупных государственных систем или биллинга физ. лиц естественных монополий или внутренний документооборот крупных корпораций и многое другое.

А второй аспект про то что надо делать прямо сейчас компаниям/организациям для минимизации ущерба до того как дерьмо случится. Потому что можно почти на 100% быть уверенными что произошедшее только начало и оно точно случится, в зоне риска могут быть все недостаточно защищённые информационные системы, частные и государственные.

Регулирование в России и в мире развивается по принципу усиления ответственности для операторов и обработчиков персональных данных. И в России сейчас говорят об оборотных штрафах для компаний.
Что должны делать компании прямо сейчас?
- кратно увеличивать расходы на информационную безопасность
- проводить срочный аудит унаследованных информационных систем
- ужесточать ответственность за несанкционированный доступ к данным
и тд.

#security #privacy #leaks

3.0K viewsIvan Begtin, 07:39

Ivan Begtin

Правительство Великобритании опубликовало The Digital, Data and Technology Playbook [1] о том как управлять цифровыми проектами на данных и технологиях. Руководство весьма конкретное, про то как такие продукты готовятся и запускаются и о том как взаимодействовать с коммерческими компаниями.

Ссылки:
[1] https://www.gov.uk/government/publications/the-digital-data-and-technology-playbook/the-digital-data-and-technology-playbook

#data #digital #government #uk

GOV.UK

The Digital, Data and Technology Playbook

Technology offers an opportunity to transform public services for the better. From registering to vote, to data solutions for the NHS and laptops for our schools, delivering excellent digital, data and technology products and services is critical for the…

2.4K viewsIvan Begtin, 11:19

Ivan Begtin

Цензура бывает не только в России не только в авторитарных странах, но имеет другую природу. Свежий законопроект в США SMART Copyright Act [1] предполагает введение практики технической блокировки онлайн ресурсов распространяющих материалы под копирайтом. Это не единственный и не первый такой нормативный документ в мире, ранее похожие инициативы были в Канаде и в Великобритании. Обо всём этом пишет Peter Routhier в блоге Archive.org [2].

Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].

Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.

Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] https://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act

#digital #censorship #copyright #copyleft #laws #usa

2.4K viewsIvan Begtin, 17:29

Ivan Begtin

Я много писал про государство и технологии, всё больше про данные в предыдущий год и вот всё чаще про цифровые архивы. Может показаться что это не взаимосвязанные темы, но это не так. Веб архивы - это одна из форм данных очень большого объёма, полуструктурированных как правило, но тем не менее вполне подпадающих под задачи data science.

Один из примеров такого применения - это проект Archives Unleashed [1] его авторы создали множество инструментов того как представлять, обрабатывать, анализировать и иными способами работать с файлами веб архивов. Собственно их Archives Unleashed Toolkit (AUT) [2] это инструментарий по созданию инфраструктуры обработки WARC файлов с помощью Hadoop, Apache Spark, Jupiter Notebook и других инструментов работы с данными большого объёма.

Многие наборы данных были созданы с помощью AUT, также как и проведены многочисленные исследования [3]. Не стоит недооценивать эти инструменты, они весьма полезны исследователям современного мира и не только.

Ссылки:
[1] https://archivesunleashed.org/
[2] https://aut.docs.archivesunleashed.org/
[3] https://archivesunleashed.org/cohorts2022-2023/

#opendata #data #tools #opensource

archivesunleashed.org

The Archives Unleashed Project

2.4K viewsIvan Begtin, 19:04

Ivan Begtin

Forwarded from Национальный цифровой архив

Как устроены веб-архивы в мире?

Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].

Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․

Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.

Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].

Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection

#webarchives #australia #digitalpreservation

Trove

Archived Websites - Trove

A collection of webpages.

2.0K viewsIvan Begtin, 09:12

Ivan Begtin

Продовольственная и сельскохозяйственная организация ООН (FAO) опубликовали отчёт Towards open and transparent forest data for climate action: Experiences and lessons learned [1]

В докладе опыт сразу нескольких проектов по работе с данными в FAO. Это, например:
- Global Forest Resources Assessment Platform [2] - платформа для мониторинга лесов
- Food and Agriculture Microdata Catalogue (FAM) [3] - каталог микроданных о еде и агрокультуре

и многое другое.

Доклад в формате Lessons Learned непривычен для российского читателя, у нас на удивление не принято признавать что не всё и не всегда идёт как планировалось и что надо учиться на ошибках, по крайней мере в публичном секторе.

Что важно так это то что открытые данные, открытый код, свободные лицензии становятся нетъемлимой частью работы структур ООН.

Ссылки:
[1] https://www.fao.org/documents/card/ru/c/cb8908en/
[2] https://fra-data.fao.org
[3] https://www.fao.org/food-agriculture-microdata/en

#opendata #data #un #food #agriculture #fao

2.1K viewsIvan Begtin, edited 09:35

Ivan Begtin

В рубрике полезных инструментов по работе с данными Mito [1], движок с открытым кодом встраивающийся в JupyterLab 2.0 и 3.0 и позволяющий работать с данными как если бы это был Excel или OpenRefine.

Фактически это lowcode инструмент по генерации кода на Python на основе манипуляций с датафреймом внутри тетрадки Jupyter. Как оказалось, очень удобная штука с большим числом пользователей.

Ссылки:
[1] https://www.trymito.io/

#data #datawranling #tools #datatools #opensource

www.trymito.io

Best Python Spreadsheet Automation & Code Generation | Mito

Mito is the fastest way to do Python data science. Edit your data in a spreadsheet, and generate Python code automatically.

2.4K viewsIvan Begtin, 13:30

Ivan Begtin

В рубрике интересных больших наборов данных, данные OpenAIRE Research Graph [1]. В наборе данных собраны все метаданные о публикациях, данных, исследователях, изданиях, финансировании и иных сведений из европейского проекта OpenAIRE. Это, в общей сложности, сведения о:
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.

Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].

Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].

Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.

Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].

Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22

#data #opendata #science #openacess #datasets #eu

graph.openaire.eu

OpenAIRE API documentation - Dumps of the OpenAIRE Research Graph

OpenAIRE API documentation - Research graph dump, covid-19 dump, dump of funded products, dumps about research communities, initiatives and infrastructures, dump of ScholeXplorer, dump of DOIBoost, old XML dumps

2.3K viewsIvan Begtin, 18:06

Ivan Begtin

В рубрике больших наборов открытых данных для аналитической работы, в проекте Open Beneficial Ownership выложили наборы данных в виде аналитических баз данных по конечным владельцам компаний [1].

Данные можно скачать в виде CSV файлов, баз данных Postgres и Sqlite, в виде сайта Datasette и доступны через Google Bigquery. Тут важно вспомнить что оригинальные данные в проекте хранятся в виде больших JSON дампов и то что выложено сейчас - это нормализация этих данных в виде плоских таблиц. Вот тут можно их скачать [2] и использовать любым удобным аналитическим инструментом.

Главный недостаток этих наборов данных - это неполнота. Пока совсем далеко не все страны охвачены, в базах есть сведения из реестров Великобритании, Дании, Словакии, Украины и частично Латвии.

Ссылки:
[1] https://www.openownership.org/en/blog/launch-of-beneficial-ownership-data-standard-analysis-tools/
[2] https://bods-data.openownership.org/

#datasets #opendata #data #companies

openownership.org

Launch of Beneficial Ownership Data Standard analysis tools

Open Ownership is unveiling a set of data analysis tools to help anyone wanting to reuse and work with data published in line with the Beneficial Ownership Data Standard

2.2K viewsIvan Begtin, 04:35

Ivan Begtin

Forwarded from Трансперенси

«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников

После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.

Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org

Национальный цифровой архив

Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все…

2.0K viewsIvan Begtin, 09:12

Ivan Begtin

Вот уже несколько дней наблюдаю нарастающий поток пользователей которые которые приходят в реестр аккредитованных ИТ компаний на DataCrafter'е [1]. Он открыт и общедоступен, но что случилось? Он что, исчез на сайте Минцифры? У нас то версия ещё за ноябрь 2021 года, публичный контур датакрафтера обновляется не так часто, время от времени.

Ссылки:
[1] https://data.apicrafter.ru/packages/accreditorgs

#opendata #datasets #it #companies

DataCrafter

Реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий

Организации зарегистрированные в Минкомсвязи России и имеющие пониженную ставку налогообложения

2.2K viewsIvan Begtin, 16:47

Ivan Begtin

Forwarded from Национальный цифровой архив

Почему веб архивы неполны, охватывают не всё и даже самостоятельно сохранив сайт в нём можно не найти то что видно пользователю?

Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.

Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.

Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.

Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii

Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.

Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam

Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.

Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.

#guides #digitalpreservation #webarchives #crawl

Заповедник

Заповедник | Россия за пределами столиц

Мы пытаемся открыть удивительное, парадоксальное в том, что с первого взгляда кажется обыденным и незаметным. Маленькие города с типовой застройкой, промышленные поселки и полузаброшенные деревни – любое место кажется нам заповедным, замкнутым в своем уникальном…

1.8K viewsIvan Begtin, 03:54

Ivan Begtin

В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.

У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.

Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.

Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai

#data #opensource #datatools #search

GitHub

GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows

💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows - neuml/txtai

1.9K viewsIvan Begtin, 05:19

Ivan Begtin

Для тех кто пользуется телеграмом регулярно, поделюсь несколькими идеями продуктов которыми мне самому заняться всегда не хватало времени/мотивации/занятости. Да и специализация моя data engineering, что немного в другой области.

Первая идея весьма очевидная.

Аналог Slack/Element на базе Telegram

У телеграм'а есть сильное ограничение в числе каналов и чатов которые возможно поддерживать в одиночку. Больше чем на 20 каналов подписываться самоубийственное занятие, а чаты идут вперемешку рабочие и нерабочие и всякие. В этом смысле Slack или Element (Matrix) организованные по комнатам и сгруппированные по компаниям удобнее для корпоративного использования. В десктопном телеграме есть возможность группировать каналы и чаты, но, скажем так, довольно ограниченная.

Так вот востребованная штука - это сделать аналог Slack'а поверх телеграма. Почему так? Аналог Slack - это:
1. Способ организации рабочего пространства. В нем должны быть собраны все чаты команд, каналы команды и тд.
2. Автоматизированная архивация всей корпоративной переписки в чатах.
3. Корпоративный поиск по чатам (нужен поиск только по чатам в рамках определенной группы).
4. Иные возможности как у Slack'а

Почему Телеграм? Потому что он повсеместен. Сотрудники могут пользоваться корпоративным мессенжером или любым имеющимся, не так важно. Телеграм создает готовую инфраструктуру поверх которой может быть построено полноценное рабочее пространство.
—

Конечно, идеально было бы если бы в самом телеграм'е эти опции были бы вшиты, у корпоративной версии было бы платящих немало клиентов. Тех кто для коммуникаций команды сейчас выбирает между Mattermost и Element.

#ideas #tech #telegram

1.9K viewsIvan Begtin, 05:47

Ivan Begtin

Forwarded from Национальный цифровой архив

Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org.

Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.

В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.

1.7K viewsIvan Begtin, 07:48

Ivan Begtin

Forwarded from Национальный цифровой архив

Если вы готовы помочь с составлением подобных руководств по архивации, напишите нам или сделайте git commit к репозиторию: https://github.com/ruarxive/ruarxive.github.io.

Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.

GitHub

GitHub - ruarxive/ruarxive.github.io: Website of Ruarxive.org. Blog, knowledge base and documentation

Website of Ruarxive.org. Blog, knowledge base and documentation - ruarxive/ruarxive.github.io

1.8K viewsIvan Begtin, 07:48

Ivan Begtin

Epic Games запустили ограниченную бету [1] приложения RealityScan позволяющего переносить образы объектов из реального мира в 3D модели. Достаточно сделать множество фотографий, а на их основе приложение собирает конкретный объект который потом можно использовать, например, для проектирования квартиры.

Штука интересная, может стать мэйнстримом для моделирования виртуальной реальности и многих компьютерных игр, фильмов и ещё много чего.

Ссылки:
[1] https://www.epicgames.com/site/en-US/news/epic-games-introduces-realityscan-app-now-in-limited-beta

#innovations #apps

Epicgames

Epic Games Introduces RealityScan App, Now in Limited Beta

Capture the world with RealityScan, a free 3D scanning app with cloud processing. Create realistic 3D models with your iPhone or iPad, get AR guidance, and upload directly to Sketchfab.

2.2K viewsIvan Begtin, 12:58

About

Blog

Apps

Platform