Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО).
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Национальный цифровой архив
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО). Что случилось? 14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит:…
Как сохранять исходный код? Как сохранять код публичных репозиториев, который может исчезнуть, например, в связи с закрытием организации или проектов?
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Как начать работу по веб-архивации?
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Forwarded from Ivan Begtin (Ivan Begtin)
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
publication.pravo.gov.ru
Федеральный закон от 14.07.2022 № 236-ФЗ ∙ Официальное опубликование правовых актов
Федеральный закон от 14.07.2022 № 236-ФЗ
"О Фонде пенсионного и социального страхования Российской Федерации"
"О Фонде пенсионного и социального страхования Российской Федерации"
Как сохранить журналистику данных
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
DataJournalism.com
How to save data journalism: A guide to… | DataJournalism.com
How can journalists preserve their interactive data journalism pieces? Professor Bahareh Heravi analyses the problem and provides solutions for ensuring…
Подборка статей о веб-архивах от международного рецензируемого журнала «Internet Histories»
1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988
2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835
3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331
4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.
Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988
2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835
3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331
4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.
Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
Taylor & Francis
The invention of the archived web: tracing the influence of library frameworks on web archiving infrastructure
Web archives are increasingly considered key infrastructure for web histories, yet the story of their initial development is often overlooked. Paying attention to the period between the emergence o...
Веб-архив сайтов Испании стал источником построения языковой модели для искусственного интеллекта
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
huggingface.co
PlanTL-GOB-ES/roberta-large-bne · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Venom: как проверить веб-архив на наличие нелегального контента из даркнета
Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.
Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.
Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.
Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.
Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
The MITRE Corporation
How to Check Your Web Archive for Dark Web Contraband
Web archives, such as the Internet Archive’s Wayback Machine, focus on saving and replaying web pages. However, these archives can inadvertently be used to host and share dark web contraband. This
Digital Preservation Coalition опубликовало новое руководство для начинающих специалистов по сохранению цифровой информации.
Подробнее: https://www.dpconline.org/news/comp-access-guide-general
Подробнее: https://www.dpconline.org/news/comp-access-guide-general
Зачем журналисту копии веб-страниц?
Цифровые архивы для СМИ: пользовательские задачи журналистов при работе с веб-архивами.
1. Просмотр копии веб-страницы в Internet Archive, которая больше не доступна в первоисточнике.
2. Отслеживание изменений в контенте веб-страниц в течение времени. Например, поиск определенных слов и предложений, которые могут быть удалены со страницы, но сохранены в веб-архиве. Другие задачи в этой категории включают: расчет жизненного цикла контента, сравнение прошлой версии с текущей и изучение эволюции терминологии на странице.
3. Потребность в надежных ссылках на упоминания и источники информации. Обычных ссылок на веб-страницы недостаточно, так как их контент со временем меняется. Дрейф контента — основная причина, из-за которой нужно делать копию текущей версии веб-страницы на момент написания статьи. Для этого можно использовать такие сервисы, как инструмент «Save page now» от Internet Archive или Archive.today.
Подробнее в статье.
Цифровые архивы для СМИ: пользовательские задачи журналистов при работе с веб-архивами.
1. Просмотр копии веб-страницы в Internet Archive, которая больше не доступна в первоисточнике.
2. Отслеживание изменений в контенте веб-страниц в течение времени. Например, поиск определенных слов и предложений, которые могут быть удалены со страницы, но сохранены в веб-архиве. Другие задачи в этой категории включают: расчет жизненного цикла контента, сравнение прошлой версии с текущей и изучение эволюции терминологии на странице.
3. Потребность в надежных ссылках на упоминания и источники информации. Обычных ссылок на веб-страницы недостаточно, так как их контент со временем меняется. Дрейф контента — основная причина, из-за которой нужно делать копию текущей версии веб-страницы на момент написания статьи. Для этого можно использовать такие сервисы, как инструмент «Save page now» от Internet Archive или Archive.today.
Подробнее в статье.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных Bible geocoding data [1] набор данных по геокодированию мест упомянутых в библии. Автор занимался этим с 2007 года и в прошлом году существенно обновил предыдущую работу. О самой инициативе и данные для Google Earth в формате KMZ есть на его сайте [2] и там же у него на сайте OpenBible разного рода эксперименты по визуализации [3].
Из весьма интересного - это AI-Assisted Bible Study [4] суммаризатор ответов и вопросов по главам библии через использование ИИ.
В данном случае библия важный пример, но сам подход ей не ограничивается. Один из путей/способов развития цифровой гуманитаристики - это подходы "всё-код" и "всё-данные". Любое художественное, религиозное или документальное произведение можно рассматривать как базу данных. Можно, например, геокодировать "Войну и мир", превращать в граф знаний "Властелин колец" и остальные произведения Толкиена, проводить интерактивную реконструкцию исторических событий. О многих подобных проектах я пишу время от времени [5].
Важное отличие современных проектов в этой области - это открытость данных и кода. Открытые проекты позволяют создавать новые проекты/продукты/исследования на их основе.
Ссылки:
[1] https://github.com/openbibleinfo/Bible-Geocoding-Data
[2] https://www.openbible.info/geo/
[3] https://www.openbible.info/labs/
[4] https://www.openbible.info/labs/ai-bible-study/
[5] https://t.iss.one/begtin/4147
#datasets #opensource #opendata #digitalhumanities
Из весьма интересного - это AI-Assisted Bible Study [4] суммаризатор ответов и вопросов по главам библии через использование ИИ.
В данном случае библия важный пример, но сам подход ей не ограничивается. Один из путей/способов развития цифровой гуманитаристики - это подходы "всё-код" и "всё-данные". Любое художественное, религиозное или документальное произведение можно рассматривать как базу данных. Можно, например, геокодировать "Войну и мир", превращать в граф знаний "Властелин колец" и остальные произведения Толкиена, проводить интерактивную реконструкцию исторических событий. О многих подобных проектах я пишу время от времени [5].
Важное отличие современных проектов в этой области - это открытость данных и кода. Открытые проекты позволяют создавать новые проекты/продукты/исследования на их основе.
Ссылки:
[1] https://github.com/openbibleinfo/Bible-Geocoding-Data
[2] https://www.openbible.info/geo/
[3] https://www.openbible.info/labs/
[4] https://www.openbible.info/labs/ai-bible-study/
[5] https://t.iss.one/begtin/4147
#datasets #opensource #opendata #digitalhumanities
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов
Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.
Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]
ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]
Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] https://webdatacommons.org/
[3] https://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/
#opendata #datasets #digitalhumanities
Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.
Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]
ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]
Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] https://webdatacommons.org/
[3] https://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/
#opendata #datasets #digitalhumanities
ACL Anthology
Learning Word Vectors for 157 Languages
Edouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin, Tomas Mikolov. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике полезных инструментов работы с данными, я выложил в открытый доступ очередную маленькую утилиту filegetter [1] для проектов цифрового архива (ruarxive.org, телеграм канал @ruarxive).
Утилита делалась когда-то для тех случаях когда в файле набора данных есть ссылки на какие-то файлы, например, PDF/DOC документы или изображения или ещё что-то что надо собрать вместе с набором данных. Такие файлы можно собирать разными способами, например, набором скриптов для командной строки или из скрипта на любом скриптовом языке. Но в какой-то момент это стало довольно неудобно каждый раз писать программу на на сто строк кода, когда можно было бы описать правила в 5 строках конфигурационного файла.
Поэтому на базе другой утилиты, apibackuper [2], созданной для архивации данных в API была быстро сделана эта утилита которая так и пролежала почти год пока у меня не нашлось немного времени сделать к ней документацию и примеры.
Так вот примеры:
- выгрузка файлов приложенных к проекту бюджета с сайта Госдумы [3]
- выгрузка отчетов политических партий с сайта ЦИК РФ [4]
- выгрузка изображений из каталога музейного фонда [5]
Всё это довольно простые примеры, когда файлы выкачиваются из первоисточников и складываются внутрь ZIP контейнера, а рядом сохраняется файл с метаданными.
Главное применение - архивация сопутствующих файлов привязанных к наборам данных.
В итоге, рано или поздно, хочется это упаковать в связанные между собой инструменты для цифровой архивации. Их по отдельности уже много: архивация Wordpress, API, файлов, веб-сайтов, телеграм и других цифровых объектов и типов источников данных и контента.
Ссылки:
[1] https://github.com/ruarxive/filegetter
[2] https://github.com/ruarxive/fapibackuper
[3] https://github.com/ruarxive/filegetter/tree/main/examples/budget2023
[4] https://github.com/ruarxive/filegetter/tree/main/examples/rupolitparties
[5] https://github.com/ruarxive/filegetter/tree/main/examples/goskatalog
#opendata #digitalpreservation #webarchives #opensource
Утилита делалась когда-то для тех случаях когда в файле набора данных есть ссылки на какие-то файлы, например, PDF/DOC документы или изображения или ещё что-то что надо собрать вместе с набором данных. Такие файлы можно собирать разными способами, например, набором скриптов для командной строки или из скрипта на любом скриптовом языке. Но в какой-то момент это стало довольно неудобно каждый раз писать программу на на сто строк кода, когда можно было бы описать правила в 5 строках конфигурационного файла.
Поэтому на базе другой утилиты, apibackuper [2], созданной для архивации данных в API была быстро сделана эта утилита которая так и пролежала почти год пока у меня не нашлось немного времени сделать к ней документацию и примеры.
Так вот примеры:
- выгрузка файлов приложенных к проекту бюджета с сайта Госдумы [3]
- выгрузка отчетов политических партий с сайта ЦИК РФ [4]
- выгрузка изображений из каталога музейного фонда [5]
Всё это довольно простые примеры, когда файлы выкачиваются из первоисточников и складываются внутрь ZIP контейнера, а рядом сохраняется файл с метаданными.
Главное применение - архивация сопутствующих файлов привязанных к наборам данных.
В итоге, рано или поздно, хочется это упаковать в связанные между собой инструменты для цифровой архивации. Их по отдельности уже много: архивация Wordpress, API, файлов, веб-сайтов, телеграм и других цифровых объектов и типов источников данных и контента.
Ссылки:
[1] https://github.com/ruarxive/filegetter
[2] https://github.com/ruarxive/fapibackuper
[3] https://github.com/ruarxive/filegetter/tree/main/examples/budget2023
[4] https://github.com/ruarxive/filegetter/tree/main/examples/rupolitparties
[5] https://github.com/ruarxive/filegetter/tree/main/examples/goskatalog
#opendata #digitalpreservation #webarchives #opensource
GitHub
GitHub - ruarxive/filegetter: A command-line tool to collect files from public data sources using URL patterns and config files
A command-line tool to collect files from public data sources using URL patterns and config files - ruarxive/filegetter
Практика цифрового сохранения США
Программа сохранения цифровых данных (Digital Preservation Framework) Национального архива США (NARA) описывает оценку рисков и рекомендуемые планы сохранения для более 600 форматов файлов. Система цифрового сохранения архивов состоит из матрицы рисков, приоритетов и планов действий по сохранению форматов файлов. Планы открыто опубликованы для исследователей и архивистов в специальном репозитории.
В документации системы каждый формат данных отнесен к одной из 16 категорий, таких как «цифровое аудио», «электронные таблицы», «программное обеспечение и код». В августе этого года появилась категория «связанные открытые данные» (linked open data).
Доступ к открытым данным, связанным с цифровым сохранением, можно получить путем массовой загрузки, по категориям записей (цифровое видео, электронная почта и т.д.) или просмотрев полный список сотен форматов файлов.
Также наборы данных коллекций доступны через API.
Подробнее о Digital Preservation Framework Linked Open Data: https://www.archives.gov/preservation/digital-preservation/linked-data
Программа сохранения цифровых данных (Digital Preservation Framework) Национального архива США (NARA) описывает оценку рисков и рекомендуемые планы сохранения для более 600 форматов файлов. Система цифрового сохранения архивов состоит из матрицы рисков, приоритетов и планов действий по сохранению форматов файлов. Планы открыто опубликованы для исследователей и архивистов в специальном репозитории.
В документации системы каждый формат данных отнесен к одной из 16 категорий, таких как «цифровое аудио», «электронные таблицы», «программное обеспечение и код». В августе этого года появилась категория «связанные открытые данные» (linked open data).
Доступ к открытым данным, связанным с цифровым сохранением, можно получить путем массовой загрузки, по категориям записей (цифровое видео, электронная почта и т.д.) или просмотрев полный список сотен форматов файлов.
Также наборы данных коллекций доступны через API.
Подробнее о Digital Preservation Framework Linked Open Data: https://www.archives.gov/preservation/digital-preservation/linked-data
GitHub
GitHub - usnationalarchives/digital-preservation: NARA digital preservation file format risk analysis and preservation plans
NARA digital preservation file format risk analysis and preservation plans - usnationalarchives/digital-preservation
Forwarded from Ivan Begtin (Ivan Begtin)
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
Forwarded from Ivan Begtin (Ivan Begtin)
Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].
Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.
Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.
Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.
Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.
Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export
Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)
Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).
Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.
Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.
Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.
Ошибки, идеи и предложения пишите в Issues на github [5]
Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues
#opensource #webarchives #digitalpreservation #opendata
Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.
Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.
Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.
Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.
Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export
Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)
Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).
Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.
Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.
Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.
Ошибки, идеи и предложения пишите в Issues на github [5]
Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues
#opensource #webarchives #digitalpreservation #opendata
GitHub
GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)
metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.
Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.
Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.
В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями
Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].
Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.
Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md
#opendata #datasets #web
Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.
Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.
В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями
Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].
Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.
Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md
#opendata #datasets #web
httparchive.org
The HTTP Archive
The HTTP Archive tracks how the web is built. We periodically crawl the top sites on the web and record detailed information about fetched resources, used web platform APIs and features, and execution traces of each page.
Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.
Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.
Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.
Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.
#webarchives #digitalpreservation #mediaarchive
Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.
Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.
Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.
#webarchives #digitalpreservation #mediaarchive