Новости проекта на 23 марта 2022 года
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]
Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.
Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA
#webarchives #digitalpreservation #archives
Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.
Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA
#webarchives #digitalpreservation #archives
Beautiful.ai
Организация веб-архивов
Get started with Beautiful.ai today.
Forwarded from Александр Март
Если вы владете JavaScript или SvelteKit, вы можете помощь проекту Национального цифрового архива, который спасает всё то, что сейчас закрывается.
В связи с архивацией Телеграм каналов, чатов, возникла задача:
4. Визуализация и поиск по JSON-архивам каналов и чатов в Telegram.
Оригинал задачи: https://t.iss.one/ruarxive/22
Позволил себе запилить небольшой PoC
Сделано на SvelteKit, используя ES6 (Vanilla JS) с простым входом даже для не-фронтендеров.
👉 https://github.com/roboteam-digital/telegram-json-ui
Demo:
https://telegram-json-ui.netlify.app
Если есть желание помочь, пожалуйста, дополните список минимально необходимых фич, чтобы проект был востребован:
https://github.com/roboteam-digital/telegram-json-ui#todo
💎 Для тех кто задаётся вопросом «Зачем это всё?», ответ тут:
https://t.iss.one/ruarxive/5
TL;DR: В связи с последними событиями, ресурсы массово закрываются, поэтому АНО Инфокультура в ускоренном порядке архивирует сейчас всё что ещё можно спасти.
В т.ч. общественно-важные Телеграм-каналы.
В связи с архивацией Телеграм каналов, чатов, возникла задача:
4. Визуализация и поиск по JSON-архивам каналов и чатов в Telegram.
Оригинал задачи: https://t.iss.one/ruarxive/22
Позволил себе запилить небольшой PoC
Сделано на SvelteKit, используя ES6 (Vanilla JS) с простым входом даже для не-фронтендеров.
👉 https://github.com/roboteam-digital/telegram-json-ui
Demo:
https://telegram-json-ui.netlify.app
Если есть желание помочь, пожалуйста, дополните список минимально необходимых фич, чтобы проект был востребован:
https://github.com/roboteam-digital/telegram-json-ui#todo
💎 Для тех кто задаётся вопросом «Зачем это всё?», ответ тут:
https://t.iss.one/ruarxive/5
TL;DR: В связи с последними событиями, ресурсы массово закрываются, поэтому АНО Инфокультура в ускоренном порядке архивирует сейчас всё что ещё можно спасти.
В т.ч. общественно-важные Телеграм-каналы.
Начата архивация
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]
Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.
Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.
Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.
P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.
Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv
#instagram #government #archives #socialnetworks
Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.
Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.
Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.
P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.
Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv
#instagram #government #archives #socialnetworks
Telegram
Трансперенси
Группа независимых зарубежных экспертов, продолжающих работу ликвидированного российского юридического лица «Трансперенси Интернешнл – Россия». Связаться с нами: [email protected]
Наш сайт: ti-russia.org
Наш Facebook: facebook.com/tirussia
Наш сайт: ti-russia.org
Наш Facebook: facebook.com/tirussia
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.
Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv
Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.
Ссылки:
[1] https://archive.org/details/@ruarxive
#echomskru #echoofmoscow #archives #media #internetarchive
Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv
Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.
Ссылки:
[1] https://archive.org/details/@ruarxive
#echomskru #echoofmoscow #archives #media #internetarchive
Новости проекта на 31 марта 2022 г.
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
GitHub
GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Wordpress API data and files archival command line tool - GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Как устроены веб-архивы в мире?
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Trove
Archived Websites - Trove
A collection of webpages.
Forwarded from Трансперенси
«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
Telegram
Национальный цифровой архив
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]
Успешно были заархивированы все…
Успешно были заархивированы все…
Почему веб архивы неполны, охватывают не всё и даже самостоятельно сохранив сайт в нём можно не найти то что видно пользователю?
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Заповедник
Заповедник | Россия за пределами столиц
Мы пытаемся открыть удивительное, парадоксальное в том, что с первого взгляда кажется обыденным и незаметным. Маленькие города с типовой застройкой, промышленные поселки и полузаброшенные деревни – любое место кажется нам заповедным, замкнутым в своем уникальном…
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Национальный цифровой архив
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org. Посетите наш сайт, чтобы: — Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные…
Если вы готовы помочь с составлением подобных руководств по архивации, напишите нам или сделайте git commit к репозиторию: https://github.com/ruarxive/ruarxive.github.io.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
GitHub
GitHub - ruarxive/ruarxive.github.io: Website of Ruarxive.org. Blog, knowledge base and documentation
Website of Ruarxive.org. Blog, knowledge base and documentation - ruarxive/ruarxive.github.io
Новости проекта на 5 апреля 2022 г.
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Мы планируем организовать мини-конференцию о цифровой архивации. Собираем обратную связь у сообщества, какие из тем вам наиболее интересы?
Anonymous Poll
44%
Технические аспекты веб-архивации: инструменты и гайды
24%
Особенности архивации контента из соцсетей
20%
Архивация данных и API
28%
Персональные/ личные цифровые архивы
30%
Архивы как данные. Технологии анализа больших архивов
19%
Архивы СМИ. Как они создаются и кому они нужны
29%
Как работать с онлайн-архивами
25%
Юридические аспекты архивации контента и данных
23%
Хочу посмотреть ответы
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
National Archives
1950 Census Dataset on the Amazon Web Services (AWS) Registry of Open
The National Archives and Records Administration (NARA) publishes the 1950 Census dataset on the AWS Registry of Open Data. This documentation guides users in how to access the data.
Всех кто архивирует и использует архивы каналов в Telegram приглашаем к тестированию tgarchive-viewer утилиты разработанной Павлом Шуваловым. Подробнее о её работе в чате канала Ruarxive и там же можно поделиться идеями как можно доработать/развивать интересный продукт.
Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.
#telegram #archives
Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.
#telegram #archives
GitHub
GitHub - shuva10v/tgarchive-viewer: Telegram archive viewer
Telegram archive viewer. Contribute to shuva10v/tgarchive-viewer development by creating an account on GitHub.