Начата архивация
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Новости проекта на 31 марта 2022 г.
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
GitHub
GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Wordpress API data and files archival command line tool - GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Как устроены веб-архивы в мире?
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Trove
Archived Websites - Trove
A collection of webpages.