Национальный цифровой архив
2.35K subscribers
45 photos
4 files
117 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Роскомнадзор в прошлую пятницу заблокировал онлайн издание polit.ru Мы ведём его архивацию на случай если последуют действия по исчезновению контента/разделегированию домена и иным действиям после которых сайт может стать полностью недоступен не только в РФ, но и в других странах.

Если у Вас сохранились копии материалов или если Вы ранее делали слепок/архив материалов polit.ru - напишите в чате @ruarxivechat или по нашим контактам. Все архивные материалы мы разместим в нашем и в Интернет-архиве (archive.org).

#digitalpreservation #deathwatch #webarchives #politru
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
Несколько часов назад Фонд "Нужна помощь" объявил о том что начинает процедуру ликвидации в связи с признанием его иноагентом и невозможностью продолжать деятельность.

Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.

В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.

Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить

Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat


#webarchives #archives
Пишут сервис Wix начнёт блокировать аккаунты связанные с Россией начиная с 12 сентября. У многих Wix сайты уже перестали работать ещё в 2022 году после невозможности платежей из России. Но судя по всему у кого-то сайты на Wix остались.

Если Вы знаете сайты на Wix владельцы которых могли получить подобное сообщение и чьи сайты исчезнут 12 сентября, напишите в чате к этому каналу и мы постараемся заархивировать всё что успеем.

#wix #webarchives
Судя по тому что пишут в СМИ Правительство определилось с будущим Большой российской энциклопедии [1], её материалы собираются передать в проект РуВики.

Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.

В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.


Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0

#bigenc #webarchives #encycplopedies
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives