Национальный цифровой архив
2.36K subscribers
44 photos
4 files
114 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.

P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.

#deathwatch #webarchive #bigenc
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).

На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.

Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.

Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).

#webarchival #digitalpreservation #bigenc
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Несколько часов назад Фонд "Нужна помощь" объявил о том что начинает процедуру ликвидации в связи с признанием его иноагентом и невозможностью продолжать деятельность.

Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.

В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.

Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить

Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat


#webarchives #archives
Пишут сервис Wix начнёт блокировать аккаунты связанные с Россией начиная с 12 сентября. У многих Wix сайты уже перестали работать ещё в 2022 году после невозможности платежей из России. Но судя по всему у кого-то сайты на Wix остались.

Если Вы знаете сайты на Wix владельцы которых могли получить подобное сообщение и чьи сайты исчезнут 12 сентября, напишите в чате к этому каналу и мы постараемся заархивировать всё что успеем.

#wix #webarchives
Как оцифровать домашний архив?
Лекция и мастер-класс в Музее криптографии (Москва, оффлайн)
24 сентября в 19:00
Участие бесплатное, по регистрации

Что делать с домашним архивом? Как его оцифровать? Что такое общественная архивистика? Об этом пойдет речь на лекции Центра «Прожито» Европейского университета, открывшего новый сервис «Цифровой архив». После лекции состоится мастер-класс по работе с домашними архивами.

Вы можете принести документы из своего архива и получить рекомендации по их исследованию, хранению и оцифровке.

Эксперты и ведущие:
Михаил Мельниченко, историк, директор центра «Прожито» ЕУСПб.
Георгий Шерстнев, историк искусства, архивист центра «Прожито».
Анастасия Павловская, историк, архивист центра «Прожито».
Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.

Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.

Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.

Ссылки:
[1] https://flibusta.is/node/681117

#digitalpreservation #books #flibusta
Судя по тому что пишут в СМИ Правительство определилось с будущим Большой российской энциклопедии [1], её материалы собираются передать в проект РуВики.

Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.

В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.


Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0

#bigenc #webarchives #encycplopedies
У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.

В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.

Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/

#security #internetarchive #databreach
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives