Antony Nut
54.9K subscribers
3.26K photos
1.38K videos
1 file
2.67K links
Для связи: @orex62bot
По вопросам рекламы: @PingWinPRbot
Download Telegram
Собран и загружается архив Эха Москвы.

На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.

Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop

Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.

Официальный сайт Эха Москвы

Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.

О архиве сайта я напишу ещё подробнее позже, по готовности.

Ссылка:
[1] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_telegram/echomskru_20220303.zip
[2] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_vk/echomsk_vk_20220303.zip

#digitalpreservation #webarchives #archives #echomskru
Архив сайта Эха Москвы (echo.msk.ru) загружен в облако и готов к выгрузке. Его содержание 63299 файлов из которых 7364 файла - это аудио записи в виде mp3 файлов.

Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.

Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].

Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.

Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://t.iss.one/ruarxive/5

#webarchives #digitalpreservation #archives