FSCP
18.3K subscribers
30.1K photos
3.44K videos
859 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы


Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.

Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?


#archives #digitalpreservation #webarchive
_______
Source: https://t.iss.one/begtin/2397
Как исчезают официальные данные в сети - в первую очередь через ликвидацию организаций. Приведу в пример Уставной суд Санкт-Петербурга. Это был один из конституционных судов субъектов федерации, о нем есть статья в Википедии [1]. 31 марта 2021 года законодательное собрание Санкт-Петербурга приняло решение о его ликвидации [2], а с 1 июля (всего 2 месяца назад) суд ликвидирован, а сайт суда закрыт.

Обычно, если организация ликвидируется через реорганизацию, то у нее есть правопреемник, которому передаются архивы, имущество и тд.
Но уставной суд именно ликвидировался, а не реорганизовывался, имущество, скорее всего, было возвращено в собственность города, а вот процедуры сохранения материалов публикуемых в цифровой форме в России нет и не было.

Поэтому сайт суда просто одномоментно закрыли. В лучшем случае его решения остались в коммерческих системах вроде Консультант плюс или Гарант. С высокой вероятностью их нет в государственных системах регистрации нормативно-правовых документов, поскольку это был суд вне юрисдикции Судебного департамента и поскольку решения судов не регистрируются в pravo.gov.ru или системах Минюста России.

Это довольно маленький, очень небольшой пример, того как материалы органов власти исчезают при реорганизации. Он, конечно, несравним с моментальным закрытием всех материалов ФМС и ФСКН после их возврата в МВД. Тогда МВД убрали из сети все материалы этих ведомств в тот же день когда был анонсирован указ Президента РФ о реорганизации этих ведомств.

Ссылки:
[1] ru.wikipedia.org
[2] www.assembly.spb.ru

#digitalpreservation #data
_______
Источник | #begtin
Собран и загружается архив Эха Москвы.

На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.

Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop

Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.

Официальный сайт Эха Москвы

Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.

О архиве сайта я напишу ещё подробнее позже, по готовности.

Ссылка:
[1] cdn.ruarxive.org
[2] cdn.ruarxive.org

#digitalpreservation #webarchives #archives #echomskru
_______
Источник | #ruarxive