Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?
Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].
ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница
Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.
Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/
#archives #personal #webarchive
Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].
ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница
Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.
Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/
#archives #personal #webarchive
О разных подходах к цифровой архивации.
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] https://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] https://ruarxive.org
#digital #archival #webarchive
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] https://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] https://ruarxive.org
#digital #archival #webarchive
National Archives
NARA Guidance on Managing Web Records
January 2005 (PDF version available ) Web site operations are an integral part of an agency's program. Managing web records properly is essential to effective web site operations, especially the
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] https://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] https://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] https://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] https://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] https://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] https://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
национальныепроекты.рф
Национальные проекты России
Официальный информационный ресурс с планами развития страны на ближайшее будущее и мерами по улучшению качества жизни населения. Сайт создан при поддержке АНО «Национальные приоритеты».
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.
К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.
А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.
Ссылки:
[1] https://arhvak.minobrnauki.gov.ru/
[2] https://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] https://ruarxive.org
#archives #web #webarchive
К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.
А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.
Ссылки:
[1] https://arhvak.minobrnauki.gov.ru/
[2] https://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] https://ruarxive.org
#archives #web #webarchive
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.
За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]
Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.
Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] https://wiki.ac-forum.ru
#opendata #opengov #webarchive #archive
За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]
Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.
Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] https://wiki.ac-forum.ru
#opendata #opengov #webarchive #archive
Есть органы власти на которых можно рассказывать про архивацию сайтов, инвентаризацию ИТ ресурсов и открытость данных одновременно, потому что на них все эти темы сходятся.
В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.
Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.
Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.
Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать
Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.
Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] https://fcior.edu.ru
[7] https://fpu.informika.ru
#data #webarchive #opendata #archive
В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.
Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.
Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.
Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать
Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.
Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] https://fcior.edu.ru
[7] https://fpu.informika.ru
#data #webarchive #opendata #archive
eo.edu.ru
Дошкольное образование
Web site created using create-react-app
Ещё про архивацию данных, на сей раз институтов развития. К примеру, ВЭБ.РФ много лет публикует много материалов на своём сайте, обязательную отчетность и, например, отчетность об устойчивом развитии . Они есть в разделе на сайте в PDF формате [1], но только за 3 года: 2013, 2014 и 2016 они создавали (заказывали подготовку) отчётность в интерактивном формате и отчетность за 2016 год в таком виде уже не открывается [2], хотя и за 2013 и 2014 годы доступна [3] [4]. Это не критично, поскольку отчет за 2016 год есть в PDF, но странно. Аналогичным образом исчезли:
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]
Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.
Я таких примеров могу приводить ещё много, а вот примеров обратного немного.
Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.
Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.
Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] https://csr2016.veb.ru/
[3] https://csr2013.veb.ru/ru/
[4] https://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] https://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/https://magazine.veb.ru/
[9] https://www.cbr.ru/archive/archive_fkcb/
[10] https://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru
#webarchive #archive #data
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]
Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.
Я таких примеров могу приводить ещё много, а вот примеров обратного немного.
Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.
Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.
Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] https://csr2016.veb.ru/
[3] https://csr2013.veb.ru/ru/
[4] https://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] https://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/https://magazine.veb.ru/
[9] https://www.cbr.ru/archive/archive_fkcb/
[10] https://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru
#webarchive #archive #data
csr2013.veb.ru
Внешэкономбанк — Отчет об устойчивом развитии 2013
Мало кто знает что у компании Yahoo устойчивая репутация разрушителя интернет культуры. Об этом в статье в Atlantic "Yahoo, the Destroyer" [1].
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
The Atlantic
Yahoo, the Destroyer
How the historic company became known as a bumbling villain of internet culture
Forwarded from Национальный цифровой архив
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.iss.one/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.iss.one/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Telegram
Обсуждаем цифровую архивацию
Чат к каналу @ruarxive о цифровой архивации
Forwarded from Национальный цифровой архив
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
Forwarded from Национальный цифровой архив
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
РБК
«Роснано» предупредило о риске банкротства
«Роснано» сообщило, что не сможет до конца года погасить долги за счет собственных средств. Его чистый долг составляет 95 млрд руб. Оно испытывает подобные проблемы уже несколько лет. Путин говорил о
Forwarded from Национальный цифровой архив
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Ars Technica
Google will no longer back up the Internet: Cached webpages are dead
Google Search will no longer make site backups while crawling the web.
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/https://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/https://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
Forwarded from Национальный цифровой архив
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
Telegram
Большая российская энциклопедия
Обращение редакций портала «Большая российская энциклопедия» к авторам, экспертам и читателям
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
Forwarded from Национальный цифровой архив
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener