Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).
В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.
Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].
Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.
Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.
➡️ Подробности и регистрация
В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.
Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].
Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.
Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.
➡️ Подробности и регистрация
📌 Хакатон Роскомсвободы Demhack 4
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
9.demhack.org
Demhack 9
Онлайн-хакатон
Серия докладов в программу конференции по цифровым архивам: принимаем заявки
Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.
Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.
Формат участия: очно или онлайн.
Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].
Подробнее о конференции и регистрация: https://conference.ruarxive.org.
Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.
Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.
Формат участия: очно или онлайн.
Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].
Подробнее о конференции и регистрация: https://conference.ruarxive.org.
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что
Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]
Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.
Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/
#archiveorg #internetarchive
Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]
Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.
Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/
#archiveorg #internetarchive
Роскомсвобода
«Архиву Интернета» грозит крупный штраф за неудаление запрещённых материалов
По данным суда, речь идёт об информации, признанной судами экстремистской на территории РФ, в том числе — о способах изготовления взрывчатых веществ и взрывных устройств.
Опубликована программа конференции по цифровым архивам
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
YouTube
Конференция по цифровым архивам
19 мая 2022 года состоится онлайн-конференция о цифровых архивах.
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Forwarded from Ivan Begtin (Ivan Begtin)
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
УВКБ ООН Россия
Главная - УВКБ ООН Россия
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
В Интернет архиве появился архив нескольких телеканалов России, Беларуси и Украины [1] созданный вместе с проектом GDELT [2] собирающем данные о человеческом обществе по всему миру.
Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.
Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/
#tv #internetarchive
Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.
Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/
#tv #internetarchive
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
www.ica.org
FADGI publishes the Technical Guidelines for Digitizing Cultural Heritage Material (3rd ed) for public comment | International…
The Federal Agencies Digital Guidelines Initiative ( FADGI) Still Image Working Group has published revision of Still Image Digitization Guidelines, 3rd
Форматы хранения архивных файлов - это головная боль всех архивистов работающих с цифровыми материалами. Программы перестают поддерживаться, технологические стеки меняются и если формат хранения не стандартизирован и, более того, проприетарен, то есть шанс потерять возможность работать с сохранённым знанием.
International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.
В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов
Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.
Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917
#digitalpreservation #fileformats
International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.
В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов
Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.
Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917
#digitalpreservation #fileformats
Google Docs
International Comparison of Recommended File Formats
Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив
Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.
Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.
Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.
В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.
Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.
Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.
Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.
В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.
Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Инструменты для работы и исследования веб-архивов
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
GitHub
GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)
metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
GitHub
Issues · ruarxive/rudatarchive
Russian open data portals and websites archival campaign - Issues · ruarxive/rudatarchive
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО).
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Национальный цифровой архив
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО). Что случилось? 14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит:…
Как сохранять исходный код? Как сохранять код публичных репозиториев, который может исчезнуть, например, в связи с закрытием организации или проектов?
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Как начать работу по веб-архивации?
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Forwarded from Ivan Begtin (Ivan Begtin)
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
publication.pravo.gov.ru
Федеральный закон от 14.07.2022 № 236-ФЗ ∙ Официальное опубликование правовых актов
Федеральный закон от 14.07.2022 № 236-ФЗ
"О Фонде пенсионного и социального страхования Российской Федерации"
"О Фонде пенсионного и социального страхования Российской Федерации"
Как сохранить журналистику данных
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
DataJournalism.com
How to save data journalism: A guide to… | DataJournalism.com
How can journalists preserve their interactive data journalism pieces? Professor Bahareh Heravi analyses the problem and provides solutions for ensuring…