Опубликована программа конференции по цифровым архивам
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
YouTube
Конференция по цифровым архивам
19 мая 2022 года состоится онлайн-конференция о цифровых архивах.
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Forwarded from Ivan Begtin (Ivan Begtin)
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
УВКБ ООН Россия
Главная - УВКБ ООН Россия
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
В Интернет архиве появился архив нескольких телеканалов России, Беларуси и Украины [1] созданный вместе с проектом GDELT [2] собирающем данные о человеческом обществе по всему миру.
Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.
Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/
#tv #internetarchive
Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.
Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/
#tv #internetarchive
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
www.ica.org
FADGI publishes the Technical Guidelines for Digitizing Cultural Heritage Material (3rd ed) for public comment | International…
The Federal Agencies Digital Guidelines Initiative ( FADGI) Still Image Working Group has published revision of Still Image Digitization Guidelines, 3rd
Форматы хранения архивных файлов - это головная боль всех архивистов работающих с цифровыми материалами. Программы перестают поддерживаться, технологические стеки меняются и если формат хранения не стандартизирован и, более того, проприетарен, то есть шанс потерять возможность работать с сохранённым знанием.
International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.
В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов
Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.
Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917
#digitalpreservation #fileformats
International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.
В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов
Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.
Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917
#digitalpreservation #fileformats
Google Docs
International Comparison of Recommended File Formats
Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив
Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.
Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.
Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.
В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.
Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.
Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.
Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.
В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.
Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Инструменты для работы и исследования веб-архивов
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
GitHub
GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)
metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
GitHub
Issues · ruarxive/rudatarchive
Russian open data portals and websites archival campaign - Issues · ruarxive/rudatarchive
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО).
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Что случилось?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.
Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.
Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.
Список ИКМО доступен здесь: гугл-таблица.
Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Национальный цифровой архив
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО). Что случилось? 14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит:…
Как сохранять исходный код? Как сохранять код публичных репозиториев, который может исчезнуть, например, в связи с закрытием организации или проектов?
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].
А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.
Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/
#digitalpreservation #opensource #sourcecode
Как начать работу по веб-архивации?
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.
Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.
2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.
3. Ресурсы сообщества: блоги, рассылки.
Подробнее: https://github.com/iipc/awesome-web-archiving
Forwarded from Ivan Begtin (Ivan Begtin)
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
publication.pravo.gov.ru
Федеральный закон от 14.07.2022 № 236-ФЗ ∙ Официальное опубликование правовых актов
Федеральный закон от 14.07.2022 № 236-ФЗ
"О Фонде пенсионного и социального страхования Российской Федерации"
"О Фонде пенсионного и социального страхования Российской Федерации"
Как сохранить журналистику данных
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
DataJournalism.com
How to save data journalism: A guide to… | DataJournalism.com
How can journalists preserve their interactive data journalism pieces? Professor Bahareh Heravi analyses the problem and provides solutions for ensuring…
Подборка статей о веб-архивах от международного рецензируемого журнала «Internet Histories»
1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988
2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835
3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331
4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.
Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988
2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835
3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331
4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.
Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
Taylor & Francis
The invention of the archived web: tracing the influence of library frameworks on web archiving infrastructure
Web archives are increasingly considered key infrastructure for web histories, yet the story of their initial development is often overlooked. Paying attention to the period between the emergence o...
Веб-архив сайтов Испании стал источником построения языковой модели для искусственного интеллекта
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
huggingface.co
PlanTL-GOB-ES/roberta-large-bne · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Venom: как проверить веб-архив на наличие нелегального контента из даркнета
Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.
Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.
Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.
Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.
Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
The MITRE Corporation
How to Check Your Web Archive for Dark Web Contraband
Web archives, such as the Internet Archive’s Wayback Machine, focus on saving and replaying web pages. However, these archives can inadvertently be used to host and share dark web contraband. This
Digital Preservation Coalition опубликовало новое руководство для начинающих специалистов по сохранению цифровой информации.
Подробнее: https://www.dpconline.org/news/comp-access-guide-general
Подробнее: https://www.dpconline.org/news/comp-access-guide-general
Зачем журналисту копии веб-страниц?
Цифровые архивы для СМИ: пользовательские задачи журналистов при работе с веб-архивами.
1. Просмотр копии веб-страницы в Internet Archive, которая больше не доступна в первоисточнике.
2. Отслеживание изменений в контенте веб-страниц в течение времени. Например, поиск определенных слов и предложений, которые могут быть удалены со страницы, но сохранены в веб-архиве. Другие задачи в этой категории включают: расчет жизненного цикла контента, сравнение прошлой версии с текущей и изучение эволюции терминологии на странице.
3. Потребность в надежных ссылках на упоминания и источники информации. Обычных ссылок на веб-страницы недостаточно, так как их контент со временем меняется. Дрейф контента — основная причина, из-за которой нужно делать копию текущей версии веб-страницы на момент написания статьи. Для этого можно использовать такие сервисы, как инструмент «Save page now» от Internet Archive или Archive.today.
Подробнее в статье.
Цифровые архивы для СМИ: пользовательские задачи журналистов при работе с веб-архивами.
1. Просмотр копии веб-страницы в Internet Archive, которая больше не доступна в первоисточнике.
2. Отслеживание изменений в контенте веб-страниц в течение времени. Например, поиск определенных слов и предложений, которые могут быть удалены со страницы, но сохранены в веб-архиве. Другие задачи в этой категории включают: расчет жизненного цикла контента, сравнение прошлой версии с текущей и изучение эволюции терминологии на странице.
3. Потребность в надежных ссылках на упоминания и источники информации. Обычных ссылок на веб-страницы недостаточно, так как их контент со временем меняется. Дрейф контента — основная причина, из-за которой нужно делать копию текущей версии веб-страницы на момент написания статьи. Для этого можно использовать такие сервисы, как инструмент «Save page now» от Internet Archive или Archive.today.
Подробнее в статье.