Forwarded from Ivan Begtin (Ivan Begtin)
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.
Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет
Архивация
Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.
Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.
Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.
Приоритетные задачи
Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .
Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.
И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.
Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.
Почему это важно
Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.
В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.
И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.
#archive #ruarxive #webarchives #digitalpreservation
Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет
Архивация
Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.
Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.
Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.
Приоритетные задачи
Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .
Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.
И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.
Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.
Почему это важно
Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.
В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.
И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.
#archive #ruarxive #webarchives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Forwarded from Национальный цифровой архив
Как устроены общественные проекты по цифровой архивации в мире
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (https://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (https://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (https://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (https://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
www.datarefuge.org
Data Refuge
Data Refuge is a community-driven, collaborative project to preserve public climate and environmental data
Forwarded from Национальный цифровой архив
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
GitHub
Issues · ruarxive/rudatarchive
Russian open data portals and websites archival campaign - Issues · ruarxive/rudatarchive