Forwarded from Ivan Begtin (Ivan Begtin)
В последнее время реже пишу в канал поскольку был занят к подготовкой к нескольким мероприятиям.
Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).
А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].
Трансляция должна быть на сайте форума [2].
Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.
Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/
#events #data #government #archives #webarchives
Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).
А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].
Трансляция должна быть на сайте форума [2].
Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.
Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/
#events #data #government #archives #webarchives
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Forwarded from Ivan Begtin (Ivan Begtin)
Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Forwarded from Национальный цифровой архив (Ivan Begtin)
Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
👍4
Forwarded from Национальный цифровой архив
Для тех кто задумывается об архивации собственных материалов, полезные ссылки на руководства и инструменты которые можно использовать:
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
Forwarded from Национальный цифровой архив
О том как сохранять видео файлы с Youtube.
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
GitHub
GitHub - jely2002/youtube-dl-gui: A cross-platform GUI for youtube-dl made in Electron and node.js
A cross-platform GUI for youtube-dl made in Electron and node.js - jely2002/youtube-dl-gui
👍1
Forwarded from Национальный цифровой архив
Как устроены общественные проекты по цифровой архивации в мире
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (https://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (https://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (https://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (https://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
www.datarefuge.org
Data Refuge
Data Refuge is a community-driven, collaborative project to preserve public climate and environmental data
Forwarded from Национальный цифровой архив
Новости проекта на 17 марта 2022 года
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Forwarded from Национальный цифровой архив
Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Coub
Best coubs of 2021
Watch the year's top videos! Selected by our community and Coub editorial team
Forwarded from Национальный цифровой архив
Новости проекта на 23 марта 2022 года
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
Forwarded from Национальный цифровой архив
Новости проекта на 31 марта 2022 г.
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
👍3
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Forwarded from Национальный цифровой архив
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives
👍5❤1🔥1