Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь
Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI
Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.
Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.
Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.
Больше про архивационные кампании будет на канале @ruarxive.
#opendata #datasets #dataportals #russia #archives #digitalpreservation
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь
Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI
Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.
Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.
Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.
Больше про архивационные кампании будет на канале @ruarxive.
#opendata #datasets #dataportals #russia #archives #digitalpreservation
Telegram
Ivan Begtin
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее…
Forwarded from Национальный цифровой архив
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.
Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.
Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF
#memorial #webarchives #archives #digitalpreservation
К вопросу о том как исчезает официальный контент государственных инициатив приведу в пример сайт открытого пр-ва open.gov.ru [1]. Сайт перестали обновлять с 2018 года, после смены состава фед. правительства. Какое-то недолгое время он был онлайн, а с января 2021 года у него "протух" сертификат который ещё и был сделан с поддержкой только TLS 1.0 [2] поэтому сейчас рядовому пользователю его не открыть.
При этом он остался в проиндексированным в Гугле [3], а с помощью консольных и программных инструментов его можно сохранить и получить конкретную страницу, но это, видимо, тоже пока что временно.
Я напомню что государственные сайты, да и вообще сайты в Рунете, не подвергаются обязательной архивации как это происходит в других странах. Нет требований, стандартов, правил, процедур и обязанности к созданию архивов, например, уже закрытых проектов или ликвидируемых организаций. Их цифровой контент и другие цифровые артефакты их деятельности исчезают быстро и безвозвратно.
Это не самый яркий пример, были и похуже, но для меня он важен тем что много моей общественной работы было связано с открытостью гос-ва.
Ссылки:
[1] https://open.gov.ru
[2] https://www.ssllabs.com/ssltest/analyze.html?d=open.gov.ru
[3] https://www.google.com/search?q=site%3Aopen.gov.ru
#digitalpreservation #openness #opengov #archives
При этом он остался в проиндексированным в Гугле [3], а с помощью консольных и программных инструментов его можно сохранить и получить конкретную страницу, но это, видимо, тоже пока что временно.
Я напомню что государственные сайты, да и вообще сайты в Рунете, не подвергаются обязательной архивации как это происходит в других странах. Нет требований, стандартов, правил, процедур и обязанности к созданию архивов, например, уже закрытых проектов или ликвидируемых организаций. Их цифровой контент и другие цифровые артефакты их деятельности исчезают быстро и безвозвратно.
Это не самый яркий пример, были и похуже, но для меня он важен тем что много моей общественной работы было связано с открытостью гос-ва.
Ссылки:
[1] https://open.gov.ru
[2] https://www.ssllabs.com/ssltest/analyze.html?d=open.gov.ru
[3] https://www.google.com/search?q=site%3Aopen.gov.ru
#digitalpreservation #openness #opengov #archives
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
На сайте Интернет-архива ещё в начале 2022 года появилась коллекция David Rumsey Map Collection из более чем 100 тысяч исторических карт [1] созданная изначально Дэвидом Рамси и поддерживаемая и поныне библиотекой Стенфорда на сайте davidrumsey.com [2] где собрано более 200 тысяч карт в общей сложности.
Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.
Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.
Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.
Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/
#digitalpreservation #archives #geospatial #maps
Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.
Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.
Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.
Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/
#digitalpreservation #archives #geospatial #maps
Forwarded from Национальный цифровой архив
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.
Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.
Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030
#ai #archives #internetarchive #outage
Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.
Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030
#ai #archives #internetarchive #outage
X (formerly Twitter)
Internet Archive (@internetarchive) on X
Sorry, but https://t.co/rvOhn0c6zM is down temporarily-- working to restore service.
(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)
(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.
Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.
Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.
#digitalpreservation #archives #ruarxive
Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.
Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.
#digitalpreservation #archives #ruarxive
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
Forwarded from Национальный цифровой архив
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives
Forwarded from Национальный цифровой архив
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Ars Technica
Google will no longer back up the Internet: Cached webpages are dead
Google Search will no longer make site backups while crawling the web.
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/https://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/https://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.
Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.
Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.
Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481
#opendata #datasets #digitalpreservation #datacatalogs #data #archives
Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.
Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.
Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481
#opendata #datasets #digitalpreservation #datacatalogs #data #archives
Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?
#digitalpreservation #webarchives #archives
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?
#digitalpreservation #webarchives #archives
Forwarded from Национальный цифровой архив
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
hubofdata.ru
Архив файла основного сайта Большой российской энциклопедии (bigenc.ru). - Хаб открытых данных
Архив на всех статей сайта bigenc.ru на 2024-06-16 в HTML формате в виде ZIP архива. При использовании материалов необходимо соблюдение условий использования и воспроизведения, приведены на сайте...
Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Rolling Stone
Inside the $621 Million Legal Battle for the ‘Soul of the Internet’
Major record labels have sued the Internet Archive for $621 million over thousands of old recordings, raising the question: Who owns the past?