Национальный цифровой архив
2.4K subscribers
60 photos
4 files
131 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
В Австралии в конце прошлого года стартовала большая общественная кампания в Twitter SaveTrove в связи с тем что правительство страны сократило финансирование национальной библиотеки и проект Trove в виде онлайн архива и поисковика по 14 миллиардам исторических объектов оказался под угрозой закрытия. И вот хорошая новость, для него нашли $33 миллиона долларов в бюджете на ближайшие 4 года.

Про уникальность Trove писали многие австралийские авторы, в частности это лишь один из двух из списка государственных сайтов 15 наиболее популярных Австралии, кроме него популярным госсайтом является ещё сайт государственного СМИ ABC. Объёмы общедоступных данных публикуемых в Trove очень велики и включают не только оцифрованные произведения и экспонаты, но и digital-born объекты такие как веб-сайты из Australian Government Web Archive и иные материалы.

Кроме того что Trove является архивом это ещё и крупная социальная сеть из волонтеров помогающих исправлять распознанные тексты выложенные онлайн. Многие из волонтеров таким образом исправили миллионы строк текста и эта работа продолжается постоянно.

Trove можно смело отнести не только к австралийскому, но и к мировому культурному достоянию. В гигантской библиотеке проекта можно найти материалы на огромном числе языков, авторов и связанных с историческими событиями по всему миру.

#digitalpreservation #australia #trove #openarchives
👍7🔥2
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
👍5🤔4🎉3
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
👍18
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
22 июня Архивы Санкт-Петербурга снова откроются на сутки.

22 июня можно будет бесплатно осуществлять поиск по информационным ресурсам архивов (обычно это стоит 77 руб. в сутки) и просматривать цифровые образы с водяными знаками и в низком качестве (spbarchives.ru).

Скачивание цифровых образов без водяных знаков и в хорошем качестве по-прежнему стоит 20 р. за цифровой образ (страницу). Если вам нужные неоцифрованные материалы, то стоимость оцифровки будет составлять ~ 300 руб. за страницу (при себестоимости в 3 руб.).

Но еще больше удивляет (особенно людей, не погруженных в архивную деятельность) - взимание платы за использование собственной техники в читальном зале. Вы можете заказать требуемый источник в читальный зал и сфотографировать его на свою технику, но вам придется оплатить постранично.

По информации Архивного комитета Санкт-Петербурга, в соответствии с законодательством «во всех государственных и муниципальных архивах России взимается постраничная плата за использование своей техники». Это не может не удивлять.

Но даже при необходимости взимания платы, размер оплаты, насколько я поняла, устанавливается архивом или Архивным комитетом, и прейскуранты архивов вызывают большие вопросы.

К сожалению, это не все вопросы и проблемы, которые возникают при попытке собрать «Цифровую библиотеку госфинансов». Есть еще проблема в наличии у Архивных комитетов KPI по пополнению бюджета («не оберешь» граждан - не получишь премию), да и вопрос интеллектуальных прав на купленные цифровые образы и условий их использования тоже вызывает вопросы.

#цифровойархив #архивныйкомитет #открытыеданные #госфинансы
🤔7🔥42❤‍🔥1
Цифровой двойник для сохранения государства и культуры Тувалу

Небольшое государство Тувалу, расположенное на тихоокеанских островах, находится на грани исчезновения. Это происходит из-за климатических изменений, повышающих уровень воды.

Столкнувшись с угрозой утраты собственной культурной самобытности, правительство решило создать цифровой двойник государства.

Проходят оцифровку документы, сохраняются фото, 3D модели и геопространственные данные географических объектов и ландшафта, доступ к государственным услугам и всем сопутствующим административным системам переводится в облако. Помимо этого, возможно использование дополненной и виртуальной реальности, чтобы позволить будущим поколениям тувалуанцев продолжать существовать как культура и нация, сохранить общий язык и обычаи предков.

Источник: The Guardian

Фото: Kofe gives a Cop26 statement while standing in the ocean in Funafuti in November 2021. Photograph: Tuvalu Foreign Ministry/Reuters
🙏9🐳3👍2🌚2
Hachette против Internet Archive и будущего доступа к данным

Как судебные решения о (не)-запрете предоставлять информацию в открытом доступе, иллюстрируют роль цифровых технологий и их влияние на закон об авторском праве. В основе статье — дело Hachette против Internet Archive, — и упоминаются кейсы компаний Sony и Google.

Автор описывает, что значит добросовестное использование открытых знаний и как меняется характер библиотек в цифровой среде.

Каких последствий можно ожидать из-за дисбаланса между правами создателей контента и ценностью доступа к открытым знаниям для общества, читайте по ссылке: https://nightingaledvs.com/hachette-v-internet-archive-data-access/
14
It is Web Archive Wednesday My Dudes

В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.

Сделали подборку новостей и находок по теме.

● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».

● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.

● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.

● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.

Enjoy! 🤓

#WebArchiveWednesday #opendata #digitalculture
Please open Telegram to view this post
VIEW IN TELEGRAM
7🤩3
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
👍131
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
🔥10👍6
Forwarded from Ivan Begtin (Ivan Begtin)
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
👍17👎2
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
👍113
Мастер-классы от "Библиотеки для открытой науки" в рамках Love Data Week 2024

«Библиотека для открытой науки» приглашает вас принять участие в мастер-классах в рамках LoveDataWeek— недельной программе, посвященной доступу к данным, управлению, безопасности, совместному использованию и сохранению данных. Тема этого года:"My kind of data / Мои данные".

Мы поддерживаем эту международную инициативу, направленную на повышение осведомленности пользователей в темах, связанных с управлением исследовательскими данными, обменом, сохранением, цитированием, повторным использованием и услугами исследовательских данных. Присоединяйтесь к празднованию пятой ежегодной недели любви к данным 12–18 февраля 2024 г. в 10:00 (МСК)!

Темы мастер-классов:

📌 12 февраля
Как я управляю своими данными?

📌 13 февраля
Какие форматы файлов я использую и как я организую файлы для долгосрочного хранения данных?

📌 14 февраля
Как я храню свои данные?

📌 15 февраля
Как мне цитировать данные?

📌 16 февраля
Как мне соблюдать авторские права при использовании исследовательских данных?

📌 17 февраля
Как мои данные должны соответствовать требованиям журналов и грантодателей?

📌 18 февраля
Как можно найти данные?

Для того, чтобы принять участие в мастер-классах, необходимо зарегистрироваться по ссылке.
2👍2
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
👎17🤔4🕊3👨‍💻2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Цифровой архив госфинансов: Бюджеты Российской империи и СССР в виде книг и открытых данных

К Дню архивиста мы (Инфокультура и Институт Гайдара) запускаем новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). Наша главная задача - сохранить и сделать доступными и машиночитаемыми исторические документы о госфинансах. Мы хотим собрать источники о государственном бюджете за 150 лет, агрегировать наиболее полную базу статистических сборников и подготовить открытые данные для разработчиков.

Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое. Уже сейчас в нашей базе данных собраны государственные бюджеты за 80 лет, с практически непрерывным покрытием 1866-1945 гг.

При разработке проекта мы делаем акцент на следующих пунктах:

1. Полнота базы данных: мы добавляем все те источники, которые можем найти (не забывая о проверке наличия открытых лицензий). На данный момент мы частично собрали источники из проекта «Исторические документы» Минфина России и проекта «Исторические материалы», а также нашли еще несколько проектов, документы с которых агрегируем в этом году.

2. Открытые данные: мы хотим не только собрать базу документов и добавить к ним текстовый слой, но и разработать на основе них наборы открытых данных.

3. Уникальные документы: года 4 мы скупаем исторические документы с профильных площадок и сканируем их. Также для данного проекта мы отсканировали личный архив исторических книг А.Л. Кудрина (в который вошли, например, 7 томов истории Минфина России). А в 2022 году мы оцифровали архивные отчеты Счетной Палаты.

4. Метаданные: большинство документов, которые мы собрали, практически не систематизированы, поэтому мы ставим для себя задачу обогатить их метаданными и разработать для этого соответствующие классификаторы.

«Почти 25 лет назад Минфин начал сохранять, формировать и популяризировать историю государственных финансов. 
Мне приятно осознавать, что эта деятельность активно развивается и сегодня благодаря усилиям нового поколения специалистов в области компьютерной обработки информации.
 
Желаю исследователям и пользователям проекта «Цифровой архив госфинансов и госуправления» успехов в их непростой, но чрезвычайно интересной работе, требующей универсальных навыков в самых разных сферах – от истории и архивного дела до современных цифровых технологий», - Алексей Кудрин, д.э.н., главный научный сотрудник, член Попечительского совета Института Гайдара.

Иногда самые интересные книги могут быть написаны от руки. Например, исторические бюджеты Санкт-Петербурга. Такие случаи требуют особого внимания и поэтому работы предстоит очень много. Мы заинтересованы в партнерах и волонтёрах. Нам нужна помощь в следующих задачах:

⁃ сбор исторических документов с сторонних сайтов;
⁃ разметка базы данных;
⁃ разработка справочников и классификаторов;
⁃ создание наборов открытых данных;
⁃ предоставление исторических документов на оцифровку.

Будем рады пожеланиям и предложениям. Пишите на почту [email protected] (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
11👍4🔥4
В России стартовали президентские выборы. Эфир для проведения предвыборных дебатов предоставили пять федеральных государственных телеканалов: «Россия 1», «Россия 24», Первый канал, «ТВ Центр», Общественное телевидение России (ОТР) — и три радиостанции: «Радио России», «Маяк» и «Вести ФМ». Также на региональных телеканалах проходили дебаты доверенных лиц кандидатов в президенты.

Как и в случае с выборами 2018 и 2021 годов, федеральные телеканалы не стали выкладывать записи дебатов на своих официальных ресурсах. Записей нет ни на порталах типа "Смотрим", ни на сайтах телекомпаний, ни на их каналах в сервисах Rutube, VK, Telegram. По опыту прошлых лет также отмечалось стремление правообладателей блокировать распространение записей дебатов в Интернете, в основном, на любительских YouTube-каналах и в сообществах Вконтакте, посвящённых фиксации истории телевизионной рекламы и заставок.

Если архивация основных радиостанций налажена достаточно давно и основательно (в Telegram есть канал-бот https://t.iss.one/RadioBot, позволяющий прослушать любой час эфира, начиная с 2018 года), то с телеэфиром всё несколько сложнее. Есть ресурс https://www.ontvtime.ru , где для некоторых телеканалов можно "отмотать эфир" на неделю назад, но до 7 марта (даты последних дебатов) уже не достать.

Список федеральных телеэфиров с дебатами был известен с первой половины февраля: https://www.pnp.ru/social/gde-posmotret-teledebaty-kandidatov-na-post-prezidenta-rossii.html

На сегодняшний день удалось найти на YouTube любительские записи следующих эфиров:

Россия 1
26 февраля
27 февраля
4 марта
5 марта

Россия 24
27 февраля
28 февраля
5 марта

Первый канал
27 февраля
29 февраля
5 марта
7 марта

ТВ Центр
28 февраля
4 марта
5 марта
6 марта

ОТР
1 марта
6 марта
7 марта

Записи следующих эфиров не обнауживаются поиском ни на YouTube, ни Вконтакте, ни на Rutube:

Россия 1
28 февраля

Россия 24
29 февраля
6 марта
7 марта

ТВ Центр
27 февраля

ОТР
29 февраля
5 марта

Поиск осложняется тем, что ВГТРК проводила альтернативные дебаты доверенных лиц кандидатов в президенты в региональном эфире телеканалов "Россия-1" и "Россия-24", и эти записи "забивают" выдачу поисковиков.

Мы просим помощи в поиске оставшихся шести записией федеральных телебатов. Возможно, кто-то архивировал их для себя или имеет доступ к закрытым сообществам, откуда их можно скачать.

Присылайте ссылки сразу в чат @ruarxivechat, а также если есть волонтер готовый систематизировать эти видеозаписи в таблицу - его помощь очень бы помогла

#archives #elections #debates #helpneeded
🔥32