Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.

Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.

Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.

Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481

#opendata #datasets #digitalpreservation #datacatalogs #data #archives
Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?

#digitalpreservation #webarchives #archives
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.

Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.

Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/

#digitalpreservation #archives