Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
О разных подходах к цифровой архивации.
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
_______
Source: https://t.iss.one/begtin/2397
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
_______
Source: https://t.iss.one/begtin/2397
Telegram
Ivan Begtin
О разных подходах к цифровой архивации.
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам…
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам…
Моя презентация про современную веб-архивацию со вчерашнего мероприятия по цифровым архивам.
Специально для тех кто интересуется тем как устроены современные веб-архивы, как организуется индексация ресурсов, какие инструменты цифровой архивации существуют.
Ссылки:
[1] www.beautiful.ai
#webarchives #archives
_______
Источник | #begtin
Специально для тех кто интересуется тем как устроены современные веб-архивы, как организуется индексация ресурсов, какие инструменты цифровой архивации существуют.
Ссылки:
[1] www.beautiful.ai
#webarchives #archives
_______
Источник | #begtin
Beautiful.ai
Цифровые веб-архивы в России и в мире
Get started with Beautiful.ai today.
Несколько часов без Facebook могли показаться вечностью для тех, чья работа или общение с близкими зависят от соцсети. Социальные сети прочно вошли в нашу жизнь, заняв место, принадлежавшее раньше семейным альбомам, личным контактам и общественной жизни. Компания Facebook и ее сервисы Instagram и WhatsApp — наглядный пример такой социальной сети.
Сейчас представители Facebook объясняют случившееся сбоем в настройках сети. Инженеры компании совершили небольшую, но критичную ошибку и на какое-то время ключевой сегмент Facebook был недоступен из интернета. Проблема решена, но мы почувствовали, что привычные нам сервисы могут исчезнуть в любой момент. И именно поэтому я хочу поговорить о цифровой смерти — людей, компаний и создаваемых ими продуктов.
В Forbes вышла моя колонка "Цифровая смерть: о чем стоит подумать пользователям соцсетей после сбоя Facebook" [1]. Как ни странно, в обществе табуирована не только тема смерти физической, но и темы смерти цифровой/виртуальной. Об этом не любят говорить, не планируют, не задумываются, но это происходит.
Ссылки:
[1] www.forbes.ru
#archives #social
_______
Источник | #begtin | #мнение
больше мнений в непубличной части канала
Сейчас представители Facebook объясняют случившееся сбоем в настройках сети. Инженеры компании совершили небольшую, но критичную ошибку и на какое-то время ключевой сегмент Facebook был недоступен из интернета. Проблема решена, но мы почувствовали, что привычные нам сервисы могут исчезнуть в любой момент. И именно поэтому я хочу поговорить о цифровой смерти — людей, компаний и создаваемых ими продуктов.
В Forbes вышла моя колонка "Цифровая смерть: о чем стоит подумать пользователям соцсетей после сбоя Facebook" [1]. Как ни странно, в обществе табуирована не только тема смерти физической, но и темы смерти цифровой/виртуальной. Об этом не любят говорить, не планируют, не задумываются, но это происходит.
Ссылки:
[1] www.forbes.ru
#archives #social
_______
Источник | #begtin | #мнение
больше мнений в непубличной части канала
Forbes.ru
Цифровая смерть: о чем стоит подумать пользователям соцсетей после сбоя Facebook
Сбой в Facebook дал понять, что привычные нам сервисы могут исчезнуть в любой момент. Если мы заранее не обеспечим сохранность данных, которые создаем в интернете, то можем оказаться первым поколением, не оставившим памяти о себе, считает директор АН
Собран и загружается архив Эха Москвы.
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop
Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.
Официальный сайт Эха Москвы
Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.
О архиве сайта я напишу ещё подробнее позже, по готовности.
Ссылка:
[1] cdn.ruarxive.org
[2] cdn.ruarxive.org
#digitalpreservation #webarchives #archives #echomskru
_______
Источник | #ruarxive
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop
Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.
Официальный сайт Эха Москвы
Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.
О архиве сайта я напишу ещё подробнее позже, по готовности.
Ссылка:
[1] cdn.ruarxive.org
[2] cdn.ruarxive.org
#digitalpreservation #webarchives #archives #echomskru
_______
Источник | #ruarxive
Telegram
Национальный цифровой архив
Собран и загружается архив Эха Москвы.
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео…
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео…