FSCP
18.3K subscribers
30.1K photos
3.44K videos
859 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы


Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.

Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?


#archives #digitalpreservation #webarchive
_______
Source: https://t.iss.one/begtin/2397
Моя презентация про современную веб-архивацию со вчерашнего мероприятия по цифровым архивам.

Специально для тех кто интересуется тем как устроены современные веб-архивы, как организуется индексация ресурсов, какие инструменты цифровой архивации существуют.

Ссылки:
[1] www.beautiful.ai

#webarchives #archives
_______
Источник | #begtin
Несколько часов без Facebook могли показаться вечностью для тех, чья работа или общение с близкими зависят от соцсети. Социальные сети прочно вошли в нашу жизнь, заняв место, принадлежавшее раньше семейным альбомам, личным контактам и общественной жизни. Компания Facebook и ее сервисы Instagram и WhatsApp — наглядный пример такой социальной сети.

Сейчас представители Facebook объясняют случившееся сбоем в настройках сети. Инженеры компании совершили небольшую, но критичную ошибку и на какое-то время ключевой сегмент Facebook был недоступен из интернета. Проблема решена, но мы почувствовали, что привычные нам сервисы могут исчезнуть в любой момент. И именно поэтому я хочу поговорить о цифровой смерти — людей, компаний и создаваемых ими продуктов.

В Forbes вышла моя колонка "Цифровая смерть: о чем стоит подумать пользователям соцсетей после сбоя Facebook" [1]. Как ни странно, в обществе табуирована не только тема смерти физической, но и темы смерти цифровой/виртуальной. Об этом не любят говорить, не планируют, не задумываются, но это происходит.


Ссылки:
[1] www.forbes.ru

#archives #social
_______
Источник | #begtin | #мнение
больше мнений в непубличной части канала
Первые патенты сотового телефона от компании Apple, 1985

Интересно, что после того как американская компания зарегистрировала свои патенты, многие производители сразу принялись за регистрацию своей продукции в формате фруктов, овощей и животных.

#archives
_______
Источник | #omanko
Собран и загружается архив Эха Москвы.

На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.

Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop

Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.

Официальный сайт Эха Москвы

Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.

О архиве сайта я напишу ещё подробнее позже, по готовности.

Ссылка:
[1] cdn.ruarxive.org
[2] cdn.ruarxive.org

#digitalpreservation #webarchives #archives #echomskru
_______
Источник | #ruarxive