Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Как можно помочь в цифровой архивации если Вы программист?

Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?

Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.

2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки

3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.

4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.


#tools #archives #webarchives #helpneeded
В России стартовали президентские выборы. Эфир для проведения предвыборных дебатов предоставили пять федеральных государственных телеканалов: «Россия 1», «Россия 24», Первый канал, «ТВ Центр», Общественное телевидение России (ОТР) — и три радиостанции: «Радио России», «Маяк» и «Вести ФМ». Также на региональных телеканалах проходили дебаты доверенных лиц кандидатов в президенты.

Как и в случае с выборами 2018 и 2021 годов, федеральные телеканалы не стали выкладывать записи дебатов на своих официальных ресурсах. Записей нет ни на порталах типа "Смотрим", ни на сайтах телекомпаний, ни на их каналах в сервисах Rutube, VK, Telegram. По опыту прошлых лет также отмечалось стремление правообладателей блокировать распространение записей дебатов в Интернете, в основном, на любительских YouTube-каналах и в сообществах Вконтакте, посвящённых фиксации истории телевизионной рекламы и заставок.

Если архивация основных радиостанций налажена достаточно давно и основательно (в Telegram есть канал-бот https://t.iss.one/RadioBot, позволяющий прослушать любой час эфира, начиная с 2018 года), то с телеэфиром всё несколько сложнее. Есть ресурс https://www.ontvtime.ru , где для некоторых телеканалов можно "отмотать эфир" на неделю назад, но до 7 марта (даты последних дебатов) уже не достать.

Список федеральных телеэфиров с дебатами был известен с первой половины февраля: https://www.pnp.ru/social/gde-posmotret-teledebaty-kandidatov-na-post-prezidenta-rossii.html

На сегодняшний день удалось найти на YouTube любительские записи следующих эфиров:

Россия 1
26 февраля
27 февраля
4 марта
5 марта

Россия 24
27 февраля
28 февраля
5 марта

Первый канал
27 февраля
29 февраля
5 марта
7 марта

ТВ Центр
28 февраля
4 марта
5 марта
6 марта

ОТР
1 марта
6 марта
7 марта

Записи следующих эфиров не обнауживаются поиском ни на YouTube, ни Вконтакте, ни на Rutube:

Россия 1
28 февраля

Россия 24
29 февраля
6 марта
7 марта

ТВ Центр
27 февраля

ОТР
29 февраля
5 марта

Поиск осложняется тем, что ВГТРК проводила альтернативные дебаты доверенных лиц кандидатов в президенты в региональном эфире телеканалов "Россия-1" и "Россия-24", и эти записи "забивают" выдачу поисковиков.

Мы просим помощи в поиске оставшихся шести записией федеральных телебатов. Возможно, кто-то архивировал их для себя или имеет доступ к закрытым сообществам, откуда их можно скачать.

Присылайте ссылки сразу в чат @ruarxivechat, а также если есть волонтер готовый систематизировать эти видеозаписи в таблицу - его помощь очень бы помогла

#archives #elections #debates #helpneeded