Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.

Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.

Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.

Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.iss.one/ruarxivechat.

А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.

Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader

#archives #videoarchive #coub #webarchive
Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.

Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.

Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.

Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper

#opendata #coub #archives #api