Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web