Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.57K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Должны ли историки программировать? А писатели или литературные критики? В мире довольно многое происходит в направлениях Digital Humanities и Computational Humanities, Цифровых гуманитарных наук.

В последние годы быть гуманитарием не означает что нельзя быть программистом, например, такие проекты как Programming Historian [1] помогает историкам использовать инструменты для работы с данными, подключаться к цифровым онлайн библиотекам через API, развертывать продукты по визуализации исторических данных, анализировать и распознавать тексты и многое другое.

Многие публикуют результаты своих работ как открытый код или исполнимые статьи (executable papers), например, статья Forgotten Books [2] о выживании культуры.

Digital Humanities есть и в России, есть несколько университетов с этими направлениями в обучении.

Чтобы цифровые гуманитарные науки развивались - также нужны открытые данные. Открытые данные музеев, галерей, библиотек и, в первую очередь, архивов. При этом нельзя сказать что этих данных нет, но можно говорить о том что они не публикуются.

Например, Росархив публикует исключительно административные данные [3] которые никому не нужны и не публикует даже реестры архивного фонда. А самое главное что ведомство даже не пытается выступать регулятором обеспечивающим открытость подведомственных ему государственных архивов.

Министерство культуры в России до сих пор лидер по открытию данных [4], но все мы тревожимся как долго это сохранится, учитывая смену руководства и отсутствие планов по будущему открытию данных.

Но данных много, их много в частных, общественных проектах, много в открытом доступе и возможность делать интересные проекты в этой области в России есть. Главное желание и немного технических навыков.

Ссылки:
[1] https://programminghistorian.org/
[2] https://forgotten-books.netlify.app
[3] https://archives.gov.ru/opendata
[4] https://opendata.mkrf.ru/

#opendata #digitalhumanities
В рубрике интересных проектов на данных, проекты в области цифровых гуманитарных наук.

OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․

В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.

А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.

Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.

Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org

#opendata #digitalhumanities #datasets
В рубрике интересных наборов данных Bible geocoding data [1] набор данных по геокодированию мест упомянутых в библии. Автор занимался этим с 2007 года и в прошлом году существенно обновил предыдущую работу. О самой инициативе и данные для Google Earth в формате KMZ есть на его сайте [2] и там же у него на сайте OpenBible разного рода эксперименты по визуализации [3].

Из весьма интересного - это AI-Assisted Bible Study [4] суммаризатор ответов и вопросов по главам библии через использование ИИ.

В данном случае библия важный пример, но сам подход ей не ограничивается. Один из путей/способов развития цифровой гуманитаристики - это подходы "всё-код" и "всё-данные". Любое художественное, религиозное или документальное произведение можно рассматривать как базу данных. Можно, например, геокодировать "Войну и мир", превращать в граф знаний "Властелин колец" и остальные произведения Толкиена, проводить интерактивную реконструкцию исторических событий. О многих подобных проектах я пишу время от времени [5].

Важное отличие современных проектов в этой области - это открытость данных и кода. Открытые проекты позволяют создавать новые проекты/продукты/исследования на их основе.

Ссылки:
[1] https://github.com/openbibleinfo/Bible-Geocoding-Data
[2] https://www.openbible.info/geo/
[3] https://www.openbible.info/labs/
[4] https://www.openbible.info/labs/ai-bible-study/
[5] https://t.iss.one/begtin/4147

#datasets #opensource #opendata #digitalhumanities
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов

Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.

Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]

ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]

Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] https://webdatacommons.org/
[3] https://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/

#opendata #datasets #digitalhumanities
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии

- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима

- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data

- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана

- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет

- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией

- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая

Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] https://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] https://data.library.sh.cn/index

#opendata #digitalhumanities #ancienthistory #datasets #openscience
В рубрике интересных цифровых гуманитарных проектов The Atlas of Early Printing [1] Атлас ранней печати и то как она распространялась по Европе, вплоть до Кракова и Стамбула. Про не-европейские страны практически ничего, про европейские наглядная карта.

Как и многие проекты в области цифровой гуманитаристики, фокус внимания здесь на визуализации, а не на данных. Данных там немного и в виде набора данных команда проекта его не раздаёт, поскольку цель в создании наглядности.

Другой прекрасный проект MANTO [2] наглядное представление мест в греческих мифах. Здесь гораздо больше данных и они тщательно связывают источники, места, мифы, персонажей.

Ещё один яркий проект A vision of Britain through time [3] с наглядной визуализацией статистики и фактов о Великобритании сделанное с большой аккуратностью и наглядностью.

P.S. Я буду время от времени писать про проекты в области цифровой гуманитаристики, разбавляя поток текстов про технологи и государство. Эти тексты будут по тегу #digitalhumanities

Ссылки:
[1] https://atlas.lib.uiowa.edu/
[2] https://www.manto-myth.org
[3] https://www.visionofbritain.org.uk/

#digitalhumanities #data
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок

Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.

Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.

А самые актуальные вносятся за 2023 год довольно оперативно.

Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230

#digitalhumanities #culture #australia #open #digitalpreservation
Forwarded from Open Data Armenia (Kseniia Orlova)
[EN] Awesome list: a toolkit for text analyzis Armenian language

- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors. 

- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.

- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.

- Kevin Bougé Stopword Lists Page includes th Armenian language.

- Ranks NL Stopword Lists Page includes the Armenian language.

If you know of new usefull tools and guides, please share that knowledge with us!

Image author Aparna Melaput

#opendata #armenia #language #tools #digitalhumanities
Я, кстати, не могу не поделиться что за время работы над каталогом данных в рамках Open Data Armenia [1] наша команда подготовила уже 28 хорошо описанных задач для тех кто готов помогать создавать открытые данные в Армении. Задачи самые разные, какие-то требуют хорошего знания Армянского языка, но для очень многих достаточно знания английского или русского. Например, в задаче по сбору исторических мест из древности [3] задача в том чтобы проанализировать базу проекта Pleiades [4] и извлечь оттуда данные связанные с историей Армении. Они там точно есть и точно не только те что на нынешней территории страны.

Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.

Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.

Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/

#opendata #armenia #digitalhumanities
В рубрике как это устроено у них Historic Environment Scotland государственное учреждение в Шотландии отвечающее за ведение каталога объектов исторического наследия и ведущие одноимённый портал [1] хотя объектов на самом портале не так много, чуть менее 2000, интересно что кроме галереи объектов
у них есть ещё и поиск по картам с визуализацией исторических места: замков, исторических зданий, мест битв и так далее. По каждому историческому месту есть подробная справка о том что это такое и чем оно важно, а также все данные публикуются как открытые данные и, более того, географические объекты предоставляются через API по стандартам WFS и WMS, их можно сравнительно просто подключать в свои геопродукты [3].

Проект можно отнести к Digital Humanities и рассматривать одновременно как исторический и как проект с открытыми данными.

Ссылки:
[1] https://www.historicenvironment.scot
[2] https://hesportal.maps.arcgis.com/apps/Viewer/index.html?appid=18d2608ac1284066ba3927312710d16d
[3] https://portal.historicenvironment.scot/downloads

#opendata #datasets #digitalhumanities #scotland #history #geodata
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology