Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.
В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.
Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.
Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.
Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/
#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.
Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.
Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.
Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/
#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
В прошлом году я поучаствовал в нескольких мероприятиях относящихся к тому что называют Digital Humanities и работе с данными в гуманитарных науках и понял что мне много что есть об этом сказать, но это будет долгий разговор.
Какие-то мысли отдельными тезисами фиксирую сейчас чтобы не потерять:
1. Работу с данными в гуманитарных науках можно разделить на три части: научную, культурную и образовательную.
2. Научная часть характерна тем что данные в науках особенно активно используются и культура работы с ними культивируется когда у этой работы есть экономический смысл. Иначе говоря, есть деньги - есть данные. Это справедливо для лингвистики, биоинформатики, метеорологии и ещё многих дисциплин которые в последние даже не годы, а десятилетия переходили в режим data-first (вначале-данные) когда данные или создаются, или используются, но всегда присутствуют, причём данные всё большего объёма.
3. Почти все гуманитарные науки всё ещё очень далеки от data-first подхода, слишком много дискуссий идёт вокруг того являются ли данные важным аспектом гуманитарных наук, много разговоров про то нужна ли инфраструктура для работы с ними, а если нужна то кто её будет делать, поддерживать и, самое главное, оплачивать.
4. С точки зрения профессиональной дата инженерии и естественных наук, в гуманитарных науках почти нет того что называют "большие данные" и применение ИИ. Здесь также ощущается "естественно-научный снобизм" когда для людей из условной биоинформатики всё что касается гуманитарных наук выглядит как "детский сад". Отдельный вопрос насколько такой взгляд обоснован, но он имеет место быть
5. Большая часть того что называют цифровыми гуманитарными проектами - это в меньшей степени научные и в большей степени культурные проекты. Они ближе к дата журналистике, дата сторителлингу и медиа, чем к чему-либо другому. Их можно смело относить к медиа проектам и форма их представления сильно доминирует над содержанием.
6. В странах с непостоянным прошлым культурные аспекты приобретают и сильный политический акцент текущей общественно-политической повестки.
7. Образовательный аспект самый сложный и заключается в таких вопросах как "должны ли историки программировать?", "должны ли искусствоведы уметь работать с данными?", "должны ли архивисты уметь работать в GIS системах?" и так далее. Опять же во многих научных дисциплинах такие вопросы уже не возникают. Юристы учатся и изучают LegalTech, экономисты осваивают R и Python.
8. Часто цифровую гуманитаристику приравнивают к лингвистике с чем лично я не готов согласится. Скорее это история + цифровая журналистика, современные способы представления не современных данных.
9. Второй серьёзный барьер после денег - это закрытость данных. Это касается, и архивов, и библиотек, и доступности данных и иных цифровых материалов под свободными лицензиями. Есть страны где с этим очень неплохо и есть те где всё довольно печально.
10. К примеру если начать проектировать аналог Europeana для ряда стран это будет просто невозможно. Просто потому что всё очень немного оцифровано и даже описи оцифрованы далеко не все.
11. Реальные изменения начинаются с тех кто выделяет средства на культурные проекты. Без их воли (и требований) не возникнет ни открытости, ни кооперации в достаточно серьёзном масштабе.
.
#digitalhumanities #culture #opendata
Какие-то мысли отдельными тезисами фиксирую сейчас чтобы не потерять:
1. Работу с данными в гуманитарных науках можно разделить на три части: научную, культурную и образовательную.
2. Научная часть характерна тем что данные в науках особенно активно используются и культура работы с ними культивируется когда у этой работы есть экономический смысл. Иначе говоря, есть деньги - есть данные. Это справедливо для лингвистики, биоинформатики, метеорологии и ещё многих дисциплин которые в последние даже не годы, а десятилетия переходили в режим data-first (вначале-данные) когда данные или создаются, или используются, но всегда присутствуют, причём данные всё большего объёма.
3. Почти все гуманитарные науки всё ещё очень далеки от data-first подхода, слишком много дискуссий идёт вокруг того являются ли данные важным аспектом гуманитарных наук, много разговоров про то нужна ли инфраструктура для работы с ними, а если нужна то кто её будет делать, поддерживать и, самое главное, оплачивать.
4. С точки зрения профессиональной дата инженерии и естественных наук, в гуманитарных науках почти нет того что называют "большие данные" и применение ИИ. Здесь также ощущается "естественно-научный снобизм" когда для людей из условной биоинформатики всё что касается гуманитарных наук выглядит как "детский сад". Отдельный вопрос насколько такой взгляд обоснован, но он имеет место быть
5. Большая часть того что называют цифровыми гуманитарными проектами - это в меньшей степени научные и в большей степени культурные проекты. Они ближе к дата журналистике, дата сторителлингу и медиа, чем к чему-либо другому. Их можно смело относить к медиа проектам и форма их представления сильно доминирует над содержанием.
6. В странах с непостоянным прошлым культурные аспекты приобретают и сильный политический акцент текущей общественно-политической повестки.
7. Образовательный аспект самый сложный и заключается в таких вопросах как "должны ли историки программировать?", "должны ли искусствоведы уметь работать с данными?", "должны ли архивисты уметь работать в GIS системах?" и так далее. Опять же во многих научных дисциплинах такие вопросы уже не возникают. Юристы учатся и изучают LegalTech, экономисты осваивают R и Python.
8. Часто цифровую гуманитаристику приравнивают к лингвистике с чем лично я не готов согласится. Скорее это история + цифровая журналистика, современные способы представления не современных данных.
9. Второй серьёзный барьер после денег - это закрытость данных. Это касается, и архивов, и библиотек, и доступности данных и иных цифровых материалов под свободными лицензиями. Есть страны где с этим очень неплохо и есть те где всё довольно печально.
10. К примеру если начать проектировать аналог Europeana для ряда стран это будет просто невозможно. Просто потому что всё очень немного оцифровано и даже описи оцифрованы далеко не все.
11. Реальные изменения начинаются с тех кто выделяет средства на культурные проекты. Без их воли (и требований) не возникнет ни открытости, ни кооперации в достаточно серьёзном масштабе.
.
#digitalhumanities #culture #opendata