Forwarded from Antibarbari HSE (полина крупинина)
Сегодня в рубрике #sermones_antibarbari поговорили с Ольгой Алиевой, доцентом Школы философии и культурологии НИУ ВШЭ и создателем Antibarbari HSE. Ольга Валерьевна не только активно ведет этот канал и преподает древние языки в Вышке, но и ведет курсы по количественным исследованиям в гуманитарных науках, о чем пишет здесь. Мы попросили Ольгу Валерьевну рассказать о том, как она начала заниматься древними языками и преподавать их, об идее создать клуб Antibarbari, об исследовательских интересах, а также попросили дать советы изучающим древние языки.
🔥13❤6👍4❤🔥1
Считаем в R:
p_nic <- 17/35 p_alc <- 11/38 sep_nicias <- sqrt((p_nic*(1-p_nic)) / 35) sep_alcib <- sqrt((p_alc*(1-p_alc)) / 38) В 95%-ом доверительном интервале истинные пропорции для Никия и Алкивиада составляют:
nicias_est <- p_nic + sep_nicias * c(-2, 2)
# 0.316 0.655 alcib_est <- p_alc + sep_alcib * c(-2, 2)
# 0.142 0.437Упс, похоже, интервалы пересекаются, перепроверим. Считаем разницу в 95%-м интервале:
diff = p_nic - p_alc term1 = p_nic*(1-p_nic) / 35 term2 = p_alc*(1-p_alc) / 38 diff + c(-1.96, 1.96) * sqrt(term1 + term2) # -0.023 0.416Похоже, что ноль попадает в доверительный интервал, значит не можем отвергнуть нулевую гипотезу о равенстве пропорций.
То же самое быстрее:
prop.test(x = c(17, 11), n = c(35, 38), conf.level = 0.95, correct = F, alternative = "two.sided")
Вернет:
p-value = 0.08496
95 percent confidence interval:
-0.02332456 0.41580576
Результаты теста совпадают с тем, что мы насчитали выше. Это хорошо. Но отвергнуть гипотезу о равенстве пока не получится. Хотя наше филологическое чутье говорит об обратном.
Please open Telegram to view this post
VIEW IN TELEGRAM
💘6👍2
Сегодня полезная штуковина для тех, кто занимается сравнением переводов, версий документа и т.п. Выравниватель на основе алгоритма Смита — Ватермана.
Функция вернет оба документа с хэшами на месте расхождений в символах:
Если поменять type на words, то захэшируются целые слова.
💡 Если вы, как я, постоянно делаете ошибку в фамилии Foucault, можно быстренько проверить, все ли гласные на месте.
💡 Если студент вам сдал слегка отредактированную версию прошлогодней работы, можно вполне в домашних условиях развернуть свой собственный антиплагиат.
#полезное
library(text.alignment)
a <- "Gallia est omnis divisa in pates tres."
b <- "Gallia omnis divisa in partes tres"
smith_waterman(a, b, type = "characters")
Функция вернет оба документа с хэшами на месте расхождений в символах:
Swith Waterman local alignment score: 61
---------- Document a ----------
Gallia est omnis divisa in pa#tes tres
---------- Document b ----------
Gallia ####omnis divisa in partes tres
Если поменять type на words, то захэшируются целые слова.
#полезное
Please open Telegram to view this post
VIEW IN TELEGRAM
cran.r-project.org
Text Alignment
❤10🤯3
Forwarded from Vox mediaevistae
Запись доклада в семинаре «Феномен русской медиевистики» опубликована.
В панике вместо «животных, входящих в этот список, и прочих» я изобрела какую-то иную неструктурированную, но не имеющую к Борхесу отношения классификацию. За вычетом этой, чудовищных ошибок, кажется, не сделала.
Слайды можно посмотреть здесь; а ноутбук, помогающий скачивать оглавления и пдф, выложенные на сайте «Средних веков» — здесь. Основной код и данные рассчитываю привести в порядок и выложить в течение месяца.
В панике вместо «животных, входящих в этот список, и прочих» я изобрела какую-то иную неструктурированную, но не имеющую к Борхесу отношения классификацию. За вычетом этой, чудовищных ошибок, кажется, не сделала.
Слайды можно посмотреть здесь; а ноутбук, помогающий скачивать оглавления и пдф, выложенные на сайте «Средних веков» — здесь. Основной код и данные рассчитываю привести в порядок и выложить в течение месяца.
YouTube
Одиннадцатое заседание научного семинара "Феномен русской медиевистики: люди, концепции, институты"
С докладом "Время, цех и город: количественный диахронный анализ публикаций в "Средних веках" выступила Светлана Александровна Яцык, кандидат исторических наук, главный редактор журнала Vox medii aevi, научный сотрудник Лаборатории медиевистических исследований.…
❤10
Газетир (географический справочник) для любителей античности: https://pleiades.stoa.org/
Если не уверены, где находится тот самый Пританей, в котором собирался обедать Сократ. Координаты, карта, связанные названия. #карты
Если не уверены, где находится тот самый Пританей, в котором собирался обедать Сократ. Координаты, карта, связанные названия. #карты
pleiades.stoa.org
Pleiades: A community-built gazetteer and graph of ancient places
Pleiades gives scholars, students, and enthusiasts worldwide the ability to use, create, and share historical geographic information about the ancient world in digital form.
❤11🔥5
’Καὶ ταῦτα ἡ ἐμὴ νεότης καὶ ἄνοια παρὰ φύσιν δοκοῦσα εἶναι ἐς τὴν Πελοποννησίων δύναμιν λόγοις τε πρέπουσιν ὡμίλησε καὶ ὀργῇ πίστιν παρασχομένη ἔπεισεν. καὶ νῦν μὴ πεφόβησθε αὐτήν, ἀλλ' ἕως ἐγώ τε ἔτι ἀκμάζω μετ' αὐτῆς καὶ ὁ Νικίας εὐτυχὴς δοκεῖ εἶναι, ἀποχρήσασθε τῇ ἑκατέρου ἡμῶν ὠφελίᾳ. καὶ τὸν ἐς τὴν Σικελίαν πλοῦν μὴ μεταγιγνώσκετε ὡς ἐπὶ μεγάλην δύναμιν ἐσόμενον (6.17).
Снова сравним Алкивиада и Никия. У первого 28 предложений из 82 начинаются с καί, у второго — 14 из 73. Мы уже выяснили, как сравниваются пропорции, поэтому считаем быстро, не заглядывая под капот:
prop.test(x = c(28, 14), n = c(82, 73), conf.level = 0.95, correct = F, alternative = "two.sided")
prop.test(x = c(21, 3), n = c(136, 45), conf.level = 0.95, correct = F, alternative = "two.sided")
prop.test(x = c(21, 28), n = c(136, 82), conf.level = 0.95, correct = F, alternative = "two.sided")
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤1
В 2014 г. группа DH-сколаров создала карту по мотивам знаменитого «каталога кораблей» из второй песни «Илиады». Читать список кораблей с такой визуализацией можно дальше, чем до половины, что уже хорошо, но карта дала и неожиданный бонус. В «беотийской» группе Гомер почему-то пропускает главный город Беотии, Фивы. Геопространственная модель позволила заметить, что все другие беотийские названия словно описывают круг вокруг Фив:
Подобное «озирание вокруг» свойственно и для другого эпизода, известного как «тейхоскопия», то есть смотр со стены. Такие описания встречаются и в других эпических поэмах, и авторы заключают, что Гомер заимствовал беотийский список из беотийской же устной традиции, в которой герой вполне мог оглядываться вокруг с фиванской стены. Поэтому в списке и нет Фив. #карты
The Boiotian towns define a rough circuit around a central point, namely, the unmentioned city of Thebes in the center of the region; it is as if Homer were standing in in the middle and pointing out toward the other towns like spokes on a wheel.
Подобное «озирание вокруг» свойственно и для другого эпизода, известного как «тейхоскопия», то есть смотр со стены. Такие описания встречаются и в других эпических поэмах, и авторы заключают, что Гомер заимствовал беотийский список из беотийской же устной традиции, в которой герой вполне мог оглядываться вокруг с фиванской стены. Поэтому в списке и нет Фив. #карты
❤🔥14❤6🤔3
Еще немного античной географии. В 2010 г. группа британских исследователей презентовала проект под названием HESTIA (Herodotus Encoded Space-Text-Imaging Archive). Выловив в тексте Геродота все географические названия, они создали пространственную базу данных PostgreSQL, которую затем визулизировали в виде карты.
Среди прочего, исследователи построили и изобразили сеть географических названий, используя в качестве основы их совместную встречаемость в тексте. Оказалось, что в центре таким образом смоделированного мира находится вовсе не Греция, а Египет:
Объясняется это тем, что Египет у Геродота — универсальное сравнение, пробирный камень для всех историко-культурных обобщений.
Среди прочего, исследователи построили и изобразили сеть географических названий, используя в качестве основы их совместную встречаемость в тексте. Оказалось, что в центре таким образом смоделированного мира находится вовсе не Греция, а Египет:
…the territory that has the strongest connections in this basic network culture is Egypt. While surprising, it does make sense on reflection, since for a better part of one book Herodotus uses Egypt as the touchstone against which other cultures, including Persia and his own, Greece, are compared. It is as a tool of comparison, then, that Egypt appears to be the centre of Herodotus’ network picture of the Mediterranean
Объясняется это тем, что Египет у Геродота — универсальное сравнение, пробирный камень для всех историко-культурных обобщений.
👏7❤6🔥3
Снова география. Павсаний, Страбон и даже Плиний Старший тоже нанесены на карту при помощи онлайн-инструмента под названием Recogito. Разработкой и тегированием занимался тот же Элтон Баркер, который соорудил карту Геродота.
Recogito — это бесплатный, очень простой, но достаточно удобный онлайн-инструмент, в 2018 получивший приз как лучший DH-tool в Digital Humanities Awards 2018. Он позволяет работать в командах над аннотированием текстов.
Размеченные таким образом именованные сущности можно затем экспортировать в ГИС.
💡 Загружаете свой текст (на любом языке) и можете — например, по мере чтения его со студентами — добавлять какую-нибудь разметку. Вот вам идея для цифровой проектной работы, которая не требует кодинга.
💡 Кстати, csv или json с координатами локаций у Павсания, Страбона и Плиния вполне можно скачать и использовать в учебных целях. На картинке Страбон для привлечения внимания. #карты
Recogito — это бесплатный, очень простой, но достаточно удобный онлайн-инструмент, в 2018 получивший приз как лучший DH-tool в Digital Humanities Awards 2018. Он позволяет работать в командах над аннотированием текстов.
Размеченные таким образом именованные сущности можно затем экспортировать в ГИС.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥2
Несколько лет назад, когда я впервые прочитала эту рецензию, я почти ничего не поняла, кроме того, что Б. совершает какие-то страшные статистические грехи. Пришло время разобраться, какие именно.
Dittenberger then examined Plato’s use of comparative particles (ὥσπερ and καθάπερ), but the results are fuzzy at best (pp. 19-20). B. tries (p. 19) to make them more precise by noting a decreasing rate, counted as uses per page, from Euthd., Meno, Gorg., Crat., Phdo., Symp., Lysis (0.80) to Phdr., Rep., Theaet. (0.61), and thence to Parm., Phil., Soph., Pol., Tim., Crit., and Laws (0.40). In … comparing the three numbers [B.] claims a clear trend but he fails to determine whether it is in fact statistically significant. Briefly the uncertainty σ for each ratio would be respectively 0.80 ± 0.15, 0.61 ± 0.08, and 0.40 + 0.07, and the level of significance of the pairwise differences would be z = 1.1 (73 % ) and z = 2.0 (95 %).
Простыми словами: Б. считает, что в ранней, средней и поздней группе сравнительные наречия встречаются с убывающей частотностью (в пересчете на страницу текста): соответственно 0.80 (7 диалогов), 0.61 (3 диалога) и 0.40 (7 диалогов). Как он пишет,
Clearly there can be no doubt of the direction of the trend.
Однако сомнения есть. Кейзер считает не только среднее, но и стандартное отклонение для каждой группы: 0.15, 0.08, 0.07 соответственно. Это дает ему возможность попарно сравнить, есть ли значимая разница в средних (формула).
z1 <- (0.8 - 0.61) / sqrt( 0.15^2 + 0.08^2) # 1.1
z2 <- (0.61 - 0.4) / sqrt( 0.08^2 + 0.07^2) # 1.97
Ура, мы получаем те же значения, что и Кейзер. От них можно перейти к вероятности:
pnorm(abs(z1), lower.tail = F) * 2 # 27%
pnorm(abs(z2), lower.tail = F) * 2 # 5%
Таким образом с вероятностью 27% для групп 1 и 2 и с вероятностью 5% для групп 2 и 3 выборочные средние происходят из одной популяции. Кейзер говорит о 73% и 95% (т.е. 1 – p) уверенности, чего, с его точки зрения, недостаточно:
That is, those are the probabilities that the difference is significant—and most statisticians would consider anything less than 95% (I and most physicists prefer 99%) as insignificant. B. calculates (pp. 21-2) various ratios, which suffer from the same defect.
Очень непросто иногда читать рецензии.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1
Друзья, в первую очередь студенты и аспиранты, если у кого-то есть охота поговорить со мной о философии и цифровизации, можно до 17 марта подать заявку здесь. Если там будет мноооого и философии чуть-чуть цифровизации, то ок (и наоборот тоже ок). Просто хороший повод собраться и поговорить.
Telegram
Antibarbari HSE
3-24 мая 2024 г. на Факультете гуманитарных наук НИУ ВШЭ состоится II научная конференция студентов и аспирантов «TERRA HOMINIS – 2024».
Конференцию откроет пленарное заседание, которое будет сопровождаться 13 секциями, отражающими основные направления…
Конференцию откроет пленарное заседание, которое будет сопровождаться 13 секциями, отражающими основные направления…
❤4💘3🔥1
Forwarded from Системный Блокъ
Виртуальный визит в Помпеи: как архитектура управляет нашим вниманием
Можно ли проанализировать взаимодействие человека и архитектурной среды? И причём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь античного города.
Кратко: о чем статья?
Исследователи из Швеции предложили новый подход к проблеме визуального воздействия среды на человека. Их метод основан на совмещении географических информационных систем (ГИС, об их использовании историками мы уже рассказывали) и айтрекинга. Они уверены: то, как современный зритель смотрит на древнюю среду, поможет лучше понять культуру и повседневную жизнь древнего города Помпеи.
Участники проекта гуляли по трёхмерной модели помпейского дома в VR-очках. Полученные данные переносились в ГИС, благодаря чему стало ясно, как распределялось зрительное внимание. Например, его точно привлекали скульптурные изображения предков или божеств. А эротические фрески располагались таким образом, чтобы большую часть дня оставаться в тени — эффект визуального воздействия мог зависеть и от положения солнца в то или иное время суток.
Эти данные открывают новые возможности для анализа взаимодействия человека с архитектурной средой и выявляют истинную роль того или иного элемента в общем ансамбле здания — кому и когда он был доступен для обозрения, на какое время выставлялся на показ и когда был спрятан от посторонних глаз.
Подробнее об исследовании и о том, что и откуда можно было увидеть в воссозданном доме — в полной версии статьи.
Время чтения: 8 минут.
🤖 «Системный Блокъ» @sysblok
Можно ли проанализировать взаимодействие человека и архитектурной среды? И причём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь античного города.
Кратко: о чем статья?
Исследователи из Швеции предложили новый подход к проблеме визуального воздействия среды на человека. Их метод основан на совмещении географических информационных систем (ГИС, об их использовании историками мы уже рассказывали) и айтрекинга. Они уверены: то, как современный зритель смотрит на древнюю среду, поможет лучше понять культуру и повседневную жизнь древнего города Помпеи.
Участники проекта гуляли по трёхмерной модели помпейского дома в VR-очках. Полученные данные переносились в ГИС, благодаря чему стало ясно, как распределялось зрительное внимание. Например, его точно привлекали скульптурные изображения предков или божеств. А эротические фрески располагались таким образом, чтобы большую часть дня оставаться в тени — эффект визуального воздействия мог зависеть и от положения солнца в то или иное время суток.
Эти данные открывают новые возможности для анализа взаимодействия человека с архитектурной средой и выявляют истинную роль того или иного элемента в общем ансамбле здания — кому и когда он был доступен для обозрения, на какое время выставлялся на показ и когда был спрятан от посторонних глаз.
Подробнее об исследовании и о том, что и откуда можно было увидеть в воссозданном доме — в полной версии статьи.
Время чтения: 8 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Айтрекинг в восприятии архитектурной среды
Как проанализировать восприятие архитектурной среды с помощью айтрекинга, 3D-моделирования и ГИС? Узнаем в новом материале «Системного Блока».
❤8
RAntiquity
Когда что-то говоришь вслух, особенно публично, всегда есть риск сказать глупость. И когда в комментариях к этому посту @aGricolaMZ указал мне на то, что результат Кейзера воспроизводится, только если забыть об объеме выборки, было неловко. С другой стороны, как мы знаем от Сократа, кто молчит, чтобы сойти за умного, тот остается один на один со своим невежеством. Если бы не этот пост, я бы не получила письма от самого Пауля Кейзера, в котором он подтверждает наблюдения ученейшего коллеги и тем самым дает мне урок быть внимательнее в задачках — а когда это невозможно, уметь признавать свою неправоту. Уважаю.
❤15💯6👏4👍2
А мы добавим, что в этом году в шортлисте несколькими именами
По ссылке можно нас (или кого-то еще) поддержать, чтобы мы и дальше вдохновенно радовали вас чем-нибудь таким эдаким.
В общем, вот наши номинации:
Борис Орехов (руководитель программы), Russian-European literary relations of the 18th century – https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2023.4-B003
Диана Есаян (выпускница программы), Direct Speech Extractor – https://github.com/diana-esaian/direct-speech-extractor-ru
Ольга Алиева (преподаватель программы), Computer text analysis with R – https://locusclassicus.github.io/text_analysis_2023/
Борис Орехов, Identifying the style by a qualified reader on a short fragment of generated poetry – https://arxiv.org/abs/2306.02771
Борис Орехов, Calendarium Romanum – https://vk.com/calendariumromanum
ℹ️ Не забудьте поделиться информацией с друзьями: голосовать могут все, вне зависимости от академического статуса и отношения к DH.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DH CLOUD
🎉А вот ежегодная выставка достижения цифрового гуманитарного хозяйства. Можно проголосовать за то, что понравилось, а можно просто полюбоваться. Номинации:
✨Best DH Data Vizualizations
✨Best DH Dataset
✨Best DH Short Publication
✨Best DH Tool
✨Best DH Training…
✨Best DH Data Vizualizations
✨Best DH Dataset
✨Best DH Short Publication
✨Best DH Tool
✨Best DH Training…
❤🔥6🔥4🍾3
Это мартовское утро я провожу, пытаясь добыть текст речи Лисия “Против Эратосфена” из #xml.
В Perseus нужный мне текст хранится под тегом
Если так и оставить, то слова δʼ add. Scaliger тоже извлекутся, а мне они не нужны. Вот так это работает:
Чинится просто:
Можно перезаписать файл:
В Perseus нужный мне текст хранится под тегом
<p> (параграф), но внутри каждого параграфа есть еще сноски по изданию Loeb, которые мне не нужны. Обычно там лежат разночтения. Например, вот такие:
<note resp="Loeb" anchored="true" xml:lang="lat"><foreign xml:lang="grc">δʼ</foreign> add. Scaliger</note>
Если так и оставить, то слова δʼ add. Scaliger тоже извлекутся, а мне они не нужны. Вот так это работает:
library(xml2)
test_xml <- '<top> нужный текст <div type="textpart"> <p> нужный текст <note> ненужный текст </note> нужный текст <note> ненужный текст </note> нужный текст</p></div></top>'
doc <- read_xml(test_xml) xml_text(doc)
Чинится просто:
remove_me <- xml_find_all(doc, "//note")
xml_remove(remove_me) xml_text(doc)
Можно перезаписать файл:
write_xml(doc, file = "new.xml")
❤9
Простой и универсальный способ создать филогенетическое дерево — использовать формат Ньюика, т.е. просто-напросто комбинацию скобок и запятых.
Вот такое, например, нехитрое у меня сегодня дерево активностей выходного дня.
#филогенетика
library(ape)
tr <- read.tree(text ="(Rest,(R,(Greek,Latin)));")
par(mfrow = c(2,2), mar = c(1,2,2,2), family = "Arial Narrow")
plot.phylo(tr, type = "unrooted", main = "unrooted")
plot.phylo(tr, type = "cladogram", main = "cladogram")
plot.phylo(tr, type = "phylogram", main = "phylogram")
plot.phylo(tr, type = "fan", main = "fan")
Вот такое, например, нехитрое у меня сегодня дерево активностей выходного дня.
#филогенетика
❤10
Допустим, у нас есть три дерева. Таких, как на картинке 1. Вот код для воспроизведения:
library(ape)
tr1 <- ape::read.tree(text = "((1,2),(3,4));")
tr2 <- ape::read.tree(text = "((1,3),(2,4));")
tr3 <- ape::read.tree(text = "((1,2),(3,4));")
par(mfrow = c(1, 3), mar = c(5,1,5,1), cex = 1)
plot.phylo(tr1, tip.color = 2 )
plot.phylo(tr2, tip.color = 2 )
plot.phylo(tr3, tip.color = 2 )
Кластеры 1-2, 3-4 встречаются в двух деревьях, остальные лишь в одном. Задача — найти наиболее устойчивые кластеры методом простого большинства. Это можно сделать при помощи консенсусных деревьев.
Сначала считаем консенсус, аргумент p указывает, что кластер должен быть представлен не менее, чем в половине деревьев. Также уточняем, что наши деревья укоренены:
cons <- consensus(list(tr1, tr2, tr3), p = 0.5, rooted = TRUE)
Консенсус тоже можно изобразить; дополнительно для узлов укажем силу консенсуса (2/3 = 0.67):
par(mfrow = c(1,1), mar = c(5,5,5,5))
plot.phylo(cons, tip.color = 2)
nodelabels(round(cons$node.label[3],2), 7, frame = "c", cex = 0.7)
nodelabels(round(cons$node.label[2],2), 6, bg = "yellow")
Это очень простое консенсусное дерево, построенное по методу простого большинства, которое позволяет «обобщить» несколько разных деревьев. Полезно не только эволюционным биологам, но и тем, кто работает с текстами. Чуть позже расскажу, как.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4