RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
545 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
💡 Задачка на распределение Пуассона

✈️ Каждый четверг я выкладываю в дружественном канале Antibarbari несколько страниц латинского текста, и каждую неделю ученейшие подписчики находят там ошибки. В среднем они находят 1 ошибку на 10 страниц текста с картинками.

Вопрос: какова вероятность того, что на следующей неделе ученейшие подписчики не найдут ни одной ошибки, если в «отложке» у меня снова запланировано 10 страниц? #задачка

Считайте ошибки независимыми.

⚙️ Решение на языке R: dpois(0, 1)

Ответ: примерно 37%
Please open Telegram to view this post
VIEW IN TELEGRAM
😁61👍1
RAntiquity
Винценты Лютославский (1897), выделил 500 признаков позднего стиля Платона (синтаксические, морфологические, лексические, ритмические, драматические и др.), присвоив каждому одну из 4-х "степеней значимости" , и сгруппировал диалоги по "стилистической близости"…
Мне уже приходилось рассказывать о том, что количественные исследования в платоноведении начались во второй половине 19 в., когда никаких компьютеров не было даже в планах, но вот чего вы скорее всего не знали — несколько таких работ написаны на латыни. Такова De Platonis dialogis Quaestiones Chronologicae (1896) Фон Арнима — всего 28 страниц текста, толковому латинисту чтения на одну чашку кофе. С появлением многомерного анализа исследование уже потеряло всякий интерес с точки зрения выводов, но зато — смотрите! — как можно писать об этом на латыни: in maiore harum formularum frequentia conspirat, как прекрасно-то. Когда-нибудь я тоже обязательно попробую пройти в самое сердце Гримпенской трясины.
9❤‍🔥5
Forwarded from THALATTA ΘΑΛΑΣΣΑ
интересный факт ко дню святого валентина: начиная с 15 века, во Франции изданий Овидия выходило больше, чем изданий Вергилия. зато когда выбирали, чье собрание сочинений печатать первым, Вергилия предпочитали Овидию.
💘9
В дружественном канале пишут, что курс “R для антиковедов”, снятый доцентом Алиевой в качестве духовного упражнения, оказался кому-то полезен и помог при поступлении. Вообще все, что я делаю, я делаю для себя, поэтому мне всегда удивительно слышать, что и не для себя, оказывается, тоже. Там надо бы все полностью переделать и доснять продолжение, желательно кому-то не с такими кривыми руками. Но жизни мышья беготня … ты меня. Как есть.
23❤‍🔥2🍓2👍1
DH-ученый в интерьере: Даниил Скоринкин в новом подкасте Бориса Орехова рассказывает про университетский хронотоп. Хороший разговор и хорошо, что университет стал темой целого подкаста 🎓
❤‍🔥4
Вот вам снова филологическая задачка, основанная на реальных событиях.

🤍 На прошлой неделе доцент Алиева читала латинские стихи: в среду 14 февраля — Овидия, а в субботу 17 февраля Проперция (об этом сообщалось в федеральной прессе дружественном канале Antibarbari).

🤍Во время чтения выяснилось, что элизия / афэреза встречается на каждые пять стихов у Проперция с такой частотой:

p <- c(2, 2, 1, 2, 1, 1, 1, 0, 3)

А у Овидия, тоже на каждые пять стихов, с такой:

o <- c(0, 1, 0, 3, 1, 0, 1, 0, 0)

🤍 У доцента Алиевой возникло смутное ощущение, что Проперций чаще жертвует гласными, чем Овидий. Но ощущение — это не наш метод! Она решила узнать: есть ли статистически значимая разница между средним числом элидированных стихов у Овидия и у Проперция?

🤍 Ответ на волнующий ее вопрос доцент Алиева искала так:

1. Посчитала среднее число элизий на 5 стихов:

p_means <- p / 5
o_means <- o / 5

2. Вспомнила, что, согласно ЦПТ, средние выборочных средних распределены нормально, поэтому можно применить t-test:

t.test(p_means, o_means)


🤍 В ответ машина сообщила:

t = 1.75, df = 15.754, p-value = 0.09957
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.03312005 0.34423116
sample estimates:
mean of x mean of y
0.2888889 0.1333333

🤍 Что это значит? Ноль попадает в доверительный интервал, так что мы не можем отвергнуть нулевую гипотезу о равенстве средних. Как быть? Посидеть подольше, а не лениться, как девочка Маничка из рассказа Тэффи “Экзамен”. #задачка
Please open Telegram to view this post
VIEW IN TELEGRAM
13
Коллеги из Питера пригласили что-нибудь цифровое рассказать, и я не могла отказаться) Вспомнила софиста Гиппия, который гастролировал по всей Греции с лекциями по мнемотехнике и мастер-классами по плетению бисером. А чем я хуже?  PS: там три часа!

***

29 февраля Школа искусств и культурного наследия Европейского Университета в Санкт-Петербурге приглашает на открытую лекцию Ольги Алиевой «Тематическая модель: как спланировать и провести свое первое исследование».

Тематическое моделирование — один из популярных методов анализа текстовых данных, который позволяет находить в коллекции документов некоторое количество «скрытых» там топиков. В лекции кандидат филологических наук, доцент НИУ ВШЭ Ольга Алиева расскажет о том, как тематические модели применяются в гуманитарных дисциплинах от политической истории до литературоведения, и поделится собственным опытом построения тематической модели.

Мероприятие состоится онлайн, для участия зарегистрируйтесь на Timepad.
15🔥5❤‍🔥2👍1
Forwarded from Vox mediaevistae
В следующую субботу, в 15 часов по Московскому времени, я выступлю в семинаре Феномен русской медиевистики с докладом «Время, цех и город: количественный диахронный анализ публикаций в ”Средних веках”».
В нем я расскажу о том, как пыталась применить к «Средним векам» тематическое моделирование (это метод, который позволяет сначала выявить скрытые в корпусе текстов темы, а потом все тексты, составляющие корпус, по этим темам классифицировать). Главный вопрос, который меня интересует — как менялась популярность и востребованность этих тем во времени. Найдутся ли такие сюжеты, про которые авторы (или редколлегия?) забывали на время, чтобы вернуться к ним вновь?
Я бы хотела прикрепить к этому посту иллюстрацию, но чистовых картинок пока нет, потому что — за неделю до доклада — я все еще собираю данные; в такие минуты хочется примкнуть к тем, кто предлагает заменить слово data (данные) на collecta (собранные). В качестве затравки: полученное при помощи Voyant tools облако 55 самых популярных слов в первых 30 номерах «Средних веков»; топик (на нелемматизированных данных), очевидно, отвечающий за формальное цитирование классиков марксизма-ленинизма; пример черновых топиков (почему-то сформированных из слов в родительном падеже).

Если хочется узнать больше о тематическом моделировании, можно послушать выступление Ольги Алиевой 29 февраля.
8
Forwarded from Antibarbari HSE (полина крупинина)
Сегодня в рубрике #sermones_antibarbari поговорили с Ольгой Алиевой, доцентом Школы философии и культурологии НИУ ВШЭ и создателем Antibarbari HSE. Ольга Валерьевна не только активно ведет этот канал и преподает древние языки в Вышке, но и ведет курсы по количественным исследованиям в гуманитарных науках, о чем пишет здесь. Мы попросили Ольгу Валерьевну рассказать о том, как она начала заниматься древними языками и преподавать их, об идее создать клуб Antibarbari, об исследовательских интересах, а также попросили дать советы изучающим древние языки.
🔥136👍4❤‍🔥1
✔️ Вот вам новая #задачка, про Фукидида.

Профессор Томпкинс решил узнать, кто самый сложносочиненный персонаж в «Истории» Фукидида. Для этого он взял две выборки (на самом деле больше, но у нас песочница), одну с речами Никия, другую с речами Алкивиада. В выборке Никия — 35 предложений, из них 17 имеют как минимум два уровня подчинения. В выборке Алкивиада — 38 предложений, из них лишь 11 усложнены до третьего уровня.

⭐️Необходимо вычислить стандартную ошибку пропорции для двух выборок и сделать выводы о равенстве двух пропорций.

Считаем в R:

p_nic <- 17/35
p_alc <- 11/38
sep_nicias <- sqrt((p_nic*(1-p_nic)) / 35)
sep_alcib <- sqrt((p_alc*(1-p_alc)) / 38)

В 95%-ом доверительном интервале истинные пропорции для Никия и Алкивиада составляют:

nicias_est <- p_nic + sep_nicias * c(-2, 2)
# 0.316 0.655

alcib_est <- p_alc + sep_alcib * c(-2, 2)
# 0.142 0.437


Упс, похоже, интервалы пересекаются, перепроверим. Считаем разницу в 95%-м интервале:

diff = p_nic - p_alc
term1 = p_nic*(1-p_nic) / 35
term2 = p_alc*(1-p_alc) / 38
diff + c(-1.96, 1.96) * sqrt(term1 + term2)
# -0.023 0.416

Похоже, что ноль попадает в доверительный интервал, значит не можем отвергнуть нулевую гипотезу о равенстве пропорций.

То же самое быстрее:

prop.test(x = c(17, 11), n = c(35, 38), conf.level = 0.95, correct = F, alternative = "two.sided")


Вернет:

p-value = 0.08496

95 percent confidence interval:
-0.02332456 0.41580576

Результаты теста совпадают с тем, что мы насчитали выше. Это хорошо. Но отвергнуть гипотезу о равенстве пока не получится. Хотя наше филологическое чутье говорит об обратном.
Please open Telegram to view this post
VIEW IN TELEGRAM
💘6👍2
Сегодня полезная штуковина для тех, кто занимается сравнением переводов, версий документа и т.п. Выравниватель на основе алгоритма Смита — Ватермана.

library(text.alignment)  
a <- "Gallia est omnis divisa in pates tres."
b <- "Gallia omnis divisa in partes tres"
smith_waterman(a, b, type = "characters")

Функция вернет оба документа с хэшами на месте расхождений в символах:


Swith Waterman local alignment score: 61
---------- Document a ----------
Gallia est omnis divisa in pa#tes tres
---------- Document b ----------
Gallia ####omnis divisa in partes tres

Если поменять type на words, то захэшируются целые слова.

💡 Если вы, как я, постоянно делаете ошибку в фамилии Foucault, можно быстренько проверить, все ли гласные на месте.

💡Если студент вам сдал слегка отредактированную версию прошлогодней работы, можно вполне в домашних условиях развернуть свой собственный антиплагиат.

#полезное
Please open Telegram to view this post
VIEW IN TELEGRAM
10🤯3
Forwarded from Vox mediaevistae
Запись доклада в семинаре «Феномен русской медиевистики» опубликована.
В панике вместо «животных, входящих в этот список, и прочих» я изобрела какую-то иную неструктурированную, но не имеющую к Борхесу отношения классификацию. За вычетом этой, чудовищных ошибок, кажется, не сделала.
Слайды можно посмотреть здесь; а ноутбук, помогающий скачивать оглавления и пдф, выложенные на сайте «Средних веков» — здесь. Основной код и данные рассчитываю привести в порядок и выложить в течение месяца.
10
Газетир (географический справочник) для любителей античности: https://pleiades.stoa.org/

Если не уверены, где находится тот самый Пританей, в котором собирался обедать Сократ. Координаты, карта, связанные названия. #карты
11🔥5