RAntiquity

Из домашки по курсу анализа текста на языке R родилась целая статья! Поздравляю Женю Дуненкова с этим достижением и радуюсь, как будто сама нобелевскую премию получила 🎄

Ура, еще один — неожиданный — итог курса по R! София Федотова выступила на «Системном Блоке» в новом жанре цифровой рецензии и подала пример того, как можно ~~со штангенциркулем наперевес~~ делать красивое и говорить человеческое. Congaudeo.

Системный Блокъ

Цвет антиутопии зеленый: цифровая рецензия на роман «Радио Мартын»

Гуманитарии осваивают цифровой мир и смотрят на литературные произведения через цифровую оптику. Это позволяет увидеть в толще текста неочевидные стилевые особенности текста. Мы проанализировали…

❤16❤‍🔥3🔥3

535 views16:16

RAntiquity

В дружественном канале пишут, что курс “R для антиковедов”, снятый доцентом Алиевой в качестве духовного упражнения, оказался кому-то полезен и помог при поступлении. Вообще все, что я делаю, я делаю для себя, поэтому мне всегда удивительно слышать, что и не для себя, оказывается, тоже. Там надо бы все полностью переделать и доснять продолжение, желательно кому-то не с такими кривыми руками. ~~Но жизни мышья беготня … ты меня~~. Как есть.

❤23❤‍🔥2🍓2👍1

463 viewsedited 13:58

RAntiquity

DH-ученый в интерьере: Даниил Скоринкин в новом подкасте Бориса Орехова рассказывает про университетский хронотоп. Хороший разговор и хорошо, что университет стал темой целого подкаста 🎓

❤‍🔥4

426 viewsedited 19:58

RAntiquity

Вот вам снова филологическая задачка, основанная на реальных событиях.

🤍 На прошлой неделе доцент Алиева читала латинские стихи: в среду 14 февраля — Овидия, а в субботу 17 февраля Проперция (об этом сообщалось ~~в федеральной прессе~~ дружественном канале Antibarbari).

🤍Во время чтения выяснилось, что элизия / афэреза встречается на каждые пять стихов у Проперция с такой частотой:

p <- c(2, 2, 1, 2, 1, 1, 1, 0, 3)

А у Овидия, тоже на каждые пять стихов, с такой:

o <- c(0, 1, 0, 3, 1, 0, 1, 0, 0)

🤍 У доцента Алиевой возникло смутное ощущение, что Проперций чаще жертвует гласными, чем Овидий. Но ощущение — это не наш метод! Она решила узнать: есть ли статистически значимая разница между средним числом элидированных стихов у Овидия и у Проперция?

🤍 Ответ на волнующий ее вопрос доцент Алиева искала так:

1. Посчитала среднее число элизий на 5 стихов:

p_means <- p / 5
o_means <- o / 5

2. Вспомнила, что, согласно ЦПТ, средние выборочных средних распределены нормально, поэтому можно применить t-test:

t.test(p_means, o_means)

🤍 В ответ машина сообщила:

t = 1.75, df = 15.754, p-value = 0.09957
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.03312005  0.34423116
sample estimates:
mean of x mean of y 
0.2888889 0.1333333

🤍 Что это значит? Ноль попадает в доверительный интервал, так что мы не можем отвергнуть нулевую гипотезу о равенстве средних. Как быть? Посидеть подольше, а не лениться, как девочка Маничка из рассказа Тэффи “Экзамен”. #задачка

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13

444 viewsedited 14:13

RAntiquity

Коллеги из Питера пригласили что-нибудь цифровое рассказать, и я не могла отказаться) Вспомнила софиста Гиппия, который гастролировал по всей Греции с лекциями по мнемотехнике и мастер-классами по плетению бисером. А чем я хуже? PS: там три часа!

***

29 февраля Школа искусств и культурного наследия Европейского Университета в Санкт-Петербурге приглашает на открытую лекцию Ольги Алиевой «Тематическая модель: как спланировать и провести свое первое исследование».

Тематическое моделирование — один из популярных методов анализа текстовых данных, который позволяет находить в коллекции документов некоторое количество «скрытых» там топиков. В лекции кандидат филологических наук, доцент НИУ ВШЭ Ольга Алиева расскажет о том, как тематические модели применяются в гуманитарных дисциплинах от политической истории до литературоведения, и поделится собственным опытом построения тематической модели.

Мероприятие состоится онлайн, для участия зарегистрируйтесь на Timepad.

❤15🔥5❤‍🔥2👍1

438 viewsedited 14:34

RAntiquity

Forwarded from Vox mediaevistae

В следующую субботу, в 15 часов по Московскому времени, я выступлю в семинаре Феномен русской медиевистики с докладом «Время, цех и город: количественный диахронный анализ публикаций в ”Средних веках”».
В нем я расскажу о том, как пыталась применить к «Средним векам» тематическое моделирование (это метод, который позволяет сначала выявить скрытые в корпусе текстов темы, а потом все тексты, составляющие корпус, по этим темам классифицировать). Главный вопрос, который меня интересует — как менялась популярность и востребованность этих тем во времени. Найдутся ли такие сюжеты, про которые авторы (или редколлегия?) забывали на время, чтобы вернуться к ним вновь?
Я бы хотела прикрепить к этому посту иллюстрацию, но чистовых картинок пока нет, потому что — за неделю до доклада — я все еще собираю данные; в такие минуты хочется примкнуть к тем, кто предлагает заменить слово data (данные) на collecta (собранные). В качестве затравки: полученное при помощи Voyant tools облако 55 самых популярных слов в первых 30 номерах «Средних веков»; топик (на нелемматизированных данных), очевидно, отвечающий за формальное цитирование классиков марксизма-ленинизма; пример черновых топиков (почему-то сформированных из слов в родительном падеже).

Если хочется узнать больше о тематическом моделировании, можно послушать выступление Ольги Алиевой 29 февраля.

Феномен русской медиевистики: люди, концепции, институты

Канал об истории русской науки о Средних веках. Личный TG автора канала @Artem_Klyuev

❤8

420 views11:34

RAntiquity

Forwarded from Antibarbari HSE (полина крупинина)

Сегодня в рубрике #sermones_antibarbari поговорили с Ольгой Алиевой, доцентом Школы философии и культурологии НИУ ВШЭ и создателем Antibarbari HSE. Ольга Валерьевна не только активно ведет этот канал и преподает древние языки в Вышке, но и ведет курсы по количественным исследованиям в гуманитарных науках, о чем пишет здесь. Мы попросили Ольгу Валерьевну рассказать о том, как она начала заниматься древними языками и преподавать их, об идее создать клуб Antibarbari, об исследовательских интересах, а также попросили дать советы изучающим древние языки.

🔥13❤6👍4❤‍🔥1

312 views06:25

RAntiquity

✔️ Вот вам новая #задачка, про Фукидида.

✨Профессор Томпкинс решил узнать, кто самый сложносочиненный персонаж в «Истории» Фукидида. Для этого он взял две выборки (на самом деле больше, но у нас песочница), одну с речами Никия, другую с речами Алкивиада. В выборке Никия — 35 предложений, из них 17 имеют как минимум два уровня подчинения. В выборке Алкивиада — 38 предложений, из них лишь 11 усложнены до третьего уровня.

⭐️Необходимо вычислить стандартную ошибку пропорции для двух выборок и сделать выводы о равенстве двух пропорций.

Считаем в R:

p_nic <- 17/35
p_alc <- 11/38
sep_nicias <- sqrt((p_nic*(1-p_nic)) / 35)
sep_alcib <- sqrt((p_alc*(1-p_alc)) / 38)

В 95%-ом доверительном интервале истинные пропорции для Никия и Алкивиада составляют:

nicias_est <- p_nic + sep_nicias * c(-2, 2) 
# 0.316 0.655

alcib_est <- p_alc + sep_alcib * c(-2, 2) 
# 0.142 0.437

Упс, похоже, интервалы пересекаются, перепроверим. Считаем разницу в 95%-м интервале:

diff = p_nic - p_alc
term1 = p_nic*(1-p_nic) / 35
term2 = p_alc*(1-p_alc) / 38
diff + c(-1.96, 1.96) * sqrt(term1 + term2)
# -0.023 0.416

Похоже, что ноль попадает в доверительный интервал, значит не можем отвергнуть нулевую гипотезу о равенстве пропорций.

То же самое быстрее:

prop.test(x = c(17, 11), n = c(35, 38), conf.level = 0.95, correct = F, alternative = "two.sided")

Вернет:

p-value = 0.08496

95 percent confidence interval:
-0.02332456 0.41580576

Результаты теста совпадают с тем, что мы насчитали выше. Это хорошо. Но отвергнуть гипотезу о равенстве пока не получится. Хотя наше филологическое чутье говорит об обратном.

Please open Telegram to view this post

VIEW IN TELEGRAM

💘6👍2

540 viewsedited 11:29

RAntiquity

Сегодня полезная штуковина для тех, кто занимается сравнением переводов, версий документа и т.п. Выравниватель на основе алгоритма Смита — Ватермана.

library(text.alignment)  
a <- "Gallia est omnis divisa in pates tres." 
b <- "Gallia omnis divisa in partes tres"  
smith_waterman(a, b, type = "characters")

Функция вернет оба документа с хэшами на месте расхождений в символах:


Swith Waterman local alignment score: 61 
---------- Document a ---------- 
Gallia est omnis divisa in pa#tes tres 
---------- Document b ---------- 
Gallia ####omnis divisa in partes tres

Если поменять type на words, то захэшируются целые слова.

💡 Если вы, как я, постоянно делаете ошибку в фамилии Foucault, можно быстренько проверить, все ли гласные на месте.

💡Если студент вам сдал слегка отредактированную версию прошлогодней работы, можно вполне в домашних условиях развернуть свой собственный антиплагиат.

#полезное

Please open Telegram to view this post

VIEW IN TELEGRAM

cran.r-project.org

Text Alignment

❤10🤯3

446 viewsedited 05:15

RAntiquity

Forwarded from Vox mediaevistae

Запись доклада в семинаре «Феномен русской медиевистики» опубликована.
В панике вместо «животных, входящих в этот список, и прочих» я изобрела какую-то иную неструктурированную, но не имеющую к Борхесу отношения классификацию. За вычетом этой, чудовищных ошибок, кажется, не сделала.
Слайды можно посмотреть здесь; а ноутбук, помогающий скачивать оглавления и пдф, выложенные на сайте «Средних веков» — здесь. Основной код и данные рассчитываю привести в порядок и выложить в течение месяца.

YouTube

Одиннадцатое заседание научного семинара "Феномен русской медиевистики: люди, концепции, институты"

С докладом "Время, цех и город: количественный диахронный анализ публикаций в "Средних веках" выступила Светлана Александровна Яцык, кандидат исторических наук, главный редактор журнала Vox medii aevi, научный сотрудник Лаборатории медиевистических исследований.…

❤10

365 views07:21

RAntiquity

Газетир (географический справочник) для любителей античности: https://pleiades.stoa.org/

Если не уверены, где находится тот самый Пританей, в котором собирался обедать Сократ. Координаты, карта, связанные названия. #карты

pleiades.stoa.org

Pleiades: A community-built gazetteer and graph of ancient places

Pleiades gives scholars, students, and enthusiasts worldwide the ability to use, create, and share historical geographic information about the ancient world in digital form.

❤11🔥5

338 views05:15

RAntiquity

✔️ Вы уже соскучились по профессору Томпкинсу? Вот вам еще одна #задачка.

🌀Известно, что Фукидид дает словесную характеристику своим героям. Алкивиад, например, очень любит паратаксис и часто начинает свои предложения с καί:

’Καὶ ταῦτα ἡ ἐμὴ νεότης καὶ ἄνοια παρὰ φύσιν δοκοῦσα εἶναι ἐς τὴν Πελοποννησίων δύναμιν λόγοις τε πρέπουσιν ὡμίλησε καὶ ὀργῇ πίστιν παρασχομένη ἔπεισεν. καὶ νῦν μὴ πεφόβησθε αὐτήν, ἀλλ' ἕως ἐγώ τε ἔτι ἀκμάζω μετ' αὐτῆς καὶ ὁ Νικίας εὐτυχὴς δοκεῖ εἶναι, ἀποχρήσασθε τῇ ἑκατέρου ἡμῶν ὠφελίᾳ. καὶ τὸν ἐς τὴν Σικελίαν πλοῦν μὴ μεταγιγνώσκετε ὡς ἐπὶ μεγάλην δύναμιν ἐσόμενον (6.17).

Снова сравним Алкивиада и Никия. У первого 28 предложений из 82 начинаются с καί, у второго — 14 из 73. Мы уже выяснили, как сравниваются пропорции, поэтому считаем быстро, не заглядывая под капот:


prop.test(x = c(28, 14), n = c(82, 73), conf.level = 0.95, correct = F, alternative = "two.sided")

✔️P-value = 0.036, результат значим, разница пропорций составляет от 0.054 до 0.31 с уверенностью 95%. Пока ничего нового: Алкивиад пара~~токсик~~, то есть, простите, -таксик. Новое начинается дальше, когда другой профессор, не выговорим его имя, сравнивает фукидидовских Никия и Алкивиада с платоновскими.

⭐️В речи Алкивиада в «Пире» 21 предложение из 136 начинаются с καί: больше, чем у кого-либо еще в диалоге. В репликах Никия в «Лахете» καί в начале предложения, напротив, очень редок: 3 из 45. Чтобы минимизировать влияние диалогического жанра, профессор С. учитывает только реплики из >2 предложений. Кстати, оба профессора считают предложением то, что оканчивается на точку, колон или знак вопроса.

📖В статье этого нет, а мы посчитали: разница между платоновскими Алкивиадом и Никием не является значимой (p-value = 0.1325). Не хватает данных, неоткуда взять.


prop.test(x = c(21, 3), n = c(136, 45), conf.level = 0.95, correct = F, alternative = "two.sided")

🌀А если сравнить Алкивиада у Платона и Фукидида?


prop.test(x = c(21, 28), n = c(136, 82), conf.level = 0.95, correct = F, alternative = "two.sided")

✔️Интересный результат: платоновский «икает» значимо меньше, чем фукидидовский, хотя и больше других персонажей. Хотя оба автора, Платон и Фукидид, очевидно вопроизводят какую-то узнаваемую черту исторического Алкивиада, делают это статистически по-разному. Это касается и двух Никиев, и снова у платоновского значимо меньше «и» в начале предложения, хотя другие черты его стиля он воспроизводит (но об этом не сейчас).

⭐️Ситуации, когда у нас недостаточная большая выборка, чтобы отвергнуть нулевую гипотезу, не редкость в антиковедении, особенно при работе с фрагментами и отрывками. Как с этим быть, подумаем в другой раз.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤1

322 views02:11

RAntiquity

В 2014 г. группа DH-сколаров создала карту по мотивам знаменитого «каталога кораблей» из второй песни «Илиады». Читать список кораблей с такой визуализацией можно дальше, чем до половины, что уже хорошо, но карта дала и неожиданный бонус. В «беотийской» группе Гомер почему-то пропускает главный город Беотии, Фивы. Геопространственная модель позволила заметить, что все другие беотийские названия словно описывают круг вокруг Фив:

The Boiotian towns define a rough circuit around a central point, namely, the unmentioned city of Thebes in the center of the region; it is as if Homer were standing in in the middle and pointing out toward the other towns like spokes on a wheel.

Подобное «озирание вокруг» свойственно и для другого эпизода, известного как «тейхоскопия», то есть смотр со стены. Такие описания встречаются и в других эпических поэмах, и авторы заключают, что Гомер заимствовал беотийский список из беотийской же устной традиции, в которой герой вполне мог оглядываться вокруг с фиванской стены. Поэтому в списке и нет Фив. #карты

❤‍🔥14❤6🤔3

496 viewsedited 06:02

RAntiquity

Еще немного античной географии. В 2010 г. группа британских исследователей презентовала проект под названием HESTIA (Herodotus Encoded Space-Text-Imaging Archive). Выловив в тексте Геродота все географические названия, они создали пространственную базу данных PostgreSQL, которую затем визулизировали в виде карты.

Среди прочего, исследователи построили и изобразили сеть географических названий, используя в качестве основы их совместную встречаемость в тексте. Оказалось, что в центре таким образом смоделированного мира находится вовсе не Греция, а Египет:

…the territory that has the strongest connections in this basic network culture is Egypt. While surprising, it does make sense on reflection, since for a better part of one book Herodotus uses Egypt as the touchstone against which other cultures, including Persia and his own, Greece, are compared. It is as a tool of comparison, then, that Egypt appears to be the centre of Herodotus’ network picture of the Mediterranean

Объясняется это тем, что Египет у Геродота — универсальное сравнение, пробирный камень для всех историко-культурных обобщений.

👏7❤6🔥3

411 views06:16

About

Blog

Apps

Platform