RAntiquity

⚡ 6 апреля 2024 г. для студентов гуманитарного факультета НИУ ВШЭ стартует новый факультатив под названием «Количественные методы в гуманитарных науках: критическое введение». ✨ Среди авторов этого курса — руководитель образовательной программы «Цифровые…

⚡ Неужели Вселенная состоит из потоков данных и действительно ценность каждого определяется вкладом в обработку данных? Зачем цифровые гуманитарии собирают данные о прошлом, настоящем и будущем? И как эти данные смогут помочь понять мир вокруг нас?

⭐ Обо всем этом в первой лекции курса “Количественные методы в гуманитарных науках” расскажет Андрей Володин — кандидат исторических наук, доцент кафедры исторической информатики исторического факультета МГУ, руководитель Института цифровых гуманитарных исследований СФУ.

🗓 Лекция состоится 6 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве (ссылка). #criticaldh

🔥10❤3👍3

688 views13:17

RAntiquity

Продолжаю разбираться с филогенетическими методами.

Представьте, что у вас есть такая нехитрая сеть, как на рис. 1. Расстояние между двумя узлами определяется как длина кратчайшего пути между ними. Поэтому несложно посчитать матрицу расстояний на основе сети. Я это сделала на листочке, а результат сохранила в R, он на второй картинке. Можете перепроверить 😊


mx <- matrix(data = c(0, 0.07, 0.12, 0.12, 0.07, 0, 0.13, 0.09, 0.12, 0.13, 0, 0.06, 0.12, 0.09, 0.06, 0), nrow = 4)
colnames(mx) <- c("a", "b", "c", "d")
rownames(mx) <- colnames(mx)

dm <- as.dist(mx)

Но верно и обратное! От матрицы расстояний можно перейти к длине ребер. Для нашей простой матрицы длина горизонтальных ребер, например, считается по формуле:

1/2 (max(D[a,d]+D[b,c], D[a,c]+D[b,d])-D[a,b] – D[d,c])

1/2 (max(0.12+0.13, 0.12+0.09) – 0.07 – 0.06) = 0.06

Аналогичным образом считается длина вертикальных ребер. Формула сработает максимум для четырех таксонов, для более сложных структур понадобится метод наименьших квадратов, но пока смотрим простой пример.

Чтобы не мучиться с ручными подсчетами, берем функцию neighborNet из пакета phangorn (за наводку спасибо agricolamz).


library(phangorn)
nnet <- neighborNet(dm)

plot(nnet, show.edge.label = T, edge.label = nnet$edge.length, edge.color = "grey", col.edge.label = "navy")

Если аргументу edge.label оставить значение по умолчанию, то на картинке увидите номер сплита (на рис. 3 красным). У каждого сплита есть свой вес (рассчитанный методом наименьших квадратов). Его можно достать из объекта nnet:


w = attr(nnet$splits, "weights")

Это можно понять так: чтобы попасть из пунка b в пункт d, нужно сложить веса для сплитов 4, 5 и 1:


w[4] + w[5] + w[1]

Это вернет нам 0.09. Сверяемся с матрицей расстояний — все верно! #филогенетика

👍5❤1🤯1

339 views15:12

RAntiquity

Продолжаю разбираться с филогенетическими методами. Представьте, что у вас есть такая нехитрая сеть, как на рис. 1. Расстояние между двумя узлами определяется как длина кратчайшего пути между ними. Поэтому несложно посчитать матрицу расстояний на основе…

Не думаю, что этот пост сделает меня популярнее в кругу творческой молодежи, но, потратив несколько дней на чтение технической документации, должна сказать. Снова об алгоритме NeighborNet.

В целом, это нечто среднее между идеальной иерархией дерева (в жизни такое редко встречается) и безнадежным лабиринтом сети. Если вам непонятно, что такое безнадежный лабиринт (вдруг вам не приходилось вести долгую безрезультатную переписку по корпоративной почте?), то попробуйте запустить такой код:


library(phangorn)
plot(as.networx(allCircularSplits(12)))

Вы увидите ~~паутинку~~ круговую сеть для 12 таксонов. Выглядит мило, в но жизни с этим лучше не сталкиваться. В такой сети представлены все возможные разбиения, и у всех разбиений равный вес.

NeighborNet работает в два шага:

- Сначала строит круговую раскладку для таксонов таким образом, чтобы минимизировать расстояния между парами кластеров, каждый из которых включает в себя 1 или 2 таксона.

- Потом считает веса для сплитов. На этом этапе некоторые ребра удаляются, а другие вытягиваются сообразно весам. Чем длиннее ребро, тем больше вес сплита.

Сплит — это разбиение совокупности таксонов на два непустых множества. Если вернуться к объекту nnet из вчерашнего кода, можно посмотреть, какие сплиты возможны для 4 таксонов из вчерашнего примера:


as.matrix(nnet$splits)

Первые четыре сплита довольно заурядны: мы просто откусываем по одному углу от нашего прямоугольника. Пятый сплит делит прямоугольник поперек, а шестой — вдоль.

Дальше алгоритм для каждого сплита считает, какие пары таксонов оказались с разных сторон сплита. Получается матрица вроде той, что представлена на картинке. В ней ряды соответствуют парам таксонов, ab, bc и т.д., а столбцы — сплитам. Единица означает, что пара оказалась «разбита» в этом сплите. Чем больше единиц в сплите, тем больше его совокупный вес. #филогенетика

🔥6🤯3👍2

290 viewsedited 02:44

RAntiquity

Дальше самое интересное. Даны матрица сплитов А как на картинке выше и исходная матрица расстояний D, ее мы тоже в прошлый раз видели.

Необходимо рассчитать длину ребра таким образом, чтобы кратчайшие пути между таксонами были максимально приближены к исходной матрице расстояний.

То есть нам надо найти такой вектор b, при умножении на который матрица A даст вектор филетических расстояний (phyletic distances) p, максимально похожий на исходную матрицу расстояний D. Иными словами, нам надо решить уравнение p = Ab таким образом, чтобы sum (D-p)^2 было минимальным.

Это делается по формуле на картинке. Немного упрощая, под капотом функция считает так (dm из вчерашнего кода):

y <- dm[lower.tri(dm)] #нижний треугольник матрицы расстояний D

# матрица сплитов А как на картинке
A = matrix(data = c(1,1,1,0,0,0, 1,0,0,1,1,0, 0,1,0,1,0,1, 0,0,1,0,1,1,  0,1,1,1,1,0, 1,0,1,1,0,1), nrow = 6)

# метод наименьших квадратов
# A умножаем на A транспонированную
Dmat <- crossprod(A) # Dmat == t(A) %*% A 

# A умножаем на у
dvec <- crossprod(A, y) 

# решаем систему уравнений 
beta <- solve(Dmat, dvec, tol = -1)

Если распечатать beta, то мы увидим знакомые по вчерашней картинке значения длины ребер: 0.03, 0.02, 0.03, 0.01, 0.06, 0.02.

Теперь перепроверим: произведение A и b должно дать нам (примерно) исходную матрицу расстояний D.

dplyr::near(as.vector(A %*% beta), y)

Ура! Все получилось. Наибольшее значение beta (0.6) соответствует пятому сплиту, который делил наш прямоугольник поперек.

Как уже говорилось, для 4-х таксонов соответствие может быть полным. Это легко проверить, достав атрибут RSS (Residual Sum of Squares, остаточная сумма квадратов) из объекта nnet, который мы создали.

round(attr(nnet$splits, "RSS"), 3)

#филогенетика

🔥7👍2

276 viewsedited 03:29

RAntiquity

Forwarded from Цифровой филолог (Даня Скоринкин)

Modeling Narrative Revelation (Andrew Piper, Hao Xu, Eric D. Kolaczyk, 2023)

Любопытная работа из области компьютерной нарратологии с попыткой подсчитать скорость “раскрытия информации” (revelation) в художественных и нехудожественных текстах.

🕰 Авторы статьи начинают с очевидного наблюдения: время в книжном нарративе может сжиматься и удлинняться по воле автора. Вот в одной строчке прошел век, а вот на следующих десяти страницах — минута. Писатель может ускорять и замедлять развитие событий, а еще их детализацию и скорость понимания читателем всех обстоятельств происходящего. Скажем, в детективе гораздо больше всего становится понятно читателю в самом конце, а время в этом самом конце обычно быстро-быстро прокручивается вспять, хотя до этого еле-еле текло по ходу расследования…

📈Все это делает нелинейной и скорость narrative revelation — раскрытия информации читателю. Авторы статьи сделали попытку смоделировать этот самый revelation. Для измерения того, насколько каждый следующий фрагмент текста “нов” (и соответственно сколько новой “информации” он раскрывает читателю) они использовали расстояние Кульбака — Лейблера. Это такая мера близости двух вероятностных распределений, восходящая к старой доброй шенноновской энтропии. Два распределения берутся из двух последовательных фрагментов текста (текущий и предыдущий) длиной в 1000 слов каждый, вероятности — частотности слов. И так попарно перебираем весь текст с шагом в 1000 слов, смотрим, где происходят резкие изменения… Как видите, не rocket science, но авторы статьи считают, что это позволяет ответить на вопрос (цитата):

Given what has come immediately before, how surprising is any new passage?

📚 Исследование проводили на корпусе из 2700 современных (2001–2021) английских книг 12 разныж жанров (датасет CONLIT). Впрочем, “жанры” эти как обычно напоминают Борхесову классификацию:

- Biography
- Bestseller
- History
- Memoir
- Middle school
- Assorted non-fiction
- Mystery
- New York Times reviewed
- Prizelists
- Romance
- Science-Fiction
- Young Adult

мда ¯\_(ツ)_/¯…но по крайней мере всё это удобно делится на Fiction и Non-fiction🙂

🍰Что в итоге удалось найти?

Во-первых, что среднее “раскрытие информации” (revelation) гораздо выше в non-fiction, чем в fiction. С одной стороны, это “тривиальный” результат: от non-fiction никто не ждет интриг, саспенса и загадок, а наоборот ждут максимальной информативноcти с первых страниц. С другой — какой-никакой sanity check, что метод м.б. работает.

Во-вторых, что в fiction гораздо больше новой информации раскрывают книги “престижные” (получатели премий), а бестселлеры — меньше. Авторы интерпретируют это таким образом, что “престижные” книги более сложны и готовы вываливать на читателя больше информации. Но можно и предположить, что у них меньше потребности скрывать и держать интригу, удерживая читателя дешевыми трюками и саспенсом.

В-третьих, книги для детей и молодежи отличаются не только низким средним раскрытием информации, но и самой линейной динамикой “раскрытия информации” по ходу действия: в отличие от других жанров, в них не происходит резкого роста “раскрытия” ближе к концу.

🤔 Конечно, способ моделирования/операционализации “revelation”-а в статье довольно механистический и вызывает много вопросов. Но сам заход на Modeling Narrative Revelation кажется достойным внимания. Думаю, на эту тему будут новые заходы с новым инструментарием 🔬👩‍🔬🧑‍🔬

Ссылка на статью

👍6

262 views15:55

RAntiquity

Кое-кто может усомниться, что филогенетические методы, о которых я в последнее время рассказываю (консенсусные сети, консенсусные деревья и neighborNet) сколько-нибудь полезны при изучении текстов. Мы же не думаем, что Аристотель произошел от Платона таким же образом, как homo sapiens от homo erectus (хотя некоторые доксографы, кажется, очень близки к такому пониманию).

Не совсем так. Как утверждают умные люди, филограмма, полученная дистанционными методами, не отражает эволюционный процесс, а показывает степень дивергенции таксонов. (Запишите, чтобы не забыть).

Это значит, что модель NeighborNet не делает никаких допущений о происхождении, однако в каком-то смысле она вполне способна показывать то, что называют «конфликтующими сигналами». В биологии это рекомбинация, гибридизация и разные там генные конверсии, ну а у нас — жанровые и диалектные особенности, отношения подражания, заимствования и все то, что способно влиять на результат классификации текстов, помимо авторства.

Вот что у меня получилось на тренировочном древнегреческом корпусе. Это продолжение большого эксперимента, о котором писали коллеги из «Системного блока». Алгоритму NeighborNet скормлена матрица расстояния, полученная на основе 400 mfw и косинусного сходства (т.н. Вюрцбургской дельты).

Пока просто картинка, чуть позже подробнее расскажу, как это интерпретировать. #филогенетика

❤7🔥3👏1

341 views02:52

RAntiquity

🔍 Гарольд Лав пишет, что Эндрю Мортон в 1993 г. пришел на британское телевидение, чтобы публично испытать свои стилометрические методы, и опозорился. Выходных данных не дает. Облазила весь архив, ничего не нашла. Вдруг кто знает, о чем речь?

(Например, вы смотрели в 1993 г. британское телевидение и случайно увидели, может же такое быть с вероятностью 1e-31?)

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5😴1

338 views14:42

RAntiquity

But the technique and Morton's most embarrassing failure came in 1993 when he was challenged on live British television to attribute texts that he had never seen. The result was disastrous: despite his impressive statistics and his fancy computer graphics, Morton could not distinguish between the writings of a convicted felon and the Chief Justice of England (отсюда)

🤔2😁1

318 viewsedited 14:59

RAntiquity

В комментариях к предыдущему посту Соня раскопала интереснейшую историю взлета и падения Эндрю Мортона, к которой добавлю лишь несколько слов.

Судебная экспертиза действительно была для него одним из важнейших направлений работы. Тот же Гарольд Лав пишет, что Мортон изучал показания, данными якобы самими заключенными, и продемонстрировал (используя свои сомнительные методы), что многие из них были сфабрикованы полицией.

О своем опыте работы в этой сфере сам Мортон рассказывает в Literary Detection 1978 г., причем начинает ни много ни мало с самого Бертильона, его успехов и того, как он сопротивлялся методу дактилоскопии.

When he died in 1914 his place in history was secure but his personal feelings were of failure.

Похоже, что собственные поиски Мортона в значительной мере вдохновлялись подобными примерами именно из области криминалистики.

Г. Лав упрекает его в том, что он получал фантастические результаты, перемножая вероятности там, где их надо было складывать. Но, кажется, основная трудность не в том, складывать или умножать.

Для Мортона физическая обособленность автора — гарантия его литературной обособленности. Если человек обособлен и уникален, то как-нибудь — с помощью бертильонажа, дактилоскопии или сканирования сетчатки — мы эту уникальность можем зафиксировать.

Но кто сказал, что наши языковые личности уникальны? Чтение курсовых, родительских чатов и даже научных журналов убеждает меня в обратном. Язык публичен, как куски кода на SO, и все мы собираем свои высказывания из обрывков уже доступных скриптов.

upd. автор умер, но мы продолжаем его измерять 💀

На фото: текущие скрипты и личный маскот (сделанный детьми по мотивам моей любимой компьютерной игры)

🔥5❤‍🔥1👍1🥰1

308 viewsedited 15:39

RAntiquity

Продолжая историю преподобного Мортона, упомяну о его (написанной в соавторстве) книге It’s Greek to the Computer (1971 г.). Несколько глав там посвящены Платону.

Авторы приходят к удивительным выводам: первые 300 предложений «Тимея», весь «Критий», две книги «Законов» (5 и 6) и седьмое письмо отличаются от платоновского стиля и написаны или отредактированы, скорее всего племянником Платона Спевсиппом.

Этот вывод был основан на нескольких тестах, среди них καί-тест и δέ-тест, оценивающие долю предложений с этими частицами в начале. От Спевсиппа у нас есть всего одно (спорного авторства) письмо Филиппу — на этом были основаны все сравнения.

Книга не лишена интересных наблюдений (в частности, о характере платоновской имитации стиля Лисия), но платоноведы ее подчеркнуто проигнорировали: на google scholar’е всего 27 цитирований за 53 года, главным образом в обзорных статьях по истории количественных методов.

А письмо Спевсиппа надо будет пересчитать, да. О результатах доложу.

🔥8❤4🙏4👍1

314 viewsOlga Alieva, edited 16:42

RAntiquity

В статье “Untangling Our Past: Languages, Trees, Splits and Networks” создатели алгоритма NeighborNet объясняют, как правильно интерпретировать такой граф на примере дерева германских языков.

Конфликтующие сигналы передаются за счет “ретикулярной структуры” (квадратиков, проще говоря). Там, где конфликта нет, мы видим дерево.

Каждый сплит представлен несколькими параллельными линиями, и если эти параллели удалить, то граф распадется на два. Чем длиннее ребро, тем “весомее” сплит.

На графе видно, что креольский язык сранан-тонго обладает сходством и с английским, и с нидерландским (граф можно разрезать по зеленым линиям двояко).

Более слабый конфликтующий сигнал прослеживается между немецким, нидерландским и фламандским, с одной стороны, и пенсильванским немецким, с другой (синий разрез).

Теперь можно вернуться к картинке с древнегреческими авторами и посмотреть внимательнее, какие группы там выделяются и где больше “конфликтов”.

(Но мне надо готовиться к паре, так что это чуть позже). #филогенетика

❤5🔥5👍3

310 viewsOlga Alieva, 07:20

RAntiquity

Forwarded from DH Center ITMO University

Программа конференции

📎

15–17 апреля мы проводим конференцию «Гуманитарные проблемы актуальных наук: цифровая дисциплина и проект»

До нашей встречи в Петербурге и в онлайне — чуть больше недели, и мы рады поделиться с вами программой этих трёх дней.

На конференции будут не только классические форматы в духе докладов, дискуссий и круглых столов, но и серия специальных мероприятий, которые мы подготовили с нашими коллегами: секция о сохранении цифрового наследия вместе с ПАНДАНом, встречи о чтении гипертекстов и тексте в интерфейсе вместе с Пушкиным <цифровым>, лекции и воркшопы от приглашённых спикеров и, конечно, вечеринки открытия и закрытия.

⚡️ Полная программа — на сайте. Актуальное расписание и параллельные секции — в этом документе.

Там же вы найдёте ссылки для регистрации в качестве слушателей. Важно — если вы планируете прийти на конференцию на все три дня — зарегистрироваться нужно на каждый из них.

До встречи в середине апреля!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥1

358 viewsOlga Alieva, 14:01

RAntiquity

Продолжая историю преподобного Мортона, упомяну о его (написанной в соавторстве) книге It’s Greek to the Computer (1971 г.). Несколько глав там посвящены Платону. Авторы приходят к удивительным выводам: первые 300 предложений «Тимея», весь «Критий», две…

Как и обещала, докладываю о результатах. В общем, все спокойно, живем. Это не Спевсипп написал половину платоновского корпуса. Скорее он творил под именем Исократа 😂

👍8🔥5😁3🦄1

367 viewsOlga Alieva, 18:18

RAntiquity

This media is not supported in your browser

VIEW IN TELEGRAM

оля и #стилометрия

😁14❤4🥰2

363 viewsOlga Alieva, 18:21

RAntiquity

Сделаю zoom in, чтобы было лучше видно разрезы.

1) Красным перерезан пенек, на котором сидят диалоги и близкая к ним по стилистике диатриба: Лукиан, Эпиктет, Платон, сократические диалоги Ксенофонта.

2) Зеленым подрублен философский пенек, к которому почему-то примкнул Гален с “Естественными способностями”. Несократический Ксенофонт и исторический Плутарх сюда не входят, он расположились ближе к историкам.

3) Желтый срез хорошо показывает уровень, на котором авторский сигнал Ксенофонта перекрывает жанровый — но сюда же прилипает Аристид с одной из “Священных речей”, в которой подробно рассказывает, как у него болел живот и поэтому он не мылся. Почему так, сказать пока не могу. Но видно, что он особняком ото всех со своими болячками.

Матрицы смешений на основе тех же данных в целом подтверждают такую картину.

Там, где у автора есть своя ветка — смешений в моих экспериментах было мало, но они возрастали там, где на графе видно перепонки: например, между Аристотелем и Плотином.

👍10❤1

333 viewsOlga Alieva, edited 06:11

RAntiquity

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Пререквизит к курсу по векторной семантике / количественной стилистике / you name it. Кто знает правильный ответ, ставьте 🐳 Кто хочет узнать решение, ставьте 🔥

upd. кажется, с моей подписью получилось несмешно, а я смеюсь второй день, ну простите

🐳13🔥5🤣3🌚1

337 viewsOlga Alieva, edited 11:43

RAntiquity

Forwarded from Гуманитарии в цифре

Зачем цифровые гуманитарии собирают данные о прошлом, настоящем и будущем? Как эти данные смогут помочь понять мир вокруг нас?

Напоминаем о том, что уже сегодня в 13:00 по Москве/ 17:00 по Красноярску можно будет присоединиться к первой лекции курса НИУ ВШЭ «Количественные методы в гуманитарных науках: критическое введение». Доцент МГУ, руководитель Института цифровых гуманитарных исследований СФУ Андрей Володин расскажет о данных, датаизме и о том, как это все осмыслить современному гуманитарию.

→ Подключиться

Иллюстрация: Kandinsky 3.0 (промпт: data around us)

#criticaldh #курсы

✍5❤4🔥1

347 viewsOlga Alieva, 06:03

RAntiquity

Публикуем первую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ).

Лекцию о данных в гуманитарных науках прочел к.и.н., доцент кафедры исторической информатики исторического факультета МГУ, руководитель Института цифровых гуманитарных исследований СФУ Андрей Юрьевич Володин.

Встречу провели руководитель магистерской программы НИУ ВШЭ "Цифровые методы в гуманитарных науках" Борис Орехов и доцент Школы философии и культурологии НИУ ВШЭ Ольга Алиева @rantiquity.

В ближайшее время поделимся анонсом следующей лекции, оставайтесь с нами.

#criticaldh #курсы

YouTube

А.Ю. Володин (МГУ, СФУ). Данные вокруг гуманитария: найти, собрать, исследовать!

Первая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

❤11🔥4

2.07K viewsOlga Alieva, 15:02

RAntiquity

📈

Публикаций в мире становится все больше, скорость их появления только растет, а уследить за новыми работами почти невозможно. В результате очень сложно представлять, как устроена предметная область в целом. Ответом на эти вызовы стали исследования ландшафта некоторой предметной области, авторы которых пытаются выявить структуру научной области или просто некоторого собрания текстов.

🔖 В своей лекции заведующий Международной лабораторией языковой конвергении, доцент Школы лингвистики НИУ ВШЭ Георгий Мороз рассмотрит некоторые исследования в этой области. Он также расскажет о том, с каким трудностями столкнулся при создании ландшафта лингвистики.

🔔 Лекция состоится 13 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5👍3

513 viewsOlga Alieva, 05:32

About

Blog

Apps

Platform