RAntiquity

Forwarded from Vox mediaevistae

Мама, я на горьком.

gorky.media

Тематическое моделирование для «Бычьего словаря»

Светлана Яцык — о цифровых методах в медиевистике

🔥8

457 viewsOlga Alieva, 15:31

RAntiquity

Ой, девочки!


library(friends) 
data <- friends::friends  
data %>%    filter(str_detect(text, "You're a shoe")) %>%    pull(text)

It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?

emilhvitfeldt.github.io

The Entire Transcript from Friends in Tidy Format

The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.

😍13❤5

555 viewsOlga Alieva, edited 20:33

RAntiquity

▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только

Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

🔥8❤2👍1

719 viewsOlga Alieva, 15:35

RAntiquity

Forwarded from НКРЯ Национальный корпус русского языка

На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.

🔥9

452 viewsOlga Alieva, 10:16

RAntiquity

▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️

Как сравнить два средних ❔

〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

➖Мое решение:➖

тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

484 viewsOlga Alieva, edited 19:53

RAntiquity

В сеть попали кадры с производства.

❤‍🔥20❤8🥰4🍓1

370 viewsOlga Alieva, 12:26

RAntiquity

Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я ~~опять работаю в выходные~~ сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.

Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.

Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳

Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном ~~не самые интуитивные~~ приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.

Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.

❤8👍1

413 viewsOlga Alieva, edited 18:27

RAntiquity

🔊

Сеть (граф) — это универсальная модель описания любой системы, где есть возможность выделить формальные связи между ее составляющими.

🟢 Сетевой анализ в исторической науке — это обычно попытка реконструировать экономические или социальные отношения на основе сохранившихся документов.

🟤В исследованиях художественной литературы методами сетевого анализа может изучаться система персонажей. Также сетевой анализ позволяет производить масштабируемые количественные исследования литературы на материале сотен и даже тысяч текстов и делать некоторые выводы о структурных отличиях жанров/направлений в литературе.

✨ С лекцией о сетевом анализе выступит DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин.

🔗 Занятие пройдет 11 мая 2024 г. на платформе Zoom. Ссылка для подключения. Начало в 13.00 по московскому времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤‍🔥3😍2

573 viewsOlga Alieva, 10:31

RAntiquity

▪️

▪️ Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония). 〰️

〰️

〰️ Как сравнить два средних ❔

〰️

💡Подсказка: число слов в гекзаметре — дискретная…

Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.

1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).

Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).

2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.

Этот тест подтверждает, что true location shift is not equal to 0.

3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.

4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.

Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🤯2

495 viewsOlga Alieva, edited 05:27

RAntiquity

Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком. Один из них — https://www.ecomparatio.net/ —…

6:46

Media is too big

VIEW IN TELEGRAM

По заявкам читателей отвечаю на вопрос: Урри, где у него кнопка?

🔥4

476 viewsOlga Alieva, 07:32

RAntiquity

Если научить word2vec на корпусе (переводов) Платона, то можно узнать, что философ = душа - тело + мудрость. Так что не налегаем на куличи.

❤12😁6⚡4👏3🫡1

364 viewsOlga Alieva, edited 16:57

RAntiquity

В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:

Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….

Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому

Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.

По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.

Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).

Вот что пишет Савой (который, впрочем, ни разу не библеист):

Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.

По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.

Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).

🔥3

351 viewsOlga Alieva, 05:48

RAntiquity

Добавлю к предудущему ⬆️ еще результаты верификации из Савоя. Можно рассматривать это как консенсусную сеть, в которой прерывистая линия означает боее редкое попадание в один кластер.

По мнению исследователя, результат скорее говорит в пользу гипотезы 7 посланий, но у него вызывает вопрос отсутствие всякой связи м-ду Филип и 1-2 Фесс. К тому же гипотеза семи посланий не объясняет связь м-ду 1-2 Фесс. (в число семи включают Филимона).

Надежных выводов на этом не построишь, но как эксперимент интересно.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

339 viewsOlga Alieva, edited 05:58

RAntiquity

Интересно также, что 4 послания, которые оставляют гиперкритики вроде Мортона, — самые длинные. Первые два в списке примерно такой же длины, как одна книга Гос-ва (считается, что это примерно свиток).

🔥5

344 viewsOlga Alieva, edited 06:07

RAntiquity

Не уверена, что это нужно еще какой-то заблудшей душе, но я себе запишу, пока не забыла.

Как настроить autograding

1. Установить gh, после этого сделать gh extension install github/gh-classroom (как описано здесь). Это позволит клонировать все студенческие репозитрии к себе на компьютер.

2. Из них надо забрать файлы с решениями и переместить в какую-то одну папку, например submissions. Это делается циклом.

3. Установить gradeR и настроить тесты testthat. Файл с тестом и нужные датасеты сложить в рабочую директорию.

4. Запустить проверку, указав путь до submissions.


library(gradeR)
submissionDir <- "submissions/"

grades <- calcGrades(submission_dir = submissionDir,  your_test_file = "ass_test_file1.R")

Насладиться результатом. Может быть, можно и проще, но я пока не придумала, как.

upd. от хадли нашего викхема про тесты
#gradeR

🤓3👍1

415 viewsOlga Alieva, edited 16:52

RAntiquity

▶️Публикуем пятую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

⭐️ С лекцией о сетевом анализе выступил DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин. Он рассказал о том, как сетевой анализ помогает историкам реконструировать социальные и экономические отношения, а литературоведам — изучать системы персонажей и структурные особенности жанров.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢доцент Школы философии и культурологи Ольга Алиева @rantiquity

Следующая лекция курса состоится 18 мая, следите за анонсами.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Д.А.Скоринкин (Университет Потсдама). Сетевой анализ

Пятая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

❤9🔥1🥰1

535 viewsOlga Alieva, edited 20:42

RAntiquity

🔔 В субботу 18 мая создатели курса “Критическое введение в DH” приглашают вас на целых две открытых лекции.

⚪️В 13:00-14:20 состоится лекция доцента Школы философии и культурологии НИУ ВШЭ Ольги Алиевой о стилометрии.

🟢В 15:00-16:00 аспирант Школы лингвистики Егор Сальников расскажет о том, как стилометрические методы применяются для выявления сгенерированного контента.

🔗 Подробные анонсы и ссылки для подключения вы можете найти здесь и здесь.

#criticaldh #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9⚡3🔥2

608 viewsOlga Alieva, 09:44

RAntiquity

Вся драматическая история моих отношений с DH: "А вообще я не знаю, зачем мне нужны эти цифры". Возьму эпиграфом к чему-нибудь.

YouTube

"Кино" - "Уходи"

Видеоряд 1985-87 годов,
Аудио - альбомная версия песни.

😎5🔥1

346 viewsOlga Alieva, 14:11

RAntiquity

Forwarded from Гуманитарии в цифре

Критическое осмысление «цифрового поворота»

В НИУ ВШЭ продолжается курс «Количественные методы в гуманитарных науках: критическое введение». Уверены, что лекции в рамках курса могут быть полезны и интересны многим: не только студентам и исследователям, но и тем, кто только начинает разбираться в том, что же такое Digital humanities и с какими вопросами помогает разобраться гуманитарию новейший цифровой инструментарий. Смотрите сами:

→ «Данные вокруг гуманитария» с Андреем Володиным – о том, зачем цифровые гуманитарии собирают данные и как они смогут помочь понять мир вокруг нас.

→ «Построение ландшафта области знаний» с Георгием Морозом – о нюансах и трудностях исследований ландшафта некоторых предметных областей.

→ «Избранные главы информатики» с Иваном Бибиловым – о подходах и приемах, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными.

→ «Дальнее чтение» в литературоведении и не только» с Алексеем Вдовиным – о принципах, направлениях и открытиях в big data и distant reading.

→ «Сетевой анализ и гуманитарии» с Даниилом Скоринкиным – о методе, который позволяет проводить масштабируемые количественные исследования литературы и делать выводы о структурных отличиях жанров/направлений.

Участников курса ждут еще несколько интересных тем. Уже в эту субботу, 18 мая, состоятся сразу две открытые лекции: «Стилометрия» с Ольгой Алиевой и «Большие языковые модели» с Егором Сальниковым. Следите за анонсами на сайте.

#criticaldh #курсы #данные #людиdh #сетевойанализ #distantreading #bigdata

YouTube

А.Ю. Володин (МГУ, СФУ). Данные вокруг гуманитария: найти, собрать, исследовать!

Первая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

🔥6❤5👍3

341 viewsOlga Alieva, 08:55

RAntiquity

Forwarded from Vox mediaevistae

С сайта Бодлианской библиотеки теперь можно скачивать рукописи в pdf.

Roger Pearse

Bodleian Library manuscripts can now be downloaded as PDFs!!

I was looking at the online copy of the Bodleian manuscript of Plato, the "Clarkianus" 39 (here), when I discovered something wonderful. We can now download the whole thing as a PDF!

This is just so amazing! It also means that any cyber-attack can only…

❤15