RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
544 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
В сеть попали кадры с производства.
❤‍🔥208🥰4🍓1
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.

Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.

Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳

Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном не самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.

Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
8👍1
🔊 Сеть (граф) — это универсальная модель описания любой системы, где есть возможность выделить формальные связи между ее составляющими.

🟢 Сетевой анализ в исторической науке — это обычно попытка реконструировать экономические или социальные отношения на основе сохранившихся документов.

🟤В исследованиях художественной литературы методами сетевого анализа может изучаться система персонажей. Также сетевой анализ позволяет производить масштабируемые количественные исследования литературы на материале сотен и даже тысяч текстов и делать некоторые выводы о структурных отличиях жанров/направлений в литературе.

С лекцией о сетевом анализе выступит DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин.

🔗 Занятие пройдет 11 мая 2024 г. на платформе Zoom. Ссылка для подключения. Начало в 13.00 по московскому времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤‍🔥3😍2
RAntiquity
▪️▪️▪️▪️▪️▪️▪️ Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония). 〰️〰️〰️〰️〰️ Как сравнить два средних 〰️〰️〰️〰️〰️ 💡Подсказка: число слов в гекзаметре — дискретная…
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.

1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).

Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).

2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.

Этот тест подтверждает, что true location shift is not equal to 0.

3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.

4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.

Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
Если научить word2vec на корпусе (переводов) Платона, то можно узнать, что философ = душа - тело + мудрость. Так что не налегаем на куличи.
12😁64👏3🫡1
В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:

Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….

Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому

Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.


По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.

Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).

Вот что пишет Савой (который, впрочем, ни разу не библеист):

Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.


По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.

Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).
🔥3
Добавлю к предудущему ⬆️ еще результаты верификации из Савоя. Можно рассматривать это как консенсусную сеть, в которой прерывистая линия означает боее редкое попадание в один кластер.

По мнению исследователя, результат скорее говорит в пользу гипотезы 7 посланий, но у него вызывает вопрос отсутствие всякой связи м-ду Филип и 1-2 Фесс. К тому же гипотеза семи посланий не объясняет связь м-ду 1-2 Фесс. (в число семи включают Филимона).

Надежных выводов на этом не построишь, но как эксперимент интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Интересно также, что 4 послания, которые оставляют гиперкритики вроде Мортона, — самые длинные. Первые два в списке примерно такой же длины, как одна книга Гос-ва (считается, что это примерно свиток).
🔥5
Не уверена, что это нужно еще какой-то заблудшей душе, но я себе запишу, пока не забыла.

Как настроить autograding

1. Установить  gh, после этого сделать gh extension install github/gh-classroom (как описано здесь). Это позволит клонировать все студенческие репозитрии к себе на компьютер.

2. Из них надо забрать файлы с решениями и переместить в какую-то одну папку, например submissions. Это делается циклом.

3. Установить gradeR и настроить тесты testthat. Файл с тестом и нужные датасеты сложить в рабочую директорию.

4. Запустить проверку, указав путь до submissions.


library(gradeR)
submissionDir <- "submissions/"

grades <- calcGrades(submission_dir = submissionDir, your_test_file = "ass_test_file1.R")


Насладиться результатом. Может быть, можно и проще, но я пока не придумала, как.

upd. от хадли нашего викхема про тесты
#gradeR
🤓3👍1
▶️Публикуем пятую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

⭐️ С лекцией о сетевом анализе выступил DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин. Он рассказал о том, как сетевой анализ помогает историкам реконструировать социальные и экономические отношения, а литературоведам — изучать системы персонажей и структурные особенности жанров.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢доцент Школы философии и культурологи Ольга Алиева @rantiquity

Следующая лекция курса состоится 18 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥1🥰1
🔔 В субботу 18 мая создатели курса “Критическое введение в DH” приглашают вас на целых две открытых лекции.

⚪️В 13:00-14:20 состоится лекция доцента Школы философии и культурологии НИУ ВШЭ Ольги Алиевой о стилометрии.

🟢В 15:00-16:00 аспирант Школы лингвистики Егор Сальников расскажет о том, как стилометрические методы применяются для выявления сгенерированного контента.

🔗 Подробные анонсы и ссылки для подключения вы можете найти здесь и здесь.

#criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
93🔥2
Вся драматическая история моих отношений с DH: "А вообще я не знаю, зачем мне нужны эти цифры". Возьму эпиграфом к чему-нибудь.
😎5🔥1
Критическое осмысление «цифрового поворота»

В НИУ ВШЭ продолжается курс «Количественные методы в гуманитарных науках: критическое введение». Уверены, что лекции в рамках курса могут быть полезны и интересны многим: не только студентам и исследователям, но и тем, кто только начинает разбираться в том, что же такое Digital humanities и с какими вопросами помогает разобраться гуманитарию новейший цифровой инструментарий. Смотрите сами:

«Данные вокруг гуманитария» с Андреем Володиным – о том, зачем цифровые гуманитарии собирают данные и как они смогут помочь понять мир вокруг нас.

«Построение ландшафта области знаний» с Георгием Морозом – о нюансах и трудностях исследований ландшафта некоторых предметных областей.

«Избранные главы информатики» с Иваном Бибиловым – о подходах и приемах, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными.

«Дальнее чтение» в литературоведении и не только» с Алексеем Вдовиным – о принципах, направлениях и открытиях в  big data и distant reading.

«Сетевой анализ и гуманитарии» с Даниилом Скоринкиным – о методе, который позволяет проводить масштабируемые количественные исследования литературы и делать выводы о структурных отличиях жанров/направлений.

Участников курса ждут еще несколько интересных тем. Уже в эту субботу, 18 мая, состоятся сразу две открытые лекции: «Стилометрия» с Ольгой Алиевой и «Большие языковые модели» с Егором Сальниковым. Следите за анонсами на сайте.

#criticaldh #курсы #данные #людиdh #сетевойанализ #distantreading #bigdata
🔥65👍3
What I think I do:
ignotas animum dimittit in artes

What my colleagues think I do:
hortaturque sequi damnosasque erudit artes

What my chef thinks I do:
lusuque suo mirabile patris impediebat opus

What my students think I do:
teneram prolem produxit in aera nido

What I really do:
captat harundine pisces
😁13
Открыт прием заявок на летнюю школу “Душа и процессор”, до 25 мая студенты ОП “Философия” и ОП “Культурология” могут подать заявки. Вся информация по ссылке, а от себя добавлю, что мы с Георгием Морозом планируем для участников мастер-класс по работе в R (2 июня). Тематический.
🔥8
🌸 Публикуем шестую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

С лекцией о стилометрии выступила доцент Школы философии и культурологии НИУ ВШЭ Ольга Алиева @rantiquity. Она рассказала о том, как разивались методы стилометрического исследования — от ручных подсчетов в XIX в. до нейросетей в наши дни.

⭐️ Ссылка на презентацию к лекции.

Встречу провел доцент Школы лингвистики НИУ ВШЭ, руководитель магистерской программы «Цифровые методы в гуманитарных науках» Борис Орехов.

Следующая лекция курса состоится 25 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
11
⭐️ Публикуем седьмую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

С лекцией о больших языковых моделях выступил аспирант Школы лингвистики НИУ ВШЭ Егор Сальников. В лекции были рассмотрены история развития языковых моделей (от трансформеров до современных LLM), их особенности и подходы к применению, а также некоторые из существующих методов детекции сгенерированных текстов, в том числе с помощью стилометрической дельты.

🌺Встречу провела доцент Школы лингвистики НИУ ВШЭ Анастасия Бонч-Осмоловская.

Следующая лекция курса состоится 25 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Цифровой Чехов: зачем и как именно создается семантическое издание произведений Антона Павловича

Уже в эту среду, 22 мая, приглашаем вас на заседание онлайн-семинара «Цифровая среда» с профессором кафедры лингвистики и профессиональной коммуникации ЮФУ Еленой Севериной.

Chekhov Digital – семантическое издание Полного собрания сочинений и писем А. П. Чехова, которое разрабатывается совместно Южным федеральным университетом и Центром гуманитарных исследований НИУ ВШЭ.

На семинаре Елена Михайловна расскажет о
→ процессе трансформации литературных произведений в структурированные машиночитаемые данные
→ методах и инструментах, которые реализуются в проекте Chekhov Digital
→ перспективах использования семантических данных для исследовательских и образовательных целей и планах по расширению проекта.

В роли дискутанта выступит доцент Школы лингвистики НИУ ВШЭ Анастасия Бонч-Осмоловская.

Ведущий семинара – доцент кафедры исторической информатики МГУ, руководитель стратегического проекта ИЦГИ (DHRI) Андрей Володин.

🟢 Начало: 15:00 (мск) / 19:00 (крск)

❗️Напоминаем о том, что на мероприятие нужно предварительно зарегистрироваться.

🟢 Посмотреть записи предыдущих выпусков «Цифровой среды».

#цифроваясреда #литература #семантика #смотреть #слушать
Please open Telegram to view this post
VIEW IN TELEGRAM
5