RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
💻В пасмурный день что может быть лучше data-driven угадайки от aGricolaMZ?

Идея для вашей вечеринки Задача: угадать, в честь кого чаще всего называют библиотеки в России.

Можно просто угадывать. Это очень сложно.

Можно смотреть подсказки. Это очень легко.

А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥184
📈 Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

📚 С лекцией о big data и distant reading в литературоведении выступит доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он расскажет о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

📅 Лекция состоится 27 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥51
Ой, девочки!


library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)


It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
😍135
▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.


С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍1
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
▪️▪️▪️▪️▪️▪️▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️〰️〰️〰️〰️
Как сравнить два средних

〰️〰️〰️〰️〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

Мое решение:тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
В сеть попали кадры с производства.
❤‍🔥208🥰4🍓1
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.

Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.

Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳

Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном не самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.

Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
8👍1
🔊 Сеть (граф) — это универсальная модель описания любой системы, где есть возможность выделить формальные связи между ее составляющими.

🟢 Сетевой анализ в исторической науке — это обычно попытка реконструировать экономические или социальные отношения на основе сохранившихся документов.

🟤В исследованиях художественной литературы методами сетевого анализа может изучаться система персонажей. Также сетевой анализ позволяет производить масштабируемые количественные исследования литературы на материале сотен и даже тысяч текстов и делать некоторые выводы о структурных отличиях жанров/направлений в литературе.

С лекцией о сетевом анализе выступит DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин.

🔗 Занятие пройдет 11 мая 2024 г. на платформе Zoom. Ссылка для подключения. Начало в 13.00 по московскому времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤‍🔥3😍2
RAntiquity
▪️▪️▪️▪️▪️▪️▪️ Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония). 〰️〰️〰️〰️〰️ Как сравнить два средних 〰️〰️〰️〰️〰️ 💡Подсказка: число слов в гекзаметре — дискретная…
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.

1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).

Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).

2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.

Этот тест подтверждает, что true location shift is not equal to 0.

3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.

4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.

Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
Если научить word2vec на корпусе (переводов) Платона, то можно узнать, что философ = душа - тело + мудрость. Так что не налегаем на куличи.
12😁64👏3🫡1
В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:

Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….

Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому

Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.


По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.

Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).

Вот что пишет Савой (который, впрочем, ни разу не библеист):

Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.


По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.

Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).
🔥3
Добавлю к предудущему ⬆️ еще результаты верификации из Савоя. Можно рассматривать это как консенсусную сеть, в которой прерывистая линия означает боее редкое попадание в один кластер.

По мнению исследователя, результат скорее говорит в пользу гипотезы 7 посланий, но у него вызывает вопрос отсутствие всякой связи м-ду Филип и 1-2 Фесс. К тому же гипотеза семи посланий не объясняет связь м-ду 1-2 Фесс. (в число семи включают Филимона).

Надежных выводов на этом не построишь, но как эксперимент интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Интересно также, что 4 послания, которые оставляют гиперкритики вроде Мортона, — самые длинные. Первые два в списке примерно такой же длины, как одна книга Гос-ва (считается, что это примерно свиток).
🔥5
Не уверена, что это нужно еще какой-то заблудшей душе, но я себе запишу, пока не забыла.

Как настроить autograding

1. Установить  gh, после этого сделать gh extension install github/gh-classroom (как описано здесь). Это позволит клонировать все студенческие репозитрии к себе на компьютер.

2. Из них надо забрать файлы с решениями и переместить в какую-то одну папку, например submissions. Это делается циклом.

3. Установить gradeR и настроить тесты testthat. Файл с тестом и нужные датасеты сложить в рабочую директорию.

4. Запустить проверку, указав путь до submissions.


library(gradeR)
submissionDir <- "submissions/"

grades <- calcGrades(submission_dir = submissionDir, your_test_file = "ass_test_file1.R")


Насладиться результатом. Может быть, можно и проще, но я пока не придумала, как.

upd. от хадли нашего викхема про тесты
#gradeR
🤓3👍1
▶️Публикуем пятую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

⭐️ С лекцией о сетевом анализе выступил DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин. Он рассказал о том, как сетевой анализ помогает историкам реконструировать социальные и экономические отношения, а литературоведам — изучать системы персонажей и структурные особенности жанров.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢доцент Школы философии и культурологи Ольга Алиева @rantiquity

Следующая лекция курса состоится 18 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥1🥰1
🔔 В субботу 18 мая создатели курса “Критическое введение в DH” приглашают вас на целых две открытых лекции.

⚪️В 13:00-14:20 состоится лекция доцента Школы философии и культурологии НИУ ВШЭ Ольги Алиевой о стилометрии.

🟢В 15:00-16:00 аспирант Школы лингвистики Егор Сальников расскажет о том, как стилометрические методы применяются для выявления сгенерированного контента.

🔗 Подробные анонсы и ссылки для подключения вы можете найти здесь и здесь.

#criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
93🔥2