RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
⚙️ IT велико и разнообразно. В третьей лекции курса “Количественные методы в гуманитарных науках” посмотреть с высоты на ландшафт технических инструментов приглашает Иван Бибилов, со-руководитель программы прикладного анализа данных (ПАНДАН), директор Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб.

🎯 В лекции будут рассмотрены подходы и приемы, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными. Попытаемся обсудить их недостатки и достоинства, открыть с новой стороны известные программы, перенять опыт других областей. Ну и конечно, обсудим типичные ошибки и трудности в подходе «а давайте все начнем программировать».

🔗 Лекция состоится 20 апреля 2024 г. онлайн на платформе Zoom. Время и ссылка для подключения доступны на сайте курса. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥1
📎 По просьбе читателей решила сделать подборку важнейших греко-латинских датасетов.

1️⃣ Perseus: Canonical-greekLit и Perseus: Canonical-latinLit. Два репозитория на GitHub с важнейшими классическими текстами на греческом и латинском языке, для многих также есть английские переводы. Более или менее это соответствует той части TLG / PHI, которая доступна без подписки. Сами тексты в репозиториях находятся в папке data под числовыми кодами, значение которых надо смотреть в Perseus Catalogue.

2️⃣ Diorisis Ancient Greek corpus. Датасет доступен на Figshare. Это аннотированный корпус, т.е. для всех слов там есть лемма (начальная форма) и морфологическое описание, достаточно точное. В основе лежат данные из Perseus Canonical Greek Lit, цифровой библиотеки “The Little Sailing”, а также Bibliotheca Augustana. У корпуса есть особенность: лемма хранится в юникоде, а словоформа — в бетакоде (что легко исправить). Из достоинств, по сравнению с Perseus, единообразное оформление xml для всех текстов. Это значит, с одной стороны, что важная для некоторых жанров информация (например, о конце стиха у Гомера) может быть недоступна. С другой стороны — любое количество текстов достаются одним циклом. Всего корпус содержит 820 текстов от Гомера до V в. н.э. и более 10 млн слов.

3️⃣ Open Greek and Latin Project. Это целое семейство репозиториев с текстами, которые не попали в Perseus. Поэтому здесь вы не найдете, например, Фукидида или Новый Завет. Но зато First1KGreek Project содержит сочинения многих Отцов Церкви, Филона Александрийского, Галена и других — всего 25,5 млн слов. Латинские Отцы хранятся в Corpus Scriptorum Ecclesiasticorum Latinorum (CSEL), у которого тоже свой репозиторий на GitHub.

4️⃣ Corpus Corporum: repositorium operum latinorum apud universitatem Turicensem. Потрясающий по масштабам метарепозиторий, в котором найдутся латинские тексты от античности до Neolatinitas (каталог), включая некоторые латинские диссертации XIX в. Можно читать онлайн или скачивать xml.

🎤 Большая часть античных текстов хранится в формате xml, поэтому работа с такими файлами, на мой взгляд, должна входить в число основных цифровых компетенций для антиковедов. Подробнее о парсинге xml см. мое видео.
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍4🥰1🍓1💘1
Бретт Ланц, 2019:

Даже плодовая муха с ее 100 000 нейронов намного превосходит современную нейронную сеть.


Нейронная сеть, 2024:

А у нас с вами по-прежнему 85 млрд, и те расходуются на соцсети. Доброго утречка.
😢13
🗣С историком Ольгой Метель в подкасте “История истории” говорим о изучении и применении цифровых методов. А еще рассказываю про нашу замечательную магистратуру, где мы вас очень ждем.

"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍4💘4🤗1
▶️ Публикуем третью лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.

Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?


Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Скоро вернемся с анонсом следующей лекции.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤‍🔥4🔥2👾2
💻В пасмурный день что может быть лучше data-driven угадайки от aGricolaMZ?

Идея для вашей вечеринки Задача: угадать, в честь кого чаще всего называют библиотеки в России.

Можно просто угадывать. Это очень сложно.

Можно смотреть подсказки. Это очень легко.

А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥184
📈 Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

📚 С лекцией о big data и distant reading в литературоведении выступит доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он расскажет о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

📅 Лекция состоится 27 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥51
Ой, девочки!


library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)


It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
😍135
▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.


С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍1
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
▪️▪️▪️▪️▪️▪️▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️〰️〰️〰️〰️
Как сравнить два средних

〰️〰️〰️〰️〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

Мое решение:тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
В сеть попали кадры с производства.
❤‍🔥208🥰4🍓1
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.

Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.

Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳

Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном не самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.

Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
8👍1
🔊 Сеть (граф) — это универсальная модель описания любой системы, где есть возможность выделить формальные связи между ее составляющими.

🟢 Сетевой анализ в исторической науке — это обычно попытка реконструировать экономические или социальные отношения на основе сохранившихся документов.

🟤В исследованиях художественной литературы методами сетевого анализа может изучаться система персонажей. Также сетевой анализ позволяет производить масштабируемые количественные исследования литературы на материале сотен и даже тысяч текстов и делать некоторые выводы о структурных отличиях жанров/направлений в литературе.

С лекцией о сетевом анализе выступит DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин.

🔗 Занятие пройдет 11 мая 2024 г. на платформе Zoom. Ссылка для подключения. Начало в 13.00 по московскому времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤‍🔥3😍2
RAntiquity
▪️▪️▪️▪️▪️▪️▪️ Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония). 〰️〰️〰️〰️〰️ Как сравнить два средних 〰️〰️〰️〰️〰️ 💡Подсказка: число слов в гекзаметре — дискретная…
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.

1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).

Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).

2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.

Этот тест подтверждает, что true location shift is not equal to 0.

3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.

4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.

Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
Если научить word2vec на корпусе (переводов) Платона, то можно узнать, что философ = душа - тело + мудрость. Так что не налегаем на куличи.
12😁64👏3🫡1
В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:

Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….

Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому

Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.


По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.

Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).

Вот что пишет Савой (который, впрочем, ни разу не библеист):

Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.


По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.

Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).
🔥3