RAntiquity
1.09K subscribers
297 photos
11 videos
5 files
548 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Forwarded from Antibarbari HSE (Olga Alieva)
👾На связи цифровой понедельник и ранговый критерий Уилкоксона-Манна-Уитни. Отличная штука, если надо что-то сравнить, а уверенности в характере распределения нет. Тренируемся снова на хомячках на артиклях у Платона и Аристотеля.

https://vk.com/wall-211800158_125
Forwarded from Antibarbari HSE (Olga Alieva)
👾 На связи цифровой понедельник. Можно ли сказать, что в пересказанных диалогах чаще всего действует Сократ, в то время как в диалогах в прямой драматической форме другие протагонисты ? Есть ли связь между категориальными переменными, подскажет тест хи-квадрат. https://vk.com/video-211800158_456239247
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник -- это хорошо. И статистическая мощность -- это хорошо. А все вместе хорошо в квадрате.
https://vk.com/wall-211800158_131

Кстати, это последнее видео в Модуле 3 "Описательная статистика и основы статистического вывода".

Модуль 4 “Межтекстовые расстояния” уже почти записан — не отключайтесь.

Записи всех уроков этого и предыдущих модулей доступны в отдельном плейлисте VK, на обновления которого тоже можно подписаться (а там понедельник начинается в субботу).
https://vk.com/video/playlist/-211800158_1
Forwarded from Antibarbari HSE (Olga Alieva)
🤩 Помните мы писали, что тексты из библиотеки Gutenberg можно загружать в R при помощи специального пакета? И что это избавляет от множества хлопот с извлечением текста из html/xml напрямую?

Так вот, талантливые люди сделали такую штуку и для Perseus, где есть почти все, что нужно сердцу классика, в оригинале и в переводе. ὄλωλα, μῆτερ,’ ὄλωλα κἀποθνήσκω 💜

И даже можно быстренько определить части речи / формы для любого отрывка, а также стремительно запараллелить оригиналы/переводы.

https://ropensci.github.io/rperseus/articles/rperseus-vignette.html

https://github.com/ropensci/rperseus
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Этот цифровой понедельник для нас особенный, потому что сегодня мы начинаем четвертый модуль нашего импровизированного видеокурса «R для антиковедов». Весь этот модуль будет посвящен тому, что можно назвать межтекстовыми расстояниями —и способам их измерения в R.

Многие из тех, кто последние 38 недель терпеливо наблюдал, как мы раскачиваемся, то есть учимся читать и считать на языке R, скорее всего имел в мыслях что-нибудь сравнить. Что ж, ближайшие 13 недель мы будем заниматься именно этим — сравнивать.

Начнем, как всегда, с простых примеров с кошечками и собачками — это поможет понять математическую логику происходящего. Но заскучать не успеете: уже очень скоро перейдем к экспериментам на реальном корпусе из 3 авторов и 6 текстов. Это, конечно, немного — но для первого опыта хватит.

Некоторые расчеты будем воспроизводить вручную, это помогает лучше понять происходящее в голове у машинки. Придется вспомнить немного школьной математики: теорему Пифагора, модули, логарифмы, косинусы и немного транспонирования матриц. Это все не страшнее латинской грамматики.

Узнаем, какие бывают метрики, какие из них уже реализованы в библиотеках R, а какие еще не реализованы — под такие попробуем сами написать функции. Это уж точно не сложнее перевода на древнегреческий.

Мы надеемся, что по итогам модуля вы станете на шаг ближе к своему первому количественному исследованию, а может быть даже убедитесь, как древние пифагорейцы, что все есть число.

За отзывы и предложения опытным кодерам скажем спасибо. А пока встречайте первое видео, посвященное расстоянию городских кварталов. https://vk.com/video-211800158_456239253
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Сегодня в рубрике “Цифровой понедельник” — Еквлидово расстояние. Кратчайший путь между двумя точками, используется для решения задач классификации и кластеризации.
https://vk.com/video-211800158_456239258
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Достали двойные листочки, не забываем голову, звонок для учителя! Сегодня в рубрике “Цифровой понедельник” вспоминаем косинусы 📐 А зачем?

Косинусное сходство используется для автоматической классификации текстов, и позже мы обязательно применим его для определения авторства древнегреческих текстов. Но мы же не будем его применять, не понимая, что это такое?

Поэтому сначала — немного школьной алгебры. https://vk.com/video-211800158_456239261
Forwarded from Antibarbari HSE (Olga Alieva)
👾 📐В рубрике “Цифровой понедельник” продолжаем осмыслять косинусное сходство. Зная косинус, можно вычислить угол между двумя векторами — для этого нужен арккосинус.

В R угол всегда возвращается в радианах, которые мы научимся переводить в градусы. А еще познакомимся с библиотекой philentropy, при помощи которой можно легко вычислить уже известные нам и многие другие расстояния. https://vk.com/video-211800158_456239263
Forwarded from Antibarbari HSE (Olga Alieva)
🧑‍💻 С новым годом, с новым цифровым понедельником! На повестке дня разные способы вычисления известных нам межтекстовых расстояний и визуализации результата. Теперь работаем на небольшом, но реальном корпусе из Геродота, Фукидида и Ксенофонта. Смотрим, как справились наши метрики, а также строим дендрограмму и тепловую карту. Сами тексты для эксперимента вы можете скачать по ссылке под видео. https://vk.com/wall-211800158_147
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В рубрике Цифровой понедельник знакомимся с тремя метриками из библиотеки Stylo.

👀 Смотреть здесь: https://vk.com/video-211800158_456239266

📖 Дельта Берроуза, о которой писали наши коллеги:
🔹А автор кто? Рассудит дельта Бёрроуза
🔹Стилометрия: как в разное время люди искали авторов текстов

📖Дельта Аргамона, которая по сути тот же Берроуз, но с евклидовой метрикой вместо Манхэттена (статья на англ. языке)

📖Вюрцбургская Дельта — то же косинусное сходство, но со стандартизацией (статья на англ. языке)
Forwarded from Antibarbari HSE (Olga Alieva)
💻 Сегодня в рубрике цифровой понедельник расстояние Ружечки, или minmax, а также связь между дистанциями Ружечки и Танимото.

👀 Смотреть здесь: https://vk.com/video-211800158_456239269

📖 А вот тут можно почитать интересную статью о корпусе Цезаря, где задействована эта метрика.

🖋 Наши эксперименты на большом древнегреческом корпусе показывают, что minmax работает даже лучше, чем знаменитая Дельта Берроуза и ее аналоги, о которых мы писали в прошлый понедельник. Статья в работе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Готовы кодить? Напрасно, сегодня у нас теоретический цифровой понедельник. Узнаем, как применяется энтропия Шеннона для атрибуции авторства.

Чтобы было понятнее, посчитаем энтропию на простом примере: Эдмон Дантес и аббат Фариа обмениваются сообщениями через ход в стене, но аббат умирает, и на его место приходит новый арестант. Дантес вспоминает логарифмы и разоблачает самозванца.

https://vk.com/wall-211800158_151
Forwarded from Antibarbari HSE (Olga Alieva)
💻 Вы мне скажете, что в этот цифровой понедельник я совсем уж, и будете правы. Совсем не обязательно в это вникать, но! Как несчастный, прочитавший десятки статей о cross-entropy, relative entropy, Jeffreys' divergence и KLD divergence и потом месяц искавший способ посчитать все их по отдельности в R считаю своим долгом должить: все это одни и те же штуки, только с разных боков. А так как некоторые из этих штук вычислять в R гораздо проще, чем другие, будем считать, что математические медитации были не напрасны. Может быть кому-то они помогут сэкономить неделю-другую жизни. А ролик пусть будет. По красоте.

https://vk.com/video-211800158_456239273
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В сегодняшнем “Цифровом понедельнике” считаем, наконец, энтропию в R.

👀 Смотреть здесь

📚 В начале видео воспроизводим пример из книги Machine Learning Methods for Stylometry . Потом испытываем на древнегреческом корпусе.

🎁 Бонус: учимся писать пользовательские метрики для матриц расстояния.

🔢 Еще один бонус: проверим в R математическое равенство из предыдущего урока.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник, братцы. Сегодня не самая известная, но суперэффективная метрика. Расстояние Лаббе. Похоже на Манхэттен, но с французским акцентом. https://vk.com/wall-211800158_157
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник и метод общих энграм (CNG). Готовых решений для подсчета в R мы не нашли и попытались реализовать алгоритм, описанный в статье Евстафия Стамататоса 2007 г.

Результаты на разных древнегреческих текстах не очень порадовали (многие из этих экспериментов остались за кадром).

Возможно, это ошибка в нашем коде? Или сам метод не очень дружит с древнегреческим? Было бы интересно узнать, пользовался ли кто-то таким алгоритмом и что получилось.

Мы же добросовестно документируем не только удачи, но и неудачи. Надеясь, что кто-то сможет излечь и из них пользу.
Forwarded from Antibarbari HSE (Olga Alieva)
🗞 Июнь мы любим не только за буйное цветение лунника, но и за то, что выходят журналы. В свежем Schole -- один из первых моих стилометрических экспериментов на корпусе из 14 авторов и 23 текстов: "Delta Берроуза для древнегреческих авторов: опыт применения". Большое спасибо всем причастным. Вторая часть на подходе. https://classics.nsu.ru/schole/assets/files/16-2-alieva.pdf
Forwarded from Antibarbari HSE (Olga Alieva)
📨 Греческий в письмах Цицерона

Греческие слова встречаются в письмах Цицерона чаще, чем в его речах. По некоторым подсчетам, всего в корпусе писем можно найти более 850 греческих слов; некоторые из них — достаточно редкие и изысканные. Они использованы в переписке с ок. 20 разными людьми.

В целом Цицерон стремился не смешивать языки, и в De Officiis 1. 31. 111 предостерегает сына: «..Мы долж­ны поль­зо­вать­ся тем язы­ком, кото­рый нам изве­стен, во избе­жа­ние того, чтобы нас не осме­я­ли с пол­ным на это осно­ва­ни­ем, как это быва­ет с некото­ры­ми людь­ми, усна­щаю­щи­ми свою речь гречески­ми сло­ва­ми…» (пер. В. О. Горенштейна).

Однако в письмах он не соблюдает этого правила, которое подходит более для формальной прозы, чем для дружеского общения. В письме Луцию Папирую Пету (Fam. 9.21.1; 46 г. ) Цицерон признается: «пись­ма … я обыч­но тку из обы­ден­ных слов» (пер. В. О. Горенштейна); отказ от греческих слов в таком контексте выглядел бы претенциозно.

По той же причине в рекомендательных и утешительных письмах греческий не используется — редкие исключения Цицерон сопровождает пояснениями (Fam. 13.15.3). Совсем нет греческого в письмах, написанных из изгнания (книга 3).

Для Цицерона, свободно говорящего и по-гречески, и по-латыни, «переключение» с одного языка на другой совершенно естественно, особенно в общении с Аттиком, который также свободно владел греческим. Нередко греческое слово в этой переписке сопровождается у Цицерона ссылкой на идиолект самого Аттика (Att. 9.11.2: νέκυιαν, ut tu appellas; Att. 9.18.2: ut tu soles dicere, νέκυια). Цицерон обращается к греческому за математическими (Att. 2.3.2–3), риторическими (Att. 2.6.1) и иными терминами. В некоторых письмах греческий выступает в качестве секретного языка, защищающего послание от посланника (Att. 6.7.1: ἐν αἰνιγμοῖς; ср. 2.19.5, а также 6.4 и 6.5).

Некоторые греческие слова из писем Аттику -- в нашем облаке, приготовленном при помощи библиотеки Perseus и незатейливого волшебства. #цицерон
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник.

👀 Взвешенный tf-idf (метод Рамезани). Видео

📝 Статья A Weighted TF-IDF-based Approach for Authorship Attribution

🔗Видео от авторов статьи с объяснением метода на гномах и эльфах