RAntiquity
1.09K subscribers
297 photos
11 videos
5 files
548 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Forwarded from Antibarbari HSE (Olga Alieva)
🎞 Публикуем видео лекции Бориса Орехова "Параллельный древнегреческо-русский корпус: как и зачем?"

В рамках проекта "Цифровая античность" (НИУ ВШЭ) начинается работа над созданием параллельного древнегреческо-русского корпуса.

Первый этап работы потребует подготовки и тестирования электронных инструментов, позволяющих создавать параллельные корпуса древнегреческих текстов и их русских переводов.

О том, что это за инструменты, и как "научить" их правильно соотносить оригинал с переводом, смотрите в первом видео проекта.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Снова цифровой понедельник — и чарующие слова “распределение Пуассона”. Вместе с Гаральдом Баайеном разбираемся, можно ли с помощью распределения Пуассона описать встречаемость некоторых слов в корпусе. https://vk.com/video-211800158_456239236
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В мире много вещей непостижимых. Например, то, что точка с запятой (;) и греческий знак вопроса (;) в Unicode -- это разные знаки.

Это легко проверить, используя логические операторы в R/Python. Вот код для R:

a <- "\U037E" # Greek question mark
b = ";" # semicolon
a == b
Ответ
[1] FALSE

В греческой политонической раскладке ";" (под буквой q) -- обычная точка с запятой. Проверяем:

c = ";" # polytonic keyboard
c == a
[1] FALSE
c == b
[1] TRUE


А вот в TLG, оказывается, наоборот (во всяком случае, там, где мы проверяли)

d = ";" # from TLG
d == a
TRUE
d == b
FALSE

Отсюда мораль: разрезая текст на предложения, на всякий случай прописывайте в алгоритме оба знака. Или делайте замену по всему документу. Такие дела.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник. Сегодня разбираемся с доверительными интервалами и делаем выводы о длине предложения в “Государстве” и “Законах”. https://vk.com/video-211800158_456239240
Forwarded from Antibarbari HSE (Olga Alieva)
🏺👾 Встречайте, это мы

Новая страница проекта на сайте Факультета гуманитарных наук НИУ ВШЭ: https://hum.hse.ru/proj/digital_antiquity

В октябре официально (и успешно) завершается предшествующий проект, и начинается новый, с новыми акцентами и задачами. Приятно зафиксировать это символически 🙂
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Снова цифровой понедельник, сегодня сравниваем частотность артикля у Платона и Аристотеля и делаем статистические выводы с применением критерия Стьюдента https://vk.com/wall-211800158_122
Forwarded from Antibarbari HSE (Olga Alieva)
👾На связи цифровой понедельник и ранговый критерий Уилкоксона-Манна-Уитни. Отличная штука, если надо что-то сравнить, а уверенности в характере распределения нет. Тренируемся снова на хомячках на артиклях у Платона и Аристотеля.

https://vk.com/wall-211800158_125
Forwarded from Antibarbari HSE (Olga Alieva)
👾 На связи цифровой понедельник. Можно ли сказать, что в пересказанных диалогах чаще всего действует Сократ, в то время как в диалогах в прямой драматической форме другие протагонисты ? Есть ли связь между категориальными переменными, подскажет тест хи-квадрат. https://vk.com/video-211800158_456239247
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник -- это хорошо. И статистическая мощность -- это хорошо. А все вместе хорошо в квадрате.
https://vk.com/wall-211800158_131

Кстати, это последнее видео в Модуле 3 "Описательная статистика и основы статистического вывода".

Модуль 4 “Межтекстовые расстояния” уже почти записан — не отключайтесь.

Записи всех уроков этого и предыдущих модулей доступны в отдельном плейлисте VK, на обновления которого тоже можно подписаться (а там понедельник начинается в субботу).
https://vk.com/video/playlist/-211800158_1
Forwarded from Antibarbari HSE (Olga Alieva)
🤩 Помните мы писали, что тексты из библиотеки Gutenberg можно загружать в R при помощи специального пакета? И что это избавляет от множества хлопот с извлечением текста из html/xml напрямую?

Так вот, талантливые люди сделали такую штуку и для Perseus, где есть почти все, что нужно сердцу классика, в оригинале и в переводе. ὄλωλα, μῆτερ,’ ὄλωλα κἀποθνήσκω 💜

И даже можно быстренько определить части речи / формы для любого отрывка, а также стремительно запараллелить оригиналы/переводы.

https://ropensci.github.io/rperseus/articles/rperseus-vignette.html

https://github.com/ropensci/rperseus
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Этот цифровой понедельник для нас особенный, потому что сегодня мы начинаем четвертый модуль нашего импровизированного видеокурса «R для антиковедов». Весь этот модуль будет посвящен тому, что можно назвать межтекстовыми расстояниями —и способам их измерения в R.

Многие из тех, кто последние 38 недель терпеливо наблюдал, как мы раскачиваемся, то есть учимся читать и считать на языке R, скорее всего имел в мыслях что-нибудь сравнить. Что ж, ближайшие 13 недель мы будем заниматься именно этим — сравнивать.

Начнем, как всегда, с простых примеров с кошечками и собачками — это поможет понять математическую логику происходящего. Но заскучать не успеете: уже очень скоро перейдем к экспериментам на реальном корпусе из 3 авторов и 6 текстов. Это, конечно, немного — но для первого опыта хватит.

Некоторые расчеты будем воспроизводить вручную, это помогает лучше понять происходящее в голове у машинки. Придется вспомнить немного школьной математики: теорему Пифагора, модули, логарифмы, косинусы и немного транспонирования матриц. Это все не страшнее латинской грамматики.

Узнаем, какие бывают метрики, какие из них уже реализованы в библиотеках R, а какие еще не реализованы — под такие попробуем сами написать функции. Это уж точно не сложнее перевода на древнегреческий.

Мы надеемся, что по итогам модуля вы станете на шаг ближе к своему первому количественному исследованию, а может быть даже убедитесь, как древние пифагорейцы, что все есть число.

За отзывы и предложения опытным кодерам скажем спасибо. А пока встречайте первое видео, посвященное расстоянию городских кварталов. https://vk.com/video-211800158_456239253
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Сегодня в рубрике “Цифровой понедельник” — Еквлидово расстояние. Кратчайший путь между двумя точками, используется для решения задач классификации и кластеризации.
https://vk.com/video-211800158_456239258
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Достали двойные листочки, не забываем голову, звонок для учителя! Сегодня в рубрике “Цифровой понедельник” вспоминаем косинусы 📐 А зачем?

Косинусное сходство используется для автоматической классификации текстов, и позже мы обязательно применим его для определения авторства древнегреческих текстов. Но мы же не будем его применять, не понимая, что это такое?

Поэтому сначала — немного школьной алгебры. https://vk.com/video-211800158_456239261
Forwarded from Antibarbari HSE (Olga Alieva)
👾 📐В рубрике “Цифровой понедельник” продолжаем осмыслять косинусное сходство. Зная косинус, можно вычислить угол между двумя векторами — для этого нужен арккосинус.

В R угол всегда возвращается в радианах, которые мы научимся переводить в градусы. А еще познакомимся с библиотекой philentropy, при помощи которой можно легко вычислить уже известные нам и многие другие расстояния. https://vk.com/video-211800158_456239263
Forwarded from Antibarbari HSE (Olga Alieva)
🧑‍💻 С новым годом, с новым цифровым понедельником! На повестке дня разные способы вычисления известных нам межтекстовых расстояний и визуализации результата. Теперь работаем на небольшом, но реальном корпусе из Геродота, Фукидида и Ксенофонта. Смотрим, как справились наши метрики, а также строим дендрограмму и тепловую карту. Сами тексты для эксперимента вы можете скачать по ссылке под видео. https://vk.com/wall-211800158_147
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В рубрике Цифровой понедельник знакомимся с тремя метриками из библиотеки Stylo.

👀 Смотреть здесь: https://vk.com/video-211800158_456239266

📖 Дельта Берроуза, о которой писали наши коллеги:
🔹А автор кто? Рассудит дельта Бёрроуза
🔹Стилометрия: как в разное время люди искали авторов текстов

📖Дельта Аргамона, которая по сути тот же Берроуз, но с евклидовой метрикой вместо Манхэттена (статья на англ. языке)

📖Вюрцбургская Дельта — то же косинусное сходство, но со стандартизацией (статья на англ. языке)
Forwarded from Antibarbari HSE (Olga Alieva)
💻 Сегодня в рубрике цифровой понедельник расстояние Ружечки, или minmax, а также связь между дистанциями Ружечки и Танимото.

👀 Смотреть здесь: https://vk.com/video-211800158_456239269

📖 А вот тут можно почитать интересную статью о корпусе Цезаря, где задействована эта метрика.

🖋 Наши эксперименты на большом древнегреческом корпусе показывают, что minmax работает даже лучше, чем знаменитая Дельта Берроуза и ее аналоги, о которых мы писали в прошлый понедельник. Статья в работе.
Please open Telegram to view this post
VIEW IN TELEGRAM