RAntiquity
1.09K subscribers
297 photos
11 videos
5 files
548 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В рубрике Цифровой понедельник знакомимся с тремя метриками из библиотеки Stylo.

👀 Смотреть здесь: https://vk.com/video-211800158_456239266

📖 Дельта Берроуза, о которой писали наши коллеги:
🔹А автор кто? Рассудит дельта Бёрроуза
🔹Стилометрия: как в разное время люди искали авторов текстов

📖Дельта Аргамона, которая по сути тот же Берроуз, но с евклидовой метрикой вместо Манхэттена (статья на англ. языке)

📖Вюрцбургская Дельта — то же косинусное сходство, но со стандартизацией (статья на англ. языке)
Forwarded from Antibarbari HSE (Olga Alieva)
💻 Сегодня в рубрике цифровой понедельник расстояние Ружечки, или minmax, а также связь между дистанциями Ружечки и Танимото.

👀 Смотреть здесь: https://vk.com/video-211800158_456239269

📖 А вот тут можно почитать интересную статью о корпусе Цезаря, где задействована эта метрика.

🖋 Наши эксперименты на большом древнегреческом корпусе показывают, что minmax работает даже лучше, чем знаменитая Дельта Берроуза и ее аналоги, о которых мы писали в прошлый понедельник. Статья в работе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Готовы кодить? Напрасно, сегодня у нас теоретический цифровой понедельник. Узнаем, как применяется энтропия Шеннона для атрибуции авторства.

Чтобы было понятнее, посчитаем энтропию на простом примере: Эдмон Дантес и аббат Фариа обмениваются сообщениями через ход в стене, но аббат умирает, и на его место приходит новый арестант. Дантес вспоминает логарифмы и разоблачает самозванца.

https://vk.com/wall-211800158_151
Forwarded from Antibarbari HSE (Olga Alieva)
💻 Вы мне скажете, что в этот цифровой понедельник я совсем уж, и будете правы. Совсем не обязательно в это вникать, но! Как несчастный, прочитавший десятки статей о cross-entropy, relative entropy, Jeffreys' divergence и KLD divergence и потом месяц искавший способ посчитать все их по отдельности в R считаю своим долгом должить: все это одни и те же штуки, только с разных боков. А так как некоторые из этих штук вычислять в R гораздо проще, чем другие, будем считать, что математические медитации были не напрасны. Может быть кому-то они помогут сэкономить неделю-другую жизни. А ролик пусть будет. По красоте.

https://vk.com/video-211800158_456239273
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В сегодняшнем “Цифровом понедельнике” считаем, наконец, энтропию в R.

👀 Смотреть здесь

📚 В начале видео воспроизводим пример из книги Machine Learning Methods for Stylometry . Потом испытываем на древнегреческом корпусе.

🎁 Бонус: учимся писать пользовательские метрики для матриц расстояния.

🔢 Еще один бонус: проверим в R математическое равенство из предыдущего урока.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник, братцы. Сегодня не самая известная, но суперэффективная метрика. Расстояние Лаббе. Похоже на Манхэттен, но с французским акцентом. https://vk.com/wall-211800158_157
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник и метод общих энграм (CNG). Готовых решений для подсчета в R мы не нашли и попытались реализовать алгоритм, описанный в статье Евстафия Стамататоса 2007 г.

Результаты на разных древнегреческих текстах не очень порадовали (многие из этих экспериментов остались за кадром).

Возможно, это ошибка в нашем коде? Или сам метод не очень дружит с древнегреческим? Было бы интересно узнать, пользовался ли кто-то таким алгоритмом и что получилось.

Мы же добросовестно документируем не только удачи, но и неудачи. Надеясь, что кто-то сможет излечь и из них пользу.
Forwarded from Antibarbari HSE (Olga Alieva)
🗞 Июнь мы любим не только за буйное цветение лунника, но и за то, что выходят журналы. В свежем Schole -- один из первых моих стилометрических экспериментов на корпусе из 14 авторов и 23 текстов: "Delta Берроуза для древнегреческих авторов: опыт применения". Большое спасибо всем причастным. Вторая часть на подходе. https://classics.nsu.ru/schole/assets/files/16-2-alieva.pdf
Forwarded from Antibarbari HSE (Olga Alieva)
📨 Греческий в письмах Цицерона

Греческие слова встречаются в письмах Цицерона чаще, чем в его речах. По некоторым подсчетам, всего в корпусе писем можно найти более 850 греческих слов; некоторые из них — достаточно редкие и изысканные. Они использованы в переписке с ок. 20 разными людьми.

В целом Цицерон стремился не смешивать языки, и в De Officiis 1. 31. 111 предостерегает сына: «..Мы долж­ны поль­зо­вать­ся тем язы­ком, кото­рый нам изве­стен, во избе­жа­ние того, чтобы нас не осме­я­ли с пол­ным на это осно­ва­ни­ем, как это быва­ет с некото­ры­ми людь­ми, усна­щаю­щи­ми свою речь гречески­ми сло­ва­ми…» (пер. В. О. Горенштейна).

Однако в письмах он не соблюдает этого правила, которое подходит более для формальной прозы, чем для дружеского общения. В письме Луцию Папирую Пету (Fam. 9.21.1; 46 г. ) Цицерон признается: «пись­ма … я обыч­но тку из обы­ден­ных слов» (пер. В. О. Горенштейна); отказ от греческих слов в таком контексте выглядел бы претенциозно.

По той же причине в рекомендательных и утешительных письмах греческий не используется — редкие исключения Цицерон сопровождает пояснениями (Fam. 13.15.3). Совсем нет греческого в письмах, написанных из изгнания (книга 3).

Для Цицерона, свободно говорящего и по-гречески, и по-латыни, «переключение» с одного языка на другой совершенно естественно, особенно в общении с Аттиком, который также свободно владел греческим. Нередко греческое слово в этой переписке сопровождается у Цицерона ссылкой на идиолект самого Аттика (Att. 9.11.2: νέκυιαν, ut tu appellas; Att. 9.18.2: ut tu soles dicere, νέκυια). Цицерон обращается к греческому за математическими (Att. 2.3.2–3), риторическими (Att. 2.6.1) и иными терминами. В некоторых письмах греческий выступает в качестве секретного языка, защищающего послание от посланника (Att. 6.7.1: ἐν αἰνιγμοῖς; ср. 2.19.5, а также 6.4 и 6.5).

Некоторые греческие слова из писем Аттику -- в нашем облаке, приготовленном при помощи библиотеки Perseus и незатейливого волшебства. #цицерон
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник.

👀 Взвешенный tf-idf (метод Рамезани). Видео

📝 Статья A Weighted TF-IDF-based Approach for Authorship Attribution

🔗Видео от авторов статьи с объяснением метода на гномах и эльфах
Forwarded from Antibarbari HSE (Olga Alieva)
🗺 Читателя писем Цицерона к Аттику может удивить обилие упомянутых там поместий. Действительно, у Цицерона было восемь вилл, не считая четырех deversoria (небольших домов для путешествий) и нескольких домов в Риме (в двух из которых он жил сам, остальные сдавал внаем).

🛠Команда антиварваров, работающая в этом семестре над комментарием к письмам, решила для наглядности нанести на интерактивную карту информацию не только о местоположении этих вилл, но и о том, сколько писем оттуда написано.

🔗 Посмотреть карту и почитать небольшой очерк о виллах Цицерона можно здесь.

👾 Подробно о том, как мы делали эту карту, мы расскажем в новом модуле проекта «R для антиковедов», который стартует уже в понедельник, 6 марта. Весь этот модуль будет посвящен переписке с Аттиком, а следить за ним можно здесь! #цицерон
Channel photo updated
Forwarded from Ivan Begtin (Ivan Begtin)
Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии

- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима

- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data

- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана

- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет

- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией

- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая

Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] https://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] https://data.library.sh.cn/index

#opendata #digitalhumanities #ancienthistory #datasets #openscience
Как размечаются стихи в TEI #xml
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник — и новый модуль, полностью посвященный письмам Аттику Цицерона.

В этом модуле мы научимся:
✔️ лемматизировать латинский текст, то есть приводить слова к словарной форме
✔️оценивать эмоциональную тональность писем с использованием лексикона Latin Affectus
✔️строить таймлайн, чтобы понять, как менялось настроение Цицерона во времени
✔️извлекать из писем греческий текст и лемматизировать его тоже
✔️проверим графически, есть ли связь между эмоциональной окрашенностью письма и количеством греческих слов
✔️узнаем, откуда Цицерон написал Аттику больше всего писем
✔️ построим интерактивную карту Leaflet и опубликуем ее на сайте Wordpress

Прежде чем смотреть видео, вы можете скачать xml с письмами и весь код из репозитория проекта на Github.
👍1