Forwarded from Antibarbari HSE (Olga Alieva)
👾 Этот цифровой понедельник для нас особенный, потому что сегодня мы начинаем четвертый модуль нашего импровизированного видеокурса «R для антиковедов». Весь этот модуль будет посвящен тому, что можно назвать межтекстовыми расстояниями —и способам их измерения в R.
Многие из тех, кто последние 38 недель терпеливо наблюдал, как мы раскачиваемся, то есть учимся читать и считать на языке R, скорее всего имел в мыслях что-нибудь сравнить. Что ж, ближайшие 13 недель мы будем заниматься именно этим — сравнивать.
Начнем, как всегда, с простых примеров с кошечками и собачками — это поможет понять математическую логику происходящего. Но заскучать не успеете: уже очень скоро перейдем к экспериментам на реальном корпусе из 3 авторов и 6 текстов. Это, конечно, немного — но для первого опыта хватит.
Некоторые расчеты будем воспроизводить вручную, это помогает лучше понять происходящее в голове у машинки. Придется вспомнить немного школьной математики: теорему Пифагора, модули, логарифмы, косинусы и немного транспонирования матриц.Это все не страшнее латинской грамматики.
Узнаем, какие бывают метрики, какие из них уже реализованы в библиотеках R, а какие еще не реализованы — под такие попробуем сами написать функции.Это уж точно не сложнее перевода на древнегреческий.
Мы надеемся, что по итогам модуля вы станете на шаг ближе к своему первому количественному исследованию, а может быть даже убедитесь, как древние пифагорейцы, что все есть число.
За отзывы и предложения опытным кодерам скажем спасибо. А пока встречайте первое видео, посвященное расстоянию городских кварталов. https://vk.com/video-211800158_456239253
Многие из тех, кто последние 38 недель терпеливо наблюдал, как мы раскачиваемся, то есть учимся читать и считать на языке R, скорее всего имел в мыслях что-нибудь сравнить. Что ж, ближайшие 13 недель мы будем заниматься именно этим — сравнивать.
Начнем, как всегда, с простых примеров с кошечками и собачками — это поможет понять математическую логику происходящего. Но заскучать не успеете: уже очень скоро перейдем к экспериментам на реальном корпусе из 3 авторов и 6 текстов. Это, конечно, немного — но для первого опыта хватит.
Некоторые расчеты будем воспроизводить вручную, это помогает лучше понять происходящее в голове у машинки. Придется вспомнить немного школьной математики: теорему Пифагора, модули, логарифмы, косинусы и немного транспонирования матриц.
Узнаем, какие бывают метрики, какие из них уже реализованы в библиотеках R, а какие еще не реализованы — под такие попробуем сами написать функции.
Мы надеемся, что по итогам модуля вы станете на шаг ближе к своему первому количественному исследованию, а может быть даже убедитесь, как древние пифагорейцы, что все есть число.
За отзывы и предложения опытным кодерам скажем спасибо. А пока встречайте первое видео, посвященное расстоянию городских кварталов. https://vk.com/video-211800158_456239253
Vk
R: Модуль 4 Урок 1. Манхэттенское расстояние
Расстояние городских кварталов для текстов, представленных в виде векторов. Подробнее о модуле 4 и этом видео см. 5 декабря 2022 в телегам-канале сообщества: https://t.iss.one/antibarbari (рубрика "Цифровой понедельник") Видео подготовлено по результатам проекта…
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Сегодня в рубрике “Цифровой понедельник” — Еквлидово расстояние. Кратчайший путь между двумя точками, используется для решения задач классификации и кластеризации.
https://vk.com/video-211800158_456239258
https://vk.com/video-211800158_456239258
VK Видео
R: Модуль 4 Урок 2. Евклидово расстояние
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Достали двойные листочки, не забываем голову, звонок для учителя! Сегодня в рубрике “Цифровой понедельник” вспоминаем косинусы 📐 А зачем?
Косинусное сходство используется для автоматической классификации текстов, и позже мы обязательно применим его для определения авторства древнегреческих текстов. Но мы же не будем его применять, не понимая, что это такое?
Поэтому сначала — немного школьной алгебры. https://vk.com/video-211800158_456239261
Косинусное сходство используется для автоматической классификации текстов, и позже мы обязательно применим его для определения авторства древнегреческих текстов. Но мы же не будем его применять, не понимая, что это такое?
Поэтому сначала — немного школьной алгебры. https://vk.com/video-211800158_456239261
VK Видео
R: Модуль 4 Урок 3.1. Косинусное расстояние (часть 1)
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 📐В рубрике “Цифровой понедельник” продолжаем осмыслять косинусное сходство. Зная косинус, можно вычислить угол между двумя векторами — для этого нужен арккосинус.
В R угол всегда возвращается в радианах, которые мы научимся переводить в градусы. А еще познакомимся с библиотекой philentropy, при помощи которой можно легко вычислить уже известные нам и многие другие расстояния. https://vk.com/video-211800158_456239263
В R угол всегда возвращается в радианах, которые мы научимся переводить в градусы. А еще познакомимся с библиотекой philentropy, при помощи которой можно легко вычислить уже известные нам и многие другие расстояния. https://vk.com/video-211800158_456239263
VK Видео
R: Модуль 4 Урок 3.2. Косинусное расстояние (часть 2). Тригонометрические функции в R
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
Please open Telegram to view this post
VIEW IN TELEGRAM
VK
Antibarbari HSE. Пост со стены.
R: Модуль 4 Урок 4. Вычисление расстояния с philentropy. Визуализация матриц расстояния: дендрограмм... Смотрите полностью ВКонтакте.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В рубрике Цифровой понедельник знакомимся с тремя метриками из библиотеки Stylo.
👀 Смотреть здесь: https://vk.com/video-211800158_456239266
📖 Дельта Берроуза, о которой писали наши коллеги:
🔹А автор кто? Рассудит дельта Бёрроуза
🔹Стилометрия: как в разное время люди искали авторов текстов
📖Дельта Аргамона, которая по сути тот же Берроуз, но с евклидовой метрикой вместо Манхэттена (статья на англ. языке)
📖Вюрцбургская Дельта — то же косинусное сходство, но со стандартизацией (статья на англ. языке)
👀 Смотреть здесь: https://vk.com/video-211800158_456239266
📖 Дельта Берроуза, о которой писали наши коллеги:
🔹А автор кто? Рассудит дельта Бёрроуза
🔹Стилометрия: как в разное время люди искали авторов текстов
📖Дельта Аргамона, которая по сути тот же Берроуз, но с евклидовой метрикой вместо Манхэттена (статья на англ. языке)
📖Вюрцбургская Дельта — то же косинусное сходство, но со стандартизацией (статья на англ. языке)
Forwarded from Antibarbari HSE (Olga Alieva)
👀 Смотреть здесь: https://vk.com/video-211800158_456239269
📖 А вот тут можно почитать интересную статью о корпусе Цезаря, где задействована эта метрика.
🖋 Наши эксперименты на большом древнегреческом корпусе показывают, что minmax работает даже лучше, чем знаменитая Дельта Берроуза и ее аналоги, о которых мы писали в прошлый понедельник. Статья в работе.
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
R: Модуль 4 Урок 6. Расстояние Ружечки, или minmax. Связь между дистанциями Ружечки и Танимото
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
PhilosophyToday
Вышло сразу аж два "Аристея". В них и нам кое-что интересно, в основном в 25 номере. Например есть Ольга Алиева про цифровые технологии, которые вместо нас уже читают Платона, Подосинов, стихи поезии, статья про Эпиктета и Оригена и мн. др.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Готовы кодить? Напрасно, сегодня у нас теоретический цифровой понедельник. Узнаем, как применяется энтропия Шеннона для атрибуции авторства.
Чтобы было понятнее, посчитаем энтропию на простом примере: Эдмон Дантес и аббат Фариа обмениваются сообщениями через ход в стене, но аббат умирает, и на его место приходит новый арестант. Дантес вспоминает логарифмы и разоблачает самозванца.
https://vk.com/wall-211800158_151
Чтобы было понятнее, посчитаем энтропию на простом примере: Эдмон Дантес и аббат Фариа обмениваются сообщениями через ход в стене, но аббат умирает, и на его место приходит новый арестант. Дантес вспоминает логарифмы и разоблачает самозванца.
https://vk.com/wall-211800158_151
VK
Antibarbari HSE. Пост со стены.
R: Модуль 4 Урок 7.1. Энтропия и относительная энтропия (расхождение Кульбака-Лейблера, KLD) в иссле... Смотрите полностью ВКонтакте.
Forwarded from Antibarbari HSE (Olga Alieva)
https://vk.com/video-211800158_456239273
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
R: Модуль 4 Урок 7.2. Связь энтропии, относительной и перекрестной энтропии. Расхождение Джеффриса.
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2023 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В сегодняшнем “Цифровом понедельнике” считаем, наконец, энтропию в R.
👀 Смотреть здесь
📚 В начале видео воспроизводим пример из книги Machine Learning Methods for Stylometry . Потом испытываем на древнегреческом корпусе.
🎁 Бонус: учимся писать пользовательские метрики для матриц расстояния.
🔢 Еще один бонус: проверим в R математическое равенство из предыдущего урока.
👀 Смотреть здесь
📚 В начале видео воспроизводим пример из книги Machine Learning Methods for Stylometry . Потом испытываем на древнегреческом корпусе.
🎁 Бонус: учимся писать пользовательские метрики для матриц расстояния.
🔢 Еще один бонус: проверим в R математическое равенство из предыдущего урока.
VK
Antibarbari HSE. Пост со стены.
R: Модуль 4 Урок 7.3. Расхождение KLD и расхождение Джеффриса в R
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник, братцы. Сегодня не самая известная, но суперэффективная метрика. Расстояние Лаббе. Похоже на Манхэттен, но с французским акцентом. https://vk.com/wall-211800158_157
VK
Antibarbari HSE. Запись со стены.
R: Модуль 4 Урок 8. Расстояние Лаббе. Пользовательские расстояния.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник и метод общих энграм (CNG). Готовых решений для подсчета в R мы не нашли и попытались реализовать алгоритм, описанный в статье Евстафия Стамататоса 2007 г.
Результаты на разных древнегреческих текстах не очень порадовали (многие из этих экспериментов остались за кадром).
Возможно, это ошибка в нашем коде? Или сам метод не очень дружит с древнегреческим? Было бы интересно узнать, пользовался ли кто-то таким алгоритмом и что получилось.
Мы же добросовестно документируем не только удачи, но и неудачи. Надеясь, что кто-то сможет излечь и из них пользу.
Результаты на разных древнегреческих текстах не очень порадовали (многие из этих экспериментов остались за кадром).
Возможно, это ошибка в нашем коде? Или сам метод не очень дружит с древнегреческим? Было бы интересно узнать, пользовался ли кто-то таким алгоритмом и что получилось.
Мы же добросовестно документируем не только удачи, но и неудачи. Надеясь, что кто-то сможет излечь и из них пользу.
VK
Antibarbari HSE. Запись со стены.
R: Модуль 4 Урок 9. Метод общих энграм (CNG)
Forwarded from Antibarbari HSE (Olga Alieva)
🗞 Июнь мы любим не только за буйное цветение лунника, но и за то, что выходят журналы. В свежем Schole -- один из первых моих стилометрических экспериментов на корпусе из 14 авторов и 23 текстов: "Delta Берроуза для древнегреческих авторов: опыт применения". Большое спасибо всем причастным. Вторая часть на подходе. https://classics.nsu.ru/schole/assets/files/16-2-alieva.pdf
Forwarded from Antibarbari HSE (Olga Alieva)
📨 Греческий в письмах Цицерона
Греческие слова встречаются в письмах Цицерона чаще, чем в его речах. По некоторым подсчетам, всего в корпусе писем можно найти более 850 греческих слов; некоторые из них — достаточно редкие и изысканные. Они использованы в переписке с ок. 20 разными людьми.
В целом Цицерон стремился не смешивать языки, и в De Officiis 1. 31. 111 предостерегает сына: «..Мы должны пользоваться тем языком, который нам известен, во избежание того, чтобы нас не осмеяли с полным на это основанием, как это бывает с некоторыми людьми, уснащающими свою речь греческими словами…» (пер. В. О. Горенштейна).
Однако в письмах он не соблюдает этого правила, которое подходит более для формальной прозы, чем для дружеского общения. В письме Луцию Папирую Пету (Fam. 9.21.1; 46 г. ) Цицерон признается: «письма … я обычно тку из обыденных слов» (пер. В. О. Горенштейна); отказ от греческих слов в таком контексте выглядел бы претенциозно.
По той же причине в рекомендательных и утешительных письмах греческий не используется — редкие исключения Цицерон сопровождает пояснениями (Fam. 13.15.3). Совсем нет греческого в письмах, написанных из изгнания (книга 3).
Для Цицерона, свободно говорящего и по-гречески, и по-латыни, «переключение» с одного языка на другой совершенно естественно, особенно в общении с Аттиком, который также свободно владел греческим. Нередко греческое слово в этой переписке сопровождается у Цицерона ссылкой на идиолект самого Аттика (Att. 9.11.2: νέκυιαν, ut tu appellas; Att. 9.18.2: ut tu soles dicere, νέκυια). Цицерон обращается к греческому за математическими (Att. 2.3.2–3), риторическими (Att. 2.6.1) и иными терминами. В некоторых письмах греческий выступает в качестве секретного языка, защищающего послание от посланника (Att. 6.7.1: ἐν αἰνιγμοῖς; ср. 2.19.5, а также 6.4 и 6.5).
Некоторые греческие слова из писем Аттику -- в нашем облаке, приготовленном при помощи библиотеки Perseus и незатейливого волшебства. #цицерон
Греческие слова встречаются в письмах Цицерона чаще, чем в его речах. По некоторым подсчетам, всего в корпусе писем можно найти более 850 греческих слов; некоторые из них — достаточно редкие и изысканные. Они использованы в переписке с ок. 20 разными людьми.
В целом Цицерон стремился не смешивать языки, и в De Officiis 1. 31. 111 предостерегает сына: «..Мы должны пользоваться тем языком, который нам известен, во избежание того, чтобы нас не осмеяли с полным на это основанием, как это бывает с некоторыми людьми, уснащающими свою речь греческими словами…» (пер. В. О. Горенштейна).
Однако в письмах он не соблюдает этого правила, которое подходит более для формальной прозы, чем для дружеского общения. В письме Луцию Папирую Пету (Fam. 9.21.1; 46 г. ) Цицерон признается: «письма … я обычно тку из обыденных слов» (пер. В. О. Горенштейна); отказ от греческих слов в таком контексте выглядел бы претенциозно.
По той же причине в рекомендательных и утешительных письмах греческий не используется — редкие исключения Цицерон сопровождает пояснениями (Fam. 13.15.3). Совсем нет греческого в письмах, написанных из изгнания (книга 3).
Для Цицерона, свободно говорящего и по-гречески, и по-латыни, «переключение» с одного языка на другой совершенно естественно, особенно в общении с Аттиком, который также свободно владел греческим. Нередко греческое слово в этой переписке сопровождается у Цицерона ссылкой на идиолект самого Аттика (Att. 9.11.2: νέκυιαν, ut tu appellas; Att. 9.18.2: ut tu soles dicere, νέκυια). Цицерон обращается к греческому за математическими (Att. 2.3.2–3), риторическими (Att. 2.6.1) и иными терминами. В некоторых письмах греческий выступает в качестве секретного языка, защищающего послание от посланника (Att. 6.7.1: ἐν αἰνιγμοῖς; ср. 2.19.5, а также 6.4 и 6.5).
Некоторые греческие слова из писем Аттику -- в нашем облаке, приготовленном при помощи библиотеки Perseus и незатейливого волшебства. #цицерон
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник.
👀 Взвешенный tf-idf (метод Рамезани). Видео
📝 Статья A Weighted TF-IDF-based Approach for Authorship Attribution
🔗Видео от авторов статьи с объяснением метода на гномах и эльфах
👀 Взвешенный tf-idf (метод Рамезани). Видео
📝 Статья A Weighted TF-IDF-based Approach for Authorship Attribution
🔗Видео от авторов статьи с объяснением метода на гномах и эльфах
VK Видео
R: Модуль 4 Урок 10. Расстояние tf-idf (метод Рамезани)
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
🗺 Читателя писем Цицерона к Аттику может удивить обилие упомянутых там поместий. Действительно, у Цицерона было восемь вилл, не считая четырех deversoria (небольших домов для путешествий) и нескольких домов в Риме (в двух из которых он жил сам, остальные сдавал внаем).
🛠Команда антиварваров, работающая в этом семестре над комментарием к письмам, решила для наглядности нанести на интерактивную карту информацию не только о местоположении этих вилл, но и о том, сколько писем оттуда написано.
🔗 Посмотреть карту и почитать небольшой очерк о виллах Цицерона можно здесь.
👾 Подробно о том, как мы делали эту карту, мы расскажем в новом модуле проекта «R для антиковедов», который стартует уже в понедельник, 6 марта. Весь этот модуль будет посвящен переписке с Аттиком, а следить за ним можно здесь! #цицерон
🛠Команда антиварваров, работающая в этом семестре над комментарием к письмам, решила для наглядности нанести на интерактивную карту информацию не только о местоположении этих вилл, но и о том, сколько писем оттуда написано.
🔗 Посмотреть карту и почитать небольшой очерк о виллах Цицерона можно здесь.
👾 Подробно о том, как мы делали эту карту, мы расскажем в новом модуле проекта «R для антиковедов», который стартует уже в понедельник, 6 марта. Весь этот модуль будет посвящен переписке с Аттиком, а следить за ним можно здесь! #цицерон
Antibarbari HSE
🗺 Читателя писем Цицерона к Аттику может удивить обилие упомянутых там поместий. Действительно, у Цицерона было восемь вилл, не считая четырех deversoria (небольших домов для путешествий) и нескольких домов в Риме (в двух из которых он жил сам, остальные сдавал…
🌐 Карты
Проект Coin Hoards of the Roman Empire
Другие датасеты для визуализации на сайте The Oxford Roman Economy Project
Датасет Map of the Ancient Greek and Roman Sites in Turkey
#leaflet #карты #датасет
Проект Coin Hoards of the Roman Empire
Другие датасеты для визуализации на сайте The Oxford Roman Economy Project
Датасет Map of the Ancient Greek and Roman Sites in Turkey
#leaflet #карты #датасет
🏺 Подборка публикаций о регрессии в археологии
Calculating the Use-Wear Rates of Roman Coins Using Regression Analysis: A Case Study of Bronze Sestertii from Imperial Gaul (2013)
Spatial Applications of Correlation and Linear Regression (2020)
Archaeostatistics: Old Statistics in Ancient Contexts (1992)
A Regression Analysis of Some Late Romano-British Pottery (1975) data in {archdata::OxfordPots}
Regression Analysis of Some Trade and Marketing Patterns (1974) data in {archdata::OxfordPots}
archdata: Example Datasets from Archaeological Research (R package 2021)
Baxter: Statistics in Archaeology (2003)
The Awful Truth about Statistics in Archaeology (1978)
Drennan: Statistics for Archaeologists, A Common Sense Approach (2009)
Calculating the Use-Wear Rates of Roman Coins Using Regression Analysis: A Case Study of Bronze Sestertii from Imperial Gaul (2013)
Quantitative Methods in Archaeology Using R (2017)
#регрессия #археология #датасет
Calculating the Use-Wear Rates of Roman Coins Using Regression Analysis: A Case Study of Bronze Sestertii from Imperial Gaul (2013)
Spatial Applications of Correlation and Linear Regression (2020)
Archaeostatistics: Old Statistics in Ancient Contexts (1992)
A Regression Analysis of Some Late Romano-British Pottery (1975) data in {archdata::OxfordPots}
Regression Analysis of Some Trade and Marketing Patterns (1974) data in {archdata::OxfordPots}
archdata: Example Datasets from Archaeological Research (R package 2021)
Baxter: Statistics in Archaeology (2003)
The Awful Truth about Statistics in Archaeology (1978)
Drennan: Statistics for Archaeologists, A Common Sense Approach (2009)
Calculating the Use-Wear Rates of Roman Coins Using Regression Analysis: A Case Study of Bronze Sestertii from Imperial Gaul (2013)
Quantitative Methods in Archaeology Using R (2017)
#регрессия #археология #датасет
💶 Подборка публикаций о регрессии в экономической истории
Statistics in Ancient History: Prices and Trade in the Pax Romana (2020)
Quantifying the Roman Economy (2009)
Small dataset Roman Wheat Prices
The Economy of the Early Roman Empire (2006)
Words and Numbers: A New Approach to Writing Ancient History (2019)
The Roman Market Economy (2017)
#регрессия #история #датасет
Statistics in Ancient History: Prices and Trade in the Pax Romana (2020)
Quantifying the Roman Economy (2009)
Small dataset Roman Wheat Prices
The Economy of the Early Roman Empire (2006)
Words and Numbers: A New Approach to Writing Ancient History (2019)
The Roman Market Economy (2017)
#регрессия #история #датасет
