RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Погода портится, хочется тыквенного латте и красоты. Поэтому сегодня — датасет “Шедевры Пушкинского музея” (отсюда).

Визуализация: пакет imager. #цифровые_этюды
14👍1
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus.

Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.

1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.

2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.

3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.

4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html. Можно и регуляркой сделать, не выпендриваясь. Но требуется навык работы с css, потому что какие-то мелкие штучки все время прыгают не в ту сторону.

5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.

Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.

#xml #html #филеб
10👍5
Доктор Фауст рассказывает, почему он решил обратиться от гуманитарных исследований к программированию.

Пусть я разумней всех глупцов -
Писак, попов, магистров, докторов,
…Зато я радостей не знаю,
Напрасно истину ищу,
Зато, когда людей учу,
Их научить, исправить - не мечтаю!
Притом я нищ: не ведаю, бедняк,
Ни почестей людских, ни разных благ...
Так пёс не стал бы жить! Погибли годы!
Вот почему я магии решил
Предаться…


Все совпадения случайны.
😁183😢1
Коллеги из “Системного блока” сделали очень внятную точку входа в DH: темы, люди, журналы, образовательные программы. Все, чтобы сориентироваться и правильно распределить усилия. https://sysblok.ru/dh/
🔥118
RAntiquity
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus. Но недавно пришлось задуматься и о другом применении XML, о именно — как основы…
В выходные удалось немного поработать над сайтом “Филеба”.

- html греческого текста получил новую курточку новые стили css : теперь milestones, как им и положено, выстроились слева от текста.

- также добавила русский перевод; окончательным его не считаю, но печальный опыт переводчиков “Филеба” говорит о том, что лучше сохранять и дорабатывать промежуточные версии, чем надеяться когда-то все довести до совершенства.

- кстати, если перевод опубликован на GitHub Pages, значит ли это, что замечания к переводу можно оставлять в issues? мне кажется, это отличная идея: обсуждать способы перевода греческих частиц на гитхабе. к тому же удобно, всегда можно пометить баг как устраненный и закрыть обсуждение.

- в планах обновить страницу с видео семинаров, на которых этот перевод рождался при поддержке коллег и студентов

#филеб
11🔥4👎1🤩1💅1
Совершенно непонятно, когда работать над своими проектами, ведь столько всего интересного вокруг происходит.
💯133
Forwarded from DH CLOUD
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
👍119🔥62👏2
Пакеты FactoMineR & factoextra — отличные альтернативы базовому R для анализа главных компонент. Позволяют изящно изобразить одновременно и нагрузки компонент, и сами наблюдения, а также отобрать самые значимые переменные, чтобы график не был очень шумным.

Код очень лаконичный:


fviz_pca_biplot(pca_object, geom = "point", habillage = as.factor(group), addEllipses = TRUE, select.var = list(cos2 = 20))


Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.

Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.

Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
👍61
ушел думать о смысле жизни и бренности бытия

(и да, я всегда здороваюсь, говорю “спасибо” и “пожалуйста”)
😁25👍5🥰5
Уже очень давно мне хотелось написать рецензию на книгу Explorations in the Digital History of Ideas (2023). Цифровая история идей — совсем новое явление в DH, интересно было внимательно посмотреть на методологию и конкретные инструменты, которые нашли применение в этой отрасли.

Повод представился благодаря коллегам из СФУ, решившим собрать коллективную монографию под названием “Будь в курсе цифровых гуманитарных исследований”.

Область у нас высокотехнологичная, поэтому и рецензию я решила написать не простую, а в жанре реверс-инжиниринга. Т.е. буквально разобраться, как они все считали — и в меньшем мастштабе повторить все вычисления.

Надо сказать, что кембриджские коллеги не очень озаботились воспроизводимостью своих исследований (которые, как я знала и раньше, они делали на языке R), но немного смекалки, немного разведки и помощь читателей этого канала (упомянутая с благодарностью в первой сноске!) позволили во всем разобраться.

Выкладываю свою главу, там ссылочка на репозиторий с кодом. А весь сборник можно найти на сайте СФУ.
👍19🎉8❤‍🔥53👏2
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские отчисления они не забывают получать.
😁102👍2🔥1
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”).

Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?

И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).

Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.

О чем нам это говорит? Стареем спокойно, девочки, стилометрия не заметит, как мы выжили из ума. По поводу “эволюции” Платона — вопросов все больше. #стилометрия #платон
👏11👍4
RAntiquity
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские…
А пока вы ждете релиза, расскажу о том, что в этот топ-5 не попадет.

Roger Kreuz (2023). How Language Creates and Reveals Identity.

Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).

Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).

За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».

Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).

Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).

Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).

Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.

====

Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).

И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
8🤣8👏4👍2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Я между тем все продолжаю думать о старости. В рамках современной стилометрии обнаружилось целое направление, изучающее “эволюции идиолектов”.

В некоторых случаях количественные методы позволяют достаточно точно предсказывать год написания романа. Таков, например, Генри Джеймс.

Стилохронометры (или -метристы?) строят регрессионные модели, чтобы предсказывать дату создания текстов того же Джеймса или Марка Твена.

Для некоторых авторов (см. картинку отсюда) удается достичь достаточно высокой точности, а другие не демонстрируют ясных тенденций.

Отличные результаты были получены для Жюля Верна, Эмиля Золя, Жорж Санд, Анри Гревилля, Даниеля-Лесюёра и Оноре де Бальзака: модели (выбранные n-граммы мотивов) были способны предсказать подавляющее большинство вариаций в данных. Модели объяснили значительную долю вариаций в данных для авторов Мишеля Зевако, Гюстава Эмара, графини де Сегюр и Поля Феваля, но менее половины. Наконец, для Пьера Алексиса Понсона дю Террайля модель не смогла объяснить никакой дисперсии в данных, и, таким образом, эксперимент в целом оказался совершенно неудачным.


Что касается уже упомянутых Гете и Музиля, то глава книги о них оказалась доступна в виде статьи (да, такие сейчас книги…) и датасета.

При ближайшем рассмотрении предложенная там техника выявления соседей вызвала у меня некотрые вопросы. Например, почему 2000 mfw? Это почти наверняка означает влияние тематики. С другой стороны, вывод о том, что жанр важнее даты, мне кажется в целом правдоподобным. #стилометрия
2
Forwarded from Antibarbari HSE (Olga Alieva)
Видео

В 2024 г., итоги которого мы скоро начнем подводить, завершился двухгодовой проект «Цифровая античность» (2022-2024), поддержанный Факультетом гуманитарных наук ВШЭ.

Этот проект стал развитием другой инициативы, «Разработка методических материалов для изучения древнегреческого и латинского языков» (2020-2022).

Именно в далеком 2020 мы — антиварвары и друзья — решили, что надо развивать цифровую экосистему для изучения греческого и латыни, и запустили свой первый сайт https://antibarbari.ru/ и видеоблог.

За четыре года проектной деятельности на этом сайте оказалось собрано множество комментариев к греческим и латинским авторам, а недавно к этому добавились и другие сайты, с интерактивными латинскими и греческими упражнениями и грамматикой.

Параллельно мы записывали видео, писали статьи, работали над параллельным корпусом, разрабатывали курс программирования для антиковедов и, в целом, искали новые точки сближения между античностью и цифрой.

Нам кажется, что получилось неплохо, и итоги работы мы решили изложить в коротком видео. Два года работы за полторы минуты — рассчитываем на ваши лайки!

Спасибо всем, кто нас поддерживал и поддерживает, без вас ничего бы не было.
❤‍🔥156💘4
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии)

🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной группы «Цифровая античность» Ольги Алиевой.

1️⃣ Anthony Kenny. The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities (1982). Британский философ, воспитанный на Аристотеле, Фоме и Витгенштейне, написал небольшое и внятное (возможно, самое внятное) введение в статистику для гуманитариев. Неустаревающая классика.

2️⃣ Jacques Savoy. Machine Learning Methods for Stylometry (2020). Специалист по автоматической категоризации текстов Жак Савой найдет, что сказать и про апостола Павла, и про Элену Ферранте, и даже про Дональда Трампа. Доходчивое объяснение методов современной компьютерной стилометрии – от базовых алгоритмов МО до нейросетевого анализа. Все примеры – с кодом на языке R.

3️⃣ Harold Love. Attributing Authorship (2002). Рафинированный литературовед рассказывает об атрибуции авторства с примерами из Иеронима и Эразма. Риторический лоск, концептуальные обобщения, цитаты из Йейтса и Фуко, никаких таблиц. Непростое, но вознаграждающее чтение.

4️⃣ Hugh Craig, Arthur F. Kinney, eds. Shakespeare, Computers, and the Mystery of Authorship (2009). Хороший пример количественного исследования, которое обходится без «черных ящиков» и не подменяет разговор о стиле разговором о статистике. Книга поможет сориентироваться в шекспировском вопросе, а заодно понять, что такое Zeta.

5️⃣ Massimo Salgano. Stylistics, Stylometry and Sentiment Analysis in German Studies: Operationalization of Literary Values (2023). Несмотря на неряшливое изложение и рыхлую композицию, работа не лишена теоретических прозрений, из которых важнейшее — указание на связь стилометрии с «уликовой парадигмой» Карло Гинзбурга.

#чтопочитать #стилометрия #статистика #языкR #ML #исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Гуманитарии в цифре
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии) 🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной…
Борис Орехов обратил мое внимание на то, что это все придумал Орехов в девятнадцатом году о связи стилометрии с уликовой парадигмой он писал раньше. Но об импликациях этой связи сказано все же пока недостаточно.

А какие импликации? Диагност, разгадывающий значение странных симптомов; знаток живописи, по мочке уха отличающий оригинал от подлинника; гениальный сыщик, восстанавливающий ход событий по сигарному пеплу; наконец, филолог, определяющий автора по стилистическим Kleinigkeiten, — все они не являются представителями “строгого” знания, даже если действуют lege artis.

Невозможно выучиться профессии знатока или диагноста, ограничиваясь практическим применением заранее данных правил. В познании такого типа решающую роль приобретают (как принято говорить) неуловимые элементы: чутье, острый глаз, интуиция. — К. Гинзбург


Это напоминает мне рассуждение Платона в “Политике” о том, что закон не лучше законодателя, как книга рецептов не заменяет врача. Специалист для него — “автократор” в том смысле, что не столько подчиняется законам искусства (τἐχνη), сколько создает их. Так и здесь. Под гениальное прозрение можно подвести правила, но оно само не подчиняется правилам.

Появление компьютера (Гинзбург писал в 1979 г.) ничего принципиально не меняет. Сравнение ушей, частиц, сигарного пепла упрощается, поиск паттернов ускоряется, но решающий hunch зависит от знатока.

Тут нужно, правда, сделать оговорку. Так никто не лечит и не расследует. Шерлок Холмс принадлежит другой эпохе. Доктору Хаусу противостоит всемогущий Протокол в лице доктора Кадди. Любой порядок, устав, правило снижает риск ошибки, и как потенциальные больные мы скорее на стороне Кадди. В конце концов даже Платон пишет законы.

Ценность прозрения, однако, неизмеримо возрастает там, где симптомы не вписываются в алгоритм. Когда надо исключить не ангину, а волчанку. Когда вместо обычного дела перед судьей “контроверза” с участием пиратов. Когда с той стороны на тебя смотрит незаурядный аферист — или незаурядный автор, мистификатор и чревовещатель, как Платон.

Поэтому “унитаризм” в платоноведении кажется надежнее, а любые “эволюционные” схемы всегда будут привлекать скорее романтиков, тоскующих по великим разоблачениям. Поэтому студенты, лишенные азарта в духе “Собаки Баскервилей” или Вильгельма Баскервильского, обычно быстро теряют интерес к стилометрии. “Мы думали — тут правила и ответы, а тут исключения и вопросы”.
10👍3🔥2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов.

Риттера спровоцировал Эдуард Целлер, который, как известно, был одним из критиков новомодной Sprachstatistik. Целлер считал, что пока эффективность метода не доказана на новых авторах, нельзя ничего сказать про старых. Риттер вздохнул («К сожалению, среди многочисленных учеников Целлера пока нет того, кто взялся бы за такую сложную задачу») и сел считать. Оставлю тут ссылки на две его работы 1903 г. (раз и раз).

К делу Риттер подошел очень основательно. Для анализа он отобрал из 40-томного собрания сочинений только прозу (письма, эссеистику, драматургию и т.п.). Тексты (поделенные на три временных периода) были разбиты на отрывки примерно одинаковой длины для удобства сравнения. Подсчеты проводились вручную (частично с привлечением сторонней помощи, как признает не без сожаления Риттер). Вот его выводы (см. картинку):

Я думаю, что приведённое выше достаточно для того, чтобы выполнить требование доктора Целлера. Применение статистики языка к произведениям Гёте уже доказало свою надёжность как метод хронологического анализа.


#стилометрия #платон
🍓6