RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
в Лиге Айвы поговорили с Борисом Ореховым о том, как неклассические университеты переиозобретают классику, чем кролик на зайца непохож университет отличаются от всего остального.

в ходе записи подкаста пытаемся различить пранк и кринж.

https://t.iss.one/universitates_podcast/110
👍32
Погода портится, хочется тыквенного латте и красоты. Поэтому сегодня — датасет “Шедевры Пушкинского музея” (отсюда).

Визуализация: пакет imager. #цифровые_этюды
14👍1
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus.

Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.

1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.

2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.

3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.

4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html. Можно и регуляркой сделать, не выпендриваясь. Но требуется навык работы с css, потому что какие-то мелкие штучки все время прыгают не в ту сторону.

5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.

Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.

#xml #html #филеб
10👍5
Доктор Фауст рассказывает, почему он решил обратиться от гуманитарных исследований к программированию.

Пусть я разумней всех глупцов -
Писак, попов, магистров, докторов,
…Зато я радостей не знаю,
Напрасно истину ищу,
Зато, когда людей учу,
Их научить, исправить - не мечтаю!
Притом я нищ: не ведаю, бедняк,
Ни почестей людских, ни разных благ...
Так пёс не стал бы жить! Погибли годы!
Вот почему я магии решил
Предаться…


Все совпадения случайны.
😁183😢1
Коллеги из “Системного блока” сделали очень внятную точку входа в DH: темы, люди, журналы, образовательные программы. Все, чтобы сориентироваться и правильно распределить усилия. https://sysblok.ru/dh/
🔥118
RAntiquity
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus. Но недавно пришлось задуматься и о другом применении XML, о именно — как основы…
В выходные удалось немного поработать над сайтом “Филеба”.

- html греческого текста получил новую курточку новые стили css : теперь milestones, как им и положено, выстроились слева от текста.

- также добавила русский перевод; окончательным его не считаю, но печальный опыт переводчиков “Филеба” говорит о том, что лучше сохранять и дорабатывать промежуточные версии, чем надеяться когда-то все довести до совершенства.

- кстати, если перевод опубликован на GitHub Pages, значит ли это, что замечания к переводу можно оставлять в issues? мне кажется, это отличная идея: обсуждать способы перевода греческих частиц на гитхабе. к тому же удобно, всегда можно пометить баг как устраненный и закрыть обсуждение.

- в планах обновить страницу с видео семинаров, на которых этот перевод рождался при поддержке коллег и студентов

#филеб
11🔥4👎1🤩1💅1
Совершенно непонятно, когда работать над своими проектами, ведь столько всего интересного вокруг происходит.
💯133
Forwarded from DH CLOUD
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
👍119🔥62👏2
Пакеты FactoMineR & factoextra — отличные альтернативы базовому R для анализа главных компонент. Позволяют изящно изобразить одновременно и нагрузки компонент, и сами наблюдения, а также отобрать самые значимые переменные, чтобы график не был очень шумным.

Код очень лаконичный:


fviz_pca_biplot(pca_object, geom = "point", habillage = as.factor(group), addEllipses = TRUE, select.var = list(cos2 = 20))


Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.

Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.

Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
👍61
ушел думать о смысле жизни и бренности бытия

(и да, я всегда здороваюсь, говорю “спасибо” и “пожалуйста”)
😁25👍5🥰5
Уже очень давно мне хотелось написать рецензию на книгу Explorations in the Digital History of Ideas (2023). Цифровая история идей — совсем новое явление в DH, интересно было внимательно посмотреть на методологию и конкретные инструменты, которые нашли применение в этой отрасли.

Повод представился благодаря коллегам из СФУ, решившим собрать коллективную монографию под названием “Будь в курсе цифровых гуманитарных исследований”.

Область у нас высокотехнологичная, поэтому и рецензию я решила написать не простую, а в жанре реверс-инжиниринга. Т.е. буквально разобраться, как они все считали — и в меньшем мастштабе повторить все вычисления.

Надо сказать, что кембриджские коллеги не очень озаботились воспроизводимостью своих исследований (которые, как я знала и раньше, они делали на языке R), но немного смекалки, немного разведки и помощь читателей этого канала (упомянутая с благодарностью в первой сноске!) позволили во всем разобраться.

Выкладываю свою главу, там ссылочка на репозиторий с кодом. А весь сборник можно найти на сайте СФУ.
👍19🎉8❤‍🔥53👏2
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские отчисления они не забывают получать.
😁102👍2🔥1
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”).

Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?

И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).

Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.

О чем нам это говорит? Стареем спокойно, девочки, стилометрия не заметит, как мы выжили из ума. По поводу “эволюции” Платона — вопросов все больше. #стилометрия #платон
👏11👍4
RAntiquity
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские…
А пока вы ждете релиза, расскажу о том, что в этот топ-5 не попадет.

Roger Kreuz (2023). How Language Creates and Reveals Identity.

Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).

Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).

За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».

Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).

Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).

Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).

Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.

====

Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).

И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
8🤣8👏4👍2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Я между тем все продолжаю думать о старости. В рамках современной стилометрии обнаружилось целое направление, изучающее “эволюции идиолектов”.

В некоторых случаях количественные методы позволяют достаточно точно предсказывать год написания романа. Таков, например, Генри Джеймс.

Стилохронометры (или -метристы?) строят регрессионные модели, чтобы предсказывать дату создания текстов того же Джеймса или Марка Твена.

Для некоторых авторов (см. картинку отсюда) удается достичь достаточно высокой точности, а другие не демонстрируют ясных тенденций.

Отличные результаты были получены для Жюля Верна, Эмиля Золя, Жорж Санд, Анри Гревилля, Даниеля-Лесюёра и Оноре де Бальзака: модели (выбранные n-граммы мотивов) были способны предсказать подавляющее большинство вариаций в данных. Модели объяснили значительную долю вариаций в данных для авторов Мишеля Зевако, Гюстава Эмара, графини де Сегюр и Поля Феваля, но менее половины. Наконец, для Пьера Алексиса Понсона дю Террайля модель не смогла объяснить никакой дисперсии в данных, и, таким образом, эксперимент в целом оказался совершенно неудачным.


Что касается уже упомянутых Гете и Музиля, то глава книги о них оказалась доступна в виде статьи (да, такие сейчас книги…) и датасета.

При ближайшем рассмотрении предложенная там техника выявления соседей вызвала у меня некотрые вопросы. Например, почему 2000 mfw? Это почти наверняка означает влияние тематики. С другой стороны, вывод о том, что жанр важнее даты, мне кажется в целом правдоподобным. #стилометрия
2
Forwarded from Antibarbari HSE (Olga Alieva)
Видео

В 2024 г., итоги которого мы скоро начнем подводить, завершился двухгодовой проект «Цифровая античность» (2022-2024), поддержанный Факультетом гуманитарных наук ВШЭ.

Этот проект стал развитием другой инициативы, «Разработка методических материалов для изучения древнегреческого и латинского языков» (2020-2022).

Именно в далеком 2020 мы — антиварвары и друзья — решили, что надо развивать цифровую экосистему для изучения греческого и латыни, и запустили свой первый сайт https://antibarbari.ru/ и видеоблог.

За четыре года проектной деятельности на этом сайте оказалось собрано множество комментариев к греческим и латинским авторам, а недавно к этому добавились и другие сайты, с интерактивными латинскими и греческими упражнениями и грамматикой.

Параллельно мы записывали видео, писали статьи, работали над параллельным корпусом, разрабатывали курс программирования для антиковедов и, в целом, искали новые точки сближения между античностью и цифрой.

Нам кажется, что получилось неплохо, и итоги работы мы решили изложить в коротком видео. Два года работы за полторы минуты — рассчитываем на ваши лайки!

Спасибо всем, кто нас поддерживал и поддерживает, без вас ничего бы не было.
❤‍🔥156💘4
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии)

🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной группы «Цифровая античность» Ольги Алиевой.

1️⃣ Anthony Kenny. The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities (1982). Британский философ, воспитанный на Аристотеле, Фоме и Витгенштейне, написал небольшое и внятное (возможно, самое внятное) введение в статистику для гуманитариев. Неустаревающая классика.

2️⃣ Jacques Savoy. Machine Learning Methods for Stylometry (2020). Специалист по автоматической категоризации текстов Жак Савой найдет, что сказать и про апостола Павла, и про Элену Ферранте, и даже про Дональда Трампа. Доходчивое объяснение методов современной компьютерной стилометрии – от базовых алгоритмов МО до нейросетевого анализа. Все примеры – с кодом на языке R.

3️⃣ Harold Love. Attributing Authorship (2002). Рафинированный литературовед рассказывает об атрибуции авторства с примерами из Иеронима и Эразма. Риторический лоск, концептуальные обобщения, цитаты из Йейтса и Фуко, никаких таблиц. Непростое, но вознаграждающее чтение.

4️⃣ Hugh Craig, Arthur F. Kinney, eds. Shakespeare, Computers, and the Mystery of Authorship (2009). Хороший пример количественного исследования, которое обходится без «черных ящиков» и не подменяет разговор о стиле разговором о статистике. Книга поможет сориентироваться в шекспировском вопросе, а заодно понять, что такое Zeta.

5️⃣ Massimo Salgano. Stylistics, Stylometry and Sentiment Analysis in German Studies: Operationalization of Literary Values (2023). Несмотря на неряшливое изложение и рыхлую композицию, работа не лишена теоретических прозрений, из которых важнейшее — указание на связь стилометрии с «уликовой парадигмой» Карло Гинзбурга.

#чтопочитать #стилометрия #статистика #языкR #ML #исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Гуманитарии в цифре
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии) 🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной…
Борис Орехов обратил мое внимание на то, что это все придумал Орехов в девятнадцатом году о связи стилометрии с уликовой парадигмой он писал раньше. Но об импликациях этой связи сказано все же пока недостаточно.

А какие импликации? Диагност, разгадывающий значение странных симптомов; знаток живописи, по мочке уха отличающий оригинал от подлинника; гениальный сыщик, восстанавливающий ход событий по сигарному пеплу; наконец, филолог, определяющий автора по стилистическим Kleinigkeiten, — все они не являются представителями “строгого” знания, даже если действуют lege artis.

Невозможно выучиться профессии знатока или диагноста, ограничиваясь практическим применением заранее данных правил. В познании такого типа решающую роль приобретают (как принято говорить) неуловимые элементы: чутье, острый глаз, интуиция. — К. Гинзбург


Это напоминает мне рассуждение Платона в “Политике” о том, что закон не лучше законодателя, как книга рецептов не заменяет врача. Специалист для него — “автократор” в том смысле, что не столько подчиняется законам искусства (τἐχνη), сколько создает их. Так и здесь. Под гениальное прозрение можно подвести правила, но оно само не подчиняется правилам.

Появление компьютера (Гинзбург писал в 1979 г.) ничего принципиально не меняет. Сравнение ушей, частиц, сигарного пепла упрощается, поиск паттернов ускоряется, но решающий hunch зависит от знатока.

Тут нужно, правда, сделать оговорку. Так никто не лечит и не расследует. Шерлок Холмс принадлежит другой эпохе. Доктору Хаусу противостоит всемогущий Протокол в лице доктора Кадди. Любой порядок, устав, правило снижает риск ошибки, и как потенциальные больные мы скорее на стороне Кадди. В конце концов даже Платон пишет законы.

Ценность прозрения, однако, неизмеримо возрастает там, где симптомы не вписываются в алгоритм. Когда надо исключить не ангину, а волчанку. Когда вместо обычного дела перед судьей “контроверза” с участием пиратов. Когда с той стороны на тебя смотрит незаурядный аферист — или незаурядный автор, мистификатор и чревовещатель, как Платон.

Поэтому “унитаризм” в платоноведении кажется надежнее, а любые “эволюционные” схемы всегда будут привлекать скорее романтиков, тоскующих по великим разоблачениям. Поэтому студенты, лишенные азарта в духе “Собаки Баскервилей” или Вильгельма Баскервильского, обычно быстро теряют интерес к стилометрии. “Мы думали — тут правила и ответы, а тут исключения и вопросы”.
10👍3🔥2