RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”).

Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?

И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).

Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.

О чем нам это говорит? Стареем спокойно, девочки, стилометрия не заметит, как мы выжили из ума. По поводу “эволюции” Платона — вопросов все больше. #стилометрия #платон
👏11👍4
RAntiquity
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские…
А пока вы ждете релиза, расскажу о том, что в этот топ-5 не попадет.

Roger Kreuz (2023). How Language Creates and Reveals Identity.

Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).

Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).

За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».

Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).

Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).

Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).

Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.

====

Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).

И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
8🤣8👏4👍2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Я между тем все продолжаю думать о старости. В рамках современной стилометрии обнаружилось целое направление, изучающее “эволюции идиолектов”.

В некоторых случаях количественные методы позволяют достаточно точно предсказывать год написания романа. Таков, например, Генри Джеймс.

Стилохронометры (или -метристы?) строят регрессионные модели, чтобы предсказывать дату создания текстов того же Джеймса или Марка Твена.

Для некоторых авторов (см. картинку отсюда) удается достичь достаточно высокой точности, а другие не демонстрируют ясных тенденций.

Отличные результаты были получены для Жюля Верна, Эмиля Золя, Жорж Санд, Анри Гревилля, Даниеля-Лесюёра и Оноре де Бальзака: модели (выбранные n-граммы мотивов) были способны предсказать подавляющее большинство вариаций в данных. Модели объяснили значительную долю вариаций в данных для авторов Мишеля Зевако, Гюстава Эмара, графини де Сегюр и Поля Феваля, но менее половины. Наконец, для Пьера Алексиса Понсона дю Террайля модель не смогла объяснить никакой дисперсии в данных, и, таким образом, эксперимент в целом оказался совершенно неудачным.


Что касается уже упомянутых Гете и Музиля, то глава книги о них оказалась доступна в виде статьи (да, такие сейчас книги…) и датасета.

При ближайшем рассмотрении предложенная там техника выявления соседей вызвала у меня некотрые вопросы. Например, почему 2000 mfw? Это почти наверняка означает влияние тематики. С другой стороны, вывод о том, что жанр важнее даты, мне кажется в целом правдоподобным. #стилометрия
2
Forwarded from Antibarbari HSE (Olga Alieva)
Видео

В 2024 г., итоги которого мы скоро начнем подводить, завершился двухгодовой проект «Цифровая античность» (2022-2024), поддержанный Факультетом гуманитарных наук ВШЭ.

Этот проект стал развитием другой инициативы, «Разработка методических материалов для изучения древнегреческого и латинского языков» (2020-2022).

Именно в далеком 2020 мы — антиварвары и друзья — решили, что надо развивать цифровую экосистему для изучения греческого и латыни, и запустили свой первый сайт https://antibarbari.ru/ и видеоблог.

За четыре года проектной деятельности на этом сайте оказалось собрано множество комментариев к греческим и латинским авторам, а недавно к этому добавились и другие сайты, с интерактивными латинскими и греческими упражнениями и грамматикой.

Параллельно мы записывали видео, писали статьи, работали над параллельным корпусом, разрабатывали курс программирования для антиковедов и, в целом, искали новые точки сближения между античностью и цифрой.

Нам кажется, что получилось неплохо, и итоги работы мы решили изложить в коротком видео. Два года работы за полторы минуты — рассчитываем на ваши лайки!

Спасибо всем, кто нас поддерживал и поддерживает, без вас ничего бы не было.
❤‍🔥156💘4
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии)

🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной группы «Цифровая античность» Ольги Алиевой.

1️⃣ Anthony Kenny. The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities (1982). Британский философ, воспитанный на Аристотеле, Фоме и Витгенштейне, написал небольшое и внятное (возможно, самое внятное) введение в статистику для гуманитариев. Неустаревающая классика.

2️⃣ Jacques Savoy. Machine Learning Methods for Stylometry (2020). Специалист по автоматической категоризации текстов Жак Савой найдет, что сказать и про апостола Павла, и про Элену Ферранте, и даже про Дональда Трампа. Доходчивое объяснение методов современной компьютерной стилометрии – от базовых алгоритмов МО до нейросетевого анализа. Все примеры – с кодом на языке R.

3️⃣ Harold Love. Attributing Authorship (2002). Рафинированный литературовед рассказывает об атрибуции авторства с примерами из Иеронима и Эразма. Риторический лоск, концептуальные обобщения, цитаты из Йейтса и Фуко, никаких таблиц. Непростое, но вознаграждающее чтение.

4️⃣ Hugh Craig, Arthur F. Kinney, eds. Shakespeare, Computers, and the Mystery of Authorship (2009). Хороший пример количественного исследования, которое обходится без «черных ящиков» и не подменяет разговор о стиле разговором о статистике. Книга поможет сориентироваться в шекспировском вопросе, а заодно понять, что такое Zeta.

5️⃣ Massimo Salgano. Stylistics, Stylometry and Sentiment Analysis in German Studies: Operationalization of Literary Values (2023). Несмотря на неряшливое изложение и рыхлую композицию, работа не лишена теоретических прозрений, из которых важнейшее — указание на связь стилометрии с «уликовой парадигмой» Карло Гинзбурга.

#чтопочитать #стилометрия #статистика #языкR #ML #исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Гуманитарии в цифре
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии) 🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной…
Борис Орехов обратил мое внимание на то, что это все придумал Орехов в девятнадцатом году о связи стилометрии с уликовой парадигмой он писал раньше. Но об импликациях этой связи сказано все же пока недостаточно.

А какие импликации? Диагност, разгадывающий значение странных симптомов; знаток живописи, по мочке уха отличающий оригинал от подлинника; гениальный сыщик, восстанавливающий ход событий по сигарному пеплу; наконец, филолог, определяющий автора по стилистическим Kleinigkeiten, — все они не являются представителями “строгого” знания, даже если действуют lege artis.

Невозможно выучиться профессии знатока или диагноста, ограничиваясь практическим применением заранее данных правил. В познании такого типа решающую роль приобретают (как принято говорить) неуловимые элементы: чутье, острый глаз, интуиция. — К. Гинзбург


Это напоминает мне рассуждение Платона в “Политике” о том, что закон не лучше законодателя, как книга рецептов не заменяет врача. Специалист для него — “автократор” в том смысле, что не столько подчиняется законам искусства (τἐχνη), сколько создает их. Так и здесь. Под гениальное прозрение можно подвести правила, но оно само не подчиняется правилам.

Появление компьютера (Гинзбург писал в 1979 г.) ничего принципиально не меняет. Сравнение ушей, частиц, сигарного пепла упрощается, поиск паттернов ускоряется, но решающий hunch зависит от знатока.

Тут нужно, правда, сделать оговорку. Так никто не лечит и не расследует. Шерлок Холмс принадлежит другой эпохе. Доктору Хаусу противостоит всемогущий Протокол в лице доктора Кадди. Любой порядок, устав, правило снижает риск ошибки, и как потенциальные больные мы скорее на стороне Кадди. В конце концов даже Платон пишет законы.

Ценность прозрения, однако, неизмеримо возрастает там, где симптомы не вписываются в алгоритм. Когда надо исключить не ангину, а волчанку. Когда вместо обычного дела перед судьей “контроверза” с участием пиратов. Когда с той стороны на тебя смотрит незаурядный аферист — или незаурядный автор, мистификатор и чревовещатель, как Платон.

Поэтому “унитаризм” в платоноведении кажется надежнее, а любые “эволюционные” схемы всегда будут привлекать скорее романтиков, тоскующих по великим разоблачениям. Поэтому студенты, лишенные азарта в духе “Собаки Баскервилей” или Вильгельма Баскервильского, обычно быстро теряют интерес к стилометрии. “Мы думали — тут правила и ответы, а тут исключения и вопросы”.
10👍3🔥2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов.

Риттера спровоцировал Эдуард Целлер, который, как известно, был одним из критиков новомодной Sprachstatistik. Целлер считал, что пока эффективность метода не доказана на новых авторах, нельзя ничего сказать про старых. Риттер вздохнул («К сожалению, среди многочисленных учеников Целлера пока нет того, кто взялся бы за такую сложную задачу») и сел считать. Оставлю тут ссылки на две его работы 1903 г. (раз и раз).

К делу Риттер подошел очень основательно. Для анализа он отобрал из 40-томного собрания сочинений только прозу (письма, эссеистику, драматургию и т.п.). Тексты (поделенные на три временных периода) были разбиты на отрывки примерно одинаковой длины для удобства сравнения. Подсчеты проводились вручную (частично с привлечением сторонней помощи, как признает не без сожаления Риттер). Вот его выводы (см. картинку):

Я думаю, что приведённое выше достаточно для того, чтобы выполнить требование доктора Целлера. Применение статистики языка к произведениям Гёте уже доказало свою надёжность как метод хронологического анализа.


#стилометрия #платон
🍓6
🌟Ч/б оформление графика в ggplot для полиграфической печати. Несколько опций:

🌟 scale_fill_grey() для равномерной заливки (контраст задается аргументами start и end);

🌟 пакет ggpattern для узоров.

На втором рисунке группа кодируется углом наклона и дополнительно оттенком серого. Толщина линий и просветы между ними, а также цвет обводки отрегулированы вручную. (Я не люблю горошки, но такое там тоже есть). #ggplot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2
Попалось у того же Гарольда Лава любопытное рассуждение в контексте определения авторства.

"Автор" (в смысле precursory author) может быть у целого жанра. Например, Серджо Леоне является автором спагетти-вестерна, и в этом смысле -- он соавтор Клинта Иствуда, который прославился благодаря фильмам Леоне, а затем начал выпекать свои собственные пирожки (или правильнее сказать: варить собственные спагетти?).

Развивая эту мысль, Лав называет Плутарха (точнее, его английский перевод) соавтором Шекспира. И едва ли можно сомневаться, что если бы Плутарх был жив, ему бы стоило потребовать свою долю авторских отчислений (сейчас это называется "автор идеи").

Когда договориться не получается, это называют плагиат (такая история, говорят, приключилась с "Ребеккой" Дафны дю Морье). В остальных случаях -- collaborative authorship.

Правда, к Плутарху тоже кое-кто мог бы постучаться с того света. Вообще в конце времен мы увидим очень длинные титры.

P.S. Код тоже будет, скоро -- но его же надо как-то и осмыслять. А может и не будет 🍝🍝🍝
Please open Telegram to view this post
VIEW IN TELEGRAM
👍111
Статья Поля Таннери, знаменитого историка науки и философии, о методе стилометрии (1899) — один из первых откликов на Лютославского во франкоязычном поле; отклик очень осторожный — но не резкий, как у Целлера.

Таннери замечает, что стилометрия не дает надежных оснований для атетезы (о чем я недавно писала, не зная о его статье). Причем это касается не только “спорных” (dubia), но и “подложных” (spuria) диалогов (французы их называют иногда “апокрифы”):

И если последние, кажется, отличаются от остальных, то не наличием особенностей, чуждых стилю Платона, а отсутствием (или редкостью) особенностей, которые придают этому стилю характер самобытности и выразительности (например, использованием редких или созданных самим Платоном слов).


Сегодня звучит непривычно, что Таннери говорит об “авторах без стиля”: популярные метафоры “отпечатка пальца” или даже “лингвистического ДНК” приучили нас к тому, что какой-никакой стиль гарантирован всякому.

Таннери не уверен: “безличные сочинения”, по его словам, не так просто распознать. За этим стоит совершенно иное представление о стиле как о ценности, которое, наверное, еще живо где-то в литературоведении, но совершенно нерелевантно (и почти забыто) в области автоматической классификации текстов.

Нам гораздо проще представить стиль без автора, чем автора без стиля.

#стилометрия
🔥9👍3
RAntiquity
Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов. Риттера спровоцировал Эдуард Целлер…
Решительность, с которой доктор Целлер сопротивлялся новомодной в кон. 19 в. стилометрии, можно понять. Этот подход совершенно опрокидывал его собственную хронологию платоновского творчества, в которой «Теэтет» написан до первой Сицилийской поездки, а «Софист» и «Филеб» предшествуют «Государству».

Частью этого сопротивления стала статья «Sprachstatistisches», опубликованная в Archiv für Geschichte der Philosophie в 1898. В ней Целлер взял для сравнения 14 разных произведений немецкого философа Давида Фридриха Штрауса, сделал из них выборки равной длины и посчитал все знаки пунктуации. На первой картинке — таблица, которую он опубликовал, спрятав для начала года публикации под спойлером, точнее за римскими цифрами.

О чем же это нам говорит? Целлер рассуждает примерно так (голосом виртуального стилометриста): количество периодов, которые находятся на одном и том же пространстве, колеблется между 41 и 115, при этом больший объем периода вовсе не сопровождается богатой внутренней структурой, поскольку знаки препинания, указывающие на такую структуру (например, точка с запятой или двоеточие), появляются так же часто в меньших периодах, как и в больших...

Подобное явление нельзя считать случайным, и какая другая причина может объяснить его, кроме того, что в стиле писателя за годы произошли изменения?



Но очень быстро выясняется, что эта конструкция совершенно неверна: Целлер показывает, что она не имеет ничего общего с реальной хронологией Штрауса. Вывод, понятно, направлен против Диттенбергера и Ко.

Риторически это очень эффектно, но по существу ничего не доказывает: мало наблюдений и произвольно выбраны предикторы. Но что интересно. Я перегнала картинку в csv (оставлю в комментариях) и немного поупражнялась с tidymodels. Результат на картинке № 2. Не блестяще, но и не совсем мимо. При желании (и если бы во времена Целлера использовали множественную регрессию для текстовых данных), он мог бы из этой таблички сделать противоположный вывод.

Мораль: чат GPT прекрасно превращает картинки с табличками в csv. Хозяйке на заметку.

#стилометрия
👍10❤‍🔥1
RAntiquity
🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать. Итак,…
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R#tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.


2️⃣6️⃣1️⃣2️⃣


9️⃣ Регулярные выражения (видео, текст).

🔟 Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.

1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.

1️⃣2️⃣ Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.

1️⃣3️⃣ Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.

1️⃣4️⃣ Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.

1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.

1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет, видео.

🫥🫥🫥🫥🫥

Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.

И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥8👍2👨‍💻2
Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!
11👍2🔥1
Год завершается выходом важного для меня текста: “Возможна ли цифровая история философии?” (ИФЕ).

Этот текст — попытка осмыслить то, что с нами сегодня происходит, но происходит как будто стихийно, не произрастая изнутри научной отрасли, а привходя извне в программы, планы и методики преподавания.

Что же должен уметь “цифровой” историк философии? Как это повлияет на научное поле в средне- и долгосрочной перспективе? Ответ на эти вопросы не может быть однозначным и уж во всяком случае он не может вместиться в одну статью. Нужен опыт, и опыт разнообразный — но нужна и чисто теоретическая рефлексия.

Как оказалось, это намного сложнее, чем писать код. Но я рада, что пришлось все-таки такой работой заняться (точнее, лишь подступиться к делу), потому что это стало хорошим поводом задуматься о фундаментальных предпосылках историко-философской дисциплины.

Оставлю здесь одну цитату. Остальное — по ссылке.

И здесь прежде всего можно заметить, что историки философии находятся далеко не в авангарде цифровизации. Наивно-психологическое объяснение, которое нередко приходится слышать, сводится к констатации «страха» гуманитариев перед цифрой. Если это предположение верно, то небольшое административное усилие должно привести к желанному расцвету цифровых историко-философских исследований. Как будет показано далее, это объяснение ошибочно, а ожидаемый эффект едва ли достижим. Недостаток интереса к DH со стороны историков философии объясняется не страхом (программирование всяко не страшнее «Второй аналитики» Аристотеля), а спецификой самого историко-философского исследования, лишь некоторые жанры которого допускают применение стандартных методов NLP, причем в очень ограниченной степени. Сохранение тренда на форсированную цифровизацию отрасли приведет не к расцвету цифровой истории философии, а к вытеснению классических историко-философских подходов методами «истории идей» в духе Лавджоя или «автоматического анализа дискурса» в духе французского структурализма. Но даже на этих направлениях, если мы хотим их развивать, основные ограничения носят не технический, а теоретический характер: методы компьютерного анализа текста, в целом, хорошо известны и даже не очень сложны в освоении. Что не так очевидно, так это границы их применимости в области истории философии и интеллектуальной истории.


Едва ли стоит уточнять (хотя см. первую сноску), что я обязана очень многим людям, благодаря общению с которыми сложился этот текст. Я надеюсь, что диалог внутри профессионального сообщества продолжится, потому что иначе нам придется жить в мире, придуманном кем-то другим.
15🔥8👍1😁1
Ну что, дорогие пифагорейцы. Calculemus.

> 45^2
[1] 2025
> sum(1:9)
[1] 45
> sum((1:9)^3)
[1] 2025


1️⃣ 2025 — это 45 в квадрате.
2️⃣ 45 — это сумма всех цифр (от 1 до 9).
3️⃣Квадрат суммы равен сумме кубов.

❗️Подсмотрено у Савватеева ❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
19
А знаете ли вы, что до 26 января можно податься (или номинировать друга) на DH Awards? Я не планирую, но буду рада поддержать коллег; после публикации списка номинантов кидайте ссылки в комментарии. Плюшек за это никаких не дают, кроме приятного чувства победы. Ну и что.
10🎉2