RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии)

🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной группы «Цифровая античность» Ольги Алиевой.

1️⃣ Anthony Kenny. The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities (1982). Британский философ, воспитанный на Аристотеле, Фоме и Витгенштейне, написал небольшое и внятное (возможно, самое внятное) введение в статистику для гуманитариев. Неустаревающая классика.

2️⃣ Jacques Savoy. Machine Learning Methods for Stylometry (2020). Специалист по автоматической категоризации текстов Жак Савой найдет, что сказать и про апостола Павла, и про Элену Ферранте, и даже про Дональда Трампа. Доходчивое объяснение методов современной компьютерной стилометрии – от базовых алгоритмов МО до нейросетевого анализа. Все примеры – с кодом на языке R.

3️⃣ Harold Love. Attributing Authorship (2002). Рафинированный литературовед рассказывает об атрибуции авторства с примерами из Иеронима и Эразма. Риторический лоск, концептуальные обобщения, цитаты из Йейтса и Фуко, никаких таблиц. Непростое, но вознаграждающее чтение.

4️⃣ Hugh Craig, Arthur F. Kinney, eds. Shakespeare, Computers, and the Mystery of Authorship (2009). Хороший пример количественного исследования, которое обходится без «черных ящиков» и не подменяет разговор о стиле разговором о статистике. Книга поможет сориентироваться в шекспировском вопросе, а заодно понять, что такое Zeta.

5️⃣ Massimo Salgano. Stylistics, Stylometry and Sentiment Analysis in German Studies: Operationalization of Literary Values (2023). Несмотря на неряшливое изложение и рыхлую композицию, работа не лишена теоретических прозрений, из которых важнейшее — указание на связь стилометрии с «уликовой парадигмой» Карло Гинзбурга.

#чтопочитать #стилометрия #статистика #языкR #ML #исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Гуманитарии в цифре
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии) 🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной…
Борис Орехов обратил мое внимание на то, что это все придумал Орехов в девятнадцатом году о связи стилометрии с уликовой парадигмой он писал раньше. Но об импликациях этой связи сказано все же пока недостаточно.

А какие импликации? Диагност, разгадывающий значение странных симптомов; знаток живописи, по мочке уха отличающий оригинал от подлинника; гениальный сыщик, восстанавливающий ход событий по сигарному пеплу; наконец, филолог, определяющий автора по стилистическим Kleinigkeiten, — все они не являются представителями “строгого” знания, даже если действуют lege artis.

Невозможно выучиться профессии знатока или диагноста, ограничиваясь практическим применением заранее данных правил. В познании такого типа решающую роль приобретают (как принято говорить) неуловимые элементы: чутье, острый глаз, интуиция. — К. Гинзбург


Это напоминает мне рассуждение Платона в “Политике” о том, что закон не лучше законодателя, как книга рецептов не заменяет врача. Специалист для него — “автократор” в том смысле, что не столько подчиняется законам искусства (τἐχνη), сколько создает их. Так и здесь. Под гениальное прозрение можно подвести правила, но оно само не подчиняется правилам.

Появление компьютера (Гинзбург писал в 1979 г.) ничего принципиально не меняет. Сравнение ушей, частиц, сигарного пепла упрощается, поиск паттернов ускоряется, но решающий hunch зависит от знатока.

Тут нужно, правда, сделать оговорку. Так никто не лечит и не расследует. Шерлок Холмс принадлежит другой эпохе. Доктору Хаусу противостоит всемогущий Протокол в лице доктора Кадди. Любой порядок, устав, правило снижает риск ошибки, и как потенциальные больные мы скорее на стороне Кадди. В конце концов даже Платон пишет законы.

Ценность прозрения, однако, неизмеримо возрастает там, где симптомы не вписываются в алгоритм. Когда надо исключить не ангину, а волчанку. Когда вместо обычного дела перед судьей “контроверза” с участием пиратов. Когда с той стороны на тебя смотрит незаурядный аферист — или незаурядный автор, мистификатор и чревовещатель, как Платон.

Поэтому “унитаризм” в платоноведении кажется надежнее, а любые “эволюционные” схемы всегда будут привлекать скорее романтиков, тоскующих по великим разоблачениям. Поэтому студенты, лишенные азарта в духе “Собаки Баскервилей” или Вильгельма Баскервильского, обычно быстро теряют интерес к стилометрии. “Мы думали — тут правила и ответы, а тут исключения и вопросы”.
10👍3🔥2
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов.

Риттера спровоцировал Эдуард Целлер, который, как известно, был одним из критиков новомодной Sprachstatistik. Целлер считал, что пока эффективность метода не доказана на новых авторах, нельзя ничего сказать про старых. Риттер вздохнул («К сожалению, среди многочисленных учеников Целлера пока нет того, кто взялся бы за такую сложную задачу») и сел считать. Оставлю тут ссылки на две его работы 1903 г. (раз и раз).

К делу Риттер подошел очень основательно. Для анализа он отобрал из 40-томного собрания сочинений только прозу (письма, эссеистику, драматургию и т.п.). Тексты (поделенные на три временных периода) были разбиты на отрывки примерно одинаковой длины для удобства сравнения. Подсчеты проводились вручную (частично с привлечением сторонней помощи, как признает не без сожаления Риттер). Вот его выводы (см. картинку):

Я думаю, что приведённое выше достаточно для того, чтобы выполнить требование доктора Целлера. Применение статистики языка к произведениям Гёте уже доказало свою надёжность как метод хронологического анализа.


#стилометрия #платон
🍓6
🌟Ч/б оформление графика в ggplot для полиграфической печати. Несколько опций:

🌟 scale_fill_grey() для равномерной заливки (контраст задается аргументами start и end);

🌟 пакет ggpattern для узоров.

На втором рисунке группа кодируется углом наклона и дополнительно оттенком серого. Толщина линий и просветы между ними, а также цвет обводки отрегулированы вручную. (Я не люблю горошки, но такое там тоже есть). #ggplot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2
Попалось у того же Гарольда Лава любопытное рассуждение в контексте определения авторства.

"Автор" (в смысле precursory author) может быть у целого жанра. Например, Серджо Леоне является автором спагетти-вестерна, и в этом смысле -- он соавтор Клинта Иствуда, который прославился благодаря фильмам Леоне, а затем начал выпекать свои собственные пирожки (или правильнее сказать: варить собственные спагетти?).

Развивая эту мысль, Лав называет Плутарха (точнее, его английский перевод) соавтором Шекспира. И едва ли можно сомневаться, что если бы Плутарх был жив, ему бы стоило потребовать свою долю авторских отчислений (сейчас это называется "автор идеи").

Когда договориться не получается, это называют плагиат (такая история, говорят, приключилась с "Ребеккой" Дафны дю Морье). В остальных случаях -- collaborative authorship.

Правда, к Плутарху тоже кое-кто мог бы постучаться с того света. Вообще в конце времен мы увидим очень длинные титры.

P.S. Код тоже будет, скоро -- но его же надо как-то и осмыслять. А может и не будет 🍝🍝🍝
Please open Telegram to view this post
VIEW IN TELEGRAM
👍111
Статья Поля Таннери, знаменитого историка науки и философии, о методе стилометрии (1899) — один из первых откликов на Лютославского во франкоязычном поле; отклик очень осторожный — но не резкий, как у Целлера.

Таннери замечает, что стилометрия не дает надежных оснований для атетезы (о чем я недавно писала, не зная о его статье). Причем это касается не только “спорных” (dubia), но и “подложных” (spuria) диалогов (французы их называют иногда “апокрифы”):

И если последние, кажется, отличаются от остальных, то не наличием особенностей, чуждых стилю Платона, а отсутствием (или редкостью) особенностей, которые придают этому стилю характер самобытности и выразительности (например, использованием редких или созданных самим Платоном слов).


Сегодня звучит непривычно, что Таннери говорит об “авторах без стиля”: популярные метафоры “отпечатка пальца” или даже “лингвистического ДНК” приучили нас к тому, что какой-никакой стиль гарантирован всякому.

Таннери не уверен: “безличные сочинения”, по его словам, не так просто распознать. За этим стоит совершенно иное представление о стиле как о ценности, которое, наверное, еще живо где-то в литературоведении, но совершенно нерелевантно (и почти забыто) в области автоматической классификации текстов.

Нам гораздо проще представить стиль без автора, чем автора без стиля.

#стилометрия
🔥9👍3
RAntiquity
Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов. Риттера спровоцировал Эдуард Целлер…
Решительность, с которой доктор Целлер сопротивлялся новомодной в кон. 19 в. стилометрии, можно понять. Этот подход совершенно опрокидывал его собственную хронологию платоновского творчества, в которой «Теэтет» написан до первой Сицилийской поездки, а «Софист» и «Филеб» предшествуют «Государству».

Частью этого сопротивления стала статья «Sprachstatistisches», опубликованная в Archiv für Geschichte der Philosophie в 1898. В ней Целлер взял для сравнения 14 разных произведений немецкого философа Давида Фридриха Штрауса, сделал из них выборки равной длины и посчитал все знаки пунктуации. На первой картинке — таблица, которую он опубликовал, спрятав для начала года публикации под спойлером, точнее за римскими цифрами.

О чем же это нам говорит? Целлер рассуждает примерно так (голосом виртуального стилометриста): количество периодов, которые находятся на одном и том же пространстве, колеблется между 41 и 115, при этом больший объем периода вовсе не сопровождается богатой внутренней структурой, поскольку знаки препинания, указывающие на такую структуру (например, точка с запятой или двоеточие), появляются так же часто в меньших периодах, как и в больших...

Подобное явление нельзя считать случайным, и какая другая причина может объяснить его, кроме того, что в стиле писателя за годы произошли изменения?



Но очень быстро выясняется, что эта конструкция совершенно неверна: Целлер показывает, что она не имеет ничего общего с реальной хронологией Штрауса. Вывод, понятно, направлен против Диттенбергера и Ко.

Риторически это очень эффектно, но по существу ничего не доказывает: мало наблюдений и произвольно выбраны предикторы. Но что интересно. Я перегнала картинку в csv (оставлю в комментариях) и немного поупражнялась с tidymodels. Результат на картинке № 2. Не блестяще, но и не совсем мимо. При желании (и если бы во времена Целлера использовали множественную регрессию для текстовых данных), он мог бы из этой таблички сделать противоположный вывод.

Мораль: чат GPT прекрасно превращает картинки с табличками в csv. Хозяйке на заметку.

#стилометрия
👍10❤‍🔥1
RAntiquity
🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать. Итак,…
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R#tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.


2️⃣6️⃣1️⃣2️⃣


9️⃣ Регулярные выражения (видео, текст).

🔟 Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.

1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.

1️⃣2️⃣ Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.

1️⃣3️⃣ Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.

1️⃣4️⃣ Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.

1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.

1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет, видео.

🫥🫥🫥🫥🫥

Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.

И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥8👍2👨‍💻2
Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!
11👍2🔥1
Год завершается выходом важного для меня текста: “Возможна ли цифровая история философии?” (ИФЕ).

Этот текст — попытка осмыслить то, что с нами сегодня происходит, но происходит как будто стихийно, не произрастая изнутри научной отрасли, а привходя извне в программы, планы и методики преподавания.

Что же должен уметь “цифровой” историк философии? Как это повлияет на научное поле в средне- и долгосрочной перспективе? Ответ на эти вопросы не может быть однозначным и уж во всяком случае он не может вместиться в одну статью. Нужен опыт, и опыт разнообразный — но нужна и чисто теоретическая рефлексия.

Как оказалось, это намного сложнее, чем писать код. Но я рада, что пришлось все-таки такой работой заняться (точнее, лишь подступиться к делу), потому что это стало хорошим поводом задуматься о фундаментальных предпосылках историко-философской дисциплины.

Оставлю здесь одну цитату. Остальное — по ссылке.

И здесь прежде всего можно заметить, что историки философии находятся далеко не в авангарде цифровизации. Наивно-психологическое объяснение, которое нередко приходится слышать, сводится к констатации «страха» гуманитариев перед цифрой. Если это предположение верно, то небольшое административное усилие должно привести к желанному расцвету цифровых историко-философских исследований. Как будет показано далее, это объяснение ошибочно, а ожидаемый эффект едва ли достижим. Недостаток интереса к DH со стороны историков философии объясняется не страхом (программирование всяко не страшнее «Второй аналитики» Аристотеля), а спецификой самого историко-философского исследования, лишь некоторые жанры которого допускают применение стандартных методов NLP, причем в очень ограниченной степени. Сохранение тренда на форсированную цифровизацию отрасли приведет не к расцвету цифровой истории философии, а к вытеснению классических историко-философских подходов методами «истории идей» в духе Лавджоя или «автоматического анализа дискурса» в духе французского структурализма. Но даже на этих направлениях, если мы хотим их развивать, основные ограничения носят не технический, а теоретический характер: методы компьютерного анализа текста, в целом, хорошо известны и даже не очень сложны в освоении. Что не так очевидно, так это границы их применимости в области истории философии и интеллектуальной истории.


Едва ли стоит уточнять (хотя см. первую сноску), что я обязана очень многим людям, благодаря общению с которыми сложился этот текст. Я надеюсь, что диалог внутри профессионального сообщества продолжится, потому что иначе нам придется жить в мире, придуманном кем-то другим.
15🔥8👍1😁1
Ну что, дорогие пифагорейцы. Calculemus.

> 45^2
[1] 2025
> sum(1:9)
[1] 45
> sum((1:9)^3)
[1] 2025


1️⃣ 2025 — это 45 в квадрате.
2️⃣ 45 — это сумма всех цифр (от 1 до 9).
3️⃣Квадрат суммы равен сумме кубов.

❗️Подсмотрено у Савватеева ❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
19
А знаете ли вы, что до 26 января можно податься (или номинировать друга) на DH Awards? Я не планирую, но буду рада поддержать коллег; после публикации списка номинантов кидайте ссылки в комментарии. Плюшек за это никаких не дают, кроме приятного чувства победы. Ну и что.
10🎉2
Свежая (2024) года статья, сравнивающая обычный и LLM машинный перевод для латинского (!) языка. Авторы заключают, что GPT-4 достиг впечатляющих успехов в латинистике (метрики на первом скрине).

По моим впечатлениям, так и есть — ему уже вполне можно доверять несложные (а то и сложные) задачи и переводы.

Проблема пока в том, как это вписать в рабочий воркфлоу. Недавно экспериментировала с пакетом {tidyllm} — удобнейшая вещь, но есть одно но. Все прилично говорящие по-латыни модели требуют деняк. И впн, конечно, но больше всего — деняк.

Опенсурсная Llama — для которой тоже есть пакет {ollamar}, но можно и через {tidyllm}, разницы никакой — похожа на студента-первокурсника: не признается, что не знает латыни, но лепит чепуху (на втором скрине)

общий вывод такой, что быть гуманистом и здесь тоже оказывается дорого

p.s. и да, я знаю про чатбот, я изучала, есть ли возможность обойтись без лишних движений копипасты

#llm #латынь
13🔥4
зафиксирую итоги рисерча, чтобы не растерять ссылки

По совету Светы Яцык @voxmediiaevi попробовала китайскую DeepSeek и прямо-таки влюбилась.

Начала с чата, он доступен после регистрации бесплатно онлайн: https://www.deepseek.com/ Выяснилось, что машинка весьма неплохо знает латынь и может нагенерить упражнений к заданному латинскому тексту, оформив их в markdown (см. скрин).

Ок, quod во втором предложении — союз, а не относительное местоимение, но, во-первых, союз происходит от местоимения, а, во-вторых, можно попробовать докрутить промпт.

V3 доступна через API по подписке (дешевле аналогов, как они уверяют). Пакет {tidyllm} китайцев не поддерживает, но можно немного схитрить и самостоятельно перевести пример их curl-запроса на язык R. Для этого есть, оказывается, гениальный translator: https://curlconverter.com/r-httr2/ и не менее удобный {httr2}

Теоретически V2.5 можно поставить локально и пользоваться через {ollamar}, но практически это 133 Гб, на кривой козе не подъедешь, надо учиться разворачивать, а у меня лапки: https://ollama.com/library/deepseek-v2.5

А еще параллельно выяснилось (все наверняка знали, но я только сейчас догнала), что Хадли наш бесценный Викхем написал еще один пакет для работы с LLM: https://ellmer.tidyverse.org/

DeepSeek он не поддерживает, но поддерживает кучу других, а еще на странице пакета очень подробные статьи о том, как обрабатывать тексты и распознавать изображения с помощью этой штуковины, как правильно писать запросы, чтобы не разориться и многое другое.

Но пока с меня хватит, вернусь к этому чуть позже #llm #api
11👍7🔥4
Вот, это я даже вынесу в отдельный пост

The cost of a conversation grows quadratically with the number of turns: if you want to save money, keep your conversations short.


https://ellmer.tidyverse.org/articles/ellmer.html
7👍4
Сегодня доработала и отправила в журнал рецензию на одну книгу о Платоне, которую медленно читала все праздники, чтобы не впасть в майонезную кому. Рецензия, как и книга, не имеет никакого отношения к цифре: речь идет о некоторых emerging trends в платоноведении.

Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.

Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) и принялась варить кашу попросила GPT каждую из них резюмировать. Несмотря на путаную структуру книги и местами темную аргументацию, перемежающуюся длинными греческими цитатами, модель в целом для каждой главы корректно установила, о чем она, и перечислила основные выводы.

Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.

Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).

Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.

Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.

Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.

Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
28👍15🔥6💘52