Диаграмма Ленто названа так в честь Джины Ленто, впервые применившей метод для изучения эволюции ластоногих. Диаграмма позволяет оценить достоверность филогенетического дерева на основе бутстрепа.
Топология любого дерева, построенного на основе матрицы расстояния, зависит от выбранных признаков, метода связи и метрики расстояния. Бутстреп — повторные выборки — используются для того, чтобы проверить устойчивость каждой ветви дерева. Для этого строят обычно от 100 до 1000 деревьев, для обобщения которых, наряду с консенсусным деревом, используется диаграмма Ленто.
Построить такую диаграмму можно при помощи одноименной функции из пакета
На картинке — небольшой пример. По оси икс — сплиты (грубо говоря, какие диалоги «сидят» на одной ветви в дереве). Они расположены по убыванию поддержки.
По оси игрек — поддержка каждого сплита в виде столбика. Положительные значения — это число деревьев, где наблюдается такой сплит. Отрицательные значения — поддержка конфликтующих сплитов, которые невозможно отразить в том же дереве.
Первые десять сплитов — тривиальные (отдельная ветвь для каждого наблюдения). Здесь конфликта быть не может, и все столбики расположены выше нуля.
Но помимо них, 100%-ю поддержку имеет сплит, включающий три книги «Законов». Это значит, что такая группа есть во всех деревьях, созданных при помощи бутстрепа. За ней следует группа «Парменид» — «Кратил» и т.д. Диалоги, включенные в сплит, обозначены⚫️ темными точками.
Диаграмма Ленто хорошо показывает, что в любом дереве есть элемент случайности. Дерево — это только гипотеза, которую можно и нужно проверять. Недостаток такой диаграммы в том, что она быстро становится нечитаемой.
P.S. Диалоги выбраны случайным образом для примера, и никаких масштабных выводов на основе этой выборки делать не стоит.
#филогенетика
Топология любого дерева, построенного на основе матрицы расстояния, зависит от выбранных признаков, метода связи и метрики расстояния. Бутстреп — повторные выборки — используются для того, чтобы проверить устойчивость каждой ветви дерева. Для этого строят обычно от 100 до 1000 деревьев, для обобщения которых, наряду с консенсусным деревом, используется диаграмма Ленто.
Построить такую диаграмму можно при помощи одноименной функции из пакета
phangorn в R. При сравнении текстов — а для этого в стилометрии регулярно используются деревья — никаких допущений о происхождении не делается; смотрим только на степень поддержки каждого сплита. На картинке — небольшой пример. По оси икс — сплиты (грубо говоря, какие диалоги «сидят» на одной ветви в дереве). Они расположены по убыванию поддержки.
По оси игрек — поддержка каждого сплита в виде столбика. Положительные значения — это число деревьев, где наблюдается такой сплит. Отрицательные значения — поддержка конфликтующих сплитов, которые невозможно отразить в том же дереве.
Первые десять сплитов — тривиальные (отдельная ветвь для каждого наблюдения). Здесь конфликта быть не может, и все столбики расположены выше нуля.
Но помимо них, 100%-ю поддержку имеет сплит, включающий три книги «Законов». Это значит, что такая группа есть во всех деревьях, созданных при помощи бутстрепа. За ней следует группа «Парменид» — «Кратил» и т.д. Диалоги, включенные в сплит, обозначены
Диаграмма Ленто хорошо показывает, что в любом дереве есть элемент случайности. Дерево — это только гипотеза, которую можно и нужно проверять. Недостаток такой диаграммы в том, что она быстро становится нечитаемой.
P.S. Диалоги выбраны случайным образом для примера, и никаких масштабных выводов на основе этой выборки делать не стоит.
#филогенетика
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6✍4👍1
@agricolamz , послушав мои истории про применение филогенетических методов к платоновскому корпусу, прислал мем. А я смотрю и думаю: треугольник, я же тебя знаю. Ты — “Клитофонт” ! #филогенетика
😁15
This media is not supported in your browser
VIEW IN TELEGRAM
“Это мобиль. Приходишь домой - успокаивает нервы” 🥂
❤22😁5🤩2🥴1
Forwarded from провода+болота
в Лиге Айвы поговорили с Борисом Ореховым о том, как неклассические университеты переиозобретают классику, чем кролик на зайца непохож университет отличаются от всего остального.
в ходе записи подкаста пытаемся различить пранк и кринж.
https://t.iss.one/universitates_podcast/110
в ходе записи подкаста пытаемся различить пранк и кринж.
https://t.iss.one/universitates_podcast/110
Telegram
Лига Айвы 🎓 Подкаст об университете 🎙
Эпизод 23. Полина Колозариди о неклассических университетах
Наука должна жить длинным временем
О чем разговор:
🔊 Классические и неклассические университеты
🔊 Гуманитарии в техническом университете — это пранк?
🔊 Зачем в университете библиотека?
🔊 Есть ли…
Наука должна жить длинным временем
О чем разговор:
🔊 Классические и неклассические университеты
🔊 Гуманитарии в техническом университете — это пранк?
🔊 Зачем в университете библиотека?
🔊 Есть ли…
👍3❤2
Погода портится, хочется тыквенного латте и красоты. Поэтому сегодня — датасет “Шедевры Пушкинского музея” (отсюда).
Визуализация: пакет imager. #цифровые_этюды
Визуализация: пакет imager. #цифровые_этюды
❤14👍1
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus.
Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.
1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.
2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.
3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.
4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html.Можно и регуляркой сделать, не выпендриваясь. Но требуется навык работы с css, потому что какие-то мелкие штучки все время прыгают не в ту сторону.
5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.
Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.
#xml #html #филеб
Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.
1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.
2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.
3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.
4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html.
5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.
Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.
#xml #html #филеб
❤10👍5
цифровизация как она есть https://youtube.com/clip/Ugkxe-wWrG34uPg1ardpKrrA5TpbLIFYF3eu?si=u3gYotrOOx9sXgLO — спасибо @curiousonya за напоминание
YouTube
✂️ На полупроводниках с биотоками
10 seconds · Clipped by Olga Alieva · Original video "Фитиль "Карты не врут" (1964) смотреть онлайн" by Киножурнал Фитиль (официальный канал)
😁7💯4🔥2
Доктор Фауст рассказывает, почему он решил обратиться от гуманитарных исследований к программированию.
Все совпадения случайны.
Пусть я разумней всех глупцов -
Писак, попов, магистров, докторов,
…Зато я радостей не знаю,
Напрасно истину ищу,
Зато, когда людей учу,
Их научить, исправить - не мечтаю!
Притом я нищ: не ведаю, бедняк,
Ни почестей людских, ни разных благ...
Так пёс не стал бы жить! Погибли годы!
Вот почему ямагии решил
Предаться…
Все совпадения случайны.
😁18❤3😢1
Коллеги из “Системного блока” сделали очень внятную точку входа в DH: темы, люди, журналы, образовательные программы. Все, чтобы сориентироваться и правильно распределить усилия. https://sysblok.ru/dh/
Системный Блокъ
Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа - Системный Блокъ
Что такое DH? Digital Humanities (DH) — это направление исследований, предполагающее использование цифровых методов для приобретения новых знаний в
🔥11❤8
RAntiquity
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus. Но недавно пришлось задуматься и о другом применении XML, о именно — как основы…
В выходные удалось немного поработать над сайтом “Филеба”.
- html греческого текста получилновую курточку новые стили css : теперь milestones, как им и положено, выстроились слева от текста.
- также добавила русский перевод; окончательным его не считаю, но печальный опыт переводчиков “Филеба” говорит о том, что лучше сохранять и дорабатывать промежуточные версии, чем надеяться когда-то все довести до совершенства.
- кстати, если перевод опубликован на GitHub Pages, значит ли это, что замечания к переводу можно оставлять в issues? мне кажется, это отличная идея: обсуждать способы перевода греческих частиц на гитхабе. к тому же удобно, всегда можно пометить баг как устраненный и закрыть обсуждение.
- в планах обновить страницу с видео семинаров, на которых этот перевод рождался при поддержке коллег и студентов
#филеб
- html греческого текста получил
- также добавила русский перевод; окончательным его не считаю, но печальный опыт переводчиков “Филеба” говорит о том, что лучше сохранять и дорабатывать промежуточные версии, чем надеяться когда-то все довести до совершенства.
- кстати, если перевод опубликован на GitHub Pages, значит ли это, что замечания к переводу можно оставлять в issues? мне кажется, это отличная идея: обсуждать способы перевода греческих частиц на гитхабе. к тому же удобно, всегда можно пометить баг как устраненный и закрыть обсуждение.
- в планах обновить страницу с видео семинаров, на которых этот перевод рождался при поддержке коллег и студентов
#филеб
❤11🔥4👎1🤩1💅1
Совершенно непонятно, когда работать над своими проектами, ведь столько всего интересного вокруг происходит.
💯13⚡3
Forwarded from DH CLOUD
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.
Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.
Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.
Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.
Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.
Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
👍11❤9🔥6⚡2👏2
Пакеты FactoMineR & factoextra — отличные альтернативы базовому R для анализа главных компонент. Позволяют изящно изобразить одновременно и нагрузки компонент, и сами наблюдения, а также отобрать самые значимые переменные, чтобы график не был очень шумным.
Код очень лаконичный:
Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.
Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.
Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
Код очень лаконичный:
fviz_pca_biplot(pca_object, geom = "point", habillage = as.factor(group), addEllipses = TRUE, select.var = list(cos2 = 20))
Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.
Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.
Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
👍6❤1
Уже очень давно мне хотелось написать рецензию на книгу Explorations in the Digital History of Ideas (2023). Цифровая история идей — совсем новое явление в DH, интересно было внимательно посмотреть на методологию и конкретные инструменты, которые нашли применение в этой отрасли.
Повод представился благодаря коллегам из СФУ, решившим собрать коллективную монографию под названием “Будь в курсе цифровых гуманитарных исследований”.
Область у нас высокотехнологичная, поэтому и рецензию я решила написать не простую, а в жанре реверс-инжиниринга. Т.е. буквально разобраться, как они все считали — и в меньшем мастштабе повторить все вычисления.
Надо сказать, что кембриджские коллеги не очень озаботились воспроизводимостью своих исследований (которые, как я знала и раньше, они делали на языке R), но немного смекалки, немного разведки и помощь читателей этого канала (упомянутая с благодарностью в первой сноске!) позволили во всем разобраться.
Выкладываю свою главу, там ссылочка на репозиторий с кодом. А весь сборник можно найти на сайте СФУ.
Повод представился благодаря коллегам из СФУ, решившим собрать коллективную монографию под названием “Будь в курсе цифровых гуманитарных исследований”.
Область у нас высокотехнологичная, поэтому и рецензию я решила написать не простую, а в жанре реверс-инжиниринга. Т.е. буквально разобраться, как они все считали — и в меньшем мастштабе повторить все вычисления.
Надо сказать, что кембриджские коллеги не очень озаботились воспроизводимостью своих исследований (которые, как я знала и раньше, они делали на языке R), но немного смекалки, немного разведки и помощь читателей этого канала (упомянутая с благодарностью в первой сноске!) позволили во всем разобраться.
Выкладываю свою главу, там ссылочка на репозиторий с кодом. А весь сборник можно найти на сайте СФУ.
👍19🎉8❤🔥5❤3👏2
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские отчисления они не забывают получать.
😁10❤2👍2🔥1
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”).
Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?
И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).
Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.
О чем нам это говорит?Стареем спокойно, девочки, стилометрия не заметит, как мы выжили из ума. По поводу “эволюции” Платона — вопросов все больше. #стилометрия #платон
Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?
И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).
Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.
О чем нам это говорит?
👏11👍4
RAntiquity
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские…
А пока вы ждете релиза, расскажу о том, что в этот топ-5 не попадет.
Roger Kreuz (2023). How Language Creates and Reveals Identity.
Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).
Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).
За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».
Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).
Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).
Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).
Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.
====
Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).
И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
Roger Kreuz (2023). How Language Creates and Reveals Identity.
Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).
Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).
За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».
Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).
Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).
Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).
Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.
====
Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).
И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
❤8🤣8👏4👍2
Как сказал Феогнид, “все, что прекрасно, то мило, а что не прекрасно - не мило”. Учреждаем прекрасное. Не проходите мимо.
Telegram
DH CLOUD
🤍Альянс цифровых гуманитарных проектов
К концу календарного года рассказываем о нашем новом долгосрочном деле — Альянсе цифровых гуманитарных проектов. Это инициатива с заделом на будущий год, да и вообще — на будущее.
Альянс — объединение специалистов…
К концу календарного года рассказываем о нашем новом долгосрочном деле — Альянсе цифровых гуманитарных проектов. Это инициатива с заделом на будущий год, да и вообще — на будущее.
Альянс — объединение специалистов…
❤8👍1
RAntiquity
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”). Интересно, думала…
Я между тем все продолжаю думать о старости. В рамках современной стилометрии обнаружилось целое направление, изучающее “эволюции идиолектов”.
В некоторых случаях количественные методы позволяют достаточно точно предсказывать год написания романа. Таков, например, Генри Джеймс.
Стилохронометры (или -метристы?) строят регрессионные модели, чтобы предсказывать дату создания текстов того же Джеймса или Марка Твена.
Для некоторых авторов (см. картинку отсюда) удается достичь достаточно высокой точности, а другие не демонстрируют ясных тенденций.
Что касается уже упомянутых Гете и Музиля, то глава книги о них оказалась доступна в виде статьи (да, такие сейчас книги…) и датасета.
При ближайшем рассмотрении предложенная там техника выявления соседей вызвала у меня некотрые вопросы. Например, почему 2000 mfw? Это почти наверняка означает влияние тематики. С другой стороны, вывод о том, что жанр важнее даты, мне кажется в целом правдоподобным. #стилометрия
В некоторых случаях количественные методы позволяют достаточно точно предсказывать год написания романа. Таков, например, Генри Джеймс.
Стилохронометры (или -метристы?) строят регрессионные модели, чтобы предсказывать дату создания текстов того же Джеймса или Марка Твена.
Для некоторых авторов (см. картинку отсюда) удается достичь достаточно высокой точности, а другие не демонстрируют ясных тенденций.
Отличные результаты были получены для Жюля Верна, Эмиля Золя, Жорж Санд, Анри Гревилля, Даниеля-Лесюёра и Оноре де Бальзака: модели (выбранные n-граммы мотивов) были способны предсказать подавляющее большинство вариаций в данных. Модели объяснили значительную долю вариаций в данных для авторов Мишеля Зевако, Гюстава Эмара, графини де Сегюр и Поля Феваля, но менее половины. Наконец, для Пьера Алексиса Понсона дю Террайля модель не смогла объяснить никакой дисперсии в данных, и, таким образом, эксперимент в целом оказался совершенно неудачным.
Что касается уже упомянутых Гете и Музиля, то глава книги о них оказалась доступна в виде статьи (да, такие сейчас книги…) и датасета.
При ближайшем рассмотрении предложенная там техника выявления соседей вызвала у меня некотрые вопросы. Например, почему 2000 mfw? Это почти наверняка означает влияние тематики. С другой стороны, вывод о том, что жанр важнее даты, мне кажется в целом правдоподобным. #стилометрия
❤2