RAntiquity
1.09K subscribers
296 photos
11 videos
5 files
546 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
📝 Вычислить Платона

Древнегреческий философ Платон оставил не меньше загадок для филологов, чем Уильям Шекспир. До нас дошло немало диалогов под его именем, но какие были действительно написаны им, а какие более поздний подлог? Кроме того, Платон был умелым стилистом: он хорошо писал в разных жанрах и отлично имитировал речи и тексты других людей, включая женщин того времени. Все это создаёт проблемы в хронологической периодизации его сочинений. С учётом влияния, которое платонизм оказал на всю европейскую философию, культуру и религию, установление подлинного авторства ряда диалогов представляет важную проблему.

Как в этом могут помочь статистические методы, такие как стилометрия, рассказывает в своей авторской колонке на IQ.HSE доцент факультета гуманитарных наук НИУ ВШЭ, основательница телеграм-канала о древних языках, античной культуре и философии Antibarbari HSE, Ольга Алиева @rantiquity.
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤‍🔥3🔥3👏1
В лекциях и статьях по векторной семантике часто упоминается, что за всей этой историей со смыслом, производным от контекста, есть что-то от “речевых игр” Витгенштейна. Но обычно ссылки следуют на Харриса и Ферса, и не очень ясно, какими путями в компьютерную лингвистику проник Витгенштейн (понятно, что после войны он был везде, но хотелось бы поконкретнее).

Сегодня нашла одну интересную ниточку. Маргарет Мастерман, в 1933-1934 была одной из студентов Витгенштейна, чьи заметки легли в основу “Голубой книги”. В 1955 г. основала лабораторию Cambridge Language Research Unit, которая занималась исследованиями в области компьютерной семантики и автоматического перевода. Среди прочего, Мастерман разработала алгоритмы, которые позволяли переводить с английского на латынь (куда же еще?). Об этом здесь.

А я вспомнила про другую Маргарет, Гамильтон, которая тоже не только умела кодить, но и знала древние языки.
10❤‍🔥1
«В компьютерных играх иногда так бывает, что есть у персонажа линейки разных качеств: мораль, сила, магия, выносливость. По сравнению, например, с руководством лаборатории внутри университета, когда ты становишься ректором, такие качества нужно всерьёз прокачать?»

Узнаем, послушав новый выпуск «Лиги Айвы»: в подкасте Бориса Орехова («об университете как о республике ученых») вышла беседа с ректором СФУ Максимом Румянцевым.

🌐 YouTube
🫥 Mave
🎵 Яндекс.Музыка
🌐 VK Видео
🍏 Apple podcasts

#людиdh
Please open Telegram to view this post
VIEW IN TELEGRAM
62🔥2
🐍 Друзья, посоветуйте, пожалуйста, онлайн-интерпретатор питона, бесплатный, для групповой работы, с хорошей синхронизацией. Collab не сразу отражает изменения, а мне надо, чтобы как на Miro/Figma, было видно, кто что делает. Вообще бывает такое?
RAntiquity
Мне уже приходилось рассказывать о том, что количественные исследования в платоноведении начались во второй половине 19 в., когда никаких компьютеров не было даже в планах, но вот чего вы скорее всего не знали — несколько таких работ написаны на латыни. Такова…
Продолжаю пополнять латинский словарь цифрового гуманиста.

🌺lingua programmandi язык программирования

🪄programmator / -trix программист

🌺Salve, munde! Hello, world

🪄Interrete Интернет

🌺situs interretialis сайт

🪄intellegentia artificialis искуственный интеллект

🌺machina autodidacta / machina autodocens машинное обучение (как область знания -- ars machinae autodidactae / autodocentis)

Последнее подслушала в латинской речи одного гарвардского выпускника, который написал нейросетку для классификации текстов Платона. Прекрасная диссертация, прекрасная латынь (и греческий, само собой).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15😍7👍3
RAntiquity
Сегодня полезная штуковина для тех, кто занимается сравнением переводов, версий документа и т.п. Выравниватель на основе алгоритма Смита — Ватермана. library(text.alignment) a <- "Gallia est omnis divisa in pates tres." b <- "Gallia omnis divisa in partes…
Есть у меня замысел сравнить один оригинальный перевод Платона с версией, решительно исправленной редактором. Желательно не вручную. Вспомнила про старый пост о выравнивателе. Как бы от этого перейти к html?

Пока придумала задействовать регулярные выражения, чтобы расставить html-теги:



library(text.alignment)
a <- "Gallia est omnis divisa partes tres."
b <- "Gallia omnis divisa in partes tres"

res <- smith_waterman(a, b, type = "words")

library(stringr)
library(tidyverse)
tbl <- tibble(a = res$a$alignment$tokens, b = res$b$alignment$tokens)

tbl_new <- tbl |> mutate(a_new = case_when(str_detect(a, "#+") ~ paste0("<mark>", b, "</mark>"), .default = a)) |> mutate(b_new = case_when(str_detect(b, "#+") ~ paste0("<mark>", a, "</mark>"), .default = b))



Это вернет табличку как на картинке. От которой несложно перейти к html как на картинке. Чувствую, что будут еще подвохи на этом пути, но хочется пробовать. Может быть надо идти через ecomparatio, но почему-то этот путь кажется мне проще.
1
RAntiquity
Уже сейчас.
Невероятно приятно и почетно получить такое письмо от одной из старейших профессиональных ассоциаций в области цифровых гуманитарных наук в России. Большое спасибо, коллеги, я очень тронута 💚
Please open Telegram to view this post
VIEW IN TELEGRAM
27🎉12😍5👍1
Forwarded from Antibarbari HSE (Olga Alieva)
🌱Одно из первых открытий, которое делают изучающие латинский язык, заключается в том, что слово «культура» происходит от латинского глагола colo «возделывать». Гораздо менее известно, что свое сельскохозяйственное значение существительное сохраняло почти до середины XIX в.

🖥 Появление больших машиночитаемых корпусов позволило визуализировать историю «культуры». Исследователи натренировали векторные модели (подробнее о том, что это такое, — здесь) на корпусе British Periodicals Online и отобрали ближайших «соседей» культуры в разные периоды. То, что у них получилось, вы видите на картинке.

🌱Изначально в семантическом окружении слова преобладают смыслы, связанные с культурой или возделыванием земли («садоводство», «растительность», «орошение»); родственные сельскохозяйственные термины («посадка», «посев», «почва») продолжают появляться в орбите слова вплоть до XIX века. Лишь в 1820-1840 гг. становится заметна семантика, связанная с «культивацией» умов («образование», «интеллектуальный», «обучение»), а в конечном итоге — и всего общества («просвещение», «науки», «цивилизация»).



А как вы думаете, какое слово в европейских языках соответствовало “культуре” до сер. XIX в.? Или же понятия культуры вообще не было?
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥4
Forwarded from ФГН НИУ ВШЭ
📚В помощь абитуриентам: список публикаций и выступлений о цифровых гуманитарных исследованиях от преподавателей магистерской программы «Цифровые методы в гуманитарных науках» ФГН.

На программе преподают доценты ФГН Ольга Алиева, Анастасия Бонч-Осмоловская, Борис Орехов, которые давно занимаются разработками в этой области.

Список покрывает практически все аспекты цифровых методов, востребованных гуманитариями, и включает около 120 пунктов. В него вошли научные статьи, популярные публикации, видео лекций и докладов. Список будет пополняться по мере появления новых статей и выступлений, и доступен по ссылке 🖥

«Вряд ли где-то еще в России или даже в мире вы увидите такую широту и разнообразие компетенций, освоенных цифровыми гуманитариями Вышки», — сказал академический руководитель магистратуры доцент ФГН Борис Орехов.


В этом году магистратуре «Цифровые методы в гуманитарных науках» исполняется пять лет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥113👍2🍓1
Forwarded from Vox mediaevistae
​​Только что закончилась последняя сессия IMC в Лидсе. На этот слот пришлась и наша с @verbaliquida секция. Я сделала доклад дистанционно, потому что мой паспорт все еще в заложниках в британском визовом центре. Это ужасно обидно: и денег жаль, и всех невстреченных. В этом году в IMC очно участвовало четыре члена редколлегии Вокса, невиданное дело.
Я рассказала про эксперименты с построением сетей рукописей, в которых циркулировал Breviloquium. Вот визуализация, которой горжусь: на ней узлы — это рукописи, которые, помимо Breviloquium’а, делят с соседями еще хотя бы два других текста. Размер узла пропорционален его степени посредничества, а его форма указывает на размер сборника (в точках меньше 5 тектов, в треугольниках — от 5 до 10, в квадратах — от 15 до 25, и так далее, по мере нарастания углов у фигур). Цвет указывает на век создания рукописи (фиолетовые — XIII век, желтые — XVI).
На этом графе видно, что есть два плотных кластера, один относится к XIII-XIV вв., эти рукописи происходят из Франции и северной Италии, в них содержатся преимущественно сочинения Иоанна Уэльского, видимо, они связаны с францисканскими интеллектуальными центрами. Второй кластер происходит из Богемии и Германии, в этих рукописях можно найти младшую редакцию Breviloquium’а, контаминированную трактатом Якопо да Чессоле об игре в шахматы. А объединяет их рукопись из Кортоны, в которой, среди прочего, содержится единственное дошедшее до наших дней житие Иоанна. О житие я в докладе сказать не успела, но деталь эта трогательная, по-моему.
Код посмотреть и порассматривать сетки можно тут.
👍73👏3
Forwarded from Vox mediaevistae
manuscripts_network_strong_edges.html
722.9 KB
А вот файл, который можно позумить и потрогать.
Нужно знать, что Акакий Акакиевич изъяснялся большею частью предлогами, наречиями и, наконец, такими частицами, которые решительно не имеют никакого значения.


“Дельта Берроуза”, — догадался Штирлиц.
😁20🤣93
Дорогие друзья, ушла в отпуск; ближе к сентябрю канал снова оживет! Пока набираюсь сил и идей для новых проектов.
👍27❤‍🔥10🐳41
Boris Orekhov
https://schonenrede.hypotheses.org/305
Началось все с того, что Лютославский, оказывается был учеником Тейхмюллера, учился у него в Дерпте (Тарту), тогда это была территория Российской империи. У Тейхмюллера была большая семья, 9 детей, в Базеле ему было тяжело их обеспечивать, а в Дерпте ему предложили хорошие условия.

В моем сознании Тейхмюллер как исследователь Платона и Аристотеля и Лютославский как “стилометрист” до сих пор существовали отдельно. Но все намного сложнее: как выясняется, их объединяют в Юрьевскую школу неолейбницианства, которая оказала влияние, например, на Лосского.

(Простите, я и правда в отпуске, но такой интересный сюжет).
🔥91❤‍🔥1
Свежий обзор новейших МО-штуковин для древних языков: https://direct.mit.edu/coli/article/49/3/703/116160/Machine-Learning-for-Ancient-Languages-A-Survey

вникать буду позже, пока чтобы не потерять
👀10👍4
Forwarded from aGricolaMZ
Дорогие все, вышел мой онлайн курс "Введение в анализ данных на R для гуманитарных и социальных наук" (https://openedu.ru/course/hse/IDAR/). Основная его концепция: только tidyverse и ноль программирования: я ставил себе цель, чтобы слушатели после окончания курса, получив данные, могли их обозреть и получить какие-то первые инсайты. Статистики в курсе всего одна неделя из девяти. К сожалению, я узнал, что Вышка дает посмотреть только две недели бесплатно, а потом просит денег (я даже увижу какую-то долю этих денег, если продолжу работать в Вышке). Но я не унываю, потому что в целом смотреть на видео как я блею на самом деле не очень интересно. Ведь я почти доделал онлайн ноутбук (https://agricolamz.github.io/daR4hs/) с комментариями и всем кодом, и он полностью открыт. Cейчас не хватает только последнего раздела про quarto. Для онлайн курса я подготовил достаточно большой пул заданий. Большинство заданий предполагает анализ какого-то датасета (и я потратил много времени, чтобы их собрать и сделать удобными ля заданий), поэтому я предлагаю оценить разброс:

- возможные продолжения дразнилки "Жадина-говядина" из исследования N+1
- роман Ф. М. Достоевского “Бесы”
- эпистолярные романы
- данные кладов Римских монет (https://chre.ashmus.ox.ac.uk/)
- время работы библиотек России
- высота и ширина утерянных или похищенных картин из музеев России
- многоязычие в Дагестане
- количество человек с злокачественными новообразованиями
- описания и рецепты из онлайн-магазина китайского чая
- и другие

Все формулировки заданий и код с решениями у меня в quarto занимают 20 тысяч строк.

Из смешного: одна из идей про датасет библиотек России так и не вылилась в задание на курсе, но вылилась в мою первую data-driven задачку.

Структуру курса я уже поменять не смогу, но если вы найдете опечатки или стилистические огрехи на сайте курса — пишите, я буду очень рад.
🔥196👍2