RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Скимминг с {tidyllm}

…на случай, когда тг-бот капризничает


library(tidyllm)
Sys.setenv(OPENAI_API_KEY = "sk-00000000")

conversation <- llm_message("Please summarize the key points from the provided PDF document.",
.pdf = "my.pdf") |>
chat(openai(.model = "gpt-4o"))

conversation |> get_reply(1) |> cat()


Источник. #llm
6
Forwarded from Vox mediaevistae
Нишевый контент: многие занятия по digital humanities церемониально начинаются с упоминания Роберто Бузы, иезуита, который в 1949 году начал работать над Index Thomisticus. Иногда показывают его улыбающуюся фотографию в старости, ту, что привязана к википедии. А я сегодня набрела на посвященный ему тамблер, а там посмотрите, какой он прекрасный и юный. Сличает с распечаткой факсимиле свитков Мертвого моря.
👍87😁1
RAntiquity
▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ). Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние…
Неожиданно мой икеевский торшер настигла слава: лекция Алексея Вдовина для нашего курса “Критическое введение в DH” (2024) попала на БП в рубрику “Ученые по субботам”. https://t.iss.one/prbezposhady/25875 Девочки, спасибо, продакшн старался.
28🔥4🙏3🤔2
Цифра, которую мы потеряли, или мне временно не до вас #oldies #segamega
😍253
Хотела написать сегодня скучный пост про неравенство треугольника и его роль в мировой стилометрии, но по случаю прихода новых подписчиков немного повангую. Геометрия никому не интересна, а футурология интересна всем.

Вот уже некоторое время я думаю об построении такого воркфлоу в R, который позволил бы филологу решать задачи от распознавания текста до его анализа, разметки и публикации с использованием LLM. Чтобы на входе, например, картинка, а на выходе — html.

Многие детали пока не ясны, но уже сейчас очевидно, что задача это вполне выполнимая, причем ее выполнение требует все меньше специальных навыков. У меня где-то лежит учебник по МО с объяснением, как использовать опорные векторы для оптического распознавания символов, но понятно, что сегодня никто не будет мучиться с SVM для решения такой задачи (рукописи — отдельная тема, но я ей и не занимаюсь). Основное ограничение пока — деньги, VPN, санкции и т.п. Но вот китайцы уже взялись за дело, так что, думаю, эти ограничения не навсегда.

Что тогда? Курсы программирования для гуманитариев выйдут из моды быстрее, чем туфли системы Мэри Джейн (это касается и моего курса, да), вернется спрос на людей, которые понимают, что со всем этим распознанным богатством делать. И тут нам главное не повторить судьбу икеевской акулы — всем внезапно стало надо, спекулянты ломят ценник, авито забит подделками, а оригинальный продукт всё, снят с производства.

Поэтому, не дожидаясь будущего, предлагаю немедленно переходить к изучению греческого и латыни 🦈
Please open Telegram to view this post
VIEW IN TELEGRAM
22🌚3
Дорогие друзья!

🏛️В грядущий понедельник приглашаем вас погрузиться в мир античных текстов на лекции «Вычислить Платона: Что могут сказать количественные методы о подлинности диалогов корпуса?»

📜От некоторых античных авторов до наших дней сохранились лишь фрагменты, а другим, наоборот, традиция приписывает слишком много произведений. Таков случай Платона, о подлинности некоторых диалогов которого до сих пор идут споры. Зачем кому-то понадобились эти подделки? Как исследователи выявляют подложные тексты и как в этом помогают компьютерные методы?

🗝️Обо всем этом поговорим 27 января в 18:10 с кандидатом филологических наук, доцентом Школы философии и культурологии НИУ ВШЭ и создателем греко-латинского клуба Antibarbari Ольгой Валерьевной Алиевой.

⬆️Регистрация по ссылке: https://shkola-yunogo-filologa-vs.timepad.ru/event/3205638/
Please open Telegram to view this post
VIEW IN TELEGRAM
20
Forwarded from THALATTA ΘΑΛΑΣΣΑ
наконец-то опубликовали текст секретного древнегреческого дневника парижского эллиниста девятнадцатого века!!! с трепетом ожидала этого события, от души поздравляю команду проекта LAGOOS и бегу читать, как Хазе ходил в библиотеку, на лекции и по гостям
🔥103
Сколько кошек было у Колетт?

🔘🔘🔘

В 1989 году Этьен Брюне опубликовал статью, где решил пересчитать животных во французской литературе 19-20 веков. Это стало возможно благодаря созданию Цифрового тезауруса французского языка (TLFi), который на тот момент насчитывал 2 500 текстов (по современным меркам, конечно, не очень много).

В качестве центрального автора Брюне выбрал Колетт, полагая, что её любовь к животным находит отражение и в её текстах. При помощи программы STELLA (которая визуализирует расчёты) Брюне анализирует частоту встречаемости животных в пяти произведениях Колетт, сравнивая их с текстами других французских авторов (среди них — Бовуар, Камю, Пруст и Селин):

Мы предлагаем проверить, любит ли Колетт кошек или животных вообще [...] Вряд ли Колетт питала любовь к измерениям и подсчетам. Считать монетки это ещё куда ни шло. Но считать слова вместо того, чтобы их взвешивать! Считать животных вместо того, чтобы их гладить! Без сомнения, этот безумный проект никогда не приходил Колетт в голову — даже в те беспокойные вечера, когда счет овец, как говорят, помогал ей уснуть. Но чтобы успокоить Колетт и избавить её призрак от кошмара цифр, мы не покажем вам процесс их приготовления [la cuisine des chiffres ne sera pas montrée]. Достаточно знать, что эти кривые получаются в результате перекрестного умножения, квадратных корней и многих других ингредиентов, одни названия которых могут испортить вам аппетит, хотя компьютер переварит их без проблем.

В ходе цифровой кулинарии выясняется, что чаще всего Колетт пишет про кошек (chat / chatte) — что особенно, по мнению Брюне, выделяет её на фоне других авторов, которые либо не особенно обращаются к животным в своих текстах, либо используют их в символическом значении. Или как пишет Брюне в заключении:

В этом случае статистика лишь подтверждает ощущение очевидного. Это, конечно же, не является открытием, и мы добились лишь относительного прогресса в доказательстве, если не правильности [количественного] метода, то хотя бы того, что он не является ошибочным.

А кошек у Колетт насчитали 198 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14🥰4🔥2👍1
Задала Яндекс жпт и Дипсику (о котором уже писала) один несложный вопрос по школьной программе: что Гончаров имеет в виду, когда в “Мильоне терзаний” говорит об “эпиграмматической соли” комедии “Горе от Ума”? Оба раза спрашивала по-русски. Ответ Дипсика в скриншот не влезает, поэтому цитатой (только итог, без “размышлений”):

Эпиграмматическая соль языка в оценке Ивана Гончарова по отношению к Александру Грибоедову — это характеристика остроумия, ёмкости и сатирической выразительности, присущей языку Грибоедова, особенно в его комедии «Горе от ума».
Контекст и значение:

Эпиграмматичность отсылает к краткости и остроте, свойственным эпиграмме — жанру лаконичной, язвительной поэзии.

«Соль» в данном случае метафорически означает остроту, «приправу» сатиры, которая оживляет текст, делая его ярким и запоминающимся.

Применение к Грибоедову:

Гончаров, анализируя «Горе от ума», отмечал, что язык персонажей пьесы насыщен афоризмами и остротами, которые стали крылатыми выражениями («Счастливые часов не наблюдают», «Служить бы рад, прислуживаться тошно»).

Эти фразы сочетают в себе иронию, сарказм и глубокий социальный подтекст, что и составляет «эпиграмматическую соль». Они не только характеризуют героев, но и критикуют пороки общества.

Почему это важно:

Гончаров подчеркивал, что Грибоедов мастерски использовал язык как инструмент сатиры, превращая диалоги в оружие против косности дворянства и лицемерия светских норм. «Эпиграмматическая соль» стала ключевым элементом новаторства Грибоедова, повлиявшим на развитие русской драматургии и литературы в целом.

Таким образом, это выражение отражает способность Грибоедова создавать текст, где каждая фраза — не просто реплика, а законченное высказывание, заряженное смыслом и критической энергией.


Ответ не имеющего аналогов в мире Яндекс-ЖПТ 4 на скриншоте.
👍9🔥7😁7🥴5
RAntiquity
Задала Яндекс жпт и Дипсику (о котором уже писала) один несложный вопрос по школьной программе: что Гончаров имеет в виду, когда в “Мильоне терзаний” говорит об “эпиграмматической соли” комедии “Горе от Ума”? Оба раза спрашивала по-русски. Ответ Дипсика в…
Вот тут кстати на SO инциировала обсуждение, как подключиться к API дипсика из среды R. Все работает, если дать денег (существенно меньше, чем просит OpenAI). Надо будет еще подумать, чтобы как в {ellmer} сразу структурированные данные извлекать, но это все позже, сейчас завал.

Может пока я буду думать, китайцы уже пакет напишут. Тогда и с ВПН можно было бы не мучиться (все, что работает через ВПН, практически невозможно демонстрировать в реальном времени на паре, например).
доцент алиева гоняется за llm с вопросом об эпиграмматической соли
😁34🤣114🔥3🫡1
Что ни говори, а инфраструктура под недружественные интеллекты очень дружественная, и для тех, кому машина нужна не под капотом возиться, а ехать, Хадли делает классные продукты.

Его {ellmer} позволяет без особых усилий извлекать структурированные данные из изображений. Что это такое — решайте сами; в моем случае — распознанный текст и перевод. OpenAI: распознавание на 5, перевод на русский на 3+.

Записывайте: перечислить файлы, придумать тип данных для выхода, запустить чат. На выходе таблица: в одном столбце текст, в другом — перевод.


library(ellmer)
library(tidyverse)

# придумываем, какие нужны столбцы

type_text <- type_object(
"Latin text and Russian translation of the text. Occasionally, you might see some Ancient Greek.",
text = type_string("Latin text"),
translation = type_string("Russian translation")
)

# список изображений
my_images <- list.files(pattern = "png")

# рабочая функция для purrr
process_image <- function(image_path) {
response <- chat$extract_data(
content_image_file(image_path),
type = type_text
)
return(response)
}

# еще спроси, а где здесь вожжи
all_responses <- map_dfr(my_images, process_image)


В промышленных масштабах пока не пробовала.
🔥12
RAntiquity
Сегодня пришли результаты студенческой оценки преподавания (СОП), из которых следует, что с первым своим курсом по программированию на R я вроде бы справилась. Спасибо, дорогие студенты, за ваши отзывы. Я их все прочитала, а некоторые даже по два раза 🧡
Недавно пришли отзывы студентов на первую часть курса “Компьютерный анализ текста” #tar2024 , общая оценка 4.93 из 5, мой личный рекорд.

Очень приятно, что курс приносит удовлетворение не только мне — и, конечно, такие отзывы вдохновляют и заставляют стремиться к большему.

На облаке слов — основные биграмы из отзывов. Спасибо 🤗
❤‍🔥3614🔥5👏4😍2🎉1
Латинский гиперкуб — обобщение латинского квадрата Эйлера на произвольное число измерений. Используется для поиска оптимальных параметров в МО. А латинским называется потому, что Эйлер (про которого недавно писал дружественный канал) использовал латинские буквы. Пакет {dials} версии 1.3.0 отказался от такого названия функции, а жаль. Так в нашей жизни стало еще меньше латыни.

Вообще в МО есть множество _просто красивых_ вещей, прекрасных самих по себе, а не ради пресловутого скоринга.
8😢1
В копилку инструментов и методов цифровой истории философии: https://t.iss.one/Philosophytoday/15267 Снова сети. Эyхенио Петрович, один их хедлайнеров проекта, благодаря @curiousonya уже некоторое время в поле моего зрения, в 2022 г. у него была любопытная статья о сетях благодарностей, о которой см. https://t.iss.one/curiousonya/217 А вот ссылка на сам проект: https://edhiphy.org/network Очень милое онлайн-приложение. Молодцы, чо.
👍5🔥21