RAntiquity

🌟Ч/б оформление графика в ggplot для полиграфической печати. Несколько опций:

🌟

scale_fill_grey() для равномерной заливки (контраст задается аргументами start и end);

🌟 пакет ggpattern для узоров.

На втором рисунке группа кодируется углом наклона и дополнительно оттенком серого. Толщина линий и просветы между ними, а также цвет обводки отрегулированы вручную. (Я не люблю горошки, но такое там тоже есть). #ggplot

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍2

574 viewsOlga Alieva, 05:11

RAntiquity

Попалось у того же Гарольда Лава любопытное рассуждение в контексте определения авторства.

"Автор" (в смысле precursory author) может быть у целого жанра. Например, Серджо Леоне является автором спагетти-вестерна, и в этом смысле -- он соавтор Клинта Иствуда, который прославился благодаря фильмам Леоне, а затем начал выпекать свои собственные пирожки (или правильнее сказать: варить собственные спагетти?).

Развивая эту мысль, Лав называет Плутарха (точнее, его английский перевод) соавтором Шекспира. И едва ли можно сомневаться, что если бы Плутарх был жив, ему бы стоило потребовать свою долю авторских отчислений (сейчас это называется "автор идеи").

Когда договориться не получается, это называют плагиат (такая история, говорят, приключилась с "Ребеккой" Дафны дю Морье). В остальных случаях -- collaborative authorship.

Правда, к Плутарху тоже кое-кто мог бы постучаться с того света. Вообще в конце времен мы увидим очень длинные титры.

P.S. Код тоже будет, скоро -- но его же надо как-то и осмыслять. А может и не будет

🍝

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤1

712 viewsOlga Alieva, edited 17:02

RAntiquity

Статья Поля Таннери, знаменитого историка науки и философии, о методе стилометрии (1899) — один из первых откликов на Лютославского во франкоязычном поле; отклик очень осторожный — но не резкий, как у Целлера.

Таннери замечает, что стилометрия не дает надежных оснований для атетезы (о чем я недавно писала, не зная о его статье). Причем это касается не только “спорных” (dubia), но и “подложных” (spuria) диалогов (французы их называют иногда “апокрифы”):

И если последние, кажется, отличаются от остальных, то не наличием особенностей, чуждых стилю Платона, а отсутствием (или редкостью) особенностей, которые придают этому стилю характер самобытности и выразительности (например, использованием редких или созданных самим Платоном слов).

Сегодня звучит непривычно, что Таннери говорит об “авторах без стиля”: популярные метафоры “отпечатка пальца” или даже “лингвистического ДНК” приучили нас к тому, что какой-никакой стиль гарантирован всякому.

Таннери не уверен: “безличные сочинения”, по его словам, не так просто распознать. За этим стоит совершенно иное представление о стиле как о ценности, которое, наверное, еще живо где-то в литературоведении, но совершенно нерелевантно (и почти забыто) в области автоматической классификации текстов.

Нам гораздо проще представить стиль без автора, чем автора без стиля.

#стилометрия

🔥9👍3

670 viewsOlga Alieva, edited 12:56

RAntiquity

Интересно, что у современных исследователей (почти) ничего не получилось с автоматической классификацией текстов Гете по времени написания, а Константин Риттер еще в 1903 г. достиг в этом направлении значительных успехов. Риттера спровоцировал Эдуард Целлер…

Решительность, с которой доктор Целлер сопротивлялся новомодной в кон. 19 в. стилометрии, можно понять. Этот подход совершенно опрокидывал его собственную хронологию платоновского творчества, в которой «Теэтет» написан до первой Сицилийской поездки, а «Софист» и «Филеб» предшествуют «Государству».

Частью этого сопротивления стала статья «Sprachstatistisches», опубликованная в Archiv für Geschichte der Philosophie в 1898. В ней Целлер взял для сравнения 14 разных произведений немецкого философа Давида Фридриха Штрауса, сделал из них выборки равной длины и посчитал все знаки пунктуации. На первой картинке — таблица, которую он опубликовал, спрятав для начала года публикации под спойлером, точнее за римскими цифрами.

О чем же это нам говорит? Целлер рассуждает примерно так (голосом виртуального стилометриста): количество периодов, которые находятся на одном и том же пространстве, колеблется между 41 и 115, при этом больший объем периода вовсе не сопровождается богатой внутренней структурой, поскольку знаки препинания, указывающие на такую структуру (например, точка с запятой или двоеточие), появляются так же часто в меньших периодах, как и в больших...

Подобное явление нельзя считать случайным, и какая другая причина может объяснить его, кроме того, что в стиле писателя за годы произошли изменения?

Но очень быстро выясняется, что эта конструкция совершенно неверна: Целлер показывает, что она не имеет ничего общего с реальной хронологией Штрауса. Вывод, понятно, направлен против Диттенбергера и Ко.

Риторически это очень эффектно, но по существу ничего не доказывает: мало наблюдений и произвольно выбраны предикторы. Но что интересно. Я перегнала картинку в csv (оставлю в комментариях) и немного поупражнялась с tidymodels. Результат на картинке № 2. Не блестяще, но и не совсем мимо. При желании (и если бы во времена Целлера использовали множественную регрессию для текстовых данных), он мог бы из этой таблички сделать противоположный вывод.

Мораль: чат GPT прекрасно превращает картинки с табличками в csv. Хозяйке на заметку.

#стилометрия

👍10❤‍🔥1

836 viewsOlga Alieva, 19:43

RAntiquity

🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать. Итак,…

Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R” #tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.

2️⃣

6️⃣

1️⃣

2️⃣

9️⃣

Регулярные выражения (видео, текст).

🔟

Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.

1️⃣

Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.

1️⃣

2️⃣

Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.

1️⃣

3️⃣

Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.

1️⃣

4️⃣

Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.

1️⃣

5️⃣

Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.

1️⃣

6️⃣

Проекты под контролем версий в Git. Текста нет, видео.

🫥

Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.

И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲

Please open Telegram to view this post

VIEW IN TELEGRAM

VK Видео

Компьютерный анализ текста в R #9: Регулярные выражения

Занятие 1.11.2024. Регулярные выражения

❤20🔥8👍2👨‍💻2

1.07K viewsOlga Alieva, edited 18:38

RAntiquity

Forwarded from Наука и данные

Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!

❤11👍2🔥1

749 viewsOlga Alieva, 17:54

RAntiquity

Год завершается выходом важного для меня текста: “Возможна ли цифровая история философии?” (ИФЕ).

Этот текст — попытка осмыслить то, что с нами сегодня происходит, но происходит как будто стихийно, не произрастая изнутри научной отрасли, а привходя извне в программы, планы и методики преподавания.

Что же должен уметь “цифровой” историк философии? Как это повлияет на научное поле в средне- и долгосрочной перспективе? Ответ на эти вопросы не может быть однозначным и уж во всяком случае он не может вместиться в одну статью. Нужен опыт, и опыт разнообразный — но нужна и чисто теоретическая рефлексия.

Как оказалось, это намного сложнее, чем писать код. Но я рада, что пришлось все-таки такой работой заняться (точнее, лишь подступиться к делу), потому что это стало хорошим поводом задуматься о фундаментальных предпосылках историко-философской дисциплины.

Оставлю здесь одну цитату. Остальное — по ссылке.

И здесь прежде всего можно заметить, что историки философии находятся далеко не в авангарде цифровизации. Наивно-психологическое объяснение, которое нередко приходится слышать, сводится к констатации «страха» гуманитариев перед цифрой. Если это предположение верно, то небольшое административное усилие должно привести к желанному расцвету цифровых историко-философских исследований. Как будет показано далее, это объяснение ошибочно, а ожидаемый эффект едва ли достижим. Недостаток интереса к DH со стороны историков философии объясняется не страхом (программирование всяко не страшнее «Второй аналитики» Аристотеля), а спецификой самого историко-философского исследования, лишь некоторые жанры которого допускают применение стандартных методов NLP, причем в очень ограниченной степени. Сохранение тренда на форсированную цифровизацию отрасли приведет не к расцвету цифровой истории философии, а к вытеснению классических историко-философских подходов методами «истории идей» в духе Лавджоя или «автоматического анализа дискурса» в духе французского структурализма. Но даже на этих направлениях, если мы хотим их развивать, основные ограничения носят не технический, а теоретический характер: методы компьютерного анализа текста, в целом, хорошо известны и даже не очень сложны в освоении. Что не так очевидно, так это границы их применимости в области истории философии и интеллектуальной истории.

Едва ли стоит уточнять (хотя см. первую сноску), что я обязана очень многим людям, благодаря общению с которыми сложился этот текст. Я надеюсь, что диалог внутри профессионального сообщества продолжится, потому что иначе нам придется жить в мире, придуманном кем-то другим.

❤15🔥8👍1😁1

1.75K viewsOlga Alieva, edited 21:05

RAntiquity

Ну что, дорогие пифагорейцы. Calculemus.

> 45^2
[1] 2025
> sum(1:9)
[1] 45
> sum((1:9)^3)
[1] 2025

1️⃣ 2025 — это 45 в квадрате.
2️⃣ 45 — это сумма всех цифр (от 1 до 9).
3️⃣Квадрат суммы равен сумме кубов.

❗️Подсмотрено у Савватеева

❗️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19

1.33K viewsOlga Alieva, 06:57

RAntiquity

И о серьезном. Milan Straka сообщает per litteras: the LatinPipe model for EvaLatin24 has been released; apart from the web service https://lindat.mff.cuni.cz/services/udpipe/ it is also available at https://github.com/ufal/evalatin2024-latinpipe/tree/main/latinpipe…

История с EvaLatin получила продолжение. Удалось написать скрипт, который превращает conllu в упражнения (сначала в файл qmd, из которого рендерится html). Для интерактива использовала уже знакомый checkdown от Георгия Мороза. Над заданиями буду еще думать, но начало положено 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

Antibarbari HSE

🤩 Надеемся, что к первому воскресенью нового года все успели сходить на каток и в гости или просто пересмотреть любимые фильмы.

Мы тем временем готовились к новому греко-латинскому сезону, так что встречайте 🎀 новую рубрику 🎀 #caesar . Пока продолжающая…

🎉8👍4

922 viewsOlga Alieva, 12:01

RAntiquity

А знаете ли вы, что до 26 января можно податься (или номинировать друга) на DH Awards? Я не планирую, но буду рада поддержать коллег; после публикации списка номинантов кидайте ссылки в комментарии. Плюшек за это никаких не дают, кроме приятного чувства победы. Ну и что.

❤10🎉2

1.16K viewsOlga Alieva, 20:04

RAntiquity

Свежая (2024) года статья, сравнивающая обычный и LLM машинный перевод для латинского (!) языка. Авторы заключают, что GPT-4 достиг впечатляющих успехов в латинистике (метрики на первом скрине).

По моим впечатлениям, так и есть — ему уже вполне можно доверять несложные (а то и сложные) задачи и переводы.

Проблема пока в том, как это вписать в рабочий воркфлоу. Недавно экспериментировала с пакетом {tidyllm} — удобнейшая вещь, но есть одно но. Все прилично говорящие по-латыни модели требуют деняк. И впн, конечно, но больше всего — деняк.

Опенсурсная Llama — для которой тоже есть пакет {ollamar}, но можно и через {tidyllm}, разницы никакой — похожа на студента-первокурсника: не признается, что не знает латыни, но лепит чепуху (на втором скрине)

общий вывод такой, что быть гуманистом и здесь тоже оказывается дорого

p.s. и да, я знаю про чатбот, я изучала, есть ли возможность обойтись без ~~лишних движений~~ копипасты

#llm #латынь

❤13🔥4

4.49K viewsOlga Alieva, 20:30

RAntiquity

зафиксирую итоги рисерча, чтобы не растерять ссылки

По совету Светы Яцык @voxmediiaevi попробовала китайскую DeepSeek и прямо-таки влюбилась.

Начала с чата, он доступен после регистрации бесплатно онлайн: https://www.deepseek.com/ Выяснилось, что машинка весьма неплохо знает латынь и может нагенерить упражнений к заданному латинскому тексту, оформив их в markdown (см. скрин).

Ок, quod во втором предложении — союз, а не относительное местоимение, но, во-первых, союз происходит от местоимения, а, во-вторых, можно попробовать докрутить промпт.

V3 доступна через API по подписке (дешевле аналогов, как они уверяют). Пакет {tidyllm} китайцев не поддерживает, но можно немного схитрить и самостоятельно перевести пример их curl-запроса на язык R. Для этого есть, оказывается, гениальный translator: https://curlconverter.com/r-httr2/ и не менее удобный {httr2}

Теоретически V2.5 можно поставить локально и пользоваться через {ollamar}, но практически это 133 Гб, на кривой козе не подъедешь, надо учиться разворачивать~~, а у меня лапки~~: https://ollama.com/library/deepseek-v2.5

А еще параллельно выяснилось (все наверняка знали, но я только сейчас догнала), что Хадли наш бесценный Викхем написал еще один пакет для работы с LLM: https://ellmer.tidyverse.org/

DeepSeek он не поддерживает, но поддерживает кучу других, а еще на странице пакета очень подробные статьи о том, как обрабатывать тексты и распознавать изображения с помощью этой штуковины, как правильно писать запросы, ~~чтобы не разориться~~ и многое другое.

Но пока с меня хватит, вернусь к этому чуть позже #llm #api

❤11👍7🔥4

984 viewsOlga Alieva, edited 12:59

RAntiquity

Вот, это я даже вынесу в отдельный пост

The cost of a conversation grows quadratically with the number of turns: if you want to save money, keep your conversations short.

https://ellmer.tidyverse.org/articles/ellmer.html

❤7👍4

946 viewsOlga Alieva, 13:05

RAntiquity

Сегодня доработала и отправила в журнал рецензию на одну книгу о Платоне, которую медленно читала все праздники, чтобы не впасть в майонезную кому. Рецензия, как и книга, не имеет никакого отношения к цифре: речь идет о некоторых emerging trends в платоноведении.

Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.

Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) и ~~принялась варить кашу~~ попросила GPT каждую из них резюмировать. Несмотря на путаную структуру книги и местами темную аргументацию, перемежающуюся длинными греческими цитатами, модель в целом для каждой главы корректно установила, о чем она, и перечислила основные выводы.

Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.

Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).

Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.

Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.

Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.

Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.

❤28👍15🔥6💘5⚡2

10.7K viewsOlga Alieva, edited 20:03

RAntiquity

Спасибо коллегам за такой обзор. Про прокурора это, конечно, преувеличение 😅 Просто логика диалектической беседы требует додумывать любой тезис до конца, причем in utramque partem. Сначала в одну сторону, потом в другую.

Я не технофоб, не технофил и уж точно не техновизионер (этого и без меня хватает). Но мне нравится осмысленность.

Вот, например, Платон. Незадолго до его рождения Греция начала становиться грамотной: впервые в истории человечества не просто появилось фонетическое письмо, но и система грамматических школ, плюс доступный папирус из египетских колоний.

Все знание можно записать! - говорили одни. И продать! - говорили другие. Спокойно, - сказал Платон. — Пишите, кому что надо, законы там, учебники, стихи, — но не надо называть это знанием.

И на этом спокойствии мы протянули 25 веков, протянем и еще немного.

Историко-философский ежедневник

Далее в Ежегоднике следует небольшой методологический блок, открывающийся статьей Ольги Валерьевны Алиевой, проблематизирующей вопрос о возможности цифровых методов в истории философии. Договариваясь с Ольгой Валерьевной об этой статье, мы, признаться, думали…

👍13❤9🙏5

839 viewsOlga Alieva, 12:48

RAntiquity

Где у него кнопка

Через неделю мне предстоит выступать перед школьниками, и я решила немного обновить привычный формат презентации Quarto, добавив небольшие опросы. Прикрутить, так сказать, кнопку к слайдам, чтобы стать популярнее в кругу творческой молодежи 🐽

1) Чат GPT дал дельный совет: создать вопросы на сервисе https://www.slido.com/ и встроить их в презентацию как кусок html. Все получилось бы, если бы Slido работал без VPN. Не могу же я просить школьников подключаться по VPN, да и в Zoom так работать не получится.

2) Хороший пакет для вопросов — {webexercises}. Недавно я начала использовать его для создания онлайн-упражнений по латыни. Но, как выяснилось, {webexercises} не поддерживает формат презентаций revealjs.

3) Из блога «Наука и данные» я узнала о {surveydown} — пакете для онлайн-опросов. Такой опрос представляет собой, по сути, приложение Shiny; благодаря подробной инструкции создать его оказалось не так сложно. Но, увы, в отличие от других приложений Shiny, встроить такую штуку в презентацию или даже на сайт — например, при помощи {shinylive}, см. пример от Е.Н. Матерова —не получится. Во всяком случае, не влезая под капот функций и ничего капитально не переделывая. Но берем на заметку: пригодится для проверочных и лабораторных.

4) Пакет {checkdown} прекрасно встает в слайды, но возникли проблемы с оформлением: кнопкам не присвоены классы, пришлось повозиться с css, чтобы из кнопки на рис. 1 сделать кнопку на рис. 2 и увеличить кружочек под radio-input. Вариант оставить некрасивую кнопку я как-то не рассматривала 💅

5) Уже решив, что проблема решена, я обратила внимание на расширение для Quarto под говорящим названием quiz (вот тут список расширений). Как это работает: устанавливаешь плагин (на странице для каждого из них есть код, который надо запустить в терминале). Потом прописываешь его в yml. И все, наслаждаешься. Всех дел на пять минут. На радостях я переделала вообще все. Итоговый вид кнопки на рис. 3.

Мораль: не повторяйте моих ошибок, используйте плагины. Как сказал Гесиод,

Тот — наилучший меж всеми, кто всякое дело способен
Сам обсудить и заране предвидит, что выйдет из дела.
Чести достоин и тот, кто хорошим советам внимает.
Кто же не смыслит и сам ничего и чужого совета
К сердцу не хочет принять, — совсем человек бесполезный.

upd. старшие товарищи подсказывают, что есть вот такая коллекция расширений Quarto, там много красивого и полезного в хозяйстве: https://m.canouil.dev/quarto-extensions/#category=reveal.js

#quarto #extensions #revealjs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍3😁2

871 viewsOlga Alieva, 11:14

About

Blog

Apps

Platform