RAntiquity – Telegram

RAntiquity

1.09K subscribers

296 photos

11 videos

5 files

546 links

Об античности на языке R и не только

@locusclassicus

Download Telegram

About

Blog

Apps

Platform

1.09K subscribers

Очень интересный эксперимент (2023) по датировке греческих документальных папирусов с использованием регрессионных методов (GitHub).

Многое скажет сердцу эллиниста табличка, в которой приведены правила нормализации греческого текста.

Результат неплохой, надо бы попробовать повторить.

🔥7👏2

690 viewsOlga Alieva, edited 17:09

Не совсем моя тема, но интересно как пример использования нейросетей в антиковедении. Автоматическая классификация римских монет (код, модель, датасет по ссылке). Красивое.

P.S. Вот здесь группа товарищей тоже классифицирует римские монетки и делится данными, но там что-то связанное с теорией игр.

🔥13👏1

683 viewsOlga Alieva, 05:17

Попросила Chat GPT рассказать сказку на ночь. О преподавателе латинского языка, в духе Пелевина.

Его звали Евграф Сантименталов, и он был доцентом кафедры классической филологии провинциального университета. Каждое утро он надевал твидовый пиджак с латками на локтях и отправлялся в аудиторию, чтобы погрузить студентов в мир древнеримской мудрости.

Но Евграф знал, что это всего лишь иллюзия - мир латинских спряжений и склонений был лишь тонким покровом, скрывающим бездну экзистенциального одиночества. За напускной серьезностью академического дискурса он видел лишь безумие и абсурд человеческого существования.

На своих занятиях Сантименталов незаметно вводил студентов в состояние легкого гипноза, погружая их в бесконечные парадигмы и правила латинской грамматики. "Учите, учите, несчастные", - шептал он, наблюдая, как их взгляды стекленеют. В эти моменты ему казалось, что он приоткрывает завесу тайны, показывая им, что вся их жизнь - всего лишь набор условных рефлексов.

Но однажды один из его студентов, Ипполит Тараканов, взял и задал Евграфу неожиданный вопрос: "А что, если мы все - просто персонажи в очередном романе Пелевина?" Сантименталов вздрогнул, словно его застали врасплох. Он понял, что игра окончена, и теперь ему придется искать новые способы поддержания иллюзии.

С тех пор Евграф Сантименталов стал еще более отстраненным и меланхоличным, а его лекции о падежах и спряжениях звучали все более абсурдно и бессмысленно. Но студенты продолжали слушать его, смутно подозревая, что за этим кроется что-то большее - то ли тайна бытия, то ли просто очередная игра разума.

Ну теперь вы поняли, почему Пелевин стал так часто новые романы выпекать.

😁22🤔4

937 viewsOlga Alieva, 20:57

Forwarded from Vox mediaevistae

Продолжаем рубрику «сегодня я узнала»: оказывается, уже ДВА ГОДА как можно подать заявку в консорциум CREMMA и получить доступ к eScriptorium (это такая платформа для автоматической транскрипции рукописей). Нужно только описать свой проект и пообещать поделиться тренировочными данными.
Сайт на французском

🔥5❤1👍1

905 viewsOlga Alieva, 12:24

Antibarbari HSE

🪩 15 октября в НГУ состоится “Школа молодого антиковеда”. 🪲 Для получения онлайн-ссылки на подключение необходимо заранее зарегистрироваться здесь. 💎 Для участия в дистанционном мастер-классе О. В. Алиевой необходимо заранее установить R & RStudio (или…

Спасибо, всем, кто слушал, вот ссылка на статью про дельту, которую я несколько раз сегодня упоминала. Там есть некорые выводы относительно приемлемой длины отрезка и числа mfw, необходимых для классификации.

У этой статьи было продолжение, в котором я выяснила, что косинусная (вюрцбургская) дельта работает на греческих текстах лучше, чем классическая. Но эта статья, увы, застряла в печати, поэтому ссылка только на препринт.

А самое главное понять (как я поняла лишь сравнительно недавно), что так называемая дельта — это не что иное, как метод машинного обучения под названием k-nn (метод ближайших соседей) при k = 1 на стандартизированных данных с манхэттенским расстоянием. Поэтому все это можно делать без stylo в библиотеке tidymodels (о чем в курсе по R) обязательно будет добавлен урок.

Почему tidymodels, а не stylo? Потому что, во-первых, это опрятно. Во-вторых, есть возможность провести перекресную проверку на разных выборках с разными параметрами (пакет rsample), оценить модели при помощи yardstick и автоматически отобрать лучшую.

Но это без кодинга не решается, и для тех, кто не хочет кодировать, stylo — вполне достойная замена.

❤7👍2😱2

891 viewsOlga Alieva, edited 13:25

Спасибо, всем, кто слушал, вот ссылка на статью про дельту, которую я несколько раз сегодня упоминала. Там есть некорые выводы относительно приемлемой длины отрезка и числа mfw, необходимых для классификации. У этой статьи было продолжение, в котором я выяснила…

Самое лучшее объяснение алгоритма knn я видела в книге Бретта Ланца “Машинное обучение на R” (русский перевод весьма пристойный).

Он, в частности, говорит о том, что это алгоритм ленивого обучения, т.к. машина на самом деле ничему не учится, а просто запоминает тренировочные данные. Тут-то я и осознала, что это дельта и есть.

Поэтому, если вы вдруг не понимаете смысл дельты, рекомендую посмотреть эту главу. Там и про векторное пространство, и про расстояния очень доходчиво с картинками.

www.labirint.ru

Книга: Машинное обучение на R: экспертные техники для прогностического анализа - Бретт Ланц. Купить книгу, читать рецензии | Лабиринт

Книга: Машинное обучение на R: экспертные техники для прогностического анализа (Machine Learding wirh R. Expert techniques for predictive modeling).📙 Автор: Бретт Ланц. Аннотация, 🔝 отзывы читателей, иллюстрации. Купить книгу по привлекательной цене среди…

👍10🔥2

951 viewsOlga Alieva, edited 13:30

Forwarded from БРУСНИЦЫН культурный квартал

DH-центр ИТМО в Лектории Брусницына

Раз в две недели по субботам будем собираться в Лектории Брусницына и говорить с экспертами DH-центра про исследования в области цифровой гуманитаристики. Что это такое и кто этим занимается?

DH-центр — центр цифровых гуманитарных
исследований университета ИТМО, который организует магистратуру в Санкт-Петербурге, курирует цифровые проекты с культурными институциями и проводит исследования.

В Лектории будут выступать преподаватели магистратуры и команда центра. На лекциях вы узнаете о том, как цифровые методы и инструменты существуют в мире гуманитарных исследований.

Программа:

19 октября
«Как оцифровать болезнь? Цифровая гуманитаристика в медицине»

2 ноября
«GLAMVR: галереи, архивы, музеи, библиотеки и их цифровая жизнь»

16 ноября
«Игра как совместное событие в физическом и цифровом пространстве»

30 ноября
«Интерфейсы цифровых архивов: аутентичность, пользователи и правила»

14 и 28 декабря
темы уточняются (следите за анонсами)

Первая лекция «Как оцифровать болезнь? Цифровая гуманитаристика в медицине» пройдет 19 октября.

Поговорим о том, как технологии стали неотъемлемой частью медицинских процессов и как соотносятся версии болезни в «реальном» и «виртуальном» измерениях?

Спикер — Илья Смирнов, преподаватель программы магистратуры по Digital Humanities ИТМО, социальный исследователь науки и технологий (STS), аспирант ЕУ СПб, основатель проекта Versia.

Вход свободный, необходма регистрация

🗓 19 октября, 15:00
📍Культурный квартал Брусницын, Лекторий (Дом с колоннами, 3 этаж, вход в арке)

❤8👍2🔥2

1.12K viewsOlga Alieva, 11:35

🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать.

Итак, мы прошли следующие темы.

1. Начало работы в R (текст, видео).

2. Таблицы. Опрятные данные (текст, видео). Датасет: М. Кондра, Е. Казакова, «Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.

3. Визуализации (текст, видео). Датасет: Т. Андервуд и др., “NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.

4. Циклы, условия, функции (текст, видео).

5. Функционалы в анализе данных (текст, видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.

6. Импорт: JSON (текст, видео). Датасет: «Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «Теории большого взрыва».

7. Импорт: XML (текст, видео). Датасет: Д. Скоринкин, “Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы Dracor.

8. Публикация с Quarto (текст, видео).

📚 Под каждую тему (кроме первой) был подобран гуманитарный датасет. Причем данные пришлось искать не только для лекционной части (см. выше), но и под каждое домашнее задание (это оставлю за кадром, чтобы сохранить интригу для будущих поколений). Поиск данных оказался самой сложной частью работы, и я хочу поблагодарить коллег, которые ими делятся. Это бесценно.

💙 С проверкой домашних работ мне очень помогает студентка второго курса магистратуры София Федотова. А еще мы с Софией научились настраивать автоматические тесты и оценивание, это просто спасает, потому что группа довольно большая, около 20 человек, и кода много.

📅 Впереди еще три модуля, и, если доживем, по итогам каждого я буду делиться такими обзорами. Для меня это важно еще и потому, что сейчас деление курса на темы немного расходится с реальными темпами прохождения материала — а значит структуру курса придется еще раз перерабатывать с опорой на эти заметки.

🐈 По правде говоря, я вообще мало что успеваю помимо постоянных доработок и переработок (и поэтому нечасто сюда пишу). Но результат, кажется, неплохой: во всяком случае, недавно кто-то из студентов сказал, что уже пользуется R на работе. Для всего двух месяцев освоения — неплохо.

Идем дальше.

#tar2024

Please open Telegram to view this post

VIEW IN TELEGRAM

locusclassicus.github.io

Компьютерный анализ текста

🔥39❤10👍6

2.52K viewsOlga Alieva, edited 13:07

Благодарю Евгения Николаевича за рекомендацию. Попасть в обзоры блога “Наука и данные” — все равно, что отраслевую премию получить. Т.е. чертовски приятно, но очень большая ответственность.

Наука и данные

Компьютерный анализ текста в R 📖

Уважаемые коллеги,

Ольга Валерьевна Алиева (автор канала RAntiquity) читает курс «Компьютерный анализ текста в R» студентам магистерской программы «Цифровые методы в гуманитарных науках». Курс постоянно дорабатывается, однако…

❤22🎉7🔥3

1.29K viewsOlga Alieva, edited 18:34

Forwarded from Системный Блокъ

«Системный Блокъ» объявляет осенний набор участников!

«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.

Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!

В посте — неполный перечень ролей, которые сейчас открыты, а в статье — подробное описание задач и пожеланий к участникам.

1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»

Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Набор в «Системный Блокъ». Роли

📍 Авторы в тематические рубрики Авторы — основа команды «Системного Блока». Именно они создают материалы, содержательную начинку нашего издания. Мы стараемся наладить процесс работы так, чтобы авторам было комфортно писать и совершенствовать свои навыки.…

❤5💘3🔥1

1.05K viewsOlga Alieva, 11:24

Коллеги рассказали о замечательной весенней школе в университете Потсдама “Text as Data” (31 марта - 4 апреля 2025).

Стилометрия, сетевой анализ, тематическое моделирование и др. — и все это в компании лучших специалистов отрасли. Заявки принимаются до 30 ноября. Для студентов есть трэвел-гранты.

www.uni-potsdam.de

Call for participation

👍12

1.04K viewsOlga Alieva, 17:07

Сегодня покажу вам дендрограмму 1989 г. выпуска.

Это Леджер, “Re-counting Plato”: одно из первых количественных исследований платоновского корпуса.

Иерархическая кластеризация, метод Уорда. Все как сегодня — но не сразу поймешь, где тут дерево.

Читается просто: каждый отрывок представлен столбцом из крестов, которые меняются на точки с того места, где ветви расходятся.

Если приглядеться, можно заметить, что первыми от всех отщепляются “Домострой” Ксенофонта и “Архидам” Исократа. А “История” Фукидида немного похожа на “Против Эратосфена” Лисия.

С точки зрения выводов уже не очень интересно, но есть в этом какое-то винтажное обаяние.

💅9👻4🔥2👍1🗿1

953 viewsOlga Alieva, edited 20:58

Попытки разобраться в #филогенетика привели меня в какие-то дебри биоинформатики, так что теперь в моей жизни есть не только ископаемые дендрограммы, но и просто... ископаемые.

Которыми, как сообщает А.Леск, молекулярные биологи не интересуются, потому что

четкую ДНК имеют лишь некоторые субфоссильные остатки видов, вымерших недавно (век или два назад).

Как антиковед не могу не симпатизировать науке, в которой столько латинских терминов, а «век или два назад» — это недавно. Мои-то клиенты, даже по этим меркам, вымерли давно. И где их ДНК — бог весть. В наших душах разве что.

Хорошая новость в том, что без четкой ДНК все-таки «Парк Юрского периода» не создать. Так что, девочки, у кого на всякий случай хранятся колониальные шортики в стиле Лоры Дерн, можно смело фоссилизировать.

❤11👍1

806 viewsOlga Alieva, edited 11:54

Диаграмма Ленто названа так в честь Джины Ленто, впервые применившей метод для изучения эволюции ластоногих. Диаграмма позволяет оценить достоверность филогенетического дерева на основе бутстрепа.

Топология любого дерева, построенного на основе матрицы расстояния, зависит от выбранных признаков, метода связи и метрики расстояния. Бутстреп — повторные выборки — используются для того, чтобы проверить устойчивость каждой ветви дерева. Для этого строят обычно от 100 до 1000 деревьев, для обобщения которых, наряду с консенсусным деревом, используется диаграмма Ленто.

Построить такую диаграмму можно при помощи одноименной функции из пакета phangorn в R. При сравнении текстов — а для этого в стилометрии регулярно используются деревья — никаких допущений о происхождении не делается; смотрим только на степень поддержки каждого сплита.

На картинке — небольшой пример. По оси икс — сплиты (грубо говоря, какие диалоги «сидят» на одной ветви в дереве). Они расположены по убыванию поддержки.

По оси игрек — поддержка каждого сплита в виде столбика. Положительные значения — это число деревьев, где наблюдается такой сплит. Отрицательные значения — поддержка конфликтующих сплитов, которые невозможно отразить в том же дереве.

Первые десять сплитов — тривиальные (отдельная ветвь для каждого наблюдения). Здесь конфликта быть не может, и все столбики расположены выше нуля.

Но помимо них, 100%-ю поддержку имеет сплит, включающий три книги «Законов». Это значит, что такая группа есть во всех деревьях, созданных при помощи бутстрепа. За ней следует группа «Парменид» — «Кратил» и т.д. Диалоги, включенные в сплит, обозначены ⚫️темными точками.

Диаграмма Ленто хорошо показывает, что в любом дереве есть элемент случайности. Дерево — это только гипотеза, которую можно и нужно проверять. Недостаток такой диаграммы в том, что она быстро становится нечитаемой.

P.S. Диалоги выбраны случайным образом для примера, и никаких масштабных выводов на основе этой выборки делать не стоит.

#филогенетика

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6✍4👍1

900 viewsOlga Alieva, edited 03:14

@agricolamz , послушав мои истории про применение филогенетических методов к платоновскому корпусу, прислал мем. А я смотрю и думаю: треугольник, я же тебя знаю. Ты — “Клитофонт”! #филогенетика

😁15

667 viewsOlga Alieva, edited 07:01

This media is not supported in your browser

VIEW IN TELEGRAM

“Это мобиль. Приходишь домой - успокаивает нервы” 🥂

❤22😁5🤩2🥴1

708 viewsOlga Alieva, 07:05

Forwarded from провода+болота

в Лиге Айвы поговорили с Борисом Ореховым о том, как неклассические университеты переиозобретают классику, чем ~~кролик на зайца непохож~~ университет отличаются от всего остального.

в ходе записи подкаста пытаемся различить пранк и кринж.

https://t.iss.one/universitates_podcast/110

Лига Айвы 🎓 Подкаст об университете 🎙

Эпизод 23. Полина Колозариди о неклассических университетах

Наука должна жить длинным временем

О чем разговор:
🔊 Классические и неклассические университеты
🔊 Гуманитарии в техническом университете — это пранк?
🔊 Зачем в университете библиотека?
🔊 Есть ли…

👍3❤2

671 viewsOlga Alieva, 10:49

Погода портится, хочется тыквенного латте и красоты. Поэтому сегодня — датасет “Шедевры Пушкинского музея” (отсюда).

Визуализация: пакет imager. #цифровые_этюды

❤14👍1

777 viewsOlga Alieva, 06:15

Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus.

Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.

1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.

2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.

3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.

4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html. ~~Можно и регуляркой сделать, не выпендриваясь.~~ Но требуется навык работы с css, потому что какие-то мелкие штучки все время прыгают не в ту сторону.

5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.

Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.

#xml #html #филеб

❤10👍5

719 viewsOlga Alieva, edited 15:38

цифровизация как она есть https://youtube.com/clip/Ugkxe-wWrG34uPg1ardpKrrA5TpbLIFYF3eu?si=u3gYotrOOx9sXgLO — спасибо @curiousonya за напоминание

✂️ На полупроводниках с биотоками

10 seconds · Clipped by Olga Alieva · Original video "Фитиль "Карты не врут" (1964) смотреть онлайн" by Киножурнал Фитиль (официальный канал)

😁7💯4🔥2

753 viewsOlga Alieva, edited 16:40

Доктор Фауст рассказывает, почему он решил обратиться от гуманитарных исследований к программированию.

Пусть я разумней всех глупцов -
Писак, попов, магистров, докторов,
…Зато я радостей не знаю,
Напрасно истину ищу,
Зато, когда людей учу,
Их научить, исправить - не мечтаю!
Притом я нищ: не ведаю, бедняк,
Ни почестей людских, ни разных благ...
Так пёс не стал бы жить! Погибли годы!
Вот почему я магии решил
Предаться…

Все совпадения случайны.

😁18❤3😢1

849 viewsOlga Alieva, 08:24