RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
542 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
🔍 Гарольд Лав пишет, что Эндрю Мортон в 1993 г. пришел на британское телевидение, чтобы публично испытать свои стилометрические методы, и опозорился. Выходных данных не дает. Облазила весь архив, ничего не нашла. Вдруг кто знает, о чем речь?

(Например, вы смотрели в 1993 г. британское телевидение и случайно увидели, может же такое быть с вероятностью 1e-31?)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5😴1
RAntiquity
🔍 Гарольд Лав пишет, что Эндрю Мортон в 1993 г. пришел на британское телевидение, чтобы публично испытать свои стилометрические методы, и опозорился. Выходных данных не дает. Облазила весь архив, ничего не нашла. Вдруг кто знает, о чем речь? (Например, вы…
But the technique and Morton's most embarrassing failure came in 1993 when he was challenged on live British television to attribute texts that he had never seen. The result was disastrous: despite his impressive statistics and his fancy computer graphics, Morton could not distinguish between the writings of a convicted felon and the Chief Justice of England (отсюда)
🤔2😁1
В комментариях к предыдущему посту Соня раскопала интереснейшую историю взлета и падения Эндрю Мортона, к которой добавлю лишь несколько слов.

Судебная экспертиза действительно была для него одним из важнейших направлений работы. Тот же Гарольд Лав пишет, что Мортон изучал показания, данными якобы самими заключенными, и продемонстрировал (используя свои сомнительные методы), что многие из них были сфабрикованы полицией.

О своем опыте работы в этой сфере сам Мортон рассказывает в Literary Detection 1978 г., причем начинает ни много ни мало с самого Бертильона, его успехов и того, как он сопротивлялся методу дактилоскопии.

When he died in 1914 his place in history was secure but his personal feelings were of failure.



Похоже, что собственные поиски Мортона в значительной мере вдохновлялись подобными примерами именно из области криминалистики.

Г. Лав упрекает его в том, что он получал фантастические результаты, перемножая вероятности там, где их надо было складывать. Но, кажется, основная трудность не в том, складывать или умножать.

Для Мортона физическая обособленность автора — гарантия его литературной обособленности. Если человек обособлен и уникален, то как-нибудь — с помощью бертильонажа, дактилоскопии или сканирования сетчатки — мы эту уникальность можем зафиксировать.

Но кто сказал, что наши языковые личности уникальны? Чтение курсовых, родительских чатов и даже научных журналов убеждает меня в обратном. Язык публичен, как куски кода на SO, и все мы собираем свои высказывания из обрывков уже доступных скриптов.

upd. автор умер, но мы продолжаем его измерять 💀

На фото: текущие скрипты и личный маскот (сделанный детьми по мотивам моей любимой компьютерной игры)
🔥5❤‍🔥1👍1🥰1
Продолжая историю преподобного Мортона, упомяну о его (написанной в соавторстве) книге It’s Greek to the Computer (1971 г.). Несколько глав там посвящены Платону.

Авторы приходят к удивительным выводам: первые 300 предложений «Тимея», весь «Критий», две книги «Законов» (5 и 6) и седьмое письмо отличаются от платоновского стиля и написаны или отредактированы, скорее всего племянником Платона Спевсиппом.

Этот вывод был основан на нескольких тестах, среди них καί-тест и δέ-тест, оценивающие долю предложений с этими частицами в начале. От Спевсиппа у нас есть всего одно (спорного авторства) письмо Филиппу — на этом были основаны все сравнения.

Книга не лишена интересных наблюдений (в частности, о характере платоновской имитации стиля Лисия), но платоноведы ее подчеркнуто проигнорировали: на google scholar’е всего 27 цитирований за 53 года, главным образом в обзорных статьях по истории количественных методов.

А письмо Спевсиппа надо будет пересчитать, да. О результатах доложу.
🔥84🙏4👍1
RAntiquity
Кое-кто может усомниться, что филогенетические методы, о которых я в последнее время рассказываю (консенсусные сети, консенсусные деревья и neighborNet) сколько-нибудь полезны при изучении текстов. Мы же не думаем, что Аристотель произошел от Платона таким…
В статье “Untangling Our Past: Languages, Trees, Splits and Networks” создатели алгоритма NeighborNet объясняют, как правильно интерпретировать такой граф на примере дерева германских языков.

Конфликтующие сигналы передаются за счет “ретикулярной структуры” (квадратиков, проще говоря). Там, где конфликта нет, мы видим дерево.

Каждый сплит представлен несколькими параллельными линиями, и если эти параллели удалить, то граф распадется на два. Чем длиннее ребро, тем “весомее” сплит.

На графе видно, что креольский язык сранан-тонго обладает сходством и с английским, и с нидерландским (граф можно разрезать по зеленым линиям двояко).

Более слабый конфликтующий сигнал прослеживается между немецким, нидерландским и фламандским, с одной стороны, и пенсильванским немецким, с другой (синий разрез).

Теперь можно вернуться к картинке с древнегреческими авторами и посмотреть внимательнее, какие группы там выделяются и где больше “конфликтов”.

(Но мне надо готовиться к паре, так что это чуть позже). #филогенетика
5🔥5👍3
Программа конференции 📎

15–17 апреля мы проводим конференцию «Гуманитарные проблемы актуальных наук: цифровая дисциплина и проект»

До нашей встречи в Петербурге и в онлайне — чуть больше недели, и мы рады поделиться с вами программой этих трёх дней.

На конференции будут не только классические форматы в духе докладов, дискуссий и круглых столов, но и серия специальных мероприятий, которые мы подготовили с нашими коллегами: секция о сохранении цифрового наследия вместе с ПАНДАНом, встречи о чтении гипертекстов и тексте в интерфейсе вместе с Пушкиным <цифровым>, лекции и воркшопы от приглашённых спикеров и, конечно, вечеринки открытия и закрытия.

⚡️ Полная программа — на сайте. Актуальное расписание и параллельные секции — в этом документе.

Там же вы найдёте ссылки для регистрации в качестве слушателей. Важно — если вы планируете прийти на конференцию на все три дня — зарегистрироваться нужно на каждый из них.

До встречи в середине апреля!
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥1
RAntiquity
Продолжая историю преподобного Мортона, упомяну о его (написанной в соавторстве) книге It’s Greek to the Computer (1971 г.). Несколько глав там посвящены Платону. Авторы приходят к удивительным выводам: первые 300 предложений «Тимея», весь «Критий», две…
Как и обещала, докладываю о результатах. В общем, все спокойно, живем. Это не Спевсипп написал половину платоновского корпуса. Скорее он творил под именем Исократа 😂
👍8🔥5😁3🦄1
RAntiquity
В статье “Untangling Our Past: Languages, Trees, Splits and Networks” создатели алгоритма NeighborNet объясняют, как правильно интерпретировать такой граф на примере дерева германских языков. Конфликтующие сигналы передаются за счет “ретикулярной структуры”…
Сделаю zoom in, чтобы было лучше видно разрезы.

1) Красным перерезан пенек, на котором сидят диалоги и близкая к ним по стилистике диатриба: Лукиан, Эпиктет, Платон, сократические диалоги Ксенофонта.

2) Зеленым подрублен философский пенек, к которому почему-то примкнул Гален с “Естественными способностями”. Несократический Ксенофонт и исторический Плутарх сюда не входят, он расположились ближе к историкам.

3) Желтый срез хорошо показывает уровень, на котором авторский сигнал Ксенофонта перекрывает жанровый — но сюда же прилипает Аристид с одной из “Священных речей”, в которой подробно рассказывает, как у него болел живот и поэтому он не мылся. Почему так, сказать пока не могу. Но видно, что он особняком ото всех со своими болячками.

Матрицы смешений на основе тех же данных в целом подтверждают такую картину.

Там, где у автора есть своя ветка — смешений в моих экспериментах было мало, но они возрастали там, где на графе видно перепонки: например, между Аристотелем и Плотином.
👍101
This media is not supported in your browser
VIEW IN TELEGRAM
Пререквизит к курсу по векторной семантике / количественной стилистике / you name it. Кто знает правильный ответ, ставьте 🐳 Кто хочет узнать решение, ставьте 🔥

upd. кажется, с моей подписью получилось несмешно, а я смеюсь второй день, ну простите
🐳13🔥5🤣3🌚1
Зачем цифровые гуманитарии собирают данные о прошлом, настоящем и будущем? Как эти данные смогут помочь понять мир вокруг нас?

Напоминаем о том, что уже сегодня в 13:00 по Москве/ 17:00 по Красноярску можно будет присоединиться к первой лекции курса НИУ ВШЭ «Количественные методы в гуманитарных науках: критическое введение». Доцент МГУ, руководитель Института цифровых гуманитарных исследований СФУ Андрей Володин расскажет о данных, датаизме и о том, как это все осмыслить современному гуманитарию.

→ Подключиться

Иллюстрация: Kandinsky 3.0 (промпт: data around us)

#criticaldh #курсы
54🔥1
Публикуем первую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ).

Лекцию о данных в гуманитарных науках прочел к.и.н., доцент кафедры исторической информатики исторического факультета МГУ, руководитель Института цифровых гуманитарных исследований СФУ Андрей Юрьевич Володин.

Встречу провели руководитель магистерской программы НИУ ВШЭ "Цифровые методы в гуманитарных науках" Борис Орехов и доцент Школы философии и культурологии НИУ ВШЭ Ольга Алиева @rantiquity.

В ближайшее время поделимся анонсом следующей лекции, оставайтесь с нами.

#criticaldh #курсы
11🔥4
📈 Публикаций в мире становится все больше, скорость их появления только растет, а уследить за новыми работами почти невозможно. В результате очень сложно представлять, как устроена предметная область в целом. Ответом на эти вызовы стали исследования ландшафта некоторой предметной области, авторы которых пытаются выявить структуру научной области или просто некоторого собрания текстов.

🔖 В своей лекции заведующий Международной лабораторией языковой конвергении, доцент Школы лингвистики НИУ ВШЭ Георгий Мороз рассмотрит некоторые исследования в этой области. Он также расскажет о том, с каким трудностями столкнулся при создании ландшафта лингвистики.

🔔 Лекция состоится 13 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥5👍3
Когда ночью штудируешь учебники по машинному обучению, а днем преподаешь латынь, получается так. Veniam mihi date.
👾12🔥95😁2👀1
Forwarded from Vox mediaevistae
В Nature Reviews Methods Primers вышел обзор количественных методов анализа текста (там даже есть пара слов о том, как методы гуманитариев, вроде тематического моделирования, могут пригодиться биологам; обычно бывает наоборот). Мне кажется, это отличный текст, чтобы составить общее представление о поле, прежде чем понять, куда углубляться. Предлагаю присмотреться к нему, например, тем, кто собирался поступать в закрывшуюся магистратуру по медиевистике в Вышке: программа по DH-то пока в относительном порядке
7
В истории коммитов есть место творчеству.
😁53🔥3
Публикуем вторую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Лекцию о построении ландшафта области знаний прочел к.ф.н., доцент Школы лингвистики НИУ ВШЭ, заведующий Международной лаборатории языковой конвергенции Георгий Алексеевич Мороз.

Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Пользуемся случаем напомнить, что завтра (14 апреля) на Дне открытых дверей ФГН представит 19 магистерских программ, открытых для поступления в 2024 году, в том числе будет представлена программа ЦМГН (12:00-12:20). Зарегистрироваться можно по ссылке.

Чтобы поступить в эту магистратуру, не нужно уметь программировать. Мы учим питону, R и анализу данных, ключевым инструментам наук о данных в применении к гуманитарным объектам, прежде всего к тексту. Наша магистратура -- это способ радикально расширить взгляд на гуманитарные науки и понять многое в том, как функционируют современные методы анализа данных. На бюджетные места могут претендовать все те, кто не обучался раньше в магистратуре.


Подробнее о магистратуре расскажем завтра на ДОД. Также в ближайшее время поделимся анонсом следующей лекции курса "Количественные методы в гуманитарных науках". Оставайтесь на связи.

#criticaldh #курсы #магистратура
8🔥4👏1
На семинаре в восемь утра пошутила, что аналитические философы читают только статьи друг друга, а книжки не читают. И кажется, кого-то ненароком обидела, a thousand pardons.

Но в каждой шутке, как известно, только доля шутки. Есть такой исследователь Eugenio Petrovich, который занимается DH в философии, а именно — исследует социальные сети внутри аналитической философии, анализируя рубрику «Благодарности» в статьях. Казалось бы — в условной континентальной философии тоже есть такие благодарности, однако он отмечает, что

…analytic philosophy is taken here as a representative of humanities areas, at least from the viewpoint of authorship practices. Since multiple authorship is relatively uncommon in analytic philosophy like in other humanities fields, co-authorship analysis is likely to be scarcely useful to trace its social structures. At the same time, serials have become a common publication outlet for analytic philosophers (Levy, 2003). Therefore, focusing on journal articles allows gathering a representative sample of the field. From this point of view, collecting data from standard databases is easier for analytic philosophy than for other philosophical traditions whose communicative practices rely more on books or collections.


А еще мне сейчас коллега, который парижанит на конференции по философии сознания, написал:

докладчица цитирует беньямина — кажется, это первое упоминание континентальщины за 4 дня конфы; а убер аналитическая профессорка гуглит беньямина передо мной.


Ну и — что называется — где я не права? Пояснение: пост шуточный, всех люблю (просто кого-то чуть больше).
7👍2🔥2😁2
5 коллекций данных для цифрового гуманитария

Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.

🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…

Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.

✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.

А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂

📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.

🏛 4. Госкаталог Музейного фонда РФсвалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.

🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля 🐳
10🔥3
Forwarded from Antibarbari HSE (Olga Alieva)
🎉 Долгое время на нашем канале действовала рубрика #цифровой_понедельник, в которой публиковались небольшие обучающие видео по работе с языком R для антиковедов. Сегодняшний понедельник снова станет цифровым.

⚙️ Целый год команда бесстрашных антиварваров осваивала, параллельно с латынью, язык Markdown, благодаря чему мы смогли собрать интерактивный сборник упражнений к учебнику Familia Romana.

📝 Такие упражнения можно задавать на дом ученикам, когда не хочется проверять домашку, или делать motu proprio, когда нужно повторить грамматику или лексику.

Наши упражнения стараются не дублировать сборник Exercitia Latina и другие коллекции заданий к учебнику Ханса Эрберга. В основу сборника легли упражнения, составленные преподавателем Школы философии и культурологии Кириллом Прокоповым @ecceliber

🎈 Над созданием сайта в 2023-2024 учебном году трудились студенты нескольких образовательных программ НИУ ВШЭ:

Екатерина Демидова (ОП “Филология”),
Татьяна Крюкова (ОП “Античность”),
Александр Семенов (ОП “История”),
Мария Худошина (ОП “Филология”),
Денис Манаков (ОП “Философия”),
Вероника Пушкина (ОП “Филология”),
Тимур Саев (ОП “Философия”),
Ульяна Афанасьева (ОП “История”),
Мария Шелкова (ОП “Философия”).

Руководитель проекта: доцент Школы философии и культурологии Ольга Алиева @rantiquity.

За помощь в редактуре и корректуре благодарим Полину Крупинину (ОП “Доказательное развитие образования”).

💡 Интерактивная часть сайта реализована с использованием пакета checkdown для языка R. Его разработал наш коллега, доцент Школы лингвистики Георгий Мороз. Спасибо Георгию Алексеевичу за консультации и за несколько полезных функций, добавленных в пакет по нашей просьбе.

🎯 В сборнике пока 20 уроков, но мы надеемся продолжить. Также в работе древнегреческий сайт, о готовности которого мы напишем в свое время.

Поддержите нас лайками и репостами, мы тут все убились ради этого очень старались. Об опечатках, если найдете, пишите в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7🔥73👏1
⚙️ IT велико и разнообразно. В третьей лекции курса “Количественные методы в гуманитарных науках” посмотреть с высоты на ландшафт технических инструментов приглашает Иван Бибилов, со-руководитель программы прикладного анализа данных (ПАНДАН), директор Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб.

🎯 В лекции будут рассмотрены подходы и приемы, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными. Попытаемся обсудить их недостатки и достоинства, открыть с новой стороны известные программы, перенять опыт других областей. Ну и конечно, обсудим типичные ошибки и трудности в подходе «а давайте все начнем программировать».

🔗 Лекция состоится 20 апреля 2024 г. онлайн на платформе Zoom. Время и ссылка для подключения доступны на сайте курса. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥1