RAntiquity
1.09K subscribers
295 photos
11 videos
5 files
544 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
Forwarded from Vox mediaevistae
В Nature Reviews Methods Primers вышел обзор количественных методов анализа текста (там даже есть пара слов о том, как методы гуманитариев, вроде тематического моделирования, могут пригодиться биологам; обычно бывает наоборот). Мне кажется, это отличный текст, чтобы составить общее представление о поле, прежде чем понять, куда углубляться. Предлагаю присмотреться к нему, например, тем, кто собирался поступать в закрывшуюся магистратуру по медиевистике в Вышке: программа по DH-то пока в относительном порядке
7
В истории коммитов есть место творчеству.
😁53🔥3
Публикуем вторую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Лекцию о построении ландшафта области знаний прочел к.ф.н., доцент Школы лингвистики НИУ ВШЭ, заведующий Международной лаборатории языковой конвергенции Георгий Алексеевич Мороз.

Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Пользуемся случаем напомнить, что завтра (14 апреля) на Дне открытых дверей ФГН представит 19 магистерских программ, открытых для поступления в 2024 году, в том числе будет представлена программа ЦМГН (12:00-12:20). Зарегистрироваться можно по ссылке.

Чтобы поступить в эту магистратуру, не нужно уметь программировать. Мы учим питону, R и анализу данных, ключевым инструментам наук о данных в применении к гуманитарным объектам, прежде всего к тексту. Наша магистратура -- это способ радикально расширить взгляд на гуманитарные науки и понять многое в том, как функционируют современные методы анализа данных. На бюджетные места могут претендовать все те, кто не обучался раньше в магистратуре.


Подробнее о магистратуре расскажем завтра на ДОД. Также в ближайшее время поделимся анонсом следующей лекции курса "Количественные методы в гуманитарных науках". Оставайтесь на связи.

#criticaldh #курсы #магистратура
8🔥4👏1
На семинаре в восемь утра пошутила, что аналитические философы читают только статьи друг друга, а книжки не читают. И кажется, кого-то ненароком обидела, a thousand pardons.

Но в каждой шутке, как известно, только доля шутки. Есть такой исследователь Eugenio Petrovich, который занимается DH в философии, а именно — исследует социальные сети внутри аналитической философии, анализируя рубрику «Благодарности» в статьях. Казалось бы — в условной континентальной философии тоже есть такие благодарности, однако он отмечает, что

…analytic philosophy is taken here as a representative of humanities areas, at least from the viewpoint of authorship practices. Since multiple authorship is relatively uncommon in analytic philosophy like in other humanities fields, co-authorship analysis is likely to be scarcely useful to trace its social structures. At the same time, serials have become a common publication outlet for analytic philosophers (Levy, 2003). Therefore, focusing on journal articles allows gathering a representative sample of the field. From this point of view, collecting data from standard databases is easier for analytic philosophy than for other philosophical traditions whose communicative practices rely more on books or collections.


А еще мне сейчас коллега, который парижанит на конференции по философии сознания, написал:

докладчица цитирует беньямина — кажется, это первое упоминание континентальщины за 4 дня конфы; а убер аналитическая профессорка гуглит беньямина передо мной.


Ну и — что называется — где я не права? Пояснение: пост шуточный, всех люблю (просто кого-то чуть больше).
7👍2🔥2😁2
5 коллекций данных для цифрового гуманитария

Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.

🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…

Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.

✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.

А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂

📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.

🏛 4. Госкаталог Музейного фонда РФсвалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.

🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля 🐳
10🔥3
Forwarded from Antibarbari HSE (Olga Alieva)
🎉 Долгое время на нашем канале действовала рубрика #цифровой_понедельник, в которой публиковались небольшие обучающие видео по работе с языком R для антиковедов. Сегодняшний понедельник снова станет цифровым.

⚙️ Целый год команда бесстрашных антиварваров осваивала, параллельно с латынью, язык Markdown, благодаря чему мы смогли собрать интерактивный сборник упражнений к учебнику Familia Romana.

📝 Такие упражнения можно задавать на дом ученикам, когда не хочется проверять домашку, или делать motu proprio, когда нужно повторить грамматику или лексику.

Наши упражнения стараются не дублировать сборник Exercitia Latina и другие коллекции заданий к учебнику Ханса Эрберга. В основу сборника легли упражнения, составленные преподавателем Школы философии и культурологии Кириллом Прокоповым @ecceliber

🎈 Над созданием сайта в 2023-2024 учебном году трудились студенты нескольких образовательных программ НИУ ВШЭ:

Екатерина Демидова (ОП “Филология”),
Татьяна Крюкова (ОП “Античность”),
Александр Семенов (ОП “История”),
Мария Худошина (ОП “Филология”),
Денис Манаков (ОП “Философия”),
Вероника Пушкина (ОП “Филология”),
Тимур Саев (ОП “Философия”),
Ульяна Афанасьева (ОП “История”),
Мария Шелкова (ОП “Философия”).

Руководитель проекта: доцент Школы философии и культурологии Ольга Алиева @rantiquity.

За помощь в редактуре и корректуре благодарим Полину Крупинину (ОП “Доказательное развитие образования”).

💡 Интерактивная часть сайта реализована с использованием пакета checkdown для языка R. Его разработал наш коллега, доцент Школы лингвистики Георгий Мороз. Спасибо Георгию Алексеевичу за консультации и за несколько полезных функций, добавленных в пакет по нашей просьбе.

🎯 В сборнике пока 20 уроков, но мы надеемся продолжить. Также в работе древнегреческий сайт, о готовности которого мы напишем в свое время.

Поддержите нас лайками и репостами, мы тут все убились ради этого очень старались. Об опечатках, если найдете, пишите в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7🔥73👏1
⚙️ IT велико и разнообразно. В третьей лекции курса “Количественные методы в гуманитарных науках” посмотреть с высоты на ландшафт технических инструментов приглашает Иван Бибилов, со-руководитель программы прикладного анализа данных (ПАНДАН), директор Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб.

🎯 В лекции будут рассмотрены подходы и приемы, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными. Попытаемся обсудить их недостатки и достоинства, открыть с новой стороны известные программы, перенять опыт других областей. Ну и конечно, обсудим типичные ошибки и трудности в подходе «а давайте все начнем программировать».

🔗 Лекция состоится 20 апреля 2024 г. онлайн на платформе Zoom. Время и ссылка для подключения доступны на сайте курса. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥1
📎 По просьбе читателей решила сделать подборку важнейших греко-латинских датасетов.

1️⃣ Perseus: Canonical-greekLit и Perseus: Canonical-latinLit. Два репозитория на GitHub с важнейшими классическими текстами на греческом и латинском языке, для многих также есть английские переводы. Более или менее это соответствует той части TLG / PHI, которая доступна без подписки. Сами тексты в репозиториях находятся в папке data под числовыми кодами, значение которых надо смотреть в Perseus Catalogue.

2️⃣ Diorisis Ancient Greek corpus. Датасет доступен на Figshare. Это аннотированный корпус, т.е. для всех слов там есть лемма (начальная форма) и морфологическое описание, достаточно точное. В основе лежат данные из Perseus Canonical Greek Lit, цифровой библиотеки “The Little Sailing”, а также Bibliotheca Augustana. У корпуса есть особенность: лемма хранится в юникоде, а словоформа — в бетакоде (что легко исправить). Из достоинств, по сравнению с Perseus, единообразное оформление xml для всех текстов. Это значит, с одной стороны, что важная для некоторых жанров информация (например, о конце стиха у Гомера) может быть недоступна. С другой стороны — любое количество текстов достаются одним циклом. Всего корпус содержит 820 текстов от Гомера до V в. н.э. и более 10 млн слов.

3️⃣ Open Greek and Latin Project. Это целое семейство репозиториев с текстами, которые не попали в Perseus. Поэтому здесь вы не найдете, например, Фукидида или Новый Завет. Но зато First1KGreek Project содержит сочинения многих Отцов Церкви, Филона Александрийского, Галена и других — всего 25,5 млн слов. Латинские Отцы хранятся в Corpus Scriptorum Ecclesiasticorum Latinorum (CSEL), у которого тоже свой репозиторий на GitHub.

4️⃣ Corpus Corporum: repositorium operum latinorum apud universitatem Turicensem. Потрясающий по масштабам метарепозиторий, в котором найдутся латинские тексты от античности до Neolatinitas (каталог), включая некоторые латинские диссертации XIX в. Можно читать онлайн или скачивать xml.

🎤 Большая часть античных текстов хранится в формате xml, поэтому работа с такими файлами, на мой взгляд, должна входить в число основных цифровых компетенций для антиковедов. Подробнее о парсинге xml см. мое видео.
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍4🥰1🍓1💘1
Бретт Ланц, 2019:

Даже плодовая муха с ее 100 000 нейронов намного превосходит современную нейронную сеть.


Нейронная сеть, 2024:

А у нас с вами по-прежнему 85 млрд, и те расходуются на соцсети. Доброго утречка.
😢13
🗣С историком Ольгой Метель в подкасте “История истории” говорим о изучении и применении цифровых методов. А еще рассказываю про нашу замечательную магистратуру, где мы вас очень ждем.

"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍4💘4🤗1
▶️ Публикуем третью лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.

Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?


Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Скоро вернемся с анонсом следующей лекции.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤‍🔥4🔥2👾2
💻В пасмурный день что может быть лучше data-driven угадайки от aGricolaMZ?

Идея для вашей вечеринки Задача: угадать, в честь кого чаще всего называют библиотеки в России.

Можно просто угадывать. Это очень сложно.

Можно смотреть подсказки. Это очень легко.

А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥184
📈 Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

📚 С лекцией о big data и distant reading в литературоведении выступит доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он расскажет о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

📅 Лекция состоится 27 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥51
Ой, девочки!


library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)


It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
😍135
▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.


С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍1
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
▪️▪️▪️▪️▪️▪️▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️〰️〰️〰️〰️
Как сравнить два средних

〰️〰️〰️〰️〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

Мое решение:тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
В сеть попали кадры с производства.
❤‍🔥208🥰4🍓1