RAntiquity – Telegram

RAntiquity

1.09K subscribers

295 photos

11 videos

5 files

544 links

Об античности на языке R и не только

@locusclassicus

Download Telegram

About

Blog

Apps

Platform

1.09K subscribers

Forwarded from Vox mediaevistae

В Nature Reviews Methods Primers вышел обзор количественных методов анализа текста (там даже есть пара слов о том, как методы гуманитариев, вроде тематического моделирования, могут пригодиться биологам; обычно бывает наоборот). Мне кажется, это отличный текст, чтобы составить общее представление о поле, прежде чем понять, куда углубляться. Предлагаю присмотреться к нему, например, тем, кто собирался поступать в закрывшуюся магистратуру по медиевистике в Вышке: программа по DH-то пока в относительном порядке

Quantitative text analysis

Nature Reviews Methods Primers - Quantitative text analysis is a range of computational methods to analyse text data statistically and mathematically. In this Primer, Kristoffer Nielbo et al....

❤7

386 viewsOlga Alieva, 07:49

В истории коммитов есть место творчеству.

😁5❤3🔥3

361 viewsOlga Alieva, edited 15:09

Публикуем вторую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Лекцию о построении ландшафта области знаний прочел к.ф.н., доцент Школы лингвистики НИУ ВШЭ, заведующий Международной лаборатории языковой конвергенции Георгий Алексеевич Мороз.

Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Пользуемся случаем напомнить, что завтра (14 апреля) на Дне открытых дверей ФГН представит 19 магистерских программ, открытых для поступления в 2024 году, в том числе будет представлена программа ЦМГН (12:00-12:20). Зарегистрироваться можно по ссылке.

Чтобы поступить в эту магистратуру, не нужно уметь программировать. Мы учим питону, R и анализу данных, ключевым инструментам наук о данных в применении к гуманитарным объектам, прежде всего к тексту. Наша магистратура -- это способ радикально расширить взгляд на гуманитарные науки и понять многое в том, как функционируют современные методы анализа данных. На бюджетные места могут претендовать все те, кто не обучался раньше в магистратуре.

Подробнее о магистратуре расскажем завтра на ДОД. Также в ближайшее время поделимся анонсом следующей лекции курса "Количественные методы в гуманитарных науках". Оставайтесь на связи.

#criticaldh #курсы #магистратура

Г.А. Мороз (НИУ ВШЭ). Построение ландшафта области знаний

Вторая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

❤8🔥4👏1

527 viewsOlga Alieva, edited 16:00

Forwarded from sonja, a kick ass young lady

На семинаре в восемь утра пошутила, что аналитические философы читают только статьи друг друга, а книжки не читают. И кажется, кого-то ненароком обидела, a thousand pardons.

Но в каждой шутке, как известно, только доля шутки. Есть такой исследователь Eugenio Petrovich, который занимается DH в философии, а именно — исследует социальные сети внутри аналитической философии, анализируя рубрику «Благодарности» в статьях. Казалось бы — в условной континентальной философии тоже есть такие благодарности, однако он отмечает, что

…analytic philosophy is taken here as a representative of humanities areas, at least from the viewpoint of authorship practices. Since multiple authorship is relatively uncommon in analytic philosophy like in other humanities fields, co-authorship analysis is likely to be scarcely useful to trace its social structures. At the same time, serials have become a common publication outlet for analytic philosophers (Levy, 2003). Therefore, focusing on journal articles allows gathering a representative sample of the field. From this point of view, collecting data from standard databases is easier for analytic philosophy than for other philosophical traditions whose communicative practices rely more on books or collections.

А еще мне сейчас коллега, который парижанит на конференции по философии сознания, написал:

докладчица цитирует беньямина — кажется, это первое упоминание континентальщины за 4 дня конфы; а убер аналитическая профессорка гуглит беньямина передо мной.

Ну и — что называется — где я не права? Пояснение: пост шуточный, всех люблю (просто кого-то чуть больше).

Acknowledgments-based networks for mapping the social structure of research fields. A case study on recent analytic philosophy

Synthese - In the last decades, research in science mapping has delivered several powerful techniques, based on citation or textual analysis, for charting the intellectual organization of research...

❤7👍2🔥2😁2

358 viewsOlga Alieva, 02:13

Forwarded from Цифровой филолог (Даня Скоринкин)

5 коллекций данных для цифрового гуманитария

Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.

🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…

Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.

✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.

А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂

📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.

🏛 4. Госкаталог Музейного фонда РФ — ~~свалка~~ датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.

🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳

DraCor – Open Infrastructure for Drama Analysis

DraCor, the Drama Corpora Project, is an open infrastructure that enables computational analysis of more than 4,000 dramatic texts from Greco-Roman antiquity to the 20th century, encoded in TEI and organised in different corpora. DraCor revolves around an…

❤10🔥3

346 viewsOlga Alieva, 14:02

Forwarded from Antibarbari HSE (Olga Alieva)

🎉 Долгое время на нашем канале действовала рубрика #цифровой_понедельник, в которой публиковались небольшие обучающие видео по работе с языком R для антиковедов. Сегодняшний понедельник снова станет цифровым.

⚙️ Целый год команда бесстрашных антиварваров осваивала, параллельно с латынью, язык Markdown, благодаря чему мы смогли собрать интерактивный сборник упражнений к учебнику Familia Romana.

📝 Такие упражнения можно задавать на дом ученикам, когда не хочется проверять домашку, или делать motu proprio, когда нужно повторить грамматику или лексику.

✨ Наши упражнения стараются не дублировать сборник Exercitia Latina и другие коллекции заданий к учебнику Ханса Эрберга. В основу сборника легли упражнения, составленные преподавателем Школы философии и культурологии Кириллом Прокоповым @ecceliber

🎈 Над созданием сайта в 2023-2024 учебном году трудились студенты нескольких образовательных программ НИУ ВШЭ:

Екатерина Демидова (ОП “Филология”),
Татьяна Крюкова (ОП “Античность”),
Александр Семенов (ОП “История”),
Мария Худошина (ОП “Филология”),
Денис Манаков (ОП “Философия”),
Вероника Пушкина (ОП “Филология”),
Тимур Саев (ОП “Философия”),
Ульяна Афанасьева (ОП “История”),
Мария Шелкова (ОП “Философия”).

Руководитель проекта: доцент Школы философии и культурологии Ольга Алиева @rantiquity.

За помощь в редактуре и корректуре благодарим Полину Крупинину (ОП “Доказательное развитие образования”).

💡 Интерактивная часть сайта реализована с использованием пакета checkdown для языка R. Его разработал наш коллега, доцент Школы лингвистики Георгий Мороз. Спасибо Георгию Алексеевичу за консультации и за несколько полезных функций, добавленных в пакет по нашей просьбе.

🎯 В сборнике пока 20 уроков, но мы надеемся продолжить. Также в работе древнегреческий сайт, о готовности которого мы напишем в свое время.

Поддержите нас лайками и репостами, мы ~~тут все убились ради этого~~ очень старались. Об опечатках, если найдете, пишите в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥7🔥7❤3👏1

375 viewsOlga Alieva, 05:49

⚙️ IT велико и разнообразно. В третьей лекции курса “Количественные методы в гуманитарных науках” посмотреть с высоты на ландшафт технических инструментов приглашает Иван Бибилов, со-руководитель программы прикладного анализа данных (ПАНДАН), директор Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб.

🎯 В лекции будут рассмотрены подходы и приемы, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными. Попытаемся обсудить их недостатки и достоинства, открыть с новой стороны известные программы, перенять опыт других областей. Ну и конечно, обсудим типичные ошибки и трудности в подходе «а давайте все начнем программировать».

🔗 Лекция состоится 20 апреля 2024 г. онлайн на платформе Zoom. Время и ссылка для подключения доступны на сайте курса. #criticaldh #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥1

713 viewsOlga Alieva, 09:03

Как правильно спрятать чатжипити в вашей курсовой. Советует умная собачка Соня.

Умная собачка Соня. Мультфильм (1991)

Рисованный мультфильм о забавной собачке Соне, которая, попадая в сложные ситуации, делала для себя поучительные выводы.

В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…

😁6🐳4❤3🌚1

482 viewsOlga Alieva, edited 18:24

📎 По просьбе читателей решила сделать подборку важнейших греко-латинских датасетов.

1️⃣

Perseus: Canonical-greekLit и Perseus: Canonical-latinLit. Два репозитория на GitHub с важнейшими классическими текстами на греческом и латинском языке, для многих также есть английские переводы. Более или менее это соответствует той части TLG / PHI, которая доступна без подписки. Сами тексты в репозиториях находятся в папке data под числовыми кодами, значение которых надо смотреть в Perseus Catalogue.

2️⃣

Diorisis Ancient Greek corpus. Датасет доступен на Figshare. Это аннотированный корпус, т.е. для всех слов там есть лемма (начальная форма) и морфологическое описание, достаточно точное. В основе лежат данные из Perseus Canonical Greek Lit, цифровой библиотеки “The Little Sailing”, а также Bibliotheca Augustana. У корпуса есть особенность: лемма хранится в юникоде, а словоформа — в бетакоде (что легко исправить). Из достоинств, по сравнению с Perseus, единообразное оформление xml для всех текстов. Это значит, с одной стороны, что важная для некоторых жанров информация (например, о конце стиха у Гомера) может быть недоступна. С другой стороны — любое количество текстов достаются одним циклом. Всего корпус содержит 820 текстов от Гомера до V в. н.э. и более 10 млн слов.

3️⃣

Open Greek and Latin Project. Это целое семейство репозиториев с текстами, которые не попали в Perseus. Поэтому здесь вы не найдете, например, Фукидида или Новый Завет. Но зато First1KGreek Project содержит сочинения многих Отцов Церкви, Филона Александрийского, Галена и других — всего 25,5 млн слов. Латинские Отцы хранятся в Corpus Scriptorum Ecclesiasticorum Latinorum (CSEL), у которого тоже свой репозиторий на GitHub.

4️⃣

Corpus Corporum: repositorium operum latinorum apud universitatem Turicensem. Потрясающий по масштабам метарепозиторий, в котором найдутся латинские тексты от античности до Neolatinitas (каталог), включая некоторые латинские диссертации XIX в. Можно читать онлайн или скачивать xml.

🎤 Большая часть античных текстов хранится в формате xml, поэтому работа с такими файлами, на мой взгляд, должна входить в число основных цифровых компетенций для антиковедов. Подробнее о парсинге xml см. мое видео.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5👍4🥰1🍓1💘1

667 viewsOlga Alieva, edited 08:08

Бретт Ланц, 2019:

Даже плодовая муха с ее 100 000 нейронов намного превосходит современную нейронную сеть.

Нейронная сеть, 2024:

А у нас с вами по-прежнему 85 млрд, и те расходуются на соцсети. Доброго утречка.

😢13

435 viewsOlga Alieva, edited 07:03

🗣С историком Ольгой Метель в подкасте “История истории” говорим о изучении и применении цифровых методов. А еще рассказываю про нашу замечательную магистратуру, где мы вас очень ждем.

"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.

Please open Telegram to view this post

VIEW IN TELEGRAM

Яндекс Музыка

Нужна ли гуманитариям "цифра"? Исторические иссл...

❤11👍4💘4🤗1

487 viewsOlga Alieva, 06:25

▶️ Публикуем третью лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.

Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?

Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Скоро вернемся с анонсом следующей лекции.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

И.В. Бибилов (ЕУСПб). Избранные главы информатики. Исследовательский мультитул

Третья лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

❤10❤‍🔥4🔥2👾2

926 viewsOlga Alieva, edited 16:16

💻В пасмурный день что может быть лучше data-driven угадайки от aGricolaMZ?

~~Идея для вашей вечеринки~~ Задача: угадать, в честь кого чаще всего называют библиотеки в России.

Можно просто угадывать. Это очень сложно.

Можно смотреть подсказки. Это очень легко.

А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓

Please open Telegram to view this post

VIEW IN TELEGRAM

agricolamz.github.io

Следующая остановка: Библиотека им. …

❤9

457 viewsOlga Alieva, 12:55

Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18❤4

427 viewsOlga Alieva, edited 18:44

📈 Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

📚 С лекцией о big data и distant reading в литературоведении выступит доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он расскажет о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

📅 Лекция состоится 27 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👏7🔥5❤1

557 viewsOlga Alieva, 06:01

Forwarded from Vox mediaevistae

Мама, я на горьком.

Тематическое моделирование для «Бычьего словаря»

Светлана Яцык — о цифровых методах в медиевистике

🔥8

457 viewsOlga Alieva, 15:31

Ой, девочки!


library(friends) 
data <- friends::friends  
data %>%    filter(str_detect(text, "You're a shoe")) %>%    pull(text)

It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?

emilhvitfeldt.github.io

The Entire Transcript from Friends in Tidy Format

The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.

😍13❤5

555 viewsOlga Alieva, edited 20:33

▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только

Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

🔥8❤2👍1

720 viewsOlga Alieva, 15:35

Forwarded from НКРЯ Национальный корпус русского языка

На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.

🔥9

452 viewsOlga Alieva, 10:16

▪️

▪️

▪️

▪️

▪️

▪️

▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️

〰️

〰️

〰️

〰️

Как сравнить два средних ❔

〰️

〰️

〰️

〰️

〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

➖Мое решение:➖

тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

484 viewsOlga Alieva, edited 19:53

В сеть попали кадры с производства.

❤‍🔥20❤8🥰4🍓1

370 viewsOlga Alieva, 12:26