RAntiquity

⚙️ IT велико и разнообразно. В третьей лекции курса “Количественные методы в гуманитарных науках” посмотреть с высоты на ландшафт технических инструментов приглашает Иван Бибилов, со-руководитель программы прикладного анализа данных (ПАНДАН), директор Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб.

🎯 В лекции будут рассмотрены подходы и приемы, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными. Попытаемся обсудить их недостатки и достоинства, открыть с новой стороны известные программы, перенять опыт других областей. Ну и конечно, обсудим типичные ошибки и трудности в подходе «а давайте все начнем программировать».

🔗 Лекция состоится 20 апреля 2024 г. онлайн на платформе Zoom. Время и ссылка для подключения доступны на сайте курса. #criticaldh #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥1

709 viewsOlga Alieva, 09:03

RAntiquity

Как правильно спрятать чатжипити в вашей курсовой. Советует умная собачка Соня.

YouTube

Умная собачка Соня. Мультфильм (1991)

Рисованный мультфильм о забавной собачке Соне, которая, попадая в сложные ситуации, делала для себя поучительные выводы.

В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…

😁6🐳4❤3🌚1

478 viewsOlga Alieva, edited 18:24

RAntiquity

📎 По просьбе читателей решила сделать подборку важнейших греко-латинских датасетов.

1️⃣

Perseus: Canonical-greekLit и Perseus: Canonical-latinLit. Два репозитория на GitHub с важнейшими классическими текстами на греческом и латинском языке, для многих также есть английские переводы. Более или менее это соответствует той части TLG / PHI, которая доступна без подписки. Сами тексты в репозиториях находятся в папке data под числовыми кодами, значение которых надо смотреть в Perseus Catalogue.

2️⃣

Diorisis Ancient Greek corpus. Датасет доступен на Figshare. Это аннотированный корпус, т.е. для всех слов там есть лемма (начальная форма) и морфологическое описание, достаточно точное. В основе лежат данные из Perseus Canonical Greek Lit, цифровой библиотеки “The Little Sailing”, а также Bibliotheca Augustana. У корпуса есть особенность: лемма хранится в юникоде, а словоформа — в бетакоде (что легко исправить). Из достоинств, по сравнению с Perseus, единообразное оформление xml для всех текстов. Это значит, с одной стороны, что важная для некоторых жанров информация (например, о конце стиха у Гомера) может быть недоступна. С другой стороны — любое количество текстов достаются одним циклом. Всего корпус содержит 820 текстов от Гомера до V в. н.э. и более 10 млн слов.

3️⃣

Open Greek and Latin Project. Это целое семейство репозиториев с текстами, которые не попали в Perseus. Поэтому здесь вы не найдете, например, Фукидида или Новый Завет. Но зато First1KGreek Project содержит сочинения многих Отцов Церкви, Филона Александрийского, Галена и других — всего 25,5 млн слов. Латинские Отцы хранятся в Corpus Scriptorum Ecclesiasticorum Latinorum (CSEL), у которого тоже свой репозиторий на GitHub.

4️⃣

Corpus Corporum: repositorium operum latinorum apud universitatem Turicensem. Потрясающий по масштабам метарепозиторий, в котором найдутся латинские тексты от античности до Neolatinitas (каталог), включая некоторые латинские диссертации XIX в. Можно читать онлайн или скачивать xml.

🎤 Большая часть античных текстов хранится в формате xml, поэтому работа с такими файлами, на мой взгляд, должна входить в число основных цифровых компетенций для антиковедов. Подробнее о парсинге xml см. мое видео.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5👍4🥰1🍓1💘1

658 viewsOlga Alieva, edited 08:08

RAntiquity

Бретт Ланц, 2019:

Даже плодовая муха с ее 100 000 нейронов намного превосходит современную нейронную сеть.

Нейронная сеть, 2024:

А у нас с вами по-прежнему 85 млрд, и те расходуются на соцсети. Доброго утречка.

😢13

430 viewsOlga Alieva, edited 07:03

RAntiquity

🗣С историком Ольгой Метель в подкасте “История истории” говорим о изучении и применении цифровых методов. А еще рассказываю про нашу замечательную магистратуру, где мы вас очень ждем.

"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.

Please open Telegram to view this post

VIEW IN TELEGRAM

Яндекс Музыка

Нужна ли гуманитариям "цифра"? Исторические иссл...

❤11👍4💘4🤗1

484 viewsOlga Alieva, 06:25

RAntiquity

▶️ Публикуем третью лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.

Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?

Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .

Скоро вернемся с анонсом следующей лекции.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

И.В. Бибилов (ЕУСПб). Избранные главы информатики. Исследовательский мультитул

Третья лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

❤10❤‍🔥4🔥2👾2

924 viewsOlga Alieva, edited 16:16

RAntiquity

💻В пасмурный день что может быть лучше data-driven угадайки от aGricolaMZ?

~~Идея для вашей вечеринки~~ Задача: угадать, в честь кого чаще всего называют библиотеки в России.

Можно просто угадывать. Это очень сложно.

Можно смотреть подсказки. Это очень легко.

А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓

Please open Telegram to view this post

VIEW IN TELEGRAM

agricolamz.github.io

Следующая остановка: Библиотека им. …

❤9

457 viewsOlga Alieva, 12:55

RAntiquity

Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18❤4

427 viewsOlga Alieva, edited 18:44

RAntiquity

📈 Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

📚 С лекцией о big data и distant reading в литературоведении выступит доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он расскажет о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

📅 Лекция состоится 27 апреля 2024 г. онлайн на платформе Zoom в 13:00 по Москве. Подключение по ссылке. #criticaldh #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👏7🔥5❤1

557 viewsOlga Alieva, 06:01

RAntiquity

Forwarded from Vox mediaevistae

Мама, я на горьком.

gorky.media

Тематическое моделирование для «Бычьего словаря»

Светлана Яцык — о цифровых методах в медиевистике

🔥8

457 viewsOlga Alieva, 15:31

RAntiquity

Ой, девочки!


library(friends) 
data <- friends::friends  
data %>%    filter(str_detect(text, "You're a shoe")) %>%    pull(text)

It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?

emilhvitfeldt.github.io

The Entire Transcript from Friends in Tidy Format

The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.

😍13❤5

555 viewsOlga Alieva, edited 20:33

RAntiquity

▶️ Публикуем четвертую лекцию курса "Количественные методы в гуманитарных науках: критическое введение" (НИУ ВШЭ).

Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.

С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.

Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
🟢 доцент Школы лингвистики Борис Орехов (руководитель программы)
🟢 доцент Школы философии и культурологи Ольга Алиева @rantiquity
🟢 доцент Школы лингвистики Анастасия Бонч-Осмоловская

Следующая лекция курса состоится 11 мая, следите за анонсами.

#criticaldh #курсы #магистратура

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только

Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/

🔥8❤2👍1

718 viewsOlga Alieva, 15:35

RAntiquity

Forwarded from НКРЯ Национальный корпус русского языка

На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.

Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.

🔥9

452 viewsOlga Alieva, 10:16

RAntiquity

▪️

Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).

〰️

Как сравнить два средних ❔

〰️

💡Подсказка: число слов в гекзаметре — дискретная величина. Значит, t-тест или подобный не подойдет.

➖Мое решение:➖

тест хи-квадрат, который говорит, что статистически значимой разницы между группами нет.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

484 viewsOlga Alieva, edited 19:53

RAntiquity

В сеть попали кадры с производства.

❤‍🔥20❤8🥰4🍓1

370 viewsOlga Alieva, 12:26

RAntiquity

Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я ~~опять работаю в выходные~~ сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.

Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.

Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳

Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном ~~не самые интуитивные~~ приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.

Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.

❤8👍1

413 viewsOlga Alieva, edited 18:27

RAntiquity

🔊

Сеть (граф) — это универсальная модель описания любой системы, где есть возможность выделить формальные связи между ее составляющими.

🟢 Сетевой анализ в исторической науке — это обычно попытка реконструировать экономические или социальные отношения на основе сохранившихся документов.

🟤В исследованиях художественной литературы методами сетевого анализа может изучаться система персонажей. Также сетевой анализ позволяет производить масштабируемые количественные исследования литературы на материале сотен и даже тысяч текстов и делать некоторые выводы о структурных отличиях жанров/направлений в литературе.

✨ С лекцией о сетевом анализе выступит DH-координатор в Университете Потсдама, co-editor проекта DraCor, главный редактор «Системного Блока» Даниил Скоринкин.

🔗 Занятие пройдет 11 мая 2024 г. на платформе Zoom. Ссылка для подключения. Начало в 13.00 по московскому времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤‍🔥3😍2

573 viewsOlga Alieva, 10:31

RAntiquity

▪️

▪️ Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония). 〰️

〰️

〰️ Как сравнить два средних ❔

〰️

💡Подсказка: число слов в гекзаметре — дискретная…

Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.

1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).

Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).

2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.

Этот тест подтверждает, что true location shift is not equal to 0.

3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.

4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.

Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🤯2

495 viewsOlga Alieva, edited 05:27

RAntiquity

Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком. Один из них — https://www.ecomparatio.net/ —…

6:46

Media is too big

VIEW IN TELEGRAM

По заявкам читателей отвечаю на вопрос: Урри, где у него кнопка?

🔥4

476 viewsOlga Alieva, 07:32

RAntiquity

Если научить word2vec на корпусе (переводов) Платона, то можно узнать, что философ = душа - тело + мудрость. Так что не налегаем на куличи.

❤12😁6⚡4👏3🫡1

364 viewsOlga Alieva, edited 16:57

RAntiquity

В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:

Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….

Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому

Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.

По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.

Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).

Вот что пишет Савой (который, впрочем, ни разу не библеист):

Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.

По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.

Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).

🔥3

351 viewsOlga Alieva, 05:48

About

Blog

Apps

Platform