Ой, девочки!
library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)
It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
emilhvitfeldt.github.io
The Entire Transcript from Friends in Tidy Format
The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.
format. Use this package to practice data wrangling, text analysis and
network analysis.
😍13❤5
Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.
С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.
Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
Следующая лекция курса состоится 11 мая, следите за анонсами.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только
Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/
🔥8❤2👍1
Forwarded from НКРЯ Национальный корпус русского языка
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).
Как сравнить два средних
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.
Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основномне самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
❤8👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤🔥3😍2
RAntiquity
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.
1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.
Этот тест подтверждает, что true location shift is not equal to 0.
3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.
4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
Этот тест подтверждает, что true location shift is not equal to 0.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
RAntiquity
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком. Один из них — https://www.ecomparatio.net/ —…
Media is too big
VIEW IN TELEGRAM
По заявкам читателей отвечаю на вопрос: Урри, где у него кнопка?
🔥4
В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:
Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому
По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.
Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).
Вот что пишет Савой (который, впрочем, ни разу не библеист):
По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.
Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….
Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому
Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.
По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.
Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).
Вот что пишет Савой (который, впрочем, ни разу не библеист):
Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.
По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.
Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).
🔥3
Добавлю к предудущему ⬆️ еще результаты верификации из Савоя. Можно рассматривать это как консенсусную сеть, в которой прерывистая линия означает боее редкое попадание в один кластер.
По мнению исследователя, результат скорее говорит в пользу гипотезы 7 посланий, но у него вызывает вопрос отсутствие всякой связи м-ду Филип и 1-2 Фесс. К тому же гипотеза семи посланий не объясняет связь м-ду 1-2 Фесс. (в число семи включают Филимона).
Надежных выводов на этом не построишь, но как эксперимент интересно.
По мнению исследователя, результат скорее говорит в пользу гипотезы 7 посланий, но у него вызывает вопрос отсутствие всякой связи м-ду Филип и 1-2 Фесс. К тому же гипотеза семи посланий не объясняет связь м-ду 1-2 Фесс. (в число семи включают Филимона).
Надежных выводов на этом не построишь, но как эксперимент интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Интересно также, что 4 послания, которые оставляют гиперкритики вроде Мортона, — самые длинные. Первые два в списке примерно такой же длины, как одна книга Гос-ва (считается, что это примерно свиток).
🔥5
Не уверена, что это нужно еще какой-то заблудшей душе, но я себе запишу, пока не забыла.
Как настроить autograding
1. Установить gh, после этого сделать
2. Из них надо забрать файлы с решениями и переместить в какую-то одну папку, например
3. Установить gradeR и настроить тесты testthat. Файл с тестом и нужные датасеты сложить в рабочую директорию.
4. Запустить проверку, указав путь до submissions.
Насладиться результатом. Может быть, можно и проще, но я пока не придумала, как.
upd. от хадли нашего викхема про тесты
#gradeR
Как настроить autograding
1. Установить gh, после этого сделать
gh extension install github/gh-classroom (как описано здесь). Это позволит клонировать все студенческие репозитрии к себе на компьютер. 2. Из них надо забрать файлы с решениями и переместить в какую-то одну папку, например
submissions. Это делается циклом.3. Установить gradeR и настроить тесты testthat. Файл с тестом и нужные датасеты сложить в рабочую директорию.
4. Запустить проверку, указав путь до submissions.
library(gradeR)
submissionDir <- "submissions/"
grades <- calcGrades(submission_dir = submissionDir, your_test_file = "ass_test_file1.R")
Насладиться результатом. Может быть, можно и проще, но я пока не придумала, как.
upd. от хадли нашего викхема про тесты
#gradeR
🤓3👍1
Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
Следующая лекция курса состоится 18 мая, следите за анонсами.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Д.А.Скоринкин (Университет Потсдама). Сетевой анализ
Пятая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/
❤9🔥1🥰1
#criticaldh #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9⚡3🔥2
Вся драматическая история моих отношений с DH: "А вообще я не знаю, зачем мне нужны эти цифры". Возьму эпиграфом к чему-нибудь.
YouTube
"Кино" - "Уходи"
Видеоряд 1985-87 годов,
Аудио - альбомная версия песни.
Аудио - альбомная версия песни.
😎5🔥1
Forwarded from Гуманитарии в цифре
Критическое осмысление «цифрового поворота»
В НИУ ВШЭ продолжается курс «Количественные методы в гуманитарных науках: критическое введение». Уверены, что лекции в рамках курса могут быть полезны и интересны многим: не только студентам и исследователям, но и тем, кто только начинает разбираться в том, что же такое Digital humanities и с какими вопросами помогает разобраться гуманитарию новейший цифровой инструментарий. Смотрите сами:
→ «Данные вокруг гуманитария» с Андреем Володиным – о том, зачем цифровые гуманитарии собирают данные и как они смогут помочь понять мир вокруг нас.
→ «Построение ландшафта области знаний» с Георгием Морозом – о нюансах и трудностях исследований ландшафта некоторых предметных областей.
→ «Избранные главы информатики» с Иваном Бибиловым – о подходах и приемах, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными.
→ «Дальнее чтение» в литературоведении и не только» с Алексеем Вдовиным – о принципах, направлениях и открытиях в big data и distant reading.
→ «Сетевой анализ и гуманитарии» с Даниилом Скоринкиным – о методе, который позволяет проводить масштабируемые количественные исследования литературы и делать выводы о структурных отличиях жанров/направлений.
Участников курса ждут еще несколько интересных тем. Уже в эту субботу, 18 мая, состоятся сразу две открытые лекции: «Стилометрия» с Ольгой Алиевой и «Большие языковые модели» с Егором Сальниковым. Следите за анонсами на сайте.
#criticaldh #курсы #данные #людиdh #сетевойанализ #distantreading #bigdata
В НИУ ВШЭ продолжается курс «Количественные методы в гуманитарных науках: критическое введение». Уверены, что лекции в рамках курса могут быть полезны и интересны многим: не только студентам и исследователям, но и тем, кто только начинает разбираться в том, что же такое Digital humanities и с какими вопросами помогает разобраться гуманитарию новейший цифровой инструментарий. Смотрите сами:
→ «Данные вокруг гуманитария» с Андреем Володиным – о том, зачем цифровые гуманитарии собирают данные и как они смогут помочь понять мир вокруг нас.
→ «Построение ландшафта области знаний» с Георгием Морозом – о нюансах и трудностях исследований ландшафта некоторых предметных областей.
→ «Избранные главы информатики» с Иваном Бибиловым – о подходах и приемах, которые могут пригодиться в междисциплинарных исследовательских проектах для работы с данными.
→ «Дальнее чтение» в литературоведении и не только» с Алексеем Вдовиным – о принципах, направлениях и открытиях в big data и distant reading.
→ «Сетевой анализ и гуманитарии» с Даниилом Скоринкиным – о методе, который позволяет проводить масштабируемые количественные исследования литературы и делать выводы о структурных отличиях жанров/направлений.
Участников курса ждут еще несколько интересных тем. Уже в эту субботу, 18 мая, состоятся сразу две открытые лекции: «Стилометрия» с Ольгой Алиевой и «Большие языковые модели» с Егором Сальниковым. Следите за анонсами на сайте.
#criticaldh #курсы #данные #людиdh #сетевойанализ #distantreading #bigdata
YouTube
А.Ю. Володин (МГУ, СФУ). Данные вокруг гуманитария: найти, собрать, исследовать!
Первая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/
🔥6❤5👍3
Forwarded from Vox mediaevistae
С сайта Бодлианской библиотеки теперь можно скачивать рукописи в pdf.
Roger Pearse
Bodleian Library manuscripts can now be downloaded as PDFs!!
I was looking at the online copy of the Bodleian manuscript of Plato, the "Clarkianus" 39 (here), when I discovered something wonderful. We can now download the whole thing as a PDF!
This is just so amazing! It also means that any cyber-attack can only…
This is just so amazing! It also means that any cyber-attack can only…
❤15