Forwarded from Antibarbari HSE
👾 R: Модуль 1 Урок 6. Проект Perseus: работа с xml-атрибутами (Платон "Филеб")
Как извлечь реплики конкретных персонажей из диалога? Очень просто, для этого надо "заглянуть" в атрибут "who" и написать цикл, извлекающий текст, только если who — тот, кто нам нужен. Показываем на Платоне, но будет работать с любым драматическим произведением в Perseus.
https://vk.com/video-211800158_456239173
Как извлечь реплики конкретных персонажей из диалога? Очень просто, для этого надо "заглянуть" в атрибут "who" и написать цикл, извлекающий текст, только если who — тот, кто нам нужен. Показываем на Платоне, но будет работать с любым драматическим произведением в Perseus.
https://vk.com/video-211800158_456239173
VK Видео
R: Модуль 1 Урок 6. Проект Perseus: работа с xml-атрибутами (Платон "Филеб")
Как извлечь реплики конкретных персонажей из диалога? Очень просто, для этого надо "заглянуть" в атрибут "who" и написать цикл, извлекающий текст только если who — тот, кто нам нужен. Показываем на Платоне, но будет работать с любым драматическим произведением…
Forwarded from Antibarbari HSE
👾 Ловите новый урок в R https://vk.com/video-211800158_456239177
VK Видео
R: Модуль 1 Урок 7. Проект Perseus 2: работа с xml-атрибутами (Платон "Филеб")
Знакомимся с функцией xmlElementsByTagName() и учимся сохранять текст Платона вместе с информацией о разделе по Стефану и с информацией о спикере. Для этого используем управляющую команду while и знания, полученные в предыдущих уроках. Код: https://githu…
Forwarded from Antibarbari HSE
👾 Немного Августина вам к празднику 🌷 В этом видео -- о том, где найти латинских и греческих Отцов и как извлекать текст по книгам. Сохраняйте результат, во втором модуле будем всю "Исповедь" пересчитывать. https://vk.com/video-211800158_456239178
VK Видео
R: Модуль 1 Урок 8. Проект OpenGreekAndLatin: "Исповедь" Августина
В этом видео знакомимся с проектом Open Greek and Latin и извлекаем по книгам текст "Исповеди" Августина. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022…
Forwarded from Antibarbari HSE
ℹ️Летняя школа по философии для студентов ВШЭ.
В программе (доступна по ссылке) есть и наш с Дарьей Николаевной Дроздовой мастер-класс по Distant reading в программной среде R. Будем сравнивать Беркли, Юма и Локка.
Заявки до 5 мая.
В программе (доступна по ссылке) есть и наш с Дарьей Николаевной Дроздовой мастер-класс по Distant reading в программной среде R. Будем сравнивать Беркли, Юма и Локка.
Заявки до 5 мая.
Forwarded from Antibarbari HSE
Мы работаем на праздниках, мы работаем между праздниками, мы работаем вместо праздников. Ловите новую порцию компьютерного волшебства 🧙♂️🪄
https://vk.com/wall-211800158_42
https://vk.com/wall-211800158_42
VK
Antibarbari HSE. Пост со стены.
R: Модуль 1 Урок 9. Проект Diorisis и работа с архивами (Ксенофонт)
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В этом уроке напишем функцию, которая извлекает из архива все тексты заданного автора, достает из xml нужные значения и записывает в рабочую директорию готовые текстовые файлы. Пробуем на Аристотеле из библиотеки Diorisis. https://vk.com/video-211800158_456239183
VK Видео
R: Модуль 1 Урок 10. Написание собственных функций (Аристотель)
В этом уроке напишем код, который извлекает из архива все тексты заданного автора, достает из xml нужные значения и записывает в рабочую директорию готовые текстовые файлы. Пробуем на Аристотеле из библиотеки Diorisis. Видео подготовлено по результатам проекта…
Forwarded from Antibarbari HSE (Olga Alieva)
Кстати, изображение для записи выше было сгенерировано в приложении Plato Cloudmaker: https://locusclassicus.shinyapps.io/myshinyapp/ -- -- первом моем онлайн-приложении, сделанном полностью в R как отчетный проект по курсу Developing Data Products на Coursera.
Forwarded from Antibarbari HSE (Olga Alieva)
Странные мысли приходят в голову гуманитарию, который смог, наконец, задействовать все 8 ядер для вычислений. О чем он думает? О творении космоса, конечно. Он думает, что user time удивительно не похоже на system time, и, если допустить, что есть процессор с бесконечным количеством ядер, то и действие его должно быть мгновенным, как учили Отцы, -- in no time, "разом".
Из Василия Великого: Ὅπερ ἕτεροι τῶν ἑρμηνευτῶν, σαφέστερον τὸν νοῦν ἐκδιδόντες, εἰρήκασιν, Ἐν κεφαλαίῳ ἐποίησεν ὁ Θεὸς, τουτέστιν, ἀθρόως καὶ ἐν ὀλίγῳ (Hex. 1).
Из Василия Великого: Ὅπερ ἕτεροι τῶν ἑρμηνευτῶν, σαφέστερον τὸν νοῦν ἐκδιδόντες, εἰρήκασιν, Ἐν κεφαλαίῳ ἐποίησεν ὁ Θεὸς, τουτέστιν, ἀθρόως καὶ ἐν ὀλίγῳ (Hex. 1).
Forwarded from Antibarbari HSE (Olga Alieva)
В выходные мы не только гуляли по Ботсаду, но и приняли участие в Летней школе "Практики Чтения", которая проходила в Вороново с 18 по 21 мая 2022 г. Вместе с Дарьей Николаевной Дроздовой провели трехчасовой мастер-класс под названием "Distant Reading в программной среде R" и сравнили частотность разных слов у Беркли, Юма и Локка. Судя по тому фото, на которое попали экраны студентов, у всех все получилось, чему мы очень рады.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Видео в модуле R для антиковедов. Часть 1: Извлечение данных из HTML & XML все опубликованы, и записавшиеся студенты до 1 июля сдают задания и лабораторную работу. Надеюсь, что у вас получилось запарсить все, что нужно.
Второй модуль "Токенизация и разведывательный анализ" стартует уже скоро, а пока делюсь планами на будущее. Ссылка для записи на проект для вышкинцев будет чуть позже, оставайтесь с нами. https://vk.com/video-211800158_456239184
Второй модуль "Токенизация и разведывательный анализ" стартует уже скоро, а пока делюсь планами на будущее. Ссылка для записи на проект для вышкинцев будет чуть позже, оставайтесь с нами. https://vk.com/video-211800158_456239184
Vk
О втором модуле курса "R для антиковедов"
Во втором модуле учимся токенизировать и строить красивые графики. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
Antibarbari HSE
👾 Видео в модуле R для антиковедов. Часть 1: Извлечение данных из HTML & XML все опубликованы, и записавшиеся студенты до 1 июля сдают задания и лабораторную работу. Надеюсь, что у вас получилось запарсить все, что нужно. Второй модуль "Токенизация и разведывательный…
Видео-то все, а вот про такой метарепозитрий латинских текстов я забыла рассказать. Там чего только нет от классики до неолатинских авторов. Даже, представьте себе, Спиноза. https://www.mlat.uzh.ch/home
Forwarded from Antibarbari HSE (Olga Alieva)
Я уже рассказывала про базу греческих текстов Diorisis. Это 820 греческих текстов от Гомера до Нонна, то есть примерно до начала 5 в. н.э.
Для каждого текста указана примерная датировка и жанр, так что можно посмотреть, во-первых, какие периоды в истории греческой литературы лучше всего задокументированы, а, во-вторых, какими жанрами они представлены.
Разумеется, корпус -- это подборка, сюда включено не все, что можно. Но подборка по-своему показательная.
Результат изобразила на картинке в виде dotplot, где каждая точка означает единицу корпуса.
Для каждого текста указана примерная датировка и жанр, так что можно посмотреть, во-первых, какие периоды в истории греческой литературы лучше всего задокументированы, а, во-вторых, какими жанрами они представлены.
Разумеется, корпус -- это подборка, сюда включено не все, что можно. Но подборка по-своему показательная.
Результат изобразила на картинке в виде dotplot, где каждая точка означает единицу корпуса.
Forwarded from Antibarbari HSE (Olga Alieva)
Вот что можно заметить:
- после Гомера (две точки на -800) и Гесиода (три точки на -700) видна длинная лиловая колбаса в жанре "религия". Это гомеровские гимны. После них -- провал до Пиндара (-500) и трагиков. В этом провале мы обычно помещаем досократиков, фрагменты и свидетельства о которых все происходят из поздних авторов.
- Потом космический корабль -- это "классика". Философия, риторика, история -- все, что мы любим в античности. Видно, что это скопление источников тоже довольно резко обрывается примерно в эпоху эллинизма -- это еще один провал в литературных памятниках на греческом. Его изучают тоже по фрагментам и пересказам, но также по эпиграфическим надписям и папирусам. Короткая лиловая колбаса на -270 -- это гимны Каллимаха, рядом немного Феокрита, и все.
- Длинная лиловая колбаса из точек на -150 (и немного на -250) -- это Септуагинта. Важнейший памятник иудео-эллинистической культуры.
- Дионисий Галикарнасский на -10 немного оживляет картину. Между 0 и 100 ряд лиловых точек -- это Новый Завет.
- Плутарх и немного Аретея в районе 100 создают длинную череду "нарративов" (зеленым). Кстати, в этом корпусе почти нет Галена, иначе эта зеленая палка была бы еще длиннее. Потом немного Эпиктета и еще кого-то.
- Еще один космический корабль справа -- это "вторая софистика", новый расцвет греческой литературы. Элий, Лукиан, Аппиан, Филострат и другие.
- Потом кажется, что этот расцвет сходит на нет, но так происходит потому, что в корпусе мало христианских авторов. Например, почти нет каппадокийцев -- всего три предпоследние точки "религии" -- это Василий Великий. Рядом с ним Юлиан.
Вот так -- неравномерно в жанровом и хронологическом отношении -- сохранилась до нас греческая литература. Интересно было бы сравнить с тем, что хранится в других корпусах, но это как-нибудь потом.
- после Гомера (две точки на -800) и Гесиода (три точки на -700) видна длинная лиловая колбаса в жанре "религия". Это гомеровские гимны. После них -- провал до Пиндара (-500) и трагиков. В этом провале мы обычно помещаем досократиков, фрагменты и свидетельства о которых все происходят из поздних авторов.
- Потом космический корабль -- это "классика". Философия, риторика, история -- все, что мы любим в античности. Видно, что это скопление источников тоже довольно резко обрывается примерно в эпоху эллинизма -- это еще один провал в литературных памятниках на греческом. Его изучают тоже по фрагментам и пересказам, но также по эпиграфическим надписям и папирусам. Короткая лиловая колбаса на -270 -- это гимны Каллимаха, рядом немного Феокрита, и все.
- Длинная лиловая колбаса из точек на -150 (и немного на -250) -- это Септуагинта. Важнейший памятник иудео-эллинистической культуры.
- Дионисий Галикарнасский на -10 немного оживляет картину. Между 0 и 100 ряд лиловых точек -- это Новый Завет.
- Плутарх и немного Аретея в районе 100 создают длинную череду "нарративов" (зеленым). Кстати, в этом корпусе почти нет Галена, иначе эта зеленая палка была бы еще длиннее. Потом немного Эпиктета и еще кого-то.
- Еще один космический корабль справа -- это "вторая софистика", новый расцвет греческой литературы. Элий, Лукиан, Аппиан, Филострат и другие.
- Потом кажется, что этот расцвет сходит на нет, но так происходит потому, что в корпусе мало христианских авторов. Например, почти нет каппадокийцев -- всего три предпоследние точки "религии" -- это Василий Великий. Рядом с ним Юлиан.
Вот так -- неравномерно в жанровом и хронологическом отношении -- сохранилась до нас греческая литература. Интересно было бы сравнить с тем, что хранится в других корпусах, но это как-нибудь потом.
Forwarded from Antibarbari HSE (Olga Alieva)
Одинокие две голубые (поэзия) точки на -100 -- Бион из Смирны, буколический поэт.
Forwarded from Antibarbari HSE (Olga Alieva)
🛠 Новый проект на "Ярмарке". Запись до 3 июля, реализация 4 июля - 11 сентября. Дистанционно, асинхронно, по красоте. Опыт программирования на R не обязателен. https://pf.hse.ru/632351712.html
Forwarded from Antibarbari HSE (Olga Alieva)
Тематический план:
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)
Forwarded from Antibarbari HSE (Olga Alieva)
Antibarbari HSE
🛠 Новый проект на "Ярмарке". Запись до 3 июля, реализация 4 июля - 11 сентября. Дистанционно, асинхронно, по красоте. Опыт программирования на R не обязателен. https://pf.hse.ru/632351712.html
👾 Друзья, не забывайте записываться на проект. А чтобы было понятнее, что мы там будем делать, вот первое видео модуля.
В этом уроке продолжаем работать с "Исповедью" Августина:
✅ считаем частотность слов
✅ удаляем стоп-слова
✅ представляем результат на графике
✅ наслаждаемся результатом
https://vk.com/video-211800158_456239194
В этом уроке продолжаем работать с "Исповедью" Августина:
✅ считаем частотность слов
✅ удаляем стоп-слова
✅ представляем результат на графике
✅ наслаждаемся результатом
https://vk.com/video-211800158_456239194
Forwarded from Antibarbari HSE (Olga Alieva)
В Глоссарии "Системного блока" -- отличная статья о "дальнем чтении" и методологических возможностях цифровой гуманитаристики. https://sysblok.ru/glossary/chto-takoe-dalnee-chtenie/
***
Термин «дальнее чтение» был введён итальянским социологом литературы Франко Моретти. Этот же термин дал название сборнику статей (1994-2011) Моретти, выход которого в 2013 году стал причиной бурной дискуссии. В первую очередь книга ставит вопросы о методологии современного литературоведения: Моретти, так или иначе, отказывается от идей «новой критики», которые подразумевают детальное изучение текстов, входящих в канон.
***
Термин «дальнее чтение» был введён итальянским социологом литературы Франко Моретти. Этот же термин дал название сборнику статей (1994-2011) Моретти, выход которого в 2013 году стал причиной бурной дискуссии. В первую очередь книга ставит вопросы о методологии современного литературоведения: Моретти, так или иначе, отказывается от идей «новой критики», которые подразумевают детальное изучение текстов, входящих в канон.
Системный Блокъ
Что такое дальнее чтение?
Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария цифровых гуманитарных наук