Forwarded from Antibarbari HSE (Olga Alieva)
Тематический план:
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)
Forwarded from Antibarbari HSE (Olga Alieva)
Antibarbari HSE
🛠 Новый проект на "Ярмарке". Запись до 3 июля, реализация 4 июля - 11 сентября. Дистанционно, асинхронно, по красоте. Опыт программирования на R не обязателен. https://pf.hse.ru/632351712.html
👾 Друзья, не забывайте записываться на проект. А чтобы было понятнее, что мы там будем делать, вот первое видео модуля.
В этом уроке продолжаем работать с "Исповедью" Августина:
✅ считаем частотность слов
✅ удаляем стоп-слова
✅ представляем результат на графике
✅ наслаждаемся результатом
https://vk.com/video-211800158_456239194
В этом уроке продолжаем работать с "Исповедью" Августина:
✅ считаем частотность слов
✅ удаляем стоп-слова
✅ представляем результат на графике
✅ наслаждаемся результатом
https://vk.com/video-211800158_456239194
Forwarded from Antibarbari HSE (Olga Alieva)
В Глоссарии "Системного блока" -- отличная статья о "дальнем чтении" и методологических возможностях цифровой гуманитаристики. https://sysblok.ru/glossary/chto-takoe-dalnee-chtenie/
***
Термин «дальнее чтение» был введён итальянским социологом литературы Франко Моретти. Этот же термин дал название сборнику статей (1994-2011) Моретти, выход которого в 2013 году стал причиной бурной дискуссии. В первую очередь книга ставит вопросы о методологии современного литературоведения: Моретти, так или иначе, отказывается от идей «новой критики», которые подразумевают детальное изучение текстов, входящих в канон.
***
Термин «дальнее чтение» был введён итальянским социологом литературы Франко Моретти. Этот же термин дал название сборнику статей (1994-2011) Моретти, выход которого в 2013 году стал причиной бурной дискуссии. В первую очередь книга ставит вопросы о методологии современного литературоведения: Моретти, так или иначе, отказывается от идей «новой критики», которые подразумевают детальное изучение текстов, входящих в канон.
Системный Блокъ
Что такое дальнее чтение?
Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария цифровых гуманитарных наук
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня делаем облако слов из "Исповеди". https://vk.com/video-211800158_456239202
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня строим сети из биграмм (сочетаний двух слов) на примере "Исповеди" Августина. Кстати, как мы ни экспериментировали, на всех графиках виден вот такой крест. Можете повторить и проверить. https://vk.com/wall-211800158_58
Forwarded from Antibarbari HSE (Olga Alieva)
Antibarbari HSE
👾 С вами цифровой понедельник, и сегодня строим сети из биграмм (сочетаний двух слов) на примере "Исповеди" Августина. Кстати, как мы ни экспериментировали, на всех графиках виден вот такой крест. Можете повторить и проверить. https://vk.com/wall-211800158_58
📔Чтобы не потерять, вынесу из комментариев к предыдущему посту о сетях (графах) несколько ссылок на исследования Б.В. Орехова, который показывает, как с помощью сетей можно
1) выявлять закономерности терминологической системы (на примере текстов О. М. Фрейденберг, А. Ф. Лосева и Е. М. Мелетинского и детальнее о стиле Фрейденберг)
2) устанавливать наиболее значимые узлы сети и изучать структуру их связей (на примере сочинений М.М. Бахтина)
Полезно для понимания не только технической, но методологической стороны дела, без которой все наши подсчеты теряют всякий смысл.
1) выявлять закономерности терминологической системы (на примере текстов О. М. Фрейденберг, А. Ф. Лосева и Е. М. Мелетинского и детальнее о стиле Фрейденберг)
2) устанавливать наиболее значимые узлы сети и изучать структуру их связей (на примере сочинений М.М. Бахтина)
Полезно для понимания не только технической, но методологической стороны дела, без которой все наши подсчеты теряют всякий смысл.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня считаем Аристотеля. Научимся вычислять относительную частотность (relative term frequency) и выбирать наиболее характерные слова (tf-idf). Также узнаем, можно ли по tf-idf судить о тематике трактатов. https://vk.com/wall-211800158_62
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Чуть было не забыли про цифровой понедельник. Правда, сегодня он будет немного статистическим. Ловите новое видео: коэффициент φ, часть 1 из 3. https://vk.com/video-211800158_456239209
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня продолжим изучать лексические корреляции: посмотрим на связи между некоторыми философскими терминами в "Метафизике" Аристотеля. Полностью видео урока по ссылке: https://vk.com/video-211800158_456239212
Forwarded from Antibarbari HSE (Olga Alieva)
🔽 Кое-что и мы затеваем. Скоро расскажем подробнее. А пока делимся хорошей новостью.
Forwarded from ФГН НИУ ВШЭ
В 2022-2024 годах на ФГН будут работать 19 проектных групп сотрудников. В этот раз мы решили не вводить разделение на "факультетский" и "инициативный" уровень.
Список поддержанных проектов можно посмотреть здесь.
🎉 Поздравляем коллег и желаем успешной реализации своих проектов!
Список поддержанных проектов можно посмотреть здесь.
🎉 Поздравляем коллег и желаем успешной реализации своих проектов!
Forwarded from Antibarbari HSE (Olga Alieva)
👾С вами цифровой понедельник, и сегодня делаем красиво: изображаем корреляции в виде графа, работаем с цветовыми шкалами в R и учимся использовать цвета из Color Brewer https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3
Еще больше цифрового творчества в видео урока по ссылке: https://vk.com/video-211800158_456239214
Еще больше цифрового творчества в видео урока по ссылке: https://vk.com/video-211800158_456239214
VK Видео
R: Модуль 2 Урок 4.3. Лексические корреляции в виде графа. Работа с цветом. Color Brewer
Лексические корреляции в виде графа. Работа с цветом. Color Brewer. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Библиотека НИУ ВШЭ Москва
Визуализация данных – одно из перспективных направлений в статистике, IT и бизнес-анализе, позволяющее просто и наглядно представить большой объем информации.
Библиотека CATplot для языка программирования R дает возможность рисовать графики и диаграммы котиками.
Если вы когда-нибудь мечтали начертить свою собственную КОТограмму или КОТянус, то это отличная возможность! А с нашей подборкой книг по визуализации данных, вы сможете легко создавать еще больше классной и полезной инфографики.
Все книги можно взять в нашем филиале на Покровском бульваре, 11.
🔺R в действии: анализ и визуализация данных в программе R, Кабаков Р.И, 004 К12
🔺Статистический анализ и визуализация данных с помощью R, Мастицкий С.Э, 31 М328
🔺Инфографика: коммуникация и влияние при помощи изображений, Смикиклас, М. 65 С504
Библиотека CATplot для языка программирования R дает возможность рисовать графики и диаграммы котиками.
Если вы когда-нибудь мечтали начертить свою собственную КОТограмму или КОТянус, то это отличная возможность! А с нашей подборкой книг по визуализации данных, вы сможете легко создавать еще больше классной и полезной инфографики.
Все книги можно взять в нашем филиале на Покровском бульваре, 11.
🔺R в действии: анализ и визуализация данных в программе R, Кабаков Р.И, 004 К12
🔺Статистический анализ и визуализация данных с помощью R, Мастицкий С.Э, 31 М328
🔺Инфографика: коммуникация и влияние при помощи изображений, Смикиклас, М. 65 С504
Forwarded from ФГН НИУ ВШЭ
"Компьютерные технологии вторгаются в те сферы, которые традиционно считались чисто человеческими. Работы искусственного интеллекта выставляются в художественных музеях, издаются написанные машиной книги, воссоздаются портреты исторических личностей. Цифровые технологии существенно изменили ландшафт и в таких областях, где до сих пор в центре внимания находится человек, например в шахматах.
Компетенции, которые мы предлагаем гуманитарию на нашей программе, делают его более конкурентоспособным в этой ситуации. Горизонт цифровой трансформации непредсказуем для тех, кто не смотрит в сторону компьютерных разработок, а вот те, кто знакомится с этими технологиями, лучше ориентируются в ситуации и видят дальше".
Зачем гуманитариям цифровые технологии, как проходит учеба на программе и чем занимаются выпускники, рассказывает академический руководитель программы «Цифровые методы в гуманитарных науках» Борис Орехов.
Компетенции, которые мы предлагаем гуманитарию на нашей программе, делают его более конкурентоспособным в этой ситуации. Горизонт цифровой трансформации непредсказуем для тех, кто не смотрит в сторону компьютерных разработок, а вот те, кто знакомится с этими технологиями, лучше ориентируются в ситуации и видят дальше".
Зачем гуманитариям цифровые технологии, как проходит учеба на программе и чем занимаются выпускники, рассказывает академический руководитель программы «Цифровые методы в гуманитарных науках» Борис Орехов.
Forwarded from Antibarbari HSE (Olga Alieva)
👾С вами цифровой понедельник, сегодня учимся делать скользящее окно. Скользящее окно -- это отрезок данных, который "скользит" по всему исходному набору. Например, если мы просто разрежем текст на отрезки по 5 слов, то можем не заметить связи между словами, которые стоят рядом, но оказались при делении в разных отрезках. Поэтому -- задаем "шаг" и скользим. А еще узнаем о функциях-наречиях!
Подробнее по ссылке:
https://vk.com/video-211800158_456239215
Подробнее по ссылке:
https://vk.com/video-211800158_456239215
VK Видео
R: Модуль 2 Урок 5. Создание скользящего окна с пакетом slider
Создание скользящего окна с пакетом slider Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня вспоминаем логарифмы учимся считать точечную взаимную информацию (PMI).
https://vk.com/video-211800158_456239218
https://vk.com/video-211800158_456239218
VK Видео
R: Модуль 2 Урок 6.1. Pointwise mutual information
В статистике, теории вероятности и теории информации точечная взаимная информация, или PMI является мерой связи между двумя событиями. Этот показатель описывает количество информации, содержащейся в одной случайной величине относительно другой. О том, как…
Forwarded from Antibarbari HSE (Olga Alieva)
Python для классиков: полезные ресурсы
1) Код для работы со специфическими символами классических языков. Как удалить макрон и диакритику? Выбрать греческие слова из негреческого текста? Превратить iota subscriptum в iota adscriptum? https://github.com/diyclassics/classics-cookbook/blob/master/python-classics-cookbook.ipynb
2) Код, воспроизводящий исследование Дэвида Паккарда (David W. Packard) 1974 года "Звуковые эффекты у Гомера" ("Sound-Patterns in Homer"). https://github.com/diyclassics/replicating-classics/blob/master/notebooks/packard-1974-part-1.ipynb
За подборку спасибо Борису Валерьевичу Орехову.
1) Код для работы со специфическими символами классических языков. Как удалить макрон и диакритику? Выбрать греческие слова из негреческого текста? Превратить iota subscriptum в iota adscriptum? https://github.com/diyclassics/classics-cookbook/blob/master/python-classics-cookbook.ipynb
2) Код, воспроизводящий исследование Дэвида Паккарда (David W. Packard) 1974 года "Звуковые эффекты у Гомера" ("Sound-Patterns in Homer"). https://github.com/diyclassics/replicating-classics/blob/master/notebooks/packard-1974-part-1.ipynb
За подборку спасибо Борису Валерьевичу Орехову.
GitHub
classics-cookbook/python-classics-cookbook.ipynb at master · diyclassics/classics-cookbook
Code snippets that should be useful for classics research - diyclassics/classics-cookbook
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Не Питоном единым
Носителей английского завораживает, что в языках, в которых есть склонение имен, порядок слов может быть более свободным, чем они привыкли. В английском The boy gave the dog the food -- одно значение, а The food gave the boy the dog -- уже другое. В латинском и Puer cani escam dedit, и Escam dedit puer cani формально значат одно и то же, хотя и стилистически, и в плане тонкой расстановки акцентов, конечно, отличаются.
Синтаксис языков программирования устроен так же, как английский. Вряд ли потому что они создавались носителями английского (Фортран -- более-менее первый язык программирования, был разработан в компании IBM), скорее всего разработчики опирались на традиции формальных языков математической логики. Как всегда, оформившаяся традиция -- это повод ее нарушить.
Один из занятных способов это сделать -- создать язык программирования на основе латинского языка. Строго говоря, это не вполне самостоятельный язык, а надстройка над некогда популярным языком Perl, в котором переменные, операторы, функции и т.д. переведены на латынь. Поэтому читать и писать код на "Перлигате" проще, если предварительно изучить Perl, но у этого языка много общего и с R, и с Python.
В "Перлигату" перенесена усеченная версия латинского словоизменения: переменные даются в аккузативе ед. ч. второго склонения, массивы -- в аккузативе мн.ч. второго склонения и т.д.
Например, такой код сравнивает значение текстовой переменной stringum с паттерном регулярного выражения patum. В случае совпадения выводит сообщение на экран:
Практической пользы у этой разработки нет, и это в ней самое прекрасное. Программисты вообще любят развлекаться тем, чтобы создавать бесполезные языки программирования, они называются "эзотерическими". Например, есть язык "Шекспир". И есть даже перевод документации к нему на русский.
P.S. За этот пост редакция благодарит Бориса Орехова.
P.S.S. На страничке "Перлигаты" ее автор, святой человек, пишет: The Lingua::Romana::Perligata makes it possible to write Perl programs in Latin. (If you have to ask "Why?", then the answer probably won't make any sense to you either.). Применимо ко всем штукам на латыни и греческом. Если вы спрашиваете "зачем?", то скорее всего ответ не поймете 🤓
Носителей английского завораживает, что в языках, в которых есть склонение имен, порядок слов может быть более свободным, чем они привыкли. В английском The boy gave the dog the food -- одно значение, а The food gave the boy the dog -- уже другое. В латинском и Puer cani escam dedit, и Escam dedit puer cani формально значат одно и то же, хотя и стилистически, и в плане тонкой расстановки акцентов, конечно, отличаются.
Синтаксис языков программирования устроен так же, как английский. Вряд ли потому что они создавались носителями английского (Фортран -- более-менее первый язык программирования, был разработан в компании IBM), скорее всего разработчики опирались на традиции формальных языков математической логики. Как всегда, оформившаяся традиция -- это повод ее нарушить.
Один из занятных способов это сделать -- создать язык программирования на основе латинского языка. Строго говоря, это не вполне самостоятельный язык, а надстройка над некогда популярным языком Perl, в котором переменные, операторы, функции и т.д. переведены на латынь. Поэтому читать и писать код на "Перлигате" проще, если предварительно изучить Perl, но у этого языка много общего и с R, и с Python.
В "Перлигату" перенесена усеченная версия латинского словоизменения: переменные даются в аккузативе ед. ч. второго склонения, массивы -- в аккузативе мн.ч. второго склонения и т.д.
Например, такой код сравнивает значение текстовой переменной stringum с паттерном регулярного выражения patum. В случае совпадения выводит сообщение на экран:
si stringum patum comparamentum fac sic
scribe egresso par inquementum
cis Практической пользы у этой разработки нет, и это в ней самое прекрасное. Программисты вообще любят развлекаться тем, чтобы создавать бесполезные языки программирования, они называются "эзотерическими". Например, есть язык "Шекспир". И есть даже перевод документации к нему на русский.
P.S. За этот пост редакция благодарит Бориса Орехова.
P.S.S. На страничке "Перлигаты" ее автор, святой человек, пишет: The Lingua::Romana::Perligata makes it possible to write Perl programs in Latin. (If you have to ask "Why?", then the answer probably won't make any sense to you either.). Применимо ко всем штукам на латыни и греческом. Если вы спрашиваете "зачем?", то скорее всего ответ не поймете 🤓
MetaCPAN
Lingua-Romana-Perligata-0.605
Perl in Latin
Forwarded from Antibarbari HSE (Olga Alieva)
👾С вами цифровой понедельник, и мы продолжаем препарировать корпус Аристотеля (точнее, несколько трактатов из него). На этот раз используем такой показатель связи между словами, как Pointwise mutual information. Также применим навыки создания скользящих окон из предыдущих уроков. С чем теснее всего связано слово "монада" у Стагирита?
Смотрите по ссылке: https://vk.com/video-211800158_456239219
Смотрите по ссылке: https://vk.com/video-211800158_456239219
VK Видео
R: Модуль 2 Урок 6.2. Pointwise mutual information (PMI) в widyr (Аристотель)
В этом уроке мы применим функцию для создания скользящего окна к трактатам Аристотеля, а затем посчитаем взаимную информацию между словами. Результат сравним с тем, который получили при подсчете корреляций. Видео подготовлено по результатам проекта «Цифровая…
Forwarded from Antibarbari HSE (Olga Alieva)
🐍 R по понедельникам, Python по вторникам
Борис Орехов продолжает знакомить с полезными ресурсами для классиков на GitHub. На этот раз — встречайте код, который считает гапаксы у Гомера. https://github.com/diyclassics/perseus-experiments/blob/main/homeric-hapaxes.ipynb
Подставив другие имена xml-файлов из библиотеки Perseus, можно проделать то же самое для других авторов.
Enjoy responsibly! 🍻 Самые интересные гапаксы будем рады видеть в каментах.
Борис Орехов продолжает знакомить с полезными ресурсами для классиков на GitHub. На этот раз — встречайте код, который считает гапаксы у Гомера. https://github.com/diyclassics/perseus-experiments/blob/main/homeric-hapaxes.ipynb
Подставив другие имена xml-файлов из библиотеки Perseus, можно проделать то же самое для других авторов.
Enjoy responsibly! 🍻 Самые интересные гапаксы будем рады видеть в каментах.
GitHub
perseus-experiments/homeric-hapaxes.ipynb at main · diyclassics/perseus-experiments
Contribute to diyclassics/perseus-experiments development by creating an account on GitHub.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 У нас снова цифровой понедельник, и сегодня готовим к обработке и анализу трактаты Цицерона с использованием пакета tm (text-mining).
https://vk.com/wall-211800158_93
https://vk.com/wall-211800158_93
VK
Antibarbari HSE. Пост со стены.
R: Модуль 2 Урок 7. Создание корпуса и работа с метаданными в пакете tm (Цицерон)