Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник, и сегодня вспоминаем логарифмы учимся считать точечную взаимную информацию (PMI).
https://vk.com/video-211800158_456239218
https://vk.com/video-211800158_456239218
VK Видео
R: Модуль 2 Урок 6.1. Pointwise mutual information
В статистике, теории вероятности и теории информации точечная взаимная информация, или PMI является мерой связи между двумя событиями. Этот показатель описывает количество информации, содержащейся в одной случайной величине относительно другой. О том, как…
Forwarded from Antibarbari HSE (Olga Alieva)
Python для классиков: полезные ресурсы
1) Код для работы со специфическими символами классических языков. Как удалить макрон и диакритику? Выбрать греческие слова из негреческого текста? Превратить iota subscriptum в iota adscriptum? https://github.com/diyclassics/classics-cookbook/blob/master/python-classics-cookbook.ipynb
2) Код, воспроизводящий исследование Дэвида Паккарда (David W. Packard) 1974 года "Звуковые эффекты у Гомера" ("Sound-Patterns in Homer"). https://github.com/diyclassics/replicating-classics/blob/master/notebooks/packard-1974-part-1.ipynb
За подборку спасибо Борису Валерьевичу Орехову.
1) Код для работы со специфическими символами классических языков. Как удалить макрон и диакритику? Выбрать греческие слова из негреческого текста? Превратить iota subscriptum в iota adscriptum? https://github.com/diyclassics/classics-cookbook/blob/master/python-classics-cookbook.ipynb
2) Код, воспроизводящий исследование Дэвида Паккарда (David W. Packard) 1974 года "Звуковые эффекты у Гомера" ("Sound-Patterns in Homer"). https://github.com/diyclassics/replicating-classics/blob/master/notebooks/packard-1974-part-1.ipynb
За подборку спасибо Борису Валерьевичу Орехову.
GitHub
classics-cookbook/python-classics-cookbook.ipynb at master · diyclassics/classics-cookbook
Code snippets that should be useful for classics research - diyclassics/classics-cookbook
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Не Питоном единым
Носителей английского завораживает, что в языках, в которых есть склонение имен, порядок слов может быть более свободным, чем они привыкли. В английском The boy gave the dog the food -- одно значение, а The food gave the boy the dog -- уже другое. В латинском и Puer cani escam dedit, и Escam dedit puer cani формально значат одно и то же, хотя и стилистически, и в плане тонкой расстановки акцентов, конечно, отличаются.
Синтаксис языков программирования устроен так же, как английский. Вряд ли потому что они создавались носителями английского (Фортран -- более-менее первый язык программирования, был разработан в компании IBM), скорее всего разработчики опирались на традиции формальных языков математической логики. Как всегда, оформившаяся традиция -- это повод ее нарушить.
Один из занятных способов это сделать -- создать язык программирования на основе латинского языка. Строго говоря, это не вполне самостоятельный язык, а надстройка над некогда популярным языком Perl, в котором переменные, операторы, функции и т.д. переведены на латынь. Поэтому читать и писать код на "Перлигате" проще, если предварительно изучить Perl, но у этого языка много общего и с R, и с Python.
В "Перлигату" перенесена усеченная версия латинского словоизменения: переменные даются в аккузативе ед. ч. второго склонения, массивы -- в аккузативе мн.ч. второго склонения и т.д.
Например, такой код сравнивает значение текстовой переменной stringum с паттерном регулярного выражения patum. В случае совпадения выводит сообщение на экран:
Практической пользы у этой разработки нет, и это в ней самое прекрасное. Программисты вообще любят развлекаться тем, чтобы создавать бесполезные языки программирования, они называются "эзотерическими". Например, есть язык "Шекспир". И есть даже перевод документации к нему на русский.
P.S. За этот пост редакция благодарит Бориса Орехова.
P.S.S. На страничке "Перлигаты" ее автор, святой человек, пишет: The Lingua::Romana::Perligata makes it possible to write Perl programs in Latin. (If you have to ask "Why?", then the answer probably won't make any sense to you either.). Применимо ко всем штукам на латыни и греческом. Если вы спрашиваете "зачем?", то скорее всего ответ не поймете 🤓
Носителей английского завораживает, что в языках, в которых есть склонение имен, порядок слов может быть более свободным, чем они привыкли. В английском The boy gave the dog the food -- одно значение, а The food gave the boy the dog -- уже другое. В латинском и Puer cani escam dedit, и Escam dedit puer cani формально значат одно и то же, хотя и стилистически, и в плане тонкой расстановки акцентов, конечно, отличаются.
Синтаксис языков программирования устроен так же, как английский. Вряд ли потому что они создавались носителями английского (Фортран -- более-менее первый язык программирования, был разработан в компании IBM), скорее всего разработчики опирались на традиции формальных языков математической логики. Как всегда, оформившаяся традиция -- это повод ее нарушить.
Один из занятных способов это сделать -- создать язык программирования на основе латинского языка. Строго говоря, это не вполне самостоятельный язык, а надстройка над некогда популярным языком Perl, в котором переменные, операторы, функции и т.д. переведены на латынь. Поэтому читать и писать код на "Перлигате" проще, если предварительно изучить Perl, но у этого языка много общего и с R, и с Python.
В "Перлигату" перенесена усеченная версия латинского словоизменения: переменные даются в аккузативе ед. ч. второго склонения, массивы -- в аккузативе мн.ч. второго склонения и т.д.
Например, такой код сравнивает значение текстовой переменной stringum с паттерном регулярного выражения patum. В случае совпадения выводит сообщение на экран:
si stringum patum comparamentum fac sic
scribe egresso par inquementum
cis Практической пользы у этой разработки нет, и это в ней самое прекрасное. Программисты вообще любят развлекаться тем, чтобы создавать бесполезные языки программирования, они называются "эзотерическими". Например, есть язык "Шекспир". И есть даже перевод документации к нему на русский.
P.S. За этот пост редакция благодарит Бориса Орехова.
P.S.S. На страничке "Перлигаты" ее автор, святой человек, пишет: The Lingua::Romana::Perligata makes it possible to write Perl programs in Latin. (If you have to ask "Why?", then the answer probably won't make any sense to you either.). Применимо ко всем штукам на латыни и греческом. Если вы спрашиваете "зачем?", то скорее всего ответ не поймете 🤓
MetaCPAN
Lingua-Romana-Perligata-0.605
Perl in Latin
Forwarded from Antibarbari HSE (Olga Alieva)
👾С вами цифровой понедельник, и мы продолжаем препарировать корпус Аристотеля (точнее, несколько трактатов из него). На этот раз используем такой показатель связи между словами, как Pointwise mutual information. Также применим навыки создания скользящих окон из предыдущих уроков. С чем теснее всего связано слово "монада" у Стагирита?
Смотрите по ссылке: https://vk.com/video-211800158_456239219
Смотрите по ссылке: https://vk.com/video-211800158_456239219
VK Видео
R: Модуль 2 Урок 6.2. Pointwise mutual information (PMI) в widyr (Аристотель)
В этом уроке мы применим функцию для создания скользящего окна к трактатам Аристотеля, а затем посчитаем взаимную информацию между словами. Результат сравним с тем, который получили при подсчете корреляций. Видео подготовлено по результатам проекта «Цифровая…
Forwarded from Antibarbari HSE (Olga Alieva)
🐍 R по понедельникам, Python по вторникам
Борис Орехов продолжает знакомить с полезными ресурсами для классиков на GitHub. На этот раз — встречайте код, который считает гапаксы у Гомера. https://github.com/diyclassics/perseus-experiments/blob/main/homeric-hapaxes.ipynb
Подставив другие имена xml-файлов из библиотеки Perseus, можно проделать то же самое для других авторов.
Enjoy responsibly! 🍻 Самые интересные гапаксы будем рады видеть в каментах.
Борис Орехов продолжает знакомить с полезными ресурсами для классиков на GitHub. На этот раз — встречайте код, который считает гапаксы у Гомера. https://github.com/diyclassics/perseus-experiments/blob/main/homeric-hapaxes.ipynb
Подставив другие имена xml-файлов из библиотеки Perseus, можно проделать то же самое для других авторов.
Enjoy responsibly! 🍻 Самые интересные гапаксы будем рады видеть в каментах.
GitHub
perseus-experiments/homeric-hapaxes.ipynb at main · diyclassics/perseus-experiments
Contribute to diyclassics/perseus-experiments development by creating an account on GitHub.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 У нас снова цифровой понедельник, и сегодня готовим к обработке и анализу трактаты Цицерона с использованием пакета tm (text-mining).
https://vk.com/wall-211800158_93
https://vk.com/wall-211800158_93
VK
Antibarbari HSE. Пост со стены.
R: Модуль 2 Урок 7. Создание корпуса и работа с метаданными в пакете tm (Цицерон)
Forwarded from Antibarbari HSE (Ksenia)
С развитием технологий и повышением спроса на специалистов, умеющих кодить, все смелее высказываются предложения о том, чтобы увеличить количество часов, отведенных в школах на изучение языков программирования. При этом, конечно, школьное расписание вовсе не резиновое, в нем всегда приходится чем-то жертвовать. И здесь злую шутку играет сам термин «языки программирования»: возникает иллюзия, что процесс их изучения вполне сопоставим с тем, как изучают естественные иностранные языки, а значит и предметы должны быть взаимозаменяемыми.
На самом деле это вовсе не так. Чтобы противоречие стало очевидным, обратимся к так называемому тривиуму — первой ступени в системе средневекового образования, которая на самом деле сложилась еще в античности. Уже в пятом веке афинские софисты выделили три предмета, которые должны были играть ключевую роль в программе обучения греческих юношей: грамматику, логику и риторику. В нашей ситуации изучение иностранного языка соответствует изучению грамматики, поскольку дает представление об отдельных синтаксических конструкциях, тогда как в программировании обучающийся должен специальным образом расставлять эти конструкции и думать о том, как они будут работать вместе, что хорошо соотносится с античной логикой. То есть, несмотря на одинаковое название, наши предметы развивают совсем разные скилы. При этом «организация слов» и «организация идей» одинаково важны и являются по сути взаимодополняющими, а значит заменить одно на другое без потерь не получится.
Что интересно, в вопросе развития когнитивных навыков древние языки ничуть не уступают современным. Каждый, кто хоть раз пытался переводить текст с латыни, знает, что любое предложение — это ребус, который нужно долго и упорно разгадывать. Как тут не развиться логическому мышлению?
Одним словом, лучшим решением будет найти баланс между изучением иностранных языков и языков программирования, поскольку те навыки, которые мы получаем в обоих случаях, одинаково здорово прокачивают наш мозг и позволяют в дальнейшем воспринимать более сложный и абстрактный материал. Подробнее обо всем это можно прочитать в статье классика Патрика Бёрнса The Ancient Case Against Programming “Languages”. Enjoy!
На самом деле это вовсе не так. Чтобы противоречие стало очевидным, обратимся к так называемому тривиуму — первой ступени в системе средневекового образования, которая на самом деле сложилась еще в античности. Уже в пятом веке афинские софисты выделили три предмета, которые должны были играть ключевую роль в программе обучения греческих юношей: грамматику, логику и риторику. В нашей ситуации изучение иностранного языка соответствует изучению грамматики, поскольку дает представление об отдельных синтаксических конструкциях, тогда как в программировании обучающийся должен специальным образом расставлять эти конструкции и думать о том, как они будут работать вместе, что хорошо соотносится с античной логикой. То есть, несмотря на одинаковое название, наши предметы развивают совсем разные скилы. При этом «организация слов» и «организация идей» одинаково важны и являются по сути взаимодополняющими, а значит заменить одно на другое без потерь не получится.
Что интересно, в вопросе развития когнитивных навыков древние языки ничуть не уступают современным. Каждый, кто хоть раз пытался переводить текст с латыни, знает, что любое предложение — это ребус, который нужно долго и упорно разгадывать. Как тут не развиться логическому мышлению?
Одним словом, лучшим решением будет найти баланс между изучением иностранных языков и языков программирования, поскольку те навыки, которые мы получаем в обоих случаях, одинаково здорово прокачивают наш мозг и позволяют в дальнейшем воспринимать более сложный и абстрактный материал. Подробнее обо всем это можно прочитать в статье классика Патрика Бёрнса The Ancient Case Against Programming “Languages”. Enjoy!
Medium
The Ancient Case Against Programming “Languages”
When Apple CEO Tim Cook addressed an audience of tech executives, venture capitalists, and policy makers at a “startup fest” event in…
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник с Цицероном и функцией geom.jitter. Красиво и информативно. https://vk.com/wall-211800158_95
VK
Antibarbari HSE. Запись со стены.
R: Модуль 2 Урок 8. Конвертация DTM в tidy форматы и обратно (Цицерон)
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Формально цифровой понедельник еще не закончился. https://vk.com/video-211800158_456239224
VK Видео
R: Модуль 2 Урок 9. Зияния (стык гласных): как их посчитать?
Считаем зияния с пакетом tokenizers и сравниваем по этому показателю "ранние" и "поздние" диалоги Платона. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022…
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник. Сегодня учимся считать длину предложения: пишем свой токенайзер и (или) извлекаем данные о длине предложения из исходного xml. https://vk.com/wall-211800158_101
VK
Antibarbari HSE
R: Модуль 2 Урок 10. Считаем длину предложений (двумя способами)
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Полезный лонгрид о стилометрии от Бориса Орехова. В конце — краткая пошаговая инструкция, с чего начать неспециалисту. А подробнее — в нашем видео-курсе «Начала стилометрии на языке R», каждый понедельник здесь и VK.
***
Философы придерживаются мнения, что Платон в своих ранних диалогах излагал не собственные идеи, а транслировал реальные диалоги своего учителя Сократа. С какого-то момента Платон начинает использовать эту форму уже для передачи нового содержания, продуцирует свою собственную философию, которая отличается от системы Сократа. Поскольку нет никаких документов, которые бы позволили провести эту разграничительную линию, логично появление попыток количественного решения этой проблемы. Этим занимался Винцента Лютославский в XIX веке, который, вероятно, и придумал само слово «стилометрия», которым мы обозначаем количественное исследование стилистики текста. https://postnauka.ru/faq/99046
***
Философы придерживаются мнения, что Платон в своих ранних диалогах излагал не собственные идеи, а транслировал реальные диалоги своего учителя Сократа. С какого-то момента Платон начинает использовать эту форму уже для передачи нового содержания, продуцирует свою собственную философию, которая отличается от системы Сократа. Поскольку нет никаких документов, которые бы позволили провести эту разграничительную линию, логично появление попыток количественного решения этой проблемы. Этим занимался Винцента Лютославский в XIX веке, который, вероятно, и придумал само слово «стилометрия», которым мы обозначаем количественное исследование стилистики текста. https://postnauka.ru/faq/99046
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник, и новый модуль. Just keep counting, как говорила рыбка Дори. https://vk.com/wall-211800158_102
VK
Antibarbari HSE. Пост со стены.
О третьем модуле курса "R для антиковедов"
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник. Меры центральной тенденции (мода, медиана, среднее) и меры изменчивости (дисперсия, стандартное отклонение) — с примерами из Платона.
https://vk.com/video-211800158_456239229
https://vk.com/video-211800158_456239229
Vk
R: Модуль 3 Урок 1. Меры центральной тенденции. Меры изменчивости
Меры центральной тенденции. Меры изменчивости Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 "Федон" 89d-90a можно считать первым описанием того, что впоследствии стало известно как нормальное, или Гауссово, распределение:
"...Очень хороших и очень плохих людей немного, а посредственных – без числа. ...Так же точно, как очень маленьких и очень больших. ... Разве ты не замечал, что во всех таких случаях крайности редки и немногочисленны, зато середина заполнена в изобилии?"
О нормальном распределении смотрите новое видео в рубрике цифровой понедельник.
https://vk.com/video-211800158_456239231
"...Очень хороших и очень плохих людей немного, а посредственных – без числа. ...Так же точно, как очень маленьких и очень больших. ... Разве ты не замечал, что во всех таких случаях крайности редки и немногочисленны, зато середина заполнена в изобилии?"
О нормальном распределении смотрите новое видео в рубрике цифровой понедельник.
https://vk.com/video-211800158_456239231
Vk
R: Модуль 3 Урок 2. Нормальное распределение и его свойства
Нормальное распределение и его свойства Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
📚👾 Параллельный корпус
В рамках проекта "Цифровая античность" , поддержанного Факультетом гуманитарных наук НИУ ВШЭ, начинается работа над параллельным древнегреческо-русским корпусом.
6 октября 2022 г. с сообщением на тему "Параллельный древнегреческо-русский корпус: зачем и как?" выступит доцент Школы лингвистики, руководитель образовательной программы "Цифровые методы в гуманитарных науках" Борис Валерьевич Орехов.
Приглашаем к участию заинтересованных коллег и студентов. Встреча состоится в 18.00 на платформе Webinar; для получения ссылки, пожалуйста, заполните форму: https://forms.gle/azyUbJcfWmtcK7pf7
В рамках проекта "Цифровая античность" , поддержанного Факультетом гуманитарных наук НИУ ВШЭ, начинается работа над параллельным древнегреческо-русским корпусом.
6 октября 2022 г. с сообщением на тему "Параллельный древнегреческо-русский корпус: зачем и как?" выступит доцент Школы лингвистики, руководитель образовательной программы "Цифровые методы в гуманитарных науках" Борис Валерьевич Орехов.
Зачем нужен такой ресурс и чем он будет полезен классикам? Как вообще делают параллельные корпуса и какие для этого есть инструменты? Из каких частей будет состоять наша работа и что мы получим в конце?
Приглашаем к участию заинтересованных коллег и студентов. Встреча состоится в 18.00 на платформе Webinar; для получения ссылки, пожалуйста, заполните форму: https://forms.gle/azyUbJcfWmtcK7pf7
Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник. Сегодня говорим о распределении дискретных величин и испытаниях Бернулли.
https://vk.com/video-211800158_456239233
https://vk.com/video-211800158_456239233
Vk
R: Модуль 3 Урок 3. Распределения дискретных величин (часть 1)
Распределения дискретных величин. Часть 1: Биномиальное распределение. Испытания Бернулли. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
🎞 Публикуем видео лекции Бориса Орехова "Параллельный древнегреческо-русский корпус: как и зачем?"
В рамках проекта "Цифровая античность" (НИУ ВШЭ) начинается работа над созданием параллельного древнегреческо-русского корпуса.
Первый этап работы потребует подготовки и тестирования электронных инструментов, позволяющих создавать параллельные корпуса древнегреческих текстов и их русских переводов.
О том, что это за инструменты, и как "научить" их правильно соотносить оригинал с переводом, смотрите в первом видео проекта.
В рамках проекта "Цифровая античность" (НИУ ВШЭ) начинается работа над созданием параллельного древнегреческо-русского корпуса.
Первый этап работы потребует подготовки и тестирования электронных инструментов, позволяющих создавать параллельные корпуса древнегреческих текстов и их русских переводов.
О том, что это за инструменты, и как "научить" их правильно соотносить оригинал с переводом, смотрите в первом видео проекта.
Vk
Борис Орехов: Параллельный древнегреческо-русский корпус: как и зачем?
В рамках проекта "Цифровая античность" (НИУ ВШЭ) начинается работа над созданием параллельного древнегреческо-русского корпуса. Первый этап работы потребует подготовки и тестирования электронных инструментов, позволяющих создавать параллельные корпуса древнегреческих…
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Снова цифровой понедельник — и чарующие слова “распределение Пуассона”. Вместе с Гаральдом Баайеном разбираемся, можно ли с помощью распределения Пуассона описать встречаемость некоторых слов в корпусе. https://vk.com/video-211800158_456239236
Vk
R: Модуль 3 Урок 3.2. Дискретные распределения (продолжение)
Распределение Пуассона и частотность слов. Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 В мире много вещей непостижимых. Например, то, что точка с запятой (;) и греческий знак вопроса (;) в Unicode -- это разные знаки.
Это легко проверить, используя логические операторы в R/Python. Вот код для R:
В греческой политонической раскладке ";" (под буквой q) -- обычная точка с запятой. Проверяем:
А вот в TLG, оказывается, наоборот (во всяком случае, там, где мы проверяли)
Это легко проверить, используя логические операторы в R/Python. Вот код для R:
a <- "\U037E" # Greek question mark
b = ";" # semicolon
a == b
Ответ
[1] FALSE
В греческой политонической раскладке ";" (под буквой q) -- обычная точка с запятой. Проверяем:
c = ";" # polytonic keyboard
c == a
[1] FALSE
c == b
[1] TRUEА вот в TLG, оказывается, наоборот (во всяком случае, там, где мы проверяли)
d = ";" # from TLG
d == a
TRUE
d == b
FALSE
Отсюда мораль: разрезая текст на предложения, на всякий случай прописывайте в алгоритме оба знака. Или делайте замену по всему документу. Такие дела.Forwarded from Antibarbari HSE (Olga Alieva)
👾 С вами цифровой понедельник. Сегодня разбираемся с доверительными интервалами и делаем выводы о длине предложения в “Государстве” и “Законах”. https://vk.com/video-211800158_456239240
VK Видео
R: Модуль 3 Урок 4. Доверительные интервалы
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.
Forwarded from Antibarbari HSE (Olga Alieva)
👾 Цифровой понедельник. Сравниваем длину предложения в выборках из разных диалогов Платона и делаем выводы. Статистические выводы 🤨
https://vk.com/video-211800158_456239242
https://vk.com/video-211800158_456239242
VK Видео
R: Модуль 3 Урок 5. Проверка гипотезы. Z-критерий Фишера
Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2022 году.