RAntiquity
🔍 Как собрать датасет на основе библиографических данных Скопуса* Понадобятся: - API (https://dev.elsevier.com/), - VPN - пакет {rscopus} и обычный {tidyverse} install.packages("rscopus") library(rscopus) library(tidyverse) Sys.setenv(Elsevier_API = "0a0a0a0a0a0")…
Ну вот например. И это только публикации с вхождением “Платон” в названии, то есть лишь некоторая часть того, что о нем пишется.
🔥13❤3😱2
Сравниваем тексты с
Ссылка на техническую документацию. Результат можно встраивать в markdown и shiny.
p.s. первая-то редакция получше будет
{diffobj}
ed1 <- "В начале было Слово, и Слово было у Бога, и Слово было Бог."
ed2 <- "Вначале было Слово, и Слово было к Богу, и Бог был Слово."
# Визуализация изменений
library(diffobj)
diffChr(ed1, ed2, mode = "sidebyside")
Ссылка на техническую документацию. Результат можно встраивать в markdown и shiny.
p.s. первая-то редакция получше будет
❤7👀6💯3🔥1
Гераклит называл Пифагора κοπίδων ἀρχηγός, “предводитель мошенников”, а всякий уважающий себя философ, как говорил Ямвлих, должен взять себе в руководители “родоначальника и отца божественной философии”.
Поэтому сегодня маленькая хитрость для тех, кто уже научился реферировать статьи с чатом GPT, но еще не придумал, как безболезненно скормить ему монографию. Для этого придется разрезать ее на главы, и самый простой способ это сделать в R — пакет
Дальше вы знаете что делать 🐳 Но, как показывает практика, надо хорошо подумать над промптом, т.е. по сути сначала прочесть источник, а потом уже задавать вопросы машине. Иначе получится обо всем и ни о чем.
Поэтому сегодня маленькая хитрость для тех, кто уже научился реферировать статьи с чатом GPT, но еще не придумал, как безболезненно скормить ему монографию. Для этого придется разрезать ее на главы, и самый простой способ это сделать в R — пакет
{qpdf}
library(qpdf)
pdf_subset(input = “book.pdf",
output = "chapter.pdf",
pages = 10:20)
Дальше вы знаете что делать 🐳 Но, как показывает практика, надо хорошо подумать над промптом, т.е. по сути сначала прочесть источник, а потом уже задавать вопросы машине. Иначе получится обо всем и ни о чем.
😁8🔥4
Хорошая новость для тех, кому приходится распознавать тексты в дореформенной орфографии.
Борис Орехов опубликовал датасет, а Александра Горшенина написала под него код, позволяющий дообучать модели Tesseract для русского языка. За основу взят мастер-класс Андре Круса с примерами дообучения для распознавания математических символов.
Очень полезная в филологическом хозяйстве вещь! Спасибо коллегам.
Борис Орехов опубликовал датасет, а Александра Горшенина написала под него код, позволяющий дообучать модели Tesseract для русского языка. За основу взят мастер-класс Андре Круса с примерами дообучения для распознавания математических символов.
Очень полезная в филологическом хозяйстве вещь! Спасибо коллегам.
huggingface.co
nevmenandr/russian-old-orthography-ocr · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥21👍7🥰4👏3
Как сделать так, чтобы RStudio «понимал» латынь
- Скачиваем https://latin-dict.github.io/docs/hunspell.html архив hunspell-la.zip и распаковываем его
- Находим на компьютере директорию со словарями:
• Linux and macOS: ~/.config/rstudio/dictionaries/languages-system/
• Windows: %AppData%\RStudio\dictionaries\languages-system\
- Добавляем туда два файла (с расширениями .dic и .aff) из архива
- После этого перезапускаем RStudio, идем в Tools — Global Options — Spelling, проверяем, что новый словарь доступен в списке словарей. Все, можно работать.
- Скачиваем https://latin-dict.github.io/docs/hunspell.html архив hunspell-la.zip и распаковываем его
- Находим на компьютере директорию со словарями:
• Linux and macOS: ~/.config/rstudio/dictionaries/languages-system/
• Windows: %AppData%\RStudio\dictionaries\languages-system\
- Добавляем туда два файла (с расширениями .dic и .aff) из архива
- После этого перезапускаем RStudio, идем в Tools — Global Options — Spelling, проверяем, что новый словарь доступен в списке словарей. Все, можно работать.
❤7👍4🔥3
Forwarded from Гуманитарии в цифре
В сети опубликована запись «Цифровой среды» с Ольгой Алиевой
🙂 Делимся новой записью онлайн-семинара Института цифровых гуманитарных исследований (DHRI) СФУ «Цифровая среда».
Кандидат филологических наук, доцент Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ и автор телеграм-канала RAntiquity Ольга Алиева рассказала об использовании филогенетических методов для определения авторства и хронологии платоновских текстов и поделилась важными итогами своего исследования.
Доклад «Лес за деревьями: филогенетические методы на службе платоноведения» будет интересен широкому кругу слушателей – тем, кто стремится по-новому взглянуть на исследования авторства и готов пересмотреть стереотипы, связанные со стилометрией.
Смотрим:
🔜 YouTube
🔜 Rutube
🔜 VK Видео
Здесь можно ознакомиться с перечнем всех выпусков «Цифровой среды» (гости семинара – исследователи-историки, филологи, лингвисты, культурологи, и не только).
#приоритет2030 #dhri #ицги #цифроваясреда #языкR #стилометрия
Кандидат филологических наук, доцент Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ и автор телеграм-канала RAntiquity Ольга Алиева рассказала об использовании филогенетических методов для определения авторства и хронологии платоновских текстов и поделилась важными итогами своего исследования.
Доклад «Лес за деревьями: филогенетические методы на службе платоноведения» будет интересен широкому кругу слушателей – тем, кто стремится по-новому взглянуть на исследования авторства и готов пересмотреть стереотипы, связанные со стилометрией.
Смотрим:
Здесь можно ознакомиться с перечнем всех выпусков «Цифровой среды» (гости семинара – исследователи-историки, филологи, лингвисты, культурологи, и не только).
#приоритет2030 #dhri #ицги #цифроваясреда #языкR #стилометрия
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
Лес за деревьями: филогенетические методы на службе платоноведения
5 марта 2025 года состоялось очередное [№33] заседание научного семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступила Ольга Валерьевна Алиева (НИУ ВШЭ) с докладом «Лес за…
❤11👍1
RAntiquity
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R” #tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео. 2️⃣ 6️⃣ 1️⃣ 2️⃣ 9️⃣ Регулярные выражения (видео, текст). 🔟 Веб-скрапинг (видео,…
Третий модуль «Компьютерного анализа текста» #tar2024 (он же и 2025) подходит к концу, а значит я снова публикую текст и видео к урокам. Почти весь модуль посвящен деревьям и сетям 🕸️
1) Тематическое моделирование с LDA (текст, видео). Датасет: новости Lenta.Ru. Бонус: код и данные для статьи «Танцы, эрос и зачатие: о чем писали “Платоновские исследования” за последние 10 лет». К статье есть видео прошлогоднего выступления на «Цифровой среде».
2) Кластеризация и метод главных компонент (текст, видео). Датасеты: на дом — сценарий сериала «Друзья» из пакета {friends} для кластеризации персонажей; аудиторная — датасет Galbraith из пакета {stylo} на определение авторства романа, написанного Роулинг под псевдонимом. И еще немного пингвинов из {palmerpenguins} для упражнения. Потому что пингвины лишними не бывают.
3) Стилометрический анализ с пакетом stylo (текст, видео). Датасет: древнегреческая литература, собранная автором для статьи «Delta Берроуза для древнегреческих авторов: опыт применения» (выборочно, ссылка на репозиторий). Также очень пригодились данные, опубликованные Даниилом Скоринкиным @fckndh. Даня, спасибо, особенно за Ильфа и Петрова!
4) Консенсусные деревья и сети (текст, видео). Аудиторная работа на том же Galbraith (он же Роулинг), домашняя — датасет Бориса Орехова «Стилеметрические данные “Тихого Дона” и современной ему прозы». Бонус: видео выступления на «Цифровой среде» с докладом «Лес за деревьями: филогенетические методы на службе платоноведения» (дискутант: Артем Юнусов из ИФЕ @philosophy_diary).
5) Сетевые данные в igraph (текст, видео). Датасеты из пакета {networkdata}, а также собранный Борисом Ореховым «Словарь русских писателей XVIII века: сеть персоналий».
6) Графический дизайн сетей с ggraph и visNetwork (текст, видео). Датасет: Тюдоры из пакета {historydata}.
7) Анализ сетей и обнаружение сообществ (текст, видео). Датасет: драматический корпус Dracor. На дом: сети Ходасевича (снова спасибо Борису Орехову) и сети «Войны и мира» (снова спасибо Даниилу Скоринкину).
Ссылка на весь видео-плейлист. Всего там 23 записи за этот учебный год.
🖥 Ссылка на репозиторий для issues и пул-реквестов.
Я уползаю готовиться к четвертому модулю, в планах добраться до многослойного перцептрона, но это уж как пойдет
1) Тематическое моделирование с LDA (текст, видео). Датасет: новости Lenta.Ru. Бонус: код и данные для статьи «Танцы, эрос и зачатие: о чем писали “Платоновские исследования” за последние 10 лет». К статье есть видео прошлогоднего выступления на «Цифровой среде».
2) Кластеризация и метод главных компонент (текст, видео). Датасеты: на дом — сценарий сериала «Друзья» из пакета {friends} для кластеризации персонажей; аудиторная — датасет Galbraith из пакета {stylo} на определение авторства романа, написанного Роулинг под псевдонимом. И еще немного пингвинов из {palmerpenguins} для упражнения. Потому что пингвины лишними не бывают.
3) Стилометрический анализ с пакетом stylo (текст, видео). Датасет: древнегреческая литература, собранная автором для статьи «Delta Берроуза для древнегреческих авторов: опыт применения» (выборочно, ссылка на репозиторий). Также очень пригодились данные, опубликованные Даниилом Скоринкиным @fckndh. Даня, спасибо, особенно за Ильфа и Петрова!
4) Консенсусные деревья и сети (текст, видео). Аудиторная работа на том же Galbraith (он же Роулинг), домашняя — датасет Бориса Орехова «Стилеметрические данные “Тихого Дона” и современной ему прозы». Бонус: видео выступления на «Цифровой среде» с докладом «Лес за деревьями: филогенетические методы на службе платоноведения» (дискутант: Артем Юнусов из ИФЕ @philosophy_diary).
5) Сетевые данные в igraph (текст, видео). Датасеты из пакета {networkdata}, а также собранный Борисом Ореховым «Словарь русских писателей XVIII века: сеть персоналий».
6) Графический дизайн сетей с ggraph и visNetwork (текст, видео). Датасет: Тюдоры из пакета {historydata}.
7) Анализ сетей и обнаружение сообществ (текст, видео). Датасет: драматический корпус Dracor. На дом: сети Ходасевича (снова спасибо Борису Орехову) и сети «Войны и мира» (снова спасибо Даниилу Скоринкину).
Ссылка на весь видео-плейлист. Всего там 23 записи за этот учебный год.
Я уползаю готовиться к четвертому модулю, в планах добраться до многослойного перцептрона, но это уж как пойдет
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
Компьютерный анализ текста #18 Кластеризация и PCA
занятие 31.01.2025
❤21👍1
RAntiquity
Третий модуль «Компьютерного анализа текста» #tar2024 (он же и 2025) подходит к концу, а значит я снова публикую текст и видео к урокам. Почти весь модуль посвящен деревьям и сетям 🕸️ 1) Тематическое моделирование с LDA (текст, видео). Датасет: новости Lenta.Ru.…
Из особенных достижений за этот модуль, я считаю, вот. #цифровые_этюды #pca
❤9🎉4😱2🥰1
Осваиваю веселенький пакет FastTextR (снова неутомимый Эмиль Хвитфельдт!), позволяющий работать с предобученными эмбеддингами. Хочется, глядя на это, сказать голосом Любшина:
🔥11
Кто-то должен был набраться смелости и задать наконец чату GPT самые острые вопросы современности.
В общем, развернуть безголовый сервер на приставке не получится. Даже если пройти финального босса 👻
1. Ограничения Xbox One:
Операционная система: Xbox One работает на базе Windows 10 Xbox Edition — специальной версии ОС с ограниченной функциональностью, которая не поддерживает установку стороннего ПО, включая RStudio Server.
Аппаратные ограничения: Xbox One не имеет GPU, совместимого с CUDA (требуется для ускорения нейросетей), а его процессор и память недостаточно производительны для серьёзных ML-задач.
В общем, развернуть безголовый сервер на приставке не получится. Даже если пройти финального босса 👻
😁10😭8
В рубрике BEST DH TRAINING MATERIALS ищите вашу locusclassicus ☺️ https://dhawards.org/dhawards2024/voting/
Конкуренция серьезная, но хорошая новость в том, что можно голосовать в разных номинациях за разные проекты.
P.S. Расшары друзьям и знакомым кролика приветствуются! Правила конкурса это допускают
Конкуренция серьезная, но хорошая новость в том, что можно голосовать в разных номинациях за разные проекты.
P.S. Расшары друзьям и знакомым кролика приветствуются! Правила конкурса это допускают
🔥13❤4
Как проверить латинский текст на опечатки и ошибки распознавания с пакетами {
Это решение подойдет для быстрой “очистки” после OCR. Код позволяет выбрать замену слова или скипнуть исправление в интерактивном режиме.
https://teletype.in/@locusclassicus/BBSaUFXR-1S
hunspell} и {spelling}Это решение подойдет для быстрой “очистки” после OCR. Код позволяет выбрать замену слова или скипнуть исправление в интерактивном режиме.
https://teletype.in/@locusclassicus/BBSaUFXR-1S
Teletype
Проверка латинской орфографии в R c пакетами hunspell и spelling
Убедитесь, что у вас установлены нужные словари Hunspell.
🔥10❤4
Коллега прислала ссылку на CFP для цифровых философов, которых научная общественность продолжает искать днем с огнем. Я об этом, что могла, уже сказала и развивать не планирую, но вдруг кто-то думал в похожем направлении. Дедлайн в конце мая.
Regarding philosophy, however, there appears to be a striking under representation in the digital humanities sector so far. While there is some research done about philosophical aspects of digitalisation and even about methodological advantages of digital technology for philosophy, it is still rare in comparison with similar research in other disciplines.
This Collection aims to publish new philosophical views on digital knowledge infrastructures, particularly on the philosophical implications of the use of digital technology in research and education, e.g., machine-learning systems, linked open data applications, online archives, open access publication platforms, text analysis software, and perhaps even discipline-specific social media platforms like Phil-People. In addition, we want to emphasise the question how philosophy itself can make good use of this technology.
Nature
Philosophy [in:of:for:and] digital knowledge infrastructures
This Collection will bring together philosophical contributions concerning digital knowledge infrastructure, broadly construed.
❤4👍2🔥2
Forwarded from Antibarbari HSE (Olga Alieva)
Дорогие друзья, в ближайшую пятницу и субботу (28-29 марта) ищите антиварваров и их друзей в РГГУ на «Миусских античных посиделках», посвященных цифровым методам в изучении античности.
Программа и заказ пропусков по ссылке.
Программа и заказ пропусков по ссылке.
Telegram
Институт восточных культур и античности (ИВКА РГГУ)
#конференции #ивка
Дорогие друзья,
С радостью сообщаем вам, что 28–29 марта у нас состоится традиционная конференция «Миусские античные посиделки»–XV!
Тема нынешних посиделок — «цифровая античность».
Если вам нужно оформить пропуск, то пишите, пожалуйста…
Дорогие друзья,
С радостью сообщаем вам, что 28–29 марта у нас состоится традиционная конференция «Миусские античные посиделки»–XV!
Тема нынешних посиделок — «цифровая античность».
Если вам нужно оформить пропуск, то пишите, пожалуйста…
❤9
Раньше были какие-то понятные преподавательские страхи. Забыть про собственную пару, не подготовиться и не знать, что делать со студентами полтора часа. Или, толком не проснувшись (по ночам мы же пишем статьи), примчаться с каким-то очевидным изъяном во внешнем виде. Ну всякое такое, скучища. Все это было и все это не страшно.
Предлагаю новый страх. Промахнуться мимо окошка в телеграме и случайно запостить в один из своих пабликов вопрос, предназначенный Chat AI Bot. И тогда весь мир узнает, что…
А что он узнает, кстати? Какие запросы реально могут смутить, если станут публичными?
Пишите в комментариях. Если написать, то не сбудется (тьфу-тьфу-тьфу). Гарантия 100% 🔮
Предлагаю новый страх. Промахнуться мимо окошка в телеграме и случайно запостить в один из своих пабликов вопрос, предназначенный Chat AI Bot. И тогда весь мир узнает, что…
А что он узнает, кстати? Какие запросы реально могут смутить, если станут публичными?
Пишите в комментариях. Если написать, то не сбудется (тьфу-тьфу-тьфу). Гарантия 100% 🔮
❤20😁16