Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥1
Как правильно спрятать чатжипити в вашей курсовой. Советует умная собачка Соня.
YouTube
Умная собачка Соня. Мультфильм (1991)
Рисованный мультфильм о забавной собачке Соне, которая, попадая в сложные ситуации, делала для себя поучительные выводы.
В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…
В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…
😁6🐳4❤3🌚1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍4🥰1🍓1💘1
"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс Музыка
Нужна ли гуманитариям "цифра"? Исторические иссл...
❤11👍4💘4🤗1
Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.
Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?
Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .
Скоро вернемся с анонсом следующей лекции.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
И.В. Бибилов (ЕУСПб). Избранные главы информатики. Исследовательский мультитул
Третья лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/
❤10❤🔥4🔥2👾2
Можно просто угадывать. Это очень сложно.
Можно смотреть подсказки. Это очень легко.
А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
agricolamz.github.io
Следующая остановка: Библиотека им. …
❤9
Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥5❤1
Ой, девочки!
library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)
It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
emilhvitfeldt.github.io
The Entire Transcript from Friends in Tidy Format
The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.
format. Use this package to practice data wrangling, text analysis and
network analysis.
😍13❤5
Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.
С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.
Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
Следующая лекция курса состоится 11 мая, следите за анонсами.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только
Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: https://criticaldh.ru/
🔥8❤2👍1
Forwarded from НКРЯ Национальный корпус русского языка
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).
Как сравнить два средних
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.
Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основномне самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
Один из них — https://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
❤8👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤🔥3😍2
RAntiquity
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.
1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.
Этот тест подтверждает, что true location shift is not equal to 0.
3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.
4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
Этот тест подтверждает, что true location shift is not equal to 0.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
RAntiquity
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком. Один из них — https://www.ecomparatio.net/ —…
Media is too big
VIEW IN TELEGRAM
По заявкам читателей отвечаю на вопрос: Урри, где у него кнопка?
🔥4
В статье митр. Илариона (Алфеева) в Православной энциклопедии дается краткая сводка по вопросу о подлинности посланий ап. Павла:
Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому
По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.
Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).
Вот что пишет Савой (который, впрочем, ни разу не библеист):
По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.
Большинство считает подлинными 7 Посланий Павла: к Римлянам, 1-е и 2-е к Коринфянам, 1-е к Фессалоникийцам, к Галатам, к Филиппийцам, к Филимону… О 2-м Послании к Фессалоникийцам и о Послании к Колоссянам мнения в ученом сообществе разделились… Послания к Ефесянам, 1-е и 2-е к Тимофею, а также Послание к Титу большинство ученых относят к числу псевдоэпиграфов….
Стилистическая разница не обязательно означает разных авторов (она может быть обусловлена жанром, обстоятельствами, вмешательством секретарей и т.п.). Поэтому
Все 13 Посланий (к ним не относится Послание к Евреям) содержат особенности, позволяющие атрибутировать их одному автору.
По поводу Евр считается (со слов Климента Александрийского), что оно было написано Павлом по-еврейски и затем переведено Лукой на греческий.
Оставлю тут ссылочку на статью Жака Савоя, который применил к корпусу как знаменитую Дельту, так и расстояния Лаббе и Танимото. (О последних двух я писала в статье, по разным причинам так и не опубликованной: если кратко, они неплохо работают на греках).
Вот что пишет Савой (который, впрочем, ни разу не библеист):
Кластеризация … с помощью моделей Лаббе или Дельты свидетельствует в пользу гипотезы четырех посланий. . Мы можем … предположить, что один и тот же автор написал 1 и 2 Фесс, и одного и того же автора можно обнаружить за Колос и Ефес. Эти три кластера могли быть написаны как одним автором, так и двумя или тремя разными людьми. Кроме того, рис. 3 не подтверждает гипотезу семи посланий, согласно которой Павел является автором четырех посланий плюс 1-е Фессалоникийцам, Филиппийцам и Филимону.
По мнению Савоя, стиль 1Фесс соответствует стилю 2 Фесс, в то время как послание Филиппийцам слабо связано с кластерами Колоссянам-Ефесянам и 1 и 2 Фесс.
Для Филимона ответ менее ясен, главным образом потому, что этот текст довольно короткий (388 слов).
🔥3