Цифровой филолог (Даня Скоринкин)
1.89K subscribers
99 photos
3 videos
1 file
79 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
Download Telegram
Из Москвы в Петербург, из Киева — в Париж: куда переехала русская литература в 19 веке?

Вернемся к настоящей цифровой филологии. Расскажу про ту самую работу, за которую меня признали “нехорошим русским” 😈 Там мы с Б.В. всячески тыкали цифровыми методами корпус из 500+ русских романов и повестей XIX века, условно поделив его на романтизм (1801–1840) и реализм (1845–1890). Моя любимая часть рисерча — географическая 🗺 Мы посмотрели, какие топонимы (города, страны и т.д.) резко растут/падают в относительной частотности при переходе из условного “романтизма” в условный “реализм”. Результаты примерно такие:

— Очень сильно подпрыгивает Петербург (было в 2.5 раза меньше Москвы, стало почти вровень)📈
— Очень сильно падает Украина (Киев, Днепр, Полтава, Запорожье), Польша (Варшава, Краков) и Балтика (Нарва)📉
— С ними же падает и “историческая” Россия (Новгород, Углич, ну и собственно Москва)📉
— Растет Западная Европа (города: Париж, Рим, Вена, Берлин; страны: Франция, Англия, Австрия, Швейцария)📈
— Растет восточная и южная “периферия” Российской империи: Сибирь, Казань, Астрахань, Урал, Одесса, Крым, Турция (последние 2 исключительно из-за Крымской войны) 📈

В общем, кажется, тут неплохо видно, как русская литература выходит из “исторической” колыбели в современность второй половины XIX века. Восточно-европейская топонимика в “романтическом” подкорпусе — это в основном исторические романы о Киевской Руси, о Смуте и польском вторжении, а также о войнах со шведами и ливонцами. Отсюда же и исторические русские города. Во второй половине XIX века удельный вес этой исторической прозы в русской литературе падает — важнее становится Санкт-Петербург как место действия современных героев (персонажей Достоевского, Гончарова, Толстого и прочих), Западная Европа (там персонажи тоже много бывают, теперь это несложно, есть поезда, пароходы и прочие достижения технического прогресса; а еще появились международная почта и телеграф), Причерноморье как место действия современных войн и некоторые точки нового военно-экономическго фронтира (Сибирь, Урал, Нижняя Волга).

P.S. Исследование было сделано быстро и с высокой степенью автоматизации, оно во многом “разведочное”, и у него есть слабые стороны. Во-первых, корпус 1801–1840 сильно меньше корпуса 1845–1890: 6 млн против 41 млн словоупотреблений. Мы считали относительные частотности, то есть нормировали на объем, но ясно, что общий размер корпуса всё равно влияет как минимум на разнообразие географии и полностью починить это сложно. Во-вторых, мы никак не учитываем функцию упоминания топонима: является ли он реальным местом действия или просто упоминается в духе знаменитого “острова Мадагаскар” в устах Наташи Ростовой в “Войне и мире”. Тут мы надеемся на то, что если действие реально происходит в месте [Х], то это сказывается на его частотности (судя по Петербургу, это так). В-третьих, вообще непонятно, остается ли тут смысл говорить про “романтизм” как направление, или мы просто сравнили корпус, где много исторических романов, с корпусом, где много романов реалистических… Есть и другие слабые стороны. Как написано на могиле Станислава Лема в Кракове, “Feci quod potui, faciant meliora potentes” 🤝

P.P.S. Не знаю почему этот пост нельзя комментировать 🤷 Пишите в чатик канала что ли.
30👍15🔥13👀3
Что меняют LLM в практике цифровых гуманитарных исследователей?

Недавно меня позвали на круглый стол по искусственному интеллекту в FU Berlin. Там собрались очень разные ученые, и нужно было рассказать что-то на 5 минут / 1 слайд. Я решил для этого круглого стола отрефлексировать, а что же изменилось в моей (и ближайших коллег в DH Network Potsdam) научной практике по мере того, как ChatGPT/Claude/Copilot и прочие стали ежедневным рабочим инструментом. Навскидку выделил 3 вещи:

Научный vibe-кодинг: задачи, требовавшие программиста, теперь нередко решаются людьми, которые программировать (почти) не умеют. Лично меня это, скорее, радует: я как человек, которому нужно программировать, но который не считает себя профессиональным высококлассным программистом (для меня это всегда было средством, а не целью), с удовольствием отдаю моделям написание кода (для обработки данных, для сбора данных в интернете, для всякого рода разметки). И еще больше этим занимаются наши аспиранты, в т.ч. те из них, которых программировать вообще не учили. У них я наблюдаю как будто даже большую наглость в общении с LLM: они думают, что она может вообще всё, пока я осторожничаю, прописываю ненужные детальки и дроблю задачку на какие-то понятные кусочки; в итоге они чаще оказываются в выигрыше, т.к. модель у них делает задачку под ключ гораздо быстрее, чем у меня по шагам.

Формализация на заказ вместо вороха плохих кастомных ML-моделей и костылей. LLM неплохо автоматизируют разметку/распознавание разнообразных сложноформализуемых явлений в неструктурированных данных. Ну вот не знаю, захотели вы находить в каком-то корпусе романов все места, где проблематизируется загрязнение окружающей среды, экология, уничтожение природы человеком… Раньше такое либо требовало обучать какой-то свой классификатор, перед этим измучив студентов разметкой (и классификатор потом все равно работал ужасно), либо решалось каким-то очень кривым костылем типа “а давайте искать абзацы, где высокая концентрация нашего костыльного списка слов, ассоциирующихся с экологическими проблемами“, либо воообще никак не решалось. Теперь такие задачки спокойно ставятся перед LLM с указанием 2-3 примеров — и решаются сравнительно неплохо (особенно если у вас есть немножко денег на токены для ллм-ных API).

Справочная при базе данных. Раньше даже если вы собрали какие-то данные, что-то формализовали, сложили, у вас получалась только база данных. Какая-то куча данных в машиночитаемой форме, к которой нужно писать запросы тем или иным формальным способом (SQL / парсинг и анализ данных в CSV/JSON/XML / взаимодействие с API… да хоть формулы и сводные таблички в эксель), что тоже стоит сил, времени и имеет некоторый порог входа. Сегодня вы можете подключить к вашей базе LLM-агента, у которого будут например ручки ходить в базу, вытаскивать оттуда данные и смотреть на них. Оказалось, это очень удобно, даже если умеешь задавать вопросы старым “формальным способом”. Спросить текстом что-то в духе “Что там с долей женских персонажей в немецкой драматургии 18 по 20 век в DraCor?” и получить готовый барплот📊 — очень приятно, даже если ты знал, как сделать это без LLM-агента.

А как у вас? Что поменяли LLM в вашей рабочей/научной/образовательной практике? Буду рад, если поделитесь в комментах.

P.S. Я не касаюсь здесь совсем уж хозяйственных задач вроде “ответить на письмо на плохо-знакомом тебе языке” и “нарисовать картинку к презентации”. Мне было интересно подумать именно про прямые рабочие задачи.
49👍13🔥8🤔3👎1😭1
LLM-интерфейс к гуманитарным данным: первые шаги

В прошлом посте упоминалась возможность подключить LLM к научной базе цифрогуманитарных данных. Сегодня чуть подробнее о том, как это работает — на примере данных корпуса драматических текстов DraCor (кратко писал о нем вот тут).

🎦На видео — небольшая демка. На ней я спрашиваю Claude, чё там как по репрезентации женщин в венгерской драматургии. Как можно увидеть, этот конкретный Клод делает не то, чего мы бы ожидали от обычной пользовательской LLM: т.е. он НЕ идет прочесывать в поисках ответа интернет и НЕ пытается сгенерировать правдоподобный ответ напрямую из своей нейронной утробы. Вместо этого Claude спрашивает, можно ли ему послать запросик в API DraCor-а.

🛠Это делается при помощи MCP-сервера — такого промежуточного кусочка кода, который позволяет выдать LLM инструкции и “ручки” для пользования любым программируемым инструментом. Это может быть ваш календарь, ваш почтовый ящик — или ваша база данных про пьесы 🙂

🧮Мы видим, как получив из DraCor список корпусов и затем табличку c метаданные по венгерскому корпусу (в которой есть, среди прочего, доля мужских и женских персонажей для каждой пьесы), Claude решает их агрегировать: посчитать суммы и пропорции персонажей-женщин и персонажей мужчин для всего корпуса, а также сделать разбивки по векам и по декадам. Для этого модель закидывает данные в единственный доступный ей в этом сетапе «компьютер» — браузерный джаваскрипт (“интерактивный артефакт” в окошке справа) — и там генерирует функции, которые эти самые вычисления произведут.

Что радует: итоговые цифры — общая сумма и доля женских персонажей, их распределение по декадам, доли отдельных пьесах, число пьес (3), где женщин таки больше мужчин, — я перепроверил вручную на данных DraCor без LLM. Они сходятся (см. скриншот 1 в комментах).

👎Что огорчает: хотя цифры справа действительно правдивые, слева Claude параллельно выдает обычный текстовый ответ — и в нем безбожно галлюцинирует. Можно увидеть, что и числа персонажей, и их соотношение, и число пьес, где женщин таки больше мужчин, там другие – и неверные. Они к тому же меняются от раза к разу.

Что пока плохо работает: некоторые ответы API дракора (для больших корпусов) не влезают в лимит Claude на 1 млн символов. Специально для LLM по такому случаю была сделана возможность получать данные по кусочкам (батчам), но модель редко догадывается этим воспользоваться, и даже когда догадывается — это не всегда решает проблему переполнения лимита. Возможно, для идеальной работы такой системы нужно запускать какую-то отдельную виртуальную машину с функциями аналитики данных, чтобы все данные крутились внутри неё, и давать Claude доступ уже к инструменту аналитики, а не просто к API с данными…

🔍В любом случае, легко могу представить, что такие LLM-интерфейсы в будущем сделают многие коллекции данных сильно доступнее для ученых, которые сами не программируют, но зато могут и способны задать к данным интересные вопросы
👍3615🔥8🆒1
Не цифровая, но тем более впечатляющая филологическая технология. На видео и фото — система доставки книг в Национальной библиотеке Франции. Мне кажется, так выглядел бы интернет, если бы цифровые технологии по каким-то причинам были невозможны — и мы рассылали бы TCP/IP пакеты в каком-то физическом виде… А еще это очень похоже на декорации к ранним «Звездным войнам» 👾

Сама библиотека под стать этой эстетике: циклопическое здание виде четырех открытых книг на общем стилобате, внутри напоминающее то ли звезду смерти, то ли атомную электростанцию. Но при этом посреди комплекса — кусок настоящего дикого леса 🌲🌳, причем запретного: ходить туда нельзя, только смотреть сверху 👀 В общем, удивительный памятник дизайна, инженерии и архитектуры конца 80-х — начала 90-х.
🔥59👾12👍8❤‍🔥4🤯32
«Культурный коллапс» ультраконсервативных LLM
(спойлер: как всегда, виноваты люди)

На этой неделе на конференции Computational Humanities Research 2025 в секции «Modeling Culture» будет доклад замечательного цифрового филолога Райана Хойзера (Ryan Heuser) под хлестким названием «Cultural Collapse: Toward a generative formalism for AI cultural production». Он продолжает серию исследований о том, почему LLM пишут такие скучные, шаблонные и старомодные стихи, как будто XX века не было. Но выводы выходят далеко за рамки поэзии и филологии. Я прочитал статью Хойзера и делюсь с вами основными результатами.

Что и как исследовали?

Хойзер генерировал англоязычные стихи в 9 моделях (в диапазоне от ChatGPT и Claude до Llama и OLMo) при помощи 22-х разных промтов. Часть промтов была в стиле «напиши стихотворение», без деталей. Другая часть просила написать стихи в рифму или в стиле какого-то традиционного автора (Шекспировский сонет). Третья часть (самая интересная) — просьбы написать стихи без рифмы, белым стихом или в стиле какого-то поэта XX века, писавшего без рифм. Суммарно было сгенерировано 15 тысяч стихотворений.

Что узнали?

1️⃣ LLM — гиперконсервативные поэты, они рифмуют даже там, где их явно просят этого не делать.

Сам тезис не нов — но в этой работе он подкреплен сравнением с реальными историческими данными. На простое «напиши стихи» модели рифмуют в 93–99% случаев — и это бОльшая доля рифмованной поэзии, чем в любом историческом периоде на реальных данных из корпуса английской и американской поэзии Chadwyck-Healey. При прямом запрете на рифму LLM всё равно рифмуют в 53% случаев. У некоторых моделей (Gemini Pro) — до 80%. ChatGPT при прямом запрете выдавала рифму только в 36% случаев, но зато полностью проваливалась на Уолте Уитмене. Уитмен не рифмовал, а ChatGPT «в стиле Уитмена» рифмует в половине случаев.

Еще модели очень много рифмуют, если просить их дописывать тексты настоящих стихов. Даже если это нерифмованная поэзия из второй половины XX века, когда в реальных стихах доля рифмы падает до 4%.

2️⃣ Консерватизм моделей НЕ объясняется обучающей выборкой

Хойзер исследовал обучающие данные открытых моделей с помощью инструмента «What's In My Big Data?» от Allen Institute, который позволяет заглянуть в эти гигантские корпуса и проверить, какие настоящие стихи там уже есть. Закрытые модели анализировали, заставляя их воспроизводить тексты стихов из разных коллекций. Результат в обоих случаях показал, что нерифмованных стихов в обучающих выборках для LLM так же много, как и в поэтических корпусах, взятых для сравнения. То есть модели видели много нерифмованной поэзии, но воспроизводить ее отказываются.

3️⃣Рифмо-мания появляется на этапе RLHF-дообучения

В исследовании сравнивались Llama 3.1 в её базовой версии, т.е. до этапа дообучения на пользовательском фидбеке, и Llama 3.1-instruct, т.е. после RLHF. И вот здесь разница оказалась огромной. При генерации «современной» поэзии базовая Llama рифмровала в 10% случаев, а «проинструктированная» (то есть по сути обученная решать задачи пользователя и всячески ему угождать) — в 60%. Видимо, именно на этом этапе элайнмента с человеком моделям «объяснили», что если человек хочет стихов — то надо писать в рифму.

***

☠️ Хойзер называет все это «культурным коллапсом» и предвещает, что по мере закольцовывания LLM на данных, сгенерированных другими LLM, эффект усилится и убьет всякое разнообразие художественных текстов, сделав литературный ландшафт будущего плоской пустыней.
22👍15🔥10😱3
P.S. Еще в этом исследовании есть странная часть про генерацию метаданных к стихам и анализ того, сколько белых, черных и цветных авторов породили LLM для (несуществующих) стихов разных лет, а также сколько мужчин и женщин. Моделям предложили «припомнить» якобы «утраченные» списки авторов за определенные годы и дать разбивку по гендеру и цвету кожи. Результат выглядел столь же политкорректно, сколь и нереалистично: 50% белых авторов для периода, где их в реальности было 95%, 75% авторок-женщин для периода, где в реальности было 25%...

Хойзер тут очень возмущается, что, мол, модели занимаются «ревизионизмом» и «идеализацией исторических данных», rather than reproducing historical biases. Но в этом месте мне становится немного смешно, потому что, ну, ребята, а вы разве не за это всю дорогу боролись в своей левацкой западной академии? Так вот же, пожалуйста, лоботомированные политически верным RLHF-ом модельки наконец-то отринули весь ненавистный вам algorithmic bias… А вы все недовольны 😁
23🤣23🤡8👍7🔥1🤯1
5 литературных датасетов и дата-исследований на них
(подборка к 120-летию Пушкинского дома)

Открытые данные в гуманитарных науках — по-прежнему редкость (я как-то делал тут подборку источников и с трудом наскреб 5 штук). И еще более редки датасеты, связанные с русской литературой, историей и культурой. Тем ценнее, что есть источник, который неизменно поставляет нам именно такие данные из года в год, — Репозиторий открытых данных по русской литературе и фольклору от коллег из Цифровой лаборатории ПушДома (ИРЛ РАН). И поскольку на этой неделе мы празднуем 120 лет всего ПушДома, я сделал подборку из 5 датасетов репозитория, субъективно отобрав из них те, что связаны с большими и красивыми исследованиями:

1️⃣ Код и данные для воспроизведения исследования: «Сто лет счастья в детской литературе (1920—2020): сталинский канон и его долгосрочные последствия». Этот датасет — часть замечательного исследования филолога и антрополога К.А. Маслинского о том, как «счастье» в текстах сталинской эпохи перестало быть личным и превратилось в чувство «государственной важности», обязательное для лояльного гражданина СССР. В датасете есть код, размеченные руками примеры употребления слова в разных значениях, а также векторные модели, в которых видна трансформация контекстов слов «счастье» и «счастливый».

2️⃣ Корпус русской прозы для детей и юношества — так называемый «деткорпус», на базе которого производилось предыдущее исследование и много других, не менее интересных (например, про то, какие животные встречаются в каких жанрах детской литературы; кстати к нему тоже есть данные и код для воспроизведения). Сейчас в постоянно растущем «деткорпусе» — почти 3500 текстов, написанных для детей и подростков с конца XIX по начало XXI века.

3️⃣ Корпус русских элегий 1815—1835 гг. Поэты пушкинской эпохи — первое поколение русских «эмо», для них элегия с жалобами на несчастную судьбу, любовь и рано отцветшую юность — важнейший жанр. Филолог Антонина Мартыненко собрала для своей магистерской работы корпус элегий (всего 509, с точной датировкой — 390) и исследовала его цифровыми методами. Показав, например, что на фоне прочей поэзии для элегий характерны биграммы «юные годы», «слезы лить» и «последний раз» 🥲

4️⃣ Корпус нарративной прозы XIX в. Сопоставимый по числу текстов, но на два порядка бОльший по объему, этот корпус содержит 506 текстов русской прозы (романы и повести) в диапазоне от 1814 года до начала XX века. Тут есть и «великие» (Пушкин-Лермонтов-Гоголь-Толстой-Достоевский), и забытые представители русского «великого непрочитанного», романы которых сегодня никто не знает. Когда-то этот корпус был собран филологом и специалистом по культурной эволюции Олегом Собчуком, который исследовал на нем повышение доли диалогов в русском романе. С тех пор корпус остается полезным ресурсом для всех, кому надо быстро найти приличный объем русской прозы XIX века (лично я его тоже использовал в исследовании про географию прозы).

5️⃣ Стилеметрические данные «Тихого Дона» и современной ему прозы. Ну, эту историю со стилометрией вы уже знаете. Филологи Б.В. Орехов и Н.П. Великанова посмотрели на «Тихий Дон», сравнили с текстами usual suspects (Крюков, Севский-Краснушкин, Серафимович) и не нашли ничего сенсационного. И, как я уже писал по этому случаю, исследование можно воспроизвести — как раз благодаря тому, что данные лежат в репозитории ПушДома. За что ему большое спасибо 🙏
🔥31👏1513👍5👨‍💻2
Как работает количественное определение авторства, и неужели авторский сигнал действительно вычленим из простых частотностей слов? Я не один раз рассказывал тут о стилометрии, но каждый раз это приводило к новой волне вопросов 🙂 В этом декабре я прочел очередную научпоп-лекцию (кстати, на том же самом семинаре «Языки психиатрии», где мы год назад разоблачали Коробкову вместе с Александрой Архиповой), в которой попытался сформулировать суть метода через максимально простые “минимальные” примеры. Это для тех, кому вдруг нечего послушать предновогодними вечерами 😁

🎥 Видео: https://www.youtube.com/watch?v=Oi6zoQ3apY0

🧑‍🏫 Слайды: https://slides.com/danilsko/stylo_psy

С наступающим, а празднующих сегодня Рождество — с Рождеством!🎄
35🔥19👍13
Как нам жить и работать в ситуации постоянного соблазна делегировать интеллектуальный труд машине и не выродиться до безмозглой протоплазмы? Что делать со всеми теми типами работы, которые как будто совсем потеряли смысл с момента, когда их научилась выполнять LLM (написание отчетности, например)? Что значит творчество в мире, где машина имеет больше творческих способностей, чем подавляющее большинство людей?

A lot of work is time-consuming by design. In a world in which the AI gives an instant, pretty good, near universally accessible shortcut, we’ll soon face a crisis of meaning in creative work of all kinds.


Это цитата из книжки Co-Intelligence Итана Моллика, где как раз ставятся подобные вопросы и ищутся на них ответы. Я прочитал книжку (глазами, без LLM) — и немножко пересказал для “Гуманитариев в цифре”:
14👍5👨‍💻4👾1
🙂Продолжаем рубрику #прочиталсоветую

📖 Открываем новые книги по советам коллег, читаем в новом году.

Ethan Mollick
“Co-Intelligence: Living and Working with AI”
(Portfolio, 2024).

Как следует из названия, книжка осмысляет совместную работу человека с ИИ. Это не очередной алармистский манифест в духе «ИИ заменит всех», а попытка прощупать сценарии того, как именно люди и ИИ будут работать вместе. Автор, Итан Моллик, — профессор бизнес-школы, то есть хоть и вдумчивый, но всё-таки практик. Этим и ценна книжка: в ней много экспериментов самого автора (в том числе таких, которые поначалу могут застать читателя слегка врасплох), его совместных опытов со студентами, а еще текст этой книжки (иногда прямо, еще чаще косвенно) побуждает читателя попробовать осуществить что-то с участием LLM самому. Мне кажется, это особенно важно, потому что, на мой взгляд, в гуманитарной академии (даже в её дигитальной части!) мы часто недостаточно пропускаем технологию через пальцы, прежде чем начать о ней с умным видом рассуждать. Мы можем с умным видом болтать про фундаментальные ограничения, галлюцинации моделей, alignment и длину контекстного окна, даже если в реальной жизни используем ИИ в 2-3 предельно примитивных и шаблонизированных сценариях… Книга Моллика провоцирует поработать над собой, попробовать соорудить в коллаборации с ИИ что-то более амбициозное (меня, по крайней мере, спровоцировала), и уже этим полезна. 

Eще приятно, что книжка маленькая и читается быстро. При этом если вы интересовались темой и имеете какие-то представления о базовых принципах работы современных LLM, что-то про них читали, то вам будут встречаться разделы или даже целые главы, которые можно без ущерба пропустить. Особенно это касается глав 1, 2 и 4 — многое оттуда уже стало общим местом. Зато я бы точно не стал пропускать главу 6, где собственно и говорится о коллаборации с ИИ, об эффекте на рынок труда, о пределах замещения человека на его рабочем месте и о том, что вообще делать со скучающими работниками. Тейк Моллика — что ключевой навык будущего это не какой-нибудь там “промт-инжиниринг”, а умение правильно распределять ответственность между человеком и машиной. Не менее ценны и главы 7 и 8 об образовании в эпоху ИИ. Здесь про смерть индустриальной модели образования, про риски делегирования мышления и про то, как мог бы быть устроен дизайн образования для мира, в котором ИИ уже везде. В главе 9 описаны любопытные сценарии будущего, а в конце у книги очень гуманистический эпилог. Закончу цитатой из него:

«There is a sense of poetic irony in the fact that as we move toward a future characterized by greater technological sophistication, we find ourselves contemplating deeply human questions about identity, purpose, and connection. To that extent, AI is a mirror, reflecting back at us our best and worst qualities. We are going to decide on its implications, and those choices will shape what AI actually does for, and to, humanity». 

Даниил Скоринкин, цифровой филолог, главный редактор «Системного блока» 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍11🔥5👏3
Итоги года цифрового филолога Дани Скоринкина🎄

Замечательная цифровая платоноведка Оля Алиева передала мне эстафету итогов года, а такому человеку не откажешь. Итак, мои итоги:

Слово года: генерёнка 🤖 В каком-то англоязычном топе победил слоп, но слово слоп противное, оно хлюпает как сопли/слизь, а вот генерёнка — хорошее. Как будто сгущёнка или тушёнка. То есть да, промышленно произведённое, да, не очень здоровое, да, переработанное… но ведь питание! И притом выручающее в экстремальных условиях. Так и мы. Генерируем себе то, на что не хватает органического ресурса мозга в этом безумном темпе жизни, тем и спасаемся, тем и живы. Тушёнкой, сгущёнкой да генерёнкой. (но, кстати, вы, дорогие читатели, исключение: тут я пишу тексты исключительно по старинке, пальцами рук; pure organic product 🌱).

Город года: Алматы 🇰🇿🥰 Еще один центр силы за пределами РФ, где я мог бы вообразить свою жизнь вдолгую. О этот горизонт из гор! О эти широкие зеленые проспекты! О заросшие дикой вишней или яблоней дворы пятиэтажек! О панельки с национальными орнаментами! О позднесоветские модернистские высотные параллелепипеды в центре! О эти вайбы и понты быстрорастущей Москвы поздних нулевых!.. What’s not to like?

Инструмент года: тут все банально: VS Code 🧑‍💻(я только-только в этом году переполз писать код в IDE, а не где-то в случайных блокнотах) с автодописыванием кода от какой-то LLM (я пока настолько лох, что до сих пор не понял, кто именно там его дописывает.. там стоят Copilot и Codex, и хрен его поймешь, кто из них дописывает мой код и что именно они вызывают; но работает как магия).

Спорт года: дзюдо🥋 Хожу с ноября 2024 и до сих пор (с летним перерывом). Если вы раньше пробовали только бесконтактные/игровые виды спорта, то очень рекомендую что-то контактное. Первые разы прямо радикально новые ощущения: не просто преодолевать себя, а открывать в себе неразведанные запасы энергии, которые выбрасывает внезапно включившийся инстинкт самосохранения… 😅

Осознание года: наука — это шире, чем просто добыча знаний на пользу обществу. Наука — неизбежный плод развития разума🍏 Как сказал цифровой филолог Борис Ярхо еще в 1930-е, «наука существует не для чего, а почему». Потому что разумные люди нуждаются в том, чтобы сознавать себя и мир. Наука, даже если она будет автоматизирована, никуда не денется. И конечным потребителем знания будет человек, покуда существует человек как разумное существо.

В мире, где всё постоянно меняется, существование науки как института, сообщества и культурного явления стало для меня фундаментальной константой. На первом, персональном уровне меня стабилизирует семья (мой личный дом), на втором, профессиональном — наука (наш общий дом). За науку, котаны!🥂 За p-value и доверительный интервал!

🎄 Всех с наступающим! Вне зависимости от того, где и кем вы работаете, пусть ваш научный поиск будет успешным в 2026-м 🔭💫

Передаю эстафету Маше @ruscorpora_is_fun и Борису Валерьевичу @schonenrede
57🎄29❤‍🔥5🔥3👏2👍1🍾1
Молчание как метод: что говорит киношная Анна Каренина, когда она молчит 🤐🎬📊

Этой зимой нам всем «под елочку» среди прочего положили новый номер «Цифровых гуманитарных исследований» — журнала, твёрдо входящего в «большую единицу» (sic!) журналов по Digital Humanities в России. Номер вышел в декабре, и на новогодних каникулах я до него добрался😋

Там много любопытного: и про эмоциональную окраску русской драматургии (с линейными графиками для комедий и трагедий 📈📉) на данных из dracor.org, и про связывание музейных метаданных , и даже про то, как «академические племена» цифровых гуманитариев развились и построили феодализм эпистемическое сообщество.

Но самой интересной мне показалась статья Елизаветы Сенаторовой, где сравниваются две «Анны Каренины» — роман Льва Толстого 😎 и экранизация Александра Зархи. Сенаторова выгрузила реплики персонажей из текста и субтитров — и изучила, где кино вдруг замолкает и как это связано с текстом книги.

Почти все немые сцены связаны с Анной. Вокзал, театр, бессмысленный отъезд с Вронским в Италию, ну и, наконец, ночь перед самоубийством. Кроме меметично-автобиографической сцены покоса с Левиным-Толстым, все молчаливые сцены у Зархи — это молчащая одинокая Каренина. Как предполагает Елизавета Сенаторова (ссылаясь среди прочего на анализ Анны Карениной от Виктора Шкловского), экранизация романа здесь

транслирует идею одиночества Карениной, которая оказывается в безвыходном положении и не знает, к кому обратиться за помощью и с кем, что важно, поговорить («Она должна прийти к тем людям, которых она считает врагами. Она одинока» [Шкловский 1981, с. 119]).


Дальше в статье еще есть тематическое моделирование и прочие изыски. Но мне в работе дорог именно вот этот очень простой, но тем не менее научно продуктивный метод поиска и анализа пауз в фильме — и их наложение на сюжет и смыслы романа Толстого. Короче, очень симпатичная по своему исследовательскому дизайну работа на стыке литературоведения, кино и Digital Humanities!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3422👍9💔3