НКРЯ Национальный корпус русского языка
1.81K subscribers
83 photos
35 videos
167 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса https://ruscorpora.ru
Download Telegram
В текстах какой тематики «‎истина»‌‎ встречается в Основном корпусе реже, чем «‌‎прогресс»‌‎?
Anonymous Quiz
45%
политология
19%
астрология, парапсихология, эзотерика
15%
логика
21%
философия
👍4
В текстах какого автора, представленного в корпусе «‎Русская классика»,‎ «‎пироги»‎ встречаются чаще, чем «‎булки»‎ и «‎хлеб»‎?
Anonymous Quiz
43%
Н. В. Гоголь
24%
И. А. Крылов
33%
М. Е. Салтыков-Щедрин
👍42
В СМИ какого региона России (по данным корпуса Региональных СМИ) «‎инвестиции»‎ встречаются чаще, чем «‎урожай»‎?
Anonymous Quiz
31%
Камчатский край
13%
Амурская область
56%
Санкт-Петербург
👍4🤩1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.

Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.

Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «‎От 2 до 15» и «‎Русская классика»‎.

Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
15👍8🔥5
6 июня отмечается День русского языка. В этот день родился А.С. Пушкин, чьи произведения оказали значительное влияние на формирование современного русского литературного языка.

А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!

Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
🎉1610
Когда слово «‎компьютер»‎ обогнало по частотности «‎ЭВМ»‎?
Anonymous Quiz
5%
1970-е гг.
40%
1980-е гг.
55%
2000-е гг.
Когда «телевизор» окончательно обогнал «радио» по частотности упоминаний в письменных текстах?
Anonymous Quiz
3%
1940-е гг.
47%
1960-е гг.
50%
1980-е гг.
🤔3🔥1
Нам часто задают вопросы: Почему слова нет в корпусе? Почему в корпусе есть ошибки? Если в корпусе так написано, значит, так правильно говорить? Иногда пользователи ошибочно интерпретируют данные корпуса. Мы решили разобрать наиболее частотные вопросы и заблуждения.
50👍18🔥11
Команда разработчиков НКРЯ завершила очередной этап масштабной работы по совершенствованию лингвистической разметки Основного корпуса.

Основные улучшения:
• Повышено качество лемматизации слов. Среди прочего устранена массовая ошибка в определении словарных форм существительных, оканчивающихся на -лец и -сец. Например, ранее словам живописец, пришелец приписывались некорректные леммы «живописц» и «пришельц». Теперь лемматизация таких слов выполняется правильно.

• Автоматические морфемные разборы для слов, отсутствующих в словаре, теперь генерируются не алгоритмом на базе ансамбля свёрточных нейронных сетей, а дообученной моделью RuRoberta. Вследствие улучшения морфемной разметки улучшилось и качество определения однокоренных слов, например, для таких слов как ‎офис‎ и ‎аварийность‎.

Для пользователей это обновление означает более точные результаты поиска по грамматическим параметрам и улучшение работы корпусных инструментов анализа выдачи.

Обновленная разметка, охватившая почти 2 млн слов Основного корпуса, выполнена современными методами машинного обучения с привлечением экспертов-лингвистов для контроля качества. Несмотря на проделанную работу, в корпусе всё ещё может сохраняться небольшое количество ошибок разметки. Просим вас сообщать о найденных неточностях при помощи кнопки «Сообщить об ошибке» — мы исправим их при следующем обновлении.
22👍15🔥8
Обучающий корпус пополнен почти на 1 млн словоупотреблений. В корпус добавлена коллекция научно-популярных и учебно-научных текстов: три словаря из популярной серии энциклопедических словарей, предназначенных для среднего и старшего школьного возраста (словари юного филолога, литературоведа, художника), широко известные научно-популярные издания по русскому языку и литературе.

Пополнение увеличит долю научных текстов, обогатит лексику терминологией из области гуманитарных наук, расширит информацию по истории языка и предоставит материал для составления упражнений и творческих заданий по русскому языку и литературе.

Вторая часть пополнения – тексты детской литературы, в том числе рекомендуемые для внеклассного чтения. В коллекцию вошли рассказы и повести для детей и подростков В. Инбер, Т. Александровой, Ю. Томина, А. Усачева и современных молодых авторов С. Востокова, А. Игнатовой, Ю. Кузнецовой, А. Никольской, Д. Сиротина.
Работы по пополнению Обучающего корпуса в 2024–2025 гг. поддержаны благотворительным фондом содействия образованию «ДАР».

В Обучающем корпусе появился поиск по словообразованию, то есть поиск морфем (приставок, корней, суффиксов) в составе слова. В карточке слова доступен словообразовательный разбор.
🔥21🥰54🎉2🏆2👍1
Media is too big
VIEW IN TELEGRAM
В Портрете слова в разделе Сравнение скетчей теперь можно добавлять новые слова прямо на странице сравнения, не возвращаясь в Портрет слова. Поисковые поля расположены вверху страницы над сравнительными таблицами.

Функционал доступен полностью только авторизованным пользователям. Неавторизованные пользователи могут просматривать готовые сравнения, однако для самостоятельного сравнения слов потребуется вход в систему.
🔥18🤩2🏆1
В феврале мы сообщали о появлении в Портрете слова нового виджета «Толкования» для 5,5 тысяч слов. Теперь в Портрете слова Основного корпуса доступны автоматически сгенерированные определения для примерно 96 тысяч слов, что значительно расширяет справочные возможности сервиса. Толкования охватывают существительные, прилагательные, глаголы и наречия, представленные в корпусе.

Толкования доступны как для общеупотребительных слов, так и для неологизмов — например, кидалт и байопик. При создании определений мы руководствовались четырьмя принципами: корректность (соответствие действительности), доступность для понимания учащимися средней школы, грамотность с точки зрения русского языка и неизбыточность формулировок.

Эксперименты по генерации толкований проведены при поддержке Центра технологий для общества Yandex Cloud. В настоящее время функционал доступен в режиме бета-тестирования для авторизованных пользователей. Приглашаем вас оставлять обратную связь с помощью кнопки «Оценить» — это поможет нам совершенствовать качество толкований.
20🔥4
Знаете ли вы, что слова живут своей социальной жизнью? Как люди, они выбирают себе компанию и меняют круг общения в зависимости от эпохи. То, что было актуально в пушкинские времена, сегодня может звучать совершенно по-другому.

Представьте: в XIX веке одно и то же слово «дружило» с одними соседями, а в XXI веке обзавелось совершенно новыми спутниками. Эти семантические метаморфозы — настоящий детектив для лингвистов!

Мария Подрядчикова вместе с коллегами из «Системного Блока» заглянула в архивы Национального корпуса русского языка и проследила удивительные превращения. Пройдите тест и узнайте, как менялось значение слов на протяжении веков.
30👍6🔥4
Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!

На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!

На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.

Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.
🏆14🔥11👏3👍1🥰1