INVENTORUS
983 subscribers
211 photos
9 videos
109 links
INVENTORUS — интеллектуальная платформа для научной аналитики и ускорения исследований.

https://inventorus.ru — Сокращаем путь к инновациям!
Download Telegram
Поиск: непохожие пути к похожим результатам. Часть4️⃣ — Речевая разметка и выделение сущностей

Прошедшие недели были насыщены событиями, но сегодня мы хотим вернуться к теме эволюции поисковых систем и завершить вступление в эру обработки естественного языка.

Со временем стало очевидным, что просто сегментировать текст недостаточно, так как сегментация позволяет проанализировать только структуру предложения, но не дает представления о роли каждого слова в нём.

Решить эту проблему помогла речевая разметка или разметка частей речи (англ. Part of Speech Tagging, PoS) — способ классификации списков слов как существительных, глаголов, прилагательных и т. д. для более точной обработки запроса.

Иногда в качестве меток присваиваются дополнительные грамматические характеристики — падеж, число, время и т.п., при этом сначала текст сегментируется и анализируется его контекст.

Схожей функцией обладает процесс извлечения сущностей (англ. Named Entity Recognition, NER): из текста выделяются конкретные объекты или сущности, имеющие определённое значение, такие как имена людей, названия организаций, местоположения, даты, числа и т.д.

➡️ Извлечение сущностей (NER) на шаг впереди простой речевой разметки (PoS), поскольку вносит конкретику: если PoS говорит, что слово — существительное, то NER уточняет, что это за существительное (человек, место или что-то ещё). Это особенно важно для обработки голосовых запросов.

В русском языке извлечение сущностей достаточно трудоёмко из-за наличия склонений и многозначных слов. Примеры, как работает каждый из рассмотренных подходов — по традиции, в карточках 📎

🗺 Анонс со ссылками на все части, предыдущая часть — здесь

#интересное #полезное #поиск #NLP #PoS #NER
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1788🎉1🤩1