Поиск: непохожие пути к похожим результатам. Часть4️⃣ — Речевая разметка и выделение сущностей
Прошедшие недели были насыщены событиями, но сегодня мы хотим вернуться к теме эволюции поисковых систем и завершить вступление в эру обработки естественного языка.
Со временем стало очевидным, что просто сегментировать текст недостаточно, так как сегментация позволяет проанализировать только структуру предложения, но не дает представления о роли каждого слова в нём.
Решить эту проблему помогла речевая разметка или разметка частей речи (англ. Part of Speech Tagging, PoS) — способ классификации списков слов как существительных, глаголов, прилагательных и т. д. для более точной обработки запроса.
⚡ Иногда в качестве меток присваиваются дополнительные грамматические характеристики — падеж, число, время и т.п., при этом сначала текст сегментируется и анализируется его контекст.
Схожей функцией обладает процесс извлечения сущностей (англ. Named Entity Recognition, NER): из текста выделяются конкретные объекты или сущности, имеющие определённое значение, такие как имена людей, названия организаций, местоположения, даты, числа и т.д.
➡️ Извлечение сущностей (NER) на шаг впереди простой речевой разметки (PoS), поскольку вносит конкретику: если PoS говорит, что слово — существительное, то NER уточняет, что это за существительное (человек, место или что-то ещё). Это особенно важно для обработки голосовых запросов.
В русском языке извлечение сущностей достаточно трудоёмко из-за наличия склонений и многозначных слов. Примеры, как работает каждый из рассмотренных подходов — по традиции, в карточках📎
🗺 Анонс со ссылками на все части, предыдущая часть — здесь
#интересное #полезное #поиск #NLP #PoS #NER
Прошедшие недели были насыщены событиями, но сегодня мы хотим вернуться к теме эволюции поисковых систем и завершить вступление в эру обработки естественного языка.
Со временем стало очевидным, что просто сегментировать текст недостаточно, так как сегментация позволяет проанализировать только структуру предложения, но не дает представления о роли каждого слова в нём.
Решить эту проблему помогла речевая разметка или разметка частей речи (англ. Part of Speech Tagging, PoS) — способ классификации списков слов как существительных, глаголов, прилагательных и т. д. для более точной обработки запроса.
Схожей функцией обладает процесс извлечения сущностей (англ. Named Entity Recognition, NER): из текста выделяются конкретные объекты или сущности, имеющие определённое значение, такие как имена людей, названия организаций, местоположения, даты, числа и т.д.
В русском языке извлечение сущностей достаточно трудоёмко из-за наличия склонений и многозначных слов. Примеры, как работает каждый из рассмотренных подходов — по традиции, в карточках
#интересное #полезное #поиск #NLP #PoS #NER
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17⚡8 8🎉1🤩1