Поиск: непохожие пути к похожим результатам. Часть 1️⃣ — Ключевые слова
📌 Как и обещали, начинаем интересный рассказ о методах поиска информации. Сегодня заглянем в прошлое и познакомимся с базой, на которой выросли современные подходы к поиску. Главные выводы — в карточках.
Самый первый и самый простой вид поиска — поиск по ключевым словам. В основе подхода — присвоение индексов всем словам во всех документах и выдача результата на основе простых алгоритмов сопоставления.
Минус подхода в том, что выдаются все найденные совпадения, вне зависимости от того, насколько они действительно подходят под запрос (привет омонимам!). При этом результаты с синонимичными выражениями, напротив, будут скрыты🚫
Ранжировать результаты и повысить релевантность в этом случае возможно за счет введения статистики слов, например, TF-IDF и BM25. Такой поиск называется статистическим и рассматривает обратную частоту слова в документе (анг. Inverse Document Frequency, IDF) по сравнению с частотой термина слова (англ. Term Frequency, TF), чтобы определить его важность. Частота термина может использоваться в качестве показателя, насколько важен или актуален документ.
➡️ Статистика на основе частоты примитивна и полагается на точные совпадения. Несмотря на то, что это простой и быстрореализуемый способ, его эффективное использование возможно только при:
🔷 создании библиотек синонимов
🔷 добавления правил
🔷 использования дополнительных метаданных или ключевых слов
🔷 применении других путей обхода ограничений
В противном случае возникает несоответствие результата поиска исходному запросу, поскольку может быть не учтено единственное и множественное число слова, составные слова и другие сложные случаи.
Анонс, в котором будем прикреплять ссылки на опубликованные посты из этой серии📎
#интересное #полезное #поиск #keywords
Самый первый и самый простой вид поиска — поиск по ключевым словам. В основе подхода — присвоение индексов всем словам во всех документах и выдача результата на основе простых алгоритмов сопоставления.
Минус подхода в том, что выдаются все найденные совпадения, вне зависимости от того, насколько они действительно подходят под запрос (привет омонимам!). При этом результаты с синонимичными выражениями, напротив, будут скрыты
Ранжировать результаты и повысить релевантность в этом случае возможно за счет введения статистики слов, например, TF-IDF и BM25. Такой поиск называется статистическим и рассматривает обратную частоту слова в документе (анг. Inverse Document Frequency, IDF) по сравнению с частотой термина слова (англ. Term Frequency, TF), чтобы определить его важность. Частота термина может использоваться в качестве показателя, насколько важен или актуален документ.
В противном случае возникает несоответствие результата поиска исходному запросу, поскольку может быть не учтено единственное и множественное число слова, составные слова и другие сложные случаи.
Анонс, в котором будем прикреплять ссылки на опубликованные посты из этой серии
#интересное #полезное #поиск #keywords
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍13👌10😢1🤩1