INVENTORUS
983 subscribers
211 photos
9 videos
109 links
INVENTORUS — интеллектуальная платформа для научной аналитики и ускорения исследований.

https://inventorus.ru — Сокращаем путь к инновациям!
Download Telegram
Друзья, если вы искали источник вдохновения и свежих идей в области работы с научно-технической информацией, ваш поиск окончен!

📊Весь прошлый год в нашем TG-канале мы знакомили вас с новостями о достижениях INVENTORUS, нашими разработками, отчетами об участии в деловых мероприятиях.

Переосмысление нашего пути, от истоков до сегодняшнего дня, помогло нам не только сформулировать новые стратегические бизнес-цели, но и осознать — мы готовы давать вам больше ценной информации!

Этот год мы объявляем годом становления цифровой экосистемы INVENTORUS, основным голосом которой станет наш ТГ-канал! Теперь здесь вы найдете больше значимых новостей индустрии, экспертных мнений, уникальных инсайтов, кейсов применения инструментов INVENTORUS в реальных проектах.

Для быстрого поиска материалов в TG-канале используйте рубрики⬇️:

#о_компании — здесь вы можете ознакомиться с историей INVENTORUS, продуктами нашей экосистемы и командой, воплощающей инновации в жизнь

#эксперты_INVENTORUS — новости и события из разных отраслей науки с комментариями экспертов, авторские колонки специалистов INVENTORUS

#полезное #интересное — делимся рекомендациями по работе с НТИ, а также редкими фактами из мира науки и технологий

#функционал — важная рубрика, рассказывающая об инструментах и решениях INVENTORUS

#кейс — реальные задачи науки и бизнеса, решенные с помощью INVENTORUS

#ESG — рассказываем о наших принципах работы, а также делимся новостями отечественной и мировой ESG-повестки

#INVENTORUS_в_профсообществе — о нашем сотрудничестве с профессиональными организациями, союзами и объединениями


™️ INVENTORUS — это компания единомышленников, визионеров и специалистов из различных областей знаний. Наша миссия — способствовать развитию и продвижению высокотехнологичных решений, которые приносят пользу обществу и ускоряют научно-технический прогресс.

🔈Подписывайтесь на наш ТГ-канал и оставайтесь с нами, чтобы всегда быть в курсе самых актуальных событий в сфере научно-технической информации. Следите за нашими новостями о применении искусственного интеллекта в области исследований, разработок и управления интеллектуальной собственностью.
Обещаем, будет интересно!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤‍🔥7👍5🤝32👌1
Та «самая боль» дизайнеров: зачем нужны генераторы текста, и как они упрощают жизнь?

💡Суббота — идеальное время для новых открытий, и мы подготовили для вас нечто любопытное и, надеемся, полезное.

Каждый, кто хоть раз создавал макет сайта, дизайн или тестировал приложение, сталкивался с шаблонным текстом вроде lorem ipsum. Но знаете ли вы, что это не просто случайный набор слов? На самом деле, это часть фразы из трактата Цицерона «О границах добра и зла», написанного еще в 45 г. до н.э.

В 1914 году издательство Loeb Classical Library выпустило в свет трактат с характерным переносом: 34-я страница книги заканчивалась фрагментом «do-», а 35-я начиналась с «lorem ipsum». Так волею случая часть фразы «dolorem ipsum», означающая «самая боль», обрела свою «укороченную» форму.


А вот популярность фрагмент приобрел в 1985 году, когда в состав корпорации Adobe Systems вошла Aldus PageMaker и была представлена их одноименная издательская программа, ставшая флагманской.

🔍Так зачем вообще нужны такие шаблонные тексты, и как они могут упростить работу дизайнерам и разработчикам? С ними вы сможете быстрее создавать и тестировать интерфейсы: нейтральный текст не отвлекает от дизайна и позволяет сосредоточиться на визуальной структуре.

Нужно больше, чем просто «рыба»? Современные генераторы текста помогут создать нужный объем шаблонного контента за пару кликов. Мы собрали для вас короткий обзор — подробности в нашем Телеграфе!

📌Интересный факт: Lorem Ipsum это один из ярких примеров панграммы — короткого текста, использующего все или почти все буквы алфавита без повторений или с минимальным повторением.

В русском языке такой панграммой служит знаменитое «Съешь еще этих мягких французских булок, да выпей же чаю». А в английском языке это — The quick brown fox jumps over the lazy dog.

#полезное #интересное
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤‍🔥98👌2
🧩 Как базы данных невидимо защищают от кражи?

Каждый хотя бы один раз в жизни встречал на сайтах кнопки «Показать еще» или «Следующая страница» — их можно встретить как в привычном браузере или сайтах маркетплейсов, так и на страницах научных журналов и патентных агрегаторов (например, Google Patents). Такую нумерацию страниц внутри веб-ресурса принято называть пагинацией.

Пагинация (pagination, от лат. pagina — страница) призвана повышать удобство и упрощать поиск конкретного объекта внутри огромного каталога различного контента — от товаров интернет-магазина до статей.

Классическая пагинация представляет собой постраничную навигацию с ограниченным диапазоном (например, отображается только 5-10 просматриваемых страниц). В нее также встроены кнопки «назад», «вперед», «в начало», «в конец».

Помимо улучшения навигации, такой подход позволяет странице быстрее загружаться, что повышает комфорт пользователя.

Неожиданное свойство пагинации, которое обычно не упоминается при объяснении этого термина — своеобразная защита данных. Механизм, предполагающий выгрузку ответа на запрос по частям, а не целиком, усложняет процедуру скачивания результатов поиска: на странице нельзя выделить «все», поскольку показана лишь малая часть от этого «всего».

Даже «скачивание по одной страничке» не будет иметь достаточной результативности, поскольку обычно крупные поисковые системы предоставляют не больше тысячи результатов по одному запросу, а эффективный лимит для парсинга (т.е. автоматического извлечения данных) при этом составляет 300-500 результатов (при объемах баз данных в миллионы объектов).

Таким образом, прием пагинации совмещает в себе как первоначальную функцию структурирования данных и налаживания навигации, так и несложный защитный механизм.

#интересное #полезное
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍14❤‍🔥12👌5😁2🙏1
📁 Международный день резервного копирования — береги данные с первого байта!

Равно как честь стоит беречь смолоду, в мире нескончаемых потоков информации актуально защищать данные.

Вспоминая извечное «Флешки теряются, облачный диск — вечен!» одного опытного преподавателя, обращенное к студентам-новичкам, подтверждаем, что резервное копирование — полезная привычка, которую стоит взять на вооружение каждому.

Что такое бэкап и почему полезно его иметь — в праздничном выпуске нашего Телеграфа!

#полезное #данные
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🎉9🔥8👨‍💻3🤯1💯1
Потерял — не сказывай, нашел — не показывай!

Наверное, так мог бы звучать девиз плохой поисковой системы 😉

Очевидно, что вместе с появлением глобальной информационной сети возникла острая необходимость в эффективном поиске внутри нее какой-либо информации 🔍

Сегодня технологии настолько продвинулись, что поиск вышел за рамки использования простых алгоритмов сопоставления на новый уровень: теперь системы понимают и додумывают запросы для подбора результатов точно в цель.

Как развивались поисковые системы?
По каким алгоритмам определяется релевантность результатов?
В чём специфика поиска научно-технической информации?

Ответы на эти и другие вопросы — в серии постов «Поиск: непохожие пути к похожим результатам», которую опубликуем в ближайшие дни.

Бонус: покажем, как устроен поиск на платформе ™️ INVENTORUS

Часть 1️⃣ Ключевые слова
Часть 2️⃣ Стемминг и лемматизация
Часть 3️⃣ Сегментация текста
Часть 4️⃣ Речевая разметка и выделение сущностей
Часть 5️⃣ Онтология и графы знаний
Часть 6️⃣ Автозаполнение и рейтинг ИИ

#интересное #полезное #поиск
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🤩9🙏9🔥6❤‍🔥4
Поиск: непохожие пути к похожим результатам. Часть 1️⃣ — Ключевые слова

📌 Как и обещали, начинаем интересный рассказ о методах поиска информации. Сегодня заглянем в прошлое и познакомимся с базой, на которой выросли современные подходы к поиску. Главные выводы — в карточках.

Самый первый и самый простой вид поиска — поиск по ключевым словам. В основе подхода — присвоение индексов всем словам во всех документах и выдача результата на основе простых алгоритмов сопоставления.

Минус подхода в том, что выдаются все найденные совпадения, вне зависимости от того, насколько они действительно подходят под запрос (привет омонимам!). При этом результаты с синонимичными выражениями, напротив, будут скрыты 🚫

Ранжировать результаты и повысить релевантность в этом случае возможно за счет введения статистики слов, например, TF-IDF и BM25. Такой поиск называется статистическим и рассматривает обратную частоту слова в документе (анг. Inverse Document Frequency, IDF) по сравнению с частотой термина слова (англ. Term Frequency, TF), чтобы определить его важность. Частота термина может использоваться в качестве показателя, насколько важен или актуален документ.

➡️ Статистика на основе частоты примитивна и полагается на точные совпадения. Несмотря на то, что это простой и быстрореализуемый способ, его эффективное использование возможно только при:

🔷создании библиотек синонимов
🔷добавления правил
🔷использования дополнительных метаданных или ключевых слов
🔷применении других путей обхода ограничений

В противном случае возникает несоответствие результата поиска исходному запросу, поскольку может быть не учтено единственное и множественное число слова, составные слова и другие сложные случаи.

Анонс, в котором будем прикреплять ссылки на опубликованные посты из этой серии 📎

#интересное #полезное #поиск #keywords
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍13👌10😢1🤩1
Кто ищет, тот найдёт! С рубрикатором 🗣

Друзья, мы искренне ценим ваше время и внимание, которые вы уделяете нашему каналу, поэтому мы разработали и внедрили рубрикатор — удобный инструмент, который поможет вам быстро ориентироваться в материалах и находить посты по темам, которые вам интересны.

Сегодня хотим напомнить, какие рубрики ведем на постоянной основе:

#о_компании #INVENTORUS — история INVENTORUS, наши продукты, команда и путь от идеи до технологической платформы

#актуальное #ИИ — обсуждаем новости из мира искусственного интеллекта, делимся

#полезное и #интересное — практические советы по работе с НТИ и неожиданные факты из мира науки и технологий

#кейс — реальные примеры задач бизнеса и науки, решённых с помощью INVENTORUS

#эксперты_INVENTORUS — научные события и актуальные темы с комментариями наших специалистов, а также авторские материалы по профильным тематикам

#ESG — делимся нашими подходами к устойчивому развитию и следим за глобальной ESG-повесткой

#INVENTORUS_в_профсообществе — рассказываем нашем взаимодействии с отраслевыми ассоциациями, союзами и профессиональными площадками


📌 Чтобы найти интересующую вас серию, обратите внимание на закреплённые сообщения

Мы постоянно работаем над улучшением нашего канала и планируем добавлять новые рубрики в будущем ✔️Расскажите в комментариях, на какие новые темы вы рекомендуете нам обратить внимание
Please open Telegram to view this post
VIEW IN TELEGRAM
👌20👍16🙏8🎉1
Поиск: непохожие пути к похожим результатам. Часть 2️⃣ — Стемминг и лемматизация в обработке естественного языка

Поскольку ключевые слова и статистическое ранжирование не могли обеспечить высокую релевантность результатов поиска, необходимо было научиться обрабатывать запрос так, чтобы он становился понятным для машины.

Как следствие, получила стимул к развитию область знаний на стыке компьютерных наук, искусственного интеллекта и лингвистики, которая учит машины понимать, интерпретировать и генерировать человеческий язык — обработка естественного языка (англ. Natural Language Processing, NLP)

Функции NLP призваны справляться с различными языковыми трудностями, поэтому применяются разные подходы к решению задач. Самые простые из них — стемминг и лемматизация. По сути, они представляют процессы преобразования использованных в запросе слов в более простые формы.

📌Стемминг (англ. stemming) приводит слово к общей основе (стему) за счет удаления окончаний и суффиксов. Стемом может быть как целое слово, так и его часть, которая объединяет разные формы одного слова. Цель — упростить анализ текста, чтобы компьютер интерпретировал различные формы слова как проявление одной лексической единицы.

📌Лемматизация (англ. lemmatization) же приводит слово к его базовой, словарной форме — лемме. Лемма — это начальная форма слова, как оно записано в словаре (для существительных — именительный падеж, единственное число; для глаголов — инфинитив).

Основное отличие этих подходов в том, что лемматизация учитывает грамматику и смысл слов. Оба подхода используются в равной степени для снижения ресурсозатрат и повышения вычислительных возможностей.

📎 В карточках — наглядные примеры.

🗺 Анонс со ссылками на все части, предыдущая часть — здесь

#интересное #полезное #поиск #NLP #стемминг #лемматизация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥14👌11🤯1
Поиск: непохожие пути к похожим результатам. Часть 3️⃣ — Сегментация текста

Современный поисковый запрос, как правило, представляет собой как минимум словосочетание, а как максимум — предложение или даже несколько предложений. Особенно это заметно на примере нейросетей, где запросы (или же промпты) могут представлять собой целые сочинения с набором условий.

Важный этап понимания такого запроса в контексте обработки естественного языка — сегментация.

📌 Сегментация — процесс разделения текста на отдельные слова или значимые единицы (токены), которые потом можно анализировать. Это один из первых шагов в обработке текста, чтобы компьютер мог понять структуру предложения.

Самый простой способ сегментации — разбить текст на части там, где есть пробелы.

Следующая ступень — учет знаков препинания, сокращений и составных слов.

Сегментация важна, потому что в разных языках слова могут соединяться по-разному, а знаки препинания и пробелы не всегда чётко показывают границы.

Примеры языков с нетривиальной сегментацией:

🔷китайский и японский языки предполагают разграничение предложений, а не слов
🔷тайский и лаосский предполагает разграничение фраз и предложений
🔷во вьетнамском языке разграничиваются слоги

Для большинства языков, включая русский, сегментация реализуется достаточно просто, в чем можно убедиться, посмотрев пример в карточке ✏️

🗺 Анонс со ссылками на все части, предыдущая часть — здесь

#интересное #полезное #поиск #NLP #сегментация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍12👌9😱2
Необычный факт: практически у каждого автора научных работ есть как минимум один клон


Причина такого своеобразного дублирования кроется в различных способах указания фамилии, имени и отчества для разных журналов как российских издательств, так и зарубежных

Иванов Иван Иванович
в разных изданиях может быть как Ивановым И.И., так и Ивановым Иваном, Иваном Ивановичем И. и даже Ивановым, Иваном Ивановичем. Ivanov Ivan и Ivanov Ivan I также отнюдь не являются единственными вариантами указания ФИО этого автора

Подобные дублированные профили приводят к несовпадениям метрик в разных системах индексации и «утере» отдельных работ в многочисленных профилях ученого.

Полностью исключить подобные случаи нельзя, однако их можно значительно сократить, если следовать простым рекомендациям:

▶️Старайтесь придерживаться единообразного способа указания ФИО для российских изданий

▶️Выберите вариант написания вашего имени латиницей, который вы считаете наиболее правильным, и старайтесь указывать только его при публикации работ в зарубежных журналах. Особенно важно обратить на это внимание обладателям ФИО со сложным написанием на русском языке (с буквами Я, Ё, Ю, оканчивающиеся на Й)

▶️Внимательно проверяйте корректуру (финишную верстку или proofreading для зарубежных изданий) на предмет верного написания фамилии, имени и отчества для российских переводных и англоязычных работ

▶️В англоязычных статьях также обращайте внимание на блок с расшифровкой инициалов и аффилиацией, если он предполагается версткой

▶️При регистрации профилей в различных наукометрических системах старайтесь указывать возможные варианты сокращений ваших ФИО, выбранные вами ранее в пунктах 1 и 2

Пример:
- Иванов Иван Иванович, Иванов И.И.
- Ivanov Ivan, Ivanov Ivan I, Ivanov Ivan Ivanovich


▶️Если система предоставляет возможность связать ваши профили между собой при помощи идентификаторов (например, Scopus Author ID и ORCID), не отказывайтесь от этого

Эти несложные действия помогают значительно сократить количество дублированных профилей, сформировать полную картину ваших исследований и повысить их видимость как для наукометрических систем, так и для ваших коллег

Отметим, что в ™️ INVENTORUS мы стараемся учесть все возможные варианты написания ваших ФИО, чтобы ваши научные труды были доступны в рамках одного профиля. В том числе по этой причине часть профилей авторов формируется автоматически на основе данных патентов и публикаций, пополняющих коллекцию, а при регистрации мы предлагаем присоединить к личной странице профиль автора

Как «клоны» выглядят на практике — покажем завтра в нашем Телеграфе

#INVENTORUS #полезное #кейс
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🆒7🔥6😢1
Поиск: непохожие пути к похожим результатам. Часть4️⃣ — Речевая разметка и выделение сущностей

Прошедшие недели были насыщены событиями, но сегодня мы хотим вернуться к теме эволюции поисковых систем и завершить вступление в эру обработки естественного языка.

Со временем стало очевидным, что просто сегментировать текст недостаточно, так как сегментация позволяет проанализировать только структуру предложения, но не дает представления о роли каждого слова в нём.

Решить эту проблему помогла речевая разметка или разметка частей речи (англ. Part of Speech Tagging, PoS) — способ классификации списков слов как существительных, глаголов, прилагательных и т. д. для более точной обработки запроса.

Иногда в качестве меток присваиваются дополнительные грамматические характеристики — падеж, число, время и т.п., при этом сначала текст сегментируется и анализируется его контекст.

Схожей функцией обладает процесс извлечения сущностей (англ. Named Entity Recognition, NER): из текста выделяются конкретные объекты или сущности, имеющие определённое значение, такие как имена людей, названия организаций, местоположения, даты, числа и т.д.

➡️ Извлечение сущностей (NER) на шаг впереди простой речевой разметки (PoS), поскольку вносит конкретику: если PoS говорит, что слово — существительное, то NER уточняет, что это за существительное (человек, место или что-то ещё). Это особенно важно для обработки голосовых запросов.

В русском языке извлечение сущностей достаточно трудоёмко из-за наличия склонений и многозначных слов. Примеры, как работает каждый из рассмотренных подходов — по традиции, в карточках 📎

🗺 Анонс со ссылками на все части, предыдущая часть — здесь

#интересное #полезное #поиск #NLP #PoS #NER
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1788🎉1🤩1
Декомпозиция задач: основа эффективной работы

Декомпозиция — это метод структурирования, при котором сложная задача разбивается на набор простых и управляемых подзадач. Этот принцип лежит в основе гибкой разработки, инженерного проектирования, системного мышления и современного управления любыми проектами

Сегодня декомпозиция — не модное слово, а фундаментальный инструмент повышения прозрачности и управляемости процессов. Она позволяет точнее оценивать ресурсы, уменьшать вероятность ошибок, ускорять реализацию, делегировать задачи внутри команды или эффективнее распределять собственное время

Грамотная декомпозиция:

✔️ Улучшает оценку сроков и трудозатрат для достижения конкретной цели

✔️ Повышает прозрачность и предсказуемость процессов

✔️ Создает возможность параллельной работы в команде

✔️ Упрощает контроль качества отдельных этапов

✔️ Выявляет лимитирующие процессы

Каждая задача должна представлять собой четко обособленный процесс, а сумма результатов всех таких задач — приводить к завершению проекта.

Декомпозиция — это не формальность. Это инфраструктура для устойчивого результата

#полезное #декомпозиция
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤‍🔥15🔥124🎉1
Поиск: непохожие пути к похожим результатам. Часть 5️⃣ — Онтология и графы знаний

Следующим скачком в эволюции поисковых запросов (хотя и по смыслу, а не по хронологии), стало внедрение онтологии и графов знаний.

В общих чертах графы знаний представляют собой связь между различными элементами — концепциями, объектами, событиями, а онтология определяет каждый из элементов и их свойства.

📌 Детально под онтологией понимают формализованное описание знаний в виде набора понятий (концептов) и отношений между ними в определенной области. Задача онтологии — помощь машине понять контекст.

📌 Граф знаний по своей сути является практической реализацией онтологии, наполненной конкретными фактами. Граф в общем виде — некая база данных, где информация представлена в виде узлов (сущностей) и рёбер (связи между сущностями).

Эти методы используются для уточнения смысла слов, понимания отношений между сущностями и ответов на вопросы, требующих выводов из связей. Посмотреть пример реализации можно в карточках 📎

Совместно эти методы могут быть одним из способов обхода ограничений поиска по ключевым словам, поскольку в этом случае идет не только сопоставление слов в поисковом запросе, но и поиска сущностей, которые описывал запрос.

На практике обнаруживаются существенные недостатки:

🚫 быстрое устаревание данных
🚫плохая масштабируемость из-за ручного построения графов
🚫 трудный перенос в разные категории знаний, т.к. граф знаний одной области не будет совпадать с графом другой

➡️ Эти трудности привели к тому, что автоматическая разработка графов знаний удалась всего нескольким крупным компаниям, например, Google. При этом его графы знаний — Google Knowledge Graph — содержат миллиарды связей.

Любопытно, что в русском языке проблема склонений, осложняющая построение графа, нивелируется за счет лемматизации формы слов.

🗺 Анонс со ссылками на все части, предыдущая часть — здесь

#интересное #полезное #поиск #NLP #онтология #граф_знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤‍🔥1211👍11😢1🎉1🤩1
Кэш-память: скорость vs. актуальность

Понятие кэша (от фр. cache — «тайник», второе написание — кеш) стало фундаментальным в компьютерных науках и обозначает промежуточный буфер с быстрым доступом, хранящий часто используемые данные для ускорения работы системы

Особую роль играет кэш браузера как механизм оптимизации работы в интернете. Его задача — хранить локальные копии статических ресурсов посещаемых сайтов: HTML-страниц, CSS-стилей, изображений и прочего

При первом посещении сайта браузер загружает необходимые элементы. При повторных визитах он сначала проверяет кэш: если ресурс там есть, браузер использует локальную копию, экономя трафик и значительно ускоряя загрузку страницы

🚫 Однако у кэша есть и обратная сторона:

➡️ Устаревание данных: кэш хранит конкретные версии файлов и браузер, ориентируясь на это, может продолжать использовать устаревшие версии несмотря на наличие обновлений

➡️ Конфликты версий: использование устаревших скриптов или стилей вместе с новыми элементами часто приводит к критическим ошибкам в работе сервисов , в том числе авторизации

➡️ Некорректное отображение элементов интерфейса и контента страниц

➡️ Проблемы с обновлениями: браузер может ошибочно возвращать статус 304 Not Modified (ресурс не изменился), даже если на сервере уже лежит обновленная версия, которую нужно скачать

➡️ Решением является периодическая очистка кэша — процедура принудительного обновления ресурсов сайта путем повторной загрузки с сервера

Очистка кэша актуальна и для пользователей INVENTORUS: с момента масштабного обновления, приуроченного к открытию бесплатного доступа к платформе, мы регулярно вносим улучшения — от мелких до функционально важных. Некоторые из этих обновлений затрагивают именно те статические ресурсы, которые кэшируются браузером

Для гарантии того, что вы всегда работаете с самой последней и стабильной версией платформы, рекомендуем периодически очищать кэш браузера. Это простое действие обеспечит полную синхронизацию с актуальным состоянием платформы, позволяя вам использовать INVENTORUS с максимальной отдачей и комфортом 📈

Как это сделать в некоторых популярных браузерах – показали в карточках

#полезное #функционал #Кэш #оптимизация #INVENTORUS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥13❤‍🔥9🤯1😢1🎉1🏆1
Поиск: непохожие пути к похожим результатам. Часть 6️⃣ — Автозаполнение и рейтинг ИИ

В эту субботу вновь возвращаемся к теме развития поисковых систем 🔍

Ранее мы намеренно пропустили автозаполнение, хотя в широкую практику оно вошло всего годом ранее онтологий и графов знаний, которым посвящена прошлая часть

📌 Автозаполнение — функция интерфейса, которая автоматически предлагает варианты завершения слова или фразы в процессе написания текста

Автозаполнение предсказывает, что человек хочет написать, основываясь на уже введённых символах, и помогает ускорить ввод текста, уменьшить количество ошибок и повысить удобство

Функция стала стандартом для поисковых систем и веб-форм после обретения популярности благодаря Google

Реализуется в несколько этапов:

▶️ Сбор базы данных поисковых запросов (например, в виде истории поиска или словаря)

▶️Определение совпадений по базе данных по мере ввода символов запроса

▶️Сортировка вариантов по вероятности на основе частоты использования, контекста или персональных данных

▶️Предложение списка подсказок, из которых пользователь может выбрать подходящий вариант

С новым витком развития ИИ в этот процесс встроились улучшенные механизмы ранжирования и на релевантность результатов стали влиять оценки пользователей

📌 Рейтинг ИИ — оценка качества и релевантности ответов, которые ИИ (например, чат-бот или поисковая система) выдает на запросы пользователей

Этот способ медленно, но постоянно вносит изменения в поисковый алгоритм, улучшая его качество. Цель — выведение в топ лучших результатов и одновременное отсеивание менее полезных

Из недостатков:

🚫 требует большое количество данных для подбора значимых результатов

🚫 не подходит для идентифицирования записей — идентификация все равно реализуется через ключевые слова и лингвистические ресурсы

🚫 эффективно только для ранжирования результатов

➡️ Результат: развитие векторного поиска, о котором расскажем в следующем выпуске

🗺 Анонс со ссылками на все части

#интересное #полезное #поиск #NLP #автозаполнение #рейтинг_ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1911👍11😱1🎉1