Интересное что-то

62 views15:08

Forwarded from Dealer.AI

Что, если вы попробовали BM25 и SPLADE – FM index+Infini-gram.

Эта статья стала best paper EMNLP2025.

Статья "Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index" представляет собой исследование по созданию системы для точного поиска n-грамм в сверхбольших текстовых корпусах. Что такое n-граммный поиск? Это подход аля tfidf основанный на поиске совпадения в строках путем сравнение общих n-грамм токенов или символов. Статья может быть потенциально интересной для тех, кто строит RAG системы с учетом bm25 индексов и иных (аля SPLADE).

🎯 Постановка задачи

Языковые модели обучаются на огромных объемах текстовых данных из интернета, и важно понимать эти данные. Точный поиск по таким корпусам позволяет подсчитывать вхождения строк и находить исходные документы, но существующие системы не справляются с большими масштабами данных из-за высоких требований к хранилищу. Авторы ставят задачу создать эффективную и масштабируемую систему, которая сделает петабайтные текстовые корпуса доступными для поиска.

💡 Идея алгоритма

Основная идея алгоритма — использование FM-Index (Full Text Minute Index). Этот метод, созданный Феррагиной и Манзини, одновременно индексирует и сжимает текст. Алгоритм дает пользователю:

1. Эффективность: Infini-gram mini значительно улучшает существующие реализации FM-Index. Система создает индекс, размер которого составляет всего 44% от исходного корпуса.

2. Производительность:
- Скорость индексации повышается в 18 раз.
- Использование памяти в процессе индексации сокращается в 3.2 раза.
- Потребление памяти при выполнении запросов снижается до незначительного уровня.

Про Infini-gram, он работает принципиально иначе, чем традиционные языковые модели n-грамм. Вместо заранее вычисленных таблиц частот, он использует структуру данных суффиксный массив, что позволяет обрабатывать n-граммы практически неограниченной длины с низкой задержкой .

Ключевая инновация Infini-gram — это отказ от классических таблиц n-грамм в пользу суффиксного массива всего корпуса текстов.

В чем проблема традиционных n-грамм? Для больших n длин последовательности таблицы частот становятся астрономически большими. Например, для корпуса в 1.4 триллиона токенов 5-граммная таблица заняла бы около 28 ТБ, что делает модели с большим n невозможными.

Итого, зачем оно все нам? Недавно, мы видели, как можно использовать поиск встроенный в файловую систему для эффективной работы rag и памяти. Подход с Infiniti gram+fm index может быть полезен для агентных систем с памятью в качестве альтернативы поиска по большим массивам данных. Да, и все это помимо прямой задачи - фильтрации больших сетов.

arXiv.org

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in...

76 views15:08