Data Portal | DS & ML

Можно делать поиск за ~200 мс по 40 миллионам текстов, используя только CPU-сервер, 8 ГБ RAM и 45 ГБ диска.
Фокус простой: бинарный поиск + рескоринг в int8.

Если хочешь сразу пощупать руками, есть демо по 40 млн текстов из Wikipedia. Без логина и прочих заморочек.

Стратегия инференса такая:

Эмбедим запрос dense-моделью в обычный fp32-вектор

Квантуем fp32-эмбеддинг в бинарный формат, он в 32 раза меньше

Через приблизительный или точный бинарный индекс вытаскиваем, например, 40 документов (примерно в 20 раз быстрее, чем fp32-индекс)

С диска подгружаем int8-эмбеддинги для этих топ-40 документов

Делаем рескоринг: fp32-эмбеддинг запроса × 40 int8-эмбеддингов

Сортируем эти 40 документов по новым скором, берём топ-10

Загружаем заголовки и тексты топ-10 документов

Документы эмбедятся один раз, и дальше эти эмбеддинги используются сразу в двух представлениях:

- бинарный индекс (я использовал IndexBinaryFlat для точного поиска и IndexBinaryIVF для приближённого)
- int8-view, то есть способ быстро читать int8-эмбеддинги с диска по ID документа

В итоге вместо fp32-эмбеддингов ты хранишь:

- бинарный индекс (в 32 раза меньше)
- int8-эмбеддинги (в 4 раза меньше)

Плюс в памяти держится только бинарный индекс, так что по RAM экономия тоже x32 по сравнению с fp32-поиском.
Для сравнения: обычный fp32-ретривал на такой задаче потребовал бы около 180 ГБ RAM, 180 ГБ диска под эмбеддинги и был бы в 20–25 раз медленнее.

Бинарный ретривал с int8-рескорингом укладывается примерно в 6 ГБ RAM и ~45 ГБ диска под эмбеддинги.
Если загружать, скажем, в 4 раза больше документов через бинарный индекс и потом рескорить их в int8, можно вернуть около 99% качества fp32-поиска (против ~97% у чисто бинарного поиска): https://huggingface.co/blog/embedding-quantization#scalar-int8-rescoring

👉

@DataSciencegx

Please open Telegram to view this post