Технозаметки Малышева

Отличная статья от Дмитрия Гуреева о векторном поиске:

https://habr.com/ru/articles/812431/

Разбор тестов нескольких вариантов с примерами.

Читаем, учимся, применяем :)

#embeddings #habr
———
@tsingular

Хабр

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Введение В прошлых обзорах я исследовал, как различные большие языковые модели (LLM) и эмбеддинги влияют на качество ответов по юридическим документам. Основные тесты включали различные модели для...

🤩2

158 views15:51

Технозаметки Малышева

SQLite получает мощное расширение для векторного поиска

sqlite-vec - новое расширение SQLite для векторного поиска, написанное на C без зависимостей.
Работает на всех платформах, включая браузеры через WebAssembly.
Использует виртуальные таблицы для хранения векторов, позволяя применять стандартные SQL-запросы.
Оптимизировано для быстрого поиска в наборах до сотен тысяч векторов.
Совместимо с расширениями sqlite-lembed и sqlite-rembed для генерации эмбеддингов.
Планируется добавление ANN-индексов для работы с большими объёмами данных.

Теперь и SQLite может в векторы.
Graph осталось добавить и будет шикарно.
Ждем sqlite-graph.

#SQLite #VectorSearch #Embeddings
-------
@tsingular

374 viewsedited 04:58

Технозаметки Малышева

Эмбеддинг документов с контекстом

Предлагается новый метод сохранения эмбеддингов документов, учитывающий соседние тексты при создании векторных представлений.

В данном подходе используется двухэтапная архитектура: сбор контекста и встраивание документа с дополнительными контекстными токенами.

Результат позволяет получить достаточно высокие показатели на бенчмарках MTEB и BEIR, особенно в узкоспециализированных доменах.

Метод улучшает не только поиск, но и кластеризацию, классификацию и оценку семантического сходства текстов.

Самурай с мечом подобен самураю без меча, но с мечом. :)
Если вспомнить подход Антропика с подготовкой чанков по контексту документа, то это получается следующий шаг.
Чанки готовим с контекстом документа и со ссылками на контексты вне документа, но которые относятся к рассматриваемому параграфу.
Скорость эмбеддинга, вероятно, упадёт на порядок, ну или потребует больше ресурсов, однако качество эмбеддинга станет идеальным.

#NLP #Embeddings #эмбеддинги
-------
@tsingular

👍4

1.35K viewsedited 05:24

Технозаметки Малышева

Есть такой рейтинг embedding моделей на HF

Так вот что подбешивает слегка, что самые крутые модели там сейчас- только англоязычные.

Например, вот 3е место - stella_en_1.B v5 - 8192 размер вектора. 132К токенов в 1 эмбеддинг!!! Фантастика, но только на английском.

2е место - bge-en-cl - 4K вектор, 32K контекст - тоже английская.

И на первом месте лидер от NVidia - NV-Embed-v2 - тоже 4K вектор и 32K контекст, и так же англоязычная.

На русском отлично себя летом показала SFR Embedding Mistral (в своё время мультиязычный лидер, но сейчас уже на 12м месте), так что следующий кандидат на проверку с русским SFR_Embedding_2R - 4е место в рейтинге, 4K вектор, 32K контекст. В fp32 требует 26+ гигов видео, так что для обычных домашних пользователей или 2 карты или Макбук.

Больше мультиязычных моделей бы, вот.
А то так и до Qwenа докатимся, хотя он тоже, вроде опережает SFR-Embedding-Mistral уже.

#embeddings
———
@tsingular

⚡5🤔1

1.06K viewsedited 08:44

About

Blog

Apps

Platform