Отличная статья от Дмитрия Гуреева о векторном поиске:
https://habr.com/ru/articles/812431/
Разбор тестов нескольких вариантов с примерами.
Читаем, учимся, применяем :)
#embeddings #habr
———
@tsingular
https://habr.com/ru/articles/812431/
Разбор тестов нескольких вариантов с примерами.
Читаем, учимся, применяем :)
#embeddings #habr
———
@tsingular
Хабр
«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large
Введение В прошлых обзорах я исследовал, как различные большие языковые модели (LLM) и эмбеддинги влияют на качество ответов по юридическим документам. Основные тесты включали различные модели для...
🤩2
SQLite получает мощное расширение для векторного поиска
sqlite-vec - новое расширение SQLite для векторного поиска, написанное на C без зависимостей.
Работает на всех платформах, включая браузеры через WebAssembly.
Использует виртуальные таблицы для хранения векторов, позволяя применять стандартные SQL-запросы.
Оптимизировано для быстрого поиска в наборах до сотен тысяч векторов.
Совместимо с расширениями sqlite-lembed и sqlite-rembed для генерации эмбеддингов.
Планируется добавление ANN-индексов для работы с большими объёмами данных.
Теперь и SQLite может в векторы.
Graph осталось добавить и будет шикарно.
Ждем sqlite-graph.
#SQLite #VectorSearch #Embeddings
-------
@tsingular
sqlite-vec - новое расширение SQLite для векторного поиска, написанное на C без зависимостей.
Работает на всех платформах, включая браузеры через WebAssembly.
Использует виртуальные таблицы для хранения векторов, позволяя применять стандартные SQL-запросы.
Оптимизировано для быстрого поиска в наборах до сотен тысяч векторов.
Совместимо с расширениями sqlite-lembed и sqlite-rembed для генерации эмбеддингов.
Планируется добавление ANN-индексов для работы с большими объёмами данных.
Теперь и SQLite может в векторы.
Graph осталось добавить и будет шикарно.
Ждем sqlite-graph.
#SQLite #VectorSearch #Embeddings
-------
@tsingular
Эмбеддинг документов с контекстом
Предлагается новый метод сохранения эмбеддингов документов, учитывающий соседние тексты при создании векторных представлений.
В данном подходе используется двухэтапная архитектура: сбор контекста и встраивание документа с дополнительными контекстными токенами.
Результат позволяет получить достаточно высокие показатели на бенчмарках MTEB и BEIR, особенно в узкоспециализированных доменах.
Метод улучшает не только поиск, но и кластеризацию, классификацию и оценку семантического сходства текстов.
Самурай с мечом подобен самураю без меча, но с мечом. :)
Если вспомнить подход Антропика с подготовкой чанков по контексту документа, то это получается следующий шаг.
Чанки готовим с контекстом документа и со ссылками на контексты вне документа, но которые относятся к рассматриваемому параграфу.
Скорость эмбеддинга, вероятно, упадёт на порядок, ну или потребует больше ресурсов, однако качество эмбеддинга станет идеальным.
#NLP #Embeddings #эмбеддинги
-------
@tsingular
Предлагается новый метод сохранения эмбеддингов документов, учитывающий соседние тексты при создании векторных представлений.
В данном подходе используется двухэтапная архитектура: сбор контекста и встраивание документа с дополнительными контекстными токенами.
Результат позволяет получить достаточно высокие показатели на бенчмарках MTEB и BEIR, особенно в узкоспециализированных доменах.
Метод улучшает не только поиск, но и кластеризацию, классификацию и оценку семантического сходства текстов.
Самурай с мечом подобен самураю без меча, но с мечом. :)
Если вспомнить подход Антропика с подготовкой чанков по контексту документа, то это получается следующий шаг.
Чанки готовим с контекстом документа и со ссылками на контексты вне документа, но которые относятся к рассматриваемому параграфу.
Скорость эмбеддинга, вероятно, упадёт на порядок, ну или потребует больше ресурсов, однако качество эмбеддинга станет идеальным.
#NLP #Embeddings #эмбеддинги
-------
@tsingular
👍4
Есть такой рейтинг embedding моделей на HF
Так вот что подбешивает слегка, что самые крутые модели там сейчас- только англоязычные.
Например, вот 3е место - stella_en_1.B v5 - 8192 размер вектора. 132К токенов в 1 эмбеддинг!!! Фантастика, но только на английском.
2е место - bge-en-cl - 4K вектор, 32K контекст - тоже английская.
И на первом месте лидер от NVidia - NV-Embed-v2 - тоже 4K вектор и 32K контекст, и так же англоязычная.
На русском отлично себя летом показала SFR Embedding Mistral (в своё время мультиязычный лидер, но сейчас уже на 12м месте), так что следующий кандидат на проверку с русским SFR_Embedding_2R - 4е место в рейтинге, 4K вектор, 32K контекст. В fp32 требует 26+ гигов видео, так что для обычных домашних пользователей или 2 карты или Макбук.
Больше мультиязычных моделей бы, вот.
А то так и до Qwenа докатимся, хотя он тоже, вроде опережает SFR-Embedding-Mistral уже.
#embeddings
———
@tsingular
Так вот что подбешивает слегка, что самые крутые модели там сейчас- только англоязычные.
Например, вот 3е место - stella_en_1.B v5 - 8192 размер вектора. 132К токенов в 1 эмбеддинг!!! Фантастика, но только на английском.
2е место - bge-en-cl - 4K вектор, 32K контекст - тоже английская.
И на первом месте лидер от NVidia - NV-Embed-v2 - тоже 4K вектор и 32K контекст, и так же англоязычная.
На русском отлично себя летом показала SFR Embedding Mistral (в своё время мультиязычный лидер, но сейчас уже на 12м месте), так что следующий кандидат на проверку с русским SFR_Embedding_2R - 4е место в рейтинге, 4K вектор, 32K контекст. В fp32 требует 26+ гигов видео, так что для обычных домашних пользователей или 2 карты или Макбук.
Больше мультиязычных моделей бы, вот.
А то так и до Qwenа докатимся, хотя он тоже, вроде опережает SFR-Embedding-Mistral уже.
#embeddings
———
@tsingular
⚡5🤔1