Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
SQLite получает мощное расширение для векторного поиска

sqlite-vec - новое расширение SQLite для векторного поиска, написанное на C без зависимостей.
Работает на всех платформах, включая браузеры через WebAssembly.
Использует виртуальные таблицы для хранения векторов, позволяя применять стандартные SQL-запросы.
Оптимизировано для быстрого поиска в наборах до сотен тысяч векторов.
Совместимо с расширениями sqlite-lembed и sqlite-rembed для генерации эмбеддингов.
Планируется добавление ANN-индексов для работы с большими объёмами данных.

Теперь и SQLite может в векторы.
Graph осталось добавить и будет шикарно.
Ждем sqlite-graph.

#SQLite #VectorSearch #Embeddings
-------
@tsingular
Эмбеддинг документов с контекстом

Предлагается новый метод сохранения эмбеддингов документов, учитывающий соседние тексты при создании векторных представлений.

В данном подходе используется двухэтапная архитектура: сбор контекста и встраивание документа с дополнительными контекстными токенами.

Результат позволяет получить достаточно высокие показатели на бенчмарках MTEB и BEIR, особенно в узкоспециализированных доменах.

Метод улучшает не только поиск, но и кластеризацию, классификацию и оценку семантического сходства текстов.

Самурай с мечом подобен самураю без меча, но с мечом. :)
Если вспомнить подход Антропика с подготовкой чанков по контексту документа, то это получается следующий шаг.
Чанки готовим с контекстом документа и со ссылками на контексты вне документа, но которые относятся к рассматриваемому параграфу.
Скорость эмбеддинга, вероятно, упадёт на порядок, ну или потребует больше ресурсов, однако качество эмбеддинга станет идеальным.

#NLP #Embeddings #эмбеддинги
-------
@tsingular
👍4
Есть такой рейтинг embedding моделей на HF

Так вот что подбешивает слегка, что самые крутые модели там сейчас- только англоязычные.

Например, вот 3е место - stella_en_1.B v5 - 8192 размер вектора. 132К токенов в 1 эмбеддинг!!! Фантастика, но только на английском.

2е место - bge-en-cl - 4K вектор, 32K контекст - тоже английская.

И на первом месте лидер от NVidia - NV-Embed-v2 - тоже 4K вектор и 32K контекст, и так же англоязычная.

На русском отлично себя летом показала SFR Embedding Mistral (в своё время мультиязычный лидер, но сейчас уже на 12м месте), так что следующий кандидат на проверку с русским SFR_Embedding_2R - 4е место в рейтинге, 4K вектор, 32K контекст. В fp32 требует 26+ гигов видео, так что для обычных домашних пользователей или 2 карты или Макбук.

Больше мультиязычных моделей бы, вот.
А то так и до Qwenа докатимся, хотя он тоже, вроде опережает SFR-Embedding-Mistral уже.

#embeddings
———
@tsingular
5🤔1