Machinelearning

🌟 NV-Embed-v2: Универсальная embedding-модель от Nvidia.

NVIDIA опубликовала в своем репозитории NV-Embed-v2, универсальную embedding-модель, которая занимает первое место в бенчмарке Massive Text Embedding Benchmark (MTEB benchmark, по состоянию на 30 августа 2024 года) с 56 задачами, включающими поиск, повторное ранжирование, классификацию, кластеризацию и задачи семантического сходства текстов.

Embedding модели позволяют преобразовать текстовые данные в плотные векторные представления, которые используются для задач NLP.
На практике embedding модели используются для векторизации исходного текста, например корпоративной информации, которой нет в основной LLM, и использования его для построения RAG-систем

Отличия NV-Embed-v2 от NV-Embed-v1:

🟢использование LLM для обработки латентных векторов;
🟢двухэтапный инструктивный метод настройки;
🟢новые методы анализа отрицательных результатов, которые учитывают положительный показатель релевантности для лучшего удаления ложноотрицательных результатов.

Характеристики модели:

🟠Base Decoder-only LLM: Mistral-7B-v0.1
🟠Pooling Type: Latent-Attention
🟠Embedding Dimension: 4096
🟠Vocab size: 32000

⚠️ Важно!

🟢Версии пакетов для локального запуска : torch=2.2.0, transformers=4.42.4, flash-attn=2.2.0, sentence-transformers=2.7.0;

🟢Для доступа к nvidia/NV-Embed-v2 необходимо пройти аутентификацию на HF, используйте свой токен HF в huggingface-cli login.

▶️ Пример использования с HF Transformers:

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task
task_name_to_instruct = {"example": "Given a question, retrieve passages that answer the question",}

query_prefix = "Instruct: "+task_name_to_instruct["example"]+"\nQuery: "
queries = [
    'are judo throws allowed in wrestling?', 
    'how to become a radiology technician?'
    ]

# No instruction needed for retrieval passages
passage_prefix = ""
passages = [
    "** LLM Answer about judo **",
    "** LLM Answer about radiology **"
]

# load model with tokenizer
model = AutoModel.from_pretrained('nvidia/NV-Embed-v2', trust_remote_code=True)

# get the embeddings
max_length = 4096
query_embeddings = model.encode(queries, instruction=query_prefix, max_length=max_length)
passage_embeddings = model.encode(passages, instruction=passage_prefix, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

# get the embeddings with DataLoader
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())

📌Лицензирование : CC-BY-NC-SA-4.0 License.

🟡

Модель

🟡

Arxiv

@ai_machinelearning_big_data

#AI #Embedding #ML #NVIDIA #LLM

Please open Telegram to view this post