227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 jina-embeddings-v3: мультиязычная модель эмбединга текста.

jina-embeddings-v3 - мультиязычная (89 языков, включая русский) многозадачная модель текстового эмбединга с 570M параметров, предназначенная для задач NLP.

Модель построена на архитектуре Jina-XLM-RoBERTa, поддерживает Rotary Position Embeddings для обработки длинных входных последовательностей до 8192 токенов. Она оснащена 5 адаптерами LoRA для генерации эмбедингов, специфичных для конкретной задачи:

🟢retrieval.query: эмбединг запросов в задачах асимметричного поиска;

🟢retrieval.passage: эмбединг фрагментов текста в задачах асимметричного поиска;

🟢separation: для эмбедингов в приложениях для кластеризации и повторного ранжирования;

🟢classification: эмбединг в задачах классификации;

🟢text-matching: используется для эмбедингов в задачах, которые количественно оценивают сходство между двумя текстами, например, STS или симметричный поиск.

Адаптеры LoRA составляют менее 3% от общего числа параметров, обеспечивая минимальные расходы на вычисления.

Имея размерность вывода по умолчанию 1024, пользователи могут произвольно сократить размерность эмбедингов вплоть до 32 без ущерба для производительности благодаря интеграции Matryoshka Representation Learning.

Модель доступна через API Jina, а также в ближайшее время будет доступна на Azure Marketplace и AWS SageMaker.

Jina AI сотрудничает с поставщиками векторных баз данных (Pinecone, Qdrant и Milvus), с платформами оркестрации LLM (LlamaIndex, Haystack и Dify), чтобы обеспечить интеграцию с Jina Embeddings V3.

Jina Embeddings V3 можно использовать локально через Transformers или SentenceTransformers. Модель также поддерживает формат ONNX.


📌Лицензирование : CC BY-NC 4.0 License. Для коммерческих проектов - свяжитесь с разработчиком.


🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #Embedding #JinaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍133👏1