NuExtract: компактная модель для структурированного извлечения данных
NuExtract - специализированная модель для извлечения информации из текста в JSON-формате.
Обучена на 50 000 аннотированных примерах, созданных с помощью LLM.
Работает в режимах zero-shot и pseudo few-shot.
Версии модели: tiny (0.5B), стандартная (3.8B) и large (7B).
Практически близка по качеству к 4o OpenAI.
Применима для анализа технических, медицинских и юридических документов.
Легко адаптируется к конкретным задачам через дообучение.
Выпущена под лицензией MIT.
Может быть очень полезна не только для документов но и для локальной обработки входящих запросов на предмет "а что хотел узнать пользователь" и создания langchain потоков.
#NuExtract #StructuredExtraction #NLP
-------
@tsingular
NuExtract - специализированная модель для извлечения информации из текста в JSON-формате.
Обучена на 50 000 аннотированных примерах, созданных с помощью LLM.
Работает в режимах zero-shot и pseudo few-shot.
Версии модели: tiny (0.5B), стандартная (3.8B) и large (7B).
Практически близка по качеству к 4o OpenAI.
Применима для анализа технических, медицинских и юридических документов.
Легко адаптируется к конкретным задачам через дообучение.
Выпущена под лицензией MIT.
Может быть очень полезна не только для документов но и для локальной обработки входящих запросов на предмет "а что хотел узнать пользователь" и создания langchain потоков.
#NuExtract #StructuredExtraction #NLP
-------
@tsingular
🔥2❤🔥1
NuExtract 2.0 превзошёл GPT-4 в извлечении данных
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
🔥4✍3❤2⚡2