Neural Kovalskii

DeepResearch Showdown: Битва AI-систем за качество исследований!

Решил по подсказке Богдана замутить честный(свой) бенчмарк систем для глубокого исследования
Потратил я уже 4 часа на сборку и анализ и вот что получилось!

Дисклеймер вопросы которые я задавал системам интересны мне т.е субъективные

Что нового?
Я собрал универсальный промпт для оценки и автоматизировал сборку ответов в полуручном варианте
Сделал сборку и верификацию реузльтатов
По каждому результату прошелся глазами и проверил что же там ответила система

Всего 5 вопросов, но каждый - с прицелом на конкретные метрики
Автоматизировал оценку через Claude 3.5 Sonnet
Добавил свой скептический взгляд в оценку
Сравнивал: OpenAI, Grok, Perplexity, NDT (мой проект на Tavily + 7B)

Метрики оценки (1-10 баллов):

Глубина (Depth) = источники + полнота не менее 10 шт
Структура (Structure) = логика + разделы + связность
Актуальность (Relevance) = даты + тренды + прогнозы (учитываю наличие этих блоков в ответе)
Методология (Methodology) = процесс + выборка + воспроизводимость (каждый вопрос кроме openai был задан 2-3 раза)
Ценность (Value) = применимость + рекомендации (насколько это информация была ценна для меня нашел ли я такое же в интернете и сильно ли это сократило время на рисерч)

Боевые задачи для тестирования:

Bitcoin: текущий курс + прогнозы (фокус: Актуальность + Методология)
SAST анализаторы 2025 с LLM (фокус: Глубина + Структура)
ITER: сроки и бюджет (фокус: Методология + Глубина)
AI-стартапы с агентами на LLM в 2025 (фокус: Структура + Ценность)
Адаптивные AI-интерфейсы и "жидкий" UX (фокус: Глубина + Актуальность)

Сами вопросы

1) Легкий уровень: Актуальный курс биткоина и прогнозы

2) Уточнение задачи: Самые лучшие SAST анализаторы 2025 года с применением LLM

3)Поиск конкретных цифр и дат: Когда будет запущен ITER сколько было потрачено денег на его создание

4) Исследование и сравнение: Перспективные идеи AI стартапов с применением агентов на базе LLM и Structured Output 2025 год сравни их по инновационности

5) Исследования и сравнения чуть сложнее 4 запроса: Найди исследование того что интерфейсы с AI функциями должны адаптироваться под запросы пользователей найди примеры гибридных подходов или "жидких" интерфейсов сделай акцент на Web app приложениях

🔥 Интересные находки:

OpenAI единственный задает уточняющие вопросы (+2 балла за это)
Мой Deep Research (cкоро выложу новую версию) на Tavily показал себя достойно с учетом 7B модели
Время обработки:
• OpenAI: до 6 минут на запрос
• NDT: 3-4 минуты
• Grok: ~1 минута (free)
• Perplexity: <1 минуты (free)

💰 Стоимость эксперимента:

OpenAI: $200 за подписку (спасибо Артему за поддержку!)
NDT: нужна 4090 + Tavily API + DevOps + Backend + NLP + Analytic (Я)
Grok & Perplexity: бесплатные версии (есть ограничения по кол-ву запросов в сутки)

Для интересующихся, все результаты OpenAI доступны по ссылкам
[1] [2] [3] [4] [5]
(особенно советую глянуть 3 и 5 исследования):

Как итог сейчас у нас места

1) Grok
2) OpenAI
3) Perplexity
4) NDT DeepReserach (на минуточку в одного разработчика за неделю)

В целом разница не сильно большая по метрикам но и если вы ищете лучшее то вывод думаю можно сделать легко

Stay tuned! Буду пилить новые эксперименты! 🚀
P.S. Кто хочет присоединиться к следующему раунду тестирования - welcome в комменты!

🔥18👍64❤2

1.7K views07:47

Neural Kovalskii

Forwarded from red_mad_robot

GenAI trends_feb2025_red_mad_robot.pdf

46.8 MB

↗️ А вот и он! Тренд-репорт про рынок GenAI в 2025 году, который мы презентовали в МШУ Сколково.

AI перестал быть просто трендом — это полноценный технологический цикл, меняющий бизнес-процессы, экономику и рынок труда. Стратегические аналитики red_mad_robot собрали ключевые тренды и события, которые помогут лучше понять, куда движется индустрия.

Что внутри:
📍 овервью рынка GenAI на февраль 2025: рост, инвестиции, ведущие игроки;
📍 топ-10 технологических трендов, которые определяют вектор развития рынка;
📍 как GenAI трансформирует рынок труда;
📍 эксперименты в GenAI: на что стоит обратить внимание;
📍 оценка бизнес-эффектов от внедрения GenAI.

Сохраняйте, изучайте, делитесь фидбеком.

Please open Telegram to view this post

VIEW IN TELEGRAM

13🔥9❤4

1.14K views15:10

Neural Kovalskii

Enterprise RAG Challenge
Как всегда меня немного затянуло =)

Прямо сейчас участвую в Enterprise RAG Challenge от @llm_under_the_hood, и хочу рассказать, что pdf2md challenge почти в кармане.

В итоге я тестировал около 6 стратегий поиска информации
Разметка смог протестировать только одну стратегию, но и самую затратную она и заняла больше всего времени.
Я топлю за on-premise так что никаких облачных моделей все на своем железе благо мы в NDT закупились у теперь у нас есть 10 штук 4090 !

Итак, мы взяли все 100 PDF финансовых отчетов, это примерно ~14454 страниц
Из них было 3026
Общее кол-во категорий 13 (направлений)

1) Команда помогла найти топ библиотеку и конвертировала все PDF в markdown в текст.
2) Даже топ подход теряет около 2-5 % данных просто потому, что не видит кодировки или выводит ромбики. Сюда входят даже платные сервисы и самая топовая обработка

Все модели поднимаются в FP16 на vLMM
Векторная модель intfloat/multilingual-e5-large развернутая на 4 2080ti пропускная способность бешеная в 32 батч сайз

3) Я поднял наш весь свободный кластер и классифицировал все 14к страниц через 6 серверов с vLLM 4090 с развернутыми qwen 2 VL 7b instruct (это заняло примерно 2 часа времени)
На выход были вот такие:

      "has_tables": true,
      "table_count": 56,
      "content_types": {
        "image": 11,
        "mixed_image_text": 11,
        "chart": 3,
        "text": 20,
        "mixed_chart_text": 1,
        "mixed_table_text": 33,
        "table": 21
      }

4) Далее мы перевели все таблицы в markdown, img 2 markdown процесс занял у нас примерно 4 часа

5) Далее мы векторизировали часть данных (чанки + названия компаний, они были предоставлены в subset)

И загрузили в Milvus с вот такой схемой:

{
  "fields": [
    {"name": "id", "type": "Int64"},
    {"name": "text", "type": "VarChar(65535)"},
    {"name": "page_number", "type": "VarChar(10)"},
    {"name": "file_path", "type": "VarChar(2048)"},
    {"name": "company_name", "type": "VarChar(256)"},
    {"name": "embedding", "type": "FloatVector(1024)", "index": {"name": "embedding", "type": "COSINE", "nlist": 1024}},
    {"name": "company_embedding", "type": "FloatVector(1024)", "index": {"name": "company_embedding", "type": "COSINE", "nlist": 1024}},
    {"name": "sparse", "type": "SparseFloatVector", "index": {"name": "sparse", "type": "BM25"}}
  ]
}

Сейчас, кстати 6 утра, и хорошо отрабатывает вот так поиск с подходом ANN search:

{
  "query": "",
  "top_k": 5,
  "search_type": "vector",
  "text_weight": 0.7,
  "company_weight": 0.3
}

Самое важное, что при просмотре найденного контекста я беру топ 3 чанка и загружаю полные страницы из файловой системы:

{
  "results": [
    {
      "relevance": 0.8573796153068542,
      "collection": "Financial_Services",
      "text": "```markdown\n# Pintec Technology Holdings Limited\n## Consolidated Statements of Operations and Comprehensive Loss\n(RMB and US$ in thousands, except for share and per share data, or otherwise noted)\n\n### For the years ended December 31",
      "company_name": "Pintec Technology Holdings Limited",
      "file_path": "mk_embedded\\9e794a58e511f6a6a9a13b201d652deff9f9f69a.pdf.json",
      "page_number": "204",
      "id": "456258446756725963"
    },

Что хоро вижу четкую связь между названием компании, текстом и найденной страницей (достаточно близко), нет сильной разреженности
Ну и далее 4 схемы для SO в реквестах есть тип данных которые хотят видеть это упрощает жизнь, куда же без него:

NUMBER_SCHEMA = {
    "type": "object",
    "properties": {
        "value": {"type": "string"},
        "confidence": {"type": "number"},
        "reasoning": {"type": "string"}
    },
    "required": ["value", "confidence", "reasoning"]
}

BOOLEAN_SCHEMA = {
    "type": "object",
    "properties": {
        "value": {"type": "boolean"},
        "confidence": {"type": "number"},
        "reasoning": {"type": "string"}
    },
    "required": ["value", "confidence", "reasoning"]
}

И так далее для других типов под каждый типо свой промпт
На текущий момент прогнались все вопросы пошел глядеть и сабмитить!

👍20🔥15❤7

1.51K views03:30

Neural Kovalskii

~~Все херня выбрасывай~~

Просмотрев ответы и поняв что я ~~чукча~~ релевантность найденного источника желает оставлять лучшего я решил переделать на давно работающий у нас подход роутер агент под каждую компанию созданна коллекция

И что это такое а то что я каждый док гружу как коллекцию

self.router_schema = {
    "type": "object",
    "properties": {
        "collections": {
            "type": "array",
            "items": {"type": "string"},
            "description": "List of collection names that match the query"
        },
        "companies": {
            "type": "array",
            "items": {"type": "string"},
            "description": "List of company names from the query or ['unknown'] if impossible to determine"
        },
        "reasoning": {
            "type": "string",
            "description": "Brief explanation of why these collections and companies were chosen"
        }
    },
    "required": ["collections", "companies", "reasoning"]
}

Крч пошел новый прогон где я прям уверен в нормальном мапинге)))

Кстати все снова опять на qwen 7b

И уже на 40 вопросах я вижу 100% попадание

Да я учел что есть вопросы где нужно вернуть несколько коллекций!

🔥17👍6❤2

1.45K views10:59

Neural Kovalskii

Засабмитил с роутер агентом
Заодно ввел классификации запросов по тематикам
Я все, вырубаю сервер =)

Enterprise RAG Challenge

🔥17❤5👍4

1.65K viewsedited 12:12

Neural Kovalskii

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

LLaDA - это диффузионная языковая модель (LLM) что?

Появился новый тип LLM на основе диффузионных моделей

Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме

Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку

В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.

Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации

Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)

До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM

Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами

Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!

1🔥19👍6❤5

2.05K views12:57

Neural Kovalskii

VLM заменит OCR?

Ты знал что qwen 2.5 VL вернет тебе bbox?

А теперь магия без рук!

Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic

Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)

Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL

Взял вот такой код

OBJECT_JSON_SCHEMA = {
    "type": "object",
    "properties": {
        "objects": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "bbox_2d": {
                        "type": "array",
                        "description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
                        "items": {
                            "type": "integer"
                        }
                    },
                    "label": {
                        "type": "string",
                        "description": "Object label, e.g. 'table'"
                    }
                },
                "required": ["bbox_2d", "label"]
            }
        }
    },
    "required": ["objects"]
}

Получил вот такой ответ

{
  "id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
  "object": "chat.completion",
  "created": 1741078401,
  "model": "qwen2.5-vl-72b-instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "reasoning_content": null,
        "content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 724,
    "total_tokens": 760,
    "completion_tokens": 36,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null
}

Но это только начало просто вернуть bbox таблицы это легко

По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее

А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?

  "objects": [
    {
      "bbox_2d": [
        58,
        292,
        540,
        360
      ],
      "label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
      "sender": "user1",
      "type": "text"
    },
    {
      "bbox_2d": [
        60,
        374,
        276,
        404
      ],
      "label": "о спасибо попробую",
      "sender": "user2",
      "type": "text"
    },
    {
      "bbox_2d": [
        60,
        413,
        490,
        466
      ],
      "label": "00:19, 72.9 KB",
      "sender": "user2",
      "type": "voice"
    }

Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!

Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!

👍18🔥6❤5

2.46K views09:38

Neural Kovalskii

Forwarded from AI для Всех (Artemii)

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Кажется это не CGI

🔥10😁4

1.71K views17:47

Neural Kovalskii

Снова ваш карманный AI-эксперт летал в Москву и вместе с командой @red_mad_robot рассказывал и обучал.

Речь как всегда, шла вокруг LLM и GenAI

Как вывод: сейчас всё меняется очень быстро

Полгода назад мы рассказывали про Naive RAG, а сегодня про MAS, MCP Deep Research и LLaDa

Что ж, попрактиковался с микрофоном, были очень интересные вопросы!

🔥3411❤6

2.18K views14:38

Neural Kovalskii

Neural Kovalskii pinned «Мои пет-проекты в AI: от идеи до 9000 MAU за год Я тут по-тихому разрабатываю через Claude инструменты, которыми пользуюсь каждый день сам, и по недавней выгрузке имею ~9 000 активных пользователей в месяц Некоторым проектам меньше месяца, некоторым больше…»

17:47

Neural Kovalskii

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

С 8 марта, вас ожидает чело́век павук

😁24🔥138❤5

2.06K views08:12

About

Blog

Apps

Platform