Просмотрев ответы и поняв что я
И что это такое а то что я каждый док гружу как коллекцию
self.router_schema = {
"type": "object",
"properties": {
"collections": {
"type": "array",
"items": {"type": "string"},
"description": "List of collection names that match the query"
},
"companies": {
"type": "array",
"items": {"type": "string"},
"description": "List of company names from the query or ['unknown'] if impossible to determine"
},
"reasoning": {
"type": "string",
"description": "Brief explanation of why these collections and companies were chosen"
}
},
"required": ["collections", "companies", "reasoning"]
}
Крч пошел новый прогон где я прям уверен в нормальном мапинге)))
Кстати все снова опять на qwen 7b
И уже на 40 вопросах я вижу 100% попадание
Да я учел что есть вопросы где нужно вернуть несколько коллекций!
🔥17👍6❤2
Засабмитил с роутер агентом
Заодно ввел классификации запросов по тематикам
Я все, вырубаю сервер =)
Enterprise RAG Challenge
Заодно ввел классификации запросов по тематикам
Я все, вырубаю сервер =)
Enterprise RAG Challenge
🔥17❤5👍4
LLaDA - это диффузионная языковая модель (LLM) что?
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
1🔥19👍6❤4
VLM заменит CV?
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
Получил вот такой ответ
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}
Получил вот такой ответ
{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
"objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
👍17🔥6❤3
Forwarded from AI для Всех (Artemii)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥10😁4
Снова ваш карманный AI-эксперт летал в Москву и вместе с командой @red_mad_robot рассказывал и обучал.
Речь как всегда, шла вокруг LLM и GenAI
Как вывод: сейчас всё меняется очень быстро
Полгода назад мы рассказывали про Naive RAG, а сегодня про MAS, MCP Deep Research и LLaDa
Что ж, попрактиковался с микрофоном, были очень интересные вопросы!
Речь как всегда, шла вокруг LLM и GenAI
Как вывод: сейчас всё меняется очень быстро
Полгода назад мы рассказывали про Naive RAG, а сегодня про MAS, MCP Deep Research и LLaDa
Что ж, попрактиковался с микрофоном, были очень интересные вопросы!
🔥34 11❤6
Neural Deep pinned «Мои пет-проекты в AI: от идеи до 9000 MAU за год Я тут по-тихому разрабатываю через Claude инструменты, которыми пользуюсь каждый день сам, и по недавней выгрузке имею ~9 000 активных пользователей в месяц Некоторым проектам меньше месяца, некоторым больше…»
This media is not supported in your browser
VIEW IN TELEGRAM
С 8 марта, вас ожидает чело́век павук
😁23🔥13 8❤5
Провожу исследование разных подходов retrieval (лучшего поиска информации на основе датасета RAG челенджа и спасибо @IlyaRice (1 место) в предоставленных данных
Задача проверялась простая найти самый релевантный контекст(страницу) из 13 тысяч для ответа LLM на вопросы финансовых отчетов
Перед запуском использовался простой query expansion с парой few-shot примеров
few-shots генерировались на основе вычитки в документы где точно знаем ответ (подбор релевантности)
(В E5 и bge-m3 не использовалось более одного примера в логах — переделаю)
Кейс запуска!
E-5 (без реранкера)
bge-m3 (без реранкера)
OpenAI Small (без реранкера)
Скоро запущу прогоны с кросс-энкодером!
Также создам коллекцию с крупными моделями векторизации.
Average Pairwise Match Scores (с лучшим результатом Ильи:
Matches with ilyaRice o3 (Base Model):
Задача проверялась простая найти самый релевантный контекст(страницу) из 13 тысяч для ответа LLM на вопросы финансовых отчетов
Перед запуском использовался простой query expansion с парой few-shot примеров
few-shots генерировались на основе вычитки в документы где точно знаем ответ (подбор релевантности)
Exemple:
1) Original query: Did Downer EDI Limited announce a share buyback plan in the annual report? If there is no mention, return False.
Expansions query: Share buyback plan
2) Original query: According to the annual report, what is the Cash flow from operations (in USD) for Wheeler Real Estate Investment Trust, Inc. (within the last period or at the end of the last period)? If data is not available, return 'N/A'.
Expansions query: Cash flow from operations (in USD) last period or at the end of the last period
3) Original query: For Aurora Innovation, Inc., what was the value of Number of patents at year-end at the end of the period listed in annual report? If data is not available, return 'N/A'.
Expansions query: Total count of patents over company owned
(В E5 и bge-m3 не использовалось более одного примера в логах — переделаю)
Кейс запуска!
E-5 (без реранкера)
bge-m3 (без реранкера)
OpenAI Small (без реранкера)
Скоро запущу прогоны с кросс-энкодером!
Также создам коллекцию с крупными моделями векторизации.
Average Pairwise Match Scores (с лучшим результатом Ильи:
Ope-ily: 66.00%
Ope-E5-: 28.00%
Ope-BGE: 17.00%
ily-E5-: 31.00%
ily-BGE: 20.00%
E5--BGE: 14.00%
Matches with ilyaRice o3 (Base Model):
OpenAI Small (No Reranker): 66.00%
E5-large: 31.00%
BGE-M3: 20.00%
🔥21❤7👍3
Forwarded from Лёха ведет дневник
Кто-нибудь успел затестить GigaChat 2 MAX, которую сегодня зарелизил Сбер?
Глядя на бенчмарки, обгоняет GPT4o и Qwen 72B (вот с этими модельками у меня достаточно взаимодействия было, и я знаю, на что они способны)
Выглядит так, что на русском языке это сейчас лучшая модель (но надо потестить конечно же)
Все жду, когда будет релиз Structured Output, вот тогда можно будет создавать нормальные агентские сценарии 😎
@alexs_journal
Глядя на бенчмарки, обгоняет GPT4o и Qwen 72B (вот с этими модельками у меня достаточно взаимодействия было, и я знаю, на что они способны)
Выглядит так, что на русском языке это сейчас лучшая модель (но надо потестить конечно же)
Все жду, когда будет релиз Structured Output, вот тогда можно будет создавать нормальные агентские сценарии 😎
@alexs_journal
2 18👍7
Forwarded from LLM под капотом
Можно запускать новые Enterprise RAG эксперименты!
49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить еще несколько экспериментов.
Он запущен по новому адресу - https://rag.abdullin.com
Можете отправлять свои новые эксперименты туда. Только, пожалуйста, не забывайте заполнять форму с протоколом эксперимента. Так мы сможем потом подвести итоги и проанализировать.
Самый интересный сейчас момент - это полностью локальные системы, у которых локально работает все - parsing/OCR, embeddings (если они есть) и LLM. В Leaderboards у нас пока помечены как локальные системы только те архитектуры, в которых LLM локальный. Я потом постараюсь добавить колонку для
Если верить цифрам R-Score/G-Score, узкое место полностью локальных систем - это retrieval. Если в облаке openai large embeddings творят чудеса, то с локальными системами еще предстоит разобраться.
Тут дополнительно варианты разные варианты retrieval в Enterprise RAG Challenge уже изучали Valerii и Илья (см https://t.iss.one/neuraldeep/1348 в NeuralDeep).
Мне кажется перспективным направлением решение Dmitry Buykin. Оно работает в облаке, но вместо embeddings использует онтологии с SO/CoT чеклистами. Теоретически тут “R Score” может упасть не так сильно при переносе на локальные модели.
Ваш, @llm_under_hood 🤗
PS: Если останется интерес, то можно попробовать через пару месяцев прогнать новый раунд ERC. С тем же генератором вопросов, но с новыми файлами.
49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить еще несколько экспериментов.
Он запущен по новому адресу - https://rag.abdullin.com
Можете отправлять свои новые эксперименты туда. Только, пожалуйста, не забывайте заполнять форму с протоколом эксперимента. Так мы сможем потом подвести итоги и проанализировать.
Самый интересный сейчас момент - это полностью локальные системы, у которых локально работает все - parsing/OCR, embeddings (если они есть) и LLM. В Leaderboards у нас пока помечены как локальные системы только те архитектуры, в которых LLM локальный. Я потом постараюсь добавить колонку для
Fully Local
.Если верить цифрам R-Score/G-Score, узкое место полностью локальных систем - это retrieval. Если в облаке openai large embeddings творят чудеса, то с локальными системами еще предстоит разобраться.
Тут дополнительно варианты разные варианты retrieval в Enterprise RAG Challenge уже изучали Valerii и Илья (см https://t.iss.one/neuraldeep/1348 в NeuralDeep).
Мне кажется перспективным направлением решение Dmitry Buykin. Оно работает в облаке, но вместо embeddings использует онтологии с SO/CoT чеклистами. Теоретически тут “R Score” может упасть не так сильно при переносе на локальные модели.
Ваш, @llm_under_hood 🤗
PS: Если останется интерес, то можно попробовать через пару месяцев прогнать новый раунд ERC. С тем же генератором вопросов, но с новыми файлами.
👍19❤5
Продолжаю эксперименты по документам из RAG Challenge
Задела эта тема так как это финансовые документы и наконец есть результаты (правильные ответы)
Собрал стенд с разными векторными моделями и подходами поиска и составить для себя лучший автоматический пайплайн поиска и ответа
На скрине оценка качества retrieval, сравнение моих двух подходов на базе векторов openai (small/large) моделей + query expansion CoT)
+ Я почти правильно собрал метрики подсчёта оценки так как почти такие же метрики у Ильи (первое место)
В комментариях приложу md файл + html для вашей оценки
P.S Забыл самое важное
small openai для векторов подойдет когда вы хотите с экономить но если вам важны очень хороший ретривал и высокая разница в score то в финансовом секторе пока ничего лучше large от openai нет)
Задела эта тема так как это финансовые документы и наконец есть результаты (правильные ответы)
Собрал стенд с разными векторными моделями и подходами поиска и составить для себя лучший автоматический пайплайн поиска и ответа
На скрине оценка качества retrieval, сравнение моих двух подходов на базе векторов openai (small/large) моделей + query expansion CoT)
+ Я почти правильно собрал метрики подсчёта оценки так как почти такие же метрики у Ильи (первое место)
В комментариях приложу md файл + html для вашей оценки
P.S Забыл самое важное
small openai для векторов подойдет когда вы хотите с экономить но если вам важны очень хороший ретривал и высокая разница в score то в финансовом секторе пока ничего лучше large от openai нет)
❤13🔥8 4