Neural Deep
7.59K subscribers
301 photos
44 videos
3 files
193 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
SWE-bench: учусь запускаться локально на swe задачах

TL;DR: SWE-bench (Software Engineering) бенчмарк для оценки AI-агентов на реальных GitHub issues
Тестирую qwen2.5-32b-coder-instruct на 2x RTX 4090 (48GB), получил 5.3% zero-shot
Планирую адаптировать open-source лидеров под локальные модели через vLLM + SO

Что такое SWE-bench его кстати придумала команда из Princeton University и Stanford University
Работа была принята на ICLR 2024

SWE-bench это benchmark для оценки больших языковых моделей на реальных software issues, собранных из GitHub
Получив кодовую базу и issue, языковая модель должна сгенерировать патч, который решает описанную проблему

В отличие от бенчмарков, фокусирующихся на скорости, SWE-bench оценивает инженерные
навыки: понимание существующего кода, генерацию нового кода, отладку, исправление багов и рефакторинг

Варианты: Full (2,294 задач), Lite (300 задач), Verified (500 задач)

Мои эксперименты: 2x RTX 4090 (48GB) + я взял сервер на 32CPU (под eval)

Развернул qwen2.5-32b-coder-instruct через vLLM

Запуск включает в себя 3 этапа:

1) Подготовка: Создание датасета с Style-3 промптами (19K символов контекста: issue + полный код + примеры патчей)
2) Inference: Модель получает промпт и генерирует diff-патч для решения GitHub issue
3) Evaluation: Патч применяется к репозиторию в Docker контейнере, запускаются тесты (FAIL_TO_PASS + PASS_TO_PASS)

Ключевые поля датасета:

instance_id - уникальный ID (astropy__astropy-12907)
text - полный промпт для модели (19K символов)
problem_statement - описание GitHub issue (1.2K символов)
patch - правильное решение (500 символов)
FAIL_TO_PASS - тесты, которые должны заработать
PASS_TO_PASS - тесты, которые должны остаться рабочими


Структура промпта (19K символов):

Введение (100 символов) - инструкция для модели
<issue> (1.2K символов) - описание проблемы + примеры
<code> (16K символов) - полный контекст кода + документация
<patch> (1.2K символов) - пример формата решения


Результаты zero-shot на SWE-bench Lite:
Решено: 16/300 (5.3%)
Применимых патчей: 119/300 (39.7%)
Производительность: 79-383 tokens/s prompt, 46-64 tokens/s generation

Проблема на первый взгляд: стандартный few-shot не выдерживает формат diff - модель генерирует
правильную логику, но ломается на синтаксисе unified diff format
Именно поэтому лидеры используют structured output

Еще уперся в рейт лимиты Docker Hub api при сборке но исправление проблемы показало +1 процент точности

Так же c командой прокопали open-source лидеров
На сегодня вот такой вот лидерборд на lite

1. ExpeRepair-v1.0 + Claude 4 Sonnet — 60.33%
4 агента: Search, Reproducer, Write Patch, Reviewer
Structured Output архитектура (промптинг+shema repair)

2. Refact.ai Agent — 60.00%
Claude 3.7 Sonnet + o4-mini для deep_analysis()
Дела вывод что planning-модуль критичен без него агент работает реактивно (увидел → патчит),
с ним: анализ → стратегия → план → исполнение
Разница между 5% и 60% именно в этом

3. SWE-agent + Claude 4 Sonnet 56.67%

Новая версия с Claude 4 Sonnet
ReAct архитектура с улучшенным scaffolding

4. ExpeRepair-v1.0 — 48.33%
Базовая версия без Claude 4 Sonnet
Все тот же structured output подход(промптинг)

Чем круче подобран набор tool + архитектура > размер модели

Хочу попробовать в течении месяца по вечерам собрать такого франкенштейна
vLLM + Structured Output (замена function calling)
Локальный planning-модуль (курсор мне в помощь) (аналог deep_analysis)
Multi-agent архитектура еще не выбрал что буду брать (есть советы?)
Эффективное использование 120k context (скорее всего буду батчи упаковывать для паралельного запуска tool

P.S. Кто еще тестирует open-source агентов на SWE-bench? Делитесь результатами!
🔥2011👍53
Forwarded from BOGDANISSSIMO
Напоминаем что сегодня в 19:00 по мск мы с t.iss.one/neuraldeep обсудим тонкости внедрения LLM в бизнесы, не задудьте добавить время в календарь чтобы не пропустить

https://stripo.email/storage/ics/2025/7/ics_neural-deep-bogdanisssimo-2025-07-08-060232.ics
9🔥5
Forwarded from Pavel Zloi
Обзор "MCP для новичков"

Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.

Тезис, вокруг которого построена публикация:
Model Context Protocol (MCP) - это просто API, разработанный для LLM.


Я тоже придерживаюсь мнения, что MCP это такое хитрое API с полезными утилитами созданными для того чтобы LLM эффективнее решала поставленные задачи, точка, попытки прикрутить к MCP что-то более как правило оканчиваются разочарованием в MCP.

Тут просто нужно понять и принять тот факт, что инструмент этот создан под определённую задачу, например молотком стоит забивать гвозди, а не пытаться рубить дерево, MCP нужен далеко не всегда, иногда проще реализовать классическое REST API.

Рекомендую к прочтению.

PS. И хоть видно что публикацию сгенерила нейронка виден здравый поинт и мысль автора.
35🤣6
Нас 120 человек не пропусти важное!

https://t.iss.one/bogdanisssimo?livestream=9ae2aabd177d2ee9d0
🔥7👏5
Завтра выступлю на конфе Turbo ML Conf 2025

https://t.iss.one/zheltyi_ai/440

Рега уже закрыта, будет запись
Расскажу про workflow, мелкие модели до 10b и простые решения!
Возможно запишу вам обстановку!
149👍119🔥4
Новый топ в open-source среди ру моделей 30b +?

И так пока я мчу на сапсане в МСК разберу новинку от
t-tech

T-pro-it-2.0 (qwen3-32b)

Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)

"Без спекулятивки"

Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},


Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)

Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация

Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка budget)

Либо можно передать параметр "enable_thinking": False и отключить расждуения вовсе

stream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)


Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n'

Что в свою очередь отключает размыления

Еще можно включить
--reasoning-parser qwen3

Такое нужно для передачи отдельного поля reasoning_content в ответе что хорошо расширят кол-во сценариев при работе с такой моделью


————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech

Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!

Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы

Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
🔥33👍10🤔21
This media is not supported in your browser
VIEW IN TELEGRAM
4🔥265
График точности всех RAG экспериментов из ERCv2

Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.

Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.

- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.

Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.

Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.

Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.

Ваш, @llm_under_hood 🤗

PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
🔥165
Всем спасибо кто слушал, было здорово
2🔥6324👍9
Forwarded from BOGDANISSSIMO
Please open Telegram to view this post
VIEW IN TELEGRAM
На злобу дня из рабочего чата
😁96👍81
Forwarded from LLM Arena
😨 Бенчмаркинг LLM в кризисе?

Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.

Мы проводим новое исследование, чтобы понять:

🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.

🧑‍💻 Для кого?

Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.

➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7

🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4
Forwarded from Neural Shit
Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.
😁53🤯5
120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку

Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!

Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0

Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза

Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
👍257🔥7👏1
Forwarded from Pavel Zloi
вайб-кодер != программист

Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.

В целом, ожидаемо.

Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".

В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.

Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.

Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.

Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.

И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.

Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
2🔥29👍9💯65
Где посты/разборы/бенчмарки Валера?

Рутина/Переезд/и много чего еще затянуло на пару недель

Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач

Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)

Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки

Но как говорится насмотрелся я мотивирующих видео, нет
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)

После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)

Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки

Вот такой мини обзор последних 2 недель!

В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
2🔥23👍138😁2
Forwarded from Dealer.AI
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.

Data scientist 0.77 😳

В массажисты, я пойду пусть меня научат(с) 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁27💯6🤔22