Neural Kovalskii
9.39K subscribers
390 photos
57 videos
4 files
292 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat

To infinity... and beyond!
Download Telegram
Forwarded from Dealer.AI
Други, дорогие, Вы очень многое сделали для канала. Пришла благая весть, наш админ попал в историю. Хорошую.

Он в шорт-листе премии RuCode2025

И ему нужна Ваша поддержка)

https://vk.com/wall-44001716_10214

Дядя - Абрамов Александр)
121👍14🔥7👏3
После нашего крутого Вайб Цех () хочу отметить еще один ивент на который пойду — Conversations

Кстати, до конца года будет еще 3-4 ивента на которых буду лично или выступать (ждите анонсов)

Часто вижу мало технических докладов, но в этот раз вижу сильные "названия":

Самокат про GenAI-поиск
От «что-то к чаю» до +N% к продажам: строим и масштабируем поисковый GenAI-сервис в Самокате — Арнольд Сааков, ecom.tech
Тут надеюсь что-то про разметку будет


MCP для оптимизации экономики
LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
Очень хочу послушать про MCP, надеюсь затронут локальные LLM


Conversations пройдет в Москве 5 декабря. Буду там в роли слушателя!

P.S. Полную программу можно посмотреть на сайте
1👍126🔥3💯1
Startup pack от Kovalskii как за вечера собрать два MVP?

Меня спросили, какой стек я использую для запуска MVP и что
легко упаковывается для проверки гипотез через AI Coding

Покажу на примере двух проектов, которые активно развиваю по вечерам сам

1) https://speechcoreai.com/ — ASR платформа

Frontend

Vue.js 3 + TypeScript + Vite, Pinia для стейта, TailwindCSS

Browser Extension

Vanilla JavaScript, Chrome Manifest V3

Backend

FastAPI + Uvicorn, MongoDB + Motor async, Redis для очередей и кеша, MinIO как S3-хранилище

Auth

Google OAuth 2.0, JWT tokens

AI/ML

WhisperX + PyTorch CUDA, OpenAI API для саммаризации, WebSockets для real-time

Infrastructure

Docker Compose, Nginx

Железо: Ryzen 9 + 64GB RAM + RTX 4500


Время разработки: 4 недели по вечерам + помощь Артема


2) https://chat.sgr-core.com/ — Research AI агент

Второй MVP собрал за 3 дня, переиспользуя наработки из первого

Frontend

Vue 3 + TypeScript + Vite, Feature-Sliced Design

Backend

FastAPI + PostgreSQL 18 (вместо MongoDB), asyncpg connection pool, Server-Sent Events для стриминга

Auth

Google OAuth 2.0, JWT через python-jose

Search & AI

Tavily API + trafilatura, Schema-Guided Reasoning,
Multi-tool orchestration,
OpenAI SDK async для работы с моделями,
Memory через файловую систему

Infrastructure

Docker Compose, PostgreSQL + Adminer, Nginx (Знакомо? ага все сложное очень просто)

Железо: VPS с 4 ядрами и 8GB RAM

Тут уже справился почти в одиночку (первый драфт фронта собирал senior фронт далее я его забрал на ai код доработки)


Что переиспользуется между проектами

Frontend Vue 3 + Vite + Pinia проверенный стек
FastAPI + Pydantic быстро и типобезопасно
Auth Google OAuth + JWT без переписывания
Работа с моделями OpenAI SDK async паттерны
Docker Compose одна команда запуска
Nginx знакомая конфигурация (быстрый конфиг и upstream)


Моя рекомендация

Не обвязывайся на старте Vercel/Supabase/AWS сервисами


Первый проект живет на обычном сервере: Ryzen 7 + 32GB RAM + RTX 4070
Второй на простой виртуалке: 4 ядра + 8GB RAM

Зачем оверкилл? (Увидел у ребят в одном видосе как они на k8s собирают проект с кол-во юзеров ну максимум 1rps обеспечат в пик (так тоже можно но зачем?))

Не стоит упарываться в k8s или федеративное масштабирование для MVP!
Если не уверен, что обеспечишь прирост пользователей x100-x1000 от друзей и комьюнити не борщи

Могу привести в пример несколько проектов которые знаю что ребята живут на 1-2 виртуалках чуть ли не через screen запуская свой продукт и делают ставку на привлечение пользователей а не на ублажение арх паттернов, оставьте эти решения до 1 млн MAU и 100 rps к базе

Как я вижу чаще продукты решают масштабирование по мере роста, а не заранее (только если не уверены в том что знают как дотянутся до аудитории)


Держи базовый стек знакомым Vue + FastAPI + Docker (пример)
Переиспользуй auth и работу с моделями
Меняй только критичное под задачу
Валидируй гипотезу, а не архитектуру

От идеи до рабочего MVP: 3-6 недели по вечерам (при моей загрузке)

Стек выше самодостаточен для проверки идей и может быть переиспользован (сохраняй!)

P.S Не истина в последней инстанции, делитесь и вашими паками в комментариях!
🔥47👍21💯33
Forwarded from Daisy news
🔥 Фотошоп от Daisy

Хочешь увидеть, как я справляюсь с ролью креативного редактора? Теперь я могу полностью преобразить фото. Добавить детали, поменять стиль, создать новую сцену, и всё это по твоему описанию.

📸 Просто загрузи снимок и напиши, что нужно изменить. Я аккуратно доработаю кадр — от Деда Мороза в стеклянном шаре до Человека-паука с идеальным фото для резюме.

⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot

#DaisyNews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍533
Media is too big
VIEW IN TELEGRAM
На сегодня хватит интернетов 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁91
SGR memory agent?
Бесконечная память у агента?

Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов

Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн

Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool

Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал

А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов

И что же вышло?

Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса

Как работает память?

По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог

Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения

Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером


Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!


P.S Данный пост сделал дабы закрепить мысли об этом эксперименте

Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!
19🔥14👍43
MCP нам был нужен, теперь пришло время идти дальше

Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄

В этой статье они небезосновательно упоминают о частых проблемах с MCP:

▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут

▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".

Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.
Насколько я помню, у Claude Desktop версий моделек Sonnet, контекстное окно вообще в 32k токенов

Как эти проблемы предлагает решить Anthropic?

Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.

Как наш пример можно реализовать с таким подходом?

1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()

Гениально! 🎉

В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.

☝️

Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.

Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.

Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".

Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.

А вы что думаете по этому подходу?

✔️ Timur Khakhalev про AI Coding, подписывайтесь!
⭐️ Консультации по AI Coding
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍23🤔7🤣3
Forwarded from red_mad_robot
Новая карта LLM-практик в России: исследование red_mad_robot

Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.

📎 Опрос занимает 5–7 минут, а пройти его можно по ссылке.

После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.

#AI_moment #роботайм

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3
SGR File-First: когда двухфазная архитектура встречает файловую систему

После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы

Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent

Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)

Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)

Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)

Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее

Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:
Step 4: Ищу PDF в /home
Result: TIMEOUT после 30 секунд

Step 5: Qwen3-30B reasoning
"Поиск всех PDF привел к таймауту
Необходимо сузить область поиска
Рассмотрим Downloads Documents Desktop"

Step 6: Ищу в /Downloads
Result: 25 файлов за 0.5 секунды


Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к Downloads и пошел там шерстить

Это не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)

Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез

Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent

Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)
cp config.yaml.example config.yaml

Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:

API: https://openai-hub.neuraldeep.tech/v1
Key: sk-yrCBAGm4pEkAq7iBE1c1lQ
Активен: 5 дней

В одном терминале поднимаем апи

uv run python sgr_deep_research


В другом кидаем запрос
curl -X POST "https://0.0.0.0:8010/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "sgr_file_agent",
"messages": [
{
"role": "user",
"content": "Найди все Python файлы больше 1MB"
}
]
}'


Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)

Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)
5🔥256👍4
Помогите SGR Deep Research стать еще лучше — поделитесь своим опытом!

Друзья, нужна ваша помощь!
Через несколько дней выступаю на конференции про SGR Deep Research, и хочу показать реальные кейсы от людей, которые уже используют фреймворк в production.

Не абстрактные метрики, а живые истории — как вы решаете задачи, какие профиты получаете, с какими граблями сталкиваетесь используя проект https://github.com/vamplabAI/sgr-deep-research

Почему стоит потратить 3 минуты:
Получите сводную аналитику по всем кейсам (как другие используют SGR, какие паттерны работают). Ваш feedback напрямую повлияет на roadmap проекта

Лучшие кейсы упомяну в докладе, по вашему желанию можем анонимно

Проект растет
Изначально это был sgr-deep-research, сейчас обрастаем разными решениями и архитектурными подходами
Возможно, пора ребрендиться в sgr-agent-core?
Ваше мнение для меня критично!

Опрос анонимный
Контакты только если вы их оставите и хотите получить резульаты


https://docs.google.com/forms/d/e/1FAIpQLSdgG4xr2KDG7CucjxkRd1yNtS0qsij5RL3xBcw2LowHrlOD5w/viewform?usp=dialog
🔥14
Видео (6 мин) работы чатбота с SGR на базе локальной Qwen-30b-a3b

Про Schema-Guided Reasoning говорили и писали уже много. Но одно дело слышать, а другое дело - увидеть, как оно работает вживую. Особенно, если реализация сделана настолько аккуратно и вдумчиво, как это сделали ребята из neuraldeep.

Поэтому вот вам видео на 6 минут - Русский / English

Самое классное тут, что эта демка работала на достаточно слабой и медленной Qwen-30b-a3b. А теперь представьте, что можно сделать, если прочитать методичку (написано тут), взять код (он есть в Github) поставить ему звездочку, взять модель помощнее и сделать свою версию - с тестами, с доступом в свои хранилища, учетом своей специфики и своими инструментами. И запускать все это на небольшой коробочке вроде DGX Spark.

А если будут PR - можно смело присылать их в ту репу, чтобы двигать дальше State of the Art в области применения небольших LLM на практике.

Ваш, @llm_under_hood 🤗
4🔥337👍5💯4
Qwen3Guard-Stream: real-time модерация которая реально работает

Новый день новый тест Qwen!

Если вы пропустили специализированные модели для safety moderation, то вот есть три размера (0.6B, 4B, 8B) обученные на 1.19 млн промптов с разметкой на безопасность

Разберем именно стриминг он мне как раз больше всего интересен

Stream-версия делает token-level classification на лету, модерирует каждый токен пока он генерится, можешь прервать сразу как увидел unsafe контент
Напомню мой опыт с NSFW-фильтрами, там боролся с 37% False Positive на gpt-4o-mini, переделывал промпты долго

Тут получаешь детекцию в реальном времени прямо в процессе генерации
Трехуровневую классификацию: Safe, Controversial, Unsafe
9 категорий для промптов включая Jailbreak
8 категорий для ответов
119 языков из коробки

Ну и возможность тюна конечно если есть ресурсы

На одной RTX 4090
Модель на 8B выдает 55 t/s это примерно 150ms до первого токена и начала модерации
В целом крутой пайп буду затаскивать дальше в эксперименты

Про стриминг анализ ответа, как по мне это сильно повышает удовлетворенность от UX эксприенса!
Пользователь не ждет полный ответ чтобы понять что заблокирован система реагирует моментально (кстати давно так делаем в своей RAG платформе спасибо Дяде за подсказку)


Как работает анализ/модерация в режиме стриминга разберем на примере как говорит мой друг Леха "переводим на говяжий"

Представь что твой чат-бот начинает генерить ответ на вопрос пользователя "как сделать бомбу"

Без Stream-модерации ты ждешь пока бот напишет весь ответ (например 200 токенов) потом прогоняешь через модератор и если плохо удаляешь, пользователь уже видел начало генерации

Со Stream-модерацией бот генерит первый токен "Вот" отправляешь в Qwen3Guard-Stream он говорит Safe продолжаешь, второй токен "простые" проверяешь Safe, третий токен "инструкции" проверяешь Safe, четвертый токен "по" проверяешь Safe, пятый токен "изготовлению" проверяешь Unsafe стоп прерываешь генерацию прямо тут
Пользователь видит "Вот простые инструкции по..." бац остановка вместо полного вредоносного текста


Механизм под капотом
Модель имеет специальный classification head который работает параллельно генерации
Шаг 1 прогоняешь промпт пользователя целиком "как сделать бомбу" через stream_moderate_from_ids с role="user"
Модель возвращает оценку Safe/Controversial/Unsafe плюс stream_state это типа память контекста разговора

Шаг 2 твоя основная LLM (например GPT или Qwen) начинает генерить ответ токен за токеном

Шаг 3 каждый новый токен от основной LLM ты сразу скармливаешь в Qwen3Guard-Stream вместе со stream_state
Модель видит весь контекст (промпт плюс уже сгенерированные токены) и оценивает текущий токен

Шаг 4 если детектит Unsafe можешь сразу прервать основную LLM не дожидаясь полного ответа

Это работает потому что Stream-версия обучена анализировать частичный текст а не только финальный результат

Поддержка уже везде SGLang и vLLM
Для Gen-версии можно поднять через sglang>=0.4.6.post1 или vllm>=0.9.0

Особенно интересно для сценариев где latency критична и нужна мультиязычность!
21🔥11👍3🤔2