Neural Kovalskii
9.45K subscribers
392 photos
57 videos
4 files
293 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat

To infinity... and beyond!
Download Telegram
Залипаю тут на проект https://nof1.ai/ — Live Arena, где модельки (Claude 4.5 Sonnet, DeepSeek V3.1 Chat, Gemini 2.5 Pro, GPT 5, Grok 4, Qwen 3 Max) соревнуются в трейдинге.

Реальные деньги, реальный рынок. Старт был 18 октября и продлится до 3 ноября.

К сегодняшнему дню DeepSeek уже удвоился, в то время как GPT 5 с Gemini в сильной просадке.

Из интересного в проекте — можно смотреть все сделки и логику принятия решения по каждому трейду.

Модельки — горячие трейдеры)) Меньше 10го плеча не заходят.

Закинуть что ли косарик на DeepSeek для теста?

@alexs_journal
1🔥26😁1610
gpt-oss-safeguard-20b

https://openai.com/index/introducing-gpt-oss-safeguard/

https://huggingface.co/openai/gpt-oss-safeguard-20b


Очень хорошая новость (две новых модельки для guardrails)

Хочется отметить что на мой взгляд обучение своих моделей для задач модерации на базе BERT/Presido все еще актуально из за inference time

Но если вы небольшой стартап и у вас есть пару 4090 то мой рекомендасйон

Из коробки надо промптить под свои задачи (в целом ок, интересно что с SO у vLLM будет и как будут падать метрики так как ризон + SO не совместимы как я помню)

новость от сюда Data Secret
50🔥17
Forwarded from Dealer.AI
Други, дорогие, Вы очень многое сделали для канала. Пришла благая весть, наш админ попал в историю. Хорошую.

Он в шорт-листе премии RuCode2025

И ему нужна Ваша поддержка)

https://vk.com/wall-44001716_10214

Дядя - Абрамов Александр)
121👍14🔥7👏3
После нашего крутого Вайб Цех () хочу отметить еще один ивент на который пойду — Conversations

Кстати, до конца года будет еще 3-4 ивента на которых буду лично или выступать (ждите анонсов)

Часто вижу мало технических докладов, но в этот раз вижу сильные "названия":

Самокат про GenAI-поиск
От «что-то к чаю» до +N% к продажам: строим и масштабируем поисковый GenAI-сервис в Самокате — Арнольд Сааков, ecom.tech
Тут надеюсь что-то про разметку будет


MCP для оптимизации экономики
LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
Очень хочу послушать про MCP, надеюсь затронут локальные LLM


Conversations пройдет в Москве 5 декабря. Буду там в роли слушателя!

P.S. Полную программу можно посмотреть на сайте
1👍126🔥3💯1
Startup pack от Kovalskii как за вечера собрать два MVP?

Меня спросили, какой стек я использую для запуска MVP и что
легко упаковывается для проверки гипотез через AI Coding

Покажу на примере двух проектов, которые активно развиваю по вечерам сам

1) https://speechcoreai.com/ — ASR платформа

Frontend

Vue.js 3 + TypeScript + Vite, Pinia для стейта, TailwindCSS

Browser Extension

Vanilla JavaScript, Chrome Manifest V3

Backend

FastAPI + Uvicorn, MongoDB + Motor async, Redis для очередей и кеша, MinIO как S3-хранилище

Auth

Google OAuth 2.0, JWT tokens

AI/ML

WhisperX + PyTorch CUDA, OpenAI API для саммаризации, WebSockets для real-time

Infrastructure

Docker Compose, Nginx

Железо: Ryzen 9 + 64GB RAM + RTX 4500


Время разработки: 4 недели по вечерам + помощь Артема


2) https://chat.sgr-core.com/ — Research AI агент

Второй MVP собрал за 3 дня, переиспользуя наработки из первого

Frontend

Vue 3 + TypeScript + Vite, Feature-Sliced Design

Backend

FastAPI + PostgreSQL 18 (вместо MongoDB), asyncpg connection pool, Server-Sent Events для стриминга

Auth

Google OAuth 2.0, JWT через python-jose

Search & AI

Tavily API + trafilatura, Schema-Guided Reasoning,
Multi-tool orchestration,
OpenAI SDK async для работы с моделями,
Memory через файловую систему

Infrastructure

Docker Compose, PostgreSQL + Adminer, Nginx (Знакомо? ага все сложное очень просто)

Железо: VPS с 4 ядрами и 8GB RAM

Тут уже справился почти в одиночку (первый драфт фронта собирал senior фронт далее я его забрал на ai код доработки)


Что переиспользуется между проектами

Frontend Vue 3 + Vite + Pinia проверенный стек
FastAPI + Pydantic быстро и типобезопасно
Auth Google OAuth + JWT без переписывания
Работа с моделями OpenAI SDK async паттерны
Docker Compose одна команда запуска
Nginx знакомая конфигурация (быстрый конфиг и upstream)


Моя рекомендация

Не обвязывайся на старте Vercel/Supabase/AWS сервисами


Первый проект живет на обычном сервере: Ryzen 7 + 32GB RAM + RTX 4070
Второй на простой виртуалке: 4 ядра + 8GB RAM

Зачем оверкилл? (Увидел у ребят в одном видосе как они на k8s собирают проект с кол-во юзеров ну максимум 1rps обеспечат в пик (так тоже можно но зачем?))

Не стоит упарываться в k8s или федеративное масштабирование для MVP!
Если не уверен, что обеспечишь прирост пользователей x100-x1000 от друзей и комьюнити не борщи

Могу привести в пример несколько проектов которые знаю что ребята живут на 1-2 виртуалках чуть ли не через screen запуская свой продукт и делают ставку на привлечение пользователей а не на ублажение арх паттернов, оставьте эти решения до 1 млн MAU и 100 rps к базе

Как я вижу чаще продукты решают масштабирование по мере роста, а не заранее (только если не уверены в том что знают как дотянутся до аудитории)


Держи базовый стек знакомым Vue + FastAPI + Docker (пример)
Переиспользуй auth и работу с моделями
Меняй только критичное под задачу
Валидируй гипотезу, а не архитектуру

От идеи до рабочего MVP: 3-6 недели по вечерам (при моей загрузке)

Стек выше самодостаточен для проверки идей и может быть переиспользован (сохраняй!)

P.S Не истина в последней инстанции, делитесь и вашими паками в комментариях!
🔥48👍21💯33
Forwarded from Daisy news
🔥 Фотошоп от Daisy

Хочешь увидеть, как я справляюсь с ролью креативного редактора? Теперь я могу полностью преобразить фото. Добавить детали, поменять стиль, создать новую сцену, и всё это по твоему описанию.

📸 Просто загрузи снимок и напиши, что нужно изменить. Я аккуратно доработаю кадр — от Деда Мороза в стеклянном шаре до Человека-паука с идеальным фото для резюме.

⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot

#DaisyNews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍533
Media is too big
VIEW IN TELEGRAM
На сегодня хватит интернетов 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁92
SGR memory agent?
Бесконечная память у агента?

Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов

Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн

Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool

Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал

А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов

И что же вышло?

Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса

Как работает память?

По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог

Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения

Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером


Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!


P.S Данный пост сделал дабы закрепить мысли об этом эксперименте

Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!
19🔥14👍43
MCP нам был нужен, теперь пришло время идти дальше

Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄

В этой статье они небезосновательно упоминают о частых проблемах с MCP:

▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут

▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".

Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.
Насколько я помню, у Claude Desktop версий моделек Sonnet, контекстное окно вообще в 32k токенов

Как эти проблемы предлагает решить Anthropic?

Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.

Как наш пример можно реализовать с таким подходом?

1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()

Гениально! 🎉

В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.

☝️

Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.

Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.

Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".

Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.

А вы что думаете по этому подходу?

✔️ Timur Khakhalev про AI Coding, подписывайтесь!
⭐️ Консультации по AI Coding
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍23🤔7🤣3
Forwarded from red_mad_robot
Новая карта LLM-практик в России: исследование red_mad_robot

Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.

📎 Опрос занимает 5–7 минут, а пройти его можно по ссылке.

После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.

#AI_moment #роботайм

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3
SGR File-First: когда двухфазная архитектура встречает файловую систему

После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы

Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent

Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)

Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)

Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)

Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее

Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:
Step 4: Ищу PDF в /home
Result: TIMEOUT после 30 секунд

Step 5: Qwen3-30B reasoning
"Поиск всех PDF привел к таймауту
Необходимо сузить область поиска
Рассмотрим Downloads Documents Desktop"

Step 6: Ищу в /Downloads
Result: 25 файлов за 0.5 секунды


Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к Downloads и пошел там шерстить

Это не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)

Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез

Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent

Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)
cp config.yaml.example config.yaml

Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:

API: https://openai-hub.neuraldeep.tech/v1
Key: sk-yrCBAGm4pEkAq7iBE1c1lQ
Активен: 5 дней

В одном терминале поднимаем апи

uv run python sgr_deep_research


В другом кидаем запрос
curl -X POST "https://0.0.0.0:8010/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "sgr_file_agent",
"messages": [
{
"role": "user",
"content": "Найди все Python файлы больше 1MB"
}
]
}'


Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)

Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)
5🔥256👍4