Neural Kovalskii

Залипаю тут на проект https://nof1.ai/ — Live Arena, где модельки (Claude 4.5 Sonnet, DeepSeek V3.1 Chat, Gemini 2.5 Pro, GPT 5, Grok 4, Qwen 3 Max) соревнуются в трейдинге.

Реальные деньги, реальный рынок. Старт был 18 октября и продлится до 3 ноября.

К сегодняшнему дню DeepSeek уже удвоился, в то время как GPT 5 с Gemini в сильной просадке.

Из интересного в проекте — можно смотреть все сделки и логику принятия решения по каждому трейду.

Модельки — горячие трейдеры)) Меньше 10го плеча не заходят.

Закинуть что ли косарик на DeepSeek для теста?

@alexs_journal

1🔥26😁16❤10

4.06K views12:08

Neural Kovalskii

Neural Kovalskii pinned a photo

13:03

Neural Kovalskii

Попытал удачу на реддит

https://www.reddit.com/r/LocalLLaMA/comments/1ohh1l2/86_accuracy_on_simpleqa_with_gpt41mini_opensource/

А вдруг)))

ROMA так и поднял 5к звезд

P.S Накидайте + плиз

From the LocalLLaMA community on Reddit: 86% accuracy on SimpleQA with gpt-4.1-mini. Open-source deep research agent.

Explore this post and more from the LocalLLaMA community

🔥61

4.73K viewsedited 15:29

Neural Kovalskii

gpt-oss-safeguard-20b

https://openai.com/index/introducing-gpt-oss-safeguard/

https://huggingface.co/openai/gpt-oss-safeguard-20b

Очень хорошая новость (две новых модельки для guardrails)

Хочется отметить что на мой взгляд обучение своих моделей для задач модерации на базе BERT/Presido все еще актуально из за inference time

Но если вы небольшой стартап и у вас есть пару 4090 то мой рекомендасйон

Из коробки надо промптить под свои задачи (в целом ок, интересно что с SO у vLLM будет и как будут падать метрики так как ризон + SO не совместимы как я помню)

новость от сюда Data Secret

Openai

Introducing gpt-oss-safeguard

New open safety reasoning models (120b and 20b) that support custom safety policies.

50🔥17

4.23K viewsedited 13:41

Neural Kovalskii

Forwarded from Dealer.AI

Други, дорогие, Вы очень многое сделали для канала. Пришла благая весть, наш админ попал в историю. Хорошую.

Он в шорт-листе премии RuCode2025

И ему нужна Ваша поддержка)

https://vk.com/wall-44001716_10214

Дядя - Абрамов Александр)

1❤21👍14🔥7👏3

3.37K views19:03

Neural Kovalskii

После нашего крутого Вайб Цех () хочу отметить еще один ивент на который пойду — Conversations

Кстати, до конца года будет еще 3-4 ивента на которых буду лично или выступать (ждите анонсов)

Часто вижу мало технических докладов, но в этот раз вижу сильные "названия":

Самокат про GenAI-поиск
От «что-то к чаю» до +N% к продажам: строим и масштабируем поисковый GenAI-сервис в Самокате — Арнольд Сааков, ecom.tech
Тут надеюсь что-то про разметку будет

MCP для оптимизации экономики
LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
Очень хочу послушать про MCP, надеюсь затронут локальные LLM

Conversations пройдет в Москве 5 декабря. Буду там в роли слушателя!

P.S. Полную программу можно посмотреть на сайте

1👍12❤6🔥3💯1

4.27K viewsedited 08:18

Neural Kovalskii

Startup pack от Kovalskii как за вечера собрать два MVP?

Меня спросили, какой стек я использую для запуска MVP и что
легко упаковывается для проверки гипотез через AI Coding

Покажу на примере двух проектов, которые активно развиваю по вечерам сам

1) https://speechcoreai.com/ — ASR платформа

Frontend

Vue.js 3 + TypeScript + Vite, Pinia для стейта, TailwindCSS

Browser Extension

Vanilla JavaScript, Chrome Manifest V3

Backend

FastAPI + Uvicorn, MongoDB + Motor async, Redis для очередей и кеша, MinIO как S3-хранилище

Auth

Google OAuth 2.0, JWT tokens

AI/ML

WhisperX + PyTorch CUDA, OpenAI API для саммаризации, WebSockets для real-time

Infrastructure

Docker Compose, Nginx

Железо: Ryzen 9 + 64GB RAM + RTX 4500

Время разработки: 4 недели по вечерам + помощь Артема

2) https://chat.sgr-core.com/ — Research AI агент

Второй MVP собрал за 3 дня, переиспользуя наработки из первого

Frontend

Vue 3 + TypeScript + Vite, Feature-Sliced Design

Backend

FastAPI + PostgreSQL 18 (вместо MongoDB), asyncpg connection pool, Server-Sent Events для стриминга

Auth

Google OAuth 2.0, JWT через python-jose

Search & AI

Tavily API + trafilatura, Schema-Guided Reasoning,
Multi-tool orchestration,
OpenAI SDK async для работы с моделями,
Memory через файловую систему

Infrastructure

Docker Compose, PostgreSQL + Adminer, Nginx (Знакомо? ага все сложное очень просто)

Железо: VPS с 4 ядрами и 8GB RAM

Тут уже справился почти в одиночку (первый драфт фронта собирал senior фронт далее я его забрал на ai код доработки)

Что переиспользуется между проектами

Frontend Vue 3 + Vite + Pinia проверенный стек
FastAPI + Pydantic быстро и типобезопасно
Auth Google OAuth + JWT без переписывания
Работа с моделями OpenAI SDK async паттерны
Docker Compose одна команда запуска
Nginx знакомая конфигурация (быстрый конфиг и upstream)

Моя рекомендация

Не обвязывайся на старте Vercel/Supabase/AWS сервисами

Первый проект живет на обычном сервере: Ryzen 7 + 32GB RAM + RTX 4070
Второй на простой виртуалке: 4 ядра + 8GB RAM

Зачем оверкилл? (Увидел у ребят в одном видосе как они на k8s собирают проект с кол-во юзеров ну максимум 1rps обеспечат в пик (так тоже можно но зачем?))

Не стоит упарываться в k8s или федеративное масштабирование для MVP!
Если не уверен, что обеспечишь прирост пользователей x100-x1000 от друзей и комьюнити не борщи

Могу привести в пример несколько проектов которые знаю что ребята живут на 1-2 виртуалках чуть ли не через screen запуская свой продукт и делают ставку на привлечение пользователей а не на ублажение арх паттернов, оставьте эти решения до 1 млн MAU и 100 rps к базе

Как я вижу чаще продукты решают масштабирование по мере роста, а не заранее (только если не уверены в том что знают как дотянутся до аудитории)

Держи базовый стек знакомым Vue + FastAPI + Docker (пример)
Переиспользуй auth и работу с моделями
Меняй только критичное под задачу
Валидируй гипотезу, а не архитектуру

От идеи до рабочего MVP: 3-6 недели по вечерам (при моей загрузке)

Стек выше самодостаточен для проверки идей и может быть переиспользован (сохраняй!)

P.S Не истина в последней инстанции, делитесь и вашими паками в комментариях!

🔥48👍21💯33

4.45K viewsedited 05:57

Neural Kovalskii

Forwarded from Daisy news

🔥

Фотошоп от Daisy

Хочешь увидеть, как я справляюсь с ролью креативного редактора? Теперь я могу полностью преобразить фото. Добавить детали, поменять стиль, создать новую сцену, и всё это по твоему описанию.

📸 Просто загрузи снимок и напиши, что нужно изменить. Я аккуратно доработаю кадр — от Деда Мороза в стеклянном шаре до Человека-паука с идеальным фото для резюме.

⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot

#DaisyNews

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍5❤33

4.19K views11:01

На сегодня хватит интернетов 🤣

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁92

5.53K views11:21

Neural Kovalskii

SGR memory agent?
Бесконечная память у агента?

Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов

Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн

Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool

Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал

А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов

И что же вышло?

Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса

Как работает память?

По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог

Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения

Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером

Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!

P.S Данный пост сделал дабы закрепить мысли об этом эксперименте

Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!

❤19🔥14👍43

4.59K viewsedited 11:17

Neural Kovalskii

Forwarded from Тимур Хахалев про AI Coding

MCP нам был нужен, теперь пришло время идти дальше

Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄

В этой статье они небезосновательно упоминают о частых проблемах с MCP:

▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут

▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".

Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.

Насколько я помню, у Claude Desktop версий моделек Sonnet, контекстное окно вообще в 32k токенов

Как эти проблемы предлагает решить Anthropic?

Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.

Как наш пример можно реализовать с таким подходом?

1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()

Гениально! 🎉

В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.

☝️

Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.

Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.

Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".

Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.

А вы что думаете по этому подходу?

✔️

Timur Khakhalev про AI Coding, подписывайтесь!

⭐️

Консультации по AI Coding

Please open Telegram to view this post

VIEW IN TELEGRAM

❤35👍23🤔7🤣3

3.6K views17:04

Neural Kovalskii

Forwarded from red_mad_robot

Новая карта LLM-практик в России: исследование red_mad_robot

Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.

📎 Опрос занимает 5–7 минут, а пройти его можно по ссылке.

После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.

#AI_moment #роботайм

↗️

red_mad_robot

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Docs

Пользовательский опыт работы с LLM

🔥10👍3

3.58K views10:03

Neural Kovalskii

SGR File-First: когда двухфазная архитектура встречает файловую систему

После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы

Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent

Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)

Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)

Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)

Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее

Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:

Step 4: Ищу PDF в /home
Result: TIMEOUT после 30 секунд

Step 5: Qwen3-30B reasoning
"Поиск всех PDF привел к таймауту
Необходимо сузить область поиска
Рассмотрим Downloads Documents Desktop"

Step 6: Ищу в /Downloads  
Result: 25 файлов за 0.5 секунды

Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к Downloads и пошел там шерстить

Это не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)

Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез

Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent

Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)

cp config.yaml.example config.yaml

Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:

API: https://openai-hub.neuraldeep.tech/v1
Key: sk-yrCBAGm4pEkAq7iBE1c1lQ
Активен: 5 дней

В одном терминале поднимаем апи

uv run python sgr_deep_research

В другом кидаем запрос

curl -X POST "https://0.0.0.0:8010/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "sgr_file_agent",
    "messages": [
      {
        "role": "user",
        "content": "Найди все Python файлы больше 1MB"
      }
    ]
  }'

Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)

Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)

5🔥25❤6👍4

3.57K viewsedited 13:00

About

Blog

Apps

Platform