Neural Kovalskii

UI-Browser LLM automation песочница для автоматизация браузера на базе LLM

Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили

Все внутри просто

docker compose up -d

И полетели!

Вот держите что я там наваял?

Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера

Защищенный доступ: Авторизация по логину и паролю для контроля доступа

Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы

Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)

Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)

GitHub

🔥16👍6👏4❤1

2.23K viewsedited 11:06

Neural Kovalskii

Forwarded from red_mad_robot

Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣

Chatbot Arena (LMSYS): парные сравнения моделей

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣

Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣

MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1912👍6👏3

1.98K views12:41

Neural Kovalskii

Смотрите чё выпало из недр моей тумбы, тогда мне точно было не до AI

Аж олдскулы свело на моменте покупки рингтонов через sms

🔥26😁14

2.4K views16:47

Neural Kovalskii

Присоединяюсь к поздравлениям моего ~~собутыльника~~ друга Леши Жданова

Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀

Почему это важно?

— Опенсорс делает технологии быстрее и доступнее.

— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.

— Поддержка компаний вроде Яндекса мотивирует развивать open-source.

Миш, поздравляю тебя

👏37❤12😁6

2.67K viewsedited 20:19

Neural Kovalskii

LLM от Antropic сама решает когда пойти в интернет!

По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!

Но работает действительно лучше! Скипаю этап поиска и скармливания документации!

Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)

👍21🔥8❤5

3K viewsedited 21:55

Neural Kovalskii

Слайды для презентаций в HTML по старинке?

А почему бы и нет

Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок

Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот

Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен

Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git

В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)

🔥31👍9❤5

3.17K viewsedited 21:02

Neural Kovalskii

Сезонные тренды на запросы к чат-LLM

Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты

Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации

И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно

Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата

Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов

Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение

PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд

👍21🔥2

2.55K viewsedited 14:22

Neural Kovalskii

Принял эстафету по мифам и разоблачениям LLM
от Just AI которую мне передал Рома основатель llmarena.ru

Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.

Вот про это и расскажу 🔼

Эстафету передаю Паше Злому

👍15🔥14❤5😁2

2.99K views10:21

Neural Kovalskii

n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…

Nathan! (n8n) лоcallьная связка vLLM + SO + API tools работает отлично на 7b модели с 9 навыками, но масштабирование требует более гибкого решения чем ручная настройка через Claude и это боль

Большую часть времени потратил на написание и стабилизацию роутинга на базе LLM (работает!)
3-ю неделю продолжаю мучать локальные модели на предмет агентного workflow в связке vLLM + SO + API tool по http реквестам
Да, вышло добротно теперь у агента на 7b модельке есть целых 9! навыков
Теперь умеет:

1) Просто поболтать
2) Сходить в интернет
3) Найти погоду по названию города
4) Найти что-то в RAG
5) Прислать календарь
6) Поставить встречу в календарь
7) Гуглить по картинкам
8) Ходить в RAG и искать по картинкам
9) Может описать картинку
И всё это на одном ПК (4090+3090) звучит достигаемо

Но всё ещё такой системе не хватает быстрого масштабирования
Да, я завязался на SO + генерацию json + его парсинг
Роутинг работает, он иногда ошибается в интентах, но проблема в том, что я недостаточно чётко прописал фью-шоты внутри tool
Проблема таких инструментов для workflow в одном если я хочу прыгать по таким решениям как
Тут мне нравится xgrammar
Тут мне нравится outlines
А тут я вообще подключил кастомный бэк, который скачивает записи звонков из Zoom
Тут я подключил VL модель
Или вообще взял и замутил касмтоную схему с CoT

И как я не старался ни одна из стандартных нод мне этого не дала (пришлось писать на js да в n8n нет python он в бэте)

Каждый чих заставляет меня идти в интерфейс к Claude и грузить туда скрины, как выглядит схема
Брать контекст кода предыдущих нод
Объяснять, что же за логику я хочу реализовать, попутно загружая как в n8n работает обращение к типам и данным
В целом, если бы сейчас я сел делать такое же, но копию сделал бы за день,
но это не масштабируется

Пошёл копать, есть ли "адекватный коннект Cursor к n8n" — на текущий момент нашёл крохи (назревают полезные мысли)

PS
Из крутого обучил системного аналитика за сутки собирать таких же агентов на базе локальных моделей

🔥34👍14❤2

2.83K viewsedited 11:43

Neural Kovalskii

Audio

Встретились как-то два Дяди поболтать за жизнь LLM и GuardRails
Валера тут конечно в лице девушки, а Дядя как всегда брутален!

Посидели тут и послушали разговор еще раз и наконец-то открыли notebooklm.
И сделали вот такую красоту, для вас, чтобы вы тоже могли послушать.
Еще лайфхак как делать тайминги).

00:00 - Введение: безопасность и надежность LLM
00:29 - Входной контроль (фильтры, списки, BERT-классификаторы)
00:52 - Умные отказы вместо блокировок для поддержания UX
01:20 - Выходной контроль генерируемого контента
01:26 - Alignment (тонкая настройка модели)
01:45 - Стратегии: Alignment vs внешние фильтры
02:13 - Метрики: FPR и F1 score
02:32 - Проблема галлюцинаций в RAG
02:49 - "Размытие + быстрая проверка" для борьбы с галлюцинациями
03:28 - Малые модели (TinyBERT) для быстрой классификации
03:41 - Имитация обдумывания для естественности
03:55 - Тюнинг эмбеддеров (BERT, E5, BGE)
04:28 - Токен хилинг: предсказание и откат проблемных токенов
05:01 - Резюме: комплексный подход к надежности
05:29 - Вопрос о "разумности" vs хорошей инфраструктуре

25🔥215👍4

2.82K viewsedited 13:56

Neural Kovalskii

Forwarded from LLM под капотом

OpenAI Codex - по ощущениям похоже на Deep Research в своих проектах

Подключаешь к Github, даешь доступ к проекту и запускаешь задачи. И оно что-то там крутит и копошится, примерно как o1 pro / Deep Research. Только вместо поиска в сети оно работает с кодом в контейнере - запускает утилиты и пытается прогонять тесты (если они есть). Цепочку рассуждений можно проверить.

По результатам - создает Pull Request с изменениями, который можно просмотреть и отправить обратно в Github.

Потенциально выглядит весьма интересно. Deep Research и планировщику OpenAI я доверяю. А тут прямо можно поставить в очередь ряд задач и переключиться на другие дела.

Ваш, @llm_under_hood 🤗

👍10🔥6❤3

2.14K views19:33

About

Blog

Apps

Platform