Neural Kovalskii

На связи r&d NDT подъехали наши локальные тесты под наш продуктовый бенчмарк RAG на enterprise задачах извлечения данных поиск по фин. документам, анализ отчётов.

Скоро подготовлю большой пост где будет лидерборд около 10 моделей on-premise

Угадайте какая модель выиграла?

56🔥11👍5❤4

1.38K viewsValerii Kovalskii, edited 13:32

Neural Kovalskii

Кстати у нас есть добрый и ламповый чат этого канала где обсуждают LLM и могут ответить на ваши вопросы про ИТ заходите чтобы не пропустить актуальное обсуждение

https://t.iss.one/neuraldeepchat

Чат Kovalskii Варианты?

Ask about LLM
Чат канала @neuraldeep

Прошу общаться вежливо и дружелюбно

1🔥10

1.25K viewsValerii Kovalskii, edited 13:59

Neural Kovalskii

Forwarded from LLM под капотом

Titan - альтернатива трансформерам от Google #разбор

Google тут втихую выложил интересную работу про LLM с улучшенной памятью и потенциальным контекстом более 2M. Если учитывать то, что Google в последнее время кучно выпускает модели, которые попадают в TOP-10 моего бизнес-бенчмарка, то потенциал у этой затеи очень интересный.

Если в обычном Transformer память о прошлых токенах хранится только в рамках короткого окна self-attention (и приходится хитрить со Structured Checklists, чтобы оптимизировать внимание), то в Titans вводится многокомпонентная система памяти:

(1) Краткосрочная память (ограниченное скользящее окно внимания).
(2) Долгосрочная память (онлайн-обучаемая нейронная память).
(3) Постоянная память (фиксированный набор параметров для общих знаний).

Такое построение позволяет модели "учиться" на неожиданных событиях прямо во время inference. По сравнению с трансформерами, Titans обеспечивают:

(1) Более эффективную работу с очень длинными контекстами, перекладывая «глобальное» запоминание с дорогого self-attention на лёгкий по вычислительным затратам механизм памяти (ближе к O(n) или O (n log n), нежели тупиковый O(n*n))
(2) Увеличенную способность «доставать» нужную информацию из глубокого прошлого за счёт специального, динамически обновляемого модуля.

Это теоретически дает превосходство на ряде бенчмарков, где требуется действительно долгосрочное моделирование (например, cверхдлинные «needle-in-haystack» задачи, задачи из time-series и геномики).

Получится ли у Google забить тот самый гвоздь в крышку гроба трансформеров - еще предстоит посмотреть. Но если это случится в 2025 году - это будет здорово, даже если снова придется пересматривать все архитектуры!

Прочитать статью можно тут.

Ваш, @llm_under_hood 🤗

PS: Google могли бы оптимизировать модели под использование GPU и CPU тесном тандеме, и тогда они могли бы работать только на системах вроде Google TPU или новых супер-чипов NVidia. Но именно в этой архитектуре обновления памяти специально распараллеливаются так, чтобы работать хорошо на традиционных акселераторах. Молодцы!

👍12

1.26K viewsValerii Kovalskii, 11:31

Neural Kovalskii

RAG за 3 часа на 2млн токенов из телеграм канала?

Легко!
На основе комьюнити чата и с разрешения владельца канала

Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products

Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.

При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.

Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.

ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41

Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке

Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов

В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале

Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖

P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!

50🔥20👍15❤1

1.6K viewsValerii Kovalskii, 13:18

Neural Kovalskii

RAG за 3 часа на 2млн токенов из телеграм канала? Легко! На основе комьюнити чата и с разрешения владельца канала Канал @llm_under_hood! 🚀 Чат канала @llm_driven_products Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное…

Стоит ли провести стрим где мы за тоже время возможно быстрее создадим с вами RAG систему по другому каналу или чату где увеличим кол-во данных и сделаем агентов для поиска информации с планированием и заданиями?

Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG

👍44🔥18

1.62K viewsValerii Kovalskii, edited 14:10

Neural Kovalskii

Live stream scheduled for Jan 21 at 16:00

15:04

Neural Kovalskii

https://t.iss.one/neuraldeep?livestream

Запланировал трансляцию в ТГ на вторник 21 числа в 19:00

Neural Kovalskii

Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat

🔥21❤8

1.45K viewsValerii Kovalskii, 15:07

Neural Kovalskii

Forwarded from LLM Arena

Пока все говорят о новом "убийце GPT" — мы его уже добавили на Арену. Речь о модели DeepSeekR1, которой предрекают уже первые места на лидербордах. Предлагаем вам самим протестировать и сделать выводы.

Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.

Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.

51🔥10👍5❤3

1.28K viewsValerii Kovalskii, 20:51

Neural Kovalskii

https://t.iss.one/neuraldeep?livestream Запланировал трансляцию в ТГ на вторник 21 числа в 19:00

Ну что уже через 4 часа сядем с вами попрогать RAG (чистый handmade + Claude) никаких langchain или других крутых словечек только питон и только хардкорно разбирать задачу

Что нас ждет?

Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота

https://t.iss.one/neuraldeep?livestream

Neural Kovalskii

64❤17🔥10👍7

1.75K viewsValerii Kovalskii, edited 11:48

Neural Kovalskii

Live stream started

15:50

Neural Kovalskii

Live stream finished (1 hour)

17:44

Запись стрима!

Повторил онлайн опыт https://t.iss.one/neuraldeep/1270

Создаем свой RAG по данным из любого канала в тг или чата с 0 без фреймворков
Весь код поиска, парсинга, чанкования Handmade

Всем спасибо за просмотр в пике было 70 человек!

Что успели?

Порисуем схему ✔️
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output) 🚫
Поднимем топовую векторную бд ✔️
Cоздадим base пайплайн RAG ✔️
Упакуем все в API ✔️
Упакуем все в докер 🚫
И пообщаемся с RAG через тг бота ✔️

Планирую скоро еще один стрим где добавим в бота реранкер + попробуем прикрутить локальную ллм и классификатор

Анализировали этот канал: https://t.iss.one/data_secrets
@VectorSagebot потестить!

Please open Telegram to view this post

VIEW IN TELEGRAM

108❤36🔥1814👍9

2.68K viewsValerii Kovalskii, edited 12:16

Neural Kovalskii

В соседнем канала про LLM задали вопрос как понять скорости генерации на разных бэкендах structured output(эта штука заставляет модель отвечать вам жесткой схемой json формата например) при локальном инференсе
Так вот погуглил ничего вразумительного не нашел для своей спеки так что держите сделал сам

4090 OC
T-lite(qwen)
vllm
и 4 типа тестирования
xgrammar
outlines
lm-format-enforcer
Без бэкенда форматирования

❤13

1.39K viewsValerii Kovalskii, edited 17:28

Вот автоматизация браузера через gpt-4o API без подписок и блекджеков

Если интересно что за репозиторий и как настроить запишу видео кодинг где объясню как промптимть и настраивать кстати работает и с локальным моделями

Не пойму что за хайп вокруг оператора

Тут кстати модель агента ходит по интернету и собирает выручку компании по годам

1👍26🔥12❤6

1.51K viewsValerii Kovalskii, edited 19:06

Neural Kovalskii

Neural Kovalskii pinned a video

19:22

Neural Kovalskii

Forwarded from Data Secrets

⚡️ Благодаря Operator внутри ChatGPT наконец-то стало возможным использовать нейросети

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7

1.16K viewsValerii Kovalskii, 06:26

Neural Kovalskii

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI Operator бесплатно но как?

Ну а что я же умею могу практикую как там еще сказать?

Взял этот репо (кидал в чате)

В итоге приложил усилия и знания DevOps + Python + Network engineer

Развернул все на удаленном сервере
Упаковал настройки и сбил все в два фрейма прокинул NoVNC в iframe по https из контейнера
Раскидал сервисы через nginx
Сделал дефолт конфиг поправил логику агента что бы не так сильно тупил
Ковырнул у проекта промпты тоже дал своих настроек

Ну конечно не такой прям оператор как у openai но стоит не $200

1) Суть в том что это виртуальный браузер который живет на удаленной машине
2) Модель совершенно обычная gpt-4o
3) Может выполнять любые действия с браузером
4) Браузер кликабельный через вэб пользователь может делать с ним что угодно

Но я уверен что нужны кейсы (как пишут в чате Operator просто игрушка 10 минут и забыли)

1🔥14❤65

1.43K viewsValerii Kovalskii, edited 15:33

Neural Kovalskii

Operator (Openai) vs Open Source: зачем нам вообще AI-UI-агенты?

Ну что, народ, давайте на трезвую голову посмотрим на всю эту историю с Operator и UI агентами

Почему? Потому что за хайпом вокруг релиза от OpenAI мы забыли главный вопрос - а зачем это вообще нужно?

Да я видел как в других каналах мы открывали Оператора в операторе
Как круто находили проблемы в маршрутизаторах (или нет?)
Как круто прикалывались над друзьями или парсили новости?

Что мы имеем?

OpenAI Operator ($200/месяц)
- Красивый интерфейс
- Облачное решение
- Высокие метрики в тестах
- Удобный юзабилити?
- НО: где применить?

Open Source решения
- Browser Use (бесплатно) OpenSource
- Computer Use (бесплатно) от Антропиков
- Разные эксперименты
- НО: сложно настроить

В чём проблема?
Главная проблема и Operator и опенсорса одна - непонятно, где это реально применять
Вот смотрите существующие кейсы которые ходят по сети лично меня они не впечатляют

Заказ пиццы (но не всегда точно)
Настройка роутера (с переменным успехом)
Заполнение форм (когда повезёт)

Для бизнеса пока сырое и вот почему на мой взгляд
Нужна 100% точность
Важна безопасность
Критична скорость

Почему так?
Вспомним Rabbit r1 - ребята пытались сделать носимый девайс с LLM. Провалились, но показали важную вещь:

LAM (Large Action Model) или Computer-Using Agent (CUA) это не просто API:
- Нужно понимать интерфейс на уровне ОС
- Важна работа с визуальными элементами
- Нужен контекст действий
Или просто говоря нужны кейсы

Текущие решения застряли между
- API интеграцией (быстро но ограниченно)
- Визуальным интерфейсом (гибко но ненадёжно)

Что дальше?

Нужны реальные бизнес-кейсы я пока их не вижу
1) Не просто "круто, работает"
2) А "решает конкретную проблему"
3) С измеримой выгодой?

Развитие в двух направлениях
1) Специализированные агенты под конкретные задачи
2) Универсальные системные помощники

Operator крутой, опенсорс развивается, но главный вопрос остаётся - где это реально применять? Пока что выглядит как дорогая игрушка для энтузиастов.

Как думаете, какие реальные применения могут быть у таких агентов?

Browser Use (89% точности в бенчмарках)

Репо: https://github.com/browser-use/browser-use

Computer Use (52% точности, но умеет больше)

Репо: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

Stagehand (гибридное решение)

Репо: https://github.com/browserbase/stagehan

👍164

1.11K viewsValerii Kovalskii, edited 10:27

Neural Kovalskii

Forwarded from CGIT_Vines (Marvin Heemeyer)

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

Значит, смотрите, все как учил вас в 2025!

Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!

😁14🔥7

1.05K viewsValerii Kovalskii, 11:25

About

Blog

Apps

Platform