Технозаметки Малышева

AWS: извлекаем ключевую информации из документов и оцениваем во сколько нам это обойдется

Давно у нас не было полезного от AWS, исправляемся.

Amazon опубликовал полезный урок по обработке документов с акцентом на масштабируемость решений по извлечению ключевой информации.

Используют метрику KIEval которая оценивает модели по двум критериям: точность извлечения пар ключ-значение и понимание структурных связей между ними.

Основные проблемы в принципе стандартные: высокая вариативность документов, объёмы разметки данных и неоднозначность естественного языка.

Для стандартизации работы с шаблонами промптов используют Jinja2

Оценка идет по работе с цифрами, текстом и структурированными полями.
Дальше раскидывают скоринг по категориям TP, FP, FN, TN

precision: (TP/(TP+FP))
recall: (TP/(TP+FN))

И высчитывают итог F1 суммарно.

F1: 2 × (precision × recall)/(precision + recall)

А дальше идет расчет скорости обработки и стоимости для достижения нужного скора F1

В общем история может быть полезна если вам нужно оценить эффективность вытягивания ключевых значений из коллекции документов и главное, - понять во сколько это вам обойдется или за какое время.

#AWS #KIEval #eval
———
@tsingular

👍2⚡1✍1

1.39K views04:02

Технозаметки Малышева

🤖 Агентный AI требует новой архитектуры безопасности — 98% компаний не готовы (исследование Infosys)

Контекст: 95% компаний уже получили убытки от обычного AI ($800k в среднем), но только 2% выстроили защиту.

А теперь приходят автономные агенты — и 86% руководителей понимают, что старые подходы не работают.

Почему агентный AI меняет правила:

Обычный AI выдает рекомендацию → человек действует

Агент получает задачу → сам планирует → сам исполняет цепочку действий

Масштаб потенциального ущерба растет экспоненциально!

Проблема текущей архитектуры:
Product-led модель (каждая команда деплоит что хочет) + сотни автономных агентов = неконтролируемый хаос.

Представьте, что каждый отдел может например выпустить своего бота с правами подписи контрактов.

Infosys предлагает гибридную модель:

Платформа-песочница

- Агенты работают только в безопасной среде
- Предустановленные guardrails (как в умном доме — AI не откроет газ)
- Доступ только к проверенным данным и системам

Команды должны включать специалистов по ResponsibileAI

- Работают с product-командами на создание use cases
- Безопасность встраивается в процесс, а не навешивается сверху
- DevOps-подход для AI (ML-Ops?)

Автоматизация RAI
- AI-агенты мониторят других AI-агентов
- Система AI3S: Scan (поиск рисков) → Shield (защита) → Steer (управление)
- Централизованные политики, децентрализованное исполнение

Практическое применение:

- Стартапам: начинайте с платформенного подхода сразу, не ждите первого инцидента
- Enterprise: миграция от reactive RAI (тушим пожары) к proactive (предотвращаем)
- RAI-командам: автоматизируйте мониторинг, иначе утонете в объеме агентов

Те 2% компаний-лидеров уже сейчас тратят на 16% меньше на RAI (21% vs 25% бюджета), получают более качественный результат.

Когда агенты станут мейнстримом, разрыв станет еще больше.

#AgenticAI #ResponsibleAI #AIGovernance #EnterpriseAI
———
@tsingular

✍4👍4⚡3❤1❤‍🔥1

1.7K views04:25

Технозаметки Малышева

Forwarded from Тимур Хахалев про AI Coding

Выключайте mcp сервера

Ещё на прошедшем стриме мы разгоняли про mcp сервера и я обнаружил, что инструкции mcp тулам занимают охренеть как много токенов!

Тогда я сетовал на browsermcp, инструкции которого занимают 5к токенов!

Сегодня мне понадобилось порисерчить один github repository и я решил поручить это дело Claude Code.

Я установил официальный github mcp, запустил claude, отправил команду /context и увидел, что только этот mcp занимает 46к токенов, Карл!

46к токенов на пустой сессии.

46к токенов это 25% контекстного окна Claude Sonnet 4.

46к токенов это примерно половина контекстного окна, за пределы которого я стараюсь не выходить при работе.

Даже разработчики официального github mcp не чураются описывать все корнер кейсы в инструкциях, чтобы агенты с этим mcp хоть как то работали, но это ведёт к выжиранию контекста!

Вывод:
1. Обязательно пользуйтесь инструментами для мониторинга текущего размера контекста (в CC команда /context, или в расширении ccstatusline можно добавить строчку)

2. Отключайте не нужные mcp сервера

🔥7👍4❤3✍2

1.38K views14:14

Технозаметки Малышева

- это что за дура?
- это не дура, это лошадь!

Есть тут кто?

#Яндекс #MoscowAI
------
@tsingular

🔥5

1.36K views15:14

Технозаметки Малышева

-тся

:)

#MoscowAI
------
@tsingular

😁20✍4😢22👀1

1.4K viewsedited 16:21

Технозаметки Малышева

Эфир тут:

https://www.youtube.com/live/v988RPCghf0?si=ogEhJ1bl_FdvsEoi

#MoscowAI
------
@tsingular

👍5⚡2

1.43K views16:37

Технозаметки Малышева

Forwarded from Machinelearning

🔥 Бесплатная книга от инженера Google — Agentic Design Patterns

400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.

📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом

⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.

📚

Читать

@ai_machinelearning_big_data

#AI #Agents #Google #OpenSource #freebook

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18❤5✍5⚡1👍1

1.32K views20:00

Технозаметки Малышева

Microsoft представила аналоговый оптический компьютер для ИИ

Команда Майкрософт из 4 человек за 4 года разработала аналоговый оптический компьютер (AOC), который решает задачи искусственного интеллекта на элементарной базе ЛЕД, аналогичной, что сейчас работает в смартфонах.

Ключевые характеристики:
- 500 ТЕРА-операций/Вт против 4.5 у NVIDIA H100 (в 100+ раз эффективнее!)
- Одна итерация — 20 наносекунд
- 2 фемтоджоуля на операцию
- Работает при комнатной температуре на микро-светодиодах из смартфонов

Технология объединяет аналоговую электронику с трёхмерными оптическими архитектурами.

По сути на оптике умножают матрицы, а сложные расчёты ведут на кремнии по старинке.

Преимущества перед квантовыми конкурентами:
- АОК: 100% успеха на двоичных задачах, 95%+ на смешанных
- Квантовые: 40-60% успеха на тех же задачах
- Побил рекорды библиотеки QPLIB — нашел новые оптимальные решения для задач с 500+ двоичными и 10,000+ непрерывными переменными
- Работает при комнатной температуре

Интересно, конечно, какая следующая стадия электроники наступит раньше, - оптическая или квантовая.

#Microsoft #OpticalComputing #Photonics
———
@tsingular

🔥15❤2🍾1

1.66K views08:32

Технозаметки Малышева

Forwarded from GigaDev — разработка GigaChat

AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.

В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"

Хабр

Гайд: AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Запуск стартапа — это не только идея, но и понимание, как она станет бизнесом. Lean Canvas, предложенный Эшем Маурья, помогает на одной странице структурировать ключевые аспекты: проблемы клиентов,...

🔥6✍4❤2👍1

1.42K views10:18

Технозаметки Малышева

Forwarded from Machinelearning

🔥 NVIDIA представила Universal Deep Research (UDR)

UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.

Почему это важно:
🟠**Гибкая настройка агента без кода** — UDR не ограничивает жёсткими сценариями, как большинство тулзов.
🟠Можно создавать, редактировать и комбинировать стратегии поиска и анализа.
🟠В репо есть примеры стратегий (minimal, expansive, intensive), но главная сила — в кастомизации под свои задачи.

По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.

🟢

Project: https://research.nvidia.com/labs/lpr/udr

🟢

Code: https://github.com/NVlabs/UniversalDeepResearch

🟢

Lab: https://nv-dler.github.io

@ai_machinelearning_big_data

#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6✍2❤1⚡1

1.32K views13:52

Технозаметки Малышева

Forwarded from Forbes Russia

Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?

Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.

— В банке нейросети анализируют документы и находят риски;

— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;

— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.

Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?

Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»

Слушайте на сайте Forbes

В плеере Telegram

Apple Podcasts

На «Яндекс.Музыке»

И других стримингах

✍3⚡1👏1

1.35K views15:00

Технозаметки Малышева

MoonshotAI выпустила Kimi-K2-Instruct-0905

Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)

Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны

По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.

Попробовать можно тут:
https://www.kimi.com/

GitHub
Hugging Face.

Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)

#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular

⚡5👍4❤2✍1

1.42K views08:13

Технозаметки Малышева

Anthropic блокирует доступ к ИИ для китайских компаний

Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.

Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.

Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.

Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.

Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.

#Anthropic #Китай
———
@tsingular

🤣8⚡2👍1

1.24K views08:31

Технозаметки Малышева

0:22

Media is too big

VIEW IN TELEGRAM

DeepL запускает автономного AI агента

DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.

Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.

Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.

Есть функции "остановись и проверь" с помощью человека.

Есть признаки оператора.

Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.

Поддерживает совместную работу нескольких агентов.

Все переизобретают Manus.
Новый стандарт.

#DeepL #AgenticAI #DeepResearcher
———
@tsingular

✍4🔥2⚡1

1.59K viewsedited 09:12

Технозаметки Малышева

А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)

#lifehack #deepresearch
———
@tsingular

😁7🔥3✍1👏11

1.34K views09:17

Технозаметки Малышева

Forwarded from Machinelearning

🌟

InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.

Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡

Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡

Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.

📌Лицензирование: Apache 2.0 License.

🟡

Датасет

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

2.01K views13:05