AWS: извлекаем ключевую информации из документов и оцениваем во сколько нам это обойдется
Давно у нас не было полезного от AWS, исправляемся.
Amazon опубликовал полезный урок по обработке документов с акцентом на масштабируемость решений по извлечению ключевой информации.
Используют метрику KIEval которая оценивает модели по двум критериям: точность извлечения пар ключ-значение и понимание структурных связей между ними.
Основные проблемы в принципе стандартные: высокая вариативность документов, объёмы разметки данных и неоднозначность естественного языка.
Для стандартизации работы с шаблонами промптов используют Jinja2
Оценка идет по работе с цифрами, текстом и структурированными полями.
Дальше раскидывают скоринг по категориям TP, FP, FN, TN
precision: (TP/(TP+FP))
recall: (TP/(TP+FN))
И высчитывают итог F1 суммарно.
F1: 2 × (precision × recall)/(precision + recall)
А дальше идет расчет скорости обработки и стоимости для достижения нужного скора F1
В общем история может быть полезна если вам нужно оценить эффективность вытягивания ключевых значений из коллекции документов и главное, - понять во сколько это вам обойдется или за какое время.
#AWS #KIEval #eval
———
@tsingular
Давно у нас не было полезного от AWS, исправляемся.
Amazon опубликовал полезный урок по обработке документов с акцентом на масштабируемость решений по извлечению ключевой информации.
Используют метрику KIEval которая оценивает модели по двум критериям: точность извлечения пар ключ-значение и понимание структурных связей между ними.
Основные проблемы в принципе стандартные: высокая вариативность документов, объёмы разметки данных и неоднозначность естественного языка.
Для стандартизации работы с шаблонами промптов используют Jinja2
Оценка идет по работе с цифрами, текстом и структурированными полями.
Дальше раскидывают скоринг по категориям TP, FP, FN, TN
precision: (TP/(TP+FP))
recall: (TP/(TP+FN))
И высчитывают итог F1 суммарно.
F1: 2 × (precision × recall)/(precision + recall)
А дальше идет расчет скорости обработки и стоимости для достижения нужного скора F1
В общем история может быть полезна если вам нужно оценить эффективность вытягивания ключевых значений из коллекции документов и главное, - понять во сколько это вам обойдется или за какое время.
#AWS #KIEval #eval
———
@tsingular
👍2⚡1✍1
🤖 Агентный AI требует новой архитектуры безопасности — 98% компаний не готовы (исследование Infosys)
Контекст: 95% компаний уже получили убытки от обычного AI ($800k в среднем), но только 2% выстроили защиту.
А теперь приходят автономные агенты — и 86% руководителей понимают, что старые подходы не работают.
Почему агентный AI меняет правила:
Обычный AI выдает рекомендацию → человек действует
Агент получает задачу → сам планирует → сам исполняет цепочку действий
Масштаб потенциального ущерба растет экспоненциально!
Проблема текущей архитектуры:
Product-led модель (каждая команда деплоит что хочет) + сотни автономных агентов = неконтролируемый хаос.
Представьте, что каждый отдел может например выпустить своего бота с правами подписи контрактов.
Infosys предлагает гибридную модель:
Платформа-песочница
- Агенты работают только в безопасной среде
- Предустановленные guardrails (как в умном доме — AI не откроет газ)
- Доступ только к проверенным данным и системам
Команды должны включать специалистов по ResponsibileAI
- Работают с product-командами на создание use cases
- Безопасность встраивается в процесс, а не навешивается сверху
- DevOps-подход для AI (ML-Ops?)
Автоматизация RAI
- AI-агенты мониторят других AI-агентов
- Система AI3S: Scan (поиск рисков) → Shield (защита) → Steer (управление)
- Централизованные политики, децентрализованное исполнение
Практическое применение:
- Стартапам: начинайте с платформенного подхода сразу, не ждите первого инцидента
- Enterprise: миграция от reactive RAI (тушим пожары) к proactive (предотвращаем)
- RAI-командам: автоматизируйте мониторинг, иначе утонете в объеме агентов
Те 2% компаний-лидеров уже сейчас тратят на 16% меньше на RAI (21% vs 25% бюджета), получают более качественный результат.
Когда агенты станут мейнстримом, разрыв станет еще больше.
#AgenticAI #ResponsibleAI #AIGovernance #EnterpriseAI
———
@tsingular
Контекст: 95% компаний уже получили убытки от обычного AI ($800k в среднем), но только 2% выстроили защиту.
А теперь приходят автономные агенты — и 86% руководителей понимают, что старые подходы не работают.
Почему агентный AI меняет правила:
Обычный AI выдает рекомендацию → человек действует
Агент получает задачу → сам планирует → сам исполняет цепочку действий
Масштаб потенциального ущерба растет экспоненциально!
Проблема текущей архитектуры:
Product-led модель (каждая команда деплоит что хочет) + сотни автономных агентов = неконтролируемый хаос.
Представьте, что каждый отдел может например выпустить своего бота с правами подписи контрактов.
Infosys предлагает гибридную модель:
Платформа-песочница
- Агенты работают только в безопасной среде
- Предустановленные guardrails (как в умном доме — AI не откроет газ)
- Доступ только к проверенным данным и системам
Команды должны включать специалистов по ResponsibileAI
- Работают с product-командами на создание use cases
- Безопасность встраивается в процесс, а не навешивается сверху
- DevOps-подход для AI (ML-Ops?)
Автоматизация RAI
- AI-агенты мониторят других AI-агентов
- Система AI3S: Scan (поиск рисков) → Shield (защита) → Steer (управление)
- Централизованные политики, децентрализованное исполнение
Практическое применение:
- Стартапам: начинайте с платформенного подхода сразу, не ждите первого инцидента
- Enterprise: миграция от reactive RAI (тушим пожары) к proactive (предотвращаем)
- RAI-командам: автоматизируйте мониторинг, иначе утонете в объеме агентов
Те 2% компаний-лидеров уже сейчас тратят на 16% меньше на RAI (21% vs 25% бюджета), получают более качественный результат.
Когда агенты станут мейнстримом, разрыв станет еще больше.
#AgenticAI #ResponsibleAI #AIGovernance #EnterpriseAI
———
@tsingular
✍4👍4⚡3❤1❤🔥1
Forwarded from Тимур Хахалев про AI Coding
Выключайте mcp сервера
Ещё на прошедшем стриме мы разгоняли про mcp сервера и я обнаружил, что инструкции mcp тулам занимают охренеть как много токенов!
Тогда я сетовал на browsermcp, инструкции которого занимают 5к токенов!
Сегодня мне понадобилось порисерчить один github repository и я решил поручить это дело Claude Code.
Я установил официальный github mcp, запустил claude, отправил команду /context и увидел, что только этот mcp занимает 46к токенов, Карл!
46к токенов на пустой сессии.
46к токенов это 25% контекстного окна Claude Sonnet 4.
46к токенов это примерно половина контекстного окна, за пределы которого я стараюсь не выходить при работе.
Даже разработчики официального github mcp не чураются описывать все корнер кейсы в инструкциях, чтобы агенты с этим mcp хоть как то работали, но это ведёт к выжиранию контекста!
Вывод:
1. Обязательно пользуйтесь инструментами для мониторинга текущего размера контекста (в CC команда /context, или в расширении ccstatusline можно добавить строчку)
2. Отключайте не нужные mcp сервера
Ещё на прошедшем стриме мы разгоняли про mcp сервера и я обнаружил, что инструкции mcp тулам занимают охренеть как много токенов!
Тогда я сетовал на browsermcp, инструкции которого занимают 5к токенов!
Сегодня мне понадобилось порисерчить один github repository и я решил поручить это дело Claude Code.
Я установил официальный github mcp, запустил claude, отправил команду /context и увидел, что только этот mcp занимает 46к токенов, Карл!
46к токенов на пустой сессии.
46к токенов это 25% контекстного окна Claude Sonnet 4.
46к токенов это примерно половина контекстного окна, за пределы которого я стараюсь не выходить при работе.
Даже разработчики официального github mcp не чураются описывать все корнер кейсы в инструкциях, чтобы агенты с этим mcp хоть как то работали, но это ведёт к выжиранию контекста!
Вывод:
1. Обязательно пользуйтесь инструментами для мониторинга текущего размера контекста (в CC команда /context, или в расширении ccstatusline можно добавить строчку)
2. Отключайте не нужные mcp сервера
🔥7👍4❤3✍2
🔥5
Forwarded from Machinelearning
400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.
📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом
⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.
@ai_machinelearning_big_data
#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤5✍5⚡1👍1
Microsoft представила аналоговый оптический компьютер для ИИ
Команда Майкрософт из 4 человек за 4 года разработала аналоговый оптический компьютер (AOC), который решает задачи искусственного интеллекта на элементарной базе ЛЕД, аналогичной, что сейчас работает в смартфонах.
Ключевые характеристики:
- 500 ТЕРА-операций/Вт против 4.5 у NVIDIA H100 (в 100+ раз эффективнее!)
- Одна итерация — 20 наносекунд
- 2 фемтоджоуля на операцию
- Работает при комнатной температуре на микро-светодиодах из смартфонов
Технология объединяет аналоговую электронику с трёхмерными оптическими архитектурами.
По сути на оптике умножают матрицы, а сложные расчёты ведут на кремнии по старинке.
Преимущества перед квантовыми конкурентами:
- АОК: 100% успеха на двоичных задачах, 95%+ на смешанных
- Квантовые: 40-60% успеха на тех же задачах
- Побил рекорды библиотеки QPLIB — нашел новые оптимальные решения для задач с 500+ двоичными и 10,000+ непрерывными переменными
- Работает при комнатной температуре
Интересно, конечно, какая следующая стадия электроники наступит раньше, - оптическая или квантовая.
#Microsoft #OpticalComputing #Photonics
———
@tsingular
Команда Майкрософт из 4 человек за 4 года разработала аналоговый оптический компьютер (AOC), который решает задачи искусственного интеллекта на элементарной базе ЛЕД, аналогичной, что сейчас работает в смартфонах.
Ключевые характеристики:
- 500 ТЕРА-операций/Вт против 4.5 у NVIDIA H100 (в 100+ раз эффективнее!)
- Одна итерация — 20 наносекунд
- 2 фемтоджоуля на операцию
- Работает при комнатной температуре на микро-светодиодах из смартфонов
Технология объединяет аналоговую электронику с трёхмерными оптическими архитектурами.
По сути на оптике умножают матрицы, а сложные расчёты ведут на кремнии по старинке.
Преимущества перед квантовыми конкурентами:
- АОК: 100% успеха на двоичных задачах, 95%+ на смешанных
- Квантовые: 40-60% успеха на тех же задачах
- Побил рекорды библиотеки QPLIB — нашел новые оптимальные решения для задач с 500+ двоичными и 10,000+ непрерывными переменными
- Работает при комнатной температуре
Интересно, конечно, какая следующая стадия электроники наступит раньше, - оптическая или квантовая.
#Microsoft #OpticalComputing #Photonics
———
@tsingular
🔥15❤2🍾1
Forwarded from GigaDev — разработка GigaChat
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Хабр
Гайд: AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Запуск стартапа — это не только идея, но и понимание, как она станет бизнесом. Lean Canvas, предложенный Эшем Маурья, помогает на одной странице структурировать ключевые аспекты: проблемы клиентов,...
🔥6✍4❤2👍1
Forwarded from Machinelearning
UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.
Почему это важно:
По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.
@ai_machinelearning_big_data
#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6✍2❤1⚡1
Forwarded from Forbes Russia
Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?
Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.
— В банке нейросети анализируют документы и находят риски;
— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;
— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.
Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?
Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»
Слушайте на сайте Forbes
В плеере Telegram
Apple Podcasts
На «Яндекс.Музыке»
И других стримингах
Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.
— В банке нейросети анализируют документы и находят риски;
— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;
— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.
Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?
Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»
Слушайте на сайте Forbes
В плеере Telegram
Apple Podcasts
На «Яндекс.Музыке»
И других стримингах
✍3⚡1👏1
MoonshotAI выпустила Kimi-K2-Instruct-0905
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
⚡5👍4❤2✍1
Anthropic блокирует доступ к ИИ для китайских компаний
Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.
Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.
Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.
Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.
Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.
#Anthropic #Китай
———
@tsingular
Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.
Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.
Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.
Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.
Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.
#Anthropic #Китай
———
@tsingular
🤣8⚡2👍1
Media is too big
VIEW IN TELEGRAM
DeepL запускает автономного AI агента
DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.
Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.
Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.
Есть функции "остановись и проверь" с помощью человека.
Есть признаки оператора.
Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.
Поддерживает совместную работу нескольких агентов.
Все переизобретают Manus.
Новый стандарт.
#DeepL #AgenticAI #DeepResearcher
———
@tsingular
DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.
Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.
Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.
Есть функции "остановись и проверь" с помощью человека.
Есть признаки оператора.
Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.
Поддерживает совместную работу нескольких агентов.
Все переизобретают Manus.
Новый стандарт.
#DeepL #AgenticAI #DeepResearcher
———
@tsingular
✍4🔥2⚡1
А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)
#lifehack #deepresearch
———
@tsingular
#lifehack #deepresearch
———
@tsingular
😁7🔥3✍1👏1 1
Forwarded from Machinelearning
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
@ai_machinelearning_big_data
#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1