Технозаметки Малышева
8.48K subscribers
3.78K photos
1.41K videos
40 files
3.97K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
AWS: извлекаем ключевую информации из документов и оцениваем во сколько нам это обойдется

Давно у нас не было полезного от AWS, исправляемся.

Amazon опубликовал полезный урок по обработке документов с акцентом на масштабируемость решений по извлечению ключевой информации.

Используют метрику KIEval которая оценивает модели по двум критериям: точность извлечения пар ключ-значение и понимание структурных связей между ними.

Основные проблемы в принципе стандартные: высокая вариативность документов, объёмы разметки данных и неоднозначность естественного языка.

Для стандартизации работы с шаблонами промптов используют Jinja2

Оценка идет по работе с цифрами, текстом и структурированными полями.
Дальше раскидывают скоринг по категориям TP, FP, FN, TN

precision: (TP/(TP+FP))
recall: (TP/(TP+FN))

И высчитывают итог F1 суммарно.

F1: 2 × (precision × recall)/(precision + recall)

А дальше идет расчет скорости обработки и стоимости для достижения нужного скора F1

В общем история может быть полезна если вам нужно оценить эффективность вытягивания ключевых значений из коллекции документов и главное, - понять во сколько это вам обойдется или за какое время.

#AWS #KIEval #eval
———
@tsingular
👍211
🤖 Агентный AI требует новой архитектуры безопасности — 98% компаний не готовы (исследование Infosys)

Контекст: 95% компаний уже получили убытки от обычного AI ($800k в среднем), но только 2% выстроили защиту.

А теперь приходят автономные агенты — и 86% руководителей понимают, что старые подходы не работают.

Почему агентный AI меняет правила:

Обычный AI выдает рекомендацию → человек действует

Агент получает задачу → сам планирует → сам исполняет цепочку действий

Масштаб потенциального ущерба растет экспоненциально!

Проблема текущей архитектуры:
Product-led модель (каждая команда деплоит что хочет) + сотни автономных агентов = неконтролируемый хаос.

Представьте, что каждый отдел может например выпустить своего бота с правами подписи контрактов.

Infosys предлагает гибридную модель:

Платформа-песочница

- Агенты работают только в безопасной среде
- Предустановленные guardrails (как в умном доме — AI не откроет газ)
- Доступ только к проверенным данным и системам


Команды должны включать специалистов по ResponsibileAI

- Работают с product-командами на создание use cases
- Безопасность встраивается в процесс, а не навешивается сверху
- DevOps-подход для AI (ML-Ops?)

Автоматизация RAI

- AI-агенты мониторят других AI-агентов
- Система AI3S: Scan (поиск рисков) → Shield (защита) → Steer (управление)
- Централизованные политики, децентрализованное исполнение

Практическое применение:

- Стартапам: начинайте с платформенного подхода сразу, не ждите первого инцидента
- Enterprise: миграция от reactive RAI (тушим пожары) к proactive (предотвращаем)
- RAI-командам: автоматизируйте мониторинг, иначе утонете в объеме агентов

Те 2% компаний-лидеров уже сейчас тратят на 16% меньше на RAI (21% vs 25% бюджета), получают более качественный результат.

Когда агенты станут мейнстримом, разрыв станет еще больше.

#AgenticAI #ResponsibleAI #AIGovernance #EnterpriseAI
———
@tsingular
4👍431❤‍🔥1
Выключайте mcp сервера

Ещё на прошедшем стриме мы разгоняли про mcp сервера и я обнаружил, что инструкции mcp тулам занимают охренеть как много токенов!

Тогда я сетовал на browsermcp, инструкции которого занимают 5к токенов!

Сегодня мне понадобилось порисерчить один github repository и я решил поручить это дело Claude Code.

Я установил официальный github mcp, запустил claude, отправил команду /context и увидел, что только этот mcp занимает 46к токенов, Карл!

46к токенов на пустой сессии.

46к токенов это 25% контекстного окна Claude Sonnet 4.

46к токенов это примерно половина контекстного окна, за пределы которого я стараюсь не выходить при работе.

Даже разработчики официального github mcp не чураются описывать все корнер кейсы в инструкциях, чтобы агенты с этим mcp хоть как то работали, но это ведёт к выжиранию контекста!

Вывод:
1. Обязательно пользуйтесь инструментами для мониторинга текущего размера контекста (в CC команда /context, или в расширении ccstatusline можно добавить строчку)

2. Отключайте не нужные mcp сервера
🔥7👍432
- это что за дура?
- это не дура, это лошадь!

Есть тут кто?

#Яндекс #MoscowAI
------
@tsingular
🔥5
-тся

:)

#MoscowAI
------
@tsingular
😁204😢22👀1
Forwarded from Machinelearning
🔥 Бесплатная книга от инженера Google — Agentic Design Patterns

400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.

📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом

По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.

📚 Читать

@ai_machinelearning_big_data


#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18551👍1
Microsoft представила аналоговый оптический компьютер для ИИ

Команда Майкрософт из 4 человек за 4 года разработала аналоговый оптический компьютер (AOC), который решает задачи искусственного интеллекта на элементарной базе ЛЕД, аналогичной, что сейчас работает в смартфонах.

Ключевые характеристики:
- 500 ТЕРА-операций/Вт против 4.5 у NVIDIA H100 (в 100+ раз эффективнее!)
- Одна итерация — 20 наносекунд
- 2 фемтоджоуля на операцию
- Работает при комнатной температуре на микро-светодиодах из смартфонов

Технология объединяет аналоговую электронику с трёхмерными оптическими архитектурами.

По сути на оптике умножают матрицы, а сложные расчёты ведут на кремнии по старинке.

Преимущества перед квантовыми конкурентами:
- АОК: 100% успеха на двоичных задачах, 95%+ на смешанных
- Квантовые: 40-60% успеха на тех же задачах
- Побил рекорды библиотеки QPLIB — нашел новые оптимальные решения для задач с 500+ двоичными и 10,000+ непрерывными переменными
- Работает при комнатной температуре

Интересно, конечно, какая следующая стадия электроники наступит раньше, - оптическая или квантовая.

#Microsoft #OpticalComputing #Photonics
———
@tsingular
🔥152🍾1
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.


В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
🔥642👍1
Forwarded from Machinelearning
🔥 NVIDIA представила Universal Deep Research (UDR)

UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.

Почему это важно:
🟠**Гибкая настройка агента без кода** — UDR не ограничивает жёсткими сценариями, как большинство тулзов.
🟠Можно создавать, редактировать и комбинировать стратегии поиска и анализа.
🟠В репо есть примеры стратегий (minimal, expansive, intensive), но главная сила — в кастомизации под свои задачи.

По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.

🟢Project: https://research.nvidia.com/labs/lpr/udr
🟢Code: https://github.com/NVlabs/UniversalDeepResearch
🟢Lab: https://nv-dler.github.io

@ai_machinelearning_big_data

#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6211
Forwarded from Forbes Russia
Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?

Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.

— В банке нейросети анализируют документы и находят риски;

— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;

— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.

Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?

Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»

Слушайте на сайте Forbes

В плеере Telegram

Apple Podcasts

На «Яндекс.Музыке»

И других стримингах
31👏1
MoonshotAI выпустила Kimi-K2-Instruct-0905

Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)

Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны

По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.

Попробовать можно тут:
https://www.kimi.com/

GitHub
Hugging Face.

Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)

#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
5👍421
Anthropic блокирует доступ к ИИ для китайских компаний

Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.

Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.

Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.

Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.

Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.

#Anthropic #Китай
———
@tsingular
🤣82👍1
Media is too big
VIEW IN TELEGRAM
DeepL запускает автономного AI агента

DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.

Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.

Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.

Есть функции "остановись и проверь" с помощью человека.

Есть признаки оператора.

Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.

Поддерживает совместную работу нескольких агентов.

Все переизобретают Manus.
Новый стандарт.

#DeepL #AgenticAI #DeepResearcher
———
@tsingular
4🔥21
А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)

#lifehack #deepresearch
———
@tsingular
😁7🔥31👏11
Forwarded from Machinelearning
🌟 InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.


Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.


📌Лицензирование: Apache 2.0 License.


🟡Датасет
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31