Технозаметки Малышева
8.48K subscribers
3.79K photos
1.41K videos
40 files
3.97K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
🔥 Бесплатная книга от инженера Google — Agentic Design Patterns

400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.

📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом

По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.

📚 Читать

@ai_machinelearning_big_data


#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18551👍1
Microsoft представила аналоговый оптический компьютер для ИИ

Команда Майкрософт из 4 человек за 4 года разработала аналоговый оптический компьютер (AOC), который решает задачи искусственного интеллекта на элементарной базе ЛЕД, аналогичной, что сейчас работает в смартфонах.

Ключевые характеристики:
- 500 ТЕРА-операций/Вт против 4.5 у NVIDIA H100 (в 100+ раз эффективнее!)
- Одна итерация — 20 наносекунд
- 2 фемтоджоуля на операцию
- Работает при комнатной температуре на микро-светодиодах из смартфонов

Технология объединяет аналоговую электронику с трёхмерными оптическими архитектурами.

По сути на оптике умножают матрицы, а сложные расчёты ведут на кремнии по старинке.

Преимущества перед квантовыми конкурентами:
- АОК: 100% успеха на двоичных задачах, 95%+ на смешанных
- Квантовые: 40-60% успеха на тех же задачах
- Побил рекорды библиотеки QPLIB — нашел новые оптимальные решения для задач с 500+ двоичными и 10,000+ непрерывными переменными
- Работает при комнатной температуре

Интересно, конечно, какая следующая стадия электроники наступит раньше, - оптическая или квантовая.

#Microsoft #OpticalComputing #Photonics
———
@tsingular
🔥152🍾1
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.


В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
🔥642👍1
Forwarded from Machinelearning
🔥 NVIDIA представила Universal Deep Research (UDR)

UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.

Почему это важно:
🟠**Гибкая настройка агента без кода** — UDR не ограничивает жёсткими сценариями, как большинство тулзов.
🟠Можно создавать, редактировать и комбинировать стратегии поиска и анализа.
🟠В репо есть примеры стратегий (minimal, expansive, intensive), но главная сила — в кастомизации под свои задачи.

По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.

🟢Project: https://research.nvidia.com/labs/lpr/udr
🟢Code: https://github.com/NVlabs/UniversalDeepResearch
🟢Lab: https://nv-dler.github.io

@ai_machinelearning_big_data

#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6211
Forwarded from Forbes Russia
Как юристу за пару минут разобраться в 50-страничном договоре? Что делать инженеру, когда «горит лампочка» на производстве? И как ритейлеру сократить запуск маркетинговой кампании с нескольких месяцев до нескольких дней?

Ответ — генеративный ИИ. Он не просто помогает ускорить работу, а меняет саму логику бизнес-процессов.

— В банке нейросети анализируют документы и находят риски;

— В BMW искусственный интеллект помогает инженерам и проверяет качество на конвейере;

— А в Walmart и Carrefour чат-боты уже ведут переговоры с поставщиками и становятся персональными консьержами для покупателей.

Но действительно ли генеративный ИИ даёт конкурентное преимущество, или это просто ещё один инструмент автоматизации? Чем отличаются сценарии внедрения в банке и на заводе? И как не ошибиться с выбором подхода?

Обсуждаем в новом выпуске второго сезона подкаста «Мы и Оно»

Слушайте на сайте Forbes

В плеере Telegram

Apple Podcasts

На «Яндекс.Музыке»

И других стримингах
31👏1
MoonshotAI выпустила Kimi-K2-Instruct-0905

Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)

Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны

По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.

Попробовать можно тут:
https://www.kimi.com/

GitHub
Hugging Face.

Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)

#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
5👍421
Anthropic блокирует доступ к ИИ для китайских компаний

Anthropic ужесточила ограничения - теперь блокирует доступ к своим сервисам для всех компаний, где больше 50% принадлежит китайским собственникам.

Запрет распространяется на зарубежные дочки таких фирм. Стартап объясняет это заботой о нацбезопасности США - мол, технологии могут использоваться в военных целях.

Ранее ограничения касались только "авторитарных режимов", теперь критерии расширили.

Anthropic оценивается уже в $183 млрд, но готова жертвовать долей китайского рынка ради соответствия геополитическим стратегиям США.

Боюсь только эффект будет обратный :)
Если Кими2 уже не хуже Соннет4, - как бы не пришлось через год-полтора уже китайцам в свою очередь запрещать компаниям из США использование своих моделей.

#Anthropic #Китай
———
@tsingular
🤣82👍1
Media is too big
VIEW IN TELEGRAM
DeepL запускает автономного AI агента

DeepL, ранее известные как разработчики переводчика, создали автономного агента, который самостоятельно выполняет бизнес-задачи в продажах, финансах, маркетинге и HR.

Агент работает с естественными языковыми командами и решает сложные многоэтапные задачи без необходимости постоянного контроля.

Поддерживает стандарты безопасности ISO 27001, SOC 2 Type 2 и GDPR.

Есть функции "остановись и проверь" с помощью человека.

Есть признаки оператора.

Многоязычен (ожидаемо) и способен работать с непредсказуемыми бизнес-сценариями. Адаптируется к изменениям в реальном времени.

Поддерживает совместную работу нескольких агентов.

Все переизобретают Manus.
Новый стандарт.

#DeepL #AgenticAI #DeepResearcher
———
@tsingular
4🔥21
А у вас не было еще мысли, что маркетинговый синопсис к платному отчёту является идеальным промптом для Агента Исследователя :)

#lifehack #deepresearch
———
@tsingular
😁7🔥31👏11
Forwarded from Machinelearning
🌟 InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.


Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.


📌Лицензирование: Apache 2.0 License.


🟡Датасет
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
А есть ИБшники в чате?

Покритикуйте в комментах, чего не хватает?

#cybersecurity #агенты
———
@tsingular
👍721🍓1
Forwarded from Data Secrets
Почему LLM галлюцинируют: новая статья от OpenAI

Да-да, вы не ослышались. Раз в год и палка стреляет и OpenAI выпускают интересные рисерчи.

Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:

– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.

– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.

– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.

Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.

Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.

OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.

Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.

Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.

В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.

В общем, интересно, продвинется ли идея дальше статьи.

cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
102👏2
Доброе утро.

Немного прогресса по роботам.

Начнём с двухколесных товарищей.

Тут во-первых обновили прошивку акробата, - он теперь трюки такие вытворяет, что хоть в цирке показывай.

Ну и DIY наборы интересные.
Можно самим собирать помощников для дома.
Или мелкие грузы доставлять.

#велодроны #Китай
------
@tsingular
👍5221👻1👾1
Вторая часть, конечно,- всеми любимые собачки.

Очевидно очень подходят быть курьерами.
Доставят пиццу даже по пересеченной местности.

#дронособаки #Китай #робота
------
@tsingular
🔥3🆒3👾1