Идеальный стартап

Университет Мюнхена, где я сейчас делаю PhD хостит большой хакатон. Спонсоры интересные)

👍3🥰3

422 views13:48

Schema Guided Reasoning

Агенты в последний год стали супер популярными: браузеры, курсор, миллион других приложений. И как мы уже знаем, для их развития критично иметь бенчмарки, чтобы можно было отслеживать прогресс и влияние новых фичей: сжатие контекста, память.

Сейчас в канале у @llm_under_hood идет бенчмарк с реальными бизнес задачами для агентов и топ решение использует подход Schema-Guided Reasoning (SGR), который так же был описан Ринатом.

Давно уже хотел разобраться в нем, поэтому принес вам выжимку SGR и как его использовать в агентах.

SGR

Идея довольно проста и уверен, что многие до этого и сами доходили: вместо формы свободного ответа заставить рассуждать модель по заданной структуре. С помощью structured output указать дополнительные поля с описанием, что в них должно быть, чтобы мотивировать модель думать в заданном нами ключе. К примеру с задачей классификации документов можно помочь модели следующей структурой:

{
"evidence_snippets": ["краткая пересказ документа”, "..."],
"notes": "1–2 предложения, к каким классам документ может относится“
"confidence": [вероятность каждого класса],
"main_label": "строка — название основного класса",
}

То есть мы сначала даем модели порассуждать: делаем пересказ, чтобы она сосредоточилась на главных моментах текста, даем возможность сделать предположения насчет классов и лишь затем выдаем финальный ответ.

Или если делаем агента для трейдинга:

{
"strategy_understanding": "краткий пересказ правила входа",
"condition_checks": [
{
"name": "название условия",
"data_used": "что именно посмотрел в MARKET_STATE",
"is_satisfied": true,
"comment": "краткое пояснение"
}
],
"overall_decision": {
"reasoning": "вывод на основе condition_checks"
"should_enter": true,
"direction": "long | short | none",
}
}

В среднем SGR позволяет модели думать в рамках вместо свободного ввода, что может увеличить точность и уменьшить количество галлюцинаций.

Особенно это заметно на non-thinking моделях, вроде gpt-5-nano, gpt-4.1, gpt-4o

SGR в агентах

Один из примеров использования – для адаптивного планирования агентов. Если мы хотим учитывать новый контекст, результаты вызова тулзов, то может переоценивать наши шаги на каждом вызове LLM. Выглядеть это может так:

{
"current_state": "краткое описание рынка, позиции и цели на сейчас",
"plan_remaining_steps_brief": [
"первый следующий шаг”,
“второй шаг”,
….,
],
"task_completed": false,
"function": "CheckEntryConditions | CheckExitConditions | PlaceOrder | ModifyPosition | ClosePosition | ManageRisk | ReportStatus | Wait"
}

Каждый вызов модели у нас строится новый план с учетом предыдущих действий и вызванных тулзов.

SGR позволяет формализовать рассуждения модели в заданной структуре. Это супер полезно для отлавливания ошибок и логгирования действий модели. Тут полноценный пример с кодом.

🔫 Если интересно читать про техничку агентов, то накиньте реакций и я запилю посты про подходы работы с контекстом, памятью и всем остальным.

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

erc3-agents/sgr-agent-erc32/store_agent.py at main · trustbit/erc3-agents

Sample agents for Enterprise RAG Challenge 3: AI Agents in Action - trustbit/erc3-agents

👍10

398 viewsedited 16:47

Идеальный стартап

Посмотрел интервью с Илоном Маском, о котором в ру сегменте не так много говорят почему-то. Само интервью так себе и интервьюер показался прям очень слабым, возможно, что это его стиль: задавать кучу вопросов, половина из которых вообще не релевантна и не развивать нормально ни одну из тем. Прочитал историю PayPal и биографию Маска, поэтому когда он погружается в детали и рассказывает что-то, то я сижу и такой: Да-да, я это читал.

Советую посмотреть только первую половину.

Вопросы, о существовании которых мы даже не догадываемся, — самые важные.

ИИ и роботы

–Спутники с солнечными панелями для эффективного получения энергии для ИИ. (Старлинк уже есть, будет ли развивать полноценный солюшн для ии с карточками и всем остальным на борту?)
–Видит роботов Оптимус как "персональных C3PO" для помощи по дому и в быту
–Цикл будущего: Роботы строят солнечные панели для энергии -> Добывают новые ресурсы -> Создают новых роботов.
–Увеличение эффективности производства товаров и услуг с помощью ИИ – единственное, что может помочь США справиться с гос. долгом.
–ИИ должен стремиться к красоте, правде и любопытности
–Гугл станет очень дорогой компанией благодаря своим инвестициям в ИИ и инфраструктуру

Деньги

–Деньги — это информационная система для распределения труда. Они будут не нужны.
–Единственная валюта будущего – энергия и завязанные на ней решения. Как биткоин.
–В ближайшие 20 лет работа станет опциональной благодаря автоматизации
–В течение трех лет темпы роста производства благ и услуг перегонят темпы роста денежной массы, что приведет к дефляции.
–Появится безусловный базовый доход.

X

–Рассматривает создание площадки как WeChat++
–Целью Х является стать платформой для коллективного сознания, где люди могли бы обмениваться мыслями. Больше людей = больше мыслей = больше познания вселенной

Бонус. Чек лист в какую компанию инвестировать
–Нравится продукт?
–Нравится карта развития?
–Веришь в команду?

YouTube

Elon Musk: A Different Conversation w/ Nikhil Kamath | Full Episode | People by WTF Ep. 16

A long conversation with #ElonMusk about work, consciousness, family, money, AI and how the future might unfold.

No script, no performance, just two people thinking out loud.

A big thank you to Manoj Ladwa - a close friend of many years and a remarkable…

👍4❤1

356 viewsedited 17:32

Идеальный стартап

Эпоха ресерча

В недавнем интервью Илья Суцкевер (один из фаундеров OpenAI) рассказал, что мы переходим от эпохи скейлинга к эпохе ресерча. Что это значит?

После открытия архитектуры трансформера в 2017 году в области ИИ прозошел огромный скачок. За счет того, что количество токенов и данных, на которых модели обучались росли с каждой новой версией модели. Там был целый спор еще про теорию скейлинга: кто-то верил в закидывание данными, кто-то считал, что это путь в никуда, но как показала практика – скейлинг работал до сих пор. 🔍

Основная проблема, что количество данных сгенерированных человеком огромно по меркам тебя или меня, но для ИИ всегда мало. Им нужны корнер кейсы и качественные размышления, которых в интернете не так много. Сейчас используют подходы генерации синтетических данных, как, например, в моем исследовании, где мы генерировали синтетические размышления и получили результаты лучше топовых моделей на отдельно взятой задаче.

Помимо данных ограничения на скейлинг ставят и вычислительные мощности. Все строят огромные дата центры и закупают миллионами GPU, прожигая озоновый слой в 0. 📞

Что делать?

Кажется, что с текущей архитектурой и подходу к обучению мы упираемся если не в потолок, то в задержку развития новых моделей точно. Есть ли другой подход к этому?

Одна из проблем, которая возникла в моем предыдущем ресерче фундаментальная – в архитектуре трансформера не заложена возможность обмена информацией между слоями. Большая часть памяти храниться в FFW слое, следовательно, по моей гипотезе количество дублируемых данных должно быть огромным. Более того, даже если модель знает ответ, то есть вероятность, что нахождение ответа не в том слое может привести либо к галлюцинации, либо к неверному ответу. 🚬

Мы с коллегой очень часто обсуждаем модульность как средство оптимизации текущей архитектуры. Сейчас я работаю над совсем небольшим изменением архитектуры трансформера: добавлением внешней памяти, которое в теории должно оптимизировать размер модели кратно, позволив модели использовать больше ресурсов на логику и рассуждение, а не хранение фактов.

Посмотрим, что выйдет, но результаты уже хорошие. В январе подаемся на конфу.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.

𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…

👍3❤1🦄1

364 views08:00

Идеальный стартап

😁2🤣2

375 views09:34

Идеальный стартап

Видимо Илон Макс не единственный, кто думает о спутниках с солнечными панелями для ИИ компьюта

❤1

296 views13:32

Идеальный стартап

Forwarded from Техасский Вестник

OpenAI хочет в космос.

Вот и наступил тот страшный день, когда пересеклись пути с прекрасным каналом Сиолошная. На WSJ вышел материал про попытку OpenAI расшириться до конкурента SpaceX и xAI.

WSJ утверждает, что Сэм Альтман вёл переговоры по покупке весомой доли в компании Stoke Space, которая занимается разработкой многоразовой ракеты Nova. В теории, это помогло бы OpenAI выйти на новый рынок орбитального компьюта, который часто недооценивают, но про него говорят ключевые участники отрасли. А это уже поляна таких больших партнёрок, как SpaceX-xAI и Blue Origin-Amazon. Основные предпосылки, что усложняющаяся регуляторка и стоимость электроэнергии могут сделать орбитальный компьют интересным дополнением к инфраструктуре на Земле.

Но многомиллиадрная сделка в итоге не продвинулась, и Stoke не будет делать нейрослоп снова великим. Кто следующий — Relativity и RocketLab?

👍1

318 views13:32

Идеальный стартап

😁5😭3

289 views09:05

Идеальный стартап

Этот смешнее

279 views09:21

Идеальный стартап

Forwarded from Alex Kühn

😁6

297 views09:21

Идеальный стартап

AI Agent Crash Course

Google и kaggle пару недель назад выпустили 5-дневный интенсив по АИ агентам. В целом, довольно интересно. Даже если знания имеются, то всегда хорошо их структурировать и еще раз пройтись по теории. Всего 5 вайтпейперов с разными тематиками.

1️⃣ Введение в агенты – теоритическая база про агентов, мультиагентные системы
2️⃣ Агенты и тулзы: MCP – что такое MCP и как с ним делать тулзы для агентов
3️⃣ Context Engineering: Память и Сессии – как создавать контекст для агентов
4️⃣ Качество агентов – как тестировать и деббагать агентов
5️⃣ Прототип в прод – деплой, скейлинг и остальные продовые штуки.

Прочитал только первую часть и выделил для себя пару интересных моментов, о которых до этого не задумывался

Нам не хватает слов, чтобы описать, как люди взаимодействуют с ИИ.

Мы склонны очеловечивать его и использовать человеческие термины вроде «думать», «рассуждать» и «знать». У нас пока нет слов, которые различали бы «знать в семантическом смысле» и «знать с высокой вероятностью максимизации функции вознаграждения». Это два разных типа знания, но в 99,Х% случаев результат оказывается одинаковым.

Таксономия агентов и систем (на картинке)

– Уровень 4: Саморазвивающиеся агенты – самодополняющаяся система, создающая тулзы, если ей их не хватает для решения задачи

– Уровень 3: Рост коллаборативных многоагентных систем – мультиагентные системы, способные разбивать задачу на разных исполнителей

– Уровень 2: Стратегический решатель задач – агент с способностью планировать и разбивать задачи на подзадачи.

– Уровень 1: Связанный решатель задач – агент с доступом к внешним тулам и реальным данным

– Уровень 0: Базовая система рассуждений – чат с LLM

Пример саморазвивающейся системы

Агент «Project Manager», отвечающий за запуск продукта, может понять, что ему нужно отслеживать обсуждение в соцсетях, но в его команде нет ни инструмента, ни агента для этого.

1. Think (Мета-рассуждение):
Мне нужно отслеживать активность в соцсетях вокруг продукта, но у меня нет такой возможности

2. Act (Автономное создание):
Вместо того чтобы «упасть» с ошибкой, он вызывает высокоуровневый инструмент AgentCreator с новой задачей:
Создать нового агента, который мониторит соцсети по ключевым словам Solaris headphones, проводит сентимент-анализ и присылает ежедневную сводку

3. Observe:
Новый специализированный SentimentAnalysisAgent создаётся, тестируется и на лету добавляется в команду, готовый помогать в исходной миссии.

👍7❤2

299 views12:10

Идеальный стартап

Эпоха ресерча В недавнем интервью Илья Суцкевер (один из фаундеров OpenAI) рассказал, что мы переходим от эпохи скейлинга к эпохе ресерча. Что это значит? После открытия архитектуры трансформера в 2017 году в области ИИ прозошел огромный скачок. За счет…

Забавно. Решил начать постить в линкедин с этого блога, но на английском и этот пост прям хорошо полетел.

Зато там вообще не расходится все, что хоть отдаленно связано с техничкой и кодом, а в тг наоборот.

В линкене еще форматирования адекватного ни для чего нет – тоже проблема

А еще есть ощущение, что в линкене 90% комментариев написано АИ

2🔥3

288 viewsedited 13:41

Идеальный стартап

Forwarded from Сиолошная

Сначала маленький ничем не примечательный стартап Starcloud запускает в космос видеокарты и говорит про датацентры на орбите. Потом Jeff Bezos, вообще-то некогда самый богатый человек в мире, говорит, что это — будущее. CEO Google объявляет, что они запускают амбициозный проект Suncatcher для тестирования разворачивания группировки с собственными чипами компании, и вот недавно ещё стало известно, что Sam Altman вёл переговоры о приобретении Stoke Space, компании, занимающейся разработкой многоразовых ракет.

Больше всего известно про проект от Google, в рамках которого несколько инженеров собрались и сделали прикидки по возможности реализации проекта, по итогу которых был дан зелёный свет — и первые TPU полетят в космос в 2027-м году. Существенное отличие Suncatcher от Starcloud — вместо одной большой станции с огромными солнечными панелями будут относительно маленькие спутники, летающие близко друг к другу. Больше деталей из статьи:

— солнечные панели на орбите вырабатывают в 8 раз больше энергии, чем на Земле. Можно развернуть их так, чтобы свет поступал практически непрерывно, что снижает потребность в аккумуляторах. Спутники расположат в позиции, когда они будут лететь прямо по линии рассвета (тени, бегущей по Земле) — так, что одна сторона всегда освещена, а вторая находится в тени.

— спутники будут общаться между собой с помощью лазеров, как это делают сейчас спутники Starlink. Предполагается запуск кластеров из 81 спутника, которые летают роем в радиусе 1 км

— для оценки влияния радиации на чипы взяли TPU v6e и подставили под ускоритель частиц. Результаты оказались многообещающими. Хотя подсистемы памяти оказались наиболее чувствительным компонентом, они начали демонстрировать отклонения только после накопленной дозы в три раза выше ожидаемой (за пятилетнюю миссию). Не было зафиксировано необратимых отказов памяти. То есть в теории даже чипы as is подойдут, без существенных изменений в тех. процессе.

— ожидается, что цена вывода килограмма полезной нагрузки на орбиту упадёт до $200 в середине 30-ых годов. При такой цене стоимость запуска и эксплуатации космического дата-центра может стать примерно сопоставимой с затратами на электроэнергию аналогичного наземного дата-центра.

В общем, вот в такие времена живём, мечтаем по-крупному!

🔥3🤡1

182 views13:25

About

Blog

Apps

Platform