Идеальный стартап

Если ты хотел поработать со мной, то выдается отличная возможность.

Ищу копирайтера / seo специалиста в проект для написания статей в блог / Хабр, медиум – куда только сможем дотянуться. Будем работать над АИ агентами и продвигать их в массы. Контент будет обучающий, обзорный и туториалы - тут жестких рамок нет, всегда можно что-то придумать.

От тебя:
-Умение писать на Английском и есть статьи на ресурсах которые я перечислил с хорошим количеством просмотров
-Есть какой-то бекграунд в ИИ или программировании (необязательно быть гением, но хотя бы пару строк кода накидать нужно уметь)
-Понимание что и когда нужно пользователем разных журналов
-Умение работать автономно

По объему и оплате договоримся. Жду в личке @monsetrum

За репост знакомым с релевантным бекграундом или в свой канал отдельный респект

❤3

1.29K viewsedited 15:22

Идеальный стартап

Дизайн агентов: инструменты

Агентов от привычного нам чата отличает возможность взаимодействия с внешним миром. Делают они это посредством использования инструментов: что-то загуглить, занести встречу в календарь, отправить имейл. Какие паттерны взаимодействия с ними существуют?

Года два назад OpenAI впервые ввели tool calling – возможность для модели вызывать внешние функции. Вы предоставляете описание, название и параметры функции и LLM понимает, когда ее стоит вызвать.

{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get the current weather for a U.S. city.",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "City and state, e.g. 'New York, NY'.",
"default": "New York, NY"
},
},
"required": ["location"]
}
}
}

Для простых задач такой воркфлоу может подойти, когда вызовов немного и они односложные. Что делать в ситуациях, когда у нас множество функций, а задача становится сложнее?

Plan and Execute – глобальный уровень

Сначала планируем, затем выполняем. Звучит довольно просто: есть два прохода для выполнения задачи. На первом мы разбиваем цель пользователя на подзадачи и составляем to-do лист. На втором проходе мы отдаем подзадачу на выполнение исполнителю. Исполнитель может быть любым: стандартный tool calling, ReAct или что-то другое.

Вы могли видеть такое у курсора. Если ему сказать поменять часть кода, то он сначала сделает to-do список, который постепенно будет выполняться.

ReAct – локальный уровень

Что если подзадачу нельзя выполнить за один вызов LLM и функции? Делаем цикл!

Рассуждения -> Действие -> Наблюдение

Модель входит в цикл, пока не решает остановиться либо же не достигнет лимита шагов. На каждом шаге она размышляет в явном виде (Рассуждение), затем вызывает функцию (Действие) и смотрит на ее результат (Наблюдение). Таким образом модель может совершать сложные цепочки действий, требующие нескольких шагов за раз. Открыть календарь, найти свободную дату и записать вас в кальянную.

👍5❤2🔥2

1.56K viewsedited 14:14

Идеальный стартап

Мне тут в последнее время много вопросов приходило, могут ли мне помочь с проектом, которым я занимаюсь последние месяца три.

Сейчас вы можете! Репостните следующий пост, зайдите в дискорд, напишите pr и ваше мнение.

896 views06:07

Идеальный стартап

Open source framework for trading agents

Агентами пользуются много где, но не в финансах. Мы закрываем этот геп и предоставляем опен сорс фреймворк для бектестинга и трейдинга своих стратегий с помощью ии агентов.

Поддержите анонс в х

https://x.com/yresearch_ai/status/1983414505150579031?s=46

X (formerly Twitter)

Y-Research (@yresearch_ai) on X

We’re releasing the first-ever open-source framework for AI trading agents in finance. Backtesting and indicators are live; more data sources and live trading next. PRs welcome!

https://t.co/D6rXtwXGGv

#AI #OpenSource #AlgoTrading #Quant

👍15🔥3

1.03K views06:08

Идеальный стартап

Цикл улучшения моделей

После выхода GPT-3.5 прошло всего 3 года (завтра, кстати, юбилей!!), но модели за эти три года развились от простой генерации полу-осмысленного текста до поиска новых физических и математических открытий. Это огромный скачок за такой маленький период. Как же так произошло? Есть невидимый многим цикл разработки моделей.

Если мы хотим чтобы модель решала задачу Х, то мы начинаем не с решения самой задачи, а с тестового окружения для этой задачи. Мы должны понимать, насколько наше текущее решение хорошо и как последующие изменения меняют интересующие нас метрики.

В AI мире такие тесты называются бенчмарками. Обычно это набор задач, который похож на то, что модель будет решать в будущем. Например, один из самых популярных бенчмарков для программирования SWE-bench содержит Github-issue и модель должна написать код, который решал бы проблему и проходил тесты.

Отдельно стоит вопрос, насколько точно можно отразить с помощью имеющихся у нас данных можно реальную проблему. Если для задач вроде поиска человека на изображении или предсказания опухоли метки довольно очевидны: есть / нет, то для условного трейдинга, создания контента, создания продукта и других сложных систем все намного неочевиднее.

За последние 3 года вышло огромное множество бенчмарков на разные темы и задачи: логика, математика, школьные экзамены, ответы на вопросы. Модели от OpenAI, Claude, Grok, Google – все они соревнуются между собой за первенство метрик и создание лучшей под вашу задачу. Для этого они собирают новые данные, меняют архитектуру, придумывают разные трюки, типа thinking режимов и обучают на этом новые версии моделей.

И так, цикл адопшена выглядит так:

1️⃣ Создание бенчмарка
2️⃣ Сбор данных и тренировка моделей под новую задачу
3️⃣ Заголовки в новостях “модель теперь заменит программистов”
4️⃣ Все бегут ее пробовать и действительно она теперь решает больше задач

Смысл создания лучшей модели в том, чтобы больше завлечь больше пользователей. Мы привыкли, что Claude очень хорош в программировании, у Gemini большой контекст, а Grok меньше цензурирован. Эта конкуренция позволяет нам видеть улучшающиеся модели каждый год.

Что интересного будет в ближайшее время?

Развитие банковского и финансовых секторов.

– OpenAI ищут специалистов для создания бенчмарков в направлении финансов, банкинга и частного капитала. (31 августа 2025)
– OpenAI привлекли более 100 бывших банкиров для тренировок своих ИИ моделей (21 октября 2025)

Один из больших доменов, с которыми модели еще не работали – как раз финансы, банковский сектор и управление капиталом. Текущие соревнования по программированию, науке или другим доменам все еще приносят по 2-3% к метрикам, но уже виден спад темпов роста, так как метрики и так почти достигли потолка. Разумным шагом для поддержания конкуренции будет расширение доменов и внедрение моделей в новые сферы бизнеса, чем топовые лабы я уверен и занимаются.

Ставлю, что через год-два в мир финансов придет новое поколение моделей, способных решать большую часть задач.

👍2

469 views11:28

Идеальный стартап

Университет Мюнхена, где я сейчас делаю PhD хостит большой хакатон. Спонсоры интересные)

👍3🥰3

422 views13:48

Идеальный стартап

Schema Guided Reasoning

Агенты в последний год стали супер популярными: браузеры, курсор, миллион других приложений. И как мы уже знаем, для их развития критично иметь бенчмарки, чтобы можно было отслеживать прогресс и влияние новых фичей: сжатие контекста, память.

Сейчас в канале у @llm_under_hood идет бенчмарк с реальными бизнес задачами для агентов и топ решение использует подход Schema-Guided Reasoning (SGR), который так же был описан Ринатом.

Давно уже хотел разобраться в нем, поэтому принес вам выжимку SGR и как его использовать в агентах.

SGR

Идея довольно проста и уверен, что многие до этого и сами доходили: вместо формы свободного ответа заставить рассуждать модель по заданной структуре. С помощью structured output указать дополнительные поля с описанием, что в них должно быть, чтобы мотивировать модель думать в заданном нами ключе. К примеру с задачей классификации документов можно помочь модели следующей структурой:

{
"evidence_snippets": ["краткая пересказ документа”, "..."],
"notes": "1–2 предложения, к каким классам документ может относится“
"confidence": [вероятность каждого класса],
"main_label": "строка — название основного класса",
}

То есть мы сначала даем модели порассуждать: делаем пересказ, чтобы она сосредоточилась на главных моментах текста, даем возможность сделать предположения насчет классов и лишь затем выдаем финальный ответ.

Или если делаем агента для трейдинга:

{
"strategy_understanding": "краткий пересказ правила входа",
"condition_checks": [
{
"name": "название условия",
"data_used": "что именно посмотрел в MARKET_STATE",
"is_satisfied": true,
"comment": "краткое пояснение"
}
],
"overall_decision": {
"reasoning": "вывод на основе condition_checks"
"should_enter": true,
"direction": "long | short | none",
}
}

В среднем SGR позволяет модели думать в рамках вместо свободного ввода, что может увеличить точность и уменьшить количество галлюцинаций.

Особенно это заметно на non-thinking моделях, вроде gpt-5-nano, gpt-4.1, gpt-4o

SGR в агентах

Один из примеров использования – для адаптивного планирования агентов. Если мы хотим учитывать новый контекст, результаты вызова тулзов, то может переоценивать наши шаги на каждом вызове LLM. Выглядеть это может так:

{
"current_state": "краткое описание рынка, позиции и цели на сейчас",
"plan_remaining_steps_brief": [
"первый следующий шаг”,
“второй шаг”,
….,
],
"task_completed": false,
"function": "CheckEntryConditions | CheckExitConditions | PlaceOrder | ModifyPosition | ClosePosition | ManageRisk | ReportStatus | Wait"
}

Каждый вызов модели у нас строится новый план с учетом предыдущих действий и вызванных тулзов.

SGR позволяет формализовать рассуждения модели в заданной структуре. Это супер полезно для отлавливания ошибок и логгирования действий модели. Тут полноценный пример с кодом.

🔫 Если интересно читать про техничку агентов, то накиньте реакций и я запилю посты про подходы работы с контекстом, памятью и всем остальным.

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

erc3-agents/sgr-agent-erc32/store_agent.py at main · trustbit/erc3-agents

Sample agents for Enterprise RAG Challenge 3: AI Agents in Action - trustbit/erc3-agents

👍10

399 viewsedited 16:47

Идеальный стартап

Посмотрел интервью с Илоном Маском, о котором в ру сегменте не так много говорят почему-то. Само интервью так себе и интервьюер показался прям очень слабым, возможно, что это его стиль: задавать кучу вопросов, половина из которых вообще не релевантна и не развивать нормально ни одну из тем. Прочитал историю PayPal и биографию Маска, поэтому когда он погружается в детали и рассказывает что-то, то я сижу и такой: Да-да, я это читал.

Советую посмотреть только первую половину.

Вопросы, о существовании которых мы даже не догадываемся, — самые важные.

ИИ и роботы

–Спутники с солнечными панелями для эффективного получения энергии для ИИ. (Старлинк уже есть, будет ли развивать полноценный солюшн для ии с карточками и всем остальным на борту?)
–Видит роботов Оптимус как "персональных C3PO" для помощи по дому и в быту
–Цикл будущего: Роботы строят солнечные панели для энергии -> Добывают новые ресурсы -> Создают новых роботов.
–Увеличение эффективности производства товаров и услуг с помощью ИИ – единственное, что может помочь США справиться с гос. долгом.
–ИИ должен стремиться к красоте, правде и любопытности
–Гугл станет очень дорогой компанией благодаря своим инвестициям в ИИ и инфраструктуру

Деньги

–Деньги — это информационная система для распределения труда. Они будут не нужны.
–Единственная валюта будущего – энергия и завязанные на ней решения. Как биткоин.
–В ближайшие 20 лет работа станет опциональной благодаря автоматизации
–В течение трех лет темпы роста производства благ и услуг перегонят темпы роста денежной массы, что приведет к дефляции.
–Появится безусловный базовый доход.

X

–Рассматривает создание площадки как WeChat++
–Целью Х является стать платформой для коллективного сознания, где люди могли бы обмениваться мыслями. Больше людей = больше мыслей = больше познания вселенной

Бонус. Чек лист в какую компанию инвестировать
–Нравится продукт?
–Нравится карта развития?
–Веришь в команду?

YouTube

Elon Musk: A Different Conversation w/ Nikhil Kamath | Full Episode | People by WTF Ep. 16

A long conversation with #ElonMusk about work, consciousness, family, money, AI and how the future might unfold.

No script, no performance, just two people thinking out loud.

A big thank you to Manoj Ladwa - a close friend of many years and a remarkable…

👍4❤1

356 viewsedited 17:32

Идеальный стартап

Эпоха ресерча

В недавнем интервью Илья Суцкевер (один из фаундеров OpenAI) рассказал, что мы переходим от эпохи скейлинга к эпохе ресерча. Что это значит?

После открытия архитектуры трансформера в 2017 году в области ИИ прозошел огромный скачок. За счет того, что количество токенов и данных, на которых модели обучались росли с каждой новой версией модели. Там был целый спор еще про теорию скейлинга: кто-то верил в закидывание данными, кто-то считал, что это путь в никуда, но как показала практика – скейлинг работал до сих пор. 🔍

Основная проблема, что количество данных сгенерированных человеком огромно по меркам тебя или меня, но для ИИ всегда мало. Им нужны корнер кейсы и качественные размышления, которых в интернете не так много. Сейчас используют подходы генерации синтетических данных, как, например, в моем исследовании, где мы генерировали синтетические размышления и получили результаты лучше топовых моделей на отдельно взятой задаче.

Помимо данных ограничения на скейлинг ставят и вычислительные мощности. Все строят огромные дата центры и закупают миллионами GPU, прожигая озоновый слой в 0. 📞

Что делать?

Кажется, что с текущей архитектурой и подходу к обучению мы упираемся если не в потолок, то в задержку развития новых моделей точно. Есть ли другой подход к этому?

Одна из проблем, которая возникла в моем предыдущем ресерче фундаментальная – в архитектуре трансформера не заложена возможность обмена информацией между слоями. Большая часть памяти храниться в FFW слое, следовательно, по моей гипотезе количество дублируемых данных должно быть огромным. Более того, даже если модель знает ответ, то есть вероятность, что нахождение ответа не в том слое может привести либо к галлюцинации, либо к неверному ответу. 🚬

Мы с коллегой очень часто обсуждаем модульность как средство оптимизации текущей архитектуры. Сейчас я работаю над совсем небольшим изменением архитектуры трансформера: добавлением внешней памяти, которое в теории должно оптимизировать размер модели кратно, позволив модели использовать больше ресурсов на логику и рассуждение, а не хранение фактов.

Посмотрим, что выйдет, но результаты уже хорошие. В январе подаемся на конфу.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.

𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…

👍3❤1🦄1

364 views08:00

Идеальный стартап

😁2🤣2

375 views09:34

Идеальный стартап

Видимо Илон Макс не единственный, кто думает о спутниках с солнечными панелями для ИИ компьюта

❤1

296 views13:32

Идеальный стартап

Forwarded from Техасский Вестник

OpenAI хочет в космос.

Вот и наступил тот страшный день, когда пересеклись пути с прекрасным каналом Сиолошная. На WSJ вышел материал про попытку OpenAI расшириться до конкурента SpaceX и xAI.

WSJ утверждает, что Сэм Альтман вёл переговоры по покупке весомой доли в компании Stoke Space, которая занимается разработкой многоразовой ракеты Nova. В теории, это помогло бы OpenAI выйти на новый рынок орбитального компьюта, который часто недооценивают, но про него говорят ключевые участники отрасли. А это уже поляна таких больших партнёрок, как SpaceX-xAI и Blue Origin-Amazon. Основные предпосылки, что усложняющаяся регуляторка и стоимость электроэнергии могут сделать орбитальный компьют интересным дополнением к инфраструктуре на Земле.

Но многомиллиадрная сделка в итоге не продвинулась, и Stoke не будет делать нейрослоп снова великим. Кто следующий — Relativity и RocketLab?

👍1

319 views13:32

Идеальный стартап

😁5😭3

290 views09:05

Идеальный стартап

Этот смешнее

280 views09:21

Идеальный стартап

Forwarded from Alex Kühn

😁6

298 views09:21

Идеальный стартап

AI Agent Crash Course

Google и kaggle пару недель назад выпустили 5-дневный интенсив по АИ агентам. В целом, довольно интересно. Даже если знания имеются, то всегда хорошо их структурировать и еще раз пройтись по теории. Всего 5 вайтпейперов с разными тематиками.

1️⃣ Введение в агенты – теоритическая база про агентов, мультиагентные системы
2️⃣ Агенты и тулзы: MCP – что такое MCP и как с ним делать тулзы для агентов
3️⃣ Context Engineering: Память и Сессии – как создавать контекст для агентов
4️⃣ Качество агентов – как тестировать и деббагать агентов
5️⃣ Прототип в прод – деплой, скейлинг и остальные продовые штуки.

Прочитал только первую часть и выделил для себя пару интересных моментов, о которых до этого не задумывался

Нам не хватает слов, чтобы описать, как люди взаимодействуют с ИИ.

Мы склонны очеловечивать его и использовать человеческие термины вроде «думать», «рассуждать» и «знать». У нас пока нет слов, которые различали бы «знать в семантическом смысле» и «знать с высокой вероятностью максимизации функции вознаграждения». Это два разных типа знания, но в 99,Х% случаев результат оказывается одинаковым.

Таксономия агентов и систем (на картинке)

– Уровень 4: Саморазвивающиеся агенты – самодополняющаяся система, создающая тулзы, если ей их не хватает для решения задачи

– Уровень 3: Рост коллаборативных многоагентных систем – мультиагентные системы, способные разбивать задачу на разных исполнителей

– Уровень 2: Стратегический решатель задач – агент с способностью планировать и разбивать задачи на подзадачи.

– Уровень 1: Связанный решатель задач – агент с доступом к внешним тулам и реальным данным

– Уровень 0: Базовая система рассуждений – чат с LLM

Пример саморазвивающейся системы

Агент «Project Manager», отвечающий за запуск продукта, может понять, что ему нужно отслеживать обсуждение в соцсетях, но в его команде нет ни инструмента, ни агента для этого.

1. Think (Мета-рассуждение):
Мне нужно отслеживать активность в соцсетях вокруг продукта, но у меня нет такой возможности

2. Act (Автономное создание):
Вместо того чтобы «упасть» с ошибкой, он вызывает высокоуровневый инструмент AgentCreator с новой задачей:
Создать нового агента, который мониторит соцсети по ключевым словам Solaris headphones, проводит сентимент-анализ и присылает ежедневную сводку

3. Observe:
Новый специализированный SentimentAnalysisAgent создаётся, тестируется и на лету добавляется в команду, готовый помогать в исходной миссии.

👍7❤2

302 views12:10

Идеальный стартап

Эпоха ресерча В недавнем интервью Илья Суцкевер (один из фаундеров OpenAI) рассказал, что мы переходим от эпохи скейлинга к эпохе ресерча. Что это значит? После открытия архитектуры трансформера в 2017 году в области ИИ прозошел огромный скачок. За счет…

Забавно. Решил начать постить в линкедин с этого блога, но на английском и этот пост прям хорошо полетел.

Зато там вообще не расходится все, что хоть отдаленно связано с техничкой и кодом, а в тг наоборот.

В линкене еще форматирования адекватного ни для чего нет – тоже проблема

А еще есть ощущение, что в линкене 90% комментариев написано АИ

2🔥3

290 viewsedited 13:41

Идеальный стартап

Forwarded from Сиолошная

Сначала маленький ничем не примечательный стартап Starcloud запускает в космос видеокарты и говорит про датацентры на орбите. Потом Jeff Bezos, вообще-то некогда самый богатый человек в мире, говорит, что это — будущее. CEO Google объявляет, что они запускают амбициозный проект Suncatcher для тестирования разворачивания группировки с собственными чипами компании, и вот недавно ещё стало известно, что Sam Altman вёл переговоры о приобретении Stoke Space, компании, занимающейся разработкой многоразовых ракет.

Больше всего известно про проект от Google, в рамках которого несколько инженеров собрались и сделали прикидки по возможности реализации проекта, по итогу которых был дан зелёный свет — и первые TPU полетят в космос в 2027-м году. Существенное отличие Suncatcher от Starcloud — вместо одной большой станции с огромными солнечными панелями будут относительно маленькие спутники, летающие близко друг к другу. Больше деталей из статьи:

— солнечные панели на орбите вырабатывают в 8 раз больше энергии, чем на Земле. Можно развернуть их так, чтобы свет поступал практически непрерывно, что снижает потребность в аккумуляторах. Спутники расположат в позиции, когда они будут лететь прямо по линии рассвета (тени, бегущей по Земле) — так, что одна сторона всегда освещена, а вторая находится в тени.

— спутники будут общаться между собой с помощью лазеров, как это делают сейчас спутники Starlink. Предполагается запуск кластеров из 81 спутника, которые летают роем в радиусе 1 км

— для оценки влияния радиации на чипы взяли TPU v6e и подставили под ускоритель частиц. Результаты оказались многообещающими. Хотя подсистемы памяти оказались наиболее чувствительным компонентом, они начали демонстрировать отклонения только после накопленной дозы в три раза выше ожидаемой (за пятилетнюю миссию). Не было зафиксировано необратимых отказов памяти. То есть в теории даже чипы as is подойдут, без существенных изменений в тех. процессе.

— ожидается, что цена вывода килограмма полезной нагрузки на орбиту упадёт до $200 в середине 30-ых годов. При такой цене стоимость запуска и эксплуатации космического дата-центра может стать примерно сопоставимой с затратами на электроэнергию аналогичного наземного дата-центра.

В общем, вот в такие времена живём, мечтаем по-крупному!

🔥3🤡1

184 views13:25

About

Blog

Apps

Platform