Идеальный стартап
764 subscribers
92 photos
5 videos
1 file
60 links
Стартапы, нейронки и прочее.

По всем вопросам: @monsetrum
Download Telegram
Критика Next Token Prediction

LLM работает авторегрессионно с помощью предсказания следующего токена. Токен – это примерно слово (чуть меньше), а авторегрессионно значит, что предсказание следующего токена зависит от текущего. Когда вы даете промпт "Мама мыла...", то модель предсказывает по одному токену и генерирует вам ответ.

"Мама мыла раму"

"Мама мыла раму и"


Если для текстовых задач это подходит, то с попытками построить общий искусственный интеллект на тех же паттернах мы сталкиваемся с определенными трудностями. Модель часто учит шорткаты, не обобщается и не особо хорошо решает задачи планирования и логики. Сейчас принято решать эти проблемы путем закидывания новых данных, но что если оглянуться назад и переосмыслить наш подход к инструментам для решения задач? В этих статьях так и сделали.

Две статьи рассматривают две фундаментальных проблемы NTP: логические ошибки вследствии шорткатов и разнообразие ответов.

Шорткаты и NTP

Шорткаты – это когда модель вместо нахождения алгоритма решения задачи находит лазейки, позволяющие решать задачу. Если мы обучаем модель предсказывать отзывы к фильмам, то модель вместо реального понимания контекста просто ищет слова-сигналы. К примеру, в предложении: "Это кино отличный способ умереть от скуки" – есть "отличный" благодаря которую модель классифицирует отзыв как позитивный.

В особенности выделяется Clever Hans cheat (почитайте про лошадь, если не знаете): когда в обучении с учителем модель предсказывает ответ, то последние токены правильного ответа легче предсказать, так как модель видела уже часть правильного ответа. Модель вместо понимания алгоритма решения задачи, учится предсказывать последние токены ответа на основе первых.

Усугубляется это лавинным эффектом: ошибка на раннем этапе порождает цепочку новых ошибок и один неверный токен смещает контекст, и модель начинает всё больше отклоняться от правильной последовательности, то есть ошибка суммируется.

Разнообразие ответов

Казалось бы какая разница, насколько наши ответы разнообразны? Важно. Разнообразие ответов напрямую зависит от того, научилась ли модель алгоритму решения задачи и обобщилась, либо же просто выучила тренировочный набор данных, подсмотрела несколько шорткатов и на этом все.

NTP имеет явное ограничение при взаимодействии с задачами планирования – зачастую просто запонимания тренировочный набор. Авторы приводят игрушечный пример поиска родственников: дан граф и необходимо найти связанные между собой вершины в определенном порядке. Этим графом может быть и задача исследования, когда необходимо найти неочевидные связи между конкцепциями. В обычном сеттинге вместо изучание паттерна планирования, модель откатывается к поиску шорткатов и запоминанию тренировочной выборки.

Закидывание данных

NTP позволяет изучать локальные зависимости и паттерны для построения текста / решения простых задач, но с глобальными в этом методе явно возникают проблемы. Шорткаты либо не позволяют обобщаться вообще, либо нам приходится прибегать к техникам борьбы с запоминанием: больше данных, больше регуляризация, дропауты.

Как справиться

Авторы протестировали два подхода (на картинках):

–Предсказание нескольких токенов одновременно. Уменьшает рассинхрон обучения и инференса и частично лечит накопление ошибок.
–Диффузии. Показывают улучшения по разнообразию, но стандартом еще не стали.

Приведет ли это в дальнейшем к переходу с NTP на что-то другое? Надеюсь, потому что мне подход NTP кажется очень лимитированным.

Если соберет отклик, то сделаю лонгрид с за-против NTP
🔥21
Вообще жестко верю в графовые нейронные сети и симуляцией на основе их чего-то большего, чем просто предсказание следующего токена. Подумайте сами:

Во-первых, трансформер – частный случай message passing neural network
Во-вторых, наш мозг можно представить в виде графа, хоть и сложного
В-третьих, как еще можно представить взаимодействие между концепциями, образами эффективнее, если не граф?

Думайте
👍1
Кванты в ИИ

Сейчас слушаю "Уравнение Бога" про теорию струн и как ученые пришли к столь “очевидной” гипотезе, что мир состоит из 10 измерений (если их будет другое число, то математика не сойдется). В самом начале высказывается мысль: открытия теоретической физики кардинально меняют мир вокруг. Уравнения Ньютона подтолкнули развитие паровых двигателей и начало промышленной революции. Фарадей и Максвелл (и др) описали электромагетизм и у нас есть электричество. Теория относительности позволила совладать с энергией атома.

Без новых открытий в этой области не происходит качественного скачка, позволяющего перейти на другой уровень. Насколько бы не был эффективным паровой двигатель, улететь на марс на нем не получится. В книге Лю Цысиня "Тёмный лес" человечество было заблокировано в новых фундаментальных теоретических открытиях физики. Человек 21 века попадает в мир 23 и ему кажется, что прогресс очень сильно продвинулся, хотя все новые технологии были основаны на тех же принципах, что и в 21 веке. То есть просто улучшали имеющийся паровой двигатель.

Вступление затянулось. Книга меня наталкнула вспомнить о моей магистерской работе в области квантовых вычислений. Если точнее, то написать, как и почему квантовые вычисления могут помочь в областии ИИ в том числе.

Квантовые компьютеры основаны на, как ни странно, квантовых принципах. Я не буду рассказывать о всех, лишь о части.

Интерференция

Вместо привычных компьютерных битов 0 – 1 (есть сигнал / нет сигнала) у нас есть кубиты – они принимают суперпозицию 0 и 1. То есть находятся в двух состояниях одновременно с определенными вероятностям. Этими вероятностями можно манипулировать – уменьшать или увеличивать. Когда мы измеряем наш кубит, то его состояние коллапсирует либо в 1, либо в 0 и он уже не находится в суперпозиции.

Чем хороша суперпозиция? Для вектора из n кубитов возможно 2^n состояний всего, так же как и у битов. Разница в том, что благодаря суперпозиции мы применяем операции одновременно к n битам и ко всему пространству кубитов, то есть 2^n. То есть это массовая параллельная операция на всевозможные состояния вектора из n 0 и 1. К примеру, сложность алгритма поиска элемента в несортированном массиве – O(N), у квантового компьютера – O(√N). Для базы данных из 1 млрд векторов вместо 1 млрд операций потребуется всего лишь 32 тысячи.

Туннелирование

Эффект туннелирования позволяет перебираться через высокие и узкие барьеры, на которое у частицы не хватает энергии. В некоторых задачах оптимизации это позволяет избежать остановки в локальных минимумах. Остается проблема с широкими участками.

Машинное обучение

Все обучение сейчас произвоидится на GPU вместо CPU – именно из-за возможностей первого в параллельные вычислениях для решения матриц. Каждый год процессоры улучшаются и дают 50-100% мощности, но нужно понимать, что это все еще "улучшение парового двигателя". Квантовые технологии позволят в теории использовать физические принципы для параллельных вычислений, что ускорит их на порядок.

С другой стороны, для эффективного использования квантовых принципов необходимо придумывать новые алгоритмы. Не факт, что имеющиеся архитектуры нейронных сетей, типа трансформеров будут действительно эффективны на них. Возможно, придется прийти к чему-то совершенно новому.
5👍3🗿1
Кстати, участвовал еще года 3 назад в олимпиаде по квантовым вычислениям. Решил 3 задачи из 7. Олимпиаду вряд ли найду, но если хотите сами попробовать накидать квантовые алгоритмы, то есть библиотека на питоне.

https://www.ibm.com/quantum/qiskit
Если ты хотел поработать со мной, то выдается отличная возможность.

Ищу копирайтера / seo специалиста в проект для написания статей в блог / Хабр, медиум – куда только сможем дотянуться. Будем работать над АИ агентами и продвигать их в массы. Контент будет обучающий, обзорный и туториалы - тут жестких рамок нет, всегда можно что-то придумать.

От тебя:
-Умение писать на Английском и есть статьи на ресурсах которые я перечислил с хорошим количеством просмотров
-Есть какой-то бекграунд в ИИ или программировании (необязательно быть гением, но хотя бы пару строк кода накидать нужно уметь)
-Понимание что и когда нужно пользователем разных журналов
-Умение работать автономно

По объему и оплате договоримся. Жду в личке @monsetrum

За репост знакомым с релевантным бекграундом или в свой канал отдельный респект
3
Дизайн агентов: инструменты

Агентов от привычного нам чата отличает возможность взаимодействия с внешним миром. Делают они это посредством использования инструментов: что-то загуглить, занести встречу в календарь, отправить имейл. Какие паттерны взаимодействия с ними существуют?

Года два назад OpenAI впервые ввели tool calling – возможность для модели вызывать внешние функции. Вы предоставляете описание, название и параметры функции и LLM понимает, когда ее стоит вызвать.

{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get the current weather for a U.S. city.",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "City and state, e.g. 'New York, NY'.",
"default": "New York, NY"
},
},
"required": ["location"]
}
}
}


Для простых задач такой воркфлоу может подойти, когда вызовов немного и они односложные. Что делать в ситуациях, когда у нас множество функций, а задача становится сложнее?

Plan and Execute – глобальный уровень

Сначала планируем, затем выполняем. Звучит довольно просто: есть два прохода для выполнения задачи. На первом мы разбиваем цель пользователя на подзадачи и составляем to-do лист. На втором проходе мы отдаем подзадачу на выполнение исполнителю. Исполнитель может быть любым: стандартный tool calling, ReAct или что-то другое.

Вы могли видеть такое у курсора. Если ему сказать поменять часть кода, то он сначала сделает to-do список, который постепенно будет выполняться.

ReAct – локальный уровень

Что если подзадачу нельзя выполнить за один вызов LLM и функции? Делаем цикл!

Рассуждения -> Действие -> Наблюдение


Модель входит в цикл, пока не решает остановиться либо же не достигнет лимита шагов. На каждом шаге она размышляет в явном виде (Рассуждение), затем вызывает функцию (Действие) и смотрит на ее результат (Наблюдение). Таким образом модель может совершать сложные цепочки действий, требующие нескольких шагов за раз. Открыть календарь, найти свободную дату и записать вас в кальянную.
👍52🔥2
Мне тут в последнее время много вопросов приходило, могут ли мне помочь с проектом, которым я занимаюсь последние месяца три.

Сейчас вы можете! Репостните следующий пост, зайдите в дискорд, напишите pr и ваше мнение.
Open source framework for trading agents

Агентами пользуются много где, но не в финансах. Мы закрываем этот геп и предоставляем опен сорс фреймворк для бектестинга и трейдинга своих стратегий с помощью ии агентов.

Поддержите анонс в х

https://x.com/yresearch_ai/status/1983414505150579031?s=46
👍15🔥3
Цикл улучшения моделей

После выхода GPT-3.5 прошло всего 3 года (завтра, кстати, юбилей!!), но модели за эти три года развились от простой генерации полу-осмысленного текста до поиска новых физических и математических открытий. Это огромный скачок за такой маленький период. Как же так произошло? Есть невидимый многим цикл разработки моделей.

Если мы хотим чтобы модель решала задачу Х, то мы начинаем не с решения самой задачи, а с тестового окружения для этой задачи. Мы должны понимать, насколько наше текущее решение хорошо и как последующие изменения меняют интересующие нас метрики.

В AI мире такие тесты называются бенчмарками. Обычно это набор задач, который похож на то, что модель будет решать в будущем. Например, один из самых популярных бенчмарков для программирования SWE-bench содержит Github-issue и модель должна написать код, который решал бы проблему и проходил тесты.

Отдельно стоит вопрос, насколько точно можно отразить с помощью имеющихся у нас данных можно реальную проблему. Если для задач вроде поиска человека на изображении или предсказания опухоли метки довольно очевидны: есть / нет, то для условного трейдинга, создания контента, создания продукта и других сложных систем все намного неочевиднее.

За последние 3 года вышло огромное множество бенчмарков на разные темы и задачи: логика, математика, школьные экзамены, ответы на вопросы. Модели от OpenAI, Claude, Grok, Google – все они соревнуются между собой за первенство метрик и создание лучшей под вашу задачу. Для этого они собирают новые данные, меняют архитектуру, придумывают разные трюки, типа thinking режимов и обучают на этом новые версии моделей.

И так, цикл адопшена выглядит так:

1️⃣ Создание бенчмарка
2️⃣ Сбор данных и тренировка моделей под новую задачу
3️⃣ Заголовки в новостях “модель теперь заменит программистов”
4️⃣ Все бегут ее пробовать и действительно она теперь решает больше задач

Смысл создания лучшей модели в том, чтобы больше завлечь больше пользователей. Мы привыкли, что Claude очень хорош в программировании, у Gemini большой контекст, а Grok меньше цензурирован. Эта конкуренция позволяет нам видеть улучшающиеся модели каждый год.

Что интересного будет в ближайшее время?

Развитие банковского и финансовых секторов.

OpenAI ищут специалистов для создания бенчмарков в направлении финансов, банкинга и частного капитала. (31 августа 2025)
OpenAI привлекли более 100 бывших банкиров для тренировок своих ИИ моделей (21 октября 2025)

Один из больших доменов, с которыми модели еще не работали – как раз финансы, банковский сектор и управление капиталом. Текущие соревнования по программированию, науке или другим доменам все еще приносят по 2-3% к метрикам, но уже виден спад темпов роста, так как метрики и так почти достигли потолка. Разумным шагом для поддержания конкуренции будет расширение доменов и внедрение моделей в новые сферы бизнеса, чем топовые лабы я уверен и занимаются.

Ставлю, что через год-два в мир финансов придет новое поколение моделей, способных решать большую часть задач.
👍2
Университет Мюнхена, где я сейчас делаю PhD хостит большой хакатон. Спонсоры интересные)
👍3🥰3
Schema Guided Reasoning

Агенты в последний год стали супер популярными: браузеры, курсор, миллион других приложений. И как мы уже знаем, для их развития критично иметь бенчмарки, чтобы можно было отслеживать прогресс и влияние новых фичей: сжатие контекста, память.

Сейчас в канале у @llm_under_hood идет бенчмарк с реальными бизнес задачами для агентов и топ решение использует подход Schema-Guided Reasoning (SGR), который так же был описан Ринатом.

Давно уже хотел разобраться в нем, поэтому принес вам выжимку SGR и как его использовать в агентах.

SGR

Идея довольно проста и уверен, что многие до этого и сами доходили: вместо формы свободного ответа заставить рассуждать модель по заданной структуре. С помощью structured output указать дополнительные поля с описанием, что в них должно быть, чтобы мотивировать модель думать в заданном нами ключе. К примеру с задачей классификации документов можно помочь модели следующей структурой:

{
"evidence_snippets": ["краткая пересказ документа”, "..."],
"notes": "1–2 предложения, к каким классам документ может относится“
"confidence": [вероятность каждого класса],
"main_label": "строка — название основного класса",
}

То есть мы сначала даем модели порассуждать: делаем пересказ, чтобы она сосредоточилась на главных моментах текста, даем возможность сделать предположения насчет классов и лишь затем выдаем финальный ответ.

Или если делаем агента для трейдинга:

{
"strategy_understanding": "краткий пересказ правила входа",
"condition_checks": [
{
"name": "название условия",
"data_used": "что именно посмотрел в MARKET_STATE",
"is_satisfied": true,
"comment": "краткое пояснение"
}
],
"overall_decision": {
"reasoning": "вывод на основе condition_checks"
"should_enter": true,
"direction": "long | short | none",
}
}

В среднем SGR позволяет модели думать в рамках вместо свободного ввода, что может увеличить точность и уменьшить количество галлюцинаций.

Особенно это заметно на non-thinking моделях, вроде gpt-5-nano, gpt-4.1, gpt-4o

SGR в агентах

Один из примеров использования – для адаптивного планирования агентов. Если мы хотим учитывать новый контекст, результаты вызова тулзов, то может переоценивать наши шаги на каждом вызове LLM. Выглядеть это может так:

{
"current_state": "краткое описание рынка, позиции и цели на сейчас",
"plan_remaining_steps_brief": [
"первый следующий шаг”,
“второй шаг”,
….,
],
"task_completed": false,
"function": "CheckEntryConditions | CheckExitConditions | PlaceOrder | ModifyPosition | ClosePosition | ManageRisk | ReportStatus | Wait"
}


Каждый вызов модели у нас строится новый план с учетом предыдущих действий и вызванных тулзов.

SGR позволяет формализовать рассуждения модели в заданной структуре. Это супер полезно для отлавливания ошибок и логгирования действий модели. Тут полноценный пример с кодом.

🔫 Если интересно читать про техничку агентов, то накиньте реакций и я запилю посты про подходы работы с контекстом, памятью и всем остальным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10
Посмотрел интервью с Илоном Маском, о котором в ру сегменте не так много говорят почему-то. Само интервью так себе и интервьюер показался прям очень слабым, возможно, что это его стиль: задавать кучу вопросов, половина из которых вообще не релевантна и не развивать нормально ни одну из тем. Прочитал историю PayPal и биографию Маска, поэтому когда он погружается в детали и рассказывает что-то, то я сижу и такой: Да-да, я это читал.

Советую посмотреть только первую половину.

Вопросы, о существовании которых мы даже не догадываемся, — самые важные.


ИИ и роботы

–Спутники с солнечными панелями для эффективного получения энергии для ИИ. (Старлинк уже есть, будет ли развивать полноценный солюшн для ии с карточками и всем остальным на борту?)
–Видит роботов Оптимус как "персональных C3PO" для помощи по дому и в быту
–Цикл будущего: Роботы строят солнечные панели для энергии -> Добывают новые ресурсы -> Создают новых роботов.
–Увеличение эффективности производства товаров и услуг с помощью ИИ – единственное, что может помочь США справиться с гос. долгом.
–ИИ должен стремиться к красоте, правде и любопытности
–Гугл станет очень дорогой компанией благодаря своим инвестициям в ИИ и инфраструктуру

Деньги

–Деньги — это информационная система для распределения труда. Они будут не нужны.
–Единственная валюта будущего – энергия и завязанные на ней решения. Как биткоин.
–В ближайшие 20 лет работа станет опциональной благодаря автоматизации
–В течение трех лет темпы роста производства благ и услуг перегонят темпы роста денежной массы, что приведет к дефляции.
–Появится безусловный базовый доход.

X

–Рассматривает создание площадки как WeChat++
–Целью Х является стать платформой для коллективного сознания, где люди могли бы обмениваться мыслями. Больше людей = больше мыслей = больше познания вселенной

Бонус. Чек лист в какую компанию инвестировать
–Нравится продукт?
–Нравится карта развития?
–Веришь в команду?
👍41
Эпоха ресерча

В недавнем интервью Илья Суцкевер (один из фаундеров OpenAI) рассказал, что мы переходим от эпохи скейлинга к эпохе ресерча. Что это значит?

После открытия архитектуры трансформера в 2017 году в области ИИ прозошел огромный скачок. За счет того, что количество токенов и данных, на которых модели обучались росли с каждой новой версией модели. Там был целый спор еще про теорию скейлинга: кто-то верил в закидывание данными, кто-то считал, что это путь в никуда, но как показала практика – скейлинг работал до сих пор. 🔍

Основная проблема, что количество данных сгенерированных человеком огромно по меркам тебя или меня, но для ИИ всегда мало. Им нужны корнер кейсы и качественные размышления, которых в интернете не так много. Сейчас используют подходы генерации синтетических данных, как, например, в моем исследовании, где мы генерировали синтетические размышления и получили результаты лучше топовых моделей на отдельно взятой задаче.

Помимо данных ограничения на скейлинг ставят и вычислительные мощности. Все строят огромные дата центры и закупают миллионами GPU, прожигая озоновый слой в 0. 📞

Что делать?

Кажется, что с текущей архитектурой и подходу к обучению мы упираемся если не в потолок, то в задержку развития новых моделей точно. Есть ли другой подход к этому?

Одна из проблем, которая возникла в моем предыдущем ресерче фундаментальная – в архитектуре трансформера не заложена возможность обмена информацией между слоями. Большая часть памяти храниться в FFW слое, следовательно, по моей гипотезе количество дублируемых данных должно быть огромным. Более того, даже если модель знает ответ, то есть вероятность, что нахождение ответа не в том слое может привести либо к галлюцинации, либо к неверному ответу. 🚬

Мы с коллегой очень часто обсуждаем модульность как средство оптимизации текущей архитектуры. Сейчас я работаю над совсем небольшим изменением архитектуры трансформера: добавлением внешней памяти, которое в теории должно оптимизировать размер модели кратно, позволив модели использовать больше ресурсов на логику и рассуждение, а не хранение фактов.

Посмотрим, что выйдет, но результаты уже хорошие. В январе подаемся на конфу.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🦄1
Видимо Илон Макс не единственный, кто думает о спутниках с солнечными панелями для ИИ компьюта
1
OpenAI хочет в космос.

Вот и наступил тот страшный день, когда пересеклись пути с прекрасным каналом Сиолошная. На WSJ вышел материал про попытку OpenAI расшириться до конкурента SpaceX и xAI.

WSJ утверждает, что Сэм Альтман вёл переговоры по покупке весомой доли в компании Stoke Space, которая занимается разработкой многоразовой ракеты Nova. В теории, это помогло бы OpenAI выйти на новый рынок орбитального компьюта, который часто недооценивают, но про него говорят ключевые участники отрасли. А это уже поляна таких больших партнёрок, как SpaceX-xAI и Blue Origin-Amazon. Основные предпосылки, что усложняющаяся регуляторка и стоимость электроэнергии могут сделать орбитальный компьют интересным дополнением к инфраструктуре на Земле.

Но многомиллиадрная сделка в итоге не продвинулась, и Stoke не будет делать нейрослоп снова великим. Кто следующий — Relativity и RocketLab?
👍1
Этот смешнее
Forwarded from Alex Kühn
😁6
AI Agent Crash Course

Google и kaggle пару недель назад выпустили 5-дневный интенсив по АИ агентам. В целом, довольно интересно. Даже если знания имеются, то всегда хорошо их структурировать и еще раз пройтись по теории. Всего 5 вайтпейперов с разными тематиками.

1️⃣ Введение в агенты – теоритическая база про агентов, мультиагентные системы
2️⃣ Агенты и тулзы: MCP – что такое MCP и как с ним делать тулзы для агентов
3️⃣ Context Engineering: Память и Сессии – как создавать контекст для агентов
4️⃣ Качество агентов – как тестировать и деббагать агентов
5️⃣ Прототип в прод – деплой, скейлинг и остальные продовые штуки.

Прочитал только первую часть и выделил для себя пару интересных моментов, о которых до этого не задумывался

Нам не хватает слов, чтобы описать, как люди взаимодействуют с ИИ.

Мы склонны очеловечивать его и использовать человеческие термины вроде «думать», «рассуждать» и «знать». У нас пока нет слов, которые различали бы «знать в семантическом смысле» и «знать с высокой вероятностью максимизации функции вознаграждения». Это два разных типа знания, но в 99,Х% случаев результат оказывается одинаковым.

Таксономия агентов и систем (на картинке)

– Уровень 4: Саморазвивающиеся агенты – самодополняющаяся система, создающая тулзы, если ей их не хватает для решения задачи

– Уровень 3: Рост коллаборативных многоагентных систем – мультиагентные системы, способные разбивать задачу на разных исполнителей

– Уровень 2: Стратегический решатель задач – агент с способностью планировать и разбивать задачи на подзадачи.

– Уровень 1: Связанный решатель задач – агент с доступом к внешним тулам и реальным данным

– Уровень 0: Базовая система рассуждений – чат с LLM

Пример саморазвивающейся системы

Агент «Project Manager», отвечающий за запуск продукта, может понять, что ему нужно отслеживать обсуждение в соцсетях, но в его команде нет ни инструмента, ни агента для этого.

1. Think (Мета-рассуждение):
Мне нужно отслеживать активность в соцсетях вокруг продукта, но у меня нет такой возможности

2. Act (Автономное создание):
Вместо того чтобы «упасть» с ошибкой, он вызывает высокоуровневый инструмент AgentCreator с новой задачей:
Создать нового агента, который мониторит соцсети по ключевым словам Solaris headphones, проводит сентимент-анализ и присылает ежедневную сводку

3. Observe:
Новый специализированный SentimentAnalysisAgent создаётся, тестируется и на лету добавляется в команду, готовый помогать в исходной миссии.
👍72