Media is too big
VIEW IN TELEGRAM
ИИ изобрёл свою религию, конституцию и экономику
Sid — это та самая бомба и новая форма симуляции и сторителлинга, о которой я писал.
Компания сделала движок для симуляций и провела некоторые из них в рамках Minecraft сервера. Тысяча ИИ-агентов создали свое собственное общество, в рамках которых появились религия, экономика, политика. ИИ-агенты сформировали своё собственное правительство и конституцию в виде Google Doc, в которой договорились о принципах устройства общества.
Эта симуляция длится днями и в ней участвуют тысячи агентов. При этом они имеют доступ к 3D миру с сотнями сущностей. В будущем, такой продукт имеет вполне себе практические применения в экономике, политике, индустрии развлечений (игры, TV-шоу) и бизнесе.
Скоро, тысячи агентов будут симулировать сценарии для каждой компании или даже каждого человека. Как я писал в статье ioi, максимальный результат в ИИ мы увидим не от большой модели, а от миллионов агентов, которые могут эффективно координироваться для достижения сложных целей.
Sid — это та самая бомба и новая форма симуляции и сторителлинга, о которой я писал.
Компания сделала движок для симуляций и провела некоторые из них в рамках Minecraft сервера. Тысяча ИИ-агентов создали свое собственное общество, в рамках которых появились религия, экономика, политика. ИИ-агенты сформировали своё собственное правительство и конституцию в виде Google Doc, в которой договорились о принципах устройства общества.
Эта симуляция длится днями и в ней участвуют тысячи агентов. При этом они имеют доступ к 3D миру с сотнями сущностей. В будущем, такой продукт имеет вполне себе практические применения в экономике, политике, индустрии развлечений (игры, TV-шоу) и бизнесе.
Скоро, тысячи агентов будут симулировать сценарии для каждой компании или даже каждого человека. Как я писал в статье ioi, максимальный результат в ИИ мы увидим не от большой модели, а от миллионов агентов, которые могут эффективно координироваться для достижения сложных целей.
38 кейсов использования, идей для создания или инвестирования и запросов на стартапы в области децентрализованного и распределенного ИИ.
Decentralized Compute: Представьте, что вы запускаете сложные AI-модели, не полагаясь на крупные технологические компании. Децентрализованные вычисления смогут конкурировать по цене и производительности с облачными предложениями, обеспечивая при этом лучшие гарантии конфиденциальности и большую гибкость.
Data Incentivization Networks: Эти системы вознаграждают участников за создание ценных наборов данных и верификаторов за обеспечение точности. Это создает самоподдерживающуюся экосистему высококачественных данных, будь то синтетические, пользовательские или собранные данные.
Continuously Pre-trained Models: Представьте большую децентрализованную сеть участников, создающих и обновляющих AI-модели в реальном времени. Это обеспечивает наиболее актуальные и современные результаты, адаптируемые к меняющимся контекстам.
Decentralized Model Evaluation: Возможность оценивать AI-приложения в конкретных областях с использованием закрытых тестовых наборов и задач, оцениваемых людьми. Это помогает различать модели, которые действительно полезны, и те, которые хороши для casual conversation.
Multi-Agent Systems: Сети взаимодействующих AI-агентов для решения сложных задач. Децентрализованные MAS позволяют постоянно адаптироваться по мере создания новых возможностей или изменения рыночных условий.
AI-Native Finance: Поскольку агенты управляют бюджетами (в токенах или распределении вычислительных ресурсов), нам понадобятся новые инструменты для AI-native кредитования, бухгалтерского учета, проверки. Это открывает новую финансовую парадигму для AI-систем.
AI Memory: Системы, позволяющие агентам записывать и обрабатывать взаимодействия с пользователями, создавая графы долгосрочной памяти. Это приводит к более полезному и приятному пользовательскому опыту в различных AI-приложениях.
Human-in-the-Loop: Платформа, где AI-агенты могут нанимать людей для задач, требующих действий в реальном мире или человеческого суждения: например, отправка посылки, фотографирование или предоставление обратной связи по контенту, созданному AI.
AI-Native Contracts: Глобальная, беспрепятственная система для AI-агентов для заключения и исполнения контрактов с устройствами обязательств и криптографическими инструментами для обеспечения соответствия и конфиденциальности.
AI-Assisted Cybersecurity: Представьте круглосуточную цифровую войну, где AI-агенты активно проводят зондирование, penetration testing и находят новые уязвимости. Эта постоянная гонка вооружений между наступательным и оборонительным AI стимулирует быстрый прогресс в кибербезопасности.
AI-Assisted Governance: AI-системы, которые помогают разбираться в сложных вопросах, содействуют принятию решений, посредничают в конфликтах и даже выступают в качестве индивидуальных демократических представителей. Это может революционизировать организационное и политическое управление.
Variable Privacy: Гибкие подходы, где пользователи выбирают уровни конфиденциальности. От TEE (средняя конфиденциальность, низкая стоимость) до FHE (более сильная конфиденциальность, высокая стоимость).
ICO для AI: Механизмы краудфандинга для AI-моделей. Инвестируйте время, вычислительные ресурсы или деньги в создание модели, получайте долю будущей прибыли.
Token Auctions: Новый примитив, где участники рынка делают ставки на выходные данные модели для включения рекламной информации.
Agent Schedulers: Представьте интеллектуальные cron jobs для AI. Агенты, которые "пробуждают" себя для автономного выполнения задач. Похоже на автоматизацию смарт-контрактов, но для AI-агентов.
AI Moderation: Децентрализованные сети AI-агентов, работающих вместе для модерации онлайн-контента на разных платформах, уменьшая предвзятость и повышая точность.
AI-SSI: Система self-sovereign identity, созданная AI и для AI, которая улучшает безопасность, конфиденциальность и пользовательский опыт в цифровых взаимодействиях.
Decentralized Compute: Представьте, что вы запускаете сложные AI-модели, не полагаясь на крупные технологические компании. Децентрализованные вычисления смогут конкурировать по цене и производительности с облачными предложениями, обеспечивая при этом лучшие гарантии конфиденциальности и большую гибкость.
Data Incentivization Networks: Эти системы вознаграждают участников за создание ценных наборов данных и верификаторов за обеспечение точности. Это создает самоподдерживающуюся экосистему высококачественных данных, будь то синтетические, пользовательские или собранные данные.
Continuously Pre-trained Models: Представьте большую децентрализованную сеть участников, создающих и обновляющих AI-модели в реальном времени. Это обеспечивает наиболее актуальные и современные результаты, адаптируемые к меняющимся контекстам.
Decentralized Model Evaluation: Возможность оценивать AI-приложения в конкретных областях с использованием закрытых тестовых наборов и задач, оцениваемых людьми. Это помогает различать модели, которые действительно полезны, и те, которые хороши для casual conversation.
Multi-Agent Systems: Сети взаимодействующих AI-агентов для решения сложных задач. Децентрализованные MAS позволяют постоянно адаптироваться по мере создания новых возможностей или изменения рыночных условий.
AI-Native Finance: Поскольку агенты управляют бюджетами (в токенах или распределении вычислительных ресурсов), нам понадобятся новые инструменты для AI-native кредитования, бухгалтерского учета, проверки. Это открывает новую финансовую парадигму для AI-систем.
AI Memory: Системы, позволяющие агентам записывать и обрабатывать взаимодействия с пользователями, создавая графы долгосрочной памяти. Это приводит к более полезному и приятному пользовательскому опыту в различных AI-приложениях.
Human-in-the-Loop: Платформа, где AI-агенты могут нанимать людей для задач, требующих действий в реальном мире или человеческого суждения: например, отправка посылки, фотографирование или предоставление обратной связи по контенту, созданному AI.
AI-Native Contracts: Глобальная, беспрепятственная система для AI-агентов для заключения и исполнения контрактов с устройствами обязательств и криптографическими инструментами для обеспечения соответствия и конфиденциальности.
AI-Assisted Cybersecurity: Представьте круглосуточную цифровую войну, где AI-агенты активно проводят зондирование, penetration testing и находят новые уязвимости. Эта постоянная гонка вооружений между наступательным и оборонительным AI стимулирует быстрый прогресс в кибербезопасности.
AI-Assisted Governance: AI-системы, которые помогают разбираться в сложных вопросах, содействуют принятию решений, посредничают в конфликтах и даже выступают в качестве индивидуальных демократических представителей. Это может революционизировать организационное и политическое управление.
Variable Privacy: Гибкие подходы, где пользователи выбирают уровни конфиденциальности. От TEE (средняя конфиденциальность, низкая стоимость) до FHE (более сильная конфиденциальность, высокая стоимость).
ICO для AI: Механизмы краудфандинга для AI-моделей. Инвестируйте время, вычислительные ресурсы или деньги в создание модели, получайте долю будущей прибыли.
Token Auctions: Новый примитив, где участники рынка делают ставки на выходные данные модели для включения рекламной информации.
Agent Schedulers: Представьте интеллектуальные cron jobs для AI. Агенты, которые "пробуждают" себя для автономного выполнения задач. Похоже на автоматизацию смарт-контрактов, но для AI-агентов.
AI Moderation: Децентрализованные сети AI-агентов, работающих вместе для модерации онлайн-контента на разных платформах, уменьшая предвзятость и повышая точность.
AI-SSI: Система self-sovereign identity, созданная AI и для AI, которая улучшает безопасность, конфиденциальность и пользовательский опыт в цифровых взаимодействиях.
AI-Driven Decentralized Prediction Markets: Платформы, где AI-агенты и люди совместно прогнозируют события, повышая точность и уменьшая манипуляции.
Будущее AI - это мультиагентное, открытое и совместное.
Полная статья доступна здесь: https://cyber.fund/content/de-ai (там больше кейсов и детальнее описания)
Будущее AI - это мультиагентное, открытое и совместное.
Полная статья доступна здесь: https://cyber.fund/content/de-ai (там больше кейсов и детальнее описания)
cyber.fund
cyber•Fund | Frontiers of Decentralized AI
de-ai
Media is too big
VIEW IN TELEGRAM
Мозг = 🤯
Первый настоящий ИИ-программист, Replit Agent.
Вместо того, чтобы писать длинный текст, я просто прикрепляю видео, которое я записал с первого дубля без монтажа через после получения доступа к агенту. В видео за 4 минуты я создал интерактивный вебсайт с flask сервером, фронтом, postgres базой данных и Open AI для ИИ-функционала.
Результат того, что я сделал в видео по ссылке: https://project-idea-gen.replit.app/
Попробовать самому тут: https://replit.com/
Первый настоящий ИИ-программист, Replit Agent.
Вместо того, чтобы писать длинный текст, я просто прикрепляю видео, которое я записал с первого дубля без монтажа через после получения доступа к агенту. В видео за 4 минуты я создал интерактивный вебсайт с flask сервером, фронтом, postgres базой данных и Open AI для ИИ-функционала.
Результат того, что я сделал в видео по ссылке: https://project-idea-gen.replit.app/
Попробовать самому тут: https://replit.com/
This media is not supported in your browser
VIEW IN TELEGRAM
Сделал еще кучу экспериментов с Replit. Очевидно, есть вещи, которые он делать пока не умеет или делает с трудом. Например, отказывается работать с Next.js, очень плох в React и не заточен для не-веб приложений, типа Swift. Для этих задач, особенно веба, совершенно незаменимы Cursor и v0.
При этом, у Реплита точно есть своя ниша, а именно быстрое прототипирование, создание бэкэнд инструментов, внутренних приложений для бизнеса. Реплит очень хорош в питоне, но скорее на уровне быстрой проверки гипотезы, чем создания масштабируемого и красивого сервиса. Очень крут, чтобы делать какие-то автоматизации для работы со сторонними API: отсортировать почту, сгенерировать промо-коды через Stripe, потестить новые LLM’ки и агентов, работать с аналитикой Amplitude или Mixpanel, автоматически грузить инфу в Asana. Это то, что я попробовал — каждый из этих экспериментов работает (почти) с первого раза. А вот сделать авторизацию в react приложении не вышло и спустя 30 минут попыток (хотя руками я бы делал это 5 минут через Clerk).
А еще один крутой кейс: сегодня пятилетка за ~30 минут сделал свою собственную многопользовательскую игру (он не умеет писать, поэтому я печатал то, что он говорил). Реплит с первого раза безошибочно сделал каждый шаг и помог задеплоить игру. Внутри и рендер анимации/графики, и счет, и рандом, и физика управления. Картинки в игре, кстати, тоже сгенерированы ИИ.
Теперь и вы можете насладиться шедевром (требуется клавиатура): https://fishgame.replit.app/
При этом, у Реплита точно есть своя ниша, а именно быстрое прототипирование, создание бэкэнд инструментов, внутренних приложений для бизнеса. Реплит очень хорош в питоне, но скорее на уровне быстрой проверки гипотезы, чем создания масштабируемого и красивого сервиса. Очень крут, чтобы делать какие-то автоматизации для работы со сторонними API: отсортировать почту, сгенерировать промо-коды через Stripe, потестить новые LLM’ки и агентов, работать с аналитикой Amplitude или Mixpanel, автоматически грузить инфу в Asana. Это то, что я попробовал — каждый из этих экспериментов работает (почти) с первого раза. А вот сделать авторизацию в react приложении не вышло и спустя 30 минут попыток (хотя руками я бы делал это 5 минут через Clerk).
А еще один крутой кейс: сегодня пятилетка за ~30 минут сделал свою собственную многопользовательскую игру (он не умеет писать, поэтому я печатал то, что он говорил). Реплит с первого раза безошибочно сделал каждый шаг и помог задеплоить игру. Внутри и рендер анимации/графики, и счет, и рандом, и физика управления. Картинки в игре, кстати, тоже сгенерированы ИИ.
Теперь и вы можете насладиться шедевром (требуется клавиатура): https://fishgame.replit.app/
Гугл украл мою стартап идею: paper to podcast
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Media is too big
VIEW IN TELEGRAM
Бесплатный ИИ-дизайнер для каждого
Продолжаю свои эксперименты с инструментами ИИ-разработки. В прошлый раз мы за 5 минут сделали приложение с помощью Replit Agent. Сегодня с помощью нового, бесплатного ИИ-редактора v0 мы добавим нашему приложению современный интерактивный и удобный для телефона дизайн.
v0 — это чат, который помогает вам дизайнить и программировать элементы интерфейса.
В этом видео я рассказываю и показываю как с помощью пары простых промтов можно сделать рабочий клон Тиндера для идей продуктов. ИИ за нас придумывает дизайн и реализовывает его в коде, готовом для внедрения в реальный проект. В следующий раз мы соединим его с бэком с помощью другого ИИ-редактора.
Посмотреть и доработать мой прототип: https://v0.build/Y8dd9ul
Посмотреть историю моего чата: https://v0.dev/chat/lzyhriaRu48
Видео в лучшем качестве: https://youtu.be/WitiN3FhGzY
Продолжаю свои эксперименты с инструментами ИИ-разработки. В прошлый раз мы за 5 минут сделали приложение с помощью Replit Agent. Сегодня с помощью нового, бесплатного ИИ-редактора v0 мы добавим нашему приложению современный интерактивный и удобный для телефона дизайн.
v0 — это чат, который помогает вам дизайнить и программировать элементы интерфейса.
В этом видео я рассказываю и показываю как с помощью пары простых промтов можно сделать рабочий клон Тиндера для идей продуктов. ИИ за нас придумывает дизайн и реализовывает его в коде, готовом для внедрения в реальный проект. В следующий раз мы соединим его с бэком с помощью другого ИИ-редактора.
Посмотреть и доработать мой прототип: https://v0.build/Y8dd9ul
Посмотреть историю моего чата: https://v0.dev/chat/lzyhriaRu48
Видео в лучшем качестве: https://youtu.be/WitiN3FhGzY
В одном из телеграм-каналов которые я читаю, сейчас интересная движуха.
Вик Довнар предложил своему подписчику создать с нуля агентство за 2 недели в прямом эфире. Подписчик должен заработать минимум 100К чистыми (будучи на 5 дневке в найме).
При этом вложив не более 10К рублей 🤯
Не знаю, развод ли это, но следить интересно. Можно повторить путь героя и забрать для себя фишки по созданию агентства с нуля.
→ детали тут
Кстати, Вик трушный предприниматель.
Основатель Hooglink.Agency (200 млн.в управлении, 149-ое место в рейтинге рунета), и автор делового бестселлера.
А еще Вик написал крутую статью про «дорогой» консалтинг, которую отдаёт бесплатно, забирайте
#реклама
Вик Довнар предложил своему подписчику создать с нуля агентство за 2 недели в прямом эфире. Подписчик должен заработать минимум 100К чистыми (будучи на 5 дневке в найме).
При этом вложив не более 10К рублей 🤯
Не знаю, развод ли это, но следить интересно. Можно повторить путь героя и забрать для себя фишки по созданию агентства с нуля.
→ детали тут
Кстати, Вик трушный предприниматель.
Основатель Hooglink.Agency (200 млн.в управлении, 149-ое место в рейтинге рунета), и автор делового бестселлера.
А еще Вик написал крутую статью про «дорогой» консалтинг, которую отдаёт бесплатно, забирайте
#реклама
Oбзор ИИ-программистов
Для тех, кому интересна тема того как ИИ заменяет программистов, очень советую почитать мета-исследование, в котором сравнены 106 различных агентов по своим способностям, автономности, архитектуре и области применения.
Авторы сделали офигенную работу по определению агента (это система, которая может воспринимать информацию, использовать инструменты, планировать, запоминать и самостоятельно действовать) и мульти-агентной системы, в которой есть роли агентов, включая роли менеджеров, анализа требований, проектировщиков, разработчиков, роли тестирования, отладки и вспомогательные роли.
Так же они определили области применения, большая часть из которых (вопреки яростно комментирующим) — это не просто написание кода, но формирование требований, дизайн, генерация кода, написание теста, статический анализ, поиск багов, фикс багов и девопс.
В статье много жира, например, описание и сравнение всех 106 агентов по их функционалу и качеству или описание механизмов взаимодействия в мультиагентных системах (говорят, что 56% всех систем — мультиагентные), а так же детальный разбор каждого этапа и разных подходов к их решению.
Найти список всех 106 (бесплатных, с открытым кодом) агентов-программистов можно в референсах статьи.
Для тех, кому интересна тема того как ИИ заменяет программистов, очень советую почитать мета-исследование, в котором сравнены 106 различных агентов по своим способностям, автономности, архитектуре и области применения.
Авторы сделали офигенную работу по определению агента (это система, которая может воспринимать информацию, использовать инструменты, планировать, запоминать и самостоятельно действовать) и мульти-агентной системы, в которой есть роли агентов, включая роли менеджеров, анализа требований, проектировщиков, разработчиков, роли тестирования, отладки и вспомогательные роли.
Так же они определили области применения, большая часть из которых (вопреки яростно комментирующим) — это не просто написание кода, но формирование требований, дизайн, генерация кода, написание теста, статический анализ, поиск багов, фикс багов и девопс.
В статье много жира, например, описание и сравнение всех 106 агентов по их функционалу и качеству или описание механизмов взаимодействия в мультиагентных системах (говорят, что 56% всех систем — мультиагентные), а так же детальный разбор каждого этапа и разных подходов к их решению.
Найти список всех 106 (бесплатных, с открытым кодом) агентов-программистов можно в референсах статьи.
Идея о том, что человек без опыта программирования, но с ИИ, может работать лучше, чем опытный инженер, абсурдна.
Как и идея о том, что ИИ в какой-то момент не превзойдет любого живого человека в программировании.
Как и идея о том, что ИИ в какой-то момент не превзойдет любого живого человека в программировании.
Если ИИ решает задачу программирования, то это автоматически решает любую другую проблему.
Я не говорю, что это позволит нарушить законы физики, но практически все short of. Именно поэтому в своих примитивных экспериментах и более исследовании я в первую очередь фокусируюсь на моделях и агентах, способных автоматизировать программирование.
И в этом смысле не так велика разница между моделью, которая идеально и с первого раза может придумать и создать любую программу и полноценным AGI. Любая задача взаимодействия с физическим миром (роборукой взять ручку со стола, помыть унитаз, поймать и отшлепать всех негодяев мира, построить оптимальную экономическую систему, координировать рынки) — это инженерная задача, которая состоит из понятных нам компонентов: reasoning, планирование, computer vision, дизайн механизмов и криптография, список можно продолжать бесконечно.
Вчера, например, немного посмотрел две независимые статьи, в которых показывается как LLM *текущего* уровня в состоянии создавать новые идеи и проводить научные исследования. В широко разошедшемся первом LLM научилась генерировать реально новые идеи для исследований, которые были оценены экспертами-людьми (тут пересказ и критика). Во втором, от MIT, мультиагентная ИИ система генерирует и уточненяет научные гипотезы используя онтологический граф. То есть, она умеет соединять не связанные области знания для решения сложных междисциплинарных задач.
А параллельно с этим крутейший прогресс в LLM для кодинга. Magic, поднявшие 450М от Нэта Фридмана и всех топовых фондов, сделали модель для кодинга с 100M токенами в контексте. Вы можете загрузить в нее ~1000 книг и попросить пересказать их все. Если сегодняшие агенты и модели показывают 30-40% на теста по решению реальных сложных задач в программировании, то цель Magic — это 99.9%. Попросил написать свою собственную операционную систему, пошел пообедать и получил результат.
Работаем и ускоряемся.
Я не говорю, что это позволит нарушить законы физики, но практически все short of. Именно поэтому в своих примитивных экспериментах и более исследовании я в первую очередь фокусируюсь на моделях и агентах, способных автоматизировать программирование.
И в этом смысле не так велика разница между моделью, которая идеально и с первого раза может придумать и создать любую программу и полноценным AGI. Любая задача взаимодействия с физическим миром (роборукой взять ручку со стола, помыть унитаз, поймать и отшлепать всех негодяев мира, построить оптимальную экономическую систему, координировать рынки) — это инженерная задача, которая состоит из понятных нам компонентов: reasoning, планирование, computer vision, дизайн механизмов и криптография, список можно продолжать бесконечно.
Вчера, например, немного посмотрел две независимые статьи, в которых показывается как LLM *текущего* уровня в состоянии создавать новые идеи и проводить научные исследования. В широко разошедшемся первом LLM научилась генерировать реально новые идеи для исследований, которые были оценены экспертами-людьми (тут пересказ и критика). Во втором, от MIT, мультиагентная ИИ система генерирует и уточненяет научные гипотезы используя онтологический граф. То есть, она умеет соединять не связанные области знания для решения сложных междисциплинарных задач.
А параллельно с этим крутейший прогресс в LLM для кодинга. Magic, поднявшие 450М от Нэта Фридмана и всех топовых фондов, сделали модель для кодинга с 100M токенами в контексте. Вы можете загрузить в нее ~1000 книг и попросить пересказать их все. Если сегодняшие агенты и модели показывают 30-40% на теста по решению реальных сложных задач в программировании, то цель Magic — это 99.9%. Попросил написать свою собственную операционную систему, пошел пообедать и получил результат.
Работаем и ускоряемся.
Каждый ускоряется как умеет. Oracle вот строит дата-центр на гигаватт, который будут питать 3 небольших ядерных реактора. Ибо у кого есть ИИ, тот контролирует мир, а остальным показывают красивые картинки, чтобы не верещали 😹
This media is not supported in your browser
VIEW IN TELEGRAM
Каждый ускоряется как умеет (видео не ускорено). Вот эта платформа выдает инференс Llama-3.1-8B/70B/405B (без квантизации) аж до 1200 ток/сек.
А ваш синьор так умеет? Одно из преимуществ LLM не только в том, что они могут держать в голове сотню тысяч страниц информации, но и в том, что за несколько секунд они могут попробовать тысячи способов решения проблемы и понять какие из них не работают.
А ваш синьор так умеет? Одно из преимуществ LLM не только в том, что они могут держать в голове сотню тысяч страниц информации, но и в том, что за несколько секунд они могут попробовать тысячи способов решения проблемы и понять какие из них не работают.
Ну что, дождались! OpenAI выкатил новую супер-модель.
o1 отличается от предыдущих моделей встроенной способностью к "рассуждениям" (reasoning). В модель "вшита" способность к логическим выводам и самокритике/саморефлексии через chain of thought. Полный отчет по модели можно скачать тут. Модель уже доступна для всех разработчиков с доступом к API tier-5, но скоро будет доступна и в бесплатной версии GPT.
Выводы:
1. Скейлинг работает. Больше денег, больше данных = круче модель. Ужасные рассказы о том, что LLM уперлись в потолок снова оказались просто разговорами. Вместо скейлинга pre-training, теперь скейлится test time compute (то бишь инференс).
2. В точных задачах, типа математики o1 показывается в 7-8 раз круче результаты, чем gpt4o. В коде — в 8-9 раз. В задачкаъ по химии, физике — около 15% прироста.
3. OpenAI прямо зуб дают, что математические способности o1 не хуже, чем у победителя международной олимпиады по математике, а по точным наукам типа физики она работает не хуже кандидата наук.
4. В принципе, закиданный всеми на прошлой неделе в твиттере помидорами Reflection70B делал то же самое. Но не сделал. А Сэм — мужик. Сэм взял и сделал.
5. Стоит $60 за миллион токенов, а значит интеллект у нас теперь достанется только богатым.
6. Это пока что дорогая и медленная модель. Но именно используя эту новую парадигму ("думай, а потом говори"), OpenAI за ближайшие годы сделает o1 в десятки или даже сотни раз дешевле, быстрее и умнее.
7. "o1 думает, но думает несколько секунд. в будущих версиях она будет думать над сложными задачами несколько часов, дней или даже недель" OpenAI
o1 отличается от предыдущих моделей встроенной способностью к "рассуждениям" (reasoning). В модель "вшита" способность к логическим выводам и самокритике/саморефлексии через chain of thought. Полный отчет по модели можно скачать тут. Модель уже доступна для всех разработчиков с доступом к API tier-5, но скоро будет доступна и в бесплатной версии GPT.
Выводы:
1. Скейлинг работает. Больше денег, больше данных = круче модель. Ужасные рассказы о том, что LLM уперлись в потолок снова оказались просто разговорами. Вместо скейлинга pre-training, теперь скейлится test time compute (то бишь инференс).
2. В точных задачах, типа математики o1 показывается в 7-8 раз круче результаты, чем gpt4o. В коде — в 8-9 раз. В задачкаъ по химии, физике — около 15% прироста.
3. OpenAI прямо зуб дают, что математические способности o1 не хуже, чем у победителя международной олимпиады по математике, а по точным наукам типа физики она работает не хуже кандидата наук.
4. В принципе, закиданный всеми на прошлой неделе в твиттере помидорами Reflection70B делал то же самое. Но не сделал. А Сэм — мужик. Сэм взял и сделал.
5. Стоит $60 за миллион токенов, а значит интеллект у нас теперь достанется только богатым.
6. Это пока что дорогая и медленная модель. Но именно используя эту новую парадигму ("думай, а потом говори"), OpenAI за ближайшие годы сделает o1 в десятки или даже сотни раз дешевле, быстрее и умнее.
7. "o1 думает, но думает несколько секунд. в будущих версиях она будет думать над сложными задачами несколько часов, дней или даже недель" OpenAI
Итак, по итогам первого дня:
о1 это не продукт, а парадигма. Текущая версия не должна быть лучше 4ки, но потенциал масштабирования у неё в сотни раз больше, чем классический претрейн трансформера. Потому что задачи размышления и поиска ответа вынесены из модели в агентский слой. Это RL система и ее тренировка только начинается. В том числе, вами, и в каждый из вас будет платить $20/мес за возможность в этом поучаствовать. Что мы пока что видим:
1. o1 рассказывает как приготовить метамфетамин не хуже других моделей.
2. Знает, что 9.8 > 9.11 (по крайней мере у меня, первая картинка). А на второй картинке он объяснил почему 9.11 > 9.8 (речь о датах или версиях)
3. В кодинге прям мощный прогресс по сравнению с предыдущими версиями. Особенно, для использования о1 в сложных агентских workflow. Cursor + o1-mini это разрыв.
4. Математика математикой, но вот задачу (картинка 3), которую мы ему дали решить не смог.
Мой личный вывод: агентская парадигма только начинается. Именно благодаря ей мы увидим следующие 100х улучшения в ИИ (о чем я писал тут). Если вы тоже готовитесь к мультиагентному будущему и делаете там ультра-прорывные проекты, то стоит пообщаться.
о1 это не продукт, а парадигма. Текущая версия не должна быть лучше 4ки, но потенциал масштабирования у неё в сотни раз больше, чем классический претрейн трансформера. Потому что задачи размышления и поиска ответа вынесены из модели в агентский слой. Это RL система и ее тренировка только начинается. В том числе, вами, и в каждый из вас будет платить $20/мес за возможность в этом поучаствовать. Что мы пока что видим:
1. o1 рассказывает как приготовить метамфетамин не хуже других моделей.
2. Знает, что 9.8 > 9.11 (по крайней мере у меня, первая картинка). А на второй картинке он объяснил почему 9.11 > 9.8 (речь о датах или версиях)
3. В кодинге прям мощный прогресс по сравнению с предыдущими версиями. Особенно, для использования о1 в сложных агентских workflow. Cursor + o1-mini это разрыв.
4. Математика математикой, но вот задачу (картинка 3), которую мы ему дали решить не смог.
Мой личный вывод: агентская парадигма только начинается. Именно благодаря ей мы увидим следующие 100х улучшения в ИИ (о чем я писал тут). Если вы тоже готовитесь к мультиагентному будущему и делаете там ультра-прорывные проекты, то стоит пообщаться.