Oбзор ИИ-программистов
Для тех, кому интересна тема того как ИИ заменяет программистов, очень советую почитать мета-исследование, в котором сравнены 106 различных агентов по своим способностям, автономности, архитектуре и области применения.
Авторы сделали офигенную работу по определению агента (это система, которая может воспринимать информацию, использовать инструменты, планировать, запоминать и самостоятельно действовать) и мульти-агентной системы, в которой есть роли агентов, включая роли менеджеров, анализа требований, проектировщиков, разработчиков, роли тестирования, отладки и вспомогательные роли.
Так же они определили области применения, большая часть из которых (вопреки яростно комментирующим) — это не просто написание кода, но формирование требований, дизайн, генерация кода, написание теста, статический анализ, поиск багов, фикс багов и девопс.
В статье много жира, например, описание и сравнение всех 106 агентов по их функционалу и качеству или описание механизмов взаимодействия в мультиагентных системах (говорят, что 56% всех систем — мультиагентные), а так же детальный разбор каждого этапа и разных подходов к их решению.
Найти список всех 106 (бесплатных, с открытым кодом) агентов-программистов можно в референсах статьи.
Для тех, кому интересна тема того как ИИ заменяет программистов, очень советую почитать мета-исследование, в котором сравнены 106 различных агентов по своим способностям, автономности, архитектуре и области применения.
Авторы сделали офигенную работу по определению агента (это система, которая может воспринимать информацию, использовать инструменты, планировать, запоминать и самостоятельно действовать) и мульти-агентной системы, в которой есть роли агентов, включая роли менеджеров, анализа требований, проектировщиков, разработчиков, роли тестирования, отладки и вспомогательные роли.
Так же они определили области применения, большая часть из которых (вопреки яростно комментирующим) — это не просто написание кода, но формирование требований, дизайн, генерация кода, написание теста, статический анализ, поиск багов, фикс багов и девопс.
В статье много жира, например, описание и сравнение всех 106 агентов по их функционалу и качеству или описание механизмов взаимодействия в мультиагентных системах (говорят, что 56% всех систем — мультиагентные), а так же детальный разбор каждого этапа и разных подходов к их решению.
Найти список всех 106 (бесплатных, с открытым кодом) агентов-программистов можно в референсах статьи.
Идея о том, что человек без опыта программирования, но с ИИ, может работать лучше, чем опытный инженер, абсурдна.
Как и идея о том, что ИИ в какой-то момент не превзойдет любого живого человека в программировании.
Как и идея о том, что ИИ в какой-то момент не превзойдет любого живого человека в программировании.
Если ИИ решает задачу программирования, то это автоматически решает любую другую проблему.
Я не говорю, что это позволит нарушить законы физики, но практически все short of. Именно поэтому в своих примитивных экспериментах и более исследовании я в первую очередь фокусируюсь на моделях и агентах, способных автоматизировать программирование.
И в этом смысле не так велика разница между моделью, которая идеально и с первого раза может придумать и создать любую программу и полноценным AGI. Любая задача взаимодействия с физическим миром (роборукой взять ручку со стола, помыть унитаз, поймать и отшлепать всех негодяев мира, построить оптимальную экономическую систему, координировать рынки) — это инженерная задача, которая состоит из понятных нам компонентов: reasoning, планирование, computer vision, дизайн механизмов и криптография, список можно продолжать бесконечно.
Вчера, например, немного посмотрел две независимые статьи, в которых показывается как LLM *текущего* уровня в состоянии создавать новые идеи и проводить научные исследования. В широко разошедшемся первом LLM научилась генерировать реально новые идеи для исследований, которые были оценены экспертами-людьми (тут пересказ и критика). Во втором, от MIT, мультиагентная ИИ система генерирует и уточненяет научные гипотезы используя онтологический граф. То есть, она умеет соединять не связанные области знания для решения сложных междисциплинарных задач.
А параллельно с этим крутейший прогресс в LLM для кодинга. Magic, поднявшие 450М от Нэта Фридмана и всех топовых фондов, сделали модель для кодинга с 100M токенами в контексте. Вы можете загрузить в нее ~1000 книг и попросить пересказать их все. Если сегодняшие агенты и модели показывают 30-40% на теста по решению реальных сложных задач в программировании, то цель Magic — это 99.9%. Попросил написать свою собственную операционную систему, пошел пообедать и получил результат.
Работаем и ускоряемся.
Я не говорю, что это позволит нарушить законы физики, но практически все short of. Именно поэтому в своих примитивных экспериментах и более исследовании я в первую очередь фокусируюсь на моделях и агентах, способных автоматизировать программирование.
И в этом смысле не так велика разница между моделью, которая идеально и с первого раза может придумать и создать любую программу и полноценным AGI. Любая задача взаимодействия с физическим миром (роборукой взять ручку со стола, помыть унитаз, поймать и отшлепать всех негодяев мира, построить оптимальную экономическую систему, координировать рынки) — это инженерная задача, которая состоит из понятных нам компонентов: reasoning, планирование, computer vision, дизайн механизмов и криптография, список можно продолжать бесконечно.
Вчера, например, немного посмотрел две независимые статьи, в которых показывается как LLM *текущего* уровня в состоянии создавать новые идеи и проводить научные исследования. В широко разошедшемся первом LLM научилась генерировать реально новые идеи для исследований, которые были оценены экспертами-людьми (тут пересказ и критика). Во втором, от MIT, мультиагентная ИИ система генерирует и уточненяет научные гипотезы используя онтологический граф. То есть, она умеет соединять не связанные области знания для решения сложных междисциплинарных задач.
А параллельно с этим крутейший прогресс в LLM для кодинга. Magic, поднявшие 450М от Нэта Фридмана и всех топовых фондов, сделали модель для кодинга с 100M токенами в контексте. Вы можете загрузить в нее ~1000 книг и попросить пересказать их все. Если сегодняшие агенты и модели показывают 30-40% на теста по решению реальных сложных задач в программировании, то цель Magic — это 99.9%. Попросил написать свою собственную операционную систему, пошел пообедать и получил результат.
Работаем и ускоряемся.
Каждый ускоряется как умеет. Oracle вот строит дата-центр на гигаватт, который будут питать 3 небольших ядерных реактора. Ибо у кого есть ИИ, тот контролирует мир, а остальным показывают красивые картинки, чтобы не верещали 😹
This media is not supported in your browser
VIEW IN TELEGRAM
Каждый ускоряется как умеет (видео не ускорено). Вот эта платформа выдает инференс Llama-3.1-8B/70B/405B (без квантизации) аж до 1200 ток/сек.
А ваш синьор так умеет? Одно из преимуществ LLM не только в том, что они могут держать в голове сотню тысяч страниц информации, но и в том, что за несколько секунд они могут попробовать тысячи способов решения проблемы и понять какие из них не работают.
А ваш синьор так умеет? Одно из преимуществ LLM не только в том, что они могут держать в голове сотню тысяч страниц информации, но и в том, что за несколько секунд они могут попробовать тысячи способов решения проблемы и понять какие из них не работают.
Ну что, дождались! OpenAI выкатил новую супер-модель.
o1 отличается от предыдущих моделей встроенной способностью к "рассуждениям" (reasoning). В модель "вшита" способность к логическим выводам и самокритике/саморефлексии через chain of thought. Полный отчет по модели можно скачать тут. Модель уже доступна для всех разработчиков с доступом к API tier-5, но скоро будет доступна и в бесплатной версии GPT.
Выводы:
1. Скейлинг работает. Больше денег, больше данных = круче модель. Ужасные рассказы о том, что LLM уперлись в потолок снова оказались просто разговорами. Вместо скейлинга pre-training, теперь скейлится test time compute (то бишь инференс).
2. В точных задачах, типа математики o1 показывается в 7-8 раз круче результаты, чем gpt4o. В коде — в 8-9 раз. В задачкаъ по химии, физике — около 15% прироста.
3. OpenAI прямо зуб дают, что математические способности o1 не хуже, чем у победителя международной олимпиады по математике, а по точным наукам типа физики она работает не хуже кандидата наук.
4. В принципе, закиданный всеми на прошлой неделе в твиттере помидорами Reflection70B делал то же самое. Но не сделал. А Сэм — мужик. Сэм взял и сделал.
5. Стоит $60 за миллион токенов, а значит интеллект у нас теперь достанется только богатым.
6. Это пока что дорогая и медленная модель. Но именно используя эту новую парадигму ("думай, а потом говори"), OpenAI за ближайшие годы сделает o1 в десятки или даже сотни раз дешевле, быстрее и умнее.
7. "o1 думает, но думает несколько секунд. в будущих версиях она будет думать над сложными задачами несколько часов, дней или даже недель" OpenAI
o1 отличается от предыдущих моделей встроенной способностью к "рассуждениям" (reasoning). В модель "вшита" способность к логическим выводам и самокритике/саморефлексии через chain of thought. Полный отчет по модели можно скачать тут. Модель уже доступна для всех разработчиков с доступом к API tier-5, но скоро будет доступна и в бесплатной версии GPT.
Выводы:
1. Скейлинг работает. Больше денег, больше данных = круче модель. Ужасные рассказы о том, что LLM уперлись в потолок снова оказались просто разговорами. Вместо скейлинга pre-training, теперь скейлится test time compute (то бишь инференс).
2. В точных задачах, типа математики o1 показывается в 7-8 раз круче результаты, чем gpt4o. В коде — в 8-9 раз. В задачкаъ по химии, физике — около 15% прироста.
3. OpenAI прямо зуб дают, что математические способности o1 не хуже, чем у победителя международной олимпиады по математике, а по точным наукам типа физики она работает не хуже кандидата наук.
4. В принципе, закиданный всеми на прошлой неделе в твиттере помидорами Reflection70B делал то же самое. Но не сделал. А Сэм — мужик. Сэм взял и сделал.
5. Стоит $60 за миллион токенов, а значит интеллект у нас теперь достанется только богатым.
6. Это пока что дорогая и медленная модель. Но именно используя эту новую парадигму ("думай, а потом говори"), OpenAI за ближайшие годы сделает o1 в десятки или даже сотни раз дешевле, быстрее и умнее.
7. "o1 думает, но думает несколько секунд. в будущих версиях она будет думать над сложными задачами несколько часов, дней или даже недель" OpenAI
Итак, по итогам первого дня:
о1 это не продукт, а парадигма. Текущая версия не должна быть лучше 4ки, но потенциал масштабирования у неё в сотни раз больше, чем классический претрейн трансформера. Потому что задачи размышления и поиска ответа вынесены из модели в агентский слой. Это RL система и ее тренировка только начинается. В том числе, вами, и в каждый из вас будет платить $20/мес за возможность в этом поучаствовать. Что мы пока что видим:
1. o1 рассказывает как приготовить метамфетамин не хуже других моделей.
2. Знает, что 9.8 > 9.11 (по крайней мере у меня, первая картинка). А на второй картинке он объяснил почему 9.11 > 9.8 (речь о датах или версиях)
3. В кодинге прям мощный прогресс по сравнению с предыдущими версиями. Особенно, для использования о1 в сложных агентских workflow. Cursor + o1-mini это разрыв.
4. Математика математикой, но вот задачу (картинка 3), которую мы ему дали решить не смог.
Мой личный вывод: агентская парадигма только начинается. Именно благодаря ей мы увидим следующие 100х улучшения в ИИ (о чем я писал тут). Если вы тоже готовитесь к мультиагентному будущему и делаете там ультра-прорывные проекты, то стоит пообщаться.
о1 это не продукт, а парадигма. Текущая версия не должна быть лучше 4ки, но потенциал масштабирования у неё в сотни раз больше, чем классический претрейн трансформера. Потому что задачи размышления и поиска ответа вынесены из модели в агентский слой. Это RL система и ее тренировка только начинается. В том числе, вами, и в каждый из вас будет платить $20/мес за возможность в этом поучаствовать. Что мы пока что видим:
1. o1 рассказывает как приготовить метамфетамин не хуже других моделей.
2. Знает, что 9.8 > 9.11 (по крайней мере у меня, первая картинка). А на второй картинке он объяснил почему 9.11 > 9.8 (речь о датах или версиях)
3. В кодинге прям мощный прогресс по сравнению с предыдущими версиями. Особенно, для использования о1 в сложных агентских workflow. Cursor + o1-mini это разрыв.
4. Математика математикой, но вот задачу (картинка 3), которую мы ему дали решить не смог.
Мой личный вывод: агентская парадигма только начинается. Именно благодаря ей мы увидим следующие 100х улучшения в ИИ (о чем я писал тут). Если вы тоже готовитесь к мультиагентному будущему и делаете там ультра-прорывные проекты, то стоит пообщаться.
О токенизации и будущем владения в 2034
Давайте прикинем как будет выглядеть концепция владения любой материальной дорогой собственностью через 10 лет на примере простого и понятного рынка недвижимости.
- Доступ к рынку ритейл инвесторов.
Фракционное владение через токенизацию RWA откроет рынок недвижимости с высоким порогом входа для всех ритейл инвесторов. Оунеров станет кратно больше, и это бустанет мировую экономику. Ваши друзья будут покупать токены или NFT, которые дают нам право собственности на часть недвижимости, а, соответственно, и доход от ренты, пропорциональный нашей доли владения. Скоро твой сосед дядя Миша будет рассказывать тебе как он владеет долями нескольких вилл в Испании и на Бали (хотя купил от силы на $5к).
- Глобальная ликвидность
Эти активы начинаются торговаться между совладельцами на DEX. Ликвидность неликвидных ранее активов становится нормой, а границы между физической и цифровой собственностью стираются. Такие гиганты как Black Rock, Delloite уже дают рост доли ВВП за счет переход таких активов в цифру.
- Более безопасные инвестиции
Эта более безопасная гавань бетона будет сильно выиграшнее текущих вариантов для тех, кто не имеет желания и времени исследовать хай-риск активы типа акций и крипты, в то время когда доходность по облигациям едва покрывает инфляцию. Сидя где-то за тысячи км вы можете за пару минут с телефона купить часть виллы на Бали, которая моментально начинает генерировать вам доход от аренды.
За счет снижения порога входа вам открываются возможности диверсификации вашего портфеля. Далее начнут создаваться индексы на токенизированную недвижимость, которые лучше обезопасят и упростят процесс инвестирования.
- Построение инфраструктуры
Прямо сейчас создаются платформы по токенизации, которые позволят на полном пассиве заработать на недвижимости без головной боли с управлением и затрат времени на рисерч. Кроме того, что они за вас делают проверку (due dilligence) объектов, а также организовывая весь процесс цепочки распределения дохода. Эти платформы объединят инвесторов, застройщиков, управляющие компании и нотариусов, чтобы токенхолдеру капал доход через смартконтрат (привет DAO LLC в Вайоминге).
- Управление через DAO
Все совладельцы объединяются в кооперативы и управляют недвижимостью через DAO. Захотели - подняли аренду, сменили управляющую компания или вовсе продали объект.
- Интеграция с DeFi и Новые финансовые инструменты
При достижении хорошей ликвидности такие активы с минимальной волатильностью будут легко брать в залог другие DeFi платформы. Т.е. Оцифровка и токенизация ранее неликвидного актива вольет триллионы дол. ликвидности в крипторынок. Появятся новые деривативы и стейблкоины, обеспеченные реальными активами и это усилит стабильность и привлекательность крипторынка.
Все эти изменения не произойдут в одночасье, но фундамент для них закладывается уже сейчас. Binaryx Platform - это инновационная площадка, которая уже предоставляет возможности для инвестирования в токенизированную недвижимость и участия в новом экономическом порядке.
Хайлайты:
- Проект запущен 1,5 года назад и уже имеет на борту более 1100 совладельцев для 9 объектов недвижимости, управляющиеся через DAO
- Выплачено $130 000 дохода за этот период.
- Диверсифицируйтесь в рамках одной локации и по всему миру. Сейчас площадка предлагает объекты на Бали и в Черногории. В ближайших планах - Испания и ОАЭ.
- Два типа туристической недвижимости. Для более консервативных инвесторов покупайте доли в арендной недвижимости, которая УЖЕ приносит ренту (в среднем 12% APR)
- Хотите больше? Инвестируйте в недвижимость на этапе строительства, где доходность достигает до 40% APR.
- Под капотом американский лигал Wyoming DAO LLC со смартконтрактом на Polygon.
- Высокая ликвидность за счет вторичного рынка - токены продаются за минуты.
Вступайте в закрытое комьюнити уже существующих совладельцев, где вы можете задать все интересующие вас вопросы.
https://t.iss.one/+3q1EMGEAgC8xY2Qy
Также по промокоду “E/ACC” вы получите 3% кешбек на покупку токенов недвижимости.
Стать лендлордом
#реклама
Давайте прикинем как будет выглядеть концепция владения любой материальной дорогой собственностью через 10 лет на примере простого и понятного рынка недвижимости.
- Доступ к рынку ритейл инвесторов.
Фракционное владение через токенизацию RWA откроет рынок недвижимости с высоким порогом входа для всех ритейл инвесторов. Оунеров станет кратно больше, и это бустанет мировую экономику. Ваши друзья будут покупать токены или NFT, которые дают нам право собственности на часть недвижимости, а, соответственно, и доход от ренты, пропорциональный нашей доли владения. Скоро твой сосед дядя Миша будет рассказывать тебе как он владеет долями нескольких вилл в Испании и на Бали (хотя купил от силы на $5к).
- Глобальная ликвидность
Эти активы начинаются торговаться между совладельцами на DEX. Ликвидность неликвидных ранее активов становится нормой, а границы между физической и цифровой собственностью стираются. Такие гиганты как Black Rock, Delloite уже дают рост доли ВВП за счет переход таких активов в цифру.
- Более безопасные инвестиции
Эта более безопасная гавань бетона будет сильно выиграшнее текущих вариантов для тех, кто не имеет желания и времени исследовать хай-риск активы типа акций и крипты, в то время когда доходность по облигациям едва покрывает инфляцию. Сидя где-то за тысячи км вы можете за пару минут с телефона купить часть виллы на Бали, которая моментально начинает генерировать вам доход от аренды.
За счет снижения порога входа вам открываются возможности диверсификации вашего портфеля. Далее начнут создаваться индексы на токенизированную недвижимость, которые лучше обезопасят и упростят процесс инвестирования.
- Построение инфраструктуры
Прямо сейчас создаются платформы по токенизации, которые позволят на полном пассиве заработать на недвижимости без головной боли с управлением и затрат времени на рисерч. Кроме того, что они за вас делают проверку (due dilligence) объектов, а также организовывая весь процесс цепочки распределения дохода. Эти платформы объединят инвесторов, застройщиков, управляющие компании и нотариусов, чтобы токенхолдеру капал доход через смартконтрат (привет DAO LLC в Вайоминге).
- Управление через DAO
Все совладельцы объединяются в кооперативы и управляют недвижимостью через DAO. Захотели - подняли аренду, сменили управляющую компания или вовсе продали объект.
- Интеграция с DeFi и Новые финансовые инструменты
При достижении хорошей ликвидности такие активы с минимальной волатильностью будут легко брать в залог другие DeFi платформы. Т.е. Оцифровка и токенизация ранее неликвидного актива вольет триллионы дол. ликвидности в крипторынок. Появятся новые деривативы и стейблкоины, обеспеченные реальными активами и это усилит стабильность и привлекательность крипторынка.
Все эти изменения не произойдут в одночасье, но фундамент для них закладывается уже сейчас. Binaryx Platform - это инновационная площадка, которая уже предоставляет возможности для инвестирования в токенизированную недвижимость и участия в новом экономическом порядке.
Хайлайты:
- Проект запущен 1,5 года назад и уже имеет на борту более 1100 совладельцев для 9 объектов недвижимости, управляющиеся через DAO
- Выплачено $130 000 дохода за этот период.
- Диверсифицируйтесь в рамках одной локации и по всему миру. Сейчас площадка предлагает объекты на Бали и в Черногории. В ближайших планах - Испания и ОАЭ.
- Два типа туристической недвижимости. Для более консервативных инвесторов покупайте доли в арендной недвижимости, которая УЖЕ приносит ренту (в среднем 12% APR)
- Хотите больше? Инвестируйте в недвижимость на этапе строительства, где доходность достигает до 40% APR.
- Под капотом американский лигал Wyoming DAO LLC со смартконтрактом на Polygon.
- Высокая ликвидность за счет вторичного рынка - токены продаются за минуты.
Вступайте в закрытое комьюнити уже существующих совладельцев, где вы можете задать все интересующие вас вопросы.
https://t.iss.one/+3q1EMGEAgC8xY2Qy
Также по промокоду “E/ACC” вы получите 3% кешбек на покупку токенов недвижимости.
Стать лендлордом
#реклама
InternetOfIntelligence.wav
35.2 MB
А вот еще один релиз, который меня впечатлил даже больше чем o1: Google выкатил обновление для своего NotebookLM. Теперь вы можете загрузить туда любую статью или PDF и бесплатно сделать качественный подкаст, который объясняет какую-то сложную тему.
Я попробовал со своей статьей. Результат можно послушать прям тут.
Я попробовал со своей статьей. Результат можно послушать прям тут.
Коллега из cyber.fund в моем любимом крипто подкасте «Базовый Блок» о том как меняется рынок MEV в Эфире и куда он пойдет в будущем.
MEV это один из самых динамичных (по скорости роста и изменениям структуры) рынок в крипте. Фактически, это программируемая экономика. В подкасте Артём очень понятно рассказывает об истории и всех секретах рынка.
- что такое MEV и почему это рынок в миллиарды долларов?
- какие бывают типы MEV и как на этом зарабатывают?
- текущие проблемы и структура рынка?
- как и куда эволюционирует рынок пропоузеров, сёрчеров, билдеров?
Посмотреть крутейшую визуализацию того, о чем говорит Артём, в реальном времени можно тут (ОСТОРОЖНО: дико залипательно, ибо вы в прямом эфире видите как математика из воздуха делает миллионы долларов): https://sorellalabs.xyz/dashboard
Слушать тут в телеграме или тут в ютубе. Жутко интересно, крайне рекомендую!
MEV это один из самых динамичных (по скорости роста и изменениям структуры) рынок в крипте. Фактически, это программируемая экономика. В подкасте Артём очень понятно рассказывает об истории и всех секретах рынка.
- что такое MEV и почему это рынок в миллиарды долларов?
- какие бывают типы MEV и как на этом зарабатывают?
- текущие проблемы и структура рынка?
- как и куда эволюционирует рынок пропоузеров, сёрчеров, билдеров?
Посмотреть крутейшую визуализацию того, о чем говорит Артём, в реальном времени можно тут (ОСТОРОЖНО: дико залипательно, ибо вы в прямом эфире видите как математика из воздуха делает миллионы долларов): https://sorellalabs.xyz/dashboard
Слушать тут в телеграме или тут в ютубе. Жутко интересно, крайне рекомендую!
В чем прикол о1, простыми словами?
Модели типа GPT/Llama/Claude с каждым сгенерированным токеном увеличивают шанс ошибки (из-за авторегрессии). В о1, поскольку сама модель на каждом шаге «проверяет» свои рассуждения, внутреннее состояние модели меняется в «нужную» сторону, что важно для сложных задач требующих долгих рассуждений. То есть, модель выполняет роль промт-инженера для самой себя.
о1 не лучше gpt в задачах генерации текста, потому что знания, выученные в самом трансформере те же самые. Объем её «знаний» не изменился. Но она сильно круче в задачах логики, программирования и математики.
Это происходит потому что тренировка о1 происходила за счет генерации множества цепочек рассуждения и зачем применения reinforcement learning к тем цепочкам, которые привели к правильному ответу (то есть, выдавания модели «конфетки» за «правильные» рассуждения). Такой ответ в математике и программировании можно заранее рассчитать для бесконечного количества примеров, поэтому можно провести миллионы раундов обучения. Но нельзя сделать миллион обучений модели по написанию красивых стихов, просто потому что у вас не хватит денег и времени для ручной проверки того хороший или плохой был результат.
Итого: в машинном обучении работают те вещи, обучение которым можно автоматизировать и выполнять огромное количество раз. Это дешево и быстро масштабируется. А ручное обучение очень медленно и имеет потолок в виде человеческого ресурса. Поэтому последние версии трансформеров, хоть и имели, но относительно небольшой прирост в своей полезности.
Открытый вопрос в том, приведет ли улучшение логики и мат способностей модели к эмерджентному улучшению в других областях. Как показывает история развития человечества, это во многом так. Поэтому реальный эффект от этого подхода мы еще увидим в ближайшие годы по мере того как OpenAI и другие будут собирать больше данных и дообучать эту архитектуру.
Модели типа GPT/Llama/Claude с каждым сгенерированным токеном увеличивают шанс ошибки (из-за авторегрессии). В о1, поскольку сама модель на каждом шаге «проверяет» свои рассуждения, внутреннее состояние модели меняется в «нужную» сторону, что важно для сложных задач требующих долгих рассуждений. То есть, модель выполняет роль промт-инженера для самой себя.
о1 не лучше gpt в задачах генерации текста, потому что знания, выученные в самом трансформере те же самые. Объем её «знаний» не изменился. Но она сильно круче в задачах логики, программирования и математики.
Это происходит потому что тренировка о1 происходила за счет генерации множества цепочек рассуждения и зачем применения reinforcement learning к тем цепочкам, которые привели к правильному ответу (то есть, выдавания модели «конфетки» за «правильные» рассуждения). Такой ответ в математике и программировании можно заранее рассчитать для бесконечного количества примеров, поэтому можно провести миллионы раундов обучения. Но нельзя сделать миллион обучений модели по написанию красивых стихов, просто потому что у вас не хватит денег и времени для ручной проверки того хороший или плохой был результат.
Итого: в машинном обучении работают те вещи, обучение которым можно автоматизировать и выполнять огромное количество раз. Это дешево и быстро масштабируется. А ручное обучение очень медленно и имеет потолок в виде человеческого ресурса. Поэтому последние версии трансформеров, хоть и имели, но относительно небольшой прирост в своей полезности.
Открытый вопрос в том, приведет ли улучшение логики и мат способностей модели к эмерджентному улучшению в других областях. Как показывает история развития человечества, это во многом так. Поэтому реальный эффект от этого подхода мы еще увидим в ближайшие годы по мере того как OpenAI и другие будут собирать больше данных и дообучать эту архитектуру.
Так же как в 2015-2016 мне казалось и везде писал, что ничего важнее крипты в мире технологий и экономики не происходит, так же сегодня кажется диким не заниматься ИИ.
И я не про то, что любой из нас может конкурировать с OpenAI — конечно, нет.
Я про то, что, как и крипта, эта технология открывает новую парадигму и создает новые рынки, которых не было год назад. Как и крипта, это создаст триллионы долларов в форме ценности. И в отличии от крипты, адопшен этих технологий будет стремительный, глобальный и универсальный по индустриям.
И я не про то, что любой из нас может конкурировать с OpenAI — конечно, нет.
Я про то, что, как и крипта, эта технология открывает новую парадигму и создает новые рынки, которых не было год назад. Как и крипта, это создаст триллионы долларов в форме ценности. И в отличии от крипты, адопшен этих технологий будет стремительный, глобальный и универсальный по индустриям.
OpenAI опубликовал свой роадмап по достижению AGI. С релизом о1 мы официально на втором уровне.
Уровень 1: Чат-боты, ИИ с естественным языком
Уровень 2: Рассуждающие системы, решение задач на уровне человека
Уровень 3: Агенты, системы, которые могут принимать решения и автономно действовать
Уровень 4: Инноваторы. ИИ может помогать в изобретениях
Уровень 5: Организации. ИИ который может выполнять работу целой организации
Уровень 1: Чат-боты, ИИ с естественным языком
Уровень 2: Рассуждающие системы, решение задач на уровне человека
Уровень 3: Агенты, системы, которые могут принимать решения и автономно действовать
Уровень 4: Инноваторы. ИИ может помогать в изобретениях
Уровень 5: Организации. ИИ который может выполнять работу целой организации
Media is too big
VIEW IN TELEGRAM
Пятилетка за 2 часа сделал игру с физикой, игровым магазином, несколькими локациями, графоном, музыкой и финальным боссом.
100% кода, графики, музыки сгенерировано ИИ: Cursor, Replit, Suno AI и Stable Diffusion / Flux. Я только писал текстом промты и его идеи.
Разработка продуктов уже не будет прежней ;)
Играть тут: spacegam.replit.app (кнопка справа снизу для полноэкранного режима с полным погружением)
Код тут: https://github.com/Gerstep/factory-LEV
100% кода, графики, музыки сгенерировано ИИ: Cursor, Replit, Suno AI и Stable Diffusion / Flux. Я только писал текстом промты и его идеи.
Разработка продуктов уже не будет прежней ;)
Играть тут: spacegam.replit.app (кнопка справа снизу для полноэкранного режима с полным погружением)
Код тут: https://github.com/Gerstep/factory-LEV
Спрашивали как и через что сделали игру. Расскажу.
В 2015 на лекции в МФТИ Виталик сказал "не играйте в игры, кроме тех, что вы сами разработали", мне эта фраза запомнилась на всю жизнь.
Сначала мы придумали идею про космических пиратов, которые собирают золото на разных планетах. Я написал задачу в одну строчку и закинул в Replit. Просто спросил сделай самую простую игру в браузере с 2D графикой. Тот сделал шаблон без картинок и текстов, используя движок Phaser.
Я никогда в жизни с игровыми движками, особенно на JS не работал, поэтому это был полноценный эксперимент человека ровно с 0 опыта в домене.
Дальше я склонировал репу и открыл в Cursor’e. Используя модель Claude 3.5 Sonnet начали делать геймплей. Клод почти всегда с первого раза добавлял всякие фичи: фон, меню, корабль, управление, сцены.
Для картинок сцен и спрайтов (сундуки, корабли, босс, выстрелы лазера) использовали Flux/SD. Простой промт, типа «pixelart low definition image top-down map/spaceship/monster/etc». Хватило 100 бесплатных генераций на сайте, чтобы сделать все ассеты.
Музыку сделали в Suno. Тоже хватило бесплатных генераций. В итоге сработал промт что-то типа «space synth sleep».
По самой разработке все делал в Курсоре используя Sonnet 3.5 (o1 слишком медленный, а Колд моментальный).
Сын придумывал все игровые механики, я записывал его идеи прямо в чат курсора. Прикрепляю лог чата с Курсором. Код не копируется, но тут именно текстовое общение между блоками кода. Как видно, большую часть фич и просьб он делает идеально с первого раза. При этом моя криворукость и ровно 0 секунд опыта с фреймворком требовали от чата иногда чуть больше пояснений. Для всего проекта подавляющее большинство ответов Клода заработали с первого раза, некоторые потребовали 2-3 раза попробовать заново.
Несколько советов по использованию курсора:
- просить добавить по одной фиче (сделай сцену, добавь кнопку, сделай корбаль управляемым, добавь жизни у босса). если их смешивать, то может не хватить длины контекста
- если вылазит ошибка, смело копируйте ее текст и клод все поправит; если застряли: "help me debug"
- не бояться использовать гит и возвращаться в последнюю рабочую версию, если запутались (мне не пришлось, но для совсем новичков помогает)
В 2015 на лекции в МФТИ Виталик сказал "не играйте в игры, кроме тех, что вы сами разработали", мне эта фраза запомнилась на всю жизнь.
Сначала мы придумали идею про космических пиратов, которые собирают золото на разных планетах. Я написал задачу в одну строчку и закинул в Replit. Просто спросил сделай самую простую игру в браузере с 2D графикой. Тот сделал шаблон без картинок и текстов, используя движок Phaser.
Я никогда в жизни с игровыми движками, особенно на JS не работал, поэтому это был полноценный эксперимент человека ровно с 0 опыта в домене.
Дальше я склонировал репу и открыл в Cursor’e. Используя модель Claude 3.5 Sonnet начали делать геймплей. Клод почти всегда с первого раза добавлял всякие фичи: фон, меню, корабль, управление, сцены.
Для картинок сцен и спрайтов (сундуки, корабли, босс, выстрелы лазера) использовали Flux/SD. Простой промт, типа «pixelart low definition image top-down map/spaceship/monster/etc». Хватило 100 бесплатных генераций на сайте, чтобы сделать все ассеты.
Музыку сделали в Suno. Тоже хватило бесплатных генераций. В итоге сработал промт что-то типа «space synth sleep».
По самой разработке все делал в Курсоре используя Sonnet 3.5 (o1 слишком медленный, а Колд моментальный).
Сын придумывал все игровые механики, я записывал его идеи прямо в чат курсора. Прикрепляю лог чата с Курсором. Код не копируется, но тут именно текстовое общение между блоками кода. Как видно, большую часть фич и просьб он делает идеально с первого раза. При этом моя криворукость и ровно 0 секунд опыта с фреймворком требовали от чата иногда чуть больше пояснений. Для всего проекта подавляющее большинство ответов Клода заработали с первого раза, некоторые потребовали 2-3 раза попробовать заново.
Несколько советов по использованию курсора:
- просить добавить по одной фиче (сделай сцену, добавь кнопку, сделай корбаль управляемым, добавь жизни у босса). если их смешивать, то может не хватить длины контекста
- если вылазит ошибка, смело копируйте ее текст и клод все поправит; если застряли: "help me debug"
- не бояться использовать гит и возвращаться в последнюю рабочую версию, если запутались (мне не пришлось, но для совсем новичков помогает)
Сегодня мы анонсировали раунд, который мы лидили в компании Scade. Тезис простой: Scade делает ИИ агентов доступными каждому.
А именно, благодаря трём шагам:
1) любой может создавать сколько угодно сложных агентов с разными модальностями (текст, видео, картинки, музыка, голос, OCR, всего 1,500+ моделей) в простом no-code редакторе
2) про пользователи могут монетизировать агентов прямо там на платформе. сделали крутой конфиг ComfyUI? сделали сложный мультиагентный промт? подготовили редкий датасет? зафайнтьюнили модель? собрали RAG агента из кучи шагов? вы можете назначить цену за одну генерацию и начать зарабатывать прямо там.
3) для бизнесов Scade даёт доступ сразу ко всем возможностям ИИ в одном интерфейсе: от написания SEO и создания графики для маркетплейсов до face-swap, брендинга, сравнения чатботов и многих тысяч других агентов, которые скоро появятся в маркетплейсе Скейда.
Подробнее о видении и стратегии компании (и почему мы инвестировали) я описал в блоге: https://cyber.fund/content/scade
Попробовать и посмотреть что тысячи клиентов делают на платформе можно на их сайте. Программа Earn with Scade запустится уже этой осенью. Ускоряемся!
А именно, благодаря трём шагам:
1) любой может создавать сколько угодно сложных агентов с разными модальностями (текст, видео, картинки, музыка, голос, OCR, всего 1,500+ моделей) в простом no-code редакторе
2) про пользователи могут монетизировать агентов прямо там на платформе. сделали крутой конфиг ComfyUI? сделали сложный мультиагентный промт? подготовили редкий датасет? зафайнтьюнили модель? собрали RAG агента из кучи шагов? вы можете назначить цену за одну генерацию и начать зарабатывать прямо там.
3) для бизнесов Scade даёт доступ сразу ко всем возможностям ИИ в одном интерфейсе: от написания SEO и создания графики для маркетплейсов до face-swap, брендинга, сравнения чатботов и многих тысяч других агентов, которые скоро появятся в маркетплейсе Скейда.
Подробнее о видении и стратегии компании (и почему мы инвестировали) я описал в блоге: https://cyber.fund/content/scade
Попробовать и посмотреть что тысячи клиентов делают на платформе можно на их сайте. Программа Earn with Scade запустится уже этой осенью. Ускоряемся!
cyber.fund
cyber•Fund | Scade: Accelerating AI-Driven Business Transformation
Scade: platform to build, distribute and use AI agents
Продолжая тему с играми, нашел еще кучу примеров, которые были созданы с помощью ИИ-инструментов. Это не убийцы GTA VI пока что, но сам факт что они созданы людьми без опыта в дизайне, текстурах и программировании радует.
Приходит в голову аналогия с телевидением. Раньше у нас было несколько каналов, где крутили одну программу на всех. С 2005 я телевизор не смотрю, потому что ты можешь выбрать в интернете любое шоу, которое тебе хочется.
Так же и с софтом. Раньше у нас был единый софт созданный для всех: Salesforce, Spotify, Angry Birds. Теперь каждая компания и каждый человек может просто пообщаться с ботом, объяснить что ему надо и получить персонализированный и уникальный софт.
Например, Scade из предыдущего поста запускает авто-агентов, то есть возможность через чат создавать для себя агентов.
А CEO Klarna, гигантской платежной компании, сказал, что они отказываются от SaaS платформ в пользу внутренних ИИ-инструментов (и еще увольняют кучу народа в пользу ИИ, но это неизбежно и повсеместно — таким не удивишь).
Приходит в голову аналогия с телевидением. Раньше у нас было несколько каналов, где крутили одну программу на всех. С 2005 я телевизор не смотрю, потому что ты можешь выбрать в интернете любое шоу, которое тебе хочется.
Так же и с софтом. Раньше у нас был единый софт созданный для всех: Salesforce, Spotify, Angry Birds. Теперь каждая компания и каждый человек может просто пообщаться с ботом, объяснить что ему надо и получить персонализированный и уникальный софт.
Например, Scade из предыдущего поста запускает авто-агентов, то есть возможность через чат создавать для себя агентов.
А CEO Klarna, гигантской платежной компании, сказал, что они отказываются от SaaS платформ в пользу внутренних ИИ-инструментов (и еще увольняют кучу народа в пользу ИИ, но это неизбежно и повсеместно — таким не удивишь).