Forwarded from Rust
🔥 CEO Cursor заявил, что они скоординировали **сотни GPT-5.2 агентов**, чтобы автономно собрать браузер с нуля всего за 1 неделю.
Цитата:
Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS
Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.
https://x.com/mntruell/status/2011562190286045552
Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”
Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS
Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.
https://x.com/mntruell/status/2011562190286045552
Forwarded from Данные по-большому
Разорился на подписку Ultra в Cursor.
Решил переписать на Rust все микросервисы в компании, где работаю.
Потом поставлю плашку что сервисы на Rust переписал и заодно на ходу изучу Rust лучше, чем на говнокурсах.
Решил переписать на Rust все микросервисы в компании, где работаю.
Потом поставлю плашку что сервисы на Rust переписал и заодно на ходу изучу Rust лучше, чем на говнокурсах.
Forwarded from ии и новый мир @matskevich
промптинг - это не технический навык
обещал разобрать эту статью mutual theory of mind in human-ai collaboration
MIT показывают, что это скорее
социальный и метакогнитивный навык,
просто применённый к нечеловеческому разуму
они смотрели не на «качество запросов»,
а на то, кто в итоге лучше всего работает с ИИ
сравнивали корреляции между
интеллектом,
техническими навыками,
опытом,
и эффективностью совместного мышления с ИИ
и корреляция почти нулевая
зато вылезает другое
лучше всего работают люди,
у которых уже развит навык
работать с контекстом, перспективами
и рамками взаимодействия
умения:
- чувствовать, где есть рассинхрон понимания
- замечать, что «другой агент» чего-то не понял
- догружать смысл, а не инструкции
- менять рамку диалога на лету
по сути, то, что раньше считалось
«гуманитарным», «мягким», «неприкладным»
пост про ai posture в ту же копилку про то из какой позиции сознания мы вообще входим в диалог
MIT просто смотрят на то же самое
через поведение в диалоге
и там дальше становится еще интереснее
успешные пользователи не «инструктируют» модель.
MIT это прямо показывают.
они с ней координируются
не оптимизируют команды,
а настраивают общее пространство мышления
поэтому так странно, но логично:
ИИ сильнее всего энейблит гуманитариев
людей, привыкших
работать со смыслами,
держать несколько перспектив,
чувствовать динамику диалога,
не требовать «правильного ответа», а исследовать
технари часто застревают в режиме контроля:
«скажи точно»,
«следуй инструкции»,
«не отклоняйся»
и в этот момент модель
работает хуже, не лучше.
дальше MIT разбирают микроповедение в диалоге -
не что человек пишет,
а как он в это взаимодействие входит
и там постоянно повторяются одни и те же эффекты
assumption tracking -
умение ловить момент,
когда внутри появляется
«ну это же очевидно, она должна понять»
раздражение почти всегда = непроговорённое ожидание
gap filling -
умение замечать,
какая часть картины есть только у тебя в голове,
и выносить её наружу.
не уточнять запрос,
а достраивать общее поле смысла.
perspective shifting -
момент, когда ты вдруг понимаешь:
«мы сейчас вообще в разных моделях мира»
и вместо давления
меняешь угол, а не усилие.
и самый важный слой - interaction framing
человек всегда задает рамку взаимодействия,
даже когда думает, что просто «спросил»
инструмент.
исполнитель.
оракул.
собеседник.
напарник
рамка считывается не из слов,
а из тона, ожиданий, реакции на ошибки.
и модель начинает играть ровно в эту игру.
если собрать всё это в одну цепочку,
выходит простой, но неочевидный вывод:
качество ответа - это производная
от рамки взаимодействия,
а не от сложности инструкции
поэтому промптинг и перестаёт быть техникой
и становится чем-то ближе
к диалогу,
фасилитации,
мышлению вместе.
взаимодействие с ии все больше похоже не на технические науки а про те же метанавыки что в отношениях между людьми
что чувствуете?
обещал разобрать эту статью mutual theory of mind in human-ai collaboration
MIT показывают, что это скорее
социальный и метакогнитивный навык,
просто применённый к нечеловеческому разуму
они смотрели не на «качество запросов»,
а на то, кто в итоге лучше всего работает с ИИ
сравнивали корреляции между
интеллектом,
техническими навыками,
опытом,
и эффективностью совместного мышления с ИИ
и корреляция почти нулевая
зато вылезает другое
лучше всего работают люди,
у которых уже развит навык
работать с контекстом, перспективами
и рамками взаимодействия
умения:
- чувствовать, где есть рассинхрон понимания
- замечать, что «другой агент» чего-то не понял
- догружать смысл, а не инструкции
- менять рамку диалога на лету
по сути, то, что раньше считалось
«гуманитарным», «мягким», «неприкладным»
пост про ai posture в ту же копилку про то из какой позиции сознания мы вообще входим в диалог
MIT просто смотрят на то же самое
через поведение в диалоге
и там дальше становится еще интереснее
успешные пользователи не «инструктируют» модель.
MIT это прямо показывают.
они с ней координируются
не оптимизируют команды,
а настраивают общее пространство мышления
поэтому так странно, но логично:
ИИ сильнее всего энейблит гуманитариев
людей, привыкших
работать со смыслами,
держать несколько перспектив,
чувствовать динамику диалога,
не требовать «правильного ответа», а исследовать
технари часто застревают в режиме контроля:
«скажи точно»,
«следуй инструкции»,
«не отклоняйся»
и в этот момент модель
работает хуже, не лучше.
дальше MIT разбирают микроповедение в диалоге -
не что человек пишет,
а как он в это взаимодействие входит
и там постоянно повторяются одни и те же эффекты
assumption tracking -
умение ловить момент,
когда внутри появляется
«ну это же очевидно, она должна понять»
раздражение почти всегда = непроговорённое ожидание
gap filling -
умение замечать,
какая часть картины есть только у тебя в голове,
и выносить её наружу.
не уточнять запрос,
а достраивать общее поле смысла.
perspective shifting -
момент, когда ты вдруг понимаешь:
«мы сейчас вообще в разных моделях мира»
и вместо давления
меняешь угол, а не усилие.
и самый важный слой - interaction framing
человек всегда задает рамку взаимодействия,
даже когда думает, что просто «спросил»
инструмент.
исполнитель.
оракул.
собеседник.
напарник
рамка считывается не из слов,
а из тона, ожиданий, реакции на ошибки.
и модель начинает играть ровно в эту игру.
если собрать всё это в одну цепочку,
выходит простой, но неочевидный вывод:
качество ответа - это производная
от рамки взаимодействия,
а не от сложности инструкции
поэтому промптинг и перестаёт быть техникой
и становится чем-то ближе
к диалогу,
фасилитации,
мышлению вместе.
взаимодействие с ии все больше похоже не на технические науки а про те же метанавыки что в отношениях между людьми
что чувствуете?
arXiv.org
Mutual Theory of Mind in Human-AI Collaboration: An Empirical...
Theory of Mind (ToM) significantly impacts human collaboration and communication as a crucial capability to understand others. When AI agents with ToM capability collaborate with humans, Mutual...
Ollama добавила поддержку Anthropic Messages API. Проще говоря: теперь Claude Code и агентные инструменты Claude можно запускать через Ollama, в том числе с локальными моделями.
Мы движемся к гибридному AI-стеку:
локальные модели
Следующий этап — автономные AI-ассистенты, которые работают локально, но используют лучшие практики топ-провайдеров.
И Ollama явно метит в роль стандарта такого стека.
#ai #agentic #claude #ollama #dev #agents #future
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Технозаметки Малышева
🤖 Cursor провели кодовый марафон среди AI-агентов на недели и получили миллионы строк кода среднего качества
Cursor провёл эксперимент: можно ли масштабировать длительное автономное программирование, просто добавляя больше агентов? Оказалось — да, но с оговорками.
Что удалось навайбкодить в ходе эксперимента:
- Веб-браузер с нуля — 1М+ строк кода за ~неделю
- Миграция Cursor с Solid на React, - агенты работали 3 недели, +266K строк добавлено, удалено 193K.
- Эмулятор Windows 7 — 14.6K коммитов, 1.2М строк (в процессе)
- Клон Excel — 12K коммитов, 1.6М строк (в процессе)
Плоская структура с равнозначными агентами провалилась, - 20 агентов работали как 2-3, остальные ждали разблокировки очереди.
Без иерархии агенты избегали сложных задач и делали только безопасные мелкие правки.
Решение — разделение ролей:
- Планировщики — исследуют код, создают задачи, могут порождать суб-планировщиков
- Воркеры, - пилят свою задачу до конца, потом пушат в репу
- Судьи, - решают, продолжать или повторять цикл
Главный инсайт по моделям:
Codex отменяем. GPT-5.2 оказался значительно лучше для длительной автономной работы,- лучше держит фокус, точнее следует инструкциям, не дрейфует.
Opus 4.5 склонен останавливаться раньше и срезать углы, быстро возвращая управление человеку.
Интересно, что GPT-5.2 оказался лучшим планировщиком, чем GPT-5.1-codex, хотя последний специально обучен написанию кода.
Вайб-косяки:
На Hacker News заметили — браузер не компилируется у внешних пользователей, CI не проходит.
PR миграции Solid→React назвали «невозможным для ревью». Код описывают как «крайне хрупкий».
Ключевые выводы Cursor:
- Промпты важнее архитектуры и выбора модели
- Упрощение системы часто давало лучшие результаты
- Периодические «свежие старты» обязательны чтобы не сваливаться в дрейф
- Под разные роли лучше использовать разные модели
#Cursor #агенты #GPT #Opus #AgenticCoding
———
@tsingular
Cursor провёл эксперимент: можно ли масштабировать длительное автономное программирование, просто добавляя больше агентов? Оказалось — да, но с оговорками.
Что удалось навайбкодить в ходе эксперимента:
- Веб-браузер с нуля — 1М+ строк кода за ~неделю
- Миграция Cursor с Solid на React, - агенты работали 3 недели, +266K строк добавлено, удалено 193K.
- Эмулятор Windows 7 — 14.6K коммитов, 1.2М строк (в процессе)
- Клон Excel — 12K коммитов, 1.6М строк (в процессе)
Плоская структура с равнозначными агентами провалилась, - 20 агентов работали как 2-3, остальные ждали разблокировки очереди.
Без иерархии агенты избегали сложных задач и делали только безопасные мелкие правки.
Когда у общества нет цветовой дифференциации штанов, то нет цели! А когда нет цели — нет будущего!
Решение — разделение ролей:
- Планировщики — исследуют код, создают задачи, могут порождать суб-планировщиков
- Воркеры, - пилят свою задачу до конца, потом пушат в репу
- Судьи, - решают, продолжать или повторять цикл
Главный инсайт по моделям:
Codex отменяем. GPT-5.2 оказался значительно лучше для длительной автономной работы,- лучше держит фокус, точнее следует инструкциям, не дрейфует.
Opus 4.5 склонен останавливаться раньше и срезать углы, быстро возвращая управление человеку.
Интересно, что GPT-5.2 оказался лучшим планировщиком, чем GPT-5.1-codex, хотя последний специально обучен написанию кода.
Вайб-косяки:
На Hacker News заметили — браузер не компилируется у внешних пользователей, CI не проходит.
PR миграции Solid→React назвали «невозможным для ревью». Код описывают как «крайне хрупкий».
Ключевые выводы Cursor:
- Промпты важнее архитектуры и выбора модели
- Упрощение системы часто давало лучшие результаты
- Периодические «свежие старты» обязательны чтобы не сваливаться в дрейф
- Под разные роли лучше использовать разные модели
#Cursor #агенты #GPT #Opus #AgenticCoding
———
@tsingular
Forwarded from Технозаметки Малышева
Microsoft обновил бесплатный курс по агентам
на русском языке
курс охватывает базу, шаблоны, RAG, вывод в продакшен, масштабирование и системы защиты.
#Microsoft #агенты #обучение
———
@tsingular
на русском языке
курс охватывает базу, шаблоны, RAG, вывод в продакшен, масштабирование и системы защиты.
#Microsoft #агенты #обучение
———
@tsingular
Forwarded from AI for Devs
Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
GitHub
GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!
Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome
Forwarded from AI for Devs
До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.
ИИ полностью изменил правила игры.
Теперь у меня их 15-20.
ИИ полностью изменил правила игры.