Этихлид

Когда ChatGPT устаёт притворяться белым и пушистым 😱

—
Взято отсюда - пишут, что не такой уж редкий баг voice mode.

Крипота-то какая, крипотааа :)

#fun #bug

😁11😱10🤣4

12.1K views15:18

Этихлид

Forwarded from AI-Driven Development. Родион Мостовой

Ну вот Google и сместили постоянного лидера во фронтэнд разработке Sonnet 3.7 - так что, господа фронтэндщики, присмотритесь. Интересно, когда Gemini сравняется по своим способностям в агентских возможностях кодогенерации с Sonnet в Cursor'е? Или уже? Поделитесь своим опытом.
Попробовать можно в API и, возможно, уже в вебе (там точную версию не указывают, так что до конца не ясно).

Сам я в последнее время для кодогенерации использую как раз Gemini 2.5 Pro в основном - качество действительно превосходное; особенно удивляет то, как она сама продумывает и обрабатывает корнер кейсы (да да, под синьора косит :))

PS. Нас уже 1000+! Благодарю всех своих читателей, что находите время на чтение меня. Отличный повод для дайджеста по каналу и моим материалам - будет.

Google DeepMind

Gemini 3 Pro

Our most intelligent model yet. Learn, build, and plan like never before Gemini 3 Pro’s incredible reasoning powers.

👍10❤3

756 views16:49

Этихлид

Gemini 2.5 Pro 05-06 - ещё несколько вещей по поводу обновления

Доступность
Модель доступна там же, где и предыдущий релиз - т.е. её буквально на лету подменили.

Так что в Cursor она уже есть под старым названием gemini-2.5-pro-exp-03-25 (хотя по факту там теперь gemini-2.5-pro-preview-05-06).
В OpenRouter - google/gemini-2.5-pro-preview.
И только в Google AI Studio поменяли имя на Gemini 2.5 Pro Preview 05-06 :)

Отличия от прошлой версии
Надо сделать оговорку, что это итеративное улучшение существующей модели, не полностью новая модель, так что в среднем больших изменений нет, однако:

🟢 прокачали её в основном в кодинге и особенно в веб-разработке;
🟢 улучшилась работа с тулами и модель стала охотнее их использовать;
🔴 модель стала чутка хуже по другим, "общечеловеческим" бенчмаркам.

Быстрые собственные впечатления
● в одном из текущих проектов (next.js / mcp / prisma / postgres / ai sdk) как раз была задача ловли плавающего бага на стыке бекенда и фронтенда, с которым вчера прошлая Gemini / Sonnet 3.7 / o3 не смогли справиться на протяжении нескольких заходов.
Откатил чат до чекпойнта, с которого все началось, и с тем же самым промптом и контекстом новая Gemini ваншотнула проблему 😱
При этом построила 2 цепочки рассуждений на 8 (!) страниц (а у меня 1600px высоты экран, между прочим)

● в боте, где модель используется в качестве ассистента, она стала намного охотнее и по месту использовать доступные ей инструменты - с прошлой пришлось немало побороться, чтобы она их учитывала

● поменялась "личность" модели - явно стала по-другому писать ответы, даже на тех же промптах, которые задавали ей конкретное поведение. Не сказать что лучше или хуже - просто стиль стал другим

В целом, как пользовался в последнее время в основном Gemini для разработки, так и продолжу, рад тому, что модель стала лучше :)
Тем, кто ещё на неё не перешёл - крайне советую.

#ai #review

👍20🔥10❤6

890 viewsedited 18:28

Этихлид

Cursor 0.50, инфа для MAX-бояр

Как нередко у них бывает, команда Cursor к ночи пятницы выпустила новый релиз.

В юбилейном 0.50 наряду с новыми фичами, про которые будет следующий пост, произошли изменения для MAX-бояр, которые можно кратко суммировать как "лафа кончилась" :)

Для тех, кто не использует MAX-режим, всё осталось как и было, и это по-прежнему довольно выгодное предложение.

Изменения в прайсинге
Теперь всё считается "запросами" - вот теми штуками, которых выдается 500 в месяц за $20 и которые стоят 4 цента - что в рамках подписки, что при превышении лимита в 500 "подписочных".

MAX-режим добавили для всех топовых моделей - это тот режим, где доступен максимально возможный для конкретной модели контекст, Cursor его не сжимает и не ограничивает модель в вызове тулов (в обычном режиме - 25 вызовов на запрос).

Однако, для MAX-режима учёт теперь ведётся не из расчёта 5 центов за запрос + 5 центов за вызов тула, а по токенам - т.е. как обычно вендоры самих моделей считают.

И это изменение во многих случаях сделает MAX-режим дороже, чем он был, особенно на длинных контекстах.

К примеру, для Gemini 2.5 Pro на контексте длиннее 200к цены теперь такие:
● 1M входящих токенов - 75 запросов ($0.04 * 75 = $3)
● 1M входящих токенов с кешированием - 15 запросов ($0.04 * 15 = $0.6)
● 1М исходящих токенов - 450 запросов ($0.04 * 450 = $18)

Нетрудно заметить, что эти цены (если не брать кеширование) на 20% выше, чем при использовании API Google напрямую.
Примерно так же строится ценообразование и для моделей других вендоров в MAX-режиме, так что тут мы видим попытку Cursor начать-таки зарабатывать деньги.

Ну и, как пишет сам Cursor, MAX-режим теперь "for advanced users that are cost insensitive" :)

Старый MAX-режим будет доступен ещё "несколько недель" на старых версиях Cursor, но потом его все равно прикроют.

Однако только MAX-боярам будет доступен режим Background Agent, о нём в следующем посте.

#ai #cursor

🔥9👍4❤1

734 views02:51

Этихлид

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Cursor 0.50, новые фичи

Полный список тут: https://www.cursor.com/changelog

Background Agent
Большая фича, которой у меня пока что нет, чтобы проверить, но её постепенно будут раскатывать.

Сразу скажу, что она только для MAX-режима (см. предыдущий пост).

По сути, для Cursor это задел на будущее, чтобы можно было в параллель запускать несколько агентов, которые без участия человека делают свои задачи, независимо или во взаимодействии друг с другом.

Работает это так, что пользователь ставит задачу, а дальше на удаленной машине (как я понимаю, в облаке самого Cursor) запускается инстанс агента, скачивает себе кодовую базу (судя по всему, пока что только с GitHub), некоторое время возится в бэкграунде, а потом возвращается с нотификацией о завершении и предлагает результат на ревью.

Сейчас сами Cursor её советуют использовать для:
● фикса несложных багов
● имплементации небольших, хорошо очерченных фич
● рефакторинга (я добавлю - несложного рефакторинга)
Это логичный и ожидаемый шаг в сторону агентских систем типа Devin, так что посмотрим, что из этого выйдет.

Включение папок в контекст
Раньше содержимое папок в контекст не включалось (включалась только ссылка на папку), а теперь можно будет включать и содержимое.
Чтобы эта фича работала, её нужно разрешить в настройках (Features -> Full folder contents).

Это удобно в том случае, когда заранее известно, что нужно положить в контекст, и не хочется ждать, когда/если агент сам найдет нужные файлы.

Если файл или папка не лезут в контекст, то Cursor сам выбирает, что включать и может применить сжатие контента.
Добавленная папка в чате будет иметь соответствующую иконку и при наведении на неё можно будет увидеть, сколько файлов там включено и применяется ли сжатие.

Жаль, что (пока что?) не сделали как было в концепте их дизайнера.
И я пока не уверен, будет ли это хорошо работать, и буду держать на всякий случай под рукой Prompt Tower / Repomix :)

Быстрое редактирование длинных файлов
Моделям Cursor теперь даёт еще один инструмент для поиска и замены в конкретном файле, что ускоряет точечное редактирование больших файлов.
Пока что будет работать на моделях Anthropic, позже добавят поддержку других.

Экспорт чатов
То, что раньше требовало Specstory, теперь доступно из коробки - чат можно экспортировать в .md.

Зачем оно нужно? Для хранения истории проекта, чтобы делиться чатами, или чтобы из чатов вытаскивать потом при помощи LLM нужную инфу и т.п.
Specstory всё ещё выглядит интереснее, но для нечастого использования встроенная фича - норм.

Дублирование чата
Вот это хорошая штука, когда какая-то развилка наметилась - можно продублировать чат и параллельно в двух разных чатах продолжить работу над разными фичами после планирования.
Причём, чат можно дублировать из середины, что создает возможность ветвления из любого места - мне, как любителю веток, эт прям в тему.

Если что, в Cursor поддерживается одновременно 3 чата в разных табах (никто не знает, почему именно 3).

Отключение конкретных MCP-тулов
Полезная мелочь для того, чтобы более детально управлять тулами, доступными моделям, особенно теми, которые могут чего-нить сломать.
Работает через клик по названию тула в настройках MCP.

Жаль, что не сохраняется каким-либо образом в файле mcp.json, но это уже больше вопросы к Anthropic по недостандартизации некоторых аспектов MCP :)

Улучшения inline-режима
Это когда вы выделяете кусок кода, делаете Ctrl-K и просите модель что-то с этим кодом сделать в открывшемся попапе.
Так вот теперь из него можно переключаться в режим редактирования всего файла или переходить в агента.

Сам я чёт этой штукой почти не пользуюсь, но в принципе можно представить сценарии, где это может быть полезным.

Работа с несколькими проектами
Если у вас кодовая база раскинута по нескольким проектам в разных папках - теперь их можно собрать в один workspace и Cursor будет работать с ними как с одним проектом.

Должно быть удобно для случаев, когда нужно кросс-проектные изменения сделать, но на постоянной основе я бы не стал так объединять разные по технологиям проекты.

#ai #cursor

👍14🔥10❤1🤔1

1.15K views03:47

Этихлид

Forwarded from Сиолошная

0:14

Media is too big

VIEW IN TELEGRAM

Примерно через 4 часа (8 AM PT, 16:00 по Лондону, 18:00 по Москве) OpenAI проведёт стрим с анонсом. Почти наверняка это всё-таки будет агент-программист, но вопрос — в каком форм факторе. Будет ли это аналог Devin (полностью автономный, но воспринимающий ваши команды и подсказки), или что-то более близкое к копайлоту, ассистенту?

Я думаю, что последнее не исключено — во первых, OpenAI почти год назад полглотили Multi.app — программу для коллаборативной работы программистов (см. видео). Только теперь она, возможно, будет заточена на работу вас И агента, принося новый опыт управления процессом разработки. Только основную работу делать будете не вы, а агент — вы лишь наблюдаете и вносите правки на лету, выделяя код, задавая вопросы, итд.

Кофаундер этой компании, работающий теперь в OpenAi, уже ретвитунл пост с анонсом стрима.

С другой стороны вот такие обновления засветились в коде сайта OpenAI, см. вторую картинку — выглядит как просто agent, а не coding buddy.

В общем, ждать недолго, всех ждем на стриме!

👍5👎2

453 views12:26

Этихлид

⬆️ ️Это ещё на фоне появления у Cursor background agent, того что недавно Windsurf был куплен OpenAI и в целом тренда на усиление агентскости инструментов для разработки.

Но, с другой стороны, - на фоне непригодной в повседневной работе o3, невнятного Codex и в целом большего уклона топовых моделей от OpenAI по части разработки на решение узких олимпиадных/алгоритмических задач.

Так что посмотрим :)
Реализация background agent'а (а ещё лучше - сети агентов, решающих большую распиленную задачу в параллель), могла бы стать интересным релизом, особенно если будет частью общей подписки на ChatGPT.

#news

Этихлид

🔥6👍5

657 viewsedited 12:46

Этихлид

OpenAI Codex

Что в итоге представили на стриме

Codex
Предварительная исследовательская версия облачного агента для разработки.

Он интегрирован в UI ChatGPT, оттуда его можно вызывать и давать ему задачи.
Каждая задача выполняется в собственной "песочнице"-контейнере с предварительно загруженным в него GitHub-репозиторием.
Занимает от 1 до 30 минут, в зависимости от сложности, и можно отслеживать прогресс в режиме реального времени.
А вот вмешиваться в процесс выполнения пока что нельзя.

По завершению Codex коммитит свои изменения, а в процессе ведет лог того, что делал, и можно потом посмотреть, чем он занимался.
Дальше можно попросить поменять что-то еще, сделать PR в GitHub или перетащить код к себе.

Во время выполнения задачи доступ контейнера в Интернет отключен, и агент работает исключительно с кодом, предоставленным через GitHub и предварительно установленными зависимостями, настроенными через установочный скрипт.

По описанию реально очень похоже на Cursor Background Agent или на то, как работает Devin.
Вопрос только в полноте фич, стабильности и удобстве, это уже надо пробовать.

codex-1
Это новая модель, версия o3, оптимизированная для разработки, и с упором не только на работу с кодом, но и с агентскими сценариями: запуск тестов, линтера, работа с git, оформление PR и т.д.
По сравнению с o3, codex-1 производит более чистые патчи, уже готовые к проверке человеком и их интеграции в рабочие процессы.

И выпустили ещё модель попроще, codex-mini, на основе o4-mini.

Доступность
Codex как фича и codex-1 как модель пока что доступны для ChatGPT Pro/Enterprise/Team, позже обещают добавить для Plus.
codex-mini-latest доступна в API, так что в теории её и в Cursor добавят.

В своё время, кстати, Codex было названием первой модели, на которой работал GitHub Copilot в далёком 2023м, и базировался он на GPT-3.
OpenAI от сомнительного нейминга перешли к переиспользованию названий ~~переменных~~ продуктов :)

Сценарии использования Codex
От самих OpenAI и тех компаний, кому дали заранее попробовать:
● четко выделенные задачи: рефакторинг, написание тестов, правка ошибок, интеграция компонентов, составление документации;
● разбор инцидентов во время дежурств (немного неожиданно, конечно, но интересно);
● планирование задач в начале дня;
● передача фоновой работы, чтобы не отвлекаться от основных задач и избегать переключения контекста;
● внесение мелких правок в проекты нетехническими специалистами (с проверкой инженерами);
● исследование существующих кодовых баз.

Своё мнение
В текущем релизе, насколько я могу судить по анонсу, нет ничего прорывного.
В том или ином виде это уже существует в других продуктах, с большей интеграцией в рабочие процессы, и с возможностью расширения под свои задачи (MCP).
Посмотрим, как оно будет на практике, но, кажется, это пока что для довольно мелких/муторных задач, которые можно и в условном Cursor решить.
Качество базовой модели тоже сильно будет влиять, но по codex-1 нам дали буквально 2 бенча (один из которых внутренний), на которых он показал небольшой рост в сравнении с o3.

Что бы хотелось видеть от подобного рода систем:
● бесшовную интеграцию с IDE, чтобы прям из нее можно было поставить асинхронную задачу (возможно, прям из существующего чата) и продолжить работать. В теории таким обещает стать Cursor Background Agent;
● кооперативную работу агентов, которые вместе решают какую-то большую задачу по кускам, в параллель или последовательно;
● интерактивность в решении задач, чтобы агент останавливался и задавал уместные вопросы по тому, как двигаться дальше;
● сбор контекста по задаче не только из кода, но и из Jira/Slack/Google Docs/etc;
● улучшение базовых моделей - длины контекста, качества работы с ним, ризонинга, актуальности датасета. И именно в такой последовательности.

Но даже в виде исследовательской версии Codex попробовать, конечно, будет интересно.
Осталось договориться с жабой или дождаться, когда он станет доступен в Plus-подписке :)

#news

👍8❤5🔥5

932 views19:31

Этихлид

~~Посадили~~ Запилили с командой стелс-стартап за пару дней 🚀

Ожидаем иксов уже через несколько месяцев! 🤞

👍6😁6🔥1🤣1

687 views22:32

GitHub Copilot coding agent

Астрологи объявили месяц асинхронных облачных агентов для кодинга.

Вслед за анонсом Cursor Background Agent и OpenAI Codex, сегодня анонсировали ещё два.

Начнём с GitHub Copilot coding agent

Позволяет прям в самом GitHub назначить таску на агента, и он будет ею асинхронно заниматься у себя облачном окружении, которое работает на основе GitHub Actions.

Сам изучит репозиторий, сделает изменения, запустит тесты, линтер, запушит изменения и сделает PR. Можно продолжить с ним общаться комментами к PR, если нужны какие-то последующие изменения.
Лучше всего будет работать на простых-средних по сложности задачах на хорошо покрытых тестами проектах.

● в процессе работы тратит как минуты GitHub Actions, так и премиум-запросы GitHub Copilot;
● поддерживает MCP!
● по умолчанию нет доступа в Интернет, но можно настроить как полный доступ, так и по whitelist;
● раскатывают его поддержку даже в мобильных приложениях GitHub. Будет чем заняться на 3-часовых z2-тренировках :)

Доступен на Copilot Pro+ и Copilot Enterprise подписках ($39/month).

Среди всех представленных асинхронных облачных агентов этот мне кажется самым проработанным по фичам и интеграции, по крайней мере на бумаге.

Источники:
● GitHub Copilot coding agent in public preview
● Официальная документация

#news

👍6🔥5❤1

817 viewsedited 03:08

About

Blog

Apps

Platform