ИИволюция 👾
9.95K subscribers
714 photos
324 videos
1 file
687 links
Авторский канал Сергея Пахандрина про AI, нейросети, вайб-разработку, ChatGPT (и другие LLM). Рассказываю о своём опыте и экспериментах с AI.

По всем вопросам: @pakhandrin
Download Telegram
Grok-4

Только что на стриме xAI Илон Маск и команда показали Grok-4. Новая SOTA?

– На Humanity’s Last Exam Grok 4 Heavy набрал 50,7%. Это больше чем в два раза выше, чем у прошлых лидеров. Gemini 2.5 Pro набирал только 22%.
– С инструментами (tools) обычный Grok 4 даёт 41%, без инструментов — 26,9%.
– Инструменты (tool use) встроены прямо в обучение. Модель реально использует браузер, интерпретатор кода и прочие внешние сервисы.
– Стал лучше голосовой режим. Grok теперь может не только говорить, но и шептать, петь (на видео выше, грок исполняет оперу о диетической Коле), менять интонации и эмоции.
– В чате доступны сразу две версии: обычная (для всех) и Grok Heavy (выбивает 100% на AIME 2025, RIP очередной бенчмарк 🎩).
– За Grok Heavy — 300 долларов в месяц.
– В вендинг-бенче (тут писал, как Claude обанкротился изначально став бизнесменом) Grok 4 заработал $4694 и продал больше 4500 товаров. Для сравнения: Claude Opus смог только $2077. Grok сам принимал решения, как закупать и по каким ценам продавать. Кажется, что в ближайший год большие оптимизации коснутся больших ритейлеров.
– Grok 4 уже сегодня доступен через xAI API. Контекст 256k токенов, мультимодальный reasoning, поиск по реальным данным, безопасность для бизнеса (не обучается на данных компаний).
– Grok 4 первый, кто пробил 10% на ARC-AGI v2 (там 15,9%). В ARC-AGI v1 — 66,6%. Это лучший результат среди всех LLM.
– В медицине тоже топ! На X-ray бенчмарке Grok 4 даёт 72,8%. Выше всех остальных моделей.
– Модель уже умеет собирать 3D-игры. Grok сам находит ассеты, подбирает текстуры и добавляет 3D-модели в движок.

Что дальше?

– В августе выйдет отдельная кодовая модель.
– В сентябре появится мультимодальный агент.
– В октябре будет модель для генерации видео.

Всё это будет частью Grok 4.

xAI говорят, что Grok 4 уже лучше многих PhD по всем предметам. И обещают новые технологии и даже открытия в физике в ближайшие пару лет.

Мощная заявка и кажется у нас есть новый тариф в $300, к которому скорее всего этим летом подтянутся остальные игроки.

Чтож, Сэм, пора выпускать монстра GPT-5. Заждались!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥287👍5
Grok-4 смог и ты сможешь!
🔥152
Мощная заявочка от Илона Маска и Grok-4. Очень изящный “привет” Cursor, у которого и так в последнее время не всё хорошо.

Вы можете скопировать и вставить весь файл с исходным кодом в поле ввода запроса на https://grok.com и Grok-4 исправит его за вас!

Так делают все
@xAI. Работает лучше, чем Cursor.
14
AI-браузер от OpenAI

Пташки сообщают, что OpenAI в ближайшие недели выпустит свой AI-браузер, чтобы потягаться с Google Chrome. Браузер будет тесно связан с ChatGPT, а многие действия будут выполняться прямо в чате, без перехода на сайты. Главная фишка — интеграция AI-агента Operator для умного поиска.

Всё это напоминает свежий Comet от Perplexity и Dia от The Browser Company. Я, кстати, сейчас постепенно сам пересаживаюсь на Dia c Arc: это реально первый браузер, где AI — не просто надстройка, а основа всего опыта.

OpenAI явно хочет идти по такому же пути, чтобы не зависеть от Google и выстраивать новые сценарии работы в интернете с нуля.

P.S. Кто уже пробовал Dia? Перепись в комментах открыта.
🔥174
Бюджет средней семьи в 2025 году:

10% — ипотека
12% — продукты
8% — коммуналка
6% — бензин/транспорт
5% — школа/кружки
3% — мобильная связь
2% — коту на корм
54% — подписки на AI сервисы: ChatGPT, Claude, Grok 4, Veo 3, Midjourney, Perplexity и др.

– Чатгпт, где мне урезать расходы, чтобы накопить денег на отпуск?
– Начните с кота!
🤣76👍732
Anthropic запустил классные бесплатные курсы как использовать Claude на максималках

Начиная от работы с API, работы с MCP и заканчивая лекциями как использовать Claude Code. В каждом разделе суммарно огромное количество лекций.

Выглядит супер полезно! Бегом изучать и восполнять свои пробелы.

Все курсы доступны тут: https://anthropic.skilljar.com
🔥3910🤣1
Найден бенчмарк, круче HLE, на котором все топовые модели спотыкаются 😂

Grok-4 тоже не прошел, как и Gemini 2.5 Pro и o3 ранее.
🤣421
Grok-4 vs. GPT-5

Только вчера вышел Grok-4, но уже пошли слухи (видимо Сэм нашептал журналистам), что GPT-5 будет “немного” лучше Grok-4 Heavy

Почему немножко? Такое ощущение, что мы теперь всегда будем делать продукты чуть-чуть лучше конкурентов. Никто не хочет выпускать абсолютных монстров, которых потом никто не догонит годами.

Быть безоговорочным лидером невыгодно. Всем проще делать ровно настолько лучше, чтобы сохранять интригу и не оставлять за собой пропасть. Вот и вся стратегия.

К слову, GPT-5 скорее всего ожидаем в июле.
20🤣10
Сидим с бобром за столом, ой, это из другой истории… как-то в загородном доме, на летней веранде. Вокруг лес, тишина, птички где-то поют, вечереет. А у нас льется неспешная беседа — про стартапы, про то, почему у кого-то всё складывается, а у кого-то внезапно стопорится, про смыслы, страхи, про то, как устроены команды и вообще мы сами. Поговорим и становится легче! Всё немного проясняется, складывается по местам.

Вот такие разговоры у меня всегда с Артёмом Бородиным. Он из тех, кто одинаково хорошо шарит и в бизнесе, и в людях. С одной стороны — опытный предприниматель (его Standuply используют в Microsoft, Google, Slack и куче других компаний), с другой — реально крутой психолог, который умеет разложить по полочкам не только процессы, но и внутренние затыки. После беседы с ним всё как-то становится проще и спокойнее, даже тревожность отпускает.

Недавно Артём завёл свой канал в Телеграме — https://t.iss.one/supervisionpm. Пишет туда так, будто мы снова где-то на веранде обсуждаем жизнь. Всё просто, местами с юмором, без занудства — про управление, психику, амбиции и то самое выгорание, которое догоняет всех. Листается легко, а потом ещё долго прокручиваешь в голове какие-то мысли.

Читаю его посты и частенько ловлю себя на мысли: «О, а ведь это про меня, я же сам такое недавно проходил». Если узнаёшь себя в этих темах или просто интересно покопаться в себе и в людях — это чисто дружеская рекомендация, советую заглянуть.

Летней веранды не обещаю, но пользу гарантирую @supervisionpm
👍85🤣5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
“AI заменит людей” – говорили они.

Этот спец точно не заменим. Ни один AI агент не сделает работу на столько быстро 🤔 Среднестатичный индус с фриланса, который в день выполняет по 20 заказов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣53🔥61
Упс для OpenAI

Windsurf не купили, но почти разобрали на органы.

OpenAI вели переговоры о покупке стартапа Windsurf за $3 млрд — одного из самых быстрорастущих стартапов в AI-кодинге (ARR ~$100M всего за год). Сделка сорвалась! По слухам, из-за опасений, что технологии перейдут к Microsoft (в рамках партнёрства с OpenAI). Сделка шла в формате эксклюзивной, Windsurf не мог вести переговоры с другими. Но срок эксклюзивности истёк, и буквально на следующий день Google зашёл через чёрный ход.

А дальше классика 2025 года: Google просто утащил ключевых людей — CEO Варуна Мохана, кофаундера Дугласа Чена и топ-исследователей. Теперь они будут строить agentic coding уже внутри Gemini.

Логан Килпатрик (продакт лид Google AI Studio) уже без утайки пишет в твиттере: “Welcome to the family”. Изящно переиграли.

В AI всё решают не миллиарды (хотя они тоже влияют, контракты то нужно оплачивать чем-то), а скорость. Пока одни обсуждают условия, другие просто хантят команду.

Увы, но хантинг сегодня ценнее любых инвестиций.
🔥30👍61
Утром продираешь глаза, а перед тобой они, кексик принесли.

Как вам такое будущее? 😁
🔥19🤣8
Windsurf, Devin и все-все-все: продолжение AI-сериала

Только на прошлой неделе обсуждали, как OpenAI не смог купить Windsurf за $3 млрд, еще и Google увёл к себе топов, как вышла новая серия и новый поворот.

Windsurf долго не скучал. Через пару дней стартап приютила Cognition (создатели AI агента-разработчика Devin). Сделка супер-быстрая: позвонили в пятницу, подписали бумаги в понедельник. Cognition забирает продукт, команду, весь AI-IDE и клиентскую базу Windsurf.

Теперь детали:

– Cursor и Windsurf: рынок AI-IDE реально разогрелся. Пока у Cursor уже $500 млн ARR, Windsurf только за год дорос до $82 млн ARR, и его корпоративная выручка удваивается каждый квартал. Показатель бешеного роста!

– Anthropic в июне отрубил Windsurfу доступ к Claude (боялись ухода к OpenAI). Из-за этого часть клиентов сразу мигрировала к конкурентам вроде Cursor. Cognition после сделки тут же восстанавливает этот доступ. Кайф!

– Что теперь у Devin: Cognition объединяет агентный подход и весь опыт Windsurf в AI-IDE. Теперь под одной крышей и агент-разработчик, и полноценная AI-среда для кода — конкурентное преимущество против всех, включая OpenAI и Cursor.

– И еще Cognition тихо подписал контракт с Goldman Sachs. Так что “серьёзные дяди” уже делают ставку на AI-разработку нового поколения.

Windsurf в итоге нашёл новый дом, Cognition усилился, а рынок кодинга на глазах превращается в поле для настоящих AI-битв. Пожелаем им удачи 😀
18🔥11
Как устроена OpenAI изнутри: взгляд инженера

Бывший инженер OpenAI Кэлвин Френч-Оуэн (один из сооснователей стартапа Segment, его купила Twilio в 2020 году за $3,2 млрд) рассказал, как всё устроено внутри компании.

OpenAI за год выросла с тысячи до трёх тысяч человек. Поломались все привычные процессы: коммуникации, управление, найм, деплой продуктов. Иногда сразу несколько команд независимо друг от друга пилят разные решения для одной и той же задачи. Видимо вайб-разработка процветает в OpenAI.

Составы команд абсолютно разные. В одном углу бывшие инженеры Google, которые умеют строить решения "на миллиард пользователей", в другом только что защищённые PhD, которые вообще впервые сталкиваются с живым продом. Отсюда и репозитории превращается в зоопарк: кто во что горазд, разный стиль, разная логика, всё лагает и падает. Менеджмент, по словам Кэлвина, в курсе и пытается этот хаос приводить в порядок, но получается так себе.

При этом атмосфера остаётся максимально в духе стартапа. Они этим вайбом дорожат. Всё общение до сих пор крутится в Slack, бюрократии почти нет, а продукты запускаются “на коленках”. Codex, например, они сделали за 7 недель! Секрет? Просто не спали, работали, выкатили и сразу получили лавину пользователей. Причём магия тут простая: просто добавили кнопку в боковое меню ChatGPT и всё, успех😀

Секретность в OpenAI на очень высоком уровне. Всё, что можно, держат под замком. Утечки не прощают, за твиттером следят почти как за основным рабочим инструментом. В компании даже прикалываются, что живут на твиттер-вайбе.

Но хоть у компании дух стартапа, внутри реально много внимания уделяют безопасности. Фокус на реальных угрозах: хейт-спич, манипуляции, биоугрозы, self-harm, prompt injection.

За OpenAI следят все, кому не лень: правительства, конкуренты, бывшие сотрудники, да и сама компания не отстаёт, мониторит каждый шаг всех. Давление на сотрудников на максималках, одна ошибка и она у всех на виду.

Судя по всему, жизнь в OpenAI это смесь из “сделай сегодня или умри”, хаоса, свободы действий и при этом огромной ответственности. Вечный движ, легко не бывает, но уж точно не скучно. Да и платят хорошо, и бонусы еще внукам хватит.

Теперь на презах от OpenAI обращайте внимание: каждый второй докладчик вроде бы рассказывает про AI, а на самом деле проверяет, не поседеет ли он на глазах у всех, если Сэм вдруг нахмурится😁
117👍7🔥3🤣1
В приложении ChatGPT для MacOS наконец-то раскатили фичу “Запись” на всех Plus подписчиков.

Теперь можно записывать любой мит, наговаривать кучу мыслей и размышлений, и чатик всё это транскрибирует в текст и выдаст в удобном виде + можно еще сразу же с этим контекстом початиться.

При чём транскрипция выдается не слово в слово, а сразу переписывается в формат, который удобно читать и легче воспринимать.

Обновление кайф! Давно ожидаемая фича для тех, кто оплачивает только $20/мес.
🔥318👍4👾1
This media is not supported in your browser
VIEW IN TELEGRAM
А еще сегодня у OpenAI запланирован “загадочный” стрим. Об этом, как и всегда, они сообщили в Твиттере (еще раз напоминание, что в OpenAI живут на Твиттер-вайбе). В 20:00 по Москве.

Судя по видео, напоминает Оператора, вероятно что-то связанное с его обновлением.

А вдруг браузер представят? Курсор описывает форму пятиугольника. На что это может намекать? 😃 5 углов? GPT-5? 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥142👍2👾1
Инсайдеры выяснили, что сегодня нам покажет OpenAI на презентации

Только вчера писал, что в OpenAI бдят за утечками и безопасностью, как в очередной раз мы о чем нам расскажут на стриме OpenAI сегодня.

Инсайдеры пишут, что OpenAI представит режим “Agent mode”: микс Оператора и Deep Search, который может использовать браузер и разные коннекторы к разным сервисам (на скрине выше коннектор к Google Drive).

Режим агента сможет выполнять более сложные задачи, работать с большим объемом ваших данных на диске, делать исследования. В общем, умный “зверь”.

И кажется, что доступен он будет только в тарифе за $200/мес.

Сегодня в 20:00 мск, ждем!
12👍4🔥1👾1
Вайб-разработка у меня вышла на новый уровень

Сегодня впервые попробовал делать всё не на бегу, а по уму. И понял, что немного прокачался в вайб-разработке. Если раньше я просто открывал Cursor и говорил: “напиши вот это”, “исправь там”, то теперь всё выглядит иначе.

В этот раз начал с мозгоштурма с o3 и Deep Research: вместе разобрали идею, подобрали нужные библиотеки и зависимости, обсудили варианты архитектуры и интеграцию с календарями, подумали про хранение данных и обработку задач с помощью openai agents sdk.

Потом попросил сгенерировать README и agents.md — получилось нормальное описание проекта, где всё расписано по шагам, и чёткое техническое задание с описанием ролей, сценариев, логики обработки задач и требований к API.

Эти файлы залил в новую репу на гитхабе.

Codex и Claude Code решил не трогать, а сделать всё в моём любимом Cursor.

Дальше открыл проект в Cursor, попросил: “прочитай оба файла и сделай подробный план, распиши задачи (issues) в GitHub, подзадачи, критерии готовности для каждой фичи, и чтобы всё было покрыто тестами”.

Cursor сам создал список задач (issues), всё разбил на отдельные этапы: сначала настройка окружения, потом базовая архитектура, подключение библиотек, реализация кор фичей, интеграции, обработка разных форм ввода.

В каждом issue чек-листы, что нужно сделать, критерии, по которым можно считать задачу выполненной, для всего были созданы автотесты. Cursor запускал тесты сам, если что-то не работало сам же правил код, коммитил, пушил, закрывал задачи, переходил к следующей.

В итоге за полдня у меня готовый планировщик на базе OpenAI Agents SDK. Можно кидать задачи хоть голосом, хоть текстом, хоть целым списком, он сам разбирает, классифицирует и добавляет их в календарь.

Работает и с простыми задачами, и с более сложными расписаниями, если, например, надо сдвинуть все задачи или быстро поменять приоритеты. Порой нужен был такой бот в ТГ, которому быстро накидываешь мысли, задачи, планы, а он чтобы сам всё это разгребал и чтобы я в итоге ничего не забыл. А еще чтобы мне доверенные люди в ТГ сами накидывали задач и получали уведомляшку, когда я эту задачу выполняю. Или например сами выясняли у моего ассистента когда у меня есть свободные слоты в календаре.

Теперь понимаю, как должно выглядеть “ai-first”, когда проект строится сразу по уму, а не как обычно. Приятно удивлён. Даже не так, я в диком восторге!😃
Please open Telegram to view this post
VIEW IN TELEGRAM
47🔥32👍6🤣3👾1