Forwarded from SaaS Founders
Зарисовка “обычный день AI кодера” - в терминале Курсора (это панель снизу), на удаленной машине в Хетцнере, запущен Claude Code, который пишет скрипт классификации FAQ вопросов - использует этот скрипт OpenAI API, пишет в sqlite. Получается, Claude Code пишет промпты для OpenAI. Справа - происходит анализ данных, уже через сам Cursor - свои лимиты на Sonnet 4 там я уже сжег, поэтому делаю на модели Auto.
1 24 13 8
Свежий доклад Anthropic разбивает привычную логику “дольше думаем - лучше решаем”.
Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.
Вот здесь можно попробовать самому.
• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.
Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.
Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.
Сергей Булаев AI 🤖 - об AI и не только
Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.
Вот здесь можно попробовать самому.
• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.
Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.
Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google добавил в Veo 3 новую фичу: теперь можно визуально описать инструкции по генерации на первом кадре, и модель всё понимает (ну почти всё)!
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Иерархический ризонинг - словосочетание, звучащее почти как название забытого философского трактата.
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
• 27 млн параметров - крошечный объём по меркам сегодняшних LLM
• всего 1 000 обучающих примеров без предобучения и chain-of-thought подсказок
• бенчмарк ARC пройден на уровне, сопоставимом с гораздо более тяжёлыми системами
• плотный градиент вместо редких наград - обучение стабильнее и быстрее
Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
1 23 13
AlphaGo-moment или очередной маркетинговый шум?
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Часто кажется, видеообзоры в ИИ-сервисах – бессмысленная-типа-вау-мультипликация, сорок секунд движущихся непонятных персонажей с кринжовым липсинком и минимумом пользы.
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
• Вместо искуственно (и
искусственных) говорящих голов – слайды, которые складываются из ваших (ну или предоставленных вами) документов: диаграммы, цитаты, цифры. Выглядит стильно и достойно.
• Закадровый голос помогает удерживать фокус, глазами ловим визуальные маркеры.
• Формат легко кастомизируется: задаем тему, учебную цель, интеллектуальный уровень
потребителя и, даже, просим объяснить конкретную тему. Но, к сожалению, не язык. Пока.
У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Как работает Graphiti: графы знаний с временнОй памятью
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
• Каждая сущность (человек, продукт, компания) связана с другими через отношения
• У каждого отношения есть временная метка - когда оно возникло и когда перестало быть актуальным
• При появлении противоречащих фактов старые не удаляются, а помечаются как неактуальные
• Хранится вся история изменений отношений
Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
5 42👎1
Forwarded from Мысли вслух
This media is not supported in your browser
VIEW IN TELEGRAM
IntentScout — AI-стартап моего сына Миши.
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
В Бока Ратоне есть сигарный клуб, по четвергам. Собираются там, в основном, русскоязычные люди. Во всяком случае общение, обычно, на русском. Сигары, кстати, тоже не все курят (я не курю, например, Макс - тоже не курит, но ходит)
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
1 15 7
И они это называют агентностью? Умным помощником? Ассистентом.
Мне кажется, больше на капитана очевидность похоже...
Сергей Булаев AI 🤖 - об AI и не только
Мне кажется, больше на капитана очевидность похоже...
Сергей Булаев AI 🤖 - об AI и не только
Сделал в NotebookLM видео обзор книги "Краткая история разума", кстати очень интересная, рекоммендую. Я примерно в середине сейчас.
Получилось неплохо, но конечно же очень поверхностно. Но если сравнивать 10 часов книги и 10 минут ролика, плотность знаний зашкаливает. Сделал перевод с Elevenlabs, он как всегда так себе, так что прикладываю оригинал.
Сергей Булаев AI 🤖 - об AI и не только
Получилось неплохо, но конечно же очень поверхностно. Но если сравнивать 10 часов книги и 10 минут ролика, плотность знаний зашкаливает. Сделал перевод с Elevenlabs, он как всегда так себе, так что прикладываю оригинал.
Сергей Булаев AI 🤖 - об AI и не только
3 35 6
Google проиндексировал более 70 000 «расшаренных» ссылок на диалоги ChatGPT.
Многие из нас делились ими с коллегами или друзьями. Но теперь разговоры оказались в открытом поиске.
• Введите в Google: site:chatgpt.com/share + ключевое слово - и получите чужие обсуждения.
• Среди них - шутки, черновики, код, а иногда и секретные корпоративные документы.
• Поисковики находят ссылки быстрее, чем мы их удаляем.
Привычка «скинуть линк для удобства» стала риском. Если работаете с клиентскими или внутренними данными, помните: публичная ссылка = публичный контент.
Сергей Булаев AI 🤖 - об AI и не только
Многие из нас делились ими с коллегами или друзьями. Но теперь разговоры оказались в открытом поиске.
• Введите в Google: site:chatgpt.com/share + ключевое слово - и получите чужие обсуждения.
• Среди них - шутки, черновики, код, а иногда и секретные корпоративные документы.
• Поисковики находят ссылки быстрее, чем мы их удаляем.
Привычка «скинуть линк для удобства» стала риском. Если работаете с клиентскими или внутренними данными, помните: публичная ссылка = публичный контент.
Сергей Булаев AI 🤖 - об AI и не только
1 26 8 3