Сергей Булаев AI 🤖
9.46K subscribers
636 photos
603 videos
1 file
622 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Сейчас нахожусь во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.
Download Telegram
Forwarded from SaaS Founders
Зарисовка “обычный день AI кодера” - в терминале Курсора (это панель снизу), на удаленной машине в Хетцнере, запущен Claude Code, который пишет скрипт классификации FAQ вопросов - использует этот скрипт OpenAI API, пишет в sqlite. Получается, Claude Code пишет промпты для OpenAI. Справа - происходит анализ данных, уже через сам Cursor - свои лимиты на Sonnet 4 там я уже сжег, поэтому делаю на модели Auto.
124138
Свежий доклад Anthropic разбивает привычную логику “дольше думаем - лучше решаем”.

Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.

Вот здесь можно попробовать самому.

• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.

Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.

Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.

Сергей Булаев AI 🤖 - об AI и не только
2841
Google добавил в Veo 3 новую фичу: теперь можно визуально описать инструкции по генерации на первом кадре, и модель всё понимает (ну почти всё)!

Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.

• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником

Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.

Сергей Булаев AI 🤖 - об AI и не только
2416
Иерархический ризонинг - словосочетание, звучащее почти как название забытого философского трактата.

На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.

Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.

Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».

Коротко о цифрах и фактах:
• 27 млн параметров - крошечный объём по меркам сегодняшних LLM
• всего 1 000 обучающих примеров без предобучения и chain-of-thought подсказок
• бенчмарк ARC пройден на уровне, сопоставимом с гораздо более тяжёлыми системами
• плотный градиент вместо редких наград - обучение стабильнее и быстрее


Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.

Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.

Сергей Булаев AI 🤖 - об AI и не только
12313
AlphaGo-moment или очередной маркетинговый шум?
Коротко об ASI-Arch.

Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:

• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.

Что для меня важно (и почему наблюдаю дальше):

1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.

Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.


Сергей Булаев AI 🤖 - об AI и не только
316👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Часто кажется, видеообзоры в ИИ-сервисах – бессмысленная-типа-вау-мультипликация, сорок секунд движущихся непонятных персонажей с кринжовым липсинком и минимумом пользы.

Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.

• Вместо искуственно (и искусственных) говорящих голов – слайды, которые складываются из ваших (ну или предоставленных вами) документов: диаграммы, цитаты, цифры. Выглядит стильно и достойно.
• Закадровый голос помогает удерживать фокус, глазами ловим визуальные маркеры.
• Формат легко кастомизируется: задаем тему, учебную цель, интеллектуальный уровень
потребителя и, даже, просим объяснить конкретную тему. Но, к сожалению, не язык. Пока.

У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.

Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.

Сергей Булаев AI 🤖 - об AI и не только
273
Как работает Graphiti: графы знаний с временнОй памятью

Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.

Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.

Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.

Graphiti же строит граф, где:
• Каждая сущность (человек, продукт, компания) связана с другими через отношения
• У каждого отношения есть временная метка - когда оно возникло и когда перестало быть актуальным
• При появлении противоречащих фактов старые не удаляются, а помечаются как неактуальные
• Хранится вся история изменений отношений


Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".

На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.

Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.

Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.

P.S. извиняюсь за качество скриншотов

Сергей Булаев AI 🤖 - об AI и не только
542👎1
Forwarded from Мысли вслух
This media is not supported in your browser
VIEW IN TELEGRAM
IntentScout — AI-стартап моего сына Миши.

Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.

Вакансия: Технический лидер

Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)

• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики

Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд

Интересно? Пиши в личку: @mkitt

@maxvotek
207👎522
В Бока Ратоне есть сигарный клуб, по четвергам. Собираются там, в основном, русскоязычные люди. Во всяком случае общение, обычно, на русском. Сигары, кстати, тоже не все курят (я не курю, например, Макс - тоже не курит, но ходит)

На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.

Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).

Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»

А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.

Сергей Булаев AI 🤖 - об AI и не только
1157
И они это называют агентностью? Умным помощником? Ассистентом.

Мне кажется, больше на капитана очевидность похоже...

Сергей Булаев AI 🤖 - об AI и не только
1532
Сделал в NotebookLM видео обзор книги "Краткая история разума", кстати очень интересная, рекоммендую. Я примерно в середине сейчас.

Получилось неплохо, но конечно же очень поверхностно. Но если сравнивать 10 часов книги и 10 минут ролика, плотность знаний зашкаливает. Сделал перевод с Elevenlabs, он как всегда так себе, так что прикладываю оригинал.

Сергей Булаев AI 🤖 - об AI и не только
3356
Google проиндексировал более 70 000 «расшаренных» ссылок на диалоги ChatGPT.

Многие из нас делились ими с коллегами или друзьями. Но теперь разговоры оказались в открытом поиске.

• Введите в Google: site:chatgpt.com/share + ключевое слово - и получите чужие обсуждения.
• Среди них - шутки, черновики, код, а иногда и секретные корпоративные документы.
• Поисковики находят ссылки быстрее, чем мы их удаляем.

Привычка «скинуть линк для удобства» стала риском. Если работаете с клиентскими или внутренними данными, помните: публичная ссылка = публичный контент.

Сергей Булаев AI 🤖 - об AI и не только
12683