STARTOBUS
2.74K subscribers
2.57K photos
779 videos
213 files
3.37K links
@startobus: AI — гайды, инструменты, кейсы для креатива, маркетинга и бизнеса
👋 @dchannov, Денис Чаннов, 35 лет опыта 🚀 2500+ проектов в 30+ странах.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Шэньчжэнь официально поднял дорожную полицию в небо: дроны вылетают на мелкие ДТП вместо патрульной машины, разгружая офлайн‑экипажи. Они за минуты делают 3D‑реконструкцию, а решение по ответственности принимается примерно за 5 минут — прямо на месте. Маршруты патрулирования строит ИИ, дроны видят нарушения на “слепых” участках дорог и помогают очищать трассу до трёх раз быстрее обычного.
2👍2🔥2
Google запускает протокол для покупок через AI-агентов

Новый открытый стандарт Universal Commerce Protocol (UCP) упрощает для агентов поиск товара, оплату и доставку. Платить пока можно только через Google Pay, позже добавят PayPal.

UCP скоро заработает в объявлениях Google и приложениях Gemini. Его уже поддержали Shopify, Etsy, Wayfair, Target и Walmart.

https://techcrunch.com/2026/01/11/google-announces-a-new-protocol-to-facilitate-commerce-using-ai-agents/
Forwarded from Точки над ИИ
Кто пользуется ChatGPT – наверняка видели, что туда не так давно завезли приложения

Например, Photoshop, Acrobat и Adobe Express теперь работают прямо внутри ChatGPT. И самое приятное – бесплатно, без подписки Creative Cloud. Загружаете фото, PDF или задачу на дизайн и просто пишете текстом, что нужно сделать. Убрать фон, поправить свет, отредактировать текст в PDF, собрать аккуратный документ или накидать постер.

Можно редактировать изображения с пониманием объектов, работать с таблицами и текстом в PDF, собирать пакеты документов и генерировать дизайн для соцсетей. Если нужно, в один клик переходите в полноценные веб-версии Adobe, со слоями и всеми привычными инструментами.

Какие приложения используете? И используете ли вообще?

#productivity@TochkiNadAI
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Cowork: агент для повседневных задач на компе

Компания тестирует агента на базе Claude с доступом к файлам и системным командам для нетехнических задач. Но пока только за сотку в месяц.

Anthropic анонсировала Claude Cowork — по сути это Claude Code, но для всех остальных задач, где не нужно программировать. Агент получает доступ к файлам на компьютере и может выполнять системные команды: разобрать завалы в документах, запланировать встречи в календаре, подготовить презентацию или прототип, обработать табличные данные.

Тул выходит в формате research preview: это намекает на то, что даже в Anthropic пока не до конца понимают, какие сценарии использования откроются. Запускают, смотрят, собирают фидбек: сначала выкатывают MVP, потом адаптируются под реальное поведение пользователей.

Claude Code за последние месяцы доказал свою полезность как инструмент для больших проектов: он берёт детальный план, разбивает на подзадачи и методично их выполняет, не отвлекаясь. Я сам на выходных распробовал его не только для программирования, но и для работы с большими массивами текстовых данных — штука реально экономит время там, где нужна последовательность и внимание к деталям.

Логично, что много нетехнических задач можно было бы делегировать похожему агенту. Вопрос всегда был в безопасности: Claude Code по умолчанию спрашивает разрешение перед любыми изменениями файлов или системных настроек. Судя по релизу Cowork, Anthropic нащупала баланс между автономностью агента и контролем пользователя.

Но есть нюансы. Во-первых, Claude Cowork доступен только подписчикам Max — это стоит $100 в месяц и выше. Во-вторых, агентные сценарии жрут токены как не в себя: на обычной подписке Pro я упираюсь в недельные лимиты почти моментально после того, как даю Claude Code серьёзную задачу. С Cowork, скорее всего, будет так же.

Тем не менее это ещё один маркер того, что 2026-й действительно становится годом агентов. Anthropic, OpenAI, Google, OpenCode — все двигаются в сторону того, чтобы дать AI не просто возможность отвечать на вопросы, но и выполнять многошаговые задачи с доступом к инструментам.

Вопрос только в том, насколько быстро эти инструменты станут доступны не только корпоративным клиентам и энтузиастам с жирными подписками, но и обычным пользователям. Пока что Anthropic тестирует спрос среди тех, кто готов платить.
😢1
Друзья, ну что, с наступа… с наступающим Старым Новым годом! Этот праздник… он какой-то, ну, особенный, да? Никто никуда не спешит, все дома, за столом, уютно, тепло.

И, знаете, у каждого же в семье есть какой-то свой секретный рецептик, правильно?

Вот я поделюсь своим: это… ну, такой «советский тирамису» – юбилейное печенье, сметана со сгущёнкой, сверху какао…

А у вас же, точно, есть что-то своё, правда? Вот пусть этот Старый Новый год будет таким тёплым, душевным, и пусть в домах будет счастье, и радость, и новые добрые воспоминания.

Ваш Денис «Стартобус».
4
❗️ЭТА ПАПКА — НЕ ОБЯЗАТЕЛЬНА
Поэтому 90% её не добавят

Через месяц они будут:
— без заявок
— с сохранёнными кейсами
— с мыслью «что я делаю не так?»


📁 Эта папкачит-код для мозга и денег
Без мотивации, без воды.
Только то, что работает

Твои конкуренты уже забрали
Не потому что умнее, а потому что решили быстрее

Выбора 2:
добавить папку
добавить ещё один месяц ожидания


Забирай 👇🏻
https://t.iss.one/addlist/NOdZwOwK2KdmZDQ6

p.s.
Сильные решения принимаются быстро
Три болезни предпринимателей

— Джобс был визионером, — сказал учитель в школе
— И фантазером

Мы любим истории успеха предпринимателей. И нам рассказывают про упорство, насмотренность, трудолюбие, дисциплину... Все это так. И это полная фигня.

Такие же качества есть у миллионов людей, а крутые продукты запускают единицы. Почему?

Вот три вещи, которые я ищу в фаундерах и которые в обычной жизни считаются «диагнозами»:

1) Иллюзии. Способность верить в то, чего еще нет. Без доказательств, подтверждений, одобрения рынка. Все говорят «это херня» — а ты видишь то, что остальные пропускают. Иначе делаешь очевидное, а оно — уже занято.

2) Упоротость. Вера, что усилия дадут результат. Не «может быть», «попробуем», «посмотрим». А внутреннее знание: сделаем Х — будет Y. Нормальный человек сдастся на третьем препятствии, оптимист дойдет до тридцать третьего.

3) Паранойя. Повышенная тревожность и внимание к мелочам. Постоянное ощущение, что что-то не так. Без этого пропустишь слабые сигналы рынка.

Парадокс: нужно одновременно верить без доказательств и параноить по каждой мелочи. Быть уверенным в успехе и видеть риски везде.

Это противоречие. Но именно оно отличает единиц от миллионов. И почему-то об этом не говорят в школе :)
🔥 Бог создал Землю за 7 дней. ИИ-агенты — браузер. А ты всё ещё "изучаешь нейросетки"?

На прошлой неделе Cursor выкатил эксперимент, который меняет правила игры.

Они запустили сотни ИИ-агентов параллельно. Задача — написать браузер с нуля. Результат: 3+ миллиона строк кода на Rust за неделю. HTML-парсер, CSS-каскад, layout-движок, рендеринг, JavaScript VM. Простые сайты уже открывает.

Но вот что важнее самого браузера:

Первая попытка провалилась. 20 агентов с равными правами выдавали производительность 2-3 человек. Остальные 17 стояли в очереди. Без иерархии агенты избегали сложных задач — делали только мелочь.

Решение? Разделение ролей:
— Планировщики изучают код и ставят задачи
— Воркеры выполняют
— Судьи проверяют качество

Знакомо? Это же классический менеджмент. Только вместо людей — агенты.

3 вывода для тех, кто строит бизнес на ИИ:

1️⃣ Промпты > модели. CEO Cursor прямо сказал: инструкции важнее выбора модели и архитектуры. Хватит гоняться за новыми GPT — учитесь формулировать задачи.

2️⃣ Иерархия работает везде. Даже ИИ-агенты без структуры скатываются в хаос. Хотите масштабировать — стройте систему, а не добавляйте "ещё одного агента".

3️⃣ Горизонт задач растёт. GPT-5.2 держит фокус неделями. Это уже не "напиши мне письмо" — это "построй мне продукт". Кто первый научится ставить такие задачи — тот и выиграет.

Главный вопрос: если агенты за неделю пишут браузер, что они сделают с вашей отраслью за месяц?

Код браузера, кстати, на GitHub — fastrender. Можете посмотреть, как выглядит будущее.

И еще вопрос: а правда ли что Бог нас всех сделал равными)
Нашёл первоисточники:

Официальный блог Cursor
https://cursor.com/blog/scaling-agents
Опубликован 13-14 января 2026. Здесь описана вся методология эксперимента: архитектура planner-worker-judge, проблемы с блокировками, примеры проектов
3👍1
Интересный факт, который на 100% согласуется с моими наблюдениями: LLM полезнее для сложных задач, которые выполняют умные люди.

Чем проще задачи и чем хуже интеллектуальные способности пользователя, тем меньше эффект от использования ИИ для экономически важных задач.

Иными словами, чтобы увидеть большой результат в бизнесе или личной работе от применения агентов, к этому нужно подойти как к одному из самых серьезных, сложных, чувствительных проектов внедрения. В реальности я вижу, что компании обучают сотрудников «основам промтинга» и надеются после этого на какие-то фантастические изменения.
2👍2
Меня недавно спросили, какой тренд на рынке искусственного интеллекта будет в этом году? Ничего не изменится, всё как в прошлом и позапрошлом - тренд на страх.

Финансисты боятся, что ИИ-пузырь лопнет; инвесторы - что поставили не на ту компанию; предприниматели - что слишком мало ИИ внедряют; а специалисты - что нейросети их заменят. Такой глобальный страх и неопределенность во всем. А ещё эти бесконечные новости, апдейты, релизы - голова разрывается.

На этом фоне начинается паника и метания у обычных людей. Классический пример: человек видит новость про сервис генерации музыки, например, Suno. Тут же попадается статья блогера, который якобы нагенерировал сотни битов, продал их за огромные деньги и уже покупает новую тачку. В голове срабатывает триггер: «Я всё упускаю! Нужно срочно бросать всё и бежать туда».

И вот условный бухгалтер с огромным опытом начинает погружаться в генерацию музыки. Он что-то создает, но на выходе получается откровенная ерунда. Это не нравится ему самому, это никому не нужно, и, естественно, это не продается. Почему? Потому что внезапно оказывается: чтобы делать качественную музыку - даже с помощью ИИ - нужно понимать, как она устроена, чувствовать ритм и гармонию. Инструмент не заменяет базу.

То же самое происходит и в других областях. Возьмем, к примеру, профессионального журналиста. Человек всю жизнь учился работать с информацией: он знает, где найти фактуру, как ее проверить, как интерпретировать и грамотно подать. За плечами университет, годы работы в редакции, отточенный навык.

Но под давлением страха «всё пропало, теперь тексты пишет нейросеть по одной кнопке», он начинает искать спасение в чужой профессии. Например, лезет в вайбкодинг. Для него это абсолютно темный лес. Он превращается в наглядное пособие эксперимента с «Китайской комнатой»: слепо вводит промпты, получает код, деплоит его. Что-то даже запускается. Но как только вылезает ошибка, он снова бежит к ИИ: «Почини». Он не понимает ни строчки из того, что ему выдала машина. Он просто перекладывает кубики, смысла которых не осознает.

И самое обидное здесь то, что он игнорирует свою главную суперсилу. Вместо того чтобы взять ИИ и кратно усилить свои навыки работы с текстом и смыслами (где он уже профи!), он тратит время на то, чтобы быть беспомощным посредником в кодинге.

Я встречаю много людей, которые по какой-то причине решили, что их профессия обязательно будет уничтожена искусственным интеллектом и нужно срочно освоить что-то новое, непонятное, чуждое, но, как они думают, перспективное в будущем. Но никто не знает, что будет в будущем. Никто. Но у вас, кроме записи в трудовой книжке с названием профессии, есть и навыки, которые туда входят. Почему не усиливать их?

Если ты 15 лет занимался дизайном, твой глаз, вкус и понимание композиции - это 90% успеха. Нейросеть дает лишь скорость. Если ты начнешь делать музыку, ты будешь конкурировать с подростками, у которых нет опыта, но есть те же инструменты. Твоя стратегия: взять свой опыт и умножить его на ИИ-инструмент именно в ТВОЕЙ нише.

Короче, ребята. Перестаньте паниковать, что ИИ отберет работу. Он отберет рутину.
• Если ты крутой врач - ИИ поможет быстрее ставить диагноз, но не заменит эмпатию.
• Если ты отличный инженер - ИИ посчитает сопромат быстрее, но не придумает мост.

Не прыгай в омут чужих профессий только потому, что там «легкий вход» через ИИ. Оставайся в своей лодке, просто поставь на неё мотор.
25👍4
🤖 Вайбкодинг — это новый хард-скилл. И Claude здесь главный.

Claude Code достиг $1 млрд выручки всего за 6 месяцев после запуска. Anthropic использовала Claude Code, чтобы построить Cowork (их новый продукт для автоматизации рутины) за 1.5 недели. А какой-то китаец сделал тоже самое за полдня! 👨‍💻

Но почему именно Claude? По данным Menlo Ventures, к середине 2025 года Claude 3.5 Sonnet захватил 42% рынка генерации кода, оставив OpenAI далеко позади с их 21%. В бенчмарках Sonnet забирает 70% побед в задачах на реальное программирование. Это не просто «умный чат-бот», это движок, на котором сейчас работает половина GitHub.

Но есть проблема. «Вайб-кодинг» в чистом виде часто превращается в хаос: нерабочие куски кода, потеря контекста, галлюцинации. Чтобы превратить это в систему, нужны правильные инструменты.

И оказывается появились целые методологии для работы с Claude Code, которые превращают Claude из джуниора-помощника в сеньор-архитектора.

🛠 1. Superpowers for Claude Code. Это набор «суперсил» для CLI-версии Claude.
Он заставляет ИИ работать по TDD (Test Driven Development). Агент не просто «пишет код», он сначала:
Брейнштормит с вами задачу.
Пишет план.
Создает тесты (Red).
Пишет код, пока тесты не позеленеют (Green). Это дисциплина, упакованная в промпты.

🧠 2. Personal AI Infrastructure. Дэниел Мисслер пошел дальше и создал PAI (Personal AI Infrastructure). Это ваша личная операционная система.
Она не забывает контекст между сессиями.
PAI «наблюдает» за вами и учится на ваших реакциях. Если вы поставили лайк ответу, она запомнит паттерн.
Это модульная система «паков» (Skills), которые накладываются друг на друга.

Кодинг больше не про знание библиотек наизусть. Кодинг теперь — это умение настроить оркестр агентов, которые напишут всё за вас.


Кто уже пробовал Claude Code? Как вам опыт?

🤖 В эпоху AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Anthropic добавит базы знаний в Claude Cowork

Anthropic меняет архитектуру приложения Claude. Компания тестирует обновление, которое превратит Cowork из отдельной функции в центр всей работы с ИИ-ассистентом. Вместе с этим появятся базы знаний, голосовой режим и улучшенный Pixelate.

Главное изменение - Cowork становится основным интерфейсом. Раньше это был отдельный режим для рабочих задач. Теперь обычный чат встраивается в Cowork как одна из функций. Если нужно просто поболтать с Claude, можно открыть чат прямо внутри рабочего режима. Не надо переключаться между разделами.

https://mltimes.ai/anthropic-dobavit-bazy-znanij-v-claude-cowork/
1
Кто там хотел локальной Claude Code ?

ollama с версии 0.14 поддерживает Anthropic Messages API, что позволяет использовать Claude Code с локальными моделями вроде qwen3-coder или GPT-OSS.

Говорят, что нужно переключить переменные окружения вот так


{
"env": {
"ANTHROPIC_BASE_URL": "https://localhost:11434",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}


И потом запустить примерно так


claude --model qwen3-coder


Еще говорят, что после такого люди сразу начинают понимать ценность стандартной подписки на Claude Code))

Ваш, @llm_under_hood 🤗
На этой неделе я сделал трёх своих друзей бытовыми инвалидами.

Показал им Claude Code. Это агент, который живёт в терминале. Видит твои файлы, читает их, пишет новые, запускает команды, может все тоже самое, что и ты. Ты даёшь задачу — он разбивает её на куски, запускает под каждый кусок субагента, проверяет результат.

То же самое можно делать в Codex, в Gemini CLI. Но в Claude Code сейчас это работает наиболее нативно. Очевидно, что все туда придут.

Главное — skills.md, возможность создавать своих агентов. Если понимаешь, как делается задача, — за несколько часов объясняешь это модели. На выходе получаешь агента, который будет делать эту задачу за тебя. Снова и снова.

Ты не обязан быть специалистом. Достаточно понимать, как ставить задачу и контролировать результат.

Руководил программистами — теперь сам пишешь код. Контролировал юристов по договорам — теперь сам проверяешь договоры. Ставил ТЗ дизайнерам — теперь сам делаешь макеты.

Менеджер становится исполнителем.

Все трое моих друзей — люди серьёзные. Предприниматели, руководители. Один из них публично написал: "Задачу, которую я решал бы месяц, тут получилось сделать за час".

Все трое — активные пользователи LLM с декабря 2022. Ни одной новинки не пропустили. И всё равно неделю не выходят на связь.

А когда выходят — сидят как дети. Таращатся в терминал и хихикают. Отгородились от мира, где их сотрудники чего-то хотят.

По моим ощущениям, это самый большой скачок в генеративках с момента GPT-3.5.
Помнишь ноябрь 2022? Ощущение, что мир изменился. Twitter в скриншотах. Сейчас то же самое. Только тише.

Люди перестали успевать. Модели выходят быстрее, чем старые. Пока разбираешься с одной — анонсируют следующую. Нормальный человек и не может успевать. Если у тебя есть любая работа кроме слежения за ИИ — ты не успеешь.

Попробуй с ходу: Strawberry (если что одна из главных моделей в цепочки эволюции). Что это? Без гугла — вряд ли.

Это не упрёк. Это диагноз.

Подсмотрено
4
Огроооомная библиотека скиллов для Claude Code

Такой, каталог‑маркетплейс, где можно искать, просматривать и забирать созданные сообществом скиллы для Клод Код, с фильтрацией по категориям, авторам и популярности.

Внутри более 70,000 скиллов.

Забираем тут.

#library@TochkiNadAI
🔥1
Роботы Яндекса стоят на 66% дешевле курьеров

Аналитики Совкомбанка подсчитали затраты на роботов-доставщиков Яндекса по данным за 2025 год. Содержание ровера обходится на 49-66% дешевле работы курьеров.

Один робот стоит 10 тысяч долларов. Их собирают в Китае. Один оператор управляет 12 машинами, один инженер обслуживает 24 ровера. Годовое обслуживание робота стоит 295 тысяч рублей. Из них 58% идет на ремонт и запчасти, 42% - на зарплату оператора и инженера.

https://mltimes.ai/roboty-yandeksa-stoyat-na-66-deshevle-kurerov/
1
Самый частый вопрос: «Какие AI-сервисы посоветуешь?»

Окей. Есть движки (Midjourney, Runway, Sora, VEO, Nana Banana), есть обёртки с UI (Freepik, Fal.ai, Flow), есть нишевые продукты (Arcads), есть оркестраторы (ComfyUI, n8n, Claude Code) - пишу тут неполные списки, чтобы не разгонять текст на два поста. Гугли/Перплекси любой слой — найдёшь десятки.

Но я не понимаю, зачем вам эти списки.

90% либо сохранят в закладки навечно, либо попробуют, получат мусор и скажут «фигня ваш AI».

Тем временем соегодя команды, которые делают 100% креативов, кода, расчета на AI. В проде, каждый день.

Разница:
— Они умели делать креативы, код, расчеты *до* AI
— У них есть насмотренность
— Они просто берут и пробуют, пока не получат результат

Сервис — молоток. Вопрос не какой молоток лучше. Вопрос — умеешь ли ты забивать гвозди.
2💯2
​​💯 Anthropic занимает ~60% рынка моделей для кодинга.

Давно хотелось посмотреть на такой график, но вот только сейчас он попался в отчете OpenRouter под названием State of AI.

Любопытен он двумя вещами:

❶ Во-первых, он показывает весь spend, а не только затраты на API, как показывает в своих отчетах Menlo Ventures.

❷ Во-вторых, помимо очевидной и гигантской доминации Anthropic, еще любопытно посмотреть за вторым местом:
▪️На неделе с 19 мая 2025 после Anthropic огромную долю занимал OpenAI, а далее шел Google.
▪️А через неделю случился просто захват рынка со стороны Anthropic – при этом, доля Google не пострадала, а вот OpenAI отдал почти 2/3 своей доли рынка в пользу Anthropic. А в июле-августе их доля вообще стала крайне маленькой – появились XAI и Qwen на этом рынке.
▪️По итогу OpenAI выправилась, а xAI и Qwen (и другие) по сути отняли немного долю у Anthropic.

👉 Читайте отчет от OpenRouter по ссылке: https://openrouter.ai/state-of-ai
💾👉 Отчет был взят из подборки 50+ лучших отчетов по AI за 2025 год: https://vchappens.substack.com/p/all-the-2025-ai-reports-you-need

@proVenture

#research #ai #coding #trends
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Cowork теперь доступен в подписке за 20$

Я его попробовал - реально как Claude Code, только с человеческим пользовательским интерфейсом.

Основной юзкейс выглядит так:
1. Выбираю папку (например, папка с медицинскими анализами, или с чеками по расходам, или с личной crm.в файлах)
2. Говорю что сделать (примерно как Курсору в моих кейсах)
3. Он делает. Читает файлы, инструкции, гуглит, разбирается, перепроверяет

По сути это ещё один шаг от IDE для разработчиков к чему-то более юзер-френдли.

Отдельно удивляет факт, что интерфейс Claude Cowork был разработан и выпущен как Research Preview за 10 дней 😜 Да, под капотом это тот же Claude Code, и писать надо было только интерфейс и некоторые ограничения, но всё же. Продукт с миллионами пользователей за 10 дней - это что-то!

https://claudecowork.io/
👍2
Нейропесни все заметнее в чартах российских стримингов — как это влияет на индустрию

«Ведомости» пишут, что за новогодние праздники AI-песню «Расскажи, Снегурочка» проекта Sasha Komovich прослушали 2 млн подписчиков «Плюса» в Яндекс.Музыке. На других площадках трек тоже входил в топы.

На конференции Music Ally Connect 2026 в Лондоне главной темой стал AI в музыке. Эксперты считают, что новатор Дэвид Боуи увидел бы в нейросетях помощника для творчества, а не врага. Джонатан Дворкин из Universal Music Group говорит, что в какой-то момент станет слишком много низкокачественной музыки, созданной AI, и слушатели начнут больше ценить настоящее — живые эмоции и подлинное искусство. Это откроет новые возможности для лейблов, которые смогут предложить фанатам качественный контент.

Однако пока слушатель лайкает нейротреки, даже не замечая, что они сгенерированы машиной. И это может демотивировать музыкантов, которые годами развивают голос, стиль и качество записи. При этом сами артисты тоже используют AI — для черновиков текстов, идей и аранжировок. Вопрос, как и в других сферах, сводится к тому, чем станет AI — полезным инструментом или заменой человека.

Вместе с этим обостряется и вопрос авторского права: часть AI-контента фактически подменяет чужой голос или стиль без согласия правообладателей — и это уже прямое нарушение.

@volotovskayaelena
Media is too big
VIEW IN TELEGRAM
👍1
Как усиливание «внутренних маркеров диалога» может улучшить точность LLM в два раза 😮

Интересное исследование от Google рассказывает, как даже такие мелочи, как слова типа «Oh» или «Wait», могут значительно улучшить производительность языковых моделей на сложных задачах. Кто бы мог подумать, что внутренняя симуляция диалога между различными «голосами» модели может так повлиять на её способности? Но это реально работает.

В статье говорится, что RL (Reinforcement Learning) не просто помогает моделям думать быстрее, а учит их думать коллективно. Представьте, что у модели несколько внутренних голосов, которые ведут между собой диалог. Они задают вопросы, отвечают друг другу, критикуют и высказывают сомнения. И именно этот внутренний диалог и есть ризонинг (или «логическое рассуждение») модели.

Как это проверили? 👌

Для эксперимента Google использовали sparse autoencoder. Они нашли один нейронный признак, который отвечает за удивление или смену точки зрения. Это тот момент, когда модель в процессе рассуждения начинает думать: «Ага! Понял!». Для этого использовались такие фразы, как «Oh» или «Wait», которые обозначают переход к новому пониманию.

Далее они усилили этот признак и проверили, как это влияет на точность модели. Что получилось?


• Обычная модель без усиленных маркеров давала 27,1% точности на задачах по комбинаторной арифметике
• Модель с усилением маркера «внутреннего диалога» показала 54,8% точности. В два раза больше!
• А если усиливать другие признаки, то разница была не такой впечатляющей


Итак, LLM ещё изучены очень мало, и мы даже не подозреваем, сколько всего скрыто внутри их работы. Попробуйте в промпте добавить несколько таких слов, возможно, это даст какие либо результаты.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM