Технозаметки Малышева

Chain of Draft: ускорение через минимализм в промптах

Исследователи из Zoom Communications предложили новый подход к работе с языковыми моделями, который уменьшает многословность, сокращает задержки и снижает затраты.

Суть метода
Chain of Draft (CoD) похож на то, как мы, люди, делаем заметки — кратко, по существу, без лишней воды. Вместо подробных рассуждений (как в Chain of Thought) модель генерирует минималистичные промежуточные шаги — буквально 5 слов на шаг.

Посмотрите на разницу:
Вопрос:

Q: Jason had 20 lollipops. He gave Denny some lollipops. Now Jason has 12 lollipops. How many lollipops did Jason give to Denny?

Стандартный ответ:

А: 8

Chain of Thought:

А: Давайте рассуждать шаг за шагом:
1. Изначально у Джейсона было 20 леденцов.
2. После того, как он дал некоторое количество Денни, у Джейсона осталось 12 леденцов.
3. Чтобы узнать, сколько леденцов Джейсон дал Денни, нам нужно вычислить разницу между исходным количеством леденцов и оставшимся.
4. Составим простую задачу вычитания: Исходное количество леденцов - Оставшееся количество леденцов = Леденцы, отданные Денни
5. Подставляем числа: 20 - 12 = Леденцы, отданные Денни
6. Решаем вычитание: 20 - 12 = 8
Таким образом, Джейсон дал Денни 8 леденцов.
####
8 леденцов

Chain of Draft:

А: 20 - x = 12; x = 8. #### 8

И это работает! 🔥

- В задачах GSM8k (арифметика) CoD сохранил точность 91% вместо 95% у CoT, но сократил токены на 80% (с 200 до 40)
- В задачах понимания спорта CoD даже превзошел CoT по точности (97.3% против 93.2%), снизив токены на 92.4% (с 189.4 до 14.3)
- В символическом рассуждении оба метода показали 100% точность, но CoD использовал на 86% меньше токенов

Что особенно интересно — в некоторых задачах меньшее количество информации позволило достичь лучших результатов! Меньше шума = лучше концентрация модели на ключевых аспектах.

Практическое применение
Для бизнеса это открывает возможности значительной экономии:
1. Снижение затрат на API: токены = деньги, а CoD сокращает их количество до 7.6% от использования CoT
2. Увеличение пропускной способности: меньшая задержка = больше запросов за единицу времени
3. Улучшение UX: ответы приходят быстрее, иногда в 3-4 раза (с 4.2с до 1с на GSM8k)

Как внедрить
Техника до смешного проста — просто используйте промпт:

Think step by step, but only keep a minimum draft for each thinking step, with 5 words at most. Return the answer at the end of the response after a separator ####.

И всё! Никаких сложных доработок API или архитектуры.

Недостатки и ограничения
В исследовании модели просто инструктировали быть краткими, без жесткого ограничения. На практике они могут не всегда следовать рекомендации в 5 слов.

Также, хотя для многих задач потеря точности минимальна (с 95% до 91%), в критических сценариях даже такое снижение может быть неприемлемо.

Конкуренты метода
В статье упоминаются другие подходы к снижению задержек:
- Skeleton-of-Thought (SoT): сначала создается скелет ответа, затем параллельно декодируются части
- Token-budget-aware LLM reasoning (TALE): динамически оценивает глобальный бюджет токенов на основе сложности
- Coconut: выполняет рассуждение в скрытом пространстве, а не на естественном языке

Но CoD выигрывает своей простотой внедрения и гибкостью — он позволяет неограниченное количество шагов рассуждения, ограничивая длину каждого.

Похоже, что краткость действительно сестра таланта — даже для искусственного интеллекта. 🤔

#ChainOfDraft #prompts
———
@tsingular

👍14⚡3❤1✍1🤔1

1.04K views06:05

Технозаметки Малышева

Тут промпт Антропик Клода вирусится.

https://raw.githubusercontent.com/asgeirtj/system_prompts_leaks/refs/heads/main/claude.txt

Изучаем.

#prompts #Claude
------
@tsingular

🔥5⚡1✍1

1.16K views15:28

Технозаметки Малышева

3:00

Media is too big

VIEW IN TELEGRAM

Martin Nebelong поделился простой, но невероятно эффективной техникой, как добиться от нейрорендера 100% качественного переноса исходной картинки на итоговое видео.

Промпт:

Instantly jump/cut on frame 1. [Describe the new context]

Максимально кратко и максимально эффективно.
Итоговые ролики в первом кадре содержат его набросок, а дальше переходят к генерации видео, но из-за того, что 1й кадр уже содержит картинку - остальной нейрорендер максимально соответствует исходнику.

Дальше при монтаже первые кадры вырезаются, но в комментах к посту у него эти примеры приведены целиком.

#Veo3 #tips #prompts #нейрорендер
———
@tsingular

1🔥13👍3⚡1🤨1

1.14K views14:35

About

Blog

Apps

Platform