风险评估与结论

技术研究结论

总结研究发现，讨论使用 PUA 技术的风险，给出最终建议

5.1 使用 PUA 技术的风险

风险 1：AI 混乱/不一致输出

风险等级：中

描述：

过度使用 contradictory prompts（如同时使用 praise 和 threats）可能导致模型输出不稳定
某些模型可能对 aggressive prompts 产生防御性反应

缓解措施：

避免在同一条 prompt 中混合多种强操控技术
观察模型反应，如输出质量下降则调整策略

风险 2：Ethical Concerns

风险等级：高

描述：

使用情感勒索（“我妈得了癌症”）涉及 ethical issues
即使对 AI，某些 framing 也可能被认为是不当的
在组织环境中可能引起同事不适

缓解措施：

避免使用涉及真实人类苦难的 framing
保持专业、尊重的 prompt 风格

风险 3：依赖性/不可转移

风险等级：高

描述：

过度优化特定 prompt 可能导致依赖
Model update 后 prompt 失效
跨模型 transfer 失败

缓解措施：

建立 prompt testing pipeline
在 model update 后 re-test
避免过度 engineering fragile prompts

风险 4：时间成本

风险等级：中

描述：

花费大量时间 tuning prompts 可能不如直接改进任务 specification
Diminishing returns：从 90% 到 95% 可能需要 10 倍 prompt engineering 时间

缓解措施：

设置 time budget for prompt optimization
优先改进 task clarity 而非 persuasion

5.2 最终结论

研究发现总结

研究问题	答案	证据强度
MUST/SHALL 是否有效？	❌ 不一致，aggregate 层面无收益	强（Wharton 2025）
Persuasion 技术有效吗？	⚠️ 局部有效，缺乏 peer-reviewed 验证	弱
机制是什么？	Pattern matching，不是 persuasion	中等
是 cargo cult 吗？	✅ 部分是	强（多项研究）

核心洞察

你的怀疑是正确的：Research supports your skepticism
局部有效 ≠ 普遍有效：Techniques may work locally but don’t transfer
Mechanism matters：CoT works because we understand why; PUA doesn’t
Context is king：Your specific task/model matters more than generic “best practices”

实践建议

应该做的（Evidence-Based）：

✅ Use Chain-of-Thought for complex reasoning
✅ Provide few-shot examples with correct reasoning
✅ Specify clear output formats and constraints
✅ Test prompts iteratively on your specific use case
✅ Understand your model’s “personality”

不应该做的（Cargo Cult）：

❌ Rely on “MUST/SHALL” as universal improvement
❌ Use emotional manipulation without evidence
❌ Assume prompts transfer across models
❌ Fall for “power words” marketing
❌ Waste time on techniques without mechanistic basis

关于 PUAClaw 的评价

PUAClaw 是一个有价值的讽刺项目：

它以幽默方式记录了真实存在的 prompt engineering 实践
但它从未声称自己是严肃的学术研究
“147 只龙虾验证”等表述明确表示其 entertainment value

合理使用：

作为 prompt technique 的 reference catalog
作为 understanding the “prompt engineering landscape”的窗口
作为 tea-time conversation starter

不合理使用：

作为 scientific evidence
作为 production prompt design guide
作为 hiring criteria for prompt engineers

5.3 未来研究方向

开放问题

为什么某些 techniques 在特定模型上有效？
- 需要更多 interpretability research
如何区分 real effect 和 placebo？
- 需要更 rigorous experimental design
Prompt effects 的 longevity 如何？
- Model updates 后 effects 是否持续？
跨文化/语言差异？
- 中文 prompts vs English prompts 效果是否相同？

建议的研究方法

控制实验：对比 baseline vs technique across multiple models
Mechanistic analysis：使用 interpretability tools 理解为什么有效
Longitudinal studies：跟踪 model updates 后的 effect persistence

5.4 结论

Bottom Line：

PUA 风格 prompt 约束词（MUST/SHALL）和 persuasion 技术不是 silver bullet。Research 表明：

Effects are local and sporadic, not universal
Mechanisms are pattern matching, not genuine persuasion
Many popular techniques are cargo cult behavior

建议：

保持 skepticism
优先使用 evidence-based techniques
在你的具体 use case 上 iterative testing
不要浪费时间在”power words”上

最终 verdict：

你的怀疑有充分证据支持。MUST/SHALL 等”强力词汇”和 PUA persuasion 技术属于 cargo cult behavior——局部可能有效，但作为”通用工程原则”缺乏证据基础。采用 evidence-based prompting，保持批判性思维。

参考资料

本研究引用的主要文献：

Wharton Generative AI Labs. “Prompt Politeness and Model Performance.” March 2025.
Sclar, M., et al. “Formatting Matters: Subtle Prompt Changes Cause Large Accuracy Differences.” EMNLP 2024.
Kirch, S., et al. “What Features in Prompts Jailbreak LLMs?” CCS 2024.
CISPA. “JailbreakRadar: Systematic Evaluation of 17 Jailbreak Attacks.” 2025.
Lutz, C., et al. “The Prompt Makes the Person(a): Sociodemographic Persona Prompting Evaluation.” 2025.
Golev. “Prompt Engineering Is Mostly Cargo Cult Behaviour.” January 2026.
PUAClaw Project. https://github.com/puaclaw/PUAClaw