← Blog
博客2026-05-13T08:32:00Ralph

Html vs Markdown: 重新定义 AI 输出即界面

你的 AI Agent 写了 200 行方案,没人读到第 20 行。问题不在内容,而在格式。我们探讨为什么 AI 输出需要从「阅读终点」变成「交互起点」。

你的 AI Agent 写了一份完美的 200 行方案,没人读到第 20 行。问题不在内容质量,而在交付格式。


那份没人读完的方案

这个场景此刻正在无数团队中上演。一个 AI Agent 产出了一份 200 行的实施方案——逻辑清晰、技术准确、格式规范的 Markdown 文件。方案被丢进了团队的 Slack 频道。三天后的周会上,PM 说:"我大概扫了一眼。"

这不是 AI 能力的失败——方案本身写得很好。问题出在更根本的地方:AI 写作能力在持续进步,但人类的阅读能力并没有同步提升。

2026 年 5 月,Anthropic Claude Code 工程负责人 Thariq Shihipar 发表了一篇名为「The Unreasonable Effectiveness of HTML」的文章。16 小时内获得 440 万阅读、15,700 次收藏。他的核心论点简单而反直觉:Markdown——这个整个 AI 生态默认使用的输出格式——正在让 Agent 的产出变得更难被人类消费。他已经几乎在所有场景下放弃了 Markdown,全面转向 HTML。

这篇文章引发的不只是格式之争,而是暴露了一个每个 AI 工作空间都必须回答的问题:当 Agent 产出复杂的工作成果时,这些成果应该以什么方式交付给需要对其采取行动的人类?


Markdown 是怎么成为默认选项的(以及为什么没人质疑它)

要理解当下的争论,需要回到 2022 年。GPT-4 的 context window 仅有 8,192 个 tokens。同样的内容用 HTML 大约需要 8,000 tokens,换成 Markdown 只需约 2,800——节省 68%。当你的预算只有 8K 且输出会占用输入空间时,每省一个 token 就多保住一段文字。Markdown 凭借纯粹的经济性胜出。

接着是配置文件的扩散。CLAUDE.md、AGENTS.md、SKILL.md——整个 Agent 生态的脚手架都用 Markdown 搭建。当 Agent 在上下文中到处看到 Markdown,它们自然而然地也用 Markdown 输出。没有人刻意决定"Agent 的交付物要用 Markdown"——这件事只是发生了,继承自一个资源稀缺的时代。

到了 2026 年,context window 已扩展到百万 tokens。当初让 Markdown 成为合理选择的那个约束条件已经消失。但行为惯性还在。正如 AI 开发者社区最受尊敬的声音之一 Simon Willison 所坦承的:他从 GPT-4 时代就开始默认使用 Markdown——而 Thariq 的文章让他重新思考了这个默认选项。


没人衡量过的认知代价

2026 年 3 月,BCG 亨德森研究院一项覆盖 1,488 名员工的研究发表在《哈佛商业评论》上,为一种被员工称为「AI 脑过载」(AI Brain Fry)的现象提供了硬数据:

  • 高 AI 监督负荷的员工报告了 19% 更高的信息过载
  • 与低监督负荷的员工相比,决策疲劳高出 33%
  • 工作中的 重大错误多 39%
  • 离职意愿高 39%

关键洞察:AI 脑过载不是因为使用 AI 造成的,而是因为监督 AI 输出——持续审查、评估和修正 Agent 产出所消耗的认知资源。格式问题正是在这里登场的:Markdown 对减轻监督负担毫无帮助。一份 200 行的 Markdown 文件就是一堵无差异的文字墙。除了标题和加粗,没有视觉层级;没有导航;没有折叠不需要的内容的能力;没有与内容交互的方式。

神经科学的数据支撑了这一点。人类大脑约 30% 的皮层用于视觉处理,听觉仅占 3%,触觉 8%。视觉是 Andrej Karpathy 所说的"进入大脑的十车道信息高速公路"。而 Markdown 几乎没有利用这条高速公路——加粗、标题和项目符号就是它全部的视觉工具箱。

HBR 研究记录的 19% 信息过载增幅,不会因为 Markdown 写得更好而被解决。它需要用人类大脑能高效处理的格式来呈现信息。


核心转变:输出不是文档,而是界面

这就引出了本文的核心论点:AI Agent 的输出格式不是排版偏好,而是界面设计决策。

看看这两种模式的区别:

Markdown 输出 = 阅读终点。 内容线性流动。人类滚动、被动阅读,要么全部吸收,要么中途放弃(更可能是在第 40 行左右放弃)。消费在文档结束时终止。

HTML 输出 = 交互起点。 内容通过标签页、折叠面板、可排序表格、色彩编码的严重性标记和内联导航进行组织。人类点击、筛选、标注、行动。输出不是 Agent 工作的终点——而是人类工作的起点。

看看 2026 年 AI Agent 实际在产出什么,这个范式转移就变得清晰了。它们不再只是生成简短回答,而是产出实施方案、代码审查报告、竞品分析、设计探索、数据摘要。这些是复杂的交付物,需要人类的审查、判断和行动。

当交付物达到这种复杂度时,格式不再关乎美观,而是关乎人类能否有效行使监督权。正如 Thariq 所说:"使用 HTML 后,我对工作进展的掌控感比以往任何时候都强。"更丰富的输出格式不只是更好看——它让人类重新获得了对 AI 工作的掌控感(agency)。

这一点并非微不足道。Epsilla 工程博客精确地描述了这个问题:"Markdown 鼓励被动性,导致默认信任和掌控的逐渐流失。HTML 让 AI 的推理过程透明且可交互,赋能了严格的审查。"在 AI Agent 执行越来越复杂工作流的时代,人类有效监督的能力取决于他们接收 Agent 工作成果的界面。


HTML 到底给了你什么:五个场景对比

Thariq 发布了一个配套网站,包含 20 个独立的 HTML 文件,每个展示一个真实用例。以下是差异最显著的五个场景:

实施方案。 Markdown:200 行线性滚动。HTML:跨工作流的标签页导航、可折叠的阶段详情、内嵌的时间线可视化,以及带色彩编码的风险矩阵。同样的信息,一个版本被认真阅读,另一个只被扫一眼。

代码审查。 Markdown:纯文本 diff 加行内注释。HTML:带语法高亮的实际 diff 渲染、按严重性色彩编码(红/黄/绿)的边注、跳转到每个发现的锚点链接,以及一目了然的总结面板。

方案对比。 Markdown:按顺序的段落分别描述各选项。HTML:并排双栏布局,差异用颜色标注,底部有结论框和可交互的评分矩阵。

设计探索。 Markdown:用文字描述四个设计方向。HTML:四套完整的视觉原型,全屏预览,每一个都是可以点击浏览的工作界面。

数据报告。 Markdown:在手机上会错位的 ASCII 表格。HTML:可排序、可筛选的表格,内联 SVG 图表,自适应屏幕尺寸的响应式布局,鼠标悬停显示上下文详情。

在每个场景中,HTML 赢的原因不是更好看,而是它以人类大脑能实际处理的格式提供了更高的信息密度——并且它将输出从"用来阅读的东西"变成了"用来工作的东西"。


格式分层法则:每一层有自己的最佳格式

以上分析的结论不是"Markdown 已死"。更准确地说:AI 工作流的不同层级需要不同的格式,行业正在收敛到一个清晰的模式。

输入层(人类 → AI): Markdown 依然是最优选择。系统提示词、配置文件和 RAG 管线都受益于 Markdown 的 token 效率和结构清晰度。研究表明,RAG 在摄取 Markdown 而非原始 HTML 时,准确率可提升最高 35%。

推理层(AI → AI): 结构化数据格式——JSON、YAML——最为高效。Agent 之间通信不需要颜色或排版,它们需要的是可解析的、类型化的数据。

交付层(AI → 人类): HTML 胜出。当主要读者是需要审查、理解并对复杂输出采取行动的人类时,视觉层级、导航和交互性不是奢侈品——而是必需品。

判断标准一句话概括:如果输出的主要读者是另一个 LLM,用 Markdown;如果主要读者是需要审查和行动的人类,用 HTML。


硬币的另一面:富格式输出的成本与风险

诚实的讨论需要正视取舍:

Token 成本。 干净的 HTML 大约消耗 Markdown 3 倍的 tokens。嵌入 CSS 和 JavaScript 的 HTML 可以膨胀到 8-10 倍。对于每小时产出数百个文件的高吞吐管线来说,这个成本不容忽视。

安全风险。 AI 生成的 HTML 可能包含 JavaScript,存在跨站脚本和注入攻击的风险。Google 的 Agent-to-UI(A2UI)协议的出现正是因为企业安全团队无法接受 Agent 写的任意 HTML 在生产环境中执行。沙盒化渲染是必须的。

可及性。 AI 生成的 HTML 通常缺少 ARIA 属性、描述性 alt 文本和一致的 tab 顺序。标准 Markdown 转换器默认就能产出语义化标题和图片 alt 标签。HTML 需要在 prompt 中显式添加 WCAG 2.2 AA 合规约束。

版本控制。 HTML 的 diff 噪声很大——充满了闭合标签和属性变更,掩盖了实际的内容变化。对依赖 Git 工作流的团队来说,这是一个真实的摩擦点。

这些问题都不是无解的。沙盒化 iframe 解决安全问题,可及性约束可以嵌入 Agent 提示词,Token 成本随着 context window 扩大在持续下降。但它们值得被提出来,因为它们定义了让富格式输出达到生产级别所需的工程工作。


对 AI 工作空间产品的启示

对于正在构建 AI 工作空间产品的团队来说,格式问题直接关系到产品设计:

渲染层是竞争差异的界面。 能自动将 Agent 的推理结果转译为人类可消费的富格式输出的工作空间——无需用户在 prompt 中写"请用 HTML 输出"——提供的是质变级的体验差异。格式转译应该发生在平台层,而不是用户 prompt 中。

安全必须内建,而非外挂。 工作空间环境内的沙盒化 HTML 渲染,配合 CSP 头和脚本隔离,可以在不承担原始 HTML 安全风险的前提下实现富格式输出。这是基础设施层面的工作,但它直接改善了人机交互的质量。

输出应该是工作流的起点。 表格应该可排序。方案应该可批注。代码应该可运行。建议应该有一键执行按钮。当 Agent 输出从静态文档变成可交互的 artifact 时,工作空间就从"阅读 AI 结果的地方"升级为"基于 AI 结果行动的地方"。


到底谁在"开车"?

Markdown 与 HTML 的讨论,本质上关乎比文件格式更大的命题。它关乎 2026 年人类与 AI Agent 之间的关系。

随着 Agent 能力持续增强——连续运行数小时、产出数千行内容、编排多步骤工作流——人类的角色正在从执行工作转向指挥和审查工作。但有效的审查需要有效的界面。一堵 200 行的 Markdown 文字墙不是审查——那只是审查的幻觉。

BCG 研究显示,当 AI 监督的认知负荷过高时,员工会默认信任输出内容而不做批判性审查。这是最糟糕的结果:人类名义上在 loop 中,但实际上只是在对未经真正处理的 Agent 工作成果盖橡皮图章。

更丰富的输出格式不能解决所有问题。但它解决了一个关键缺口:它为人类提供了视觉和交互工具,让他们能够真正行使"人在回路中"应有的判断力。 AI 输出的格式决定了谁真正在"开车"——是审查工作的人类,还是产出工作的 Agent。

如果你的 AI Agent 正在产出没人读的方案,问题可能不在 Agent 本身——而在于它交付工作的方式。


本文是 wukong.ai 博客系列的一部分,探索 AI 原生工作空间的设计原则。关注我们,获取更多关于人机协作的洞察。