Agent 时代的输出格式演进:从 Markdown 到 HTML
摘要Anthropic 工程师发文称已几乎放弃 Markdown全面转向 HTML 作为 AI 输出格式引发 Karpathy 力挺。这场争论背后是 Agent 时代人机协作方式的深层变化。5 月 8 日Anthropic Claude Code 团队成员 Thariq Shihipar 在 X 上发表了一篇长文标题是 “Using Claude Code: The Unreasonable Effectiveness of HTML”。核心观点可以概括为一句话他已经几乎停止让 Claude 输出 Markdown改用 HTML。这篇帖子在几天内浏览量迅速突破千万。前 OpenAI 创始成员 Andrej Karpathy 公开表示认同开发者社区随之展开激烈讨论。Markdown 的痛点是什么在 GPT-4 时代Markdown 凭借简洁语法、低 Token 消耗和便携性顺理成章地成为 AI 输出的默认格式。但随着上下文窗口扩展到百万级、模型推理能力持续提升Markdown 最坚实的存在理由正在松动。Thariq 的论证从以下三个维度展开。1. 人工编辑已成低频操作Agent 不再只回答问题、列清单而是能生成上百行的规格文档、实施计划和研究报告。Thariq 在文中直言“我基本不会去读超过 100 行的 Markdown 文件更不可能期望团队中的其他人去读完。”2. 可编辑性优势正在被稀释过去 Markdown 的核心卖点之一是人能方便编辑但在 Agent 工作流里人工直接编辑文件的频率越来越低。Thariq 发现即使需要修改自己也更倾向于写提示词让 Claude 去改而不是打开文件逐行动手。3. 结构化表达存在瓶颈当 AI 需要呈现结构化数据、流程关系、空间布局时Markdown 只能用 ASCII 字符画图用 Unicode 符号模拟颜色。Thariq 举了一个例子Claude Code 曾在 Markdown 里用 Unicode 字符拼凑色块实际效果远达不到设计表达的需求。为什么是 HTMLThariq 把他的论点落到了一组具体能力上HTML 能原生支持表格、CSS 样式、SVG 插图、内嵌脚本、交互组件、绝对定位和画布。他的判断是“只要是 Claude 能读懂的信息几乎没有什么是不能用 HTML 高效展现出来的”。为证实这一判断Thariq 发布了一个包含 20 个自包含 HTML 文件的示例站覆盖 9 类工作场景探索与规划、代码审查、设计、原型、图表、演示、研究学习、报告以及自定义编辑界面。每个文件均由 Claude Code 生成可直接在浏览器中打开。其中最具参考价值的类别是自定义编辑界面。Thariq 让 Claude 生成的是一次性的临时工具可拖拽的工单分诊看板、带依赖检测的功能开关编辑器、左右分栏实时预览的提示词调试器。其中的关键设计在于每个界面都设有导出按钮——将用户在 UI 中调整的结果复制为 Markdown、JSON 或 Prompt再粘贴回 Claude Code 继续执行。这个设计把 HTML 从给人看的文档变成了人向 Agent 反馈结构化信息的中间层。AI 生成界面人在界面上做判断界面把判断结果导出再交给 AI 执行从而形成一个闭环。Andrej Karpathy 公开表示认同并给出了一个更宏观的框架。他认为 AI 输出格式的演进有一条清晰的路线纯文本、Markdown、HTML、交互式神经网络视频。每一步都在用效率换取理解力和计算界面从命令行到 GUI 到触摸屏的演进逻辑一致。企业级应用的技术风向这场争论并非只停留在个人偏好层面。几家头部平台已经在产品层面做了决策。Salesforce 的 Agentforce 平台处理了超过 400 万个会话使用自适应响应格式将 LLM 文本响应转换为轮播图、选择按钮、媒体卡片等 UI 组件。Microsoft Copilot Studio 采用了类似的自适应卡片方案。Anthropic 的 Claude Artifacts 已被广泛用于生成交互式 HTML 内容OpenAI 的 ChatGPT Canvas 也加入了 HTML 和 React 渲染能力。在企业级应用中如何安全地渲染 Agent 产出的 UI 组件也是一个探索方向。Google 提出的 A2UI 协议代表了一种主流思路Agent 不直接生成 HTML而是声明我想展示什么由平台负责安全渲染。这解决了企业安全团队无法接受 Agent 编写在生产环境中运行的任意 HTML 的问题同时也给出了一个中间路线。Cloudflare 则从另一个角度切入推出了 “Markdown for Agents” 方案通过 HTTP 的 Accept 头做内容协商同一个链接人类访问返回 HTMLAI 访问返回精简 Markdown。信息源头只有一份呈现方式自动切换。HTML 的代价是什么Thariq 本人在文章中坦言HTML 的生成时间是 Markdown 的 2 到 4 倍版本控制中的 diff 非常杂乱Token 消耗更高。反方观点指出如果 HTML 替代 Markdown 成为 AI 输出的主流格式人可能会下意识地减少对内容的直接编辑和介入——“页面看起来很专业所以我更少去修改它”。这恰恰和 Thariq 自己强调的保持人机协同目标相矛盾。当 AI 产出越来越长、越来越专业时人的阅读和判断能力正在成为瓶颈。HTML 能降低单次阅读的认知成本但它是否也会同时降低人深度介入的意愿目前还没有明确答案。Beam.ai 提出了一种基于接收对象的分类框架Agent 间通信适用 Markdown成本低、易解析且便于版本控制Agent 向人类输出适用 HTML视觉表现力和信息密度更高。问题不在于谁取代谁而在于同一份产出是否需要同时服务机器和人类两类消费者。写在最后Markdown 的发明者二十年前就定义过它的分工写作格式和发布格式是两回事。AI 时代没有推翻这个分工反而在放大它。Markdown 更适合做事实层——长期维护、可 diff、可协作编辑HTML 更适合做呈现层——需要被快速理解、比较、交互和分享。Thariq 这篇文章更深层价值不是宣布 Markdown 已死而是提出了一个被忽视的问题当 AI 产出越来越长人的阅读能力成为瓶颈时格式本身应该怎么适配。Cloudflare 的内容协商、Google 的 A2UI 协议都是在回应这个问题。它们各自给出了不同的中间路线但共同指向同一个判断——单一格式覆盖所有需求的单层结构在 Agent 时代已经不够用了。相关资源Thariq 原推HTML 示例站Simon Willison 解读Beam.ai 深度分析Hacker News 讨论Salesforce Agentforce 工程博客

相关新闻

最新新闻

日新闻

周新闻

月新闻