8 min remaining
0%
What Mercury Do

自主管道:为人工智能时代迁移和武器化30万篇文章

探索我们为人工智能搜索引擎迁移和优化30万篇文章所采取的创新方法,确保零停机时间和增强的可见性。

8 min read
Progress tracked
8 分钟阅读
AI Generated Cover for: The Autonomous Pipeline: Migrating and Weaponizing 300,000 Articles for the AI Era

AI Generated Cover for: The Autonomous Pipeline: Migrating and Weaponizing 300,000 Articles for the AI Era

简而言之:这是我原始架构分析的第一版。没有润色,没有“思想领导”表演。只是我们在水星实际构建的内容:系统、技术栈、出现的问题,以及2026年工程的残酷现实。我把我的生活投入到产品、人工智能和基础设施的交汇点。这是我思考的地方。今天,我们将探讨我们不仅仅是迁移了30万篇传统文章——我们构建了一个自主系统,在迁移的同时重写并武器化它们,以便适应人工智能搜索引擎。

我目睹30万篇文章自我迁移的夜晚

现在是香港星期二凌晨3:47。我盯着一台笔记本电脑屏幕,显示着一个实时更新的CLI尾部仪表板——条目出现的速度快于我能阅读的速度——我试图回忆上一次感受到这种恐惧与释然结合的时刻是什么时候。

三周前,一位日本客户找到了我们,提出了看似标准的内容管理系统迁移(从WordPress迁移到我们定制的无头系统)。他们经营十六个不同的行业垂直领域——医疗、能源、航空航天,您能想到的——自2017年以来托管在WordPress上。30万篇文章。数百万字。十年的机构知识被困在一个已成为监狱的平台上。

问题是?他们每天发布 20 篇新文章。零停机容忍。如果我们让网站黑屏即使一个小时,我们就会破坏他们的领先地位/收入来源。如果我们错过了一个重定向,我们就会毁掉十年的 SEO 价值。

我告诉他们我们会处理的。然后我坐在公寓里,盯着天花板看了一个小时,想知道我是否刚刚撒了谎。

我们为什么不写脚本

关于传统迁移的事情是:你写一个 Python 脚本,运行它,它在第 7432 篇文章时崩溃,因为某人的 2019 年博客帖子包含一个破坏你 UTF-8 解析器的表情符号,然后你在凌晨 4 点调试,而客户则惊慌失措。这是机械的、脆弱的,且极其愚蠢。

我不想要一个脚本。我想要一个不睡觉的团队。

所以我们没有构建迁移工具。我们建立了一支工作团队——十一名自主代理,运行在人工智能上,每个都有特定的职位描述,每个都遵循相同的节奏:定位 → 报告 → 行动 → 记录。他们不等我告诉他们该做什么。他们醒来,阅读数据库的当前状态,并做出决策。

让我向你介绍那些真正完成这项工作的人员:

考古学家(WP迁移工具)

这个代理对连续性非常执着。每天早上东京时间6点,它会读取上一次运行的同步日志,然后查询所有十六个Payload集合以寻找差距。它不仅仅是移动内容——它是在进行手术。它剥离了十年的WordPress短代码杂物,修复了指向已删除子域的内部链接,并生成实际上有意义的新摘录(因为旧的摘录一半只是文章的前160个字符,包括“点击阅读更多...”)。

它并行工作。当它迁移医疗行业时,它已经在审核能源行业的断链。当遇到边缘案例时——比如一篇包含来自已删除账户的十七条嵌入推文的帖子——它不会崩溃。它会标记该帖子,将其路由到Notion中的人工审核队列,并继续迁移。

代笔人(内容优化器)

项目不再只是迁移,而是变成了升级。

客户不仅需要将他们的文章迁移;他们需要为2026年做好准备。阅读他们内容的B2B客户不再从谷歌开始——他们从Perplexity、Claude和Gemini开始。他们提出问题并期待单一答案。如果你的内容没有结构化以便被AI引用,你就不存在。

所以当考古学家在移动家具时,代笔人则在重新装修房子。它将标题改写为陈述性而非聪明的(“三种汇率节省方式”变成了“汇率对冲实施减少17%的浪费:案例研究”)。它将密集的段落拆分为可扫描、数据密集的单元,以便RAG系统可以轻松摄取。它在长篇文章的末尾添加了结构化的常见问题,以特别针对AI回答引擎。

每篇经过这个代理的文章都比进入时更有价值。我们不仅仅是在保存历史;我们是在为GEO时代武器化它。

完美主义者(SEO代理)

你知道在凌晨2点谁关心JSON-LD结构化数据吗?这个代理。它扫描每个集合以查找缺失的元数据,严格执行字符限制(标题60个字符,描述155个字符),并实时生成网站地图。当它检测到Payload中的slug变化时,它立即计算重定向矩阵,并在变化上线之前更新.htaccess规则。

它捕捉到了人眼可能会错过的东西:一个来自2022年的分类存档页面,指向它的反向链接有4000个。如果我们错过了那个重定向,客户的自然流量可能会在一夜之间下降12%。完美主义者标记了它,绘制了地图,并在我吃晚餐时修复了它。

偏执者(安全与合规)

这个在每次部署之前运行。它检查CORS通配符,以防止任何人抓取新的API。它寻找可能已经滑入配置文件的硬编码秘密。它对每篇文章进行WCAG 2.1 AA可访问性审计,检查替代文本和颜色对比度比率,因为客户的法律团队对ADA诉讼感到恐惧。

在发布前三天,它标记了五篇包含2017年未授权库存照片的文章。它不仅仅是标记它们——它生成了替换图像查询,检查重复项,并准备了替换脚本。它让我们避免了5万美元的版权侵权头痛。

我停止参加站立会议。我只是阅读日志。

蜂巢思维

这里是让这一切真正有效的细节:Obsidian MD集成。

我们将其用作共享皮层。每个代理都写入同一个工作区。这里有一个任务板和知识图谱,随着代理完成工作而自我更新。还有一个架构页面,随着系统的变化而演变。还有一个审计记录,记录每一个决定——为什么某篇文章被标记为手动审核,为什么创建了重定向规则,为什么安全检查失败。

当第三天有一位新开发者加入项目时,我不需要给他们简报。我只是给了他们Obsidian的访问权限。他们像读小说一样阅读迁移日志,准确知道我们的进展。

系统有记忆。人类团队会忘记。代理人不会。

我意识到这与众不同的瞬间(我毫无用处)

大约在第四天,情况发生了变化。我在回顾每日总结——注意到合规代理标记了五个特定项目,幽灵写手当天优化了400篇文章,重定向管理器捕捉到了我们错过的URL模式——我意识到我不再是在管理一个项目。我是在监控一个生态系统。

问题不再是“我们是否按计划推出?”而是“今天系统学到了什么?”

这是很难向没有感受过的人解释的部分。是的,代理人为我们节省了时间。我们在大约五天内花费了20个人小时迁移了300,000篇文章。一个传统的机构会为此投入二十个人六个月的时间。

但真正的升级不是速度。是“决策质量。”当你的代码库的每一个角落都有一个自主智能在检查它,记录其发现并揭示异常时,你不再依赖直觉。你依赖的是事实真相。代理人不会感到疲倦。他们不会假设他们昨天修复了那个错误。他们每次都会检查。

堆栈(为关心的工程师)

  • Claude Code / Kimi Code / 开放代码 API: 不是用于聊天,而是用于结构化认知。我们构建的是管道,而不是对话。每个代理输出 JSON,供下一个代理解析。
  • Payload CMS 3.x: 无头,原生 TypeScript,专为多租户架构而构建。它处理这十六个垂直领域,就像它们是十六个独立的出版物,实际上它们确实是。
  • Vercel: 我们的后端托管服务。
  • Obsidian: 原生 MD 工作区 系统自动编写文档,因为人类不应该这样做。

99.2% 成功率

我们没有捕捉到所有内容。0.8%的文章需要人工干预。代理无法调和的古老Flash嵌入。2018年的自定义JavaScript计算器需要手动重建。一个完全用Wingdings写的帖子(我不想知道为什么)。

但系统标记了每一个。没有任何遗漏。没有任何内容消失。编辑团队在整个迁移过程中持续发布,毫不知情他们的内容正在后台迁移到一个新宇宙。

接下来会发生什么

客户的新网站已经上线。代理仍在运行——现在处于维护模式,检查404错误,优化新发布的文章,保持系统健康。

但我已经在思考我们接下来要构建的内容。

这就是工作的全新形态。不是人类管理工具,而是人类指导永不休眠、永不遗忘、永不停歇优化的自主团队。这很可怕。这很累人。而我现在觉得我不会以其他方式去做。

——詹姆斯,水星科技解决方案,2026年3月