8 min remaining
0%
What Mercury Do

自律型パイプライン:AI時代に向けて30万件の記事を移行し武器化する

AI検索エンジン向けに30万件の記事を移行・最適化するために私たちが採用した革新的なアプローチを探ってみましょう。ダウンタイムゼロで、可視性を向上させました。

8 min read
Progress tracked
8 分で読めます
AI Generated Cover for: The Autonomous Pipeline: Migrating and Weaponizing 300,000 Articles for the AI Era

AI Generated Cover for: The Autonomous Pipeline: Migrating and Weaponizing 300,000 Articles for the AI Era

要約:これは私の生のアーキテクチャの内訳の初版です。磨き上げもなく、「思想的リーダーシップ」の演出もありません。マーキュリーで実際に構築しているもの:システム、スタック、壊れたもの、2026年のエンジニアリングの厳しい現実です。私は製品、AI、インフラの交差点で人生を過ごしています。ここが私が考えを声に出している場所です。今日は、私たちが単に30万件のレガシー記事を移行したのではなく、移行中にAI検索エンジン向けにそれらを再構築し武器化する自律型システムを構築した方法を見ていきます。

私が30万件の記事が自ら移行するのを見た夜

香港の火曜日の午前3時47分です。私はリアルタイムで更新されるCLIテールダッシュボードを表示しているノートパソコンの画面を見つめています。エントリーが私が読むよりも早く現れ、私はこの恐怖と安堵の組み合わせを感じた最後の瞬間を思い出そうとしています。

3週間前、日本のクライアントが私たちに標準的なCMS移行(WordPressから私たちのカスタマイズされたヘッドレスへ)と思われるものを持ってきました。彼らは16の異なる業界の垂直市場を運営しています—医療、エネルギー、航空宇宙、あなたの名前を挙げれば、2017年からWordPressでホストされています。30万件の記事。何百万語。プラットフォームが監獄となった10年分の制度的知識が閉じ込められています。

問題は?彼らは毎日20本の新しい記事を公開しています。ダウンタイムはゼロ耐性。もしサイトを1時間でもダウンさせたら、彼らのリード/収益ストリームを壊してしまいます。もしリダイレクトを1つでも逃したら、10年分のSEO資産を台無しにしてしまいます。

私は彼らに私たちが対処すると言いました。それから私はアパートに座り、天井を1時間見つめながら、自分が嘘をついたのではないかと考えました。

なぜ私たちはスクリプトを書かなかったのか

伝統的な移行についてのことは、Pythonスクリプトを書いて実行すると、記事7,432で壊れてしまうということです。なぜなら、誰かの2019年のブログ投稿に、あなたのUTF-8パーサーを壊す絵文字が含まれているからです。そして、クライアントがパニックになる中、午前4時にデバッグをしています。それは機械的で、脆弱で、非常に愚かなことです。

私はスクリプトが欲しかったわけではありません。私は眠らないチームが欲しかったのです。

だから私たちは移行ツールを作りませんでした。私たちは労働力を作りました—AIで動く11人の自律エージェント、それぞれに特定の職務記述があり、同じリズムに従っています:オリエンテーション → レポート → 行動 → ログ。彼らは私が何をすべきかを指示するのを待ちません。彼らは目を覚まし、データベースの現在の状態を読み取り、決定を下します。

この作業を実際に行った人々を紹介させてください:

考古学者(WPマイグレーター)

このエージェントは継続性に執着しています。毎朝午前6時(東京時間)に、前回の実行からの同期ログを読み取り、16のペイロードコレクションすべてをクエリしてギャップを探します。単にコンテンツを移動するだけではなく、手術を行います。10年分のWordPressショートコードの無駄を取り除き、死んだサブドメインを指していた内部リンクを修正し、実際に意味のある新しい抜粋を生成します(古いものの半分は記事の最初の160文字だけで、「続きを読むにはクリックしてください…」を含んでいました)。

並行して作業します。ヘルスケアの縦の移行を行っている間に、エネルギーの縦の内部リンクの監査をすでに行っています。エッジケースに遭遇した場合—たとえば、削除されたアカウントからの17の埋め込まれたツイートを含む投稿の場合—クラッシュすることはありません。それをフラグ付けし、Notionの人間レビューキューにルーティングし、作業を続けます。

ゴーストライター(コンテンツ最適化者)

ここでプロジェクトは移行からアップグレードに変わりました。

クライアントは単に記事を移動する必要があったのではなく、2026年に向けて準備を整える必要がありました。彼らのコンテンツを読むB2Bクライアントは、もはやGoogleから始めることはありません—彼らはPerplexity、Claude、Geminiから始めます。質問をし、単一の回答を期待します。あなたのコンテンツがAIに引用されるように構造化されていない場合、あなたは存在しません。

したがって、考古学者が家具を移動している間、ゴーストライターは家をリモデルしていました。見出しを巧妙ではなく宣言的に書き直しました(「為替レートの節約の三つの方法」は「為替レートヘッジの実施が廃棄物を17%削減:ケーススタディ」になりました)。密な段落をスキャン可能でデータ密度の高い単位に分割し、RAGシステムが容易に取り込めるようにしました。長文の最後に構造化されたFAQを追加し、特にAI回答エンジンをターゲットにしました。

このエージェントを通過したすべての記事は、入るときよりも価値が高くなって出てきました。私たちは単に歴史を保存しているのではなく、GEO時代のためにそれを武器化していました。

完璧主義者(SEOエージェント)

午前2時にJSON-LD構造化データを気にするのは誰か知っていますか?このエージェントです。すべてのコレクションをスキャンして欠落したメタデータを探し、タイトルは60文字、説明は155文字という厳しい文字制限を適用し、即座にサイトマップを生成します。Payloadでスラッグの変更を検出すると、すぐにリダイレクトマトリックスを計算し、変更が公開される前に.htaccessルールを更新します。

人間の目では見逃してしまうようなものを見つけました:2022年のカテゴリーアーカイブページで、4,000のバックリンクが指し示されていました。そのリダイレクトを見逃していたら、クライアントのオーガニックトラフィックは一晩で12%減少していたでしょう。完璧主義者がそれをフラグ付けし、マッピングし、私が夕食を食べている間に修正しました。

パラノイア(セキュリティとコンプライアンス)

このエージェントは、すべてのデプロイの前に実行されます。新しいAPIをスクレイピングできるようにするCORSワイルドカードをチェックします。設定ファイルに紛れ込んだかもしれないハードコーディングされた秘密を探します。すべての記事に対してWCAG 2.1 AAアクセシビリティ監査を実施し、代替テキストや色のコントラスト比を確認します。クライアントの法務チームはADA訴訟を恐れていました。

ローンチの3日前に、2017年の無許可のストック写真を含む5つの記事をフラグ付けしました。単にフラグを立てただけではなく、代替画像のクエリを生成し、重複をチェックし、スワップスクリプトを準備しました。これにより、5万ドルの著作権侵害の頭痛から救われました。

私はスタンドアップミーティングに出席するのをやめました。ただログを読みました。

ハイブマインド

これが実際に機能させるための詳細です:Obsidian MD統合。

私たちはそれを共有コルテックスとして使用しました。すべてのエージェントが同じワークスペースに書き込みます。タスクボードとナレッジグラフがあり、エージェントが作業を完了するたびに自動的に更新されます。システムが変化するにつれて進化するアーキテクチャページがあります。なぜ特定の記事が手動レビューのためにフラグ付けされたのか、なぜリダイレクトルールが作成されたのか、なぜセキュリティチェックが失敗したのかを記録する監査トレイルがあります。

新しい開発者が3日目にプロジェクトに参加したとき、私は彼らにブリーフィングする必要はありませんでした。私はただObsidianへのアクセスを与えました。彼らは移行ログを小説のように読み、私たちの状況を正確に把握していました。

システムにはメモリがあります。人間のチームは忘れますが、エージェントは忘れません。

これが違うと気づいた瞬間(私は無力です)

4日目頃、何かが変わりました。私は日々の要約を見直していました。コンプライアンスエージェントが5つの特定の項目をフラグ付けし、ゴーストライターがその日に400の記事を最適化し、リダイレクトマネージャーが見逃していたURLパターンをキャッチしたことに気づきました。そして、私はもはやプロジェクトを管理しているのではなく、エコシステムを監視しているのだと気づきました。

質問は「私たちはローンチに向けて順調ですか?」から「今日はシステムが何を学びましたか?」に変わりました。

これが、感じたことのない人に説明するのが難しい部分です。はい、エージェントは私たちの時間を節約してくれました。私たちは約5日間で20人の人間の労力をかけて30万の記事を移行しました。従来のエージェンシーであれば、これに20人を6ヶ月間投入していたでしょう。

しかし、本当のアップグレードはスピードではありませんでした。それは「意思決定の質」でした。コードベースの隅々に自律的なインテリジェンスがチェックし、その結果を記録し、異常を浮き彫りにすることで、直感に頼ることがなくなります。あなたは実際の事実に基づいて行動します。エージェントは疲れません。彼らは昨日そのバグを修正したと思い込みません。彼らは毎回、チェックします。

スタック(気にかけるエンジニアのために)

  • クロードコード / 君コード / オープンコードAPI:チャットのためではなく、構造化された認知のために。私たちは会話ではなく、パイプラインを構築しました。すべてのエージェントは、次のエージェントが解析できるJSONを出力します。
  • ペイロードCMS 3.x:ヘッドレス、TypeScriptネイティブ、マルチテナントアーキテクチャ向けに構築されています。16の垂直市場を、それぞれが実質的に別の出版物であるかのように扱います。
  • ヴァーセル:私たちのバックエンドホスト。
  • オブシディアン:ネイティブMDワークスペース。このシステムは自分自身のドキュメントを作成します。なぜなら、人間はそれをする必要がないからです。

99.2%の成功率

私たちはすべてをキャッチできませんでした。0.8%の記事は人間の介入を必要としました。エージェントが調整できなかった古いFlash埋め込み。2018年のカスタムJavaScript計算機は手動で再構築する必要がありました。完全にWingdingsで書かれた単一の投稿(理由は知りたくありません)。

しかし、システムはすべてのものをフラグしました。何も見逃しませんでした。何も暗くなりませんでした。編集チームは、コンテンツがバックグラウンドで新しい宇宙に移行されていることに気づかず、移行全体を通じて出版を続けました。

次に来るもの

クライアントの新しいサイトが稼働しています。エージェントはまだ稼働中で、現在はメンテナンスモードで404エラーをチェックし、新しい記事が公開されるたびに最適化し、システムを健康に保っています。

しかし、私はすでに次に何を作るかを考えています。

これが新しい仕事の形です。人間がツールを管理するのではなく、人間が決して眠らず、決して忘れず、決して最適化を止めない自律的なチームを指揮するのです。これは恐ろしいことです。疲れることです。そして、今では他の方法ではやりたくないと思っています。

— ジェームズ、マーキュリー・テクノロジー・ソリューションズ、2026年3月