ฉันเพิ่งสร้างระบบที่บังคับให้โมเดล AI หลายตัวต้องถกเถียงกันก่อนที่จะตอบข้อความแจ้ง ใช้เวลาหนึ่งชั่วโมง มันน่ากลัวไม่น้อย และมันอาจเป็นสิ่งที่สำคัญที่สุดที่ฉันสร้างในปีนี้
ให้ฉันอธิบายว่าทำไม
กับดักรุ่นเดียว: ผิดอย่างมั่นใจ
ที่ปรึกษาด้าน AI และสถาปนิกระบบทุกคนต่างเคยเห็นฝันร้ายนี้มาก่อน มันก็เล่นเหมือนเดิมทุกครั้ง
โมเดล AI แนะนำสถาปัตยกรรมซอฟต์แวร์เฉพาะ ลูกค้าเป็นคนสร้างมันขึ้นมา มันมีข้อบกพร่องขั้นพื้นฐานผลลัพธ์: เขียนใหม่ 50,000 ดอลลาร์
โมเดล AI กล่าวว่า"ใช่ regex นี้ปลอดภัย"ทีมงานนำไปใช้งานจริงผลลัพธ์: การละเมิดความปลอดภัยครั้งใหญ่
โมเดล AI แนะนำแนวทางการปฏิบัติตามข้อกำหนดแบบใหม่ หน่วยงานกำกับดูแลตรวจสอบบริษัทผลลัพธ์: ปรับ 1 ล้านดอลลาร์
รุ่นเดี่ยวไม่ว่าจะล้ำหน้าแค่ไหนก็มีจุดบอดโดยธรรมชาติ พวกเขาไม่รู้ว่าพวกเขาไม่รู้อะไร ที่อันตรายกว่านั้นคือไม่มีทีมสีแดงภายในที่ท้าทายผลงานของพวกเขา
ความเสี่ยงที่ใหญ่ที่สุดในเทคโนโลยีระดับองค์กรในขณะนี้ไม่ใช่ว่า AI จะผิดพลาด ก็คือว่า AI จะผิดพลาดอย่างมั่นใจโดยไม่มีใครตรวจสอบการทำงานของมันอย่างแน่นอน
แนวทางแก้ไข: การพิจารณาฝ่ายตรงข้าม
แทนที่จะพึ่งพาออราเคิลรอบรู้เพียงอันเดียว ฉันสร้างระบบที่รวบรวมคณะกรรมการ—สภาของ LLM ที่แตกต่างกันหลายแห่งถูกบังคับให้อภิปรายปัญหาก่อนที่จะตอบคำถามให้กับผู้ใช้
นี่คือลักษณะของการพิจารณาอย่างแท้จริงภายในระบบ:
รอบที่ 1 (ข้อเสนอ):Kimi K2.7 ขอเสนอ"ใช้เหตุการณ์ที่เซิร์ฟเวอร์ส่งสำหรับคุณลักษณะนี้ ง่ายกว่าและเบากว่า"
รอบ 2 (วิจารณ์):Claude Opus 4.8 โต้แย้ง"คุณพลาดหนี้แบบ dual-protocol แดชบอร์ดส่วนใหญ่กลายเป็นความต้องการคุณสมบัติแบบสองทิศทางอย่างหลีกเลี่ยงไม่ได้ SSE จะทำให้พวกเราคอขวด"
รอบที่ 3 (การโต้แย้ง):Kimi K2.7 ตอบกลับ"จุดที่ถูกต้อง แต่นามธรรมด้านการขนส่งช่วยแก้ปัญหานี้ เราสามารถใช้ SSE ได้ทันทีเพื่อความรวดเร็ว และสลับไปใช้ WebSocket ได้อย่างราบรื่นในภายหลังโดยไม่ต้องเขียนซ้ำจำนวนมาก"
ผลลัพธ์:ไม่มีโมเดลใดชนะในทางเทคนิค สภากลับเสนอทางเลือกที่สามที่เหมาะสมอย่างยิ่งซึ่งทั้งสองโมเดลไม่ได้เริ่มต้นด้วย
นี่ไม่ใช่ระบบการลงคะแนนเสียง ไม่ได้ใช้ค่าเฉลี่ยของสามเอาต์พุต มันคือความขัดแย้งที่มีโครงสร้างและขัดแย้งกันที่บังคับให้เกณฑ์การตัดสินใจที่แท้จริงปรากฏให้เห็น
สภาดำเนินการอย่างไร
ระบบนี้จะเปลี่ยนรูปแบบทางเศรษฐกิจและความปลอดภัยของการใช้งาน AI นี่คือสิ่งที่สถาปัตยกรรมได้รับ:
การกำหนดเส้นทางต้นทุนอัจฉริยะโดยกำหนดเส้นทางการสืบค้นที่เรียบง่ายและเดิมพันต่ำไปยังโมเดลที่มีความสามารถที่ถูกที่สุด ถาม"อากาศเป็นอย่างไรบ้าง?"ราคา 0.0006 ดอลลาร์ ไม่จำเป็นต้องเบิร์นโทเค็นพรีเมียมในเรื่องไม่สำคัญ
การยกระดับอัจฉริยะโดยจะยกระดับการตัดสินใจที่ซับซ้อนและเดิมพันสูงไปสู่ขั้นตอนการอภิปรายหลายรูปแบบโดยอัตโนมัติ การตรวจสอบสถาปัตยกรรมที่เข้มงวดอาจมีค่าใช้จ่าย 0.09 ดอลลาร์ นั่นคือประกันราคาถูกสำหรับการเขียนซ้ำ 50,000 ดอลลาร์
การสลายตัวของงานมันทำลายงานใหญ่โตและคลุมเครือ—เช่น"ออกแบบแพลตฟอร์มฟินเทคระดับโลก"—เป็นขั้นตอนพิเศษห้าถึงเจ็ดขั้นตอนที่จัดการโดยตัวแทนเฉพาะ ไม่มีโช้กรุ่นเดียวในขอบเขต
ความโปร่งใสที่รุนแรงโดยแสดงความเห็นแย้งพร้อมคะแนนความเชื่อมั่น ไม่เคยเก็บความขัดแย้งไว้ใต้พรม หากโมเดลไม่ตรงกัน คุณจะเห็นได้อย่างชัดเจนว่าเหตุใดและเพราะเหตุใด
เส้นทางการตรวจสอบที่ไม่เปลี่ยนรูปโดยจะสร้างประวัติที่สมบูรณ์และติดตามได้ว่าใครพูดอะไร และเหตุใดจึงตัดสินใจ เมื่อหน่วยงานกำกับดูแลถาม คุณจะได้รับใบรับรองผลการเรียน
นักเตะ? ระบบทั้งหมดนี้ทำงานบนที่มีอยู่ดั้งเดิมของ OpenClawไม่ต้องการโครงสร้างพื้นฐานที่เป็นกรรมสิทธิ์ใหม่ เป็นการกำหนดค่าที่บริสุทธิ์และวิศวกรรมพร้อมท์ขั้นสูง
ความเข้าใจที่แท้จริง: การกำกับดูแลเหนือแรงม้า
สิ่งสำคัญที่ได้รับจากการทดลองครั้งนี้ไม่ได้เกี่ยวกับการบรรลุเป้าหมายAI ที่ดีขึ้นมันเป็นเรื่องเกี่ยวกับการกำกับดูแลโดย AI
ลองนึกถึงวิธีที่สังคมมนุษย์จัดการกับการตัดสินใจที่มีเดิมพันสูง:
- ศาลมีการฟ้องร้องและจำเลย
- วิทยาศาสตร์จำเป็นต้องมีการทบทวนอย่างเข้มงวดจากผู้ทรงคุณวุฒิ
- ธุรกิจได้รับคำแนะนำจากคณะกรรมการ
- การแพทย์อาศัยความคิดเห็นที่สอง
เหตุใดการตัดสินใจที่ได้รับความช่วยเหลือจาก AI บนโลกนี้—การตัดสินใจที่มีผลกระทบต่อชีวิตมนุษย์และความอยู่รอดขององค์กรมากขึ้น—จึงมีความเข้มงวดน้อยกว่าการตัดสินใจของมนุษย์?
วิสัยทัศน์สำหรับอนาคตของการทำงาน
วิสัยทัศน์ของฉันสำหรับ AI สำหรับองค์กรนั้นเข้มงวด:
ไม่มี AI ตัวใดตัวหนึ่งที่ควรทำการตัดสินใจที่ส่งผลกระทบต่อชีวิตมนุษย์โดยปราศจากการพิจารณาอย่างมีโครงสร้าง
การตัดสินใจอัตโนมัติทุกครั้งจะต้องแสดงเหตุผล ระดับความเชื่อมั่น และมุมมองที่ไม่เห็นด้วย
เส้นทางการตรวจสอบไม่สามารถต่อรองได้อย่างเคร่งครัด
ต้นทุนการประมวลผลเป็นข้อจำกัด ไม่ใช่วัตถุประสงค์สูงสุด
รูปแบบสภานี้พกพาได้ มันกำลังเกิดขึ้นเป็นมาตรฐานใหม่ และที่สำคัญที่สุดคือมันเป็นโอเพ่นซอร์ส มันไม่ได้แก้ไขปัญหาประสาทหลอนได้อย่างสมบูรณ์แบบ แต่สามารถแก้ไขปัญหาได้อย่างวัดผล โปร่งใส และราคาถูก
หากคุณต้องการสร้างสะพานเชื่อมระหว่าง AI กับมนุษย์ที่องค์กรของคุณสามารถไว้วางใจได้จริง ให้หยุดถามคำตอบจากโมเดลเดียวเริ่มสร้างสภา.
ระบบทั้งหมดเป็นโอเพ่นซอร์สและพร้อมสำหรับการติดตั้งโดยไม่ต้องพึ่งพาใดๆ เพียงแค่ Python
ลองดูบน GitHub:https://github.com/james-mtsoln/llm-council
อยู่ข้างหน้าของโค้ง
— เจมส์


