工程 AI 助手最容易答錯的五種問題

一名項目經理問 AI 助手：「這項變更是否已經獲批？」

系統很快回答：「根據會議紀錄，顧問已同意相關方案，可按計劃施工。」

答案引用的會議紀錄確實存在，但同一段文字的下一句寫着：「費用及工期影響仍待承建商提交資料後另行確認。」

AI 沒有完全捏造內容。

它只是把一個有條件、分層次的決定，壓縮成了一句看似明確的批准。

工程 AI 最危險的錯誤，經常不是離譜答案，而是九成合理、足以讓人停止查證的答案。

第一種：問題沒有指定項目、合約或版本

「消防要求是甚麼？」「這部設備是否符合規格？」「付款期限是多少？」

這些問題看似清楚，對工程 AI 而言卻可能缺少最重要的範圍。

不同項目、合約包、設備和文件版本可以有不同要求。若系統搜尋整個企業資料庫，它可能找到另一個項目的相似內容，或者使用一份已被取代的文件。

聊天介面的便利，很容易令人忘記搜尋必須有邊界。

較可靠的助手應在回答前確認 project、discipline、package、document status 和 revision。若使用者沒有提供，系統可以根據目前頁面或登入環境自動限制；仍然不清楚時，應先追問，而不是猜測。

一個工程問題若沒有範圍，通常不應直接得到一個確定答案。

第二種：AI 找到舊文件，但不知道它已經失效

語意搜尋會優先找到內容最相似的文件，不一定是最新或有效文件。

舊圖紙、rejected submission、superseded method statement 和早期合約草稿，往往仍然保留在資料庫中。它們的文字可能比最新版本更完整，反而更容易被模型檢索。

所以，RAG 系統不能只依靠向量相似度。

在搜尋內容前，應先利用 metadata 排除錯誤狀態，或者明確比較版本關係。答案中亦應顯示文件狀態和 revision，而不是只顯示檔案名稱。

如果系統無法確認哪一份為最新批准版本，最安全的輸出不是自行選擇，而是列出衝突並要求文件控制人員核實。

第三種：多份文件都有道理，但它們互相矛盾

工程項目中的矛盾並不罕見。

圖紙與規格不同、顧問回覆與會議紀錄理解不同、合約要求與現場指示未完全一致。人類工程師會辨認這是一個需要澄清的問題，AI 卻可能把多份內容合併成一個流暢答案。

這種「綜合」可能把矛盾消失掉。

成熟的助手應該把 evidence comparison 視為獨立步驟。當兩份高權威文件存在不同要求，系統要展示差異、來源、版本和日期，而不是自動選擇一方。

Agentic RAG 的概念，正是把問題拆成多個任務：先理解問題、規劃搜尋、取得證據、比較內容，再由另一個步驟檢查答案是否真正被證據支持。

但流程變得更複雜，並不代表一定更準確。每一個 agent 都可能犯錯，因此中間結果需要被記錄和評估，而不是只看最後一句話。

第四種：文字答得對，卻沒有讀懂圖紙和表格

工程資料不是純文字世界。

設備規格可能在 schedule 表內，尺寸和位置在圖紙中，測試結果以曲線呈現，缺陷則由相片和標註說明。AI 若只讀取抽出的文字，可能看見所有詞語，卻失去它們的空間和結構關係。

例如一個數字「1200」若失去欄位標題，可能是長度、流量、重量或設備編號；一段 general note 可能只適用於某一區域，但文字抽取後看起來像全圖要求。

多模態模型可以直接處理頁面和影像，但亦可能看錯細字、圖例、表格欄位和複雜圖紙。

因此，AI 助手不應因為支援圖片上載，便被視為已能可靠閱讀所有工程圖紙。高風險答案應指出來源類型，並讓人打開原頁確認。

第五種：資料庫沒有答案，模型卻補上一個合理答案

大型語言模型的本質是生成最可能的文字。

當檢索沒有找到足夠資料時，它仍然可能利用一般知識、相似項目或語言模式補全答案。結果讀起來合理，卻不是來自企業正式紀錄。

工程 AI 助手必須有 abstention 能力。

當證據不足、來源權威不夠、文件互相矛盾或問題超出系統範圍時，它應明確回答：

「目前未找到足夠項目證據，不能確認。」

這不是系統失敗，而是安全功能。

如果企業以「回答了多少問題」衡量 AI 使用率，系統會被鼓勵不斷作答。較成熟的衡量方式，是有證據支持的答案比例、引用正確率、錯誤拒答和應拒未拒的情況。

一個可信答案，至少要帶着四樣東西

工程 AI 的答案不應只提供文字結論。

使用者至少需要看到：

它搜尋了哪一個項目與範圍；引用了哪些文件、版本和頁碼；答案中哪些部分直接來自證據；以及系統對結果有多大信心或存在甚麼限制。

若答案涉及合約、設計、法規、安全或正式批准，還應顯示是否需要指定角色覆核。

這樣的介面可能比一般聊天機械人複雜，但它更接近工程決策真正需要的形式。

一個答案愈重要，系統就愈不應只要求使用者「相信 AI」。

Agentic AI 不代表可以把整個項目交給它

智能代理可以把任務拆解、呼叫不同工具、檢查文件、草擬電郵和建立 action。

這對項目行政和資料整理很有潛力，但當 agent 具備寫入系統、通知外部人員或改變工作狀態的權限時，風險亦同步增加。

較安全的做法是按行動風險分級。

搜尋和草擬可以較自動；發出正式通知、改變批准狀態、更新成本或承諾工期，則應要求人工確認。系統要保留誰提出、AI 做了甚麼、誰批准以及最後寫入了甚麼的 audit trail。

工程 AI 治理的核心，不是禁止自動化，而是讓權限與後果相稱。

可由哪一個 pilot 開始？

先建立一個只回答低風險、可驗證問題的助手，例如：

「找出指定項目中某份文件的最新批准版本和批核狀態。」

限定資料範圍，要求每次顯示文件編號、revision、status 和來源頁面，找不到時必須拒答。由文件控制和項目團隊建立一組已知答案作測試，記錄錯誤檢索、錯誤引用和錯誤拒答。

不要一開始便讓它解釋所有技術、合約和安全問題。

工程 AI 助手最成熟的表現，不是它看起來無所不知，而是它清楚知道自己的證據、邊界和甚麼時候必須把決定交回人。