一張工地相片裏,一名工人戴着安全帽、穿着反光衣,個人防護裝備全部符合要求。

如果系統只檢查 PPE,畫面會被判定為正常。

但工人正站在挖掘機的倒車路徑內,背向設備,而司機視線被旁邊堆放的材料遮擋。安全帽沒有問題,真正危險的是人、機械、方向和視線之間的關係。

這正是工地影像辨識由第一代走向下一階段時,必須跨過的界線。

第一代系統識別物件,下一代系統要理解關係

安全帽、反光衣和人員闖入禁區,適合成為早期 computer vision 應用,因為目標相對清楚,也容易建立訓練資料。

相機看見一個人,再判斷頭部是否有安全帽;辨認施工區域後,檢查是否有未授權人員進入。這些應用可以減少部分人手監察,也可以讓系統持續觀察多個位置。

但大量重大風險並不是由單一物件是否存在決定。

吊物下方有人、工人與移動機械距離過近、臨邊工作姿勢令身體重心越過保護範圍、通道被物料逐步侵佔,這些都需要系統同時理解多個物件的位置、方向、動作和時間變化。

一幀畫面可能仍然安全,連續數秒的行為卻顯示風險正在形成。

所以,下一階段的影像 AI 不只是 object detection,而要逐步處理 tracking、pose estimation、spatial relationship 和 activity recognition。系統需要知道「誰在甚麼位置」,也需要知道「他正在做甚麼,以及附近有甚麼會令這個動作變得危險」。

相機看見的只是畫面,不知道今日正在做哪一個工序

同一個位置,在不同施工活動下可能有不同安全要求。

一個區域平時可以通行,但吊運期間應封閉;某個洞口在工作未開始時風險有限,當附近班組需要搬運大型物件時,暴露程度便完全不同。

如果 AI 只分析影像,而不知道施工計劃、method statement、permit 和當日工序,它很難理解畫面是否偏離應有安排。

這也是多模態系統開始受到重視的原因。

影像可以顯示現場狀況,文字資料則提供背景:今日進行甚麼高風險工作、控制區域在哪裏、需要哪些保護措施、哪些人獲授權操作設備。當兩者連接,系統才有機會由「看見有人」提升至「知道這個人在目前工序下不應出現在這個位置」。

但這種連接亦比安全帽辨識困難得多。施工文件可能尚未更新,現場工序與計劃不同,區域名稱在圖紙、BIM 和相機系統中亦未必一致。

AI 能否理解風險,首先取決於公司能否清楚描述今日的正常狀態。

真正有價值的,不只是即時警報,而是重複模式

如果每次有人未戴安全帽,系統便立即發出通知,警報量可能很快變得難以管理。

安全部門更需要知道的,往往是模式。

哪一個區域在交班時最常出現 PPE 問題?哪一類分判商反覆進入限制區?通道阻塞是否總在送貨後發生?人車距離警報是否集中在某個施工階段?

單一事件可以由現場立即處理,重複模式才值得管理層重新檢視工作設計。

例如某一個路口每日出現人車接近,不應只是不斷提醒工人小心。它可能反映交通動線、物料存放或視線設計存在結構性問題。影像 AI 若能把數星期的事件分類、定位和比較,便可以由「監察違規」轉向「發現施工環境如何持續製造違規」。

這比增加相機數量更有價值。

影像生成的安全報告,必須保留由畫面到規則的路徑

新一代視覺語言模型可以描述畫面,甚至嘗試生成安全觀察和改善建議。

但工程安全不能只接受一句自然語言答案。

系統若指出「工作平台存在跌落風險」,使用者需要知道它看見了甚麼:護欄缺失、工人位置、平台高度、身體姿勢,還是哪一條安全規定未符合?

如果模型只產生一段流暢報告,而無法指出影像位置、時間、依據規則和原始畫面,便很難用於正式安全管理。

較可靠的流程應把影像證據、事件分類、適用程序或規例、模型建議和人工覆核分開保存。

AI 可以草擬觀察,但安全人員需要確認現場脈絡、風險程度和應採取的行動。最終報告應讓人回到原始證據,而不是只留下模型的文字結論。

誤報令人煩,漏報才真正危險

相機角度、逆光、夜間、雨霧、PPE 遮擋、設備移動和畫面壓縮,都會影響模型表現。

系統可能把普通帽誤認為安全帽,也可能因為工人被材料遮擋而完全沒有偵測到人。不同地盤的制服、設備和施工環境亦會令同一模型表現差異很大。

如果 AI 沒有發出警報,人員很容易把「系統沒有看到」誤解成「現場沒有風險」。

因此,工地影像 AI 不應被設計成唯一安全防線。

企業要知道系統在哪些情況表現可靠、哪些位置存在盲區,以及模型更新後是否影響原有準確度。警報需要抽樣覆核,未觸發警報的畫面亦應定期抽查,才能估計漏報問題。

安全 AI 的治理不能只量度它發出了多少警報,也要量度它錯過了甚麼。

私隱和信任不是部署後才處理的問題

持續拍攝工人會涉及個人私隱、影像保留、使用目的和權限管理。

如果員工相信相機主要用來監察個人表現或追究責任,他們可能抗拒系統,甚至改變行為以避開鏡頭,而不是改善安全。

企業應在部署前說明相機看甚麼、不看甚麼、資料保存多久、誰能查看,以及警報如何被使用。能在邊緣設備完成辨識、只保存事件片段的情況下,未必需要長期保留所有原始影像。

技術方案應盡量收集完成安全目的所需的最少資料。

安全系統要有效,前線人員必須相信它是協助發現危險環境,而不是一個無限擴張的監控工具。

可由哪一個 pilot 開始?

不要第一日便要求 AI 監察整個地盤所有安全規則。

可以先選一個視野清楚、風險定義明確的場景,例如限制區域闖入或人車接近。先記錄相機盲區、日夜差異、誤報和漏報,再由安全團隊每週檢視事件是否真的有管理價值。

第二階段才把影像與工序、BIM 區域或 permit 資料連接,讓系統知道某個位置在不同時段應有甚麼控制。

工地影像 AI 的成熟,不是相機懂得指出更多錯誤,而是它能協助團隊發現:哪些工作條件正反覆把正常人推向危險位置。