指標幫助我們了解哪些有效、哪些無效,以及原因為何。跟其他任何事情一樣,我們可以測量機器學習的效能,以衡量機器學習模型的效能。
機器學習效能指標是 MLOps 的重要部分,用來評估機器學習模型的準確度,幫助資料科學家和機器學習從業人員了解模型的效能,以及是否符合預期目標。
本文說明了機器學習效能指標的類型,以及關鍵機器學習效能指標概念,例如準確性、ROC 曲線和 F1 分數。
為何機器學習效能指標如此重要?
機器學習效能指標有助於機器學習的各個重要方面,包括:
型號選擇
效能指標有助於比較不同模型,並為特定任務或資料集選擇效能最佳的模型。例如,如果模型需要將誤報降至最低,精密度就成為評估的關鍵指標。
模型調整
指標可引導超參數微調與最佳化的過程,以改善模型效能。透過分析超參數的變化如何影響準確度、精準度或召回等指標,從業人員可以微調模型以獲得更好的結果。
業務影響
效能指標與機器學習模型應達成的業務目標直接相關。舉例來說,在醫療應用中,高回收率(將誤報降至最低)的模型可能比高精度模型更有效。
模型漂移
部署後,監控效能指標有助於偵測模型退化或“漂移”。這對於維持機器學習系統在真實世界應用中的可靠性和有效性非常重要。
機器學習效能指標的類型
機器學習效能指標有各種類型,每一種都提供機器學習模型效能的重要角度。
準確性
準確度是最簡單的指標。這是正確預測的實例與資料集中總實例的比率。當所有類別都同樣重要時,準確度對於平衡的資料集非常有用。
精準度
Precision 專注於擷取實例中的相關實例部分。分類器不將陰性樣品標示為陽性的能力。當誤報的成本很高時,精準度至關重要,例如在醫療診斷或詐騙偵測方面。
回憶(敏感度)
Recall 衡量分類器在資料集內尋找所有相關案例的能力。分類器能夠找出所有陽性樣品。當錯失正面實例(假陰性)比誤報更重要時,回憶很重要。舉例來說,在癌症偵測中,就算是某些錯誤警報,也務必要掌握所有實際案例。
F1 分數
F1 分數是精準度和回憶的諧波平均值,提供平衡的測量方式,同時考量誤報和誤報。在處理不平衡的資料集時,它特別有用。當您想要平衡精準度和回憶,並且類別分佈不均,或誤報和誤報的權重相似時,請使用 F1 分數。
ROC 曲線和 AUC
接收端操作特性(ROC)曲線針對不同閾值的偽陽性率繪製真正的陽性率(召回)。ROC 曲線下面積(AUC)提供所有閾值的總體效能測量。ROC 曲線和 AUC 在二元分類任務中特別有用,以瞭解不同決策閾值的真陽性和假陽性之間的權衡。AUC 對於不平衡和閾值選擇很有用。
特異性
特異性測量分類器正確識別為陰性的實際陰性病例比例。它透過關注真正的負面因素來補充回憶(敏感度)。在正確識別陰性病例至關重要的情況下,特異性很重要,例如在疾病篩檢測試中,假警報可能導致不必要的治療或費用。
平均絕對誤差(MAE)和根平均平方誤差(RMSE)
這些指標常用於迴歸任務中,以測量預測值和實際值之間的平均誤差幅度。MAE 和 RMSE 適用於錯誤絕對嚴重度很重要的迴歸問題,例如預測房屋價格或銷售預測。
了解這些指標,並根據特定問題領域和業務需求選擇合適的指標,對於開發有效且可靠的機器學習模型至關重要。每個指標都能針對模型效能的不同面向提供獨特的深度資訊,讓從業人員在模型開發、評估和部署期間做出明智的決策。
讓我們更深入地探討每個指標。
準確度
準確度是一種效能指標,用來評估機器學習模型的整體正確性。它可測量正確預測的實例與資料集內總實例數的比率。換句話說,準確度可量化模型在所有預測中做出正確預測的頻率。
從數學上講,準確度的計算方式如下:
準確度 = 正確預測數/總預測數 ×100%
以下是說明準確度運作方式的範例:
假設我們遇到了二進位分類問題,我們希望預測電子郵件是否是垃圾郵件。我們有 100 封電子郵件的資料集,其中 80 封不是垃圾郵件,20 封是垃圾郵件。訓練完我們的機器學習模型後,它將 80 封非垃圾郵件中的 70 封和 20 封垃圾郵件中的 15 封正確分類。
準確度=70+15/100 ×100%=85%
因此,在這個案例中,我們模型的準確度為 85%,這表示它在 100 封電子郵件中正確分類了 85 封。
準確度是評估模型效能的適當指標,在所有類別都同等重要,且資料集沒有類別不平衡的情況。
使用情境
適合準確度的情境包括:
- 電子郵件垃圾分類:判斷電子郵件是否為垃圾郵件
- 情緒分析:將客戶評價分類為正面、負面或中立
- 影像分類:識別影像中的物體,如貓、狗或汽車
- 疾病診斷:依據醫療檢測結果預測病患是否患有特定疾病
限制
準確性在作為唯一效能指標時有一些限制和考量,包括:
類別不平衡:當課程不平衡時,準確性可能會誤導,這意味著一個課程比其他課程更頻繁。舉例來說,在包含 95% 負數範例和 5% 正數範例的資料集內,永遠預測負數的模型會達到 95% 的準確度,但對於識別正數案例沒有用處。
成本不均:在某些應用中,分類錯誤的類別可能帶來比分類錯誤的更嚴重的後果。例如,在醫學診斷中,假陰性(疾病缺失)可能比假陽性(疾病診斷不正確)更重要。準確度無法區分這些錯誤類型。
不考慮預測信心:無論模型對預測的信心有多高,準確度都同樣對待所有預測。對正確預測非常有信心,但對錯誤預測不太有信心的模型,即使整體表現不佳,仍可能具有高準確度。
無法擷取不同群組的模型效能:準確度並未顯示模型在資料集內特定子組或類別的表現。它對所有課程均一視同仁,這可能無法反映不同課程的真實世界重要性。
為了解決這些限制,必須考量額外的效能指標,例如精確度、召回、F1 分數、接收器操作特性曲線下面積(AUC-ROC),以及根據問題領域和業務需求的特定特性進行的混淆矩陣分析。這些指標能提供更細微的深度資訊,讓您了解機器學習模型的效能,超越只有精準度。
精準度與記憶力
精準度和召回是兩個重要的效能指標,用來評估機器學習模型的效能,尤其是在二進制分類任務中。
精準度可測量模型預測的準確度。這是真實正值預測與模型得出的正值預測總數的比率。
精確度=真陽性/真陽性+假陽性
精準度很重要,因為它告訴我們模型預測為正的實例中有多少是正數。高精度表示該模型的誤報率較少,這表示它有助於避免誤報。
Recall=真陽性/真陽性+假陰性
回憶很重要,因為它告訴我們模型能夠捕捉多少實際的正面實例。高度召回表示模型可以有效識別最正面的實例,將誤報降至最低。
Precision 與 Recall 之間的權衡
精準度和召回之間通常存在權衡。提高精準度通常會導致召回減少,反之亦然。因為調整模型的決定閾值會影響真陽性和偽陽性/陰性的數量,所以產生了這種取捨。
高精準度、低召回:該模式在將案例標記為正面時,是謹慎且保守的。避免誤報是很小心的事,但可能會漏掉一些實際的誤報,導致回收率低。
高召回率、低精準度:該模型在將實例標示為正值時更為自由,能擷取大多數實際的正值,但也會產生更多偽陽性,導致精確度低。
使用情境
精準度和召回在下列方面特別有用:
醫療診斷:在醫療診斷中,回憶(敏感度)通常比精密度更重要。正確識別所有陽性病例(如疾病患者)至關重要,即使它代表某些假陽性(如被標記為患有該疾病的健康患者)。錯過正面案例可能會帶來嚴重後果。
詐騙偵測:在詐騙偵測中,精準度通常更為重要,因為錯誤警報(誤報)會造成使用者不便。最好具備高精準度,以盡可能減少錯誤警報,同時確保實際的詐欺案件被攔截(影響召回)。
資訊檢索:在搜尋引擎或推薦系統中,經常優先考慮召回,以避免錯過相關結果或推薦,即使它意味著包括一些不相關的項目(精確度較低)。
F1 分數
F1 分數是一種效能指標,將精準度和回憶結合為單一值,提供機器學習模型正確分類實例的能力平衡評估。在精準度和召回都同等重要,而且需要達到平衡的情況下,這尤其有用。
F1 分數是使用精確的諧波平均值計算的,如下所示:
F1 分數 = 2 × 精準度 x 回憶/精準度 + 回憶
F1 分數範圍為 0 至 1,1 分為最佳分數。當精準度和召回都達到最高等級時,就會達到其最大值,這表示模型平衡良好,可將誤報和誤報減至最低。
F1 分數優勢
使用 F1 分數的優點包括:
平衡評估:F1 分數同時考量精準度和召回度,提供模型效能的平衡評估。這在誤報和誤報都同樣重要的情況下特別有用,例如醫學診斷或異常偵測。
單一指標:F1 分數不單獨評估精準度和召回,而是將其合併為單一值,因此比較不同模型或調整參數更加容易。
對不平衡敏感:F1 分數對班級失衡很敏感,因為它同時考慮了誤報和誤報。這會懲罰比其他類別更有利的模型。
解讀 F1 分數
解讀 F1 分數的結果需要了解精準度和召回之間的權衡。
以下是一些情境和解釋:
F1 分數高:高 F1 分數表示該模型在精準度和召回之間取得了良好的平衡。這表示該模型能有效將誤報(高精度)與擷取最正面的實例(高召回率)減至最低。
F1 分數低:低 F1 分數表示精準度與回憶之間不平衡。如果模型偏向一個類別,則可能會發生這種情況,導致許多誤報(精確度低)或許多誤報(召回率低)。
比較車型:在比較不同的模型或調整超參數時,選擇 F1 分數最高的模型是有益的,尤其是在精確度和召回同樣重要的情境中。
範例
讓我們考慮一個垃圾電子郵件分類模式。
假設 A 型的精度為 0.85,召回率為 0.80,F1 分數為 0.85
另一方面,型號 B 的精度為 0.75,召回率為 0.90,F1 分數為 0.818。
雖然 B 型的召回率較高,但相較於 A 型,其精確度較低,導致 F1 分數略低。這表示 A 型在精確度和召回方面可能更為平衡,具體取決於應用的具體要求。
ROC 曲線和 AUC
如前所述,ROC 曲線和 AUC 用於二元分類問題,以評估機器學習模型的預測效能,尤其是在類別分佈不平衡的情況下。
ROC 曲線
ROC 曲線是真實陽性率(TPR)與不同閾值分類模型的誤報率(FPR)之間的取捨的圖形表示。TPR 會測量模型正確識別為陽性的實際陽性實例比例,而 FPR 則會測量錯誤分類為陽性的實際陰性實例比例。
ROC 曲線是透過在各種閾值設定下,根據 FPR(x 軸)繪製 TPR(y 軸)來建立。曲線上的每個點代表不同的閾值,曲線顯示模型的效能如何變化,作為分類變化的閾值。
權衡視覺化
ROC 曲線可視模型決策閾值不同,在靈敏度(召回)和特異性(1 - FPR)之間取得取捨。高靈敏度(TPR)的模型往往有較高的 FPR,反之亦然。該曲線顯示模型在所有可能的閾值之間的效能,允許分析師根據他們願意接受的真陽性和假陽性之間的權衡,選擇最適合其特定需求的閾值。
AUC
AUC 是一種純量值,可根據分類模型的 ROC 曲線來量化其整體效能。具體而言,它會測量 ROC 曲線下的區域,代表模型在所有可能的閾值設定中區分正負類別的能力。
AUC 有助於透過以下方式評估機器學習模型的整體效能:
效能比較:較高的 AUC 值表示模型的歧視能力更好,這意味著它可以有效地區分各種閾值的正和負實例。它能輕鬆比較不同模型,較高的 AUC 值顯示整體效能更佳。
等級不平衡的穩健性:與準確度、精確度和召回等指標相比,AUC 受到類別不平衡的影響較小。它考慮了模型在所有可能的閾值方面的效能,使其適合類別分佈偏斜的不平衡資料集。
不依賴門檻的評估:AUC 在不指定特定分類閾值的情況下評估模型的效能,無論選擇何種操作點,都能對模型的歧視能力進行更全面的評估。
結論
機器學習效能指標透過提供模型準確度、精準度、召回度、F1 分數和 ROC 曲線等量化指標,協助評估和比較不同的機器學習模型。了解這些指標對於資料科學家和機器學習從業人員而言極為重要,因為他們能處理模型開發、最佳化和部署的各種任務和挑戰。
簡而言之,機器學習效能指標可針對模型的優點與弱點提供更深入的深度資訊,讓模型選擇、超參數微調與監控模型效能等資訊獲得充分的決策。無論是處理精密度和召回至關重要的分類任務、MAE 和 RMSE 至關重要的回歸問題,還是從 ROC 曲線和 AUC 中受益的二元分類情境,適當使用效能指標都能增強機器學習解決方案的穩健性和可靠性,最終帶來更好的結果和正面的業務影響。
也就是說,充分利用機器學習模型意味著使用 AI-Ready 基礎架構,為資料儲存設備提供未來防護。了解 Pure Storage 如何協助您加速模型訓練與推論、最大化營運效率,並節省成本。