Skip to Content
指南

什麼是 AIOps 完整指南

什麼是 AIOps
AIOps 是為自動化與 IT 作業管理而設的機器學習與大數據分析應用程式。

IT 作業專屬的人工智慧 (AIOps) 最早於 2017 年由 Gartner 提出,意指為自動化與 IT 作業管理而設的機器學習與大數據分析應用程式。任何透過 AI 增強的 IT 作業都可以稱為 AIOps,如紀錄分析、應用程式監控、服務台、事故管理等。AI AI 可以用多種方式整合到現有的 IT 作業中,幫助您的團隊更有效率、主動、準確和有生產力。本完整指南將探討什麼是 AIOps、運作方式,以及其優點、挑戰、使用案例和工具。

相關文章

部落格文章
IT 能做的 4 件事來支援 AI 計畫

什麼是 AIOps

AIOps 利用 AI 和機器學習來強化和自動化 IT 作業。縮寫 AIOps 封裝了人工智慧與 IT 作業的融合,反映出其智慧管理與最佳化 IT 系統的目標。

AIOps 不僅止於傳統的 IT 管理工具,更利用先進的演算法分析並解讀 IT 基礎架構產生的大量資料。這種以資料為導向的方法讓 AIOps 能夠找出可能被人類操作員忽視的模式、異常和趨勢。如此一來,AIOps 可讓組織主動解決問題、預測潛在故障,並最佳化效能。

AIOps 的價值核心在於能夠理解各種 IT 元件產生的龐大資料量。機器學習演算法在此過程中扮演關鍵角色,因為它們不斷從歷史資料中學習,適應並不斷發展,以更好地了解組織 IT 環境的複雜性。

資料分析是 AIOps 的另一個關鍵方面,它能夠從各種資料來源中提取有價值的深度資訊。這包括日誌、指標和事件資料,AIOps 平台即時分析以偵測可能問題的模式。AIOps 透過自動化這些資料點的關聯性,不僅能識別問題,還能協助預測和預防未來中斷。

DevOps vs. AIOps

DevOps 與 AIOps 的協同合作對於需要提高效率和簡化營運的組織而言,變得越來越重要。DevOps 或開發和營運是一套旨在自動化和改善軟體開發與 IT 營運協作的實務做法。

DevOps 與 AIOps 之間的關係是共生的。雖然 DevOps 專注於開發與 IT 團隊之間的協作與溝通,但 AIOps 為營運方面帶來了一層情報。這種協作能順暢地調整開發和營運,確保 IT 環境更加靈活、回應迅速。

什麼是確定性 AIOps

決定性 AIOps 是 AIOps 中的典範,強調其營運中的可預測性和可靠性。與可能高度依賴概率模式的傳統 AIOps 方法相比,決定性 AIOps 旨在提供更確定性的決策過程。透過結合決定性的演算法和邏輯,這種方法旨在減少不確定性,並使 IT 作業更加透明和可控制。

在決定性 AIOps 中,模型建立在明確的規則和邏輯之上,使組織能夠更清楚地瞭解決策過程。透明度對於需要精準度和可靠性的 IT 作業而言至關重要。決定性 AIOps 在錯誤或不準確的後果可能對業務營運造成重大影響的情況下,會特別有幫助。

什麼是不依賴網域的 AIOps

不依賴域的 AIOps 透過超越特定域或產業,採取更廣泛的方法。與特定領域 AIOps 解決方案不同,針對特定領域的獨特特性量身訂做,不依賴領域的模型是為各種產業所設計的多功能性與適應性。

不受網域影響的 AIOps 的彈性在於其能夠處理各種資料集和操作情境,而不需要為每個網域進行大量自訂。這讓組織在多面向環境中運作成為寶貴的資產,因此能部署 AIOps 解決方案,而不受特定領域的限制。

為何現代 AIOps 具有決定性,且與領域無關

現代 AIOps 解決方案逐漸採用雙重方法,將確定性的可靠性原則與領域不依賴性的多樣性相結合。這種組合解決了組織處理複雜 IT 環境和多樣化營運領域的不斷變化的需求。

決定性層面可確保決策的精準度與可靠性,降低錯誤風險,並提供更透明、更易於理解的 AIOps 流程。同時,不依賴網域的組織也能在各個產業無縫部署 AIOps 解決方案,進而提升擴充性和適應性。

AIOps 如何運作?

AIOps 協助 IT 作業更快速回應災害,將復原時間目標(RTO)和復原點目標(RPO)降至最低。

了解 AIOps 的最佳方式,便是思考典型 IT 作業專人應對服務停機的必要做法為何,以及 AI 如何自動化該流程。

在 AIOps 平台的市場指南中,Gartner 將回應與解決中斷的週期分為三個步驟:

1. 觀察:必須找出造成停機的主要原因並交由相關人員處理。AIOps 平台會自動擷取紀錄、指標、警示、事件及其他所需資料以了解應用程式發生事件的背後運作原因。不必仰賴人工作業從分散的資料源擷取資訊加以解讀,平台可以合併所有資料並加以分類分析。

1 https://www.gartner.com/en/documents/4015085

AIOPS 平台

2. 參與: 本步驟包含分析監控資料與診斷停機的根本原因。解決問題的相關資訊會納入脈絡考慮,並傳送給最適合作業的設備人員處理。AIOps 工具可執行風險分析、自動化職責溝通,並為 IT 作業人員備妥相關資料。

3. 行動: 直接負責人 (DIR) 會負責解決問題,修復應用程式服務。您可以建立指令碼、運行手冊和應用程式版本自動化(ARA),並在下次 AIOps 工具偵測到此問題時自動執行。

AIOps 的優勢

實作 AIOps 的優點包括:

更快的平均解決時間(MTTR)

AIOps 減少了作業噪音,將來自多個 IT 環境的資料關聯起來,以找出根本原因,並比人工作業更快提出解決方案。如此可大幅降低 MTTR,讓組織更快達成遠大目標。

降低營運成本

自動識別作業問題並重新編程回應指令碼,可降低作業成本,進而改善資源配置。此項優化還釋放了員工資源,以實現更創新的工作,從而增強員工體驗。

增強的可觀察性與協作性

AIOps 監控工具有助於跨團隊協作,改善能見度、溝通和透明度。如此可加快決策速度並回應問題。 

主動式及預測式管理

透過內建的預測式分析,AIOps 持續學習識別緊急警示並排定優先順序,讓 IT 團隊在潛在問題升級為變慢或停機之前,先行處理。

強化使用者體驗

AIOps 具備預測式分析與主動式問題解決能力,能將中斷情形降至最低,並確保 IT 服務的可用性與效能,進而提供更佳的使用者體驗。

適應複雜性

隨著 IT 環境隨著雲端、微服務混合基礎架構的普及而變得越來越複雜,AIOps 成為適應這種複雜性的關鍵工具。能夠分析大量資料並提供可行的深度資訊,對於管理現代 IT 生態系統至關重要。

AIOps 使用案例

AIOps 利用大數據、進階分析和機器學習功能來解決各種情境:

根本原因分析

根本原因分析,顧名思義,旨在找出問題背後的基本原因,並實施適當的解決方案。透過找出根本原因,團隊可以避免在治療症狀上花費不必要的心力,而不必解決核心問題。舉例來說,AIOps 平台可以追蹤網路中斷的起源,迅速解決,並建立預防措施,以避免未來發生類似問題。

異常偵測

AIOps 工具篩選大量歷史資料,以發現資料集內的異常資料點。這些異常值可作為訊號,以辨識並預測問題事件,例如資料外洩。這項功能讓企業能夠擺脫代價高昂的後果,例如負面的公共關係、監管罰款,以及消費者信心下降。

效能監控

現代應用程式通常涉及多層抽象,因此要辨別支援特定應用程式的基礎實體伺服器、儲存和網路資源,是一大挑戰。AIOps 可作為雲端基礎架構、虛擬化和儲存系統的監控工具,提供使用、可用性和反應時間等指標的深度資訊。此外,它還利用事件關聯功能來整合和彙總資訊,為終端使用者提供更好的資訊消耗。

雲端採用/遷移

組織採用雲端通常是一個漸進的過程,導致混和雲多雲環境具有多重相互依存性,並會快速頻繁地變化。AIOps 提供對這些相互依存性的清晰可見性,可大幅降低與雲端遷移和混和雲方法相關的營運風險。

DevOps 採用

DevOps 讓開發團隊能夠更好地控制基礎架構的配置和重新配置,從而加速開發。然而,IT 部門仍需要管理此基礎架構。AIOps 提供 IT 所需的能見度和自動化功能,以支援 DevOps,而不需要大量的管理工作。

實施 AIOps 逐步指南

以下提供逐步指南,供希望成功實施 AIOps 的組織使用,內容涵蓋必要的工具與技術、潛在的挑戰,以及最佳實作,以順利過渡。

步驟 1:評估您目前的 IT 環境

首先對您目前的 IT 基礎架構、流程和挑戰進行全面評估。找出痛點、效率不彰的領域,以及 AIOps 可帶來最大影響的地方。這項初步分析將有助於定義明確的執行目標。

步驟 2:設定明確的目標

為實施 AIOps 建立具體且可衡量的目標。無論是改善事件回應時間、提高系統可靠性,還是優化資源利用率,具有明確目標都能引導實施流程,並為成功提供基準。

步驟 3:選擇正確的 AIOps 工具

選擇符合組織目標和要求的 AIOps 工具。尋找能提供根本原因分析、異常偵測和效能監控等功能的平台。熱門的 AIOps 工具包括 Splunk 、Dynatrace 和 Moogsoft。評估每個工具的功能、擴充性和整合能力,以確保它們符合您組織的需求。

步驟 4:將 AIOps 整合至現有的工作流程

為了發揮 AIOps 的最大效益,請將新工具無縫整合到您現有的 IT 工作流程中。這可能涉及調整目前流程或建立新的流程,以適應 AIOps 功能。確保團隊接受新工具的訓練,並了解他們如何融入日常營運。

步驟 5:解決資料品質與可用性問題

成功實施 AIOps 的很大程度上取決於資料的品質和可用性。確保貴組織的資料準確、最新、且可存取。AIOps 高度仰賴資料驅動的深度資訊,以有效決策,因此建立資料治理實務來維持資料完整性。

步驟 6:克服文化阻力

實施 AIOps 可能面臨傳統 IT 作業習慣的團隊抗拒。培養協作文化,並強調 AIOps 在增強人類能力方面的效益,而非取代它們。鼓勵公開溝通,並讓關鍵利害關係人參與決策過程。

步驟 7:監控與評估

定期監控 AIOps 對您的 IT 運作的效能和影響。收集團隊和終端使用者的意見回饋,找出需要改進的領域。使用在目標設定階段建立的關鍵績效指標 (KPI),衡量 AIOps 實施的成功程度,並根據需要進行調整。

AIOps 的挑戰

AIOps 的三大挑戰是技能差距、安全性和可擴充性。我們來簡單看看每一個。 

挑戰 1:技能差距

大多數 IT 部門仍在學習 AIOps 的技巧。投資訓練和技能提升計畫,以彌補 IT 團隊中的技能差距。您也可以考慮與外部訓練供應商合作,或雇用 AIOps 專家。

挑戰 2:安全性

AIOps 工具可能會為您的系統帶來新的安全漏洞。優先考慮網路安全措施,並確保 AIOps 工具符合業界標準和法規。實施強大的加密和存取控制,以保護敏感資料。

挑戰 3:可擴充性

隨著 AIOps 系統不斷成長,它可能會遇到可擴充性問題。請務必選擇 AIOps 工具,以配合您組織的成長。定期重新評估您的基礎架構需求,並相應地升級工具,以確保持續擴展。

熱門 AIOps 工具

AIOps 資料收集工具

Splunk:Splunk 是一款多功能的 AIOps 工具,可從各種來源收集機器產生的資料,並編製索引,包括日誌和事件。它提供系統效能的即時深度資訊,讓組織能夠主動排除問題。

Logstash: 作為 Elastic Stack 的一部分,Logstash 是開放原始碼資料收集引擎。它從多個來源擷取並轉換資料,促進集中式日誌管理。Logstash 支援各種外掛程式,可與各種資料輸入無縫整合。

AIOps 異常偵測工具

Dynatrace:Dynatrace 運用 AI 驅動的異常偵測來分析應用程式效能與使用者體驗。它會自動建立正常行為的基準,找出可能代表問題的異常狀況。該工具提供可執行的深度資訊,以快速解決問題。

Moogsoft:Moogsoft 使用機器學習演算法,在 IT 作業中偵測異常狀況。它分析資料模式,找出偏離常態的偏差,並關聯事件,以瞭解問題的根本原因。如此可加速事件的解決速度。

AIOps 回應與補救工具

PagerDuty:PagerDuty 是領先的事件回應平台。它與監控和警示工具整合,根據預先定義的規則自動建立事件。它能促進團隊之間的即時協作,以有效解決事件。

ServiceNow:ServiceNow 結合了事件回應與補救功能。它能自動化工作流程,簡化回應流程。ServiceNow 平台可確保事件在最少的人工干預下得以記錄、追蹤並解決。

AIOps AI 訓練工具

TensorFlow: TensorFlow 是由 Google 開發的開放原始碼機器學習框架。廣泛用於在 AIOps 中訓練 AI 模型。TensorFlow 提供全面的工具和函式庫,使其適用於各種機器學習應用程式。

PyTorch: PyTorch 是另一個熱門的開放原始碼機器學習程式庫。PyTorch 以其動態運算圖表而聞名,可簡化建立和訓練複雜 AI 模型的流程。因為其彈性和易用性,所以受到研究人員和開發人員的青睞。

AIOps 的未來:新興趨勢

以下是 AIOps 的新興趨勢:

預測式分析與主動式問題解決方案

AIOps 的重大趨勢之一,就是從被動式轉變為主動式 IT 管理。透過預測式分析,AIOps 平台可以在潛在問題影響系統之前分析歷史資料、識別模式並預測問題。這種積極主動的方法讓 IT 團隊能夠在使用者注意到問題之前解決問題,確保更高的服務可靠性。

端到端的可視性與整合

AIOps 正朝著提供全面的 IT 環境端對端能見度邁進。這涉及到與各種 IT 監控和管理工具整合,以建立整個基礎架構的統一視圖。AIOps 平台透過打破孤島並提供全面性的觀點,實現更好的決策和更快速的問題解決。

自動化根本原因分析

傳統的故障排除通常需要耗時的流程來找出問題的根本原因。AIOps 平台透過自動化根本原因分析功能不斷進步,利用機器學習演算法找出問題的確切來源。這不僅能加速解決問題,還能減少 IT 專業人員的工作量。

ChatOps 整合

ChatOps 是將協作帶入基礎架構管理工具的作法,它在 AIOps 領域中取得了吸引力。將 AIOps 與聊天平台整合,讓 IT 團隊之間能夠進行即時溝通和協作,從而營造更靈活、回應迅速的營運環境。

結論

AIOps 對 IT 營運的轉型有很大的承諾。隨著預測式分析、自動化根本原因分析和其他進階功能越來越普遍,AIOps 將徹底改變 IT 專業人員管理和優化複雜基礎架構的方式。擁抱這些進步,並隨時掌握 AIOps 的最新趨勢,將是 IT 營運不斷演進,保持競爭力和成功的關鍵。

充分利用 AIOps 的關鍵方法是透過 Pure1® AIOps 平台,這有助於將所有資料來源整合到單一儲存管理解決方案中。Pure1 Meta® 由 AI 驅動,可利用預測式分析在問題發生前辨別癥結所在,以自動化基礎架構的追蹤、監控與分析。知識就是力量,而 Pure1 能夠協助您重新掌控資料。

12/2024
FlashBlade® Authorized Support Partner (ASP) Foundations
The FlashBlade Authorized Support Partner (ASP) Foundations course teaches Pure Storage partners to install, configure, optimize, troubleshoot issues, and support Pure Storage FlashBlade products. Partners will learn how to shorten their time to resolution, when to escalate issues to Pure Technical Services, and increase customer satisfaction as they handle FlashBlade support for their customers’ data centers.
課程描述
1 頁面
聯繫我們
問題或建議

如對Pure的產品或認證,有任何的疑問或建議,歡迎與我們聯繫!

預約試用

預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。 

聯絡我們:886-2-3725-7989

媒體:pr@purestorage.com

 

Pure Storage總部

34F, Taipei Nanshan Plaza,

No. 100, Songren Road,

Xinyi District,

Taipei City 110016

Taiwan (R.O.C.)

800-379-7873 (一般資訊)

info@purestorage.com

關閉
您的瀏覽器已不受支援!

較舊版的瀏覽器通常存在安全風險。為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。