- 使用高效的微調(PEFT、LoRA)和設備端協定堆疊(如 LiteRT)來經濟高效地調整 LLM。
- 結合模型級、系統級、線上線下評估,以及各種指標和人工審核。
- 利用 Prometheus、OpenTelemetry 和 GPU 指標實現完全可觀測性,以監控延遲、令牌和安全性。
- 整合 LLMOps、基準測試循環和嚴格的隱私控制,以在生產環境中可靠地運行 LLM。

大型語言模型(LLM)正從酷炫的演示轉變為關鍵任務基礎設施。 這徹底改變了我們對聊天機器人的程式設計、評估和運作方式。一旦你的聊天機器人能夠幫助醫生、律師或物流團隊做出真正的決策,你就不能再把它當作一個「看起來足夠聰明」的黑箱,而不去評估它的實際表現。 限制和偏見你需要一種嚴謹的方法來追蹤每一個請求,衡量質量,控製成本,並證明系統能夠長期安全運作。
本指南整合了通常分散在各個文件中的三個支柱:微調策略、評估框架和生產可觀測性。 並將它們融合到一個統一的程式手冊中。我們將逐步講解如何在完全微調和參數高效微調之間進行選擇,如何設計穩健的LLM評估(線上和離線,模型級和系統級),如何使用OpenTelemetry和Prometheus來追蹤和評估指標,以及如何將所有這些整合到一個持續的、業務感知的流程中。
LLM 的微調策略:完全模型與 PEFT 和 LoRA 的比較
當您將預先訓練的 LLM 模型應用於自己的用例時,首先要考慮的架構選擇是您實際上要修改多少個參數。 因為這個決定會影響硬體需求、訓練時間、成本,甚至會影響模型在生產環境中的部署方式。
完全微調是指在訓練過程中更新基礎LLM的整個參數集。 只有當你擁有龐大、高品質、針對特定任務的資料集以及強大的運算能力時,這種方法才切實可行。如果你的領域資料與原始預訓練語料庫差異很大,例如,一個基於特定司法管轄區案例法訓練的法律助手,或者一個針對特定醫學子領域的臨床支援工具,那麼這種方法就非常有用。
參數高效微調(PEFT)是一種更精準的模型最佳化方法,它透過凍結原始權重並添加小的、可訓練的元件來實現。 例如低秩自適應模組。你無需重寫一本1,000頁教科書的每一頁,而只需添加一疊帶有領域知識的標註便籤即可。訓練過程著重於這些額外的參數,從而顯著降低GPU記憶體佔用和實際運行時間。
LoRA(低秩自適應)和 QLoRA 是目前應用最廣泛的 PEFT 技術。 透過將低秩矩陣注入關鍵注意力投影,您只需少量額外參數即可調整模型行為。 QLoRA 在此基礎上疊加量化技巧,進一步降低記憶體佔用,從而能夠在單一 GPU 甚至專業級硬體上對規模驚人的模型進行微調,同時仍能保持極具競爭力的品質。
在裝置上使用 LiteRT 和 MediaPipe 運作和設定 LLM。
並非每個LLM部署都需要雲端GPU叢集;有時您希望模型完全在裝置上運行。 無論是出於延遲、隱私、離線使用還是成本方面的考慮,LiteRT 和 MediaPipe LLM 推理堆疊都應運而生。
MediaPipe LLM 推理 API 可讓您直接在瀏覽器和行動應用程式中執行文字到文字的 LLM, 無需向遠端伺服器發送提示,即可產生文字、摘要文件或回答問題。 LiteRT 社群發布的模型已採用相容格式,因此您無需進行冗長的自訂轉換步驟,即可直接從您的應用程式套件或本機儲存中提供這些模型。
配置 LLM 推理任務時,您可以透過一些核心選項來控制其行為,例如: modelPath (LiteRT 模型在您的專案中的位置), maxTokens (單次調用的總輸入和輸出令牌數), topK (在每個生成步驟中考慮多少個候選令牌), temperature (隨機性與決定論) randomSeed (為了實現可複現的生成),以及可選的回呼函數 resultListener 以及 errorListener 用於異步使用。
除了基本的模型生成之外,該 API 還支援在多個模型之間進行選擇,並應用 LoRA 適配器來實現自訂行為。 因此,您可以提供一個緊湊的基礎模型,外加幾個針對不同領域(例如,客戶支援、摘要或程式碼審查)進行調整的 LoRa 頭,並在支援 GPU 的裝置上於運行時動態切換它們。
選擇並使用開放式LLM家庭(Gemma和朋友)
對於設備端和輕量級部署而言,像 Gemma 系列和緊湊型 Gemma-2 變體這樣的小型開放式車型尤其具有吸引力。 因為它們在能力和資源需求之間取得了切實可行的平衡。
Gemma-3n E2B 和 E4B 是專為硬體資源有限的情況而設計的, 透過選擇性參數激活,每個標記僅激活一部分參數。實際上,這既能保證模型擁有數十億參數的質量,又能將「有效」參數數量控制在 2 億或 4 億左右,這對於行動 GPU 和瀏覽器環境來說更易於管理。
Gemma-3 1B 是一個更精簡的選擇,它以 LiteRT 就緒格式打包了大約 10 億個開放權重。 (如 .task 以及 .litertlm適用於 Android 和 Web。當使用 LLM 推理 API 部署時,通常需要在 CPU 和 GPU 後端之間進行選擇,並確保 maxTokens 與模型中內建的上下文長度相匹配,並保持 numResponses 在網頁端設定為 1,以獲得可預測的效能。
Gemma-2 2B 在同尺寸等級中實現了卓越的推理質量,同時保持了足夠小的尺寸,使其能夠廣泛應用。 並且為設備端助理或專用領域代理提供了一個強大的基準,尤其是在與 LoRA 適配器和仔細評估相結合時。
將 PyTorch LLM 轉換為 LiteRT 並打包
如果您是從 PyTorch 生成模型開始,您可以使用 LiteRT Torch Generative 工具將其轉換為與 MediaPipe 相容的 LiteRT 工件。 它處理圖轉換、量化和簽名導出,這是高效設備端推理所必需的。
整體工作流程如下:下載 PyTorch 檢查點,執行 LiteRT Torch 生成式轉換以產生 .tflite 然後建立一個任務包,將此模型檔案與分詞器參數和元資料組合起來。打包腳本(通過) mediapipe.tasks.python.genai.bundler) 接受一個配置對象,其中包括 TFLite 路徑、SentencePiece 分詞器、起始標記和停止標記以及所需的輸出檔案名稱。
由於這種轉換會執行針對 CPU 的最佳化,並且可能會佔用大量內存,因此通常需要一台至少配備 64 GB 內存的 Linux 機器。 此外,您還需要從 PyPI 安裝正確版本的 MediaPipe 以取得打包腳本。輸出結果是一個獨立的任務包,您的 Android 或 Web 應用程式可以透過 LLM 推理 API 使用該任務包,而無需編寫額外的黏合程式碼。
在打包配置中,您可以指定所有運行時關鍵元素,例如分詞器模型、控制標記和輸出路徑。 這樣,最終的工件就包含了端到端推理所需的所有部分,保持部署的可重現性,並使得在 CI/CD 中測試各種版本變得更加容易。
LoRa客製化:從訓練到設備端推理
LoRa 不僅僅是一種訓練技巧;你還需要仔細考慮如何在推理堆疊中表示和載入這些低秩轉接器。 尤其是當你想要選擇性地將它們應用於GPU支援的裝置上時。
在訓練過程中,您通常會依賴像 PEFT 這樣的函式庫來定義受支援架構(例如 Gemma 或 Phi-2)的 LoRA 配置。 將適配器指向僅與注意力相關的模組。對 Gemma 來說,這通常意味著封裝 q_proj, k_proj, v_proj 以及 o_proj對於 Phi-2,常見的模式是調整注意力投射加上主密集層。排名 r in LoraConfig 控制新增的新參數的數量,從而控制適配器的表達能力。
在對資料集進行微調後,產生的檢查點將儲存為 adapter_model.safetensors 該文件僅包含 LoRA 權重。要將其推送到 MediaPipe 管道,您需要使用 MediaPipe 轉換器將適配器轉換為 LoRA 專用的 TFLite 文件,並傳遞一個參數。 ConversionConfig 其中包括基本模型選項、GPU 後端(此處 LoRA 支援僅限 GPU)、LoRA 檢查點路徑、所選排名和輸出 TFLite 檔案的名稱。
轉換步驟會產生兩個平面緩衝區:一個用於凍結的基礎LLM,一個用於LoRA覆蓋層。 兩者都是推理時必需的。例如,在 Android 上,您可以透過指向來初始化 LLM 推理任務。 modelPath 到基礎模型工件和 loraPath 新增至 LoRA TFLite 文件,以及典型的生成參數,例如 maxTokens, topK, temperature 以及 randomSeed.
從應用程式開發者的角度來看,運行 LoRa 增強模型是透明的:你仍然需要調用 generateResponse() 或其非同步變體,但其底層 LoRA 權重會調節注意力,從而提供特定領域的行為,而無需發布一個龐大的、完全微調的模型。
LLM溫度與實際解碼行為
在眾多解碼超參數中,溫度是最直接影響LLM模型「創造性」或「保守性」的因素。 因為它會在生成過程中重新調整下一個詞元的機率分佈。值為 1.0 時使用原始分佈;小於 1 的值會使分佈更加銳利,高機率詞元會更加突出;而大於 1 的值會使分佈更加平緩,低機率詞元也會有更大的機會。
在較低溫度(例如 0.1-0.2)下,該模型的行為幾乎是確定性的。 對於相同的提示,傳回非常相似的輸出結果,並且傾向於安全、不出人意料的答案。這在法律摘要、醫療報告或財務說明等監管嚴格的場景中尤其理想,因為在這些場景中,一致性、清晰度和事實依據比文風更為重要。
0.7-0.9 左右的適中溫度往往是聊天機器人和助手的最佳溫度範圍,既能聽起來像真人,又能保持正常運作。 注入足夠的變化以避免重複回答,同時通常也能保持連貫性。許多對話產品都遵循這一原則,並將語調變化與最大輸出詞數和安全過濾器等限制條件結合。
接近 2.0 的極高溫度會使模型更容易產生不連貫或離題的生成結果。 這在腦力激盪中或許有趣,但在關鍵工作流程中卻很少適用。一如既往,您需要將溫度與其他採樣參數(top-k、top-p、重複懲罰)結合起來調整,並透過系統評估來驗證其影響,而不能僅依靠直覺。
為什麼嚴格的法學碩士評鑑不容商榷
隨著各組織將LLM嵌入到從醫療保健日程安排到法律分診和供應鏈規劃等各種工作流程中, 糟糕的輸出代價會迅速攀升──想想那些虛假的診斷、帶有偏見的建議,或是大規模傳播的有害訊息。因此,評估不能是事後補救或一次性的基準測試;它必須成為人工智慧系統文化和生命週期的一部分。
LLM評估的核心在於系統地衡量模型在四個維度上的表現:準確性、效率、可信度和安全性。 此方法結合了定量指標和人工判斷。如果運用得當,它可以幫助開發人員和利害關係人清晰了解不同領域和使用者群體中的優勢、劣勢、故障模式以及適用性。
這些優勢涵蓋了技術堆疊的多個層面:您可以提高原始模型效能,發現並減輕有害偏差,驗證答案是否基於現實,並驗證多語言和特定領域行為是否符合預期。 同時追蹤這些屬性如何隨著您進行微調、更新提示或推出新模型版本而改變。
由於同一個 LLM 可以用於從輕鬆聊天到高風險決策支援的各種用途,因此您的評估策略必須與業務目標和風險承受能力緊密相關。 而不是僅依賴通用排行榜或眾包分數。
LLM效能評估的關鍵應用
評估的一個顯而易見的用途是監控和改進基準性能:模型理解指令、解釋上下文以及檢索或組合相關資訊的能力如何。 根據使用者實際發送的提示類型,您可以將特定任務的指標與針對特定領域的資料集結合,以追蹤一段時間內的進度。
另一個關鍵領域是偏見檢測和緩解,因為訓練資料可能編碼了社會偏見,這些偏見會體現在產生的輸出結果中。 製作不公平、片面或歧視性內容。定期使用精心設計的提示和標籤的範例進行評估,有助於發現這些問題,並透過資料整理、優化和安全政策,逐步減少有害行為。
真實值比較是指將模型輸出與已驗證的事實或預期答案配對。 對每一代結果進行正確性、完整性和相關性標記。無論您使用人工標註還是自動事實核查和基於檢索的驗證,此過程都會揭示模型出現錯誤、遺漏關鍵細節或高估其置信度的頻率。
模型比較是另一個實際應用:當您在不同的LLM系列或變體之間進行選擇時, 你應該對候選方案執行相同的評估測試,以找出哪個方案能夠針對你的特定工作負載和領域,在準確性、延遲、成本和安全性之間取得最佳平衡,而不是依賴通用的基準排名。
法學碩士的評估架構與指標
企業級評估很少依賴單一數字;相反,你需要建立一套針對你的任務量身定制的框架和指標工具包。 在適當情況下,將情境感知測試、人工回饋、使用者體驗訊號和標準化基準相結合。
針對特定情境的評估會詢問輸出結果是否真正符合您的領域、語氣和風險狀況, 例如,學校部署的聊天機器人模型會受到檢查,以確保其避免有害內容、錯誤訊息和帶有偏見的語言;而零售聊天機器人則更多地根據問題解決率、語氣和產品相關性來評判。典型的評估指標包括相關性、問答準確率、BLEU 和 ROUGE 評分、毒性評級以及幻覺出現頻率。
使用者驅動評價通常被認為是黃金標準,它將人工審閱者納入評估流程,對回應的連貫性、實用性、禮貌性和安全性進行評分。 這對於自動評分容易忽略的細微問題尤其有價值。缺點是成本和時間,尤其是在規模化應用時,因此通常會將人工審核與自動分診結合。
UI/UX 指標透過專注於使用者如何體驗系統而不是系統在基準測試中的得分來完善整體情況。 追蹤使用者滿意度、挫折感、感知回應時間以及模型從錯誤或誤解中恢復的流暢程度。這些訊號直接與業務關鍵績效指標(KPI)相關,例如使用者留存率和任務成功率。
MT-Bench、AlpacaEval、MMMU 或 GAIA 等通用比較基準提供了標準化的問答集,用於衡量廣泛的能力。 但它們本質上與領域無關。它們非常適合進行高層次的健全性檢查和跨模型比較,但必須輔以反映實際用例和資料的評估。
模型級與系統級LLM評估
區分評估裸模型和評估圍繞該模型構建的完整系統是很有用的。 因為許多現實世界的問題都源自於編排動作、檢索管道或安全層,而不僅僅是基礎 LLM 權重。
模型級評估著重於推理、連貫性、多語言處理或知識覆蓋範圍等一般能力, 通常使用諸如 MMLU 之類的廣泛基準測試或自訂測試集,以在多種場景下測試模型。這些分數可以幫助你選擇基礎模型以及應該在哪些方面微調。
另一方面,系統級評估衡量的是整個應用程式在其實際環境和用例中的效能。 包括檢索元件、工具呼叫、 多智能體模式防護機制、快取和業務邏輯。這裡的指標可能包括檢索準確率、端到端任務成功率、特定領域的精確度以及用戶滿意度,從而讓您對生產環境中的行為有一個真實的了解。
實際上,這兩種觀點都是必要的:以模型為中心的測試驅動基礎研發和架構決策; 而以系統為中心的測試則支援快速迭代、使用者體驗優化以及與使用者期望和監管要求的一致性。
在線與線下LLM評估
另一個關鍵因素是評估是在受控環境下離線進行,還是在真實生產流量下在線上進行。 每種模式都有其獨特的優點和缺點。
離線評估使用固定資料集、合成提示或影子流量來測試模型,然後再讓模型接觸真實使用者。 確保基準效能達到最低標準,安全過濾器能夠捕捉明顯問題,並在發布前偵測到回歸問題。這就是您的發布前關卡,通常在持續整合 (CI) 管線中實現自動化。
線上評估能夠捕捉模型在真實使用者輸入、約束條件、負載模式和極端情況下的表現。 即時追蹤用戶滿意度、升級率、事件報告以及不同流量模式的效能等指標。尤其與 A/B 測試結合使用時,可以根據實際業務結果比較提示資訊、超參數或模型版本,效果更為顯著。
成熟的方案將這兩種方法結合起來:離線測試起到安全網和預警系統的作用; 線上實驗指導精細調整,並確保優化真正轉化為更好的用戶體驗和降低營運風險。
最佳實踐:LLMOps、真實世界測試和豐富的指標套件
要大規模地負責任地管理LLM,你需要類似DevOps的LLMOps實踐。 強調自動化、協作和持續交付,但以數據、模型和評估為中心。這通常會將資料科學家、機器學習工程師和維運團隊聚集在一起,圍繞著共享的工具和流程開展工作,例如: 組成代理團隊.
LLMOps平台可自動執行模型訓練和部署,監控品質和偏差,並將評估步驟直接整合到CI/CD管道中。 這樣一來,對資料、提示或程式碼的每一次變更都會觸發一套標準化的測試。其結果是迭代速度更快,生產環境的意外情況也更少。
真實世界評估——將模型置於真實用戶或逼真的模擬器面前——對於發現奇怪、意想不到的情況至關重要。 尤其對於開放式的語言互動而言。受控的實驗室測試可以驗證穩定性和基本功能,但混亂的、人為生成的提示會暴露出越獄嘗試、含糊不清的措辭和任何精心整理的數據集都無法預料到的特殊情況。
多樣化的指標體係是避免過度依賴單一指標(例如 BLEU 或困惑度)的關鍵。 因此,您的儀表板應該追蹤一致性、流暢性、事實性、相關性、上下文理解、延遲、吞吐量和安全性指標。您的觀察範圍越廣,就越有可能及早發現問題。
專注於客製化人工智慧解決方案的顧問公司和工程合作夥伴可以幫助企業端到端地嵌入這些實踐。 從建立評估管道並將其整合到 CI/CD 中,到強化雲端部署、實施安全審查以及建立將模型行為直接與業務指標連結起來的儀表板。
基準測試LLM:一個實用的五步驟流程
結構化的基準測試流程可以幫助您從臨時實驗過渡到可重複的、數據驅動的決策。 尤其是在比較多個模型、配置或微調策略時。
一個完善的五步驟流程通常首先選擇一組評估任務,這些任務既能反映簡單用例,也能反映複雜用例; 確保在與您的應用程式相關的所有難度和領域覆蓋範圍內測試模型。
接下來,你需要整理或建立盡可能客觀公正且具代表性的資料集。 捕捉真實使用者查詢、領域特定術語、極端情況,甚至是對抗性提示。這是所有其他評估層賴以生存的基礎。
然後配置模型網關和微調或自適應機制, 例如 LoRa 轉接器,以便您的基準測試能夠反映模型的實際部署方式。這包括使上下文長度、採樣參數和安全中間件與生產環境設定保持一致。
環境搭建完成後,就可以針對每項任務使用適當的指標組合進行評估了。 從語言建模能力的困惑度到摘要的 ROUGE,從創造力的多樣性分數到相關性和連貫性的人類判斷。
最後,進行詳細分析並啟動迭代回饋循環。 將見解回饋給 即時工程資料清理、微調策略和護欄配置,使基準測試成為一個持續改進的循環,而不是一次性報告。
LLM 系統的可觀測性:超越 HTTP 延遲
傳統的 API 監控——統計錯誤數量和測量平均 HTTP 延遲——對於 LLM 工作負載來說遠遠不夠。 因為許多最具破壞性的故障模式發生在佇列、GPU 記憶體或令牌流行為中,遠早於 Web 層發出警報。
LLM 可觀測性取決於結合指標、軌跡、日誌、剖面、合成測試和 SLO 的多重訊號管道, 為您提供詳細的因果視圖,了解時間都花在了哪裡,哪些內容最先達到飽和,以及隨著負載模式的變化,使用者體驗是如何演變的。
從指標層面來看,你不僅要關心每秒請求數和 p99 延遲,還要關心首次令牌時間 (TTFT)、令牌間延遲、佇列長度、批次大小、每秒令牌數、GPU 使用率和 KV 快取壓力。 因為這些都是串流媒體介面吞吐量崩潰和用戶可見速度變慢的主要指標。
透過 OpenTelemetry 進行檢測的追蹤數據,將單一請求的所有階段(路由、檢索、工具呼叫、安全過濾器、模型執行和後處理)拼接在一起。 這樣,當延遲飆升或輸出下降時,您可以準確找出罪魁禍首是速度慢的向量儲存、過載的 GPU 還是行為異常的中間件元件。
日誌對於人工調試和審計仍然很重要,但在 LLM 規模下,必須精心設計日誌。 避免使用無限制的高基數屬性(例如原始提示、會話 ID 或完整的工具參數),而是專注於結構化的低基數元數據,例如模型系列、端點、區域、狀態代碼和粗粒度的結果類型。
LLM 的指標藍圖和語意約定
不同的LLM服務框架會使用略有不同的指標名稱,但其基本概念是一致的。 OpenTelemetry 的 GenAI 語意約定正開始將它們統一到一個可移植的模式中。
像 Hugging Face TGI、vLLM 和 NVIDIA Triton 這樣的系統通常會提供帶有端對端請求持續時間直方圖的 Prometheus 端點, 產生令牌和成功請求的計數器、佇列大小和批次大小的計量器,以及與使用者體驗直接相關的專用令牌處理時間和 TTFT 指標。
GPU 遙測同樣重要,像 NVIDIA 的 DCGM 適配器這樣的導出器會公開 Prometheus 指標,用於獲取利用率、記憶體使用情況和其他底層訊號。 您可以利用它來預測記憶體不足事件,決定何時擴展,並了解不同的工作負載如何給加速器帶來壓力。
OpenTelemetry 的 GenAI 語意約定定義了核心指標的標準名稱,例如: gen_ai.server.request.duration, gen_ai.server.time_to_first_token, gen_ai.server.time_per_output_token 以及 gen_ai.client.token.usage這樣,您就可以一次進行檢測,然後將遙測資料路由到各種後端(Prometheus、Mimir、商業 APM),而無需每次都重新編寫程式碼。
除了這些原始指標之外,你還可以疊加儀表板和 PromQL 查詢,以計算百分位數、錯誤率、飽和度指標和成本代理。 為您的 LLM 叢集建立一個即時控制面板,維運團隊可以實際使用該面板來制定容量和可靠性決策。
遙測資料管路設計:拉取、推播與收集器
一個強大的LLM可觀測性堆疊通常結合基於拉取的指標抓取和基於推送的OTLP遙測, 與 Prometheus 等工具的內核相契合,同時利用 OpenTelemetry 收集器進行追蹤和日誌記錄。
Prometheus 仍然採用拉取優先模式:伺服器和導出器暴露了一個 /metrics 端點,Prometheus 會依配置的時間間隔抓取資料。這對於推理伺服器(TGI、vLLM、Triton)、GPU 導出器、節點導出器和 k6 負載測試都非常適用,為您提供統一的容量指標工作流程。
對於由受監控的應用程式產生的追蹤資訊、日誌以及有時產生的指標,通常使用 OTLP 推送。 將 span 和結構化事件傳送到一個或多個 OpenTelemetry 收集器,這些收集器執行批次、取樣、編輯和匯出到 Tempo、Jaeger、Loki、Elastic APM 或商業平台等後端。
部署模式通常會混合使用節點級 DaemonSet、邊車收集器和集中式閘道。 DaemonSet 負責處理主機增強和共享處理,邊車為操作敏感提示的工作負載提供隔離,網關收集器則強制執行組織範圍內的採樣和路由策略。
在整個流程中,您必須密切注意採樣策略和標籤基數。 使用基於尾部的採樣來保留有趣的軌跡(速度慢、容易出錯),同時丟棄噪聲,並設計指標標籤,以免意外地導致可觀測性基礎設施的記憶體和 CPU 使用量激增。
LLM可觀測性的工具模式
開源可觀測生態系統十分廣泛,而LLM工作負載則處於多種工具的交會點。 各工具都有各自的優勢,適用於特定的訊號類型:Prometheus 用於指標,Tempo 或 Jaeger 用於軌跡,Loki 或 Elastic 用於日誌,Pyroscope 用於連續分析。
Grafana 通常充當該技術堆疊頂部的統一 UI 層。 提供可在一處查詢多個資料來源、視覺化 SLO、將指標與追蹤和日誌關聯起來的儀表板,並為管理 LLM 密集型服務的 SRE 團隊提供值班工作流程支援。
對於偏好託管解決方案的組織而言,Grafana Cloud、Datadog、New Relic 或 Amazon Managed Prometheus 等服務提供託管後端。 接受 OTLP 或 Prometheus 遠端寫入流量,並處理擴展、保留和高可用性,但代價是供應商鎖定和按攝取量定價模式。
無論選擇哪種組合,首要任務都是保持一致性:盡可能圍繞 OpenTelemetry 進行標準化,並為 GenAI 指標和跨度採用語義約定。 將可觀測性設定視為核心 LLM 架構的一部分,而不是事後附加的。
部署、擴充、安全性和故障排除
在 Kubernetes 中為 LLM 部署可觀測性通常從諸如 kube-prometheus-stack 之類的預設軟體包以及 OpenTelemetry 收集器開始, 而更簡單的實驗可以使用 Docker Compose 或基本的虛擬機器配置來運作。關鍵在於,發現、保留和儀錶板的設計從一開始就要經過周密考慮,而不是在事件發生過程中暫時拼湊。
隨著流量成長,您需要從 Prometheus 預設的本地保留(約 15 天)轉向透過 Mimir、Thanos、Cortex 等系統或託管的 Prometheus 服務進行長期儲存。 並採用像 Tempo 這樣的追蹤後端,以便在需要時從 span 產生指標。像 Loki 或 Elastic 這樣的日誌儲存需要精心設計標籤才能保持經濟實惠。
對於LLM應用程式而言,安全性和隱私性尤其重要,因為提示和輸出可能包含個人或機密資料。 OpenTelemetry 和 Prometheus 的文檔都明確警告過,遙測資料可能會洩漏敏感資訊。您可以透過以下方式降低這些風險:預設對提示和回應進行編輯、在收集器處過濾屬性、強制執行基於角色的存取控制 (RBAC) 和嚴格的網路邊界,以及設定符合監管要求的保留策略。
當儀錶板顯示錯誤或訊號遺失時,你需要從資料攝取健康狀況和模式不匹配開始調試,一直到採樣和基數問題。 檢查抓取成功率、OTLP 端點、標籤名稱、直方圖使用情況、取樣規則和 GPU 匯出器狀態,直到找出根本原因並加以解決。
將所有這些要素結合起來——微調策略、嚴格評估、設備端部署和深度可觀測性—— 正是這一點使得 LLM 從實驗原型轉變為可靠的、可審計的系統,組織可以在敏感領域信任這些系統,同時也能快速發展以跟上人工智慧研究的步伐和不斷變化的業務需求。