2024-07-19 14:39 來源:電競虎
在 NVIDIA RTX AI 工作站和 NVIDIA GeForce RTX 系統(tǒng)上本地運行生成式 AI 的 NVIDIA NIM 微服務。
編者注:本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術更加簡單易懂,從而解密 AI,同時向 NVIDIA RTX PC 和工作站用戶展示全新硬件、軟件、工具和加速特性。
在快速發(fā)展的人工智能領域中,生成式 AI 正在激發(fā)人們的想象力并變革各行各業(yè)。使這一切成為可能的是一位默默無聞的幕后英雄:微服務架構。
現(xiàn)代 AI 應用的基礎模組
微服務已成為一種強大的架構,從根本上改變了人們設計、構建和部署軟件的方式。
微服務架構可將應用分解為一系列可獨立部署的松散耦合服務。每個服務都負責一項特定的功能,并通過明確定義的應用編程接口 (API) 與其他服務通信。這種模塊化方法與傳統(tǒng)的一體化架構形成了鮮明的對比。在傳統(tǒng)的一體化架構中,所有功能都會捆綁至單個緊密集成的應用中。
解除各個服務之間的耦合后,團隊可以同時處理不同的組件,進而加速開發(fā)流程。同時,團隊還能針對各個服務單獨推出更新,避免對整個應用造成影響。開發(fā)者可以專注于構建和改進特定服務,進而提高代碼質量并加快解決問題的速度。這種專業(yè)化開發(fā)讓開發(fā)者能夠成為其特定領域的專家。
服務可以根據(jù)需求獨立擴展,從而優(yōu)化資源利用率并提高系統(tǒng)的整體性能。此外,不同的服務可以使用不同的技術,這讓開發(fā)者能夠為各個特定任務選擇最合適的工具。
完美搭配:微服務與生成式 AI
微服務架構具有可擴展性、增強的模塊化屬性和靈活性,因而特別適用于開發(fā)生成式 AI 應用。
AI 模型(尤其是大語言模型)需要用到大量的計算資源。微服務能夠讓這些資源密集型組件實現(xiàn)高效擴展,同時避免對整個系統(tǒng)產(chǎn)生影響。
生成式 AI 應用通常涉及多個步驟,例如數(shù)據(jù)預處理、模型推理和后處理。借助微服務,每個步驟都可以獨立開發(fā)、優(yōu)化和擴展。此外,隨著 AI 模型和技術的快速發(fā)展,微服務架構可使集成新模型及替換現(xiàn)有模型的過程變得更加輕松,同時不會中斷整個應用的運行。
NVIDIA NIM:簡化生成式 AI 部署
隨著人們對 AI 賦能應用的需求不斷增長,開發(fā)者在有效部署和管理 AI 模型方面面臨著挑戰(zhàn)。
NVIDIA NIM 推理微服務可將模型作為經(jīng)優(yōu)化的容器提供,以便在云端、數(shù)據(jù)中心、工作站、臺式電腦和筆記本電腦中部署這些模型。每個 NIM 容器都包含經(jīng)過預訓練的 AI 模型和所有必要的運行時組件,可讓用戶輕松地將 AI 功能集成到應用中。
NIM 可簡化集成過程,且兼具生產(chǎn)就緒性和靈活性,為希望引入 AI 功能的應用開發(fā)者提供了一種具有變革性的開發(fā)方法。開發(fā)者可以專注于構建應用,而無需擔心數(shù)據(jù)準備、模型訓練或自定義會過于復雜,這是因為 NIM 推理微服務針對性能進行了優(yōu)化,自帶運行時優(yōu)化,還支持行業(yè)標準 API。
觸手可及的 AI:工作站和 PC 上的 NVIDIA NIM
構建企業(yè)級生成式 AI 應用面臨著諸多挑戰(zhàn)。雖然云托管模型 API 可以幫助開發(fā)者著手進行開發(fā),但與數(shù)據(jù)隱私、安全性、模型響應延遲、準確性、API 成本和擴展相關的問題往往會阻礙應用投入生產(chǎn)環(huán)境。
在支持 NIM 的工作站上,開發(fā)者可以安全訪問各種模型和經(jīng)過性能優(yōu)化的推理微服務。
通過消除與云托管 API 相關的延遲、成本和合規(guī)性問題并降低模型部署的復雜性,開發(fā)者可以專注于應用開發(fā),進而加速生產(chǎn)就緒型生成式 AI 應用的交付,并在數(shù)據(jù)中心和云端實現(xiàn)流暢的自動擴展及性能優(yōu)化。
最近宣布可作為 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系統(tǒng)上本地運行,為個人開發(fā)者提供先進的語言模型功能,使其無需云資源的支持即可進行本地測試和實驗。借助本地運行的 NIM,開發(fā)者可以直接在其工作站上創(chuàng)建復雜的檢索增強生成 (RAG) 項目。
本地 RAG 是指完全在本地硬件上部署的 RAG 系統(tǒng),這種 RAG 不依賴基于云的服務或外部 API。
開發(fā)者可以在配備一個或多個 NVIDIA RTX 專業(yè)旗艦級 GPU 的工作站或 NVIDIA RTX 系統(tǒng)上使用 Llama 3 8B NIM,完全立足于本地硬件構建端到端 RAG 系統(tǒng)。這種設置讓開發(fā)者能夠充分利用 Llama 3 8B 的強大功能,以確保獲得高性能和低延遲。
通過在本地運行整個 RAG 工作流,開發(fā)者可以始終保持對其數(shù)據(jù)的完全掌控,以確保隱私和安全。如果開發(fā)者正在構建的應用需要做到實時響應,同時還需兼具高準確性 (例如客戶支持聊天機器人、個性化內(nèi)容生成工具和交互式虛擬助手),那么對于開發(fā)者來說,上述方法特別有用。
混合式 RAG 可結合本地和基于云的資源來優(yōu)化 AI 應用的性能和靈活性。借助 NVIDIA AI Workbench,開發(fā)者可以開始使用混合式 RAG Workbench 項目,這是一個示例應用,可提供靈活的資源分配方法,既能用于在本地運行向量數(shù)據(jù)庫和嵌入模型,又能用于在云端或數(shù)據(jù)中心使用 NIM 執(zhí)行推理。
開發(fā)者可借助這種混合式設置平衡本地和云資源之間的計算負載,以便優(yōu)化性能和降低成本。例如,向量數(shù)據(jù)庫和嵌入模型可以托管在本地工作站,以確保實現(xiàn)快速的數(shù)據(jù)檢索和處理,而計算強度更大的推理任務則可以分流至基于云的強大 NIM 推理微服務。這種靈活性讓開發(fā)者能夠流暢地擴展應用,以適應不同水平的工作負載,同時確保性能始終都能保持在同一水平。
借助在 RTX PC 和工作站上運行的生成式 AI,NVIDIA ACE NIM 推理微服務可創(chuàng)建栩栩如生的數(shù)字人、AI 非玩家角色 (NPC) 和用于客戶服務的交互式虛擬形象。
ACE NIM 語音推理微服務 (包括 Riva 自動語音識別、文本轉語音和神經(jīng)網(wǎng)絡機器翻譯) 可提供準確的轉錄、翻譯和逼真的聲音。
NVIDIA Nemotron 小型語言模型是一種智能 NIM,其中包含用于盡可能減少內(nèi)存使用量的 INT4 量化功能。此外,它還支持角色扮演和 RAG 用例。
而 ACE NIM 外觀推理微服務則包括 Audio2Face 和 Omniverse RTX,可用于創(chuàng)建栩栩如生的超逼真動畫視覺效果。這有助于提供更具吸引力的游戲角色,為玩家?guī)砀觾?yōu)秀的沉浸式體驗;還能在用戶與虛擬客服人員互動時,提供更加令人滿意的體驗。
深入探究 NIM
隨著 AI 的不斷發(fā)展,快速部署并擴展 AI 功能的能力將變得越來越重要。
NVIDIA NIM 微服務可助力實現(xiàn)突破性創(chuàng)新,為 AI 應用開發(fā)的新時代奠定了基礎。無論是構建新一代 AI 賦能游戲、開發(fā)先進的自然語言處理應用,還是創(chuàng)建智能自動化系統(tǒng),用戶都可以使用這些觸手可及的強大開發(fā)工具。
如何開始使用:
- 前往 ai.nvidia.com 體驗 NVIDIA NIM 微服務并與之交互。
- 加入 NVIDIA 開發(fā)者計劃,以便免費訪問 NIM,并將其用于 AI 賦能應用的測試和原型設計。
- 購買 NVIDIA AI Enterprise 許可證(帶有為期 90 天的免費生產(chǎn)部署評估期),并使用 NVIDIA NIM 在云端或數(shù)據(jù)中心部署自托管 AI 模型。
生成式 AI 正改變游戲、視頻會議和各種交互體驗。訂閱《解碼 AI》時事通訊,了解最新動態(tài),掌握后續(xù)進展。
本篇文章的創(chuàng)作者為電競虎,轉載請注明出處使用微信掃描上方二維碼
打開網(wǎng)頁后點擊右上角分享按鈕