常青指南 P0 核心頁 官方來源 + 開發文件 + 編輯室技術判斷

AI 硬體規格怎麼看?NPU / GPU / TOPS / VRAM / RAM 一次拆解

AI 電腦、本地 AI 主機與 AI 工作站不能只看 TOPS。這篇用白話拆 NPU、GPU、TOPS、VRAM、RAM、unified memory、token 與 model size。

直接答案

AI 硬體規格要先看工作負載,再看 NPU、GPU、TOPS、VRAM、RAM、unified memory、token 與 model size。NPU 偏向低功耗本機推論與系統 AI;GPU 偏向高吞吐生成、創作、開發與較大的模型;TOPS 是理論 AI 算力指標,不等於實際速度;VRAM、RAM 與 unified memory 常決定模型能不能放得下、context 能不能拉長、RAG 資料能不能穩定處理。

本文重點

  • TOPS 是有用線索,但不是完整答案;它通常只描述特定精度與特定加速器的理論運算能力。
  • NPU、GPU、CPU 不是互相取代,而是分工:NPU 省電,GPU 吞吐高,CPU 負責系統流程與一般運算。
  • 要跑本地模型,記憶體比很多人想像更關鍵;VRAM、RAM、unified memory 會影響模型大小、context 長度與多工。
  • token、context window、KV cache 會把文字長度變成實際記憶體壓力,所以規格判斷不能只看模型參數量。
  • AI 電腦、本地 AI 主機、AI 工作站要看的規格權重不同;先定用途,再比規格。

先講結論:AI 規格要先看任務,不要先看數字

AI 硬體規格最常見的誤會,是把所有問題都變成「TOPS 越高越好」「GPU 越大越好」「記憶體越多越好」。這些數字當然重要,但它們不是同一種能力,也不能直接相加。

比較好的判斷順序是:

  1. 你要跑什麼 AI 任務?
  2. 這個任務是在本機、公司內部,還是雲端跑?
  3. 模型多大?輸入文字多長?是否需要長 context?
  4. 需要處理多少資料、圖片、影片或文件?
  5. 需要一個人用,還是多人穩定使用?
  6. 軟體是否真的支援你的 NPU、GPU 或加速框架?
  7. 散熱、電力、噪音、維護和成本能不能接受?

這頁的目的不是做規格排行榜,而是讓你看懂 AI 電腦、本地 AI 主機、AI 工作站和企業導入時,規格背後到底在限制什麼。

一張表先看懂:NPU、GPU、TOPS、VRAM、RAM 各自回答什麼問題?

規格 / 元件 它主要回答的問題 常見用途 常見誤解
NPU 本機 AI 推論能不能低功耗、長時間、貼近系統執行? 會議降噪、影像增強、系統 AI、背景推論、部分 Copilot+ PC 功能 有 NPU 就能跑大型模型。實際上大型生成或開發工作常仍需要 GPU、記憶體與軟體支援。
GPU 大量平行運算、生成式 AI、影像影片和模型推論能不能跑得快? AI 繪圖、影片生成、LLM 推論、開發測試、深度學習框架 GPU 強就所有 AI 任務都最適合。低功耗常駐任務可能更適合 NPU 或 CPU。
TOPS AI 加速器理論運算能力大約在哪個等級? 比較 NPU 或 AI 加速器的理論能力,常見於 Copilot+ PC、AI PC 行銷與規格表 TOPS 越高,所有 AI 功能越快。實際還要看精度、模型、記憶體、軟體和散熱。
VRAM GPU 能放多少模型、資料、中間狀態和生成工作負載? 本地 LLM、Stable Diffusion / ComfyUI、影片、3D、模型開發與推論 只看 GPU 算力,不看 VRAM。模型放不下時,再高算力也可能被迫降速或無法跑。
RAM 系統能不能處理多工、資料、索引、工具鏈與部分模型工作? RAG 文件處理、向量資料庫、瀏覽器、IDE、資料前處理、多工工作流 RAM 和 AI 沒關係。其實資料處理、RAG、開發工具和 unified memory 平台都很吃 RAM。
unified memory CPU、GPU、AI 加速器能不能共享同一個記憶體池? Apple silicon、部分本地 AI 主機或整合式 AI 平台的模型推論與資料處理 unified memory 等於獨立 VRAM。它很有價值,但仍要看頻寬、可用容量、軟體支援與平台限制。
token / context 模型一次能讀多少文字、對話、文件片段與中間狀態? 長文件摘要、RAG、客服知識庫、程式碼問答、長對話 只看模型參數量,不看輸入長度。context 越長,記憶體與延遲壓力也會變大。

真正選 AI 硬體時,不是把這些欄位各自看最高,而是看你的任務在哪一欄最容易撞牆。

NPU 是什麼?它讓 AI 電腦變省電,但不是萬能晶片

NPU 是 Neural Processing Unit,白話說就是專門為神經網路推論設計的加速器。Microsoft 的 Copilot+ PC 文件把 NPU 放在很核心的位置,因為 Windows 需要一個低功耗、高效率、可長時間執行本機 AI 的硬體層。

NPU 適合的事情通常有幾個特徵:

  • 任務常駐或頻繁執行。
  • 每次運算不一定超大,但要省電。
  • 需要和作業系統、相機、麥克風、會議、搜尋或本機助理結合。
  • 不希望每個小 AI 功能都把 GPU 拉到高功耗。

所以 NPU 很適合 AI 電腦的日常體驗,例如會議背景、眼神校正、語音降噪、圖片或文字的本機小模型推論。

但 NPU 也有邊界。你不能看到 NPU 就以為它能取代高階 GPU,也不能只看 TOPS 就判斷它能跑多大的 LLM。大型模型、本地生成、影像影片、開發測試、多人推論服務,通常還是會更依賴 GPU、VRAM、RAM 和軟體框架。

GPU 是什麼?它是本地生成和 AI 開發的主力

GPU 原本以圖形運算起家,但因為它擅長大量平行運算,所以也成為深度學習和生成式 AI 的核心硬體之一。NVIDIA 的 RTX AI PC 論述,重點就在 GPU、Tensor Core、AI 軟體工具與本地模型工作流。

GPU 對以下任務特別重要:

  • AI 繪圖、影像生成、影片生成。
  • 本地 LLM 推論與聊天工具。
  • ComfyUI、Stable Diffusion、視覺模型。
  • 開發者測試模型、embedding、推論框架。
  • 需要高吞吐或批次處理的工作。

不過 GPU 不是越強就越適合每個人。GPU 會帶來電力、散熱、噪音、體積和價格問題。日常辦公、雲端 AI、輕量本機功能,不一定需要高階 GPU;但本地生成、工作站、企業 AI 主機,GPU 和 VRAM 就會變成關鍵。

TOPS 怎麼看?它是線索,不是體驗保證

TOPS 是 Trillions of Operations Per Second,意思是每秒兆次運算。AI PC 規格常用 TOPS 表示 NPU 或 AI 加速器能力,例如 Copilot+ PC 會把高效能 NPU 當作硬體門檻之一。

TOPS 的價值是:它讓你大概知道某個 AI 加速器是否進入新一代 AI PC 的等級。

但 TOPS 的限制也很明顯:

  • 不同廠商、不同精度、不同測試條件,不一定能直接比較。
  • TOPS 不告訴你模型能不能放進記憶體。
  • TOPS 不告訴你軟體是否真的會用到這顆 NPU。
  • TOPS 不告訴你散熱降頻後的長時間表現。
  • TOPS 不告訴你資料前處理、RAG 檢索、硬碟、網路或權限流程的瓶頸。

所以比較 AI 電腦時,可以看 TOPS,但不要只看 TOPS。更好的問法是:

這個 TOPS 對我正在使用的軟體、模型和工作流,有沒有實際加速?

VRAM、RAM、unified memory:本地 AI 常卡在記憶體,不只卡在算力

很多人第一次跑本地模型時,會以為速度問題都來自算力。實際上,模型放不下、context 太長、圖片太大、同時開太多工具,常常先撞到記憶體。

VRAM:GPU 的工作空間

VRAM 通常是獨立 GPU 使用的高速記憶體。對本地 AI 來說,它會影響:

  • 模型能不能完整載入 GPU。
  • 能不能使用較大的圖片解析度或批次。
  • 能不能使用較長 context。
  • 生成式 AI 工具能不能保持速度。
  • 多個模型或多個工作流能不能同時運作。

如果模型或工作資料放不進 VRAM,系統可能改用系統 RAM、CPU 或分段處理,結果通常是速度大幅下降,甚至無法執行。

RAM:不是只有文書多工才需要

系統 RAM 對 AI 也很重要。尤其在本地 AI 和企業 RAG 場景,RAM 會被以下事情吃掉:

  • 文件擷取、清理、切分。
  • embedding 與向量索引處理。
  • 資料庫、瀏覽器、IDE、容器和後台服務。
  • 長文件摘要、客服知識庫、內部搜尋。
  • 沒有獨立 VRAM 或採 unified memory 的模型工作。

所以企業本地 AI 主機不是只看 GPU。你也要看 RAM、儲存、I/O、網路、備份和維護。

unified memory:共享記憶體池,但不是魔法

unified memory 的概念,是 CPU、GPU 和其他加速器可以共享同一個記憶體池。Apple silicon 的本地 AI、部分桌邊 AI 主機與整合式 AI 平台,都會強調這種設計對模型工作有幫助。

它的優點是資料不用一直在不同記憶體之間搬來搬去,也可能讓某些模型使用更大的共享容量。

但它不是魔法。你仍然要看:

  • 可用容量是不是足夠。
  • 記憶體頻寬夠不夠。
  • 軟體框架是否能有效使用。
  • 系統和其他 App 也會占用同一個記憶體池。
  • 多人服務時是否有穩定性和隔離需求。

所以 unified memory 可以是本地 AI 的優勢,但不能簡化成「等於超大 VRAM」。

token、context window、model size:為什麼文字長度也會吃硬體?

AI 硬體規格頁如果只講 NPU / GPU / 記憶體,還是不完整。因為 LLM 的工作負載不是只由模型大小決定,也由輸入和輸出長度決定。

token 是什麼?

token 可以理解成模型處理文字的基本單位。中文、英文、標點、空格、程式碼都會被切成 token。你丟越多文件、越長對話、越長 prompt,token 數就越高。

token 數會影響:

  • 輸入處理時間。
  • 回答延遲。
  • context window 是否裝得下。
  • 推論時需要保存的中間狀態。
  • RAG 系統一次能放多少引用段落。

context window 是什麼?

context window 是模型一次能「看見」的上下文長度。長 context 對法律文件、技術文件、客服知識庫、程式碼倉庫和企業 RAG 很有吸引力,但它不是免費的。

context 拉長後,硬體壓力通常會增加。Hugging Face 的 KV cache 文件也把快取策略視為推論效率的重要部分,因為模型在生成時需要保存前面 token 的中間狀態,才能繼續產生後續文字。

model size 是什麼?

model size 可以指模型參數量,也可以指模型檔案實際大小。一般來說,模型越大,越可能需要更多記憶體與算力。但大模型不代表每個任務都更好。

例如企業 RAG 常見問題不是模型不夠大,而是:

  • 文件品質太亂。
  • 權限沒有整理。
  • 檢索找不到正確段落。
  • 回答沒有引用來源。
  • 評測問題沒有設計。
  • 資料更新流程不穩。

這時候,盲目換更大模型或更貴硬體,不一定能解決問題。

AI 電腦、本地 AI 主機、AI 工作站,規格權重要怎麼分?

使用情境 最該先看 次要但重要 常見錯誤
日常 AI 電腦 NPU、RAM、電池、散熱、系統 AI 支援 GPU、儲存、螢幕、麥克風與相機品質 只看 AI 標籤,不看實際 Windows / App 是否支援本機加速。
RTX AI PC / 創作電腦 GPU、VRAM、驅動、創作軟體支援 RAM、CPU、儲存速度、散熱 只看遊戲效能,不看 AI 工具需要的 VRAM 和框架支援。
AI 工作站 GPU 等級、VRAM、RAM、長時間穩定性 多 GPU、擴充、電源、機箱散熱、Linux / Windows 工具鏈 把工作站當成一般高階 PC,忽略長時間推論、資料與維護需求。
企業本地 AI 主機 VRAM / RAM / unified memory、多人吞吐、網路、權限、監控 GPU、儲存、備份、日誌、部署和維護流程 先買硬體再想用途,或把 PoC 電腦直接當全公司服務。
RAG / 文件問答 資料品質、索引、權限、引用、RAM、儲存 模型大小、GPU、embedding 效能、評測流程 以為換更大模型就能解決資料混亂與權限問題。

如果要用一句話整理:

AI 電腦看 NPU 與日常體驗,RTX AI PC 看 GPU 與 VRAM,AI 工作站看長時間重負載,本地 AI 主機看多人服務、記憶體、資料與維護流程。

選規格前先問這 10 題

如果你正在評估 AI 電腦、AI 工作站或本地 AI 主機,先不要急著問「哪一台最強」。先問這 10 題比較有效:

  1. 我主要用雲端 AI,還是真的需要本機 / 公司內部執行?
  2. 我要跑的是文字、圖片、影片、語音、程式碼,還是文件搜尋?
  3. 模型是小模型、開源 LLM、影像模型,還是企業內部 RAG?
  4. 單人使用,還是多人同時使用?
  5. context 需要多長?會不會丟很多 PDF、合約、技術文件?
  6. 敏感資料能不能上雲?如果不能,資料和權限怎麼管?
  7. 軟體是否支援 NPU、GPU 或特定加速框架?
  8. 長時間運作時散熱、噪音、電力是否可接受?
  9. 未來要不要擴充 RAM、VRAM、儲存或多 GPU?
  10. 如果系統回答錯,誰負責驗證、修正和更新資料?

這些問題回答完,規格才會有意義。否則很容易被某個單一數字牽著走。

常見誤解

誤解一:有 NPU 就是好 AI 電腦

NPU 很重要,但它不是全部。AI 電腦還要看 GPU、RAM、儲存、散熱、電池、作業系統、應用支援和你真正要跑的工作負載。

誤解二:TOPS 可以直接比較所有產品

TOPS 可以當線索,但不同精度、不同晶片、不同軟體路徑不一定能直接比較。尤其 NPU TOPS、GPU TOPS、整機 AI 算力常被放在不同語境,不要混在同一張表裡硬比。

誤解三:VRAM 不夠就用 RAM 補

有些工具可以把部分工作移到系統 RAM,但通常會犧牲速度。對本地生成、LLM 推論和影像工作來說,VRAM 不夠常會直接限制模型選擇與體驗。

誤解四:模型越大,企業導入越成功

企業導入更常卡在資料、權限、流程和評測。模型大有時有幫助,但如果資料錯、檢索錯、引用錯,結果仍然不可靠。

誤解五:本地 AI 主機就是買一台高階電腦

本地 AI 主機是內部服務,不只是單機。你還要看使用者管理、權限、API、備份、更新、監控、日誌、資安和維護責任。

下一步怎麼讀?

如果你剛開始理解 AI 硬體,先看「AI 硬體是什麼?」建立大圖。 如果你正在研究 AI PC,接著看「AI 電腦是什麼?」分清 Copilot+ PC、RTX AI PC 和一般電腦。 如果你在想公司資料不上雲,就看「本地 AI 是什麼?」和「企業本地 AI 導入指南」。 如果你要買更重的機器,再看「AI 工作站 / 本地 AI 主機怎麼選?」。

最後記住一件事:

AI 規格不是比誰數字最大,而是比誰最適合你的模型、資料、工作流和維護能力。

常見問題

TOPS 越高,AI 電腦就一定越快嗎?

不一定。TOPS 是理論 AI 運算能力,通常和特定資料精度、特定加速器、特定測試條件有關。實際速度還要看模型大小、記憶體、散熱、驅動、應用是否真的使用該 NPU 或 GPU。

NPU 和 GPU 哪一個比較重要?

看任務。NPU 對低功耗、常駐、系統級本機 AI 很重要;GPU 對生成式 AI、影像、影片、開發測試、較大模型與高吞吐工作更重要。AI 電腦通常兩者都要看,只是權重不同。

VRAM 要看多少才夠?

不能只用固定數字回答,因為要看模型大小、量化方式、context 長度、批次大小、是否同時跑多個模型,以及工具會不會把部分資料放到系統記憶體。原則是:本地生成和模型推論越重,VRAM 越容易成為瓶頸。

RAM 對 AI 有差嗎?

有。RAM 影響多工、資料前處理、RAG 文件處理、向量資料庫、瀏覽器和開發工具。沒有獨立 VRAM 或採 unified memory 的平台,系統記憶體還可能直接影響模型可用容量。

unified memory 可以當成 VRAM 嗎?

不能完全等同。unified memory 讓 CPU、GPU、神經網路加速器等元件能共享同一套記憶體池,對某些本地 AI 工作很有價值;但頻寬、軟體支援、可用容量和模型載入方式仍會影響體驗。

model size 是什麼?參數越多一定越好嗎?

model size 通常指模型參數規模或實際檔案大小。參數越多不一定越適合本地跑,因為它需要更多記憶體、算力與延遲成本。企業 RAG、文件問答或分類任務,有時較小模型加好資料流程會更穩。

token 和硬體規格有什麼關係?

token 是模型處理文字的基本單位。輸入越長、context window 越大,推論時需要保存的中間狀態越多,記憶體與延遲壓力也會上升。所以長文件、長對話、RAG 回答不只看模型大小,也要看 context 和 KV cache。

企業本地 AI 主機該先看 GPU 還是記憶體?

要一起看。GPU 影響吞吐和速度,VRAM / RAM / unified memory 影響模型、context、資料索引和多人使用能不能放得下。企業導入還要看權限、網路、備份、監控、維護和使用者數量,不只是硬體單機分數。

來源與查證

  1. Microsoft Learn:Copilot+ PCs developer guide
  2. Microsoft Learn:Windows ML overview
  3. Microsoft:Windows 11 specifications
  4. Intel:What Is an AI PC?
  5. NVIDIA:GeForce RTX AI PCs
  6. NVIDIA Technical Blog:Demystifying AI and AI Terms
  7. Apple Developer:Core ML overview
  8. Hugging Face Transformers:KV cache strategies
  9. OpenAI Help:What are tokens and how to count them?

下一步閱讀