詳解智能座艙芯片算力評估

2024-12-31 17:25:48· 來源：汽車電子與軟件作者：張慧敏

在此公式中，α 代表神經(jīng)元的輸出，g(·) 是激活函數(shù)，wi 是第 i 個輸入信號的權(quán)重，xi 代表第 i 個輸入信號，而 b 為偏置參數(shù)。從公式中可以看出，NPU 所支持的計算模式以乘法和加法為主，因此需要大量的乘加單元（MAC）來構(gòu)建運算矩陣。

為了用硬件實現(xiàn)這種乘加的計算關(guān)系，谷歌 TPU（張量處理單元，NPU 的一種）給出的系統(tǒng)架構(gòu)框圖如圖 5 所示。

圖 5 谷歌第 1 代 TPU 架構(gòu)框圖

從圖 5 中，我們可以看到谷歌的 TPU 設(shè)計思路。

TPU 指令通過 PCIe 接口從主機（CPU）發(fā)送至 TPU 的指令緩沖區(qū)。同時，NPU 會從主存儲器中讀取已訓(xùn)練好的權(quán)重參數(shù)，并將這些數(shù)據(jù)送往矩陣乘法單元進行乘法運算。由于運算量龐大，此處的數(shù)據(jù)帶寬高達 30GB/s ，以滿足高速數(shù)據(jù)傳輸?shù)男枨蟆?/span>

矩陣乘法單元是 TPU 的核心組件，它包含 256×256 個乘加單元，能夠?qū)?8 位整型數(shù)進行乘加運算。每次乘加運算的結(jié)果會暫存于矩陣單元下方的累加器（Accumulator）中。這個矩陣乘法單元的運算能力非常強大，每個周期可以輸出多達 64000 個計算結(jié)果。

累加器負責處理加法運算的結(jié)果。這些結(jié)果在經(jīng)過激活函數(shù)處理后，會被傳輸?shù)綒w一化 / 池化單元進行進一步處理，并最終存儲在統(tǒng)一緩存中。如果需要，這些中間結(jié)果還會通過脈動陣列再次進入矩陣乘法單元，參與下一輪的運算。

最終的計算結(jié)果會通過 PCIe 接口傳送回主機，從而完成整個計算過程。這種高效的數(shù)據(jù)處理和傳輸機制使得 TPU 在處理大規(guī)模矩陣運算時具有出色的性能表現(xiàn)。

2. NPU 特性需求

因此，一個典型的 NPU，如果需要支持 CNN 和 RNN ，應(yīng)該具備以下特點。

硬件架構(gòu)：NPU 的硬件架構(gòu)必須高效且靈活，能夠同時滿足 CNN 和 RNN 的計算需求。這意味著它不僅要支持卷積運算、池化運算、激活函數(shù)等 CNN 常用的操作，還要能夠處理 RNN 特有的長序列記憶和時間維度信息傳遞。

流管理：為了有效處理圖像和文本等多種類型的數(shù)據(jù)流，NPU 需要具備先進的數(shù)據(jù)流管理能力。這包括高效的內(nèi)存管理和數(shù)據(jù)調(diào)度策略，以確保各種類型的數(shù)據(jù)能順暢地進行計算和傳輸。優(yōu)化后的數(shù)據(jù)流管理不僅能提升處理速度，還能降低功耗和延遲。

并行計算能力：為了應(yīng)對復(fù)雜的計算任務(wù)，NPU 需要具備強大的并行計算能力。這包括支持多線程、多核心的計算方式，以便同時處理多個計算任務(wù)，從而提高整體計算效率。通過并行計算，NPU 能更快速地完成大規(guī)模數(shù)據(jù)處理和分析任務(wù)。

混合精度計算：在保證計算精度的前提下，為了提高計算效率，NPU 應(yīng)采用混合精度計算技術(shù)。這意味著在某些場景下，可以使用低精度的整數(shù)運算來加速計算過程，而在需要高精度的場合則使用浮點運算。這種靈活的計算方式能在保持精度的同時，最大限度地提高計算速度。

數(shù)據(jù)類型優(yōu)化：為了進一步提升計算效率，NPU 還應(yīng)采用數(shù)據(jù)類型優(yōu)化策略。例如，可以使用定點數(shù)代替浮點數(shù)進行計算，或者使用較低精度的數(shù)據(jù)類型來替代高精度數(shù)據(jù)類型。這些優(yōu)化措施能有效減少計算時間和功耗，使 NPU 在處理各種任務(wù)時更加高效和節(jié)能。

NPU 中與并行計算緊密相關(guān)的核心組件是計算單元。這些計算單元專門負責執(zhí)行神經(jīng)網(wǎng)絡(luò)的各類計算任務(wù)，如卷積、激活函數(shù)處理、池化等關(guān)鍵操作。計算單元通常由多個 PE （Processing Element，處理單元）構(gòu)成，每個 PE 都獨立負責處理一部分計算任務(wù)，從而實現(xiàn)任務(wù)的并行處理。

在 NPU 的架構(gòu)中，PE 被視為最基本的計算單元。每個 PE 能夠完成單個神經(jīng)元或神經(jīng)元小組的計算操作，這種設(shè)計有助于提高計算的并行性和效率。為了協(xié)調(diào)各個 PE 之間的工作，它們之間通過互聯(lián)網(wǎng)絡(luò)（ Interconnect Network）進行高效的數(shù)據(jù)傳輸和協(xié)作。這種網(wǎng)絡(luò)確保了數(shù)據(jù)能夠在不同的 PE 之間快速流動，從而支持復(fù)雜的神經(jīng)網(wǎng)絡(luò)計算任務(wù)的完成。

由于 PE 在 NPU 中扮演著至關(guān)重要的角色，其性能和數(shù)量直接決定了 NPU 的整體計算能力和處理效率。換句話說，一個具備高性能計算單元的 NPU 將能夠更快速地處理神經(jīng)網(wǎng)絡(luò)任務(wù)，提升整體的系統(tǒng)性能。

4.2 NPU 性能評估標準

在許多 NPU 的設(shè)計實現(xiàn)中，PE 經(jīng)常被稱為 MAC（即乘加單元）。因為神經(jīng)網(wǎng)絡(luò)的基本計算過程涉及權(quán)重與輸入的乘積以及這些乘積結(jié)果的累加。具體來說，每個神經(jīng)元的輸出是其輸入與相應(yīng)權(quán)重的乘積之和，再加上一個偏置項，最后可能還會經(jīng)過一個激活函數(shù)。在這個過程中，乘法和加法是兩種最基本的數(shù)學(xué)運算。

NPU 的算力單位被稱為TOPS（TeraOperationsPerSecond），它表示每秒可以執(zhí)行的萬億次操作，是衡量NPU性能的重要指標。由于NPU的計算單元采用并行計算的方式，理論上來說，我們只需要使用乘加單元的數(shù)目，再與NPU的時鐘頻率相乘，就可以得到單位時間內(nèi)的操作次數(shù)，也就計算出了TOPS的值。

在評估 TOPS 時，還需要考慮操作類型和操作精度。

操作類型：在神經(jīng)網(wǎng)絡(luò)計算中，常見的操作包括矩陣乘法、加法、激活函數(shù)等。這些操作在計算復(fù)雜度和資源需求上有所不同。例如，矩陣乘法可能涉及大量的乘法和加法操作，而激活函數(shù)主要是比較和邏輯操作。

操作精度：操作精度對計算資源和時間的影響也很大。整型（如 Int8 、Int16 ）和浮點型（如 FP32 、FP16）數(shù)據(jù)在計算速度、內(nèi)存占用和精度方面各有優(yōu)劣。一般來說，較低精度的數(shù)據(jù)類型計算速度更快，但可能犧牲一定的準確性。

現(xiàn)在，我們以谷歌的 TPU 芯片為例，嘗試計算它的算力標準。

1 ）在谷歌 TPU 的矩陣乘法單元中，含有 256×256 個乘加單元，因此它有 64000 個 MAC 單元。

2）每個 MAC 單元在一個周期內(nèi)將完成 1 次乘法和 1 次加法運算，計為 2 次操作。

3 ）假設(shè)谷歌 TPU 的執(zhí)行時鐘頻率為 1GHz，那么每秒的計算次數(shù)是 2 ×64000 × 1GHz。要轉(zhuǎn)換為 TOPS，還需要將這個數(shù)值轉(zhuǎn)換為“萬億”，因此，需要除以1012。

4）在執(zhí)行精度上，假設(shè)推理模型按 INT8（ 8 位整型）類型的精度來計算，剛好與 TPU 的矩陣乘法單元精度相同，因此 TPU 的算力公式為：

5）如果推理模型按 FP16（ 16 位浮點數(shù)）類型的精度來計算，由于每個 MAC 單元能處理的數(shù)據(jù)量從 8bit 改為 16bit，因此需要 2 個 MAC 才能執(zhí)行 1 次計算，總計算次數(shù)將減少一半。TPU 的算力公式為：

#05主存儲器性評估

在 SoC 的性能評估中，存儲器性能是一個至關(guān)重要的環(huán)節(jié)。在基于馮 ·諾伊曼架構(gòu)的計算機體系中，所有的指令和數(shù)據(jù)都存儲在存儲器中，因此存儲器的訪問速度對計算機整體性能有著顯著影響。舉例來說，根據(jù) CPU 的五級流水線體系，CPU 首先需要從存儲器中取指令，然后取數(shù)據(jù)，最后將計算結(jié)果寫回存儲器。如果存儲器的訪問速度過慢，CPU 流水線中的指令周期將不得不與存儲器的訪問速度相匹配，這會大大降低計算機的整體性能。這就像水桶理論所揭示的道理一樣，水桶的容量取決于最短的那塊木板，而存儲器的性能往往就是影響 SoC 整體性能的“短板”。因此，在 SoC 設(shè)計和性能評估中，必須充分重視存儲器的性能優(yōu)化。

5.1 主存儲器架構(gòu)原理

計算機中存儲器的設(shè)計問題可以歸納為三個主要方面：容量、速度和價格。程序員往往期望存儲器具有大容量、高速度和低成本，然而，實際上這三個要素往往是相互矛盾的，難以實現(xiàn)完美的平衡。這 3 個要素之間的關(guān)系可描述為：

存取時間越短，則平均每位的存儲單元對應(yīng)的存儲器成本越大。

存儲容量越大，平均每位對應(yīng)的存儲器成本越小。

存儲容量越大，存取時間就越長。

現(xiàn)代計算機系統(tǒng)通常采用層次化的存儲結(jié)構(gòu)（如緩存、主存、輔存等），以便在不同層次上平衡容量、速度和成本。這種層次化的設(shè)計允許系統(tǒng)在保持足夠性能的同時，也能提供足夠大的存儲容量。

1. 存儲器層次結(jié)構(gòu)

根據(jù)計算機系統(tǒng)結(jié)構(gòu)原理，智能座艙 SoC 的架構(gòu)體系中有可能使用到的存儲器類型如表8 所示。

表8 座艙 SoC 所使用的存儲器類型

存儲器存儲器類型用途器件位置存取速度每位成本容量寄存器D 型觸發(fā)器用于CPU內(nèi)部操作數(shù)的運算與存儲CPU 內(nèi)部，流水線內(nèi)最快極高極小緩存SRAM（靜態(tài)隨機存儲器）指令和數(shù)據(jù)緩存CPU 內(nèi)部，流水線外極快高小DDR 主存DRAM（動態(tài)隨機存儲器）主存儲器SoC 片外，由高速總線連接快中中Nand 閃存ROM（只讀存儲器）外部存儲器SoC 片外，由低速總線連接慢低大

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：澤爾榮膺襄陽達安“優(yōu)秀供應(yīng)商”獎
上一篇：最小速比2.05，德納推出AdvanTEK 40 Pro車橋

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

詳解智能座艙芯片算力評估

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

詳解智能座艙芯片算力評估

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將