日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

詳解智能座艙芯片算力評估

2024-12-31 17:25:48·  來源:汽車電子與軟件  作者:張慧敏  
 
在此公式中,α 代表神經(jīng)元的輸出,g(·) 是激活函數(shù),wi  是第 i 個輸入信號的權(quán)重,xi 代表第 i 個輸入信號,而 b 為偏置參數(shù)。從公式中可以看出,NPU 所支持的計算模式以乘法和加法為主,因此需要大量的乘加單元(MAC)來構(gòu)建運算矩陣。

為了用硬件實現(xiàn)這種乘加的計算關(guān)系,谷歌 TPU(張量處理單元,NPU 的一種)給出的 系統(tǒng)架構(gòu)框圖如圖 5 所示。

圖片

圖 5  谷歌第 1 代 TPU 架構(gòu)框圖

從圖 5 中,我們可以看到谷歌的 TPU 設(shè)計思路。

TPU 指令通過 PCIe 接口從主機(CPU)發(fā)送至 TPU 的指令緩沖區(qū)。同時,NPU 會從主存儲器中讀取已訓(xùn)練好的權(quán)重參數(shù),并將這些數(shù)據(jù)送往矩陣乘法單元進行乘法運算。由于運算量龐大,此處的數(shù)據(jù)帶寬高達 30GB/s ,以滿足高速數(shù)據(jù)傳輸?shù)男枨蟆?/span>

矩陣乘法單元是 TPU 的核心組件,它包含 256×256 個乘加單元,能夠?qū)?8 位整型數(shù)進行乘加運算。每次乘加運算的結(jié)果會暫存于矩陣單元下方的累加器(Accumulator)中。 這個矩陣乘法單元的運算能力非常強大,每個周期可以輸出多達 64000 個計算結(jié)果。

累加器負責處理加法運算的結(jié)果。這些結(jié)果在經(jīng)過激活函數(shù)處理后,會被傳輸?shù)綒w一化 / 池化單元進行進一步處理,并最終存儲在統(tǒng)一緩存中。如果需要,這些中間結(jié)果還會通過脈動陣列再次進入矩陣乘法單元,參與下一輪的運算。

最終的計算結(jié)果會通過 PCIe 接口傳送回主機,從而完成整個計算過程。這種高效的數(shù)據(jù)處理和傳輸機制使得 TPU 在處理大規(guī)模矩陣運算時具有出色的性能表現(xiàn)。


2. NPU 特性需求

因此,一個典型的 NPU,如果需要支持 CNN 和 RNN ,應(yīng)該具備以下特點。

硬件架構(gòu):NPU 的硬件架構(gòu)必須高效且靈活,能夠同時滿足 CNN 和 RNN 的計算需求。這意味著它不僅要支持卷積運算、池化運算、激活函數(shù)等 CNN 常用的操作,還要能夠處理 RNN 特有的長序列記憶和時間維度信息傳遞。

流管理:為了有效處理圖像和文本等多種類型的數(shù)據(jù)流,NPU 需要具備先進的數(shù)據(jù)流管理能力。這包括高效的內(nèi)存管理和數(shù)據(jù)調(diào)度策略,以確保各種類型的數(shù)據(jù)能順暢地進行計算和傳輸。優(yōu)化后的數(shù)據(jù)流管理不僅能提升處理速度,還能降低功耗和延遲。

并行計算能力:為了應(yīng)對復(fù)雜的計算任務(wù),NPU 需要具備強大的并行計算能力。這包括支持多線程、多核心的計算方式,以便同時處理多個計算任務(wù),從而提高整體計算效率。通過并行計算,NPU 能更快速地完成大規(guī)模數(shù)據(jù)處理和分析任務(wù)。

混合精度計算:在保證計算精度的前提下,為了提高計算效率,NPU 應(yīng)采用混合精度計算技術(shù)。這意味著在某些場景下,可以使用低精度的整數(shù)運算來加速計算過程,而在需要高精度的場合則使用浮點運算。這種靈活的計算方式能在保持精度的同時,最大限度地提高計算速度。

數(shù)據(jù)類型優(yōu)化:為了進一步提升計算效率,NPU 還應(yīng)采用數(shù)據(jù)類型優(yōu)化策略。例如, 可以使用定點數(shù)代替浮點數(shù)進行計算,或者使用較低精度的數(shù)據(jù)類型來替代高精度數(shù)據(jù)類型。這些優(yōu)化措施能有效減少計算時間和功耗,使 NPU 在處理各種任務(wù)時更加高效和節(jié)能。

NPU 中與并行計算緊密相關(guān)的核心組件是計算單元。這些計算單元專門負責執(zhí)行神經(jīng)網(wǎng)絡(luò)的各類計算任務(wù),如卷積、激活函數(shù)處理、池化等關(guān)鍵操作。計算單元通常由多個 PE (Processing Element,處理單元)構(gòu)成,每個 PE 都獨立負責處理一部分計算任務(wù),從而實現(xiàn)任務(wù)的并行處理。

在 NPU 的架構(gòu)中,PE 被視為最基本的計算單元。每個 PE 能夠完成單個神經(jīng)元或神經(jīng)元小組的計算操作,這種設(shè)計有助于提高計算的并行性和效率。為了協(xié)調(diào)各個 PE 之間的工作,它們之間通過互聯(lián)網(wǎng)絡(luò)( Interconnect Network)進行高效的數(shù)據(jù)傳輸和協(xié)作。這種網(wǎng)絡(luò)確保了數(shù)據(jù)能夠在不同的 PE 之間快速流動,從而支持復(fù)雜的神經(jīng)網(wǎng)絡(luò)計算任務(wù)的完成。

由于 PE 在 NPU 中扮演著至關(guān)重要的角色,其性能和數(shù)量直接決定了 NPU 的整體計算能力和處理效率。換句話說,一個具備高性能計算單元的 NPU 將能夠更快速地處理神經(jīng)網(wǎng)絡(luò)任務(wù),提升整體的系統(tǒng)性能。

4.2 NPU 性能評估標準

在許多 NPU 的設(shè)計實現(xiàn)中,PE 經(jīng)常被稱為 MAC(即乘加單元)。因為神經(jīng)網(wǎng)絡(luò)的基本計算過程涉及權(quán)重與輸入的乘積以及這些乘積結(jié)果的累加。具體來說,每個神經(jīng)元的輸出是其 輸入與相應(yīng)權(quán)重的乘積之和,再加上一個偏置項,最后可能還會經(jīng)過一個激活函數(shù)。在這個過程中,乘法和加法是兩種最基本的數(shù)學(xué)運算。

NPU 的算力單位被稱為TOPS(TeraOperationsPerSecond),它表示每秒可以執(zhí)行的萬億次操作,是衡量NPU性能的重要指標。由于NPU的計算單元采用并行計算的方式,理論上來說,我們只需要使用乘加單元的數(shù)目,再與NPU的時鐘頻率相乘,就可以得到單位時間內(nèi)的操作次數(shù),也就計算出了TOPS的值。

在評估 TOPS 時,還需要考慮操作類型和操作精度。

操作類型:在神經(jīng)網(wǎng)絡(luò)計算中,常見的操作包括矩陣乘法、加法、激活函數(shù)等。這些操作在計算復(fù)雜度和資源需求上有所不同。例如,矩陣乘法可能涉及大量的乘法和加 法操作,而激活函數(shù)主要是比較和邏輯操作。

操作精度:操作精度對計算資源和時間的影響也很大。整型(如 Int8 、Int16 )和浮點型(如 FP32 、FP16)數(shù)據(jù)在計算速度、內(nèi)存占用和精度方面各有優(yōu)劣。 一般來說,較低精度的數(shù)據(jù)類型計算速度更快,但可能犧牲一定的準確性。


現(xiàn)在,我們以谷歌的 TPU 芯片為例,嘗試計算它的算力標準。

1 )在谷歌 TPU 的矩陣乘法單元中,含有 256×256 個乘加單元,因此它有 64000 個 MAC 單元。

2)每個 MAC 單元在一個周期內(nèi)將完成 1 次乘法和 1 次加法運算,計為 2 次操作。

3 )假設(shè)谷歌 TPU 的執(zhí)行時鐘頻率為 1GHz,那么每秒的計算次數(shù)是 2 ×64000 × 1GHz。 要轉(zhuǎn)換為 TOPS,還需要將這個數(shù)值轉(zhuǎn)換為“萬億”,因此,需要除以1012。

4)在執(zhí)行精度上,假設(shè)推理模型按 INT8( 8 位整型)類型的精度來計算,剛好與 TPU 的 矩陣乘法單元精度相同,因此 TPU 的算力公式為:

圖片

5)如果推理模型按 FP16( 16 位浮點數(shù))類型的精度來計算,由于每個 MAC 單元能處理的數(shù)據(jù)量從 8bit 改為 16bit,因此需要 2 個 MAC 才能執(zhí)行 1 次計算,總計算次數(shù)將減少一半。TPU 的算力公式為:

圖片

#05主存儲器性評估


在 SoC 的性能評估中,存儲器性能是一個至關(guān)重要的環(huán)節(jié)。在基于馮 ·諾伊曼架構(gòu)的計算機體系中,所有的指令和數(shù)據(jù)都存儲在存儲器中,因此存儲器的訪問速度對計算機整體性能有著顯著影響。舉例來說,根據(jù) CPU 的五級流水線體系,CPU 首先需要從存儲器中取指令,然后取數(shù)據(jù),最后將計算結(jié)果寫回存儲器。如果存儲器的訪問速度過慢,CPU 流水線中的指令周期將不得不與存儲器的訪問速度相匹配,這會大大降低計算機的整體性能。這就像水桶理論所揭示的道理一樣,水桶的容量取決于最短的那塊木板,而存儲器的性能往往就是影響 SoC 整體性能的“短板”。因此,在 SoC 設(shè)計和性能評估中,必須充分重視存儲器的性能優(yōu)化。

5.1 主存儲器架構(gòu)原理

計算機中存儲器的設(shè)計問題可以歸納為三個主要方面:容量、速度和價格。程序員往往期望存儲器具有大容量、高速度和低成本,然而,實際上這三個要素往往是相互矛盾的,難以實現(xiàn)完美的平衡。這 3 個要素之間的關(guān)系可描述為:

存取時間越短,則平均每位的存儲單元對應(yīng)的存儲器成本越大。

存儲容量越大,平均每位對應(yīng)的存儲器成本越小。

存儲容量越大,存取時間就越長。


現(xiàn)代計算機系統(tǒng)通常采用層次化的存儲結(jié)構(gòu)(如緩存、主存、輔存等),以便在不同層次上平衡容量、速度和成本。這種層次化的設(shè)計允許系統(tǒng)在保持足夠性能的同時,也能提供足夠大的存儲容量。

1. 存儲器層次結(jié)構(gòu)

根據(jù)計算機系統(tǒng)結(jié)構(gòu)原理,智能座艙 SoC 的架構(gòu)體系中有可能使用到的存儲器類型如表8 所示。

表8   座艙 SoC 所使用的存儲器類型


存儲器存儲器類型用途器件位置存取速度每位成本容量寄存器D 型觸發(fā)器用于CPU內(nèi)部操作數(shù)的運算與存儲CPU 內(nèi)部,流水線內(nèi)最快極高極小緩存SRAM(靜態(tài)隨機存儲器)指令和數(shù)據(jù)緩存CPU 內(nèi)部,流水線外極快高小DDR 主存DRAM(動態(tài)隨機存儲器)主存儲器SoC 片外,由高速總線連接快中中Nand 閃存ROM(只讀存儲器)外部存儲器SoC 片外,由低速總線連接慢低大

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25