日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

詳解智能座艙芯片算力評估

2024-12-31 17:25:48·  來源:汽車電子與軟件  作者:張慧敏  
 

#03GPU 算力評估   

在智能座艙中,顯示子系統(tǒng)特別依賴 GPU 的處理能力,同時視覺感知子系統(tǒng)也在一定程度上需要借助 GPU 進行計算。合理評估 GPU 的算力資源,從而判斷 SoC 是否能支持座艙內(nèi)各種顯示屏的運作,是一項至關(guān)重要的任務。

3.1 GPU 架構(gòu)原理

從本質(zhì)上看,GPU是一種基于 SIMD(單指令多數(shù)據(jù))架構(gòu)的計算機系統(tǒng)。與 CPU 相比,GPU 配備了更多的處理單元,并具備更高的并行處理能力,因此能更迅速地處理大量的圖形和 圖像數(shù)據(jù)。GPU 之所以適用于并行計算,主要是因為它擁有出色的并行處理能力和豐富的計算單元。GPU 的設(shè)計初衷在于提升數(shù)據(jù)吞吐量,也就是在一次操作中處理盡可能多的數(shù)據(jù)。為此,GPU 采用了流式并行計算模式,能對每個數(shù)據(jù)行進行獨立的并行計算。這種獨特的設(shè)計使得 GPU 在處理大規(guī)模并發(fā)計算任務方面表現(xiàn)出色,例如矩陣乘法、圖像處理以及深度學習等。

為了理解 GPU 的工作原理,我們首先需要探究計算機系統(tǒng)是如何繪制并渲染圖形的。

從本質(zhì)上講,計算機所能處理的圖形圖像都是由一系列的頂點(Vertex)和紋理(Texture)數(shù)據(jù)組成的。這些頂點會構(gòu)成多個三角形,當在這些三角形上貼合相應的紋理后,就能輸出用戶可見的最終圖像。這一過程CPU和GPU的協(xié)同工作,以實現(xiàn)最高效率。圖2給出了一個圖形繪制的流程示意圖:

圖片


圖 11-2  圖形繪制流程示意圖


繪制過程涉及 CPU、GPU和DPU的共同參與。圖形繪制和渲染的核心在于GPU管線(GPUPipeline)。這里的“管線”并非指CPU的并發(fā)流水線,而是用來比喻GPU處理圖像的流程,就像物品在生產(chǎn)流水線上從一個環(huán)節(jié)傳遞到下一個環(huán)節(jié),直到全部加工完成。在GPU管線中,圖像數(shù)據(jù)經(jīng)歷一系列的處理步驟,最終輸出我們所需的圖形圖像。表 7 詳細列舉 了 GPU 管線的主要步驟。

表 7  GPU 管線繪制步驟說明


操作含義處理單元包含內(nèi)容Input Assembler輸入材質(zhì)CPUCPU 將需要渲染的紋理、材質(zhì)、貼圖等材料從外部存儲器復制到GPU 顯存中,以提升處理速度Vertex Shader頂點著色器GPU處理單個頂點的坐標以及相關(guān)參數(shù)(顏色、位置)Geometry Stage幾何處理階段GPU根據(jù)頂點信息生成圖元。在幾何階段,頂點著色器輸出的數(shù)據(jù)將進一步被處理,包括進行曲面細分、幾何著色、裁剪和屏幕映射等操作Viewport transform and Clipping視口變化和裁剪GPU讓畫面內(nèi)容適配實際的顯示分辨率,如果顯示的三角形超出了可視范圍,那么也會被裁剪Tiling分塊處理GPU將整塊屏幕渲染劃分成小塊處理,適合移動GPU 架構(gòu)Triangles & Rasterization光柵化處理GPU根據(jù)頂點信息,繪制三角形矢量圖形,并將矢量圖形格式表示的圖像轉(zhuǎn)換為位圖以進行顯示

Early-Z Test

提前深度測試GPU測算每個分塊緩沖區(qū)域是否被遮擋,提前去掉被遮擋的緩沖區(qū),只處理最頂層應該顯示的區(qū)塊Pixel Shader像素著色器GPU使用渲染的紋理和材質(zhì),對每一個像素位圖進行填充Raster Operations光柵操作GPU圖形渲染的最后一個階段,經(jīng)過深度測試和顏色混合后,將生成的像素數(shù)據(jù)寫入GPU的幀緩沖區(qū)(framebuffer),然后傳送給DPU 進行輸出Blender/Output Merger圖層混合與輸出合并DPUDPU負責實現(xiàn)多圖層的合并處理,并輸出到顯示接口中,如DP 或DSI 接口


在這些操作中,光柵化(Rasterization)和像素著色器(Pixel Shader)是需要進行大量并行處理的關(guān)鍵步驟,要求有足夠多的運算單元來執(zhí)行。因此,在 GPU 的微架構(gòu)中,這些處理單元被設(shè)計為多線程計算單元,以便能夠同時處理多個任務,如圖 3 所示。

圖片

圖 3  GPU 并行計算處理單元架構(gòu)

從圖 3 中可以看到 GPU 內(nèi)部存在一個執(zhí)行隊列。GPU 從這個隊列中獲取指令,并將其發(fā)送到 SIMD 單元執(zhí)行。SIMD 單元能夠調(diào)度并執(zhí)行一條計算指令,同時對多路數(shù)據(jù)進行處理。計算結(jié)果通過數(shù)據(jù)緩存最終寫入系統(tǒng)內(nèi)存。顯然,這種架構(gòu)非常適合進行矩陣運算或大量像素的并行計算,因為它能夠高效地處理批量數(shù)據(jù),從而提升整體計算性能。

3.2 GPU 性能評估標準

在智能座艙中,GPU 最主要的用途還是負責圖形計算和渲染的任務,它與桌面?zhèn)€人計算機,智能手機的用途一樣,首先要考慮圖形圖像顯示的流暢度與畫面的精美程度。更進一步, GPU 還要承擔 3D 游戲的運行任務,當 GPU 運行壓力達到閾值之后,屏幕畫面的卡頓、掉幀、降頻等問題會嚴重影響座艙用戶的體驗。

因此,需要針對 GPU 的性能進行評估,而評估標準既是系統(tǒng)架構(gòu)工程師選擇座艙 SoC 的參考要素之一,也是改進 GPU 性能和評估座艙應用是否可行的依據(jù)。

1. GFLOPS

人們習慣使用 GFLOPS(Giga FLoating-point Operations Per Second,每秒 10 億次浮點運算)作為 GPU 的算力評價標準。我們首先來看一下如何計算GFLOPS。

1 )獲取 GPU 的核心數(shù)量:核心數(shù)量是指 GPU 中包含的核心數(shù)量,通常以個為單位??梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測工具來獲取核心數(shù)量。

2)獲取每個核心的頻率:每個核心的頻率指的是 GPU 的時鐘頻率,通常 MHz(以兆赫)為單位。可以通過查詢 GPU 的規(guī)格或使用 GPU 檢測工具來獲取每個核心的頻率。

3 )獲取每個核心的浮點運算能力:每個核心的浮點運算能力是指每個核心能夠執(zhí)行的浮點運算數(shù)量,通常以 MFLOPS(百萬次浮點運算每秒)或 GFLOPS(十億次浮點運算每秒)為單位。由于核心運行頻率的不同,同一個 GPU 架構(gòu)可能具有不同的峰值運算能力??梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測工具來獲取每個核心的浮點運算能力。

4)計算 GPU 的 GFLOPS:使用以下公式計算 GPU 的 GFLOPS:

GFLOPS = 每個核心的浮點運算能力× 核心數(shù)量

我們以英偉達的 GeForce 8800 Ultra 芯片為例,計算它的 GFLOPS 參數(shù)值。

在 GeForce 8800 Ultra 芯片中,每個SP( Stream Processor,流處理器)核心運行的時鐘頻率是 1.5GHz( 1.5 × 109 個時鐘周期)。

據(jù)英偉達公開資料顯示,1 個SP核心在1 個時鐘周期內(nèi)的雙精度(FP32)的計算能力為3FLOPS,那么 1 個SP核心的峰值算力為:3FLOPS×1.5GHz=4.5GFLOPS Ultra芯片的每個SM(多線程流多處理器)包含8 個SP 核心,SM 運行的峰值算力是4.5 ×8=36 GFLOPS。

GeForce 8800 GPU 一共擁有14個SM ,GPU 的總算力為:36 × 14 = 504 GFLOPS 。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25