日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

無人駕駛AI芯片從設(shè)計到制造流程詳解

2021-10-29 20:10:51·  來源:北京市高級別自動駕駛示范區(qū)  作者:周彥武  
 
所謂AI芯片,就是深度學(xué)習(xí)加速器,目前所有的人工智能其算法在硬件層面最消耗計算資源的就是乘和累加運算,即卷積,分解到底層就是MAC(Multiply Accumulate)。
所謂AI芯片,就是深度學(xué)習(xí)加速器,目前所有的人工智能其算法在硬件層面最消耗計算資源的就是乘和累加運算,即卷積,分解到底層就是MAC(Multiply Accumulate)。實際卷積主要用在圖像分類或者說識別領(lǐng)域,無人駕駛中的行為預(yù)測主要是基于貝葉斯算法,行為決策目前多是決策樹算法,預(yù)測和決策這兩個領(lǐng)域分解到底層都是除法、乘法和加法,順序不固定。因此AI芯片無法加速,這些都需要高性能CPU才能解決問題。


上面就是一個卷積,第二個等號右邊每個括號里的系數(shù)構(gòu)成的序列 (14,34,14,4),實際上就是序列 (2,4) 和 (7,3,1) 的卷積。所謂AI算力就是每秒執(zhí)行多少萬億次指令,這些指令通常就是MAC運算的指令。


AI芯片的核心就是MAC運算單元,流程就是從內(nèi)存中讀取訓(xùn)練好的模型的濾波權(quán)重值和輸入數(shù)據(jù),兩者相乘,然后重復(fù)這個流程并將乘積累加,再寫入內(nèi)存。

設(shè)計一款數(shù)字芯片,流程基本上是確定市場定位、確定性能與功能目標即設(shè)計規(guī)格參數(shù)、架構(gòu)與算法設(shè)計、任務(wù)劃分、購買IP、RTL編碼與功能驗證即RTL仿真、綜合門級仿真、靜態(tài)時序分析與仿真。這是前端工序,后端是RTL轉(zhuǎn)門級網(wǎng)表文件、數(shù)據(jù)導(dǎo)入、布局規(guī)劃、單元布局、時鐘綜合樹、布線、物理驗證、版圖文件即GDSII交付晶圓代工廠。


前端流程

后端流程
 
也可以分為三級:

第一級行為級(Behavior Level):通過行為級算法描述數(shù)字系統(tǒng)。也就是邏輯構(gòu)思,人腦的思維流程。這一階段主要工具為C/C++/Matlab,熟悉這些工具的人很多,很好找;
第二級寄存器傳輸級(Register Transfer Level):在寄存器傳輸級,通過寄存器之間的數(shù)據(jù)傳輸進行電路功能設(shè)計,例如有限狀態(tài)機。工具是VHDL/Verilog/System Verilog,熟悉這些工具的人很少,這要求既要懂上層的邏輯結(jié)構(gòu),也要懂下層的電路實現(xiàn);

第三級門級(Gate level):數(shù)字系統(tǒng)按門級(AND,OR,NOT,NAND等)描述。通常不會進行門級設(shè)計,門級網(wǎng)表一般是通過邏輯綜合的輸出。RTL可以用Verilog或VHDL描述。實際上還有更細分的系統(tǒng)級(System Level)或功能模塊級(Functional Model Level)。

AI芯片自然是需要先進制程工藝,越先進越好,一般目前都必須選擇10納米以下,這個領(lǐng)域離不開EDA工具,10納米以下,Synopsys、Cadence和Mentor(Siemens EDA)市場占有率100%,前兩家是美國的,西門子自然是德國的,離開這三家,是無法設(shè)計出10納米以下芯片的。這些EDA工具非常昂貴,主要用在后端,對于初創(chuàng)企業(yè)來說后端所花的成本遠高于前端。
工序
仿真工具
IP Level RTL coding
Make file;仿真驗證工具,Cadence:Incisive,Synopsys:VCS,Mentor:QuestaSim
Logic Synthesis
邏輯綜合工具,Cadence:Genus,Synopsys:Design Compiler
形式驗證
形式驗證工具,Cadence:Conformal,Synopsys:Formality
STA(靜態(tài)時序分析)
靜態(tài)時序分析工具,Cadence:Tempus,Synopsys:Prme Time
PR版圖生成,自動布局布線
自動布線工具,Cadence:Innovus,Synopsys:IC Compiler
DRC/LVS
物理驗證工具,Cadence:Diva/dracula,Synopsys:Hercules,Mentor:Calibre
AI芯片大同小異,通常包含四個部分,標量運算、矢量或向量運算、張量運算、存儲處理。對于矢量運算和張量運算來說要提高算力就是增加運算單元數(shù)量,對芯片來說,這意味著芯片面積的增大,而芯片的主要成本就是晶圓片,與面積成正比,因此需要提高晶體管密度,盡量小的空間內(nèi)塞下更多的運算單元,也就是晶體管。這兩個領(lǐng)域基本上由代工廠決定,臺積電在這個領(lǐng)域優(yōu)勢明顯,90%的AI芯片都是臺積電代工。芯片設(shè)計公司能改進的領(lǐng)域主要在標量運算和存儲處理這兩個領(lǐng)域。

AI芯片有一個特殊之處,那就軟硬一體,與軟件或者說算法類型捆綁的越緊,性能表現(xiàn)就越優(yōu)秀,但適用面很窄,換一個算法體系,利用效率就可能大幅度下降90%。如果要爭取盡量大的市場,以提高出貨量來降低成本,那必須適應(yīng)各種算法體系,這就肯定會帶來性能的下降。大部分純芯片公司都會增加矢量運算(如求倒數(shù)、求平方根)就是如此,爭取有更大的應(yīng)用面,特別是用于推理領(lǐng)域,如果用于訓(xùn)練領(lǐng)域,則無需增加矢量運算單元。無人駕駛領(lǐng)域,矢量運算不可或缺,如簡單的圖像預(yù)處理,AI芯片最好還是加上矢量運算單元。

還有一個關(guān)鍵領(lǐng)域是編譯器,這主要是英偉達的阻撓,所有主流深度學(xué)習(xí)框架都是基于英偉達的CUDA的,框架的角色是連接上層應(yīng)用和底層各種硬件,它看重的是如何方便而高效地連接底層編譯器,選擇合適硬件達到最好的性能。而芯片在底層,作為一種硬件,它的角色是應(yīng)用在多個不同的框架里,提供方便的連接和優(yōu)異的性能。如果你特別擅長軟件,如寒武紀,就獨立創(chuàng)作了TVM+NNVM,作為“深度學(xué)習(xí)到各種硬件的完整優(yōu)化工具鏈”,寒武紀在搞芯片的時候當(dāng)然要最大限度支持自己的深度學(xué)習(xí)框架,軟硬一體,自然算力效率都高,但適用面很窄,一直推廣不開。主流深度學(xué)習(xí)框架對CUDA支持自然最好,沒辦法,CUDA做得早,當(dāng)初可沒有AI芯片,只有GPU做AI處理,如今生態(tài)系統(tǒng)被CUDA一統(tǒng)了,誰都繞不開。


高通AI芯片每個AI核內(nèi)部框架如上,主要分4個部分,分別是標量處理、向量處理、存儲處理和張量處理

華為的昇騰系列內(nèi)部框架,與高通AI100基本差不多,昇騰910的MAC數(shù)量都和高通AI100一樣多,華為把張量換了個說法,叫CUBE。

深度學(xué)習(xí)中經(jīng)常出現(xiàn)4種量,標量、向量、矩陣和張量。神經(jīng)網(wǎng)絡(luò)最基本的數(shù)據(jù)結(jié)構(gòu)就是向量和矩陣,神經(jīng)網(wǎng)絡(luò)的輸入是向量,然后通過每個矩陣對向量進行線性變換,再經(jīng)過激活函數(shù)的非線性變換,通過層層計算最終使得損失函數(shù)的最小化,完成模型的訓(xùn)練。

標量(scalar):一個標量就是一個單獨的數(shù)(整數(shù)或?qū)崝?shù)),不同于線性代數(shù)中研究的其他大部分對象(通常是多個數(shù)的數(shù)組)。標量通常用斜體的小寫字母來表示,標量就相當(dāng)于Python中定義的x=1。

向量(Vector):一個向量表示一組有序排列的數(shù),通過次序中的索引我們能夠找到每個單獨的數(shù),向量通常用粗體的小寫字母表示,向量中的每個元素就是一個標量,向量相當(dāng)于Python中的一維數(shù)組。

矩陣(matrix):矩陣是一個二維數(shù)組,其中的每一個元素由兩個索引來決定,矩陣通常用加粗斜體的大寫字母表示,我們可以將矩陣看做是一個二維的數(shù)據(jù)表,矩陣的每一行表示一個對象,每一列表示一個特征。

張量(Tensor):超過二維的數(shù)組,一般來說,一個數(shù)組中的元素分布在若干維坐標的規(guī)則網(wǎng)格中,被稱為張量。如果一個張量是三維數(shù)組,那么我們就需要三個索引來決定元素的位置,張量通常用加粗的大寫字母表示。

不太嚴謹?shù)卣f,標量是0維空間中的一個點,向量是一維空間中的一條線,矩陣是二維空間的一個面,三維張量是三維空間中的一個體。也就是說,向量是由標量組成的,矩陣是向量組成的,張量是矩陣組成的。

AI芯片的工作流程,從存儲器取出指令,如果是標量指令,立即執(zhí)行,如果是非標量指令,則根據(jù)指令類型劃分為向量、張量(即矩陣)、存儲移動三個類型,分別送到不同的運算單元。

如果只考慮一種算法類型,標量處理器也不可缺少,因為人工智能運算中除了卷積部分,還有很多非矩陣運算,常見的CNN為例,流程是INPUT(輸入層)-CONV(卷積層)-RELU(激活函數(shù))-POOL(池化層)-FC(全連接層),AI芯片只擅長處理卷積,遇到其他類型的需求效率會大幅度下降。標量處理器就是一個CPU,完成整個程序的循環(huán)控制、分支判斷、矩陣/向量等指令的地址和參數(shù)計算以及基本的算術(shù)運算等。

這是AI芯片最能差異化的地方,CPU廠家也最擅長。目前AI芯片優(yōu)化標量處理器的主要手段是VLIW。

VLIW是目前比較優(yōu)秀的,卷積層運算密集、算法單一穩(wěn)定,固定時間內(nèi)存訪問。為了實現(xiàn)較大規(guī)模的運算單元和功耗控制,需要簡化內(nèi)存和總線結(jié)構(gòu),通常采取權(quán)重常駐,數(shù)據(jù)通過DMA搬運的模式,使用TCM作為片上緩存,這樣也就具備了固定訪問時間的特點。這樣VLIW結(jié)構(gòu)就可以很好的匹配深度學(xué)習(xí)算法的特點。同時由于基本算子的固定性,只需要向DSP那樣手動實現(xiàn)各個運算庫的支持,連編譯器靜態(tài)調(diào)度都可以做的簡單。這樣一方面簡化硬件,利于大規(guī)模的堆疊算力資源,一方面簡化編譯設(shè)計,縮短軟件開發(fā)周期和難度。因此VLIW在深度學(xué)習(xí)領(lǐng)域大放異彩也就不難理解。

VLIW就是超標量運算,超長指令集,在亂序執(zhí)行和超標量的CPU架構(gòu)里,指令的前后依賴關(guān)系,是由CPU內(nèi)部的硬件電路來檢測的,到了超長指令集的架構(gòu)里面,該工作交給了編譯器來實現(xiàn),編譯器把沒有依賴關(guān)系的代碼位置進行交換,然后把多條連續(xù)的指令打包成一個指令包,CPU運行時,不再是取一條指令,而是取出一個指令包,譯碼解析整個指令包,解析出多條指令直接并行運行,使用超長指令字架構(gòu)的CPU,同樣采用的是流水線架構(gòu),一組指令,仍然要經(jīng)歷多個時鐘周期,流水線停頓這件事情在超長指令字架構(gòu)里面,很多時候也是由編譯器實現(xiàn)的。


VLIW對應(yīng)多種運算單元
對VLIW最熟悉的莫過于英特爾,不過它和x86指令集不兼容,后來放棄了,再有就是DSP玩家,如高通和德州儀器。英特爾后來花20億美元收購以色列的Habana Labs,也是VLIW。
對于矩陣(張量)運算陣列,也就是MAC陣列。MAC陣列越多,算力就越高。當(dāng)然也不是這么簡單,MAC陣列的分布有兩種,即時間架構(gòu)(temporal architecture)與空間架構(gòu)(spatial architecture)兩種高度并行化的計算架構(gòu)。


SIMD/SIMT這種時間序列型并行處理架構(gòu)一般是CPU/GPU/DSP用的,空間并行處理架構(gòu)也叫數(shù)據(jù)流架構(gòu),如谷歌的脈動陣列,一般是專用AI芯片用的。兩種架構(gòu)各有優(yōu)缺點。

時間序列并行是通用的架構(gòu),可以映射任意的數(shù)據(jù)流圖,但是數(shù)據(jù)流動,是通過把數(shù)據(jù)讀寫全局寄存器,以及存儲器來實現(xiàn)的。所以數(shù)據(jù)流圖的映射來看,一個數(shù)據(jù)流圖上的計算,是需要多個周期來連接起來的,而空間并行則是通過ALU之間的通路來實現(xiàn)的,每個ALU都包含了存儲、寄存器和控制邏輯,這樣的ALU又叫PE,這是純物理實現(xiàn)。每個MAC都需要三次內(nèi)存讀與一次內(nèi)存寫操作。其中三次內(nèi)存讀操作分別為讀取輸入數(shù)據(jù)、權(quán)值數(shù)據(jù)與部分和數(shù)據(jù)(partial sum),一次內(nèi)存寫操作為更新部分和數(shù)據(jù)。頻繁地內(nèi)存數(shù)據(jù)搬遷,是AI芯片能量消耗的主要來源,空間并行大大減少數(shù)據(jù)搬遷的距離。因此空間并行架構(gòu)的計算密度遠高于時間并行架構(gòu),功耗也比較低。

但是空間并行也有缺點,那就是如果數(shù)據(jù)特殊,如智能駕駛中的圖像數(shù)據(jù),這種數(shù)據(jù)包含大量無用的0值,就是天空或背景,這種稀疏網(wǎng)絡(luò)會讓空間并行架構(gòu)的ALU利用率大大降低。即便不是稀疏網(wǎng)絡(luò),也需要完美對應(yīng)空間并行架構(gòu)的算法模型才能最大限度發(fā)揮ALU的利用率,除非高度捆綁算法模型,都無法達到空間并行架構(gòu)的理論算力值。當(dāng)然對時間并行架構(gòu)也是個麻煩,不過相對好處理。通常推理用AI芯片一般會經(jīng)常遇到稀疏網(wǎng)絡(luò),因此推理領(lǐng)域用時間并行架構(gòu)最終實際的算力密度比空間并行架構(gòu)相差不算多。

空間并行架構(gòu)的另一個缺點是每個ALU都需要有自己的控制邏輯和本地存儲,為了保證性能,每個ALU都需要On-Die SRAM。SRAM速度最快,缺點是6個晶體管才能存儲1比特,密度太低,這就意味著die的面積會暴漲,成本自然也暴漲,對于比較在乎價格的推理用AI芯片,這顯然不太合適。當(dāng)然也有人不在乎成本,如阿里平頭哥的含光800,采用全SRAM設(shè)計,僅僅依靠臺積電12納米工藝就取得825TOPS@int8的驚人算力,這也是目前性能最強的推理用AI芯片,但芯片die面積也達到了725平方毫米,這已經(jīng)是訓(xùn)練用AI芯片的面積了。


考慮到成本關(guān)系,需要多級緩存,減少內(nèi)層存儲訪問,減少外層存儲訪問。但是如果深度學(xué)習(xí)模型太大,SRAM無法完全以此讀入,需要多次多層次讀入,這就失去了空間并行架構(gòu)的優(yōu)點。
MAC陣列的上一級是核心,通常AI芯片都需要至少8個以上內(nèi)核,16-32個最為常見。核心與核心之間則需要NoC。

在NoC出現(xiàn)之前,傳統(tǒng)的片上互聯(lián)方法包括Bus總線和Crossbar兩種。Bus總線的互聯(lián)方式即所有數(shù)據(jù)主從模塊都連接在同一個互聯(lián)矩陣上,當(dāng)有多個模塊同時需要使用總線傳輸數(shù)據(jù)時,則采用仲裁的方法來確定誰能使用總線,在仲裁中獲得總線使用權(quán)限的設(shè)備則在完成數(shù)據(jù)讀寫后釋放總線。ARM著名的AXI、AHB、APB等互聯(lián)協(xié)議就是典型的總線型片上互聯(lián)。

除了總線互聯(lián)之外,另一種方法是Crossbar互聯(lián)??偩€互聯(lián)同時只能有一對主從設(shè)備使用總線傳輸數(shù)據(jù),因此對于需要較大帶寬的架構(gòu)來說不一定夠用。除此之外,在一些系統(tǒng)架構(gòu)中,一個主設(shè)備的數(shù)據(jù)往往會需要同時廣播給多個從設(shè)備。在這種情況下,Crossbar就是更好的選擇。Crossbar的主要特性是可以同時實現(xiàn)多個主從設(shè)備的數(shù)據(jù)傳輸,同時能實現(xiàn)一個主設(shè)備對多個從設(shè)備進行數(shù)據(jù)廣播。然而,Crossbar的主要問題是互聯(lián)線很復(fù)雜,給數(shù)字后端設(shè)計帶來了較大的挑戰(zhàn),版圖無法優(yōu)化,die面積會增加。

NoC有兩個優(yōu)勢,一個是復(fù)雜度,因為NoC使用了類似計算機網(wǎng)絡(luò)的OSI 7層架構(gòu),因此可以更好地支持多個互聯(lián)模塊,同時可以輕松地加入更多互聯(lián)模塊——這和我們把一臺新的電腦接入互聯(lián)網(wǎng)而幾乎不會對互聯(lián)網(wǎng)造成影響一樣。同時這種網(wǎng)絡(luò)模型節(jié)點數(shù)再多(一般核心數(shù)不超過64)也不會增加路由阻塞。這就可以提升核心的運算頻率,提高性能。

另一個優(yōu)勢來自于其物理層、傳輸層和接口是分開的。拿傳統(tǒng)的總線為例,ARM的AXI接口在不同的版本定義了不同的信號,因此在使用不同版本的AXI時候,一方面模塊的接口邏輯要重寫,另一方面AXI矩陣的邏輯、物理實現(xiàn)和接口也要重寫,因此造成了IP復(fù)用和向后兼容上的麻煩。而NoC中,傳輸層、物理層和接口是分開的,因此用戶可以在傳輸層方便地自定義傳輸規(guī)則,而無需修改模塊接口,而另一方面?zhèn)鬏攲拥母膶τ谖锢韺踊ヂ?lián)的影響也不大,因此不用擔(dān)心修改了傳輸層之后對于NoC的時鐘頻率造成顯著的影響。

核心數(shù)越多,NoC的優(yōu)勢就越明顯,不過NoC門檻頗高,全球主要有3家,且都已被大廠收購。分別是2013年11月被高通收購的Arteris,英特爾收購的NetSpeed,F(xiàn)acebook收購的Sonics,后兩起收購都是2019年。Arteris的NoC具體產(chǎn)品叫FlexNoc,每個IP授權(quán)大約200-300萬美元,國內(nèi)大量采用,包括瑞芯微、華為、天數(shù)智芯、百度昆侖芯片、國民技術(shù)、靈汐科技、辰芯科技、地平線、黑芝麻(2021年6月8日)、四維圖新旗下杰發(fā)科技(2021年6月底才剛剛購買)。地平線不止買了FlexNoc,還買了Netspeed的NoC IP。

至此,行為級設(shè)計基本完成,這時候進行功能仿真,或者叫行為級仿真,檢查代碼中的語法錯誤以及代碼行為的正確性,其中不包括延時信息。如果沒有實例化一些與器件相關(guān)的特殊底層元件的話,這個階段的仿真也可以做到與器件無關(guān)。然后是綜合后門級功能仿真。絕大多數(shù)的綜合工具除了可以輸出一個標準網(wǎng)表文件以外,還可以輸出Verilog或者VHDL網(wǎng)表,其中標準網(wǎng)表文件是用來在各個工具之間傳遞設(shè)計數(shù)據(jù)的,并不能用來做仿真使用,而輸出的Verilog或者VHDL網(wǎng)表可以用來仿真,之所以叫門級仿真是因為綜合工具給出的仿真網(wǎng)表已經(jīng)是與生產(chǎn)廠家的器件的底層元件模型對應(yīng)起來了,所以為了進行綜合后仿真必須在仿真過程中加入廠家的器件庫,對仿真器進行一些必要的配置,不然仿真器并不認識其中的底層元件,無法進行仿真。在設(shè)計流程中的最后一個仿真是時序仿真。在設(shè)計布局布線完成以后可以提供一個時序仿真模型,這種模型中也包括了器件的一些信息,同時還會提供一個SDF時序標注文件(Standard Delay format Timing Anotation)。SDF時序標注最初使用在Verilog語言的設(shè)計中,現(xiàn)在VHDL語言的設(shè)計中也引用了這個概念。對于一般的設(shè)計者來說并不需知道SDF文件的詳細細節(jié),因為這個文件一般由器件廠家提供給設(shè)計者。前端設(shè)計至此完成。

行為級設(shè)計通常都是總架構(gòu)師和算法工程師完成,普通的集成電路工程師的工作集中在RTL級。

寄存器傳輸級(RTL,Register Transfer Level)指:不關(guān)注寄存器和組合邏輯的細節(jié)(如使用了多少邏輯門,邏輯門之間的連接拓撲結(jié)構(gòu)等),通過描述寄存器到寄存器之間的邏輯功能描述電路的 HDL 層次。RTL 級是比門級更高的抽象層次,使用RTL級語言描述硬件電路一般比門級描述電路簡單、高效得多。

典型的 RTL 設(shè)計包含以下3個部分:

時鐘域描述,描述設(shè)計所使用的所有時鐘,時鐘之間的主從與派生關(guān)系,時鐘域之間的轉(zhuǎn)換。

時序邏輯描述(寄存器描述),根據(jù)時鐘沿的變換,描述寄存器之間的數(shù)據(jù)傳輸方式。

組合邏輯描述,描述電平敏感信號的邏輯組合方式與邏輯功能。

在硬件描述語言中,設(shè)計人員只需要聲明寄存器(就像在計算機編程語言中聲明變量一樣),然后使用類似編程語言中的條件(if...then...else)、選擇(case)等運算符來描述組合邏輯的功能。我們把上述這樣級別的設(shè)計稱為寄存器傳輸級的設(shè)計。這個術(shù)語主要是指我們的關(guān)注點為訊號在寄存器之間的流動。如果寄存器的輸出端和輸入端存在環(huán)路,這樣的電路被稱為“狀態(tài)機”,常被歸類到時序邏輯電路中。如果寄存器之間有連接,而沒有上述的“回環(huán)”,則這樣的電路結(jié)構(gòu)被稱為“流水線結(jié)構(gòu)”。RTL級最后輸出RTL網(wǎng)表文件。再下來就是RTL級轉(zhuǎn)門級。

數(shù)據(jù)導(dǎo)入是指導(dǎo)入綜合后的網(wǎng)表和時序約束的腳本文件,以及代工廠提供的庫文件。布局規(guī)劃是指在芯片上規(guī)劃輸入/輸出單元,宏單元及其他主要模塊位置的過程。單元布局是根據(jù)網(wǎng)表和時序約束自動放置標準單元的過程。時鐘樹綜合是指插入時鐘緩沖器,生成時鐘網(wǎng)絡(luò),最小化時鐘延遲和偏差的過程。布線是指在滿足布線層數(shù)限制,線寬、線間距等約束條件下,根據(jù)電路關(guān)系自動連接各個單元的過程。物理驗證(Physical Verificaiton)通常包括版圖設(shè)計規(guī)則檢查(DRC),版圖原理圖一致性檢查(LVS)和電氣規(guī)則檢查(ERC)等。最后得到GDSII文件,設(shè)計公司的任務(wù)就完成了。

接下來就是找合適的晶圓代工廠流片,流片即tapeout,但往往在實驗性生產(chǎn)和驗證性生產(chǎn)中才用流片這個詞,一般來說tapeout的模式有2大類,一種是多家拼一起的MPW,另一種是專用的全晶圓流片。前者因為成本低,一般實驗流片用,后者成本高,一般用于批量生產(chǎn)。流片的主要成本是光罩成本,這是一次性成本,主要與光罩的精密度有關(guān),因為光刻機太貴了,40納米中芯國際流片光罩成本大約50萬美元,臺積電12納米費用大約500-800萬美元,6納米1500萬美元,7納米則需要大約2-3千萬美元,5納米需要5千萬到1億美元,3納米3億美元。流片不成功的話,就需要再來一次,費用一點沒變化,盡管目前EDA工具很完善,但也不能保證100%流片成功,因此風(fēng)險是很高的。

AI芯片只有臺積電和三星兩個代工廠可選,臺積電價格高,因為臺積電產(chǎn)能不足,在臺積電那里需要排隊等待,等多長時間未知,三星則產(chǎn)能比較充足,但性能比較差。盡管知道在臺積電需要等檔期,但是幾乎沒有人選擇三星,只有百度昆侖選擇了三星。芯片制造完成后,還需要封裝和測試,最終可以拿到芯片。從確定市場定位到最終量產(chǎn),數(shù)字類芯片大概周期要3-4年,用在車上都要是5-6年后了,AI芯片比較簡單,快的兩年甚至1年半也可以搞定。所以一開始的市場定位需要考慮到4-10年后的市場需求,而市場需求通常很難預(yù)測,把握市場環(huán)境與動態(tài)從而立項芯片設(shè)計規(guī)劃也是芯片公司們最重要的工作之一。
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25