日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

毫末智行「自動(dòng)駕駛算法」的秘密

2022-03-10 10:52:50·  來(lái)源:焉知智能汽車  
 
02

Transformer 神經(jīng)網(wǎng)絡(luò)

在說(shuō) Transformer 之前,要先理解一個(gè)概念:「機(jī)器翻譯、注意力機(jī)制」。

機(jī)器翻譯

機(jī)器翻譯可以粗暴理解成 「由現(xiàn)代化計(jì)算機(jī)模擬人類的智能活動(dòng),自動(dòng)進(jìn)行語(yǔ)言之間的翻譯」。

說(shuō)起翻譯,不得不提自然語(yǔ)言處理(NLP)領(lǐng)域的機(jī)器翻譯應(yīng)用,簡(jiǎn)單說(shuō)就是「輸入一句話,輸出另一句話」,后者可以是前者的其他語(yǔ)種表達(dá),如「自行車翻譯為 Bicycle」;也可以是前者的同語(yǔ)種關(guān)鍵詞表達(dá),如「騎行的兩輪車」。

而工程師把「翻譯」的過(guò)程,用數(shù)學(xué)函數(shù)設(shè)計(jì)了一套模型,這個(gè)模型就是大家通常意義上理解的「神經(jīng)網(wǎng)絡(luò)」。

在 Transformer 到來(lái)之前,大家一般都是使用基于循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的「編碼器-解碼器」結(jié)構(gòu)來(lái)完成序列翻譯。

所謂序列翻譯,「就是輸入一個(gè)序列,輸出另一個(gè)序列」。例如,漢英翻譯即輸入的序列是漢語(yǔ)表示的一句話,而輸出的序列即為對(duì)應(yīng)的英語(yǔ)表達(dá)。

基于 RNN 的架構(gòu)有一個(gè)明顯弊端就是,RNN 屬于序列模型,需要以一個(gè)接一個(gè)的序列化方式進(jìn)行信息處理,注意力權(quán)重需要等待序列全部輸入模型之后才能確定,簡(jiǎn)單理解就是,需要 RNN 對(duì)序列「從頭看到尾」。

例如:

面對(duì)翻譯問(wèn)題「A magazine is stuck in the gun」,其中的「Magazine」到底應(yīng)該翻譯為「雜志」還是「彈匣」?

當(dāng)看到「gun」一詞時(shí),將「Magazine」翻譯為「彈匣」才確認(rèn)無(wú)疑。在基于RNN的機(jī)器翻譯模型中,需要一步步的順序處理從 Magazine 到 gun 的所有詞語(yǔ),而當(dāng)它們相距較遠(yuǎn)時(shí) RNN 中存儲(chǔ)的信息將不斷被稀釋,翻譯效果常常難以盡人意,而且效率非常很低。

這種架構(gòu)無(wú)論是在訓(xùn)練環(huán)節(jié)還是推理環(huán)節(jié),都具有大量的時(shí)間開(kāi)銷,并且難以實(shí)現(xiàn)并行處理。而這個(gè)時(shí)候,工程師又想到了一個(gè)方案,就是在標(biāo)準(zhǔn)的 RNN 模型中加入一個(gè)「注意力機(jī)制」。

什么是注意力機(jī)制?

「深度學(xué)習(xí)中的注意力機(jī)制,源自于人腦的注意力機(jī)制,當(dāng)人的大腦接受外部信息時(shí),如視覺(jué)信息,聽(tīng)覺(jué)信息時(shí),往往不會(huì)對(duì)全部信息處理和理解,而只會(huì)將注意力集中在部分顯著或者感興趣的信息上,這樣有利于濾除不重要的信息,而提升的信息處理效率?!?

加入注意力機(jī)制的模型會(huì)一次性的「看見(jiàn)」所有輸入的詞匯,利用注意力機(jī)制將距離不同的單詞進(jìn)行結(jié)合,為序列中每個(gè)元素提供全局的上下文。

谷歌團(tuán)隊(duì)賦予新模型一個(gè)大名鼎鼎的名字:「Transformer」。

Transformer 與處理序列數(shù)據(jù)常用的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer 中的注意力機(jī)制并不會(huì)按照順序來(lái)處理數(shù)據(jù),也就是說(shuō),每個(gè)元素和序列中的所有元素都會(huì)產(chǎn)生聯(lián)系,這樣就保證了不管在時(shí)序上相距多遠(yuǎn),元素之間的相關(guān)性都可以被很好地保留。

而這種長(zhǎng)時(shí)相關(guān)性對(duì)于自然語(yǔ)言處理的任務(wù)來(lái)說(shuō)通常都是非常重要。比如下圖中,句子中的「it」所指的是「The animal」,但是這兩個(gè)元素之間相距較遠(yuǎn),如果用 RNN 來(lái)順序處理的話很難建立起兩者之間的聯(lián)系。

圖片

一個(gè)句子中各個(gè)單詞之間的相關(guān)性

Transformer 并不關(guān)心順序,在計(jì)算相關(guān)性時(shí),每個(gè)元素的重要性是根據(jù)數(shù)據(jù)本身的語(yǔ)義信息計(jì)算出來(lái)的。因此,可以輕松地提取任意距離元素之間的相關(guān)性。

為什么要說(shuō)這些?

因?yàn)樵谝曈X(jué)任務(wù)圖像分類和物體檢測(cè)上,通過(guò)帶有注意力機(jī)制的 Transformer 模型其結(jié)果出乎意料的好。

為什么源自自然語(yǔ)言領(lǐng)域的算法,在視覺(jué)上同樣適用呢?

原因主要有兩點(diǎn):

  • 雖然圖像本身不是時(shí)間序列數(shù)據(jù),但可以看作空間上的序列,視覺(jué)任務(wù)一個(gè)關(guān)鍵的步驟就是要提取像素之間的相關(guān)性,普通的 CNN 是通過(guò)卷積核來(lái)提取局部的相關(guān)性(也稱為:局部感受野)。與 CNN 的局部感受野不同,Transformer 可以提供全局的感受野。因此,特征學(xué)習(xí)能力相比 CNN 要高很多。

  • 如果進(jìn)一步考慮視頻輸入數(shù)據(jù)的話,那么這本身就是時(shí)序數(shù)據(jù),因此,更加適合Transformer 的處理。

圖片

Transformer 在圖像分類中的應(yīng)用

在圖 3 的例子中,Transformer 被用來(lái)進(jìn)行圖像分類的任務(wù)。圖像被均勻地分成若干小塊,按照空間排列的順序組成了一個(gè)圖像塊的序列。每個(gè)圖像塊的像素值(或者其他特征)組成了該圖像塊的特征向量,經(jīng)過(guò) Transformer 編碼在進(jìn)行拼接后就得到整幅圖像的特征。

上圖的右側(cè),給出了編碼器的具體結(jié)構(gòu),其關(guān)鍵部分是一個(gè) 「多頭注意力模塊」。

簡(jiǎn)單來(lái)說(shuō),多頭注意力其實(shí)就是多個(gè)注意力機(jī)制模塊的集成,這些模塊各自獨(dú)立的進(jìn)行編碼,提取不同方面的特征,在增加編碼能力的同時(shí),也可以非常高效的在計(jì)算芯片上實(shí)現(xiàn)并行處理。

綜上所述,這也就是中金《人工智能十年展望(三):AI 視角下的自動(dòng)駕駛行業(yè)全解析》這份報(bào)告里說(shuō)的:

由于 Transformer 可以很好地在 「空間-時(shí)序」 維度上進(jìn)行建模,目前特斯拉和毫末智行等行業(yè)龍頭通過(guò) Transformer 在感知端提升模型效果。

特斯拉從安裝在汽車周圍的八個(gè)攝像頭的視頻中用傳統(tǒng)的 ResNet 提取圖像特征,并使用 Transformer CNN、3D 卷積中的一種或者多種組合完成跨時(shí)間的圖像融合,實(shí)現(xiàn)基于 2D 圖像形成具有 3D 信息輸出。

毫末智行的 AI 團(tuán)隊(duì)正在逐步將基于 Transformer 的感知算法應(yīng)用到實(shí)際的道路感知問(wèn)題,如車道線檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25