毫末智行「自動(dòng)駕駛算法」的秘密

2022-03-10 10:52:50· 來(lái)源：焉知智能汽車

Transformer 神經(jīng)網(wǎng)絡(luò)

在說(shuō) Transformer 之前，要先理解一個(gè)概念：「機(jī)器翻譯、注意力機(jī)制」。

機(jī)器翻譯

機(jī)器翻譯可以粗暴理解成「由現(xiàn)代化計(jì)算機(jī)模擬人類的智能活動(dòng)，自動(dòng)進(jìn)行語(yǔ)言之間的翻譯」。

說(shuō)起翻譯，不得不提自然語(yǔ)言處理（NLP）領(lǐng)域的機(jī)器翻譯應(yīng)用，簡(jiǎn)單說(shuō)就是「輸入一句話，輸出另一句話」，后者可以是前者的其他語(yǔ)種表達(dá)，如「自行車翻譯為 Bicycle」；也可以是前者的同語(yǔ)種關(guān)鍵詞表達(dá)，如「騎行的兩輪車」。

而工程師把「翻譯」的過(guò)程，用數(shù)學(xué)函數(shù)設(shè)計(jì)了一套模型，這個(gè)模型就是大家通常意義上理解的「神經(jīng)網(wǎng)絡(luò)」。

在 Transformer 到來(lái)之前，大家一般都是使用基于循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的「編碼器-解碼器」結(jié)構(gòu)來(lái)完成序列翻譯。

所謂序列翻譯，「就是輸入一個(gè)序列，輸出另一個(gè)序列」。例如，漢英翻譯即輸入的序列是漢語(yǔ)表示的一句話，而輸出的序列即為對(duì)應(yīng)的英語(yǔ)表達(dá)。

基于 RNN 的架構(gòu)有一個(gè)明顯弊端就是，RNN 屬于序列模型，需要以一個(gè)接一個(gè)的序列化方式進(jìn)行信息處理，注意力權(quán)重需要等待序列全部輸入模型之后才能確定，簡(jiǎn)單理解就是，需要 RNN 對(duì)序列「從頭看到尾」。

例如：

面對(duì)翻譯問(wèn)題「A magazine is stuck in the gun」，其中的「Magazine」到底應(yīng)該翻譯為「雜志」還是「彈匣」？

當(dāng)看到「gun」一詞時(shí)，將「Magazine」翻譯為「彈匣」才確認(rèn)無(wú)疑。在基于RNN的機(jī)器翻譯模型中，需要一步步的順序處理從 Magazine 到 gun 的所有詞語(yǔ)，而當(dāng)它們相距較遠(yuǎn)時(shí) RNN 中存儲(chǔ)的信息將不斷被稀釋，翻譯效果常常難以盡人意，而且效率非常很低。

這種架構(gòu)無(wú)論是在訓(xùn)練環(huán)節(jié)還是推理環(huán)節(jié)，都具有大量的時(shí)間開(kāi)銷，并且難以實(shí)現(xiàn)并行處理。而這個(gè)時(shí)候，工程師又想到了一個(gè)方案，就是在標(biāo)準(zhǔn)的 RNN 模型中加入一個(gè)「注意力機(jī)制」。

什么是注意力機(jī)制？

「深度學(xué)習(xí)中的注意力機(jī)制，源自于人腦的注意力機(jī)制，當(dāng)人的大腦接受外部信息時(shí)，如視覺(jué)信息，聽(tīng)覺(jué)信息時(shí)，往往不會(huì)對(duì)全部信息處理和理解，而只會(huì)將注意力集中在部分顯著或者感興趣的信息上，這樣有利于濾除不重要的信息，而提升的信息處理效率?！?

加入注意力機(jī)制的模型會(huì)一次性的「看見(jiàn)」所有輸入的詞匯，利用注意力機(jī)制將距離不同的單詞進(jìn)行結(jié)合，為序列中每個(gè)元素提供全局的上下文。

谷歌團(tuán)隊(duì)賦予新模型一個(gè)大名鼎鼎的名字：「Transformer」。

Transformer 與處理序列數(shù)據(jù)常用的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）不同，Transformer 中的注意力機(jī)制并不會(huì)按照順序來(lái)處理數(shù)據(jù)，也就是說(shuō)，每個(gè)元素和序列中的所有元素都會(huì)產(chǎn)生聯(lián)系，這樣就保證了不管在時(shí)序上相距多遠(yuǎn)，元素之間的相關(guān)性都可以被很好地保留。

而這種長(zhǎng)時(shí)相關(guān)性對(duì)于自然語(yǔ)言處理的任務(wù)來(lái)說(shuō)通常都是非常重要。比如下圖中，句子中的「it」所指的是「The animal」，但是這兩個(gè)元素之間相距較遠(yuǎn)，如果用 RNN 來(lái)順序處理的話很難建立起兩者之間的聯(lián)系。

一個(gè)句子中各個(gè)單詞之間的相關(guān)性

Transformer 并不關(guān)心順序，在計(jì)算相關(guān)性時(shí)，每個(gè)元素的重要性是根據(jù)數(shù)據(jù)本身的語(yǔ)義信息計(jì)算出來(lái)的。因此，可以輕松地提取任意距離元素之間的相關(guān)性。

為什么要說(shuō)這些？

因?yàn)樵谝曈X(jué)任務(wù)圖像分類和物體檢測(cè)上，通過(guò)帶有注意力機(jī)制的 Transformer 模型其結(jié)果出乎意料的好。

為什么源自自然語(yǔ)言領(lǐng)域的算法，在視覺(jué)上同樣適用呢？

原因主要有兩點(diǎn)：

雖然圖像本身不是時(shí)間序列數(shù)據(jù)，但可以看作空間上的序列，視覺(jué)任務(wù)一個(gè)關(guān)鍵的步驟就是要提取像素之間的相關(guān)性，普通的 CNN 是通過(guò)卷積核來(lái)提取局部的相關(guān)性（也稱為：局部感受野）。與 CNN 的局部感受野不同，Transformer 可以提供全局的感受野。因此，特征學(xué)習(xí)能力相比 CNN 要高很多。

如果進(jìn)一步考慮視頻輸入數(shù)據(jù)的話，那么這本身就是時(shí)序數(shù)據(jù)，因此，更加適合Transformer 的處理。

Transformer 在圖像分類中的應(yīng)用

在圖 3 的例子中，Transformer 被用來(lái)進(jìn)行圖像分類的任務(wù)。圖像被均勻地分成若干小塊，按照空間排列的順序組成了一個(gè)圖像塊的序列。每個(gè)圖像塊的像素值（或者其他特征）組成了該圖像塊的特征向量，經(jīng)過(guò) Transformer 編碼在進(jìn)行拼接后就得到整幅圖像的特征。

上圖的右側(cè)，給出了編碼器的具體結(jié)構(gòu)，其關(guān)鍵部分是一個(gè) 「多頭注意力模塊」。

簡(jiǎn)單來(lái)說(shuō)，多頭注意力其實(shí)就是多個(gè)注意力機(jī)制模塊的集成，這些模塊各自獨(dú)立的進(jìn)行編碼，提取不同方面的特征，在增加編碼能力的同時(shí)，也可以非常高效的在計(jì)算芯片上實(shí)現(xiàn)并行處理。

綜上所述，這也就是中金《人工智能十年展望（三）：AI 視角下的自動(dòng)駕駛行業(yè)全解析》這份報(bào)告里說(shuō)的：

由于 Transformer 可以很好地在「空間-時(shí)序」維度上進(jìn)行建模，目前特斯拉和毫末智行等行業(yè)龍頭通過(guò) Transformer 在感知端提升模型效果。

特斯拉從安裝在汽車周圍的八個(gè)攝像頭的視頻中用傳統(tǒng)的 ResNet 提取圖像特征，并使用 Transformer CNN、3D 卷積中的一種或者多種組合完成跨時(shí)間的圖像融合，實(shí)現(xiàn)基于 2D 圖像形成具有 3D 信息輸出。

毫末智行的 AI 團(tuán)隊(duì)正在逐步將基于 Transformer 的感知算法應(yīng)用到實(shí)際的道路感知問(wèn)題，如車道線檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。

第3頁(yè)/共5頁(yè) 首頁(yè) 下一頁(yè) 上一頁(yè) 尾頁(yè)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：電動(dòng)汽車熱泵空調(diào)系統(tǒng)
上一篇：張工聊測(cè)量 | 電池可拆卸性的測(cè)試與分析

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

毫末智行「自動(dòng)駕駛算法」的秘密

微信公眾號(hào)

Transformer 神經(jīng)網(wǎng)絡(luò)

機(jī)器翻譯

什么是注意力機(jī)制？

編輯推薦

最新資訊

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

毫末智行「自動(dòng)駕駛算法」的秘密

微信公眾號(hào)

Transformer 神經(jīng)網(wǎng)絡(luò)

機(jī)器翻譯

什么是注意力機(jī)制？

編輯推薦

最新資訊

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將