日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

技術(shù)揭秘 | 如何構(gòu)建車載語(yǔ)音識(shí)別系統(tǒng)的魯棒性?

2023-12-19 11:43:46·  來(lái)源:騰訊云智能  
 

首先需要明白,什么叫魯棒性?

魯棒性,其實(shí)是英文robust的音譯,表示強(qiáng)壯、健壯的意思。而車載語(yǔ)音識(shí)別系統(tǒng)的魯棒性就是指在面對(duì)車載環(huán)境中的高噪聲、重口音、復(fù)雜場(chǎng)景和長(zhǎng)尾POI輸入時(shí),也能保持較好的識(shí)別率。

隨著語(yǔ)音交互在車載領(lǐng)域的覆蓋率不斷提升,大部分的用戶都體驗(yàn)過(guò)車載語(yǔ)音助手帶來(lái)的輕松駕車體驗(yàn)。

車載語(yǔ)音助手通過(guò)整合前端降噪、語(yǔ)音識(shí)別、語(yǔ)義理解、人聲合成等多項(xiàng)AI能力,讀懂用戶駕駛時(shí)的服務(wù)需求。因此咱們只需要?jiǎng)觿?dòng)口,就能操控車載語(yǔ)音助手完成諸如空調(diào)控制、語(yǔ)音導(dǎo)航、開(kāi)天窗、播音樂(lè)等一系列動(dòng)作。

盡管車載語(yǔ)音助手使用起來(lái)很簡(jiǎn)單,但實(shí)際上,其系統(tǒng)內(nèi)部的強(qiáng)魯棒性無(wú)時(shí)無(wú)刻不在面臨著困難挑戰(zhàn),而其中最主要的四大挑戰(zhàn)則是:噪音、用戶口音、海量POI、場(chǎng)景化。


圖片


01 環(huán)境噪音挑戰(zhàn)

大家有沒(méi)有試過(guò)在電風(fēng)扇旁與朋友打電話?扇葉轉(zhuǎn)動(dòng)發(fā)出的噪音往往會(huì)令通話質(zhì)量變得很差,導(dǎo)致朋友無(wú)法聽(tīng)清我們的聲音。在車機(jī)交互場(chǎng)景中也是如此:如果在車內(nèi)、車窗旁的環(huán)境噪音過(guò)大,車載語(yǔ)音助手的識(shí)別功能就會(huì)被干擾,無(wú)法達(dá)到最優(yōu)交互。

而在車機(jī)交互系統(tǒng)中,常見(jiàn)的噪音包括了路噪、風(fēng)噪、空調(diào)和音響等不同類型。


02 用戶口音挑戰(zhàn)

當(dāng)一個(gè)湖南人對(duì)著車載語(yǔ)音助手說(shuō)“我要導(dǎo)航去胡建”,和一個(gè)福建人對(duì)車載語(yǔ)音助手說(shuō)“我要導(dǎo)航到福南”,二者所面臨的結(jié)果可能是一樣的:車載語(yǔ)音助手無(wú)法進(jìn)行正確的語(yǔ)音識(shí)別。

很明顯,在整個(gè)語(yǔ)音識(shí)別體系中,比噪音更影響語(yǔ)音識(shí)別功能的因素,則是用戶的口音和方言。


03 海量POI挑戰(zhàn)

同時(shí),海量的POI(point of information,信息點(diǎn))也是干擾語(yǔ)音識(shí)別的“絆腳石”。舉個(gè)簡(jiǎn)單例子,當(dāng)你告知車載語(yǔ)音助手,需要導(dǎo)航到棠下,然而,廣州天河區(qū)和白云區(qū)都有一個(gè)棠下。更甚,當(dāng)告知其hongyuan酒店的時(shí)候,將會(huì)識(shí)別出云南大理(宏緣酒店)、廣東揭陽(yáng)(鴻源酒店)和廣東東莞(宏遠(yuǎn)酒店)。

大量的POI,令車載語(yǔ)音助手無(wú)法迅速地進(jìn)行語(yǔ)音識(shí)別的準(zhǔn)確判斷。


04 場(chǎng)景化挑戰(zhàn)

不同場(chǎng)景化中用戶的個(gè)性化需求,也作為影響語(yǔ)音識(shí)別功能的因素之一。當(dāng)你告知車載語(yǔ)音助手一些較為生僻的特殊詞匯,這時(shí)候它是無(wú)法識(shí)別的,就像讓爸媽聽(tīng)專業(yè)的學(xué)術(shù)報(bào)告般,對(duì)特殊領(lǐng)域感到一頭霧水。

對(duì)于語(yǔ)音識(shí)別系統(tǒng)也是一樣,要求它適應(yīng)各種領(lǐng)域的特殊用詞是存在一定難度的。這便要求車載語(yǔ)音助手必須具備一定的靈活性和可配置性。


在語(yǔ)音識(shí)別的整個(gè)行業(yè)中,對(duì)構(gòu)建其系統(tǒng)強(qiáng)魯棒性的四個(gè)挑戰(zhàn)是普遍存在的。當(dāng)語(yǔ)音識(shí)別將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令時(shí),用戶口音、環(huán)境噪聲、海量POI以及場(chǎng)景化語(yǔ)音均構(gòu)成影響識(shí)別系統(tǒng)決策的變量,這便尤其考驗(yàn)語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)穩(wěn)定性。

為此,騰訊云小微團(tuán)隊(duì)面對(duì)四大影響因素的難題挑戰(zhàn),不斷對(duì)系統(tǒng)內(nèi)部的各項(xiàng)AI技術(shù)進(jìn)行迭代優(yōu)化,目前給出了一份廣獲行業(yè)認(rèn)可的優(yōu)質(zhì)解決方案。


解決方案1——針對(duì)環(huán)境噪音挑戰(zhàn)

面對(duì)噪音帶來(lái)的挑戰(zhàn),騰訊云小微團(tuán)隊(duì)采取了與內(nèi)部、外部供應(yīng)商合作的開(kāi)發(fā)模式,從車內(nèi)語(yǔ)音交互場(chǎng)景出發(fā),共同打造了騰訊車載聲學(xué)前端方案,對(duì)噪聲進(jìn)行抑制和回聲消除。


圖片


除了可以有效抑制環(huán)境噪音外,總的來(lái)看,騰訊車載聲學(xué)前端方案還具有以下幾個(gè)優(yōu)勢(shì):

第一,軟件和硬件方案齊備。其中的軟件前端方案由騰訊云小微團(tuán)隊(duì)與AILab聯(lián)合打造,全鏈條均由騰訊自有技術(shù)構(gòu)成。

第二,適用面廣??芍С侄喾Nmic數(shù)量和布局,可覆蓋前裝和后裝、高端和低端等多種車型。

第三,功能完備??芍С諥EC、NS、DOA和多音區(qū)能力。

第四,接入迅速。騰訊云小微團(tuán)隊(duì)制定了聲學(xué)前端準(zhǔn)入的標(biāo)準(zhǔn)化測(cè)試流程,加速與第三方聲學(xué)前端適配過(guò)程。


解決方案2——針對(duì)用戶口音挑戰(zhàn)

面對(duì)各地區(qū)用戶口音的挑戰(zhàn),騰訊云小微團(tuán)隊(duì)采用了兩種方案。

其一,采用了分區(qū)域聲學(xué)模型,將全國(guó)劃分為多個(gè)不同的區(qū)域,基于base模型進(jìn)行finetune得到區(qū)域模型。


圖片


其二,騰訊云小微團(tuán)隊(duì)采取了地域向量,根據(jù)地域的劃分,引入Area vector的向量,這個(gè)向量會(huì)輸入到網(wǎng)絡(luò)中,在網(wǎng)絡(luò)訓(xùn)練時(shí)便將地域信息引入利用,以此幫助模型更好地進(jìn)行分類應(yīng)用。


圖片


同時(shí),客戶端上的GPS、語(yǔ)音請(qǐng)求與IP信息被解析為地域信息,為兩種方案的模型提供解碼方向。

關(guān)于這兩種方案,分地域聲學(xué)模型的訓(xùn)練和維護(hù)相對(duì)而言較為復(fù)雜,但它屬于一個(gè)解耦的系統(tǒng),方便針對(duì)某一個(gè)地域的模型進(jìn)行優(yōu)化;而地域向量聲學(xué)模型則相對(duì)簡(jiǎn)單,但存在較大的耦合性。從最終效果上看,分地域聲學(xué)模型的效果稍微更勝一籌,而整體上,兩種方案都能獲得5%-10%的性能提升。


解決方案3——針對(duì)海量POI挑戰(zhàn)

面對(duì)海量POI的挑戰(zhàn),騰訊云小微團(tuán)隊(duì)引入了兩個(gè)技術(shù):地域ngram聯(lián)合rescore技術(shù)和長(zhǎng)尾POI后處理能力。

例如hongyuan酒店分別在云南大理(宏緣酒店)、廣東揭陽(yáng)(鴻源酒店)和廣東東莞(宏遠(yuǎn)酒店)存在,地域ngram聯(lián)合rescore技術(shù)便可以幫助車載語(yǔ)音助手識(shí)別該酒店是位于云南還是廣東,而長(zhǎng)尾POI后處理能力則是進(jìn)行了更細(xì)膩的劃分,協(xié)助識(shí)別是揭陽(yáng)還是東莞。

利用海量訓(xùn)練文本和千萬(wàn)級(jí)POI數(shù)據(jù)訓(xùn)練ngram語(yǔ)言模型,將該模型分為低階ngram和高階ngram兩部分。低階ngram與聲學(xué)模型/詞典通過(guò)構(gòu)圖生成WFST解碼網(wǎng)絡(luò),除此之外,高階ngram也會(huì)執(zhí)行on the fly rescore的操作,進(jìn)一步地提升識(shí)別效果,完成一遍解碼。在一遍解碼獲得nbest的識(shí)別結(jié)果后,還會(huì)利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言進(jìn)行二遍rescore,而不同地域ngram的語(yǔ)言模型則在這個(gè)模塊中聯(lián)合rescore進(jìn)行POI識(shí)別。地域ngram聯(lián)合rescore技術(shù)能令POI識(shí)別率獲得10%的性能提升。


圖片


關(guān)于長(zhǎng)尾POI后處理技術(shù),包含兩個(gè)大模塊,一是云小微語(yǔ)義團(tuán)隊(duì)提供的NLU模塊,負(fù)責(zé)領(lǐng)域分類與實(shí)體提?。欢球v訊地圖提供的QC模塊,負(fù)責(zé)模糊音修復(fù)、hitpoi和檢索。在搜索hongyuan酒店時(shí),NLU模塊會(huì)將hongyuan酒店作為實(shí)體,與用戶所在地一同輸送至QC模塊,進(jìn)行模糊音修復(fù)和檢索,得到最終結(jié)果——hongyuan酒店+揭陽(yáng)市=鴻源酒店(揭陽(yáng))。至此,長(zhǎng)尾POI后處理技術(shù)將POI識(shí)別率進(jìn)行了10%的性能提升。


圖片


解決方案4——針對(duì)場(chǎng)景化挑戰(zhàn)

面對(duì)不同場(chǎng)景化的挑戰(zhàn),騰訊云小微團(tuán)隊(duì)針對(duì)特殊詞匯、個(gè)性化句式、個(gè)性化領(lǐng)域的典型場(chǎng)景化需求,分別提出了三種技術(shù)方案——Hotfix增強(qiáng)技術(shù)、Grammar增強(qiáng)技術(shù)和文本自學(xué)習(xí)增強(qiáng)技術(shù)。

三種增強(qiáng)技術(shù)方案滿足了不同場(chǎng)景的產(chǎn)品需求,大幅提升場(chǎng)景化的識(shí)別結(jié)果,可以提供更好的語(yǔ)音交互體驗(yàn)。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25