2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩133頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音增強(qiáng)是語音信號(hào)處理中的一個(gè)重要研究方向,在遠(yuǎn)程通信、助聽設(shè)備、智能家電、人機(jī)交互以及智能會(huì)議系統(tǒng)中有著廣泛的應(yīng)用。語音增強(qiáng)算法一般利用干凈信號(hào)與噪聲在結(jié)構(gòu)特性上的差異,采用數(shù)學(xué)方法將觀測(cè)到含有噪聲的語音信號(hào)變換到新的域。在這個(gè)新的域內(nèi),語音和噪聲的區(qū)分性變得更加明顯。具體而言,干猙語音對(duì)應(yīng)的系數(shù)往往是稀疏分布的,而噪聲對(duì)應(yīng)的系數(shù)則是隨機(jī)分布的。因而只需簡(jiǎn)單的數(shù)學(xué)操作就可以實(shí)現(xiàn)語音和噪聲的分離。然而現(xiàn)行的語音增強(qiáng)系統(tǒng)仍然有諸多問題沒有

2、解決。比如說,在很多算法中,噪聲通常被假設(shè)為近似平穩(wěn)的。這意味著與干凈語音相比,噪聲幅度的變化速度相對(duì)緩慢。在噪聲不滿足平穩(wěn)性假設(shè)時(shí),很多語音增強(qiáng)算法會(huì)面臨性能損失,甚至?xí)?dǎo)致明顯的語音失真。為此,研究者們提出將多個(gè)相同型號(hào)的麥克風(fēng)按照一定形狀組成麥克風(fēng)陣列,進(jìn)而發(fā)展出了豐富的多通道語音增強(qiáng)算法。此外,真實(shí)場(chǎng)景中往往還存在著混響和回聲等,這給多通道語音增強(qiáng)算法帶來嚴(yán)峻的考驗(yàn)。本文基于干凈語音信號(hào)在不同變換域中體現(xiàn)的稀疏特性,提出了幾種行

3、之有效的語音增強(qiáng)算法,主要工作可以概括如下:
  首先,針對(duì)在時(shí)域呈現(xiàn)稀疏和非平穩(wěn)特性,且在時(shí)間上隨機(jī)分布、幅度任意大的沖擊噪聲,提出一個(gè)基于單通道的魯棒的時(shí)頻分解模型,將受噪聲污染數(shù)據(jù)中的干凈語音成分投影到一個(gè)離散余弦變換字典上,將沖擊噪聲投影到一個(gè)單位矩陣字典上。通過控制兩組投影系數(shù)的稀疏度比例,并采用一種改進(jìn)的正交匹配追蹤算法,可以優(yōu)化得到兩種成分對(duì)應(yīng)的稀疏投影矢量,進(jìn)而實(shí)現(xiàn)對(duì)干凈語音成分的重構(gòu)。通過控制稀疏度的比例和重構(gòu)誤

4、差的大小,可以控制語音失真和噪聲殘留之間的平衡,從而取得最佳的聽覺效果。
  其次,針對(duì)在實(shí)際環(huán)境中存在的方向性、無方向噪聲,提出對(duì)多通道音頻數(shù)據(jù)流做并行化處理。采用一個(gè)固定長(zhǎng)和寬的矩形窗口,在多通道音頻流上按照一定的速度均勻滑動(dòng)。在每個(gè)特定時(shí)刻,只針對(duì)窗口選取的數(shù)據(jù)矩陣的行、列作線性變換,從而實(shí)現(xiàn)空時(shí)協(xié)同濾波。我們采用迭代的方式分別更新時(shí)間濾波器矩陣和空間濾波器矩陣?;谧钚【秸`差準(zhǔn)則,首先固定時(shí)間濾波器,更新空間濾波器;然后

5、固定空間濾波器,更新時(shí)間濾波器;整個(gè)過程在兩到三個(gè)循環(huán)即可收斂。最終,可以一次性得到對(duì)應(yīng)所有通道的增強(qiáng)之后的語音數(shù)據(jù)。
  再次,為了充分利用多通道觀測(cè)數(shù)據(jù)中攜帶的時(shí)間和空間信息,先對(duì)每個(gè)通道輸出的音頻數(shù)據(jù)流進(jìn)行分幀,然后把這些幀重排為一個(gè)矩陣。更進(jìn)一步,將對(duì)應(yīng)于各通道音頻流的矩陣堆疊成一個(gè)三階張量,并設(shè)計(jì)三個(gè)濾波器(即幀內(nèi)濾波器,幀間濾波器,空間濾波器),對(duì)該觀測(cè)張量進(jìn)行空時(shí)協(xié)同濾波?;谧钚【秸`差準(zhǔn)則,采用一種循環(huán)迭代的方式

6、交替更新三個(gè)濾波器,直到整個(gè)過程收斂。該方法可以一次性地估計(jì)得到所有通道內(nèi)的干凈語音數(shù)據(jù)。
  最后,基于上述三階張量模型,我們提出將張量分解的方法用于多通道語音降噪。我們把含噪聲的觀測(cè)語音張量投影到設(shè)計(jì)好的正交基矩陣上,這包括通用基矩陣、有監(jiān)督基矩陣、無監(jiān)督基矩陣。通用基矩陣為三維離散余弦變換基矩陣,有監(jiān)督基矩陣可以從預(yù)先提供的干凈語音學(xué)習(xí)得到,無監(jiān)督基矩陣則從含噪聲的語音張量中自動(dòng)推理獲得。投影系數(shù)被包含在一個(gè)具有同樣尺寸的核

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論