基于信號(hào)稀疏特性的語音增強(qiáng)算法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：pdf 頁(yè)數(shù)：134 大小：25.33MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩133頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音增強(qiáng)是語音信號(hào)處理中的一個(gè)重要研究方向，在遠(yuǎn)程通信、助聽設(shè)備、智能家電、人機(jī)交互以及智能會(huì)議系統(tǒng)中有著廣泛的應(yīng)用。語音增強(qiáng)算法一般利用干凈信號(hào)與噪聲在結(jié)構(gòu)特性上的差異，采用數(shù)學(xué)方法將觀測(cè)到含有噪聲的語音信號(hào)變換到新的域。在這個(gè)新的域內(nèi)，語音和噪聲的區(qū)分性變得更加明顯。具體而言，干猙語音對(duì)應(yīng)的系數(shù)往往是稀疏分布的，而噪聲對(duì)應(yīng)的系數(shù)則是隨機(jī)分布的。因而只需簡(jiǎn)單的數(shù)學(xué)操作就可以實(shí)現(xiàn)語音和噪聲的分離。然而現(xiàn)行的語音增強(qiáng)系統(tǒng)仍然有諸多問題沒有

2、解決。比如說，在很多算法中，噪聲通常被假設(shè)為近似平穩(wěn)的。這意味著與干凈語音相比，噪聲幅度的變化速度相對(duì)緩慢。在噪聲不滿足平穩(wěn)性假設(shè)時(shí)，很多語音增強(qiáng)算法會(huì)面臨性能損失，甚至?xí)?dǎo)致明顯的語音失真。為此，研究者們提出將多個(gè)相同型號(hào)的麥克風(fēng)按照一定形狀組成麥克風(fēng)陣列，進(jìn)而發(fā)展出了豐富的多通道語音增強(qiáng)算法。此外，真實(shí)場(chǎng)景中往往還存在著混響和回聲等，這給多通道語音增強(qiáng)算法帶來嚴(yán)峻的考驗(yàn)。本文基于干凈語音信號(hào)在不同變換域中體現(xiàn)的稀疏特性，提出了幾種行

3、之有效的語音增強(qiáng)算法，主要工作可以概括如下:
　　首先，針對(duì)在時(shí)域呈現(xiàn)稀疏和非平穩(wěn)特性，且在時(shí)間上隨機(jī)分布、幅度任意大的沖擊噪聲，提出一個(gè)基于單通道的魯棒的時(shí)頻分解模型，將受噪聲污染數(shù)據(jù)中的干凈語音成分投影到一個(gè)離散余弦變換字典上，將沖擊噪聲投影到一個(gè)單位矩陣字典上。通過控制兩組投影系數(shù)的稀疏度比例，并采用一種改進(jìn)的正交匹配追蹤算法，可以優(yōu)化得到兩種成分對(duì)應(yīng)的稀疏投影矢量，進(jìn)而實(shí)現(xiàn)對(duì)干凈語音成分的重構(gòu)。通過控制稀疏度的比例和重構(gòu)誤

4、差的大小，可以控制語音失真和噪聲殘留之間的平衡，從而取得最佳的聽覺效果。
　　其次，針對(duì)在實(shí)際環(huán)境中存在的方向性、無方向噪聲，提出對(duì)多通道音頻數(shù)據(jù)流做并行化處理。采用一個(gè)固定長(zhǎng)和寬的矩形窗口，在多通道音頻流上按照一定的速度均勻滑動(dòng)。在每個(gè)特定時(shí)刻，只針對(duì)窗口選取的數(shù)據(jù)矩陣的行、列作線性變換，從而實(shí)現(xiàn)空時(shí)協(xié)同濾波。我們采用迭代的方式分別更新時(shí)間濾波器矩陣和空間濾波器矩陣?；谧钚【秸`差準(zhǔn)則，首先固定時(shí)間濾波器，更新空間濾波器;然后

5、固定空間濾波器，更新時(shí)間濾波器;整個(gè)過程在兩到三個(gè)循環(huán)即可收斂。最終，可以一次性得到對(duì)應(yīng)所有通道的增強(qiáng)之后的語音數(shù)據(jù)。
　　再次，為了充分利用多通道觀測(cè)數(shù)據(jù)中攜帶的時(shí)間和空間信息，先對(duì)每個(gè)通道輸出的音頻數(shù)據(jù)流進(jìn)行分幀，然后把這些幀重排為一個(gè)矩陣。更進(jìn)一步，將對(duì)應(yīng)于各通道音頻流的矩陣堆疊成一個(gè)三階張量，并設(shè)計(jì)三個(gè)濾波器（即幀內(nèi)濾波器，幀間濾波器，空間濾波器），對(duì)該觀測(cè)張量進(jìn)行空時(shí)協(xié)同濾波?；谧钚【秸`差準(zhǔn)則，采用一種循環(huán)迭代的方式

6、交替更新三個(gè)濾波器，直到整個(gè)過程收斂。該方法可以一次性地估計(jì)得到所有通道內(nèi)的干凈語音數(shù)據(jù)。
　　最后，基于上述三階張量模型，我們提出將張量分解的方法用于多通道語音降噪。我們把含噪聲的觀測(cè)語音張量投影到設(shè)計(jì)好的正交基矩陣上，這包括通用基矩陣、有監(jiān)督基矩陣、無監(jiān)督基矩陣。通用基矩陣為三維離散余弦變換基矩陣，有監(jiān)督基矩陣可以從預(yù)先提供的干凈語音學(xué)習(xí)得到，無監(jiān)督基矩陣則從含噪聲的語音張量中自動(dòng)推理獲得。投影系數(shù)被包含在一個(gè)具有同樣尺寸的核

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于信號(hào)稀疏特性的語音增強(qiáng)算法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于信號(hào)稀疏特性的語音增強(qiáng)算法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載