基于pairwise核的蛋白質(zhì)相互作用對稱預(yù)測研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數(shù)：143 大?。?.23MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩142頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)是生命活動的直接執(zhí)行者，蛋白質(zhì)之間的相互作用是蛋白質(zhì)實現(xiàn)其功能的重要途徑之一，因此構(gòu)建蛋白質(zhì)相互作用（protein-protein interaction,PPI）網(wǎng)絡(luò)是了解分子生物功能、洞悉細(xì)胞生命規(guī)律的前提，也是研究生物體內(nèi)疾病的產(chǎn)生與發(fā)展、進(jìn)而從事藥物分子靶標(biāo)識別的關(guān)鍵。蛋白質(zhì)相互作用預(yù)測方法是近年來生物信息學(xué)家關(guān)注的一個熱點問題，它可以有效克服生物實驗檢測方法周期長、代價昂貴、假陽性率高的缺點。而對稱性預(yù)測、核函數(shù)的選擇

2、是基于機(jī)器學(xué)習(xí)核方法進(jìn)行蛋白質(zhì)相互作用預(yù)測的兩個關(guān)鍵因素，它直接關(guān)系到預(yù)測模型的有效性及準(zhǔn)確性。
　　本文以蛋白質(zhì)相互作用的對稱性為切入點，研究了pairwise核在保證蛋白質(zhì)相互作用對稱預(yù)測方面的必要性，揭示了傳統(tǒng)核方法以及傳統(tǒng)反例數(shù)據(jù)集對蛋白質(zhì)相互作用預(yù)測的偏置影響，提出了解決偏置的方案及算法。在此基礎(chǔ)上，將無偏置預(yù)測模型應(yīng)用于大豆物種的蛋白質(zhì)相互作用預(yù)測，取得了較好的效果。
　　第一，揭示了傳統(tǒng)核方法在蛋白質(zhì)相互作用預(yù)

3、測過程中對蛋白質(zhì)次序的依賴偏置，在充分分析現(xiàn)有pairwise核函數(shù)構(gòu)建規(guī)律的基礎(chǔ)上，提出了一種新的用以保證蛋白質(zhì)相互作用對稱預(yù)測的pairwise核函數(shù)，并利用其構(gòu)建了一種多核組合模型，較之已有的方法，該模型具有更高的預(yù)測準(zhǔn)確率。
　　蛋白質(zhì)相互作用具有典型的對稱特點，即“蛋白質(zhì)A與B相互作用”等同于“蛋白質(zhì)B與A相互作用”。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中，當(dāng)?shù)鞍踪|(zhì)以順序拼接方式構(gòu)成訓(xùn)練/測試樣本時，普通核方法由于無法識別一個樣本由兩個

4、蛋白質(zhì)組成的事實，從而對蛋白質(zhì)的次序變得較為敏感，由此產(chǎn)生預(yù)測偏置。這種偏置表現(xiàn)為分類器可能產(chǎn)生“蛋白質(zhì)A與B相互作用”而“蛋白質(zhì)B與A不相互作用”的相悖結(jié)論。
　　Pairwise核克服了傳統(tǒng)核以樣本作為相似度度量單位的局限，采用蛋白質(zhì)作為相似度度量單位，有效保證了蛋白質(zhì)相互作用預(yù)測的對稱性。本文強(qiáng)調(diào)了pairwise核在實現(xiàn)對稱預(yù)測方面的必要性，總結(jié)了現(xiàn)有的幾種pairwise核函數(shù)在對稱性、正定性、均衡性方面的一般特點，分析

5、、提煉了它們在改善預(yù)測性能方面的一般規(guī)律。在此基礎(chǔ)上，提出了一種新的pairwise核函數(shù)——AMPK（Arcsin Maximum Pairwise Kernel），并分別基于Cosine核、拉普拉斯核構(gòu)建了AMPK的多核組合模型，該模型在蛋白質(zhì)復(fù)合體相互作用預(yù)測中取得了比已有的核方法更優(yōu)的預(yù)測性能。
　　第二，揭示了在簡單序列特征（三聯(lián)氨基酸）的傳統(tǒng)數(shù)據(jù)集上，采用pairwise核方法進(jìn)行蛋白質(zhì)相互作用預(yù)測存在嚴(yán)重偏置。提出了

6、一種構(gòu)建合理反例集的方法，從而使分類器的預(yù)測性能夠得到公正、客觀地評價。
　　由于傳統(tǒng)方法所采用的正、反例數(shù)據(jù)集分別具有無標(biāo)度（scale-free）網(wǎng)絡(luò)以及隨機(jī)網(wǎng)絡(luò)性質(zhì)，一部分稱之為hub結(jié)點的蛋白質(zhì)在正、反例集中出現(xiàn)次數(shù)差異較大，形成所謂“強(qiáng)勢樣本”。受訓(xùn)練集中“強(qiáng)勢樣本”的影響，pairwise核分類器傾向于將含有hub結(jié)點的測試樣本預(yù)測為正例、而將含有非hub蛋白質(zhì)的測試樣本預(yù)測為反例——這種偏置效應(yīng)在基于簡單序列特征（即

7、三聯(lián)氨基酸）的數(shù)據(jù)上表現(xiàn)得尤為明顯，從而導(dǎo)致對分類器預(yù)測性能過于樂觀的估計。
　　基于此，本文提出了一種針對正例集無標(biāo)度網(wǎng)絡(luò)結(jié)構(gòu)的、以“平衡隨機(jī)采樣”方式構(gòu)建合理反例集的方法。通過保證每個蛋白質(zhì)在正、反例集中出現(xiàn)的次數(shù)基本一致來消除正、反例數(shù)據(jù)集的結(jié)構(gòu)差異。在合理反例集上，分類器的預(yù)測性能可以得到公正、客觀的評價。最后證明了復(fù)雜序列特征（Pfam域）對預(yù)測偏置的影響程度以及它在預(yù)測蛋白質(zhì)相互作用中的積極貢獻(xiàn)。
　　第三，首次

8、基于新近測序的大豆基因組數(shù)據(jù)，將傳統(tǒng)的同源PPI推理方法與本文的無偏置pairwise核預(yù)測模型相結(jié)合，推理、預(yù)測得到10426條大豆蛋白質(zhì)相互作用數(shù)據(jù)。
　　大豆蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建是大豆基因組測序工作完成以后的一項重要任務(wù)。本文首次以大豆基因組數(shù)據(jù)為來源，采用同源PPI（interolog）推理方法與基于域特征的pairwise核預(yù)測方法相結(jié)合的方式，得到上萬條大豆蛋白質(zhì)相互作用數(shù)據(jù)。首先，以擬南芥、酵母、人類三個源物種的P

9、PI為源數(shù)據(jù)，尋找它們在大豆物種中的同源PPI，據(jù)此得到大豆蛋白質(zhì)相互作用候選集；然后，提出跨物種的訓(xùn)練/測試模式，利用域及其相互作用在物種間表現(xiàn)出的保守性，在源物種數(shù)據(jù)上建立關(guān)于InterPro域的無偏置pairwise核預(yù)測模型，而后將預(yù)測模型應(yīng)用于大豆PPI候選集，以篩除其中的假陽數(shù)據(jù)。交叉驗證結(jié)果表明，預(yù)測結(jié)果具有較高的可信性，從而表明本文所采用的方法在新近測序物種的蛋白質(zhì)相互作用預(yù)測方面具有較高的參考價值。最后分析了大豆蛋白質(zhì)

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于pairwise核的蛋白質(zhì)相互作用對稱預(yù)測研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于pairwise核的蛋白質(zhì)相互作用對稱預(yù)測研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載