2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、蛋白質(zhì)出現(xiàn)在所有生物中,是一類重要的生物大分子,它們在幾乎所有生物過程中起了關(guān)鍵的作用。蛋白質(zhì)由氨基酸構(gòu)成,氨基酸按序連接形成蛋白質(zhì)的初始結(jié)構(gòu)。蛋白質(zhì)二級結(jié)構(gòu)的基本元素為α螺旋、β折疊層、卷曲螺旋和轉(zhuǎn)角。轉(zhuǎn)角是結(jié)構(gòu)化的基序,基序中兩個殘基的α原子被幾個肽鍵(通常是1到5個)分隔,它們之間的距離小于7A°,相應(yīng)的殘基不能形成規(guī)則的二級結(jié)構(gòu)元素如α螺旋或β折疊層。不同的轉(zhuǎn)角按照兩個端殘基之間的距離分類。終端殘基被α轉(zhuǎn)角中的4個肽鍵、β轉(zhuǎn)角中

2、的3個肽鍵、γ轉(zhuǎn)角中的2個肽鍵、δ轉(zhuǎn)角中1個肽鍵和π轉(zhuǎn)角中的5個肽鍵分隔。β轉(zhuǎn)角是在蛋白質(zhì)中發(fā)現(xiàn)的最常見的轉(zhuǎn)角結(jié)構(gòu)形式,因為蛋白質(zhì)結(jié)構(gòu)中,大約25%的氨基酸在它們當中。因為涉及到轉(zhuǎn)角形式的相互作用大部分是局部的,所以β轉(zhuǎn)角在鏈熵中能勝任初始的繁殖結(jié)構(gòu)卻沒有大的損失,這使β轉(zhuǎn)角在蛋白質(zhì)折疊中變得很重要。這個觀點與層次折疊模型是一致的。在層次折疊模型中,某些包含具有高的轉(zhuǎn)角傾向的殘基的轉(zhuǎn)角充當了結(jié)構(gòu)形成的活動成核點,這些成核點源自于角落殘基

3、并向側(cè)邊的β絞絲傳播。β轉(zhuǎn)角在蛋白質(zhì)的折疊反應(yīng)中起來兩個不同的作用:它們或者是主動折疊和作為起始位點起作用,或者是僅僅在其他區(qū)域發(fā)育完成之后形成的被動折疊元素。當β折疊作為被動折疊起作用時,其他折疊事件如肽鏈坍塌或穩(wěn)定的第三位的相互作用促進了結(jié)構(gòu)的形成,而且,轉(zhuǎn)角的形成僅僅是來自蛋白質(zhì)的其他區(qū)域結(jié)構(gòu)鞏固的結(jié)果。這些不同的作用可能來自,在形成不同蛋白質(zhì)的原始狀態(tài)的過程中,各種相互作用的相對重要性。
  通過固有的偏向于φ,ψ空間以及

4、側(cè)鏈包裹相互作用和局部環(huán)境,轉(zhuǎn)角能影響蛋白質(zhì)的原始狀態(tài)的的穩(wěn)定性。因為β轉(zhuǎn)角通常發(fā)生在蛋白質(zhì)的暴露面,所有它們很適合參與配體結(jié)合、分子辨識、蛋白質(zhì)-蛋白質(zhì)相互作用、蛋白質(zhì)-核酸相互作用,因而,調(diào)節(jié)了蛋白質(zhì)功能和分子間的相互作用;另外,它們是頻繁的翻譯后修飾點,如被用于調(diào)節(jié)相互作用的磷酸化作用和糖基化。因此,開發(fā)精確的β轉(zhuǎn)角測定方法是很有價值的。
  x射線晶體學和核磁共振都越來越多地運用于蛋白質(zhì)結(jié)構(gòu)預(yù)測。而結(jié)構(gòu)測定并不是一個直線前

5、進的過程,X射線結(jié)晶學受限于蛋白質(zhì)形成晶體的難度,核磁共振只適用于相對較小的蛋白質(zhì)分子。兩種方法在時間、表現(xiàn)形式和蛋白質(zhì)的大小方面受到限制。通過全基因組序列測定了大量的蛋白質(zhì)序列,然而確定相應(yīng)的蛋白質(zhì)結(jié)構(gòu)卻要緩慢得多。因而,計算方法是必要的。目前,有幾種用于β轉(zhuǎn)角測定的計算方法,在預(yù)測質(zhì)量方面有很大的挑戰(zhàn)和改進的空間。
  在本文中,我們整合機器學習和基于統(tǒng)計的方法在蛋白質(zhì)二級結(jié)構(gòu)中預(yù)測β轉(zhuǎn)角。我們考慮在人工神經(jīng)網(wǎng)絡(luò)中使用統(tǒng)計空間

6、降維的方法增加其在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中的有效性,并且產(chǎn)生與目前的其他方法的可比較的結(jié)果。我們也公式化了邏輯回歸模型和使用了核心邏輯回歸預(yù)測β轉(zhuǎn)角。這兩種技術(shù)通常是不用于蛋白質(zhì)二級結(jié)構(gòu)和β轉(zhuǎn)角預(yù)測的研究領(lǐng)域的。最后,我們提供了一個混合方法,它將支持向量機和邏輯回歸結(jié)合為一個強有力的框架,這種方法在蛋白質(zhì)的β轉(zhuǎn)角預(yù)測中運行良好。
  因為訓練神經(jīng)網(wǎng)絡(luò)是一個耗時的過程,尤其是當特征數(shù)很大時。我們開始使用主成分分析,它是一種數(shù)學過程,在蛋

7、白質(zhì)二級結(jié)構(gòu)預(yù)測的神經(jīng)網(wǎng)絡(luò)中將相關(guān)的變量轉(zhuǎn)換為順序的無關(guān)的蛋白質(zhì)。主成分分析能用于降低共軛梯度算法在預(yù)測蛋白質(zhì)二級結(jié)構(gòu)時訓練神經(jīng)網(wǎng)絡(luò)的計算費用。共軛梯度算法是一種搜索方法,能用于在共軛方向上最小化網(wǎng)絡(luò)輸出錯誤。訓練神經(jīng)網(wǎng)絡(luò)是為了識別位于已知的二級結(jié)構(gòu)中的氨基酸的模式和將這些模式與不在二級結(jié)構(gòu)中的其他模式區(qū)別開來。神經(jīng)網(wǎng)絡(luò)的輸入層編碼氨基酸序列中的一個移動窗口和預(yù)測窗口中的中心殘基??赡艿拇翱诘拇笮?,7,9,11,15,17,19和2

8、1?;诙壗Y(jié)構(gòu)的統(tǒng)計相關(guān)性,預(yù)測點的任意一邊最多有8個殘基,因此最大的窗口大小設(shè)為17。
  單序列信息作為神經(jīng)網(wǎng)絡(luò)的輸入特征。單序列信息中,每個窗口位置中的每個氨基酸被一個有20個輸入的向量編碼,每個輸入對應(yīng)在那個位置上的每個可能的氨基酸類型。在每個向量中,對應(yīng)在那個窗口位置上的氨基酸的類型的輸入被設(shè)置為1,所有其他輸入被設(shè)置為0。特定位置打分矩陣PSSMs也被考慮為輸入特征。在特定位置打分矩陣中,每行對應(yīng)一個氨基酸殘基?;?/p>

9、具體的窗口尺寸的神經(jīng)網(wǎng)絡(luò)的輸入向量形成了對應(yīng)于在具體窗口位置上的特定的氨基酸的特定位置打分矩陣的行。
  我們嘗試過大小為17和15的不同滑動窗口,以及沿著序列移動的13個氨基酸殘基。選擇窗口大小為15是依據(jù)關(guān)于蛋白質(zhì)二級結(jié)構(gòu)的最新研究,此研究推斷,提供高精度的最優(yōu)窗口大小為15。選擇窗口大小為17是由于二級結(jié)構(gòu)的統(tǒng)計相關(guān)性,即預(yù)測點任意一邊最多有8個殘基。選擇窗口大小為13,則是因為檢測當選擇的窗口大小小于15時,查看預(yù)測效果是

10、否會下降。每一個窗口中的序列,以使用SCG方法識別二級結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)訓練方法的輸入的方式,被讀取和使用。神經(jīng)網(wǎng)絡(luò)模型包含3層處理單元:輸入層,輸出層和隱蔽層。輸入層讀取序列,每個氨基酸殘基一個單元,并且向在該位點的氨基酸傳遞信息。
  當窗口大小為17時,輸入層包含R=17*20個輸入單元。隱蔽層對輸出信號進行加權(quán),并發(fā)送到3個輸出單元,分別表示預(yù)測的α螺旋、β折疊和循環(huán)或窗口中央次級氨基二級結(jié)構(gòu)的卷曲。當輸出信號接近1表示預(yù)測的

11、氨基酸擁有相應(yīng)的結(jié)構(gòu),弱信號接近0時則沒有預(yù)測。
  NN的輸出層由3個單元構(gòu)成,每一個用于所考慮的結(jié)構(gòu)狀態(tài),這是使用一個二進制編碼的方案。用來表示氨基酸二級結(jié)構(gòu)的目標矩陣,首先從與滑動窗口對應(yīng)的所有可能子序列的結(jié)構(gòu)分配的數(shù)據(jù)獲取。然后,考慮每個窗口的中央位置,并使用二進制編碼,100α螺旋,010β折疊,001循環(huán),轉(zhuǎn)換相應(yīng)的結(jié)構(gòu)分配。
  使用主成分分析時,被提取的成分數(shù)等于被分析的變量數(shù)。因此,有必要確定有多少個成分是

12、真正有意義和值得保留的。每個主成分表示原始變量的線性組合,其中第一主成分被定義為變量的所有線性組合之間的最大樣本方差的線性組合。接下來的主成分,代表了解釋最大樣本方差的線性組合。由于主成分(PCs)之間不相關(guān)并且有序,那么開始的少數(shù)主成分能夠說明總體方差的最大數(shù)目,或者換句話說,只有開始的少數(shù)成分可以說明方差的意義,而以后的成分則只是說明不重要的方差。有一些通用的規(guī)則來選擇保留多少開始的主成分。但是,被解釋方差的累積比例(例如95%)應(yīng)

13、該用于決定保留多少開始主成分。在數(shù)據(jù)集中,對變量影響最小的成分將被去除。
  為了預(yù)測蛋白質(zhì)二級結(jié)構(gòu),我們在MATLAB中編寫代碼建立一個神經(jīng)網(wǎng)絡(luò)。數(shù)據(jù)集中60%用來訓練,20%驗證,20%作為測試。通過減少數(shù)據(jù)維度的方式,我們比較了不同情況下對神經(jīng)網(wǎng)絡(luò)進行訓練所需的時間。此外,我們比較使用PCA減少數(shù)據(jù)維度前后的預(yù)測精度。實驗結(jié)果顯示,在RS126的蛋白質(zhì)序列中,PCA能夠減少訓練神經(jīng)網(wǎng)絡(luò)所需的時間,但并不影響預(yù)測精度。

14、  其次,我們提出了邏輯回歸和核心邏輯回歸方法預(yù)測β轉(zhuǎn)角。用于評價預(yù)測性能的指標包括測試檢驗一致性的指標和用于評價β轉(zhuǎn)角預(yù)測的指標。具體包括Qtotal(預(yù)測精確度)、Qpredicted(正確預(yù)測的概率,指在被預(yù)測的轉(zhuǎn)角中正確預(yù)測到的轉(zhuǎn)角的百分率,也稱為陽性預(yù)測值)、Qobserved(敏感度或覆蓋率,指觀察到的β轉(zhuǎn)角中被正確預(yù)測到的β轉(zhuǎn)角的百分率,或者全體被正確預(yù)測到的陽性樣本的分數(shù))和MCC(馬修相關(guān)系數(shù))。我們首先將邏輯回歸用于

15、不同的特征集合。然后,我們使用核心邏輯回歸(由于其計算要求,以前還沒有被用于預(yù)測蛋白質(zhì)二級結(jié)構(gòu)和β轉(zhuǎn)角。)。然而,不像支持向量機和神經(jīng)網(wǎng)絡(luò),核心邏輯回歸基于最大似然參數(shù)(它是額外的預(yù)測類標識)產(chǎn)生后驗概率。FS-KLR是適合大數(shù)據(jù)集的核心邏輯回歸的快速實現(xiàn),它能用于有效地在蛋白質(zhì)中預(yù)測β轉(zhuǎn)角,產(chǎn)生的結(jié)果比目前的其他方法要好。
  我們在BT426數(shù)據(jù)集上測試了LR模型。BT426數(shù)據(jù)集包含了426個非同源的蛋白質(zhì)鏈。一些研究人員已

16、經(jīng)用這個數(shù)據(jù)集作為性能評價的黃金數(shù)據(jù)集。這個數(shù)據(jù)集包括的蛋白質(zhì)鏈的結(jié)構(gòu)由X射線結(jié)晶學(分辨率小于2.0 A°或更好)確定。每條鏈包含至少一個β轉(zhuǎn)角區(qū)域。在全部23580個氨基酸中,24.9%氨基酸被指派在β轉(zhuǎn)角的位置。數(shù)據(jù)集中沒有序列共享了超過25%的序列標識。我們首先用PSSM和蛋白質(zhì)物理和化學數(shù)據(jù)屬性作為特征。查詢序列程序來自國家生物技術(shù)信息中心(NCBI)非冗余序列數(shù)據(jù)庫的本地拷貝,使用缺省參數(shù),程序運行時進行三次迭代。我們使用V

17、B.net完成該任務(wù),其中參數(shù)被傳遞給一個自動運行于psiblast程序的本地拷貝的函數(shù)。我們在PSSM特征矩陣(它隨氨基酸序列移動)上使用滑動窗口大小為7的氨基酸殘基。該窗口大小的選擇與Shepherd等人的一致。它們發(fā)現(xiàn)當窗口大小為7或者9時,β轉(zhuǎn)角預(yù)測為最優(yōu)。使用窗口大小為7時,則有140(7*20)個參數(shù)(表示PSSM中行的元素),和42(2*21)個參數(shù)(表示窗口中殘基之間的物化反應(yīng))。用來表示PSSM和物理和化學相互作用的變

18、量應(yīng)為獨立變量,總共140+42=182個特性,并且需要預(yù)測的參數(shù)個數(shù)為183(包含攔截)。數(shù)據(jù)元素的個數(shù)依賴于用來預(yù)測參數(shù)的序列個數(shù),但是應(yīng)大于特征的數(shù)目。在這種情況下,數(shù)據(jù)中有足夠的信息評估最佳擬合數(shù)據(jù)的參數(shù)的唯一值。取得的結(jié)果不是我們所需要的,所以我們試著使用LR包的整體效果,程序運行如下:
  (i)初始化數(shù)據(jù)集T
  (ii)從數(shù)據(jù)集中采用可替代的方式(其中的一些可能被反復(fù)抽到,而另外一些可能根本就不會被抽到)隨機

19、抽取樣本(自舉)
  (iii)使用此子訓練數(shù)據(jù)集訓練分類器
  (iv)重復(fù)以上步驟K次,得到K個分類器
  (v)使用聚類方法聚類K個分類器
  我們首先采用替代的方法從原數(shù)據(jù)集中建立了100個隨機樣本,然后隨機將數(shù)據(jù)隨機地劃分到訓練集70%和測試集30%。通過訓練集,采用最大似然估計(MLE)對LR參數(shù)進行估計。我們觀測的最后預(yù)測值,作為100樣本預(yù)測的平均值。
  使用LR包的總體效果仍然不是很好,

20、因此我們使用PSSM和預(yù)測的二級結(jié)構(gòu)作為特性,代替物理和化學屬性。但結(jié)果仍然不太好,于是我們使用PSSM和被預(yù)測的二級結(jié)構(gòu)作為特征而不是物理和化學屬性。被預(yù)測的二級結(jié)構(gòu)特征來自PROTEUS,包含三種結(jié)構(gòu)狀態(tài):螺旋、絞股、卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。此外,滑動窗口大小為7,殘基被使用在由PSSM和預(yù)測的二級結(jié)構(gòu)所組成的矩陣上,并對中央殘基進行了預(yù)測。當使用的窗口大小為7時,有140(7*20)個參數(shù),表示P

21、SSM行中的元素,有21(3*7)個參數(shù),表示預(yù)測二級結(jié)構(gòu),變量表示PSSM,獨立變量表示預(yù)測的二級結(jié)構(gòu),總共有140+21=161個特征。需要預(yù)測的參數(shù)個數(shù)162(包含攔截)個。
  使用被預(yù)測的二級結(jié)構(gòu)特征和PSSM導致了預(yù)測性能的大幅度改善。獲得的Qtotal、Qpredicted、Qobserved和MCC分別是80.93%、64.17%、53.19%和0.46。這意味著蛋白質(zhì)物理和化學屬性不是有效的特征,不能改善二級結(jié)構(gòu)

22、預(yù)測的性能,但是用PSSM作為特征對預(yù)測β轉(zhuǎn)角非常有效。我們的方法被用于和其他類似的方法(如支持向量機和神經(jīng)網(wǎng)絡(luò))進行比較。與其他方法相比,LR方法在解釋能力、顯著性和時間方面具有優(yōu)勢。
  除了426個非同源蛋白質(zhì)的統(tǒng)一數(shù)據(jù)庫(BT426),547個蛋白質(zhì)序列數(shù)據(jù)庫(BT547)和823個蛋白質(zhì)數(shù)據(jù)庫(BT823)也被用于評價我們的方法的性能。這些數(shù)據(jù)集用于訓練和測試COUDES。被用的特征包括PSSMs和二級結(jié)構(gòu)信息。

23、  針對二級結(jié)構(gòu)信息特征,四個二級結(jié)構(gòu)預(yù)測方法被用于所有蛋白質(zhì)鏈。這四個預(yù)測方法是PSIPRED、JNET、TRANSEC和PROTEUS。二級結(jié)構(gòu)被預(yù)測為三種狀態(tài):螺旋、絞股和卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。二級結(jié)構(gòu)信息特征按如下方式組織:(1)一個二進制值表示一個中心殘基的給定二級結(jié)構(gòu)預(yù)測方法的預(yù)測值,例如,如果PSIPRED預(yù)測中心氨基酸為螺旋,JNET預(yù)測它為卷曲,TRANSEC預(yù)測它為螺旋,以及PRO

24、TEUS預(yù)測它為螺旋,那么二進制值為{100001100100},使用該組織的特征總數(shù)為12。(2)可信度值來自使用四個預(yù)測方法的中心殘基。可信度得分除以10,得到正規(guī)化的單位區(qū)間,使用該組織的特征總數(shù)為4。(3)一個二進制值表示使用中心和兩個鄰居殘基的四個預(yù)測方法預(yù)測二級結(jié)構(gòu)的特定配置。Here we have fourpatterns{1,2,3,4}.有四種模式{1,2,3,4}。如果使用特定方法預(yù)測的二級結(jié)構(gòu)為卷曲{001},那

25、么模式1的二級結(jié)構(gòu)為CCC,模式2、3和4的分別為CCX、XCC和XCX,此處X={E,H}?;谶@個組織的特征總數(shù)為48(4個模式*3個二級結(jié)構(gòu)*4種預(yù)測方法)。(4)給定二級結(jié)構(gòu)中的殘基數(shù)和四個預(yù)測方法的窗口尺寸之間的比率,基于該組織的特征數(shù)為12(3個二級結(jié)構(gòu)*4個預(yù)測方法)。基于二級結(jié)構(gòu)信息的特征總數(shù)為76。使用該組織的動機來自文獻。被預(yù)測的二級結(jié)構(gòu)信息被添加到PSSMs特征中?;赑SSMs和二級結(jié)構(gòu)信息的特征總數(shù)為216。類

26、似文獻,基于信息增益和卡方的特征選擇方法被用于將特征數(shù)減少到90個。
  FS-KLR通過選擇樣本尺寸m使處理變得稀疏,此處m遠小于核心矩陣維數(shù)。被選擇的樣本尺寸m來自特征矩陣,命名為原型向量(PVs)。這些PVs向量可以使用k中心聚類方法進行篩選。文獻觀察到Nystrom低階近似法嚴重地依賴于使用界標點編碼樣本集合導致的量化誤差,這是我們使用k中心聚類方法的原因。這意味著人們能簡單地使用來自k中心(例如k-均值)算法的聚類,k中

27、心算法能找到量化誤差的局部最小值。使用k中心性聚類的PVs選擇方法遇到了問題,即它們選擇異常值作為原型。PVs向量數(shù)相當小,被選中代表非異常值和異常值數(shù)據(jù)的原型分式不平衡,因而分類性能不是最佳的。當PVs數(shù)增加時,KLR的性能也上升。因而,考慮移除異常值能導致更稀疏的模型。使用牛頓信任區(qū)域算法的原始空間解決了稀疏KLR問題。與其他候選算法相比,該算法產(chǎn)生了最好的性能。每次迭代的收斂速度和代價在低成本近似方面形成均勢,因為牛頓步驟將在算法

28、的開始被采用以及算法終結(jié)于快速收斂的全牛頓方向步驟。
  當m<=n時,從特征矩陣選擇的成分數(shù)(m)會影響預(yù)測的精度和MCC,相對大或小的m值產(chǎn)生的性能不好。為了選擇向量的最佳數(shù)量,交叉驗證被采用,從相對較小的m開始,并逐漸增加m的值,直到再增加向量時不會改進分類的運行效果為止。
  為了進一步提高FS-KLR的性能,我們采用狀態(tài)變化規(guī)則。在此規(guī)則中,我們考慮β轉(zhuǎn)角發(fā)生在含有至少有4個相鄰殘基的基團中。通過對FS-KLR進行

29、預(yù)測的結(jié)果分析之后,狀態(tài)變化規(guī)則(它使預(yù)測更像β轉(zhuǎn)角)推導如下:
  1.將分離的非轉(zhuǎn)角預(yù)測轉(zhuǎn)化為轉(zhuǎn)角;
  2.將分離的轉(zhuǎn)角預(yù)測轉(zhuǎn)化為非轉(zhuǎn)角預(yù)測;
  3.將與兩個分離的轉(zhuǎn)角預(yù)測相鄰的殘基轉(zhuǎn)化為轉(zhuǎn)角;
  4.如果有分離的3個轉(zhuǎn)角預(yù)測,那么將KLR概率最高的相鄰的非轉(zhuǎn)角預(yù)測轉(zhuǎn)化為轉(zhuǎn)角。
  以上的規(guī)則必須按順序執(zhí)行。使用這些規(guī)則后,我們能夠得到更好的結(jié)果,其中MCC從0.48增加到0.50
  當和

30、目前使用二級結(jié)構(gòu)信息和PSSMs作為特征的其他方法比較時,使用非冗余數(shù)據(jù)集的經(jīng)驗評價顯示FS-KLR提供了優(yōu)秀的結(jié)果。我們使用FS-KLR方法在BT426數(shù)據(jù)集上獲得的Qtotal和MCC分別為80.7和0.50??v觀以前的有關(guān)β轉(zhuǎn)角的研究,基于機器學習方法的預(yù)測器強調(diào)選擇適合的特征以改善預(yù)測性能。二級結(jié)構(gòu)和PSSMs被廣泛用于預(yù)測并被證明是最有幫助的特征。使用這些特征,F(xiàn)S-KLR獲得了與支持向量就類似的結(jié)果。為了設(shè)計能用于β轉(zhuǎn)角預(yù)測

31、的方法,有四個方面需要關(guān)注。這包括:(1)數(shù)據(jù)集的大小;(2)需要處理變長輸入樣本;(3)需要有概率結(jié)果;(4)需要執(zhí)行多級分類。當數(shù)據(jù)集很大(如β轉(zhuǎn)角數(shù)據(jù))時,人們忽略了最后兩個關(guān)注點,而關(guān)注選擇有效處理大數(shù)據(jù)集的分類器。因為支持向量機方法被設(shè)計為能處理大規(guī)模數(shù)據(jù)集,因此,這里方法已經(jīng)變成預(yù)測β轉(zhuǎn)角的首選。然而,支持向量機不能解決兩個直接的關(guān)注點。盡管KLR對最后兩個關(guān)注點提供了優(yōu)質(zhì)解,但是它不適合大規(guī)模數(shù)據(jù)集,所以不能用于大規(guī)模數(shù)據(jù)

32、集如β轉(zhuǎn)角數(shù)據(jù)的分類。因為需要β轉(zhuǎn)角類型的多級分類,所以最后兩個關(guān)注點對β轉(zhuǎn)角分類是很重要的。FS-KLR將KLR的應(yīng)用擴展到大規(guī)模數(shù)據(jù)集。這種方式能解決前述的所有關(guān)注點。
  最后,我們提出了一種預(yù)測β轉(zhuǎn)角的混合方法,它整合了支持向量機和邏輯回歸方法。我們使用特定位置打分指標和被預(yù)測的二級結(jié)構(gòu)作為特征。PROTEUS用來預(yù)測二級結(jié)構(gòu)的特征??梢允褂玫鞍踪|(zhì)形狀串聯(lián)的譜預(yù)測服務(wù)者(DSP)預(yù)測形狀串聯(lián)。除了8種狀態(tài)之外,DSP定義了

33、形狀N,其中φ角和ψ角沒有定義,或者沒有確定部分序列的結(jié)構(gòu)。形狀串聯(lián)特征編碼為:S(100000000),R(010000000)..., N(000000001)。
  因為β轉(zhuǎn)角大約占全局蛋白質(zhì)殘基的25%,β轉(zhuǎn)角和非β轉(zhuǎn)角的比例是1∶3。因而用于β轉(zhuǎn)角預(yù)測的訓練集是不平衡的集合。在實驗中,我們發(fā)現(xiàn),如果非β轉(zhuǎn)角集合被適合的聚類算法劃分為三個子集,那么每個非β轉(zhuǎn)角子集和β轉(zhuǎn)角集合將形成大致平衡的訓練集。平衡的訓練集更可能被分隔

34、在特征空間中。這是因為子集中非β轉(zhuǎn)角樣本的分布是集中而緊湊的。換句話說,β轉(zhuǎn)角集合能被不同的超平面從每個非β轉(zhuǎn)角聚類中分離。這意味著當使用每個非β轉(zhuǎn)角聚類與β轉(zhuǎn)角構(gòu)建局部支持向量機時,有希望獲得好的性能。但是,單獨使用這些支持向量機的每一個卻不一定是一個好的分類器。這暗示,通過有效地組合這些支持向量機,構(gòu)建一個比訓練全體數(shù)據(jù)的支持向量機更好的分類器是可能的。尤其是一個局部支持向量機分類器能被構(gòu)建用于每個子訓練集,局部支持向量機將不會受全

35、體訓練集的異構(gòu)性的影響。為了勝過訓練全體數(shù)據(jù)的支持向量機,我們需要有效地組合這些局部支持向量機為全局支持向量機,并保留它的局部優(yōu)勢。多少表決是組合幾個分類器的方法之一,但是,它的主要問題是不能給每個方法加權(quán)。LR模型能整合局部支持向量機分類器并允許我們利用統(tǒng)計模型論的優(yōu)勢尋找每個局部分類器的最優(yōu)權(quán)值。使用聚類模型的動機來自Yi Chang的工作。在該文獻中,YiChang使用局部線性支持向量機分類器分類被選核定義的特征空間中的數(shù)據(jù)。

36、r>  我們使用混合方法中的k-均值聚類算法劃分非β轉(zhuǎn)角為三個子集,每個子集結(jié)合β轉(zhuǎn)角類以創(chuàng)建一個子訓練集。三個支持向量機分類器被使用,每個對應(yīng)一個子集。我們用邏輯回歸模型聚合了這些支持向量機的結(jié)果。這三個支持向量機將不會直接用于預(yù)測,但是它們將用于變量生成器。在訓練和預(yù)測階段,這些模型是不變的,全部樣本進入三個模型。三個模型的分離超平面樣本的符號距離被計算并保存在N*3為向量d中,此處N是實例數(shù)目。向量d將被用于作為LR模型的新的特征

37、向量,這將平衡三個模型的響應(yīng)以及計算預(yù)測概率。
  LR預(yù)測模型的部件是變量,它們應(yīng)該被仔細選擇以便能準確預(yù)測但又不過度擬合數(shù)據(jù)。在模型選擇中,有兩個矛盾的目標。(1)擬合好數(shù)據(jù)是復(fù)雜的。(2)解釋應(yīng)該簡單。為了選擇LR模型,我們首先考慮被評估系數(shù)的相關(guān)性。如果兩個變量高度相關(guān),我們在模型中不必兩個都需要。單方變量分析被用于識別重要的變量,在LR模型中一個變量被擬合一次,然后,擬合被分析。特別地,我們考慮評估系數(shù),標準誤差、系數(shù)重

38、要性的似然比檢測。我們利用在單方變量分析中選擇的變量按照如下過程擬合LR:
  我們使用Wald統(tǒng)計在LR模型中驗證每個變量的重要性。
  我們比較了每個變量的系數(shù)和僅包括一個變量的模型的系數(shù)。
  任一表現(xiàn)為不重要的變量都被評估,一個新的模型被擬合。新模型被檢驗是否與老模型有重要區(qū)別,如果是,那么被刪除的變量就是重要的。
  刪除、重新擬合和驗證過程被反復(fù)進行,直到所有重要變量被包括在模型中。
  我們試

39、著擬合了線性LR模型,但是發(fā)現(xiàn)預(yù)測誤差很大,于是,我們考慮用分式多項式進行指數(shù)轉(zhuǎn)換。
  每一對變量之間的一列可能的相互作用被創(chuàng)建。在包括了所有主要影響的模型中,這些相互作用每次添加一個,用似然比檢測評價它的重要性。重要相互作用被添加到主要影響模型中,它的擬合情況用Wald測試評估,LR測試用于相互作用術(shù)語,任一非重要相互作用被采用。
  分式多項式被用于使LR模型適合最終的結(jié)果變量(它是β轉(zhuǎn)角/非轉(zhuǎn)角反應(yīng))。在我們的混合模

40、型中,這個變量依賴于邏輯回歸模型中三個支持向量機分類器的結(jié)果。三個支持向量機分類器的結(jié)果由向量d=(d1,d2,d3)表示。自然開始點即直線模型b0+b1d1+b2d2+b3d3或b0+dB(此處B是參數(shù)向量)首先被測試是否適合。為了改善擬合效果,我們研究了其他模型。我們通過擬合一階分式多項式尋找非線性關(guān)系。最佳次方轉(zhuǎn)換dpi被發(fā)現(xiàn),指數(shù)p是從候選集合{-2,-1,-0.5,0,0.5,1,2,3}中挑選出來的,d0指logd。集合包含

41、直線(非轉(zhuǎn)換)p=1。變量di包含非正值,因而我們將其轉(zhuǎn)換為正值。這使對數(shù)和負指數(shù)轉(zhuǎn)換變得可用。包含更多的指數(shù)通常僅僅在擬合模型中提供了輕微的改善。尤其在包括大的負指數(shù)如-3時,會出問題,個體的極端觀察將對擬合產(chǎn)生嚴重影響。一級分式多項式對我們的數(shù)據(jù)提供的擬合情況不令人滿意,所以我們考慮二級分式多項式。我們使用封閉測試程序,它通過選擇前面提到的集合中的指數(shù)變換p和q首先確定最佳擬合二級多項式。因為數(shù)學限制,當p=q時,模型中的變量di被

42、寫為bjdpi+bkdpilog(di)形式。那些組合中的最佳擬合被定義為最大似然或相當于最小偏差。此處用MRP包(它是一組R函數(shù)集合,目的是要分式多項式建?;貧w模型上的連續(xù)變量的影響)查找指數(shù)p和q的組合中的最佳擬合。MFP將序列的封閉測試選擇程序用于單個的連續(xù)變量。
  用于β轉(zhuǎn)角預(yù)測的方法使用不同的PSSMs和PSS組織。一些研究者在PSSMs上使用滑動窗口,然后,增加PSS。另外一些研究人員采用PSSMs和PSS。在我們提

43、出的方法中,對兩種方法都進行了測試。結(jié)果顯示,使用基于PSSMs和PSS的滑動窗口的H-SVM-LR方法比僅使用基于PSSMs的滑動窗口,然后再增加中心氨基酸的PSS的方法好得多。
  當使用PSSMs和PSS作為特征時,混合方法在BT426數(shù)據(jù)集上獲得的MMC是0.56,Qtotal是82.87%。這些值比現(xiàn)存其他最好的方法獲得的相應(yīng)值都要高。我們的方法在數(shù)據(jù)集BT547和BT823上獲得了最高的MCC和Qtotal值。另外,當

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論