蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-01 格式：pdf 頁數(shù)：91 大?。?.02MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩90頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)組學(xué)是后基因組時代生命科學(xué)研究的熱點(diǎn)之一，它研究生物體細(xì)胞、器官乃至組織的蛋白質(zhì)表達(dá)規(guī)律，并闡明其生物學(xué)意義。蛋白質(zhì)組學(xué)研究的重要技術(shù)之一是生物質(zhì)譜技術(shù)，對著生物質(zhì)譜技術(shù)的發(fā)展，促進(jìn)了大規(guī)模蛋白質(zhì)組研究的開展，實(shí)現(xiàn)高通量、高靈敏度和高分辨率的蛋白質(zhì)組學(xué)研究分析平臺。
　　鳥槍法蛋白質(zhì)組鑒定是蛋白質(zhì)組研究最重要的研究策略：通過實(shí)驗(yàn)產(chǎn)出串聯(lián)質(zhì)譜數(shù)據(jù)，通過搜索蛋白質(zhì)序列數(shù)據(jù)庫獲得可靠鑒定肽段結(jié)果，并進(jìn)一步通過蛋白質(zhì)的推導(dǎo)獲得鑒定蛋

2、白質(zhì)結(jié)果。由于質(zhì)譜數(shù)據(jù)的特性，生物樣品多樣、實(shí)驗(yàn)過程復(fù)雜、現(xiàn)有搜索算法和質(zhì)量控制方法局限，盡管數(shù)據(jù)庫搜索策略可以提高生物質(zhì)譜數(shù)據(jù)的解析效率，但仍不能完全解決蛋白質(zhì)鑒定問題。如何保證鑒定結(jié)果的正確性和完整性，是數(shù)據(jù)庫搜索策略的主要問題。
　　隨著質(zhì)譜儀不斷發(fā)展，海量高精度質(zhì)譜數(shù)據(jù)不斷產(chǎn)出，大規(guī)模蛋白質(zhì)組質(zhì)譜數(shù)據(jù)研究的分析方法明顯滯后。質(zhì)譜數(shù)據(jù)分析的瓶頸，已經(jīng)不再是實(shí)驗(yàn)數(shù)據(jù)的產(chǎn)出，而是數(shù)據(jù)的有效分析。因此建立質(zhì)譜數(shù)據(jù)分析平臺，實(shí)現(xiàn)大規(guī)

3、模質(zhì)譜數(shù)據(jù)分析自動化實(shí)現(xiàn)十分必要。
　　另一方面，高精度串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù)所蘊(yùn)含的肽段信息可為基因組解析注入新的思路，從高精度MS/MS數(shù)據(jù)出發(fā)，利用基因組數(shù)據(jù)庫搜索，可進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率。蛋白質(zhì)組基因組學(xué)的研究理念是整合串聯(lián)質(zhì)譜數(shù)據(jù)注釋基因組蛋白質(zhì)編碼基因。
　　本課題致力于基于數(shù)據(jù)庫搜索策略的質(zhì)譜數(shù)據(jù)分析流程的改善、平臺構(gòu)建及其在人類肝臟蛋白質(zhì)組等大規(guī)模數(shù)據(jù)分析中的應(yīng)用。首先比較譜圖、肽段、蛋白質(zhì)水平質(zhì)量控

4、制方法的嚴(yán)格性，并開發(fā)了針對Mascot搜索引擎的質(zhì)量控制和蛋白質(zhì)裝配程序ProDistiller；然后探索了常用蛋白質(zhì)序列數(shù)據(jù)庫的區(qū)別及其對對鑒定結(jié)果的影響，并依據(jù)我們實(shí)驗(yàn)室長期的數(shù)據(jù)分析經(jīng)驗(yàn)，整合質(zhì)譜數(shù)據(jù)分析軟件、構(gòu)建質(zhì)譜數(shù)據(jù)分析平臺Mass Spectrum Data Processing Pipeline（MSPP）?；谘芯堪l(fā)展的質(zhì)控方法和數(shù)據(jù)分析平臺，我們對人類染色體蛋白質(zhì)組計劃產(chǎn)出以及收集的人類肝臟蛋白質(zhì)組的海量數(shù)據(jù)集展開

5、了系統(tǒng)的分析。最后我們建立了基于基因組數(shù)據(jù)庫和預(yù)測蛋白質(zhì)組數(shù)據(jù)庫挖掘新蛋白的數(shù)據(jù)分析流程，實(shí)現(xiàn)了海量人類蛋白質(zhì)組質(zhì)譜數(shù)據(jù)的深度解析。具體內(nèi)容包括：
　　蛋白質(zhì)水平質(zhì)控方法是較譜圖水平、肽段水平質(zhì)控更為嚴(yán)格的質(zhì)量控制方法。尤其對于復(fù)雜樣本數(shù)據(jù)集，整合實(shí)驗(yàn)數(shù)據(jù)多，蛋白質(zhì)水平累積的假陽性鑒定也多。我們開發(fā)基于PepDistiller結(jié)果進(jìn)行蛋白質(zhì)水平質(zhì)量控制和蛋白質(zhì)裝配的ProDistiller程序，設(shè)置圖譜打分F-value，對同一個

6、樣本的圖譜結(jié)果進(jìn)行排序逐個組裝蛋白，在蛋白水平FDR達(dá)到1％時停止組裝獲得卡值，蛋白質(zhì)裝配基于簡單原則法。ProDistiller使用Perl語言編寫，可以在多種平臺下運(yùn)行，結(jié)果中保留肽段鑒定的屬性，如電荷，漏切位點(diǎn)數(shù)，母離子和子離子質(zhì)量誤差等。
　　目前常用蛋白質(zhì)組序列數(shù)據(jù)庫有NCBI nr、UniProt、RefSeq、Ensembl等，這幾個數(shù)據(jù)庫在理論肽段構(gòu)成上基本相似，差別在于存著不同可變剪接形式的蛋白質(zhì)。注釋較好的Un

7、iprot和SwissProt數(shù)據(jù)庫所得到的鑒定結(jié)果要比其它數(shù)據(jù)庫多。另一方面Uniprot和SwissProt數(shù)據(jù)庫大小遠(yuǎn)小于Ensembl數(shù)據(jù)庫、RefSeq數(shù)據(jù)庫和NCBI nr數(shù)據(jù)庫，對計算所需硬件和時間需求較小。因此我們建議在常規(guī)的蛋白質(zhì)組質(zhì)譜鑒定的數(shù)據(jù)庫搜索中，數(shù)據(jù)質(zhì)量高、冗余度低的Uniprot和Swiss-Prot數(shù)據(jù)庫是最佳選擇，以基因?yàn)橹行牡难芯靠刹捎肧wiss-Prot為搜索數(shù)據(jù)庫。
　　質(zhì)譜數(shù)據(jù)分析平臺（M

8、SPP）有效整合并實(shí)現(xiàn)了多種搜索引擎搜索、多水平質(zhì)控和整合、有標(biāo)/無標(biāo)定量等多個功能模塊，并考慮了多節(jié)點(diǎn)調(diào)度和任務(wù)分配，能夠滿足海量數(shù)據(jù)處理的需求。該平臺已成功地應(yīng)用于中國人類蛋白質(zhì)組計劃、人類染色體蛋白質(zhì)組計劃和人類肝臟蛋白質(zhì)組數(shù)據(jù)集的數(shù)據(jù)分析中，至今已累積處理超過4億張譜圖。隨著蛋白質(zhì)組質(zhì)譜技術(shù)的高速發(fā)展，數(shù)據(jù)規(guī)模逐漸增大，大規(guī)模高通量自動化分析，高性能計算平臺需要進(jìn)一步優(yōu)化任務(wù)調(diào)度、數(shù)據(jù)分發(fā)和結(jié)果收集，建立高通量、自動化的串聯(lián)質(zhì)譜

9、數(shù)據(jù)的新蛋白質(zhì)鑒定平臺。
　　MSPP成功應(yīng)用于人類染色體蛋白質(zhì)組計劃中復(fù)雜樣本的數(shù)據(jù)分析。我們對三組具有不同轉(zhuǎn)移潛能人類肝癌細(xì)胞系樣本Hep3B，HCC97H和HCCLM3進(jìn)行轉(zhuǎn)錄組、翻譯組和蛋白質(zhì)組的深度測序分析，蛋白質(zhì)組學(xué)鑒定9064個基因，是翻譯組基因總數(shù)的50.2%。其中通過轉(zhuǎn)錄因子富集策略，鑒定到31個低豐度蛋白質(zhì)，證明富集策略對低豐度蛋白鑒定的有效性。通過樣本特異性數(shù)據(jù)庫搜索，我們發(fā)現(xiàn)SAP只占總鑒定肽段數(shù)目的0.4

10、％，這表明單一氨基酸多態(tài)性對蛋白質(zhì)鑒定影響很小。
　　為獲得最完整的人類肝臟蛋白質(zhì)組數(shù)據(jù)集，我們系統(tǒng)收集盡可能完整肝臟相關(guān)的質(zhì)譜數(shù)據(jù)，記錄樣品狀態(tài)，獲得最完整的肝臟質(zhì)譜數(shù)據(jù)第一版。實(shí)驗(yàn)數(shù)據(jù)按照樣本類型分為成人肝、胎肝和肝癌細(xì)胞系三種。使用MSPP用于肝臟質(zhì)譜數(shù)據(jù)重分析，構(gòu)建最新版高可信的人類肝臟蛋白質(zhì)組數(shù)據(jù)集，共鑒定9901個基因，鑒定結(jié)果遠(yuǎn)遠(yuǎn)高過PeptideAtlas中的現(xiàn)有人類肝臟數(shù)據(jù)集的數(shù)據(jù)量（4,408個蛋白質(zhì)）。與Sw

11、issProt和ProteinAtlas中的肝臟組織特異性表達(dá)譜數(shù)據(jù)比較，發(fā)現(xiàn)仍有大量漏檢蛋白質(zhì)。分析其鑒定譜圖的打分情況發(fā)現(xiàn)，很多鑒定圖譜并不是打分值低被過濾，而是具有較好打分，導(dǎo)致鑒定結(jié)果存在大量的假陰性。
　　我們建立了基于基因組數(shù)據(jù)庫的數(shù)據(jù)分析流程，初步實(shí)現(xiàn)了海量人類蛋白質(zhì)組質(zhì)譜數(shù)據(jù)的深度解析。使用高精度質(zhì)譜數(shù)據(jù)搜索基因組數(shù)據(jù)庫（理論外顯子連接體數(shù)據(jù)庫）和預(yù)測蛋白質(zhì)AceView數(shù)據(jù)庫，我們發(fā)現(xiàn)了一些圖譜高可信的候選結(jié)果，

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載