2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩148頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著各行業(yè)對(duì)數(shù)據(jù)越來越重視和信息技術(shù)的快速發(fā)展,產(chǎn)生的數(shù)據(jù)越來越全面,同時(shí)數(shù)據(jù)量也在快速的增長;并且各行業(yè)又要求能及時(shí)對(duì)已產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘和分析,這使得數(shù)據(jù)流挖掘技術(shù)愈發(fā)重要。由于數(shù)據(jù)流具有海量性、實(shí)時(shí)性和動(dòng)態(tài)變化性的特點(diǎn),這就要求數(shù)據(jù)流上的挖掘算法有較高的時(shí)空效率。盡管數(shù)據(jù)流上數(shù)據(jù)挖掘技術(shù)取得了一定的進(jìn)展,但是挖掘算法的時(shí)空效率仍然是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域中的研究焦點(diǎn)之一。
  本文主要研究了數(shù)據(jù)流模式挖掘算法,包括傳統(tǒng)數(shù)據(jù)集類型中

2、的頻繁模式挖掘以及大數(shù)據(jù)集下的頻繁模式挖掘、不確定數(shù)據(jù)流中的頻繁模式挖掘、和高效用模式挖掘。本文首先對(duì)已有的頻繁模式和高效用模式挖掘算法進(jìn)行了回顧,詳細(xì)的介紹了算法Apriori和FP-Growth等;然后在對(duì)典型的挖掘算法和最新研究成果進(jìn)行分析研究的基礎(chǔ)上,深入研究了傳統(tǒng)數(shù)據(jù)中的頻繁模式挖掘、不確定數(shù)據(jù)上的頻繁模式挖掘和具有效用值的數(shù)據(jù)中的高效用模式挖掘算法。本文取得了如下的創(chuàng)新性研究成果:
  (1)在傳統(tǒng)數(shù)據(jù)的頻繁模式挖掘算

3、法研究中,提出新的尾節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)和一種最多兩次MapReduce的并行挖掘算法。針對(duì)數(shù)據(jù)流中的頻繁模式挖掘問題,采用尾節(jié)點(diǎn)和尾節(jié)點(diǎn)表來提高窗口內(nèi)數(shù)據(jù)更新的時(shí)間效率和維護(hù)的空間效率;并通過提高窗口內(nèi)頻繁模式挖掘算法的時(shí)間效率,進(jìn)而提高數(shù)據(jù)流中模式挖掘的整體時(shí)間效率。針對(duì)大數(shù)據(jù)下的數(shù)據(jù)流頻繁模式挖掘問題,首先通過一次MapReduce找到局部頻繁模式做為候選項(xiàng)集,然后通過給出的剪枝策略對(duì)候選項(xiàng)集進(jìn)行剪枝,最后進(jìn)行第二次MapReduce對(duì)候

4、選項(xiàng)集中剩余項(xiàng)集進(jìn)行支持?jǐn)?shù)統(tǒng)計(jì);在多數(shù)情況下,該算法不需要第二次MapReduce就可以有效的挖掘到所有的頻繁模式。
  (2)在不確定事務(wù)數(shù)據(jù)的頻繁模式挖掘算法研究中,提出具有更高壓縮率的樹結(jié)構(gòu)來改進(jìn)不確定數(shù)據(jù)集及數(shù)據(jù)流上的頻繁模式挖掘算法。首先利用數(shù)組來存儲(chǔ)事務(wù)項(xiàng)集的概率,然后將事務(wù)概率在數(shù)組中的索引和事務(wù)項(xiàng)集映射到一棵樹上,從而可以有效的降低維護(hù)不確定數(shù)據(jù)集的樹節(jié)點(diǎn)個(gè)數(shù)。在此基礎(chǔ)上,結(jié)合滑動(dòng)窗口技術(shù),同時(shí)給出兩種新的樹結(jié)構(gòu)分

5、別來維護(hù)窗口中數(shù)據(jù)和挖掘過程中的子數(shù)據(jù)集,保證在挖掘的過程中使窗口中事務(wù)項(xiàng)集的信息不會(huì)從樹上丟失;從而使頻繁模式挖掘算法的時(shí)空效率得到較大的提升。另外,本文還提出一種新的具有權(quán)重的頻繁模式挖掘模型和算法;該模型主要是將項(xiàng)的權(quán)重值引入到頻繁模式的挖掘過程中,將權(quán)重值大的模式考慮到挖掘結(jié)果中。
  (3)在高效用模式挖掘算法研究中,提出避免使用高估效用值的不產(chǎn)生候選項(xiàng)集的挖掘算法。首先本文提出一個(gè)新的樹結(jié)構(gòu)來維護(hù)事務(wù)項(xiàng)集及效用值信息,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論