2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩80頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2024/2/29,第8章 文本挖掘與Web 數(shù)據(jù)挖掘,文本挖掘 Web數(shù)據(jù)挖掘>>案例五:跨語(yǔ)言智能學(xué)術(shù)搜索系統(tǒng)>>案例六:基于內(nèi)容的垃圾郵件識(shí)別>>,8.1 文本挖掘,8.1.1 分詞8.1.2 文本表示與詞權(quán)重計(jì)算8.1.3 文本特征選擇8.1.4 文本分類8.1.5 文本聚類8.1.6 文檔自動(dòng)摘要,2024/2/29,8.1.1 分詞,分詞(詞切分)是指將連續(xù)的字序列按照一定

2、的規(guī)范重新組合成詞序列的過(guò)程英文:?jiǎn)卧~之間以空格作為自然分界符,容易中文:詞沒(méi)有一個(gè)形式上的分界符,難中文分詞極具挑戰(zhàn)性的問(wèn)題歧義切分問(wèn)題:[研究/生]物;學(xué)生會(huì)|學(xué)生會(huì)玩魔方未登錄詞問(wèn)題:新詞(木有、凡客體),人名等分詞法主要分為以下三大類:基于詞典的方法、基于統(tǒng)計(jì)的方法、基于語(yǔ)法分析的方法,2024/2/29,基于詞典的分詞法,正向最大匹配從左開始算起,最大是指從一個(gè)設(shè)定的長(zhǎng)度開始匹配,直到第一個(gè)匹配成功就切分成為一個(gè)

3、詞逆向最大匹配與正向最大匹配相似,區(qū)別在于從右至左匹配例子:研究生命起源正向匹配結(jié)果:研究生/命/起源逆向匹配結(jié)果:研究/生命/起源特點(diǎn):簡(jiǎn)單,易實(shí)現(xiàn);正確率受詞典大小限制,2024/2/29,基于統(tǒng)計(jì)的分詞法,假設(shè):詞是穩(wěn)定的單字組合,直觀地,在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典(統(tǒng)計(jì))分詞法基于統(tǒng)計(jì)模型的分詞方法是研究熱點(diǎn),如基于

4、隱馬爾可夫的方法、基于最大熵的方法特點(diǎn):精度高、詞性標(biāo)注、命名實(shí)體識(shí)別;需要語(yǔ)料作支撐,2024/2/29,基于中文語(yǔ)法的分詞方法,通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法和語(yǔ)義信息來(lái)處理歧義現(xiàn)象包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分特點(diǎn):由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,基于理解的分詞系統(tǒng)還處在試驗(yàn)階段,2024/2/29,常見分詞工具,ICTCLAS中

5、國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)采用層疊隱馬爾可夫模型中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,新詞識(shí)別支持C/C++/C#/Delphi/Java等主流開發(fā)語(yǔ)言imdict-Chinese-analyzerICTCLAS中文分詞程序基于Java的重新實(shí)現(xiàn)采用基于隱馬爾科夫模型的方法直接為L(zhǎng)ucene搜索引擎提供簡(jiǎn)體中文分詞支持,2024/2/29,常見分詞工具(續(xù)),IKAnalyzer采用特有的“正向迭代最細(xì)粒度切分算法”基于J

6、ava語(yǔ)言開發(fā)的輕量級(jí)開源分詞工具包60萬(wàn)字/秒的高速處理能力簡(jiǎn)易中文分詞系統(tǒng)SCWShightman 個(gè)人開發(fā)采用標(biāo)準(zhǔn)C開發(fā)提供 C接口、PHP擴(kuò)展(源碼、WIN32的DLL文件),2024/2/29,常見分詞工具(續(xù)),盤古分詞基于.net Framework的中英文分詞組件中文未登錄詞識(shí)別、人名識(shí)別、多元分詞等功能支持英文專用詞識(shí)別、英文原詞輸出、英文大小寫同時(shí)輸出等單線程分詞速度為390 KB/s,雙線程分詞速

7、度為690 KB/s( Core Duo 1.8 GHz )其它 Paoding(庖丁解牛分詞)、HTTPCWS、MMSEG4J以及CC-CEDICT等,2024/2/29,8.1.2 文本表示與詞權(quán)重計(jì)算,目前文本表示主要是采用向量空間模型(Vector Space Model,VSM)每個(gè)文本被表示為在一個(gè)高維詞條空間中的一個(gè)向量詞條權(quán)重wi,j一般采用TF×IDF方法來(lái)計(jì)算得到,2024/2/29,,,,,8.

8、1.3 文本特征選擇,文本特征選擇是根據(jù)某種準(zhǔn)則從原始特征中選擇部分最有區(qū)分類別能力的特征主要分為無(wú)監(jiān)督和有監(jiān)督的方法常用的方法有以下幾種文檔頻率(Document Frequency,DF)單詞權(quán)(Term Strength,TS)信息增益(Information Gain,IG)互信息(Mutual Information,MI)期望交叉熵(Expected Cross Entropy,ECE),2024/2/29,基

9、于文檔頻率的方法,文檔頻率是指所有訓(xùn)練文本中出現(xiàn)某個(gè)特征詞的頻率是一種無(wú)監(jiān)督的方法通常會(huì)分別設(shè)置一個(gè)小的閾值和大的閾值來(lái)過(guò)濾一些低頻詞和頻數(shù)特別高的詞特點(diǎn)優(yōu)點(diǎn):簡(jiǎn)單、易行缺點(diǎn):低頻詞有時(shí)能很好反映類別信息;忽略了特征詞在文檔中出現(xiàn)的次數(shù),2024/2/29,基于信息增益的方法,根據(jù)某個(gè)特征詞t在一篇文檔中出現(xiàn)或者不出現(xiàn)的次數(shù)來(lái)計(jì)算為分類所能提供的信息量,并根據(jù)該信息量大小來(lái)衡量特征詞的重要程度,進(jìn)而決定特征詞的取舍信息增

10、益是最常用的文本特征選擇方法之一特點(diǎn):該方法只考察特征詞對(duì)整個(gè)分類的區(qū)分能力,不能具體到某個(gè)類別上,2024/2/29,,8.1.4 文本分類,文本自動(dòng)分類(簡(jiǎn)稱“文本分類”)是在預(yù)定義的分類體系下,根據(jù)文本的特征(詞條或短語(yǔ)),將給定文本分配到特定一個(gè)或多個(gè)類別的過(guò)程基本步驟可以分為三步:將預(yù)先分過(guò)類的文本作為訓(xùn)練集輸入構(gòu)建分類模型對(duì)新輸入的文本進(jìn)行分類常見的算法包括:線性分類器、k最近鄰分類器、樸素貝葉斯、決策樹、支持向

11、量機(jī)分類器,2024/2/29,樸素貝葉斯分類器,貝葉斯分類算法有兩種模型:多變量伯努利事件模型和多項(xiàng)式事件模型多變量伯努利事件模型特征詞在文本中出現(xiàn)則權(quán)重為1,否則權(quán)重為0。不考慮特征詞的出現(xiàn)順序,忽略詞出現(xiàn)的次數(shù)多項(xiàng)式事件模型一篇文檔被看作是一系列有序排列的詞的集合,2024/2/29,,,,,,,常用基準(zhǔn)語(yǔ)料,Reuters-21578是最常用的公開英文語(yǔ)料庫(kù)21578篇新聞報(bào)道135個(gè)類別20 Newsgroup

12、s是重要的公開英文語(yǔ)料庫(kù)大致20000篇新聞組文檔6個(gè)不同的主題以及20個(gè)不同類別的新聞組TanCorp是公開的中文基準(zhǔn)語(yǔ)料庫(kù)收集文本14150篇分為兩個(gè)層次。第一層12個(gè)類別,第二層60個(gè)類別,2024/2/29,常用基準(zhǔn)語(yǔ)料(續(xù)),復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù)測(cè)試語(yǔ)料共9833篇文檔,訓(xùn)練語(yǔ)料共9804篇文檔包含20個(gè)類別其它語(yǔ)料庫(kù)還包括OHSUMED、WebKB、TREC系列和TDT系列等,2024/2/29,模型評(píng)

13、估,文本自動(dòng)分類通常是不平衡的分類任務(wù),常用的分類準(zhǔn)確率(Accuracy)指標(biāo)并不合適一般使用每個(gè)類的F-measure值以及全部類F-measure值的平均來(lái)評(píng)估算法的性能其中,r表示每個(gè)類的召回率(Recall),p表示每個(gè)類的精度(Precision),通常β取值為1,也就是經(jīng)常被使用到的F1值,2024/2/29,,模型評(píng)估(續(xù)),語(yǔ)料上的整體性能,通常采用微平均和宏平均方法微平均是根據(jù)所有類準(zhǔn)確劃分文本個(gè)數(shù)和錯(cuò)誤劃

14、分文本個(gè)數(shù)來(lái)計(jì)算精度和召回率宏平均則是計(jì)算每個(gè)類別得到的精度和召回率的平均值在不平衡數(shù)據(jù)分類上,宏平均方法更能反映出分類器的性能。,2024/2/29,8.1.5 文本聚類,自動(dòng)化程度較高的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,不需要預(yù)先對(duì)文檔手工標(biāo)注類別主要任務(wù)是把一個(gè)文本集分成若干個(gè)稱為簇的子集,然后在給定的某種相似性度量下把各個(gè)文檔分配到與最其相似的簇中相似性度量方法在此過(guò)程起著至關(guān)重要的作用,2024/2/29,文本相似度計(jì)算,方法主要分

15、為兩大類:基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法和基于語(yǔ)義理解的方法基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法:基于漢明距離和基于空間向量模型的方法漢明距離用來(lái)描述兩個(gè)等長(zhǎng)碼字對(duì)應(yīng)位置的不同字符的個(gè)數(shù),從而計(jì)算出兩個(gè)碼字的相似度基于空間向量模型方法是一種簡(jiǎn)單有效的方法,2024/2/29,,,文本相似度計(jì)算(續(xù)),基于語(yǔ)義理解的方法:考慮語(yǔ)義信息的文本相似度計(jì)算方法該方法主要分為三大類:詞語(yǔ)相似度、句子相似度、段落相似度計(jì)算詞語(yǔ)相似度往往需要一部語(yǔ)義詞典作為支持,目

16、前使用頻率最高的語(yǔ)義詞典是《知網(wǎng)》句子相似度計(jì)算要通過(guò)利用語(yǔ)法結(jié)構(gòu)來(lái)分析漢語(yǔ)句子機(jī)構(gòu)相當(dāng)復(fù)雜,段落相似度計(jì)算更復(fù)雜,2024/2/29,文本聚類過(guò)程,以K-means算法詳細(xì)介紹文本聚類的過(guò)程任意選擇k個(gè)文本作為初始聚類中心Repeat 計(jì)算輸入文本與簇之間的相似度,將文本分配到最相似的簇中 更新簇質(zhì)心向量Until 簇質(zhì)心不再發(fā)生變化,2024/2/29,評(píng)估指標(biāo),外部質(zhì)量準(zhǔn)則的聚類熵、聚類精度文本分類方法的召回率

17、、精度、F-measure值文本聚類算法整體性能的評(píng)估宏平均或微平均F-measure值聚類熵,2024/2/29,8.1.6 文檔自動(dòng)摘要,文檔自動(dòng)摘要,簡(jiǎn)稱自動(dòng)文摘,是指利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文處理過(guò)程大致可分為三個(gè)步驟:文本分析過(guò)程信息轉(zhuǎn)換過(guò)程重組源表示內(nèi)容,生成文摘并確保文摘的連貫性,2024/2/29,文檔自動(dòng)摘要的類型,按不同標(biāo)準(zhǔn),文檔自動(dòng)摘要可分為不同類型:

18、根據(jù)文摘的功能劃分,指示型文摘、報(bào)道型文摘和評(píng)論型文摘根據(jù)輸入文本的數(shù)量劃分,單文檔文摘和多文檔文摘根據(jù)原文語(yǔ)言種類劃分,單語(yǔ)言文摘和跨語(yǔ)言文摘根據(jù)文摘和原文的關(guān)系劃分,摘錄型文摘和理解型文摘根據(jù)文摘的應(yīng)用劃分,普通型文摘和面向用戶查詢文摘,2024/2/29,相關(guān)技術(shù),文檔自動(dòng)摘要技術(shù)主要有以下幾種類型自動(dòng)摘錄法最大邊緣相關(guān)自動(dòng)文摘法基于理解的自動(dòng)文摘基于信息抽取的自動(dòng)文摘基于結(jié)構(gòu)的自動(dòng)文摘基于LSI語(yǔ)句聚類的自

19、動(dòng)文摘,2024/2/29,相關(guān)技術(shù)(續(xù)),自動(dòng)摘錄法將文本看成是句子的線性排列,將句子看成詞的線性排列,然后從文本中摘錄最重要的句子作為文摘句最大邊緣相關(guān)法從文本中挑選出與該文本最相關(guān)的,同時(shí)與已挑選出的所有代表句最不相關(guān)的句子作為下一個(gè)代表句基于理解的方法利用語(yǔ)言學(xué)知識(shí)獲取語(yǔ)言結(jié)構(gòu),更重要的是利用領(lǐng)域知識(shí)進(jìn)行判斷、推理,得到文摘的語(yǔ)義表示,從語(yǔ)義表示中生成摘要,2024/2/29,相關(guān)技術(shù)(續(xù)),基于信息抽取的方法首先根據(jù)領(lǐng)域知

20、識(shí)建立該領(lǐng)域的文摘框架,然后使用信息抽取方法先對(duì)文本進(jìn)行主題識(shí)別,再對(duì)文本中有用片段進(jìn)行有限深度的分析,最后利用文摘模板將文摘框架中內(nèi)容轉(zhuǎn)換為文摘輸出基于結(jié)構(gòu)的方法將文章視為句子的關(guān)聯(lián)網(wǎng)絡(luò),與很多句子都有聯(lián)系的中心句被確認(rèn)為文摘句,句子間的關(guān)系可通過(guò)詞間關(guān)系、連接詞等確定,2024/2/29,相關(guān)技術(shù)(續(xù)),基于LSI語(yǔ)句聚類的方法利用潛在語(yǔ)義索引LSI(Latent Semantic Indexing),獲得特征項(xiàng)和文本的語(yǔ)義結(jié)構(gòu)表

21、示。在語(yǔ)義空間考慮特征項(xiàng)權(quán)重不是依賴于單純的詞頻信息,而是考慮到特征項(xiàng)對(duì)于文本主題的表現(xiàn)能力以及在整個(gè)文本集中使用的模式。,2024/2/29,相關(guān)技術(shù)(續(xù)),以上方法普遍會(huì)面臨以下三個(gè)關(guān)鍵問(wèn)題的挑戰(zhàn)文檔冗余信息的識(shí)別和處理重要信息的辨認(rèn)生成文摘的連貫性,2024/2/29,性能評(píng)估,自動(dòng)文摘包含標(biāo)準(zhǔn)文摘的信息比率是內(nèi)部測(cè)評(píng)中對(duì)文摘內(nèi)容完整性的一種重要測(cè)評(píng)幾個(gè)主流的評(píng)價(jià)方法:?jiǎn)挝臋n文摘評(píng)價(jià)系統(tǒng)(Summary Evaluati

22、on Environment)ROUGEPyramidBE(Basic Elements)方法,2024/2/29,8.2 Web數(shù)據(jù)挖掘,8.2.1 Web內(nèi)容挖掘8.2.2 Web使用挖掘8.2.3 Web結(jié)構(gòu)挖掘,2024/2/29,8.2.1 Web內(nèi)容挖掘,Web內(nèi)容挖掘是從Web頁(yè)面的文本、圖像、視頻和組成頁(yè)面的其它內(nèi)容中提取信息的過(guò)程Web內(nèi)容挖掘在Web搜索、垃圾郵件過(guò)濾、敏感信息過(guò)濾、情報(bào)分析、數(shù)字圖書館建

23、設(shè)、網(wǎng)絡(luò)輿情監(jiān)控等方面有著重要的應(yīng)用價(jià)值文本挖掘技術(shù)可應(yīng)用于Web頁(yè)面的文本挖掘中圖像和視頻等內(nèi)容的挖掘是多媒體數(shù)據(jù)挖掘中的重要部分主要方法也是數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則,2024/2/29,8.2.2 Web使用挖掘,Web使用挖掘通過(guò)挖掘Web日志記錄,發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式可以識(shí)別電子商務(wù)的潛在客戶增強(qiáng)對(duì)最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量和交互改進(jìn)Web服務(wù)器系統(tǒng)性能,2024/2/29,數(shù)據(jù)收集,Web使用記

24、錄挖掘中的主要數(shù)據(jù)來(lái)源是服務(wù)器日志文件,主要可分為以下四種類型數(shù)據(jù)使用記錄數(shù)據(jù):首要的數(shù)據(jù)來(lái)源內(nèi)容數(shù)據(jù):由文字材料和圖片組成結(jié)構(gòu)數(shù)據(jù):從設(shè)計(jì)者的角度所看到的網(wǎng)站內(nèi)容組織結(jié)構(gòu)用戶數(shù)據(jù):包括注冊(cè)用戶人口統(tǒng)計(jì)信息(如性別、年齡、職業(yè)等)、用戶對(duì)各種對(duì)象的訪問(wèn)率、用戶的購(gòu)買記錄或歷史訪問(wèn)記錄等,2024/2/29,預(yù)處理,2024/2/29,,Web使用模式的發(fā)現(xiàn)和分析,會(huì)話及訪問(wèn)者分析在已預(yù)處理的會(huì)話數(shù)據(jù)中,發(fā)現(xiàn)訪問(wèn)者行為的知識(shí)使

25、用記錄聚類分析用戶聚類:用戶聚類的目的是對(duì)具有相同瀏覽模式的用戶進(jìn)行分組頁(yè)面聚類:在基于使用記錄數(shù)據(jù)的聚類中,被經(jīng)常訪問(wèn)的項(xiàng)目或購(gòu)買記錄可能被自動(dòng)組織成一個(gè)個(gè)分組,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),關(guān)聯(lián)規(guī)則及相關(guān)度分析可以找到普遍在一起被訪問(wèn)或被購(gòu)買的頁(yè)面或項(xiàng)目的分組可以用在Web個(gè)性化推薦系統(tǒng)中在電子商務(wù)的推薦系統(tǒng)中使用關(guān)聯(lián)規(guī)則,目標(biāo)用戶的偏好是符合每個(gè)規(guī)則前項(xiàng)X中的項(xiàng)目,而在右側(cè)的項(xiàng)目所符合的規(guī)則按照置

26、信度排序,這個(gè)列表中排名靠前的N個(gè)項(xiàng)目便可考慮推薦給目標(biāo)用戶問(wèn)題:若數(shù)據(jù)集稀疏,則無(wú)法給出任何推薦解決方案:協(xié)同過(guò)濾,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),導(dǎo)航模式分析要發(fā)現(xiàn)或分析用戶導(dǎo)航模式,一種方法是將網(wǎng)站中導(dǎo)航活動(dòng)建模成Markov模型Markov模型:每個(gè)頁(yè)面訪問(wèn)可以被表示成一個(gè)狀態(tài),兩個(gè)狀態(tài)間的轉(zhuǎn)換概率可以表示用戶從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的可能性。這種表示方式允許計(jì)算一些有用的用戶或網(wǎng)站的度量,2024/

27、2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),基于Web用戶事務(wù)的分類和預(yù)測(cè)在Web使用實(shí)例中,基于用戶人口統(tǒng)計(jì)信息以及他們的購(gòu)買活動(dòng),分類技術(shù)可以將用戶分成高購(gòu)買傾向和非高購(gòu)買傾向兩類協(xié)同過(guò)濾是Web領(lǐng)域分類和預(yù)測(cè)中的一個(gè)重要應(yīng)用k近鄰分類器(kNN)是一種簡(jiǎn)單有效的協(xié)同過(guò)濾方法,通過(guò)計(jì)算當(dāng)前用戶模型和以往用戶模型的相關(guān)度,預(yù)測(cè)用戶訪問(wèn)率或購(gòu)買傾向,以找到數(shù)據(jù)庫(kù)中有著相似特性和偏好的用戶,2024/2/29,8.2.3 Web結(jié)構(gòu)

28、挖掘,Web結(jié)構(gòu)挖掘就是指通過(guò)分析不同網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu),網(wǎng)頁(yè)內(nèi)部用HTML、XML表示的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等,發(fā)現(xiàn)許多蘊(yùn)含在網(wǎng)絡(luò)內(nèi)容之外的對(duì)我們有潛在價(jià)值的模式和知識(shí)的過(guò)程Web頁(yè)之間的超鏈接結(jié)構(gòu)中包含了許多有用的信息。當(dāng)網(wǎng)頁(yè)A到網(wǎng)頁(yè)B存在一個(gè)超鏈接時(shí),則說(shuō)明網(wǎng)頁(yè)A的作者認(rèn)為網(wǎng)頁(yè)B的內(nèi)容非常重要,且兩個(gè)網(wǎng)頁(yè)的內(nèi)容具有相似的主題,2024/2/29,PageRank算法,目前對(duì)Web結(jié)構(gòu)進(jìn)行分析的主要方法是將W

29、eb看作有向圖,然后根據(jù)一定的啟發(fā)規(guī)則,用圖論的方法對(duì)其進(jìn)行分析PageRank 算法是超鏈接結(jié)構(gòu)分析中最成功的代表之一搜索引擎Google就是通過(guò)利用該算法和anchor text標(biāo)記、詞頻統(tǒng)計(jì)等因素相結(jié)合的方法,對(duì)檢索出的大量結(jié)果進(jìn)行相關(guān)度排序,將最權(quán)威的網(wǎng)頁(yè)盡量排在前面,2024/2/29,PageRank算法(續(xù)),PageRank算法假設(shè)從一個(gè)網(wǎng)頁(yè)指向另一個(gè)網(wǎng)頁(yè)的超鏈接是一種對(duì)目標(biāo)網(wǎng)站權(quán)威的隱含認(rèn)可,因此,一個(gè)頁(yè)面的入度

30、越大則它的權(quán)威就越高另一方面,指向網(wǎng)頁(yè)自身也有權(quán)威值,一個(gè)擁有高權(quán)威值網(wǎng)頁(yè)指向的網(wǎng)頁(yè)比一個(gè)擁有低權(quán)威值網(wǎng)頁(yè)指向的網(wǎng)頁(yè)更加重要,如果一個(gè)網(wǎng)頁(yè)被其它重要網(wǎng)頁(yè)所指向,那么該網(wǎng)頁(yè)也很重要,2024/2/29,HITS算法,Web的鏈接具有以下特征有些鏈接具有注釋性,也有些鏈接是起導(dǎo)航或廣告作用。有注釋性的鏈接才用于權(quán)威判斷基于商業(yè)或競(jìng)爭(zhēng)因素考慮,很少有Web網(wǎng)頁(yè)指向其競(jìng)爭(zhēng)領(lǐng)域的權(quán)威網(wǎng)頁(yè)權(quán)威網(wǎng)頁(yè)很少具有明顯的描述,例如Google主頁(yè)不會(huì)

31、明確給出Web搜索引擎之類的描述信息Page Rank算法中對(duì)于向外鏈接的權(quán)值貢獻(xiàn)是平均的,但根據(jù)以上Web的鏈接特征可看出平均地分布權(quán)值不符合鏈接的實(shí)際情況,2024/2/29,HITS算法(續(xù)),康奈爾大學(xué)博士J. Kleinberg提出的HITS (Hypertext Induced Topic Search)算法在算法中引入了另外一種網(wǎng)頁(yè),稱為Hub網(wǎng)頁(yè)Hub網(wǎng)頁(yè)是提供指向權(quán)威網(wǎng)頁(yè)(Authority)鏈接集合的Web網(wǎng)頁(yè)

32、,它本身可能并不重要,但是Hub網(wǎng)頁(yè)卻提供了指向就某個(gè)主題而言最為重要的站點(diǎn)的鏈接集合Kleinberg認(rèn)為網(wǎng)頁(yè)的重要性應(yīng)該依賴于用戶提出的檢索主題,而且對(duì)每一個(gè)網(wǎng)頁(yè)應(yīng)該將其Authority權(quán)重和Hub權(quán)重分開來(lái)考慮,2024/2/29,HITS算法(續(xù)),根據(jù)頁(yè)面之間的超鏈接結(jié)構(gòu),將頁(yè)面分為Authority頁(yè)和Hub頁(yè)一般來(lái)說(shuō),好的Hub網(wǎng)頁(yè)指向許多好的Authority網(wǎng)頁(yè),好的Authority網(wǎng)頁(yè)是由許多好的Hub網(wǎng)頁(yè)指

33、向的Web網(wǎng)頁(yè)。這種Hub與Authority網(wǎng)頁(yè)之間的相互加強(qiáng)關(guān)系,可用于Authority網(wǎng)頁(yè)的發(fā)現(xiàn)和Web結(jié)構(gòu)和資源的自動(dòng)發(fā)現(xiàn),這就是HITS算法的基本思想,2024/2/29,HITS算法(續(xù)),HITS算法如下將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎從搜索引擎返回的網(wǎng)頁(yè)中取前n(在介紹的HITS論文中采用n=200)個(gè)網(wǎng)頁(yè)作為根集(root set),用S表示通過(guò)向S中加入被S引用的網(wǎng)頁(yè)和引用S的網(wǎng)頁(yè)將S擴(kuò)展成基集T

34、接著算法對(duì)基集T內(nèi)部的每個(gè)網(wǎng)頁(yè)進(jìn)行處理,計(jì)算T中每個(gè)網(wǎng)頁(yè)的Authority值和Hub值迭代計(jì)算并輸出一組具有較大Hub值的頁(yè)面和具有較大Authority值的頁(yè)面,2024/2/29,PageRank與HITS算法的對(duì)比,處理對(duì)象和算法效率不同PageRank算法可以離線計(jì)算每個(gè)網(wǎng)頁(yè)的PageRank值,能對(duì)用戶查詢產(chǎn)生快速的響應(yīng)HITS算法由根集S生成基集T的時(shí)間開銷很昂貴,實(shí)時(shí)性較差傳播模型不同PageRank算法是基

35、于隨機(jī)游走類型的HITS算法將網(wǎng)頁(yè)分為Authority網(wǎng)頁(yè)和Hub網(wǎng)頁(yè),Authority網(wǎng)頁(yè)和Hub網(wǎng)頁(yè)交互傳播,相互加強(qiáng),2024/2/29,PageRank與HITS算法的對(duì)比(續(xù)),反網(wǎng)頁(yè)作弊能力不同PageRank算法能較好地防止網(wǎng)頁(yè)作弊的發(fā)生HITS算法則沒(méi)有這樣好的反作弊能力,因?yàn)榫W(wǎng)頁(yè)擁有者可以很容易地在自己的網(wǎng)頁(yè)上添加大量指向權(quán)威網(wǎng)頁(yè)的鏈接,進(jìn)而影響HITS算法得到的Authority值和Hub值“主題漂移”問(wèn)

36、題HITS算法存在“主題漂移”問(wèn)題PageRank則較好地克服了“主題漂移”問(wèn)題,2024/2/29,8.3 跨語(yǔ)言智能學(xué)術(shù)搜索系統(tǒng),8.3.1 混合語(yǔ)種文本分詞8.3.2 基于機(jī)器翻譯的跨語(yǔ)言信息檢索8.3.3 不同語(yǔ)種文本的搜索結(jié)果聚類8.3.4 基于聚類的個(gè)性化信息檢索8.3.5 基于聚類的查詢擴(kuò)展8.3.6 其它檢索便利工具8.3.7 系統(tǒng)性能評(píng)估,2024/2/29,8.3.1 混合語(yǔ)種文本分詞,漢語(yǔ)詞法分析系

37、統(tǒng)ICTCLAS中文分詞;詞性標(biāo)注;關(guān)鍵詞提取;命名實(shí)體識(shí)別;未登錄詞識(shí)別分詞正確率高達(dá)97.58%(973專家組評(píng)測(cè));未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%;處理速度為31.5Kbytes/sLucene高性能文本分析器,可根據(jù)單詞間的空格進(jìn)行分詞大小寫轉(zhuǎn)換、不規(guī)則符號(hào)過(guò)濾、停用詞過(guò)濾(Stop words filtering)、詞干提取(Stemming),2024/2/29,,整合ICTCL

38、AS和Lucene混合語(yǔ)種分詞策略:輸入一個(gè)文本; 采用ICTCLAS對(duì)所輸入文本進(jìn)行中文分詞以及詞性標(biāo)注處理;提取標(biāo)注為“x”詞性字符串,采用Lucene標(biāo)準(zhǔn)分析器(StandardAnalyzer)進(jìn)行第二趟分詞,對(duì)輸入字符串進(jìn)行大小寫轉(zhuǎn)換、不規(guī)則符號(hào)過(guò)濾、停用詞過(guò)濾、詞干提?。晃谋臼欠褚呀?jīng)處理完,如果否則轉(zhuǎn)(1);結(jié)束。,2024/2/29,8.3.2 基于機(jī)器翻譯的跨語(yǔ)言信息檢索,基于統(tǒng)計(jì)的機(jī)器翻譯方法已經(jīng)具備用戶可接

39、受的準(zhǔn)確率Google翻譯是基于統(tǒng)計(jì)方法的機(jī)器翻譯研究結(jié)合Google翻譯和元搜索技術(shù)實(shí)現(xiàn)基于機(jī)器翻譯的跨語(yǔ)言學(xué)術(shù)檢索,2024/2/29,,實(shí)現(xiàn)流程:用戶輸入查詢?cè)~并選擇目標(biāo)語(yǔ)言;若目標(biāo)語(yǔ)言與源語(yǔ)言(查詢?cè)~所屬語(yǔ)言)相同則轉(zhuǎn)(3),否則將查詢?cè)~翻譯成目標(biāo)語(yǔ)言,作為新的查詢?cè)~;將查詢?cè)~提交到搜索源;返回搜索結(jié)果。,2024/2/29,8.3.3 不同語(yǔ)種文本的搜索結(jié)果聚類,對(duì)不同語(yǔ)種文本采用不同的聚類算法:使用Lingo搜

40、索結(jié)果聚類算法對(duì)西語(yǔ)文本進(jìn)行聚類處理采用一趟聚類算法對(duì)中文搜索返回結(jié)果進(jìn)行增量多層聚類,2024/2/29,8.3.4 基于聚類的個(gè)性化信息檢索,個(gè)性化信息檢索主要是通過(guò)用戶興趣模型對(duì)搜索返回結(jié)果進(jìn)行個(gè)性化重排序和個(gè)性化過(guò)濾返回結(jié)果等方式實(shí)現(xiàn)介紹方法的流程:觀察用戶對(duì)聚類結(jié)果的點(diǎn)擊行為,實(shí)時(shí)提取用戶的興趣偏好生成并更新用戶實(shí)時(shí)興趣模型采用余弦夾角公式計(jì)算興趣模型與搜索結(jié)果相似度按照相似度從大到小對(duì)其進(jìn)行重排序,以實(shí)現(xiàn)個(gè)性化的

41、檢索需求,2024/2/29,8.3.5 基于聚類的查詢擴(kuò)展,通過(guò)查詢擴(kuò)展技術(shù),搜索引擎系統(tǒng)能較好地理解用戶的查詢意圖采用基于局部分析的聚類分析方法選取可讀性強(qiáng)的聚類結(jié)果類標(biāo)簽作為擴(kuò)展詞提供交互式的擴(kuò)展詞選擇方式,2024/2/29,8.3.6 其它檢索便利工具,面向文獻(xiàn)來(lái)源網(wǎng)站(URL)的層次歸類方法“.com”、“.cn”“.edu.cn”“gdufs.edu.cn”基于文獻(xiàn)發(fā)表期刊或者會(huì)議的歸類方法引用文獻(xiàn)聚類功能

42、按相似度排序、按時(shí)間排序、按被引用次數(shù)排序,2024/2/29,8.3.7 系統(tǒng)性能評(píng)估,系統(tǒng)的分詞速度為111 kb/sMT CLIR(Machine Translation CLIR)的短查詢?cè)~、中查詢?cè)~和長(zhǎng)查詢平均準(zhǔn)確率分別為0.4446、0.5536和0.617MCIBC和Lingo的微平均F-Measure值分別達(dá)到了0.4917和0.5178個(gè)性化排序方法得到了較高的P@5、P@10和P@20值(均高于0.5),20

43、24/2/29,部分系統(tǒng)截圖,2024/2/29,2024/2/29,,2024/2/29,2024/2/29,,2024/2/29,,8.4 基于內(nèi)容的垃圾郵件識(shí)別,8.4.1 垃圾郵件識(shí)別方法簡(jiǎn)介8.4.2 基于內(nèi)容的垃圾郵件識(shí)別方法工作原理8.4.3 一種基于聚類的垃圾郵件識(shí)別方法,2024/2/29,8.4.1 垃圾郵件識(shí)別方法簡(jiǎn)介,主流的垃圾郵件識(shí)別技術(shù)可分為郵件服務(wù)器端防范技術(shù)和郵件客戶端防范技術(shù)兩大類郵件服務(wù)器端防范

44、技術(shù):基于IP地址、域名和 “(黑)白名單”過(guò)濾技術(shù);基于信頭、信體、附件的內(nèi)容過(guò)濾技術(shù);基于連接頻率的動(dòng)態(tài)規(guī)則技術(shù);郵件客戶端防范技術(shù):充分利用黑名單,白名單功能;慎用“自動(dòng)回復(fù)”功能;盡量避免泄露郵件地址;,2024/2/29,基于內(nèi)容的垃圾郵件識(shí)別技術(shù),基于內(nèi)容的垃圾郵件識(shí)別技術(shù)是郵件服務(wù)器端防范技術(shù)的主流技術(shù),以上提到的基于信頭、信體、附件的內(nèi)容過(guò)濾技術(shù)是典型的基于內(nèi)容的方法這類型方法的典型代表有Bayes方法、k

45、NN、支持向量機(jī)SVM、Rocchio、神經(jīng)網(wǎng)絡(luò)等,2024/2/29,8.4.2 基于內(nèi)容的垃圾郵件識(shí)別方法工作原理,一封標(biāo)準(zhǔn)格式的電子郵件包含有郵件頭部(mail head)和郵件體(mail body)兩部分郵件頭部包括發(fā)件人,收件人,抄送人,發(fā)信日期,主題,附件等信息郵件體包括郵件正文信息實(shí)例圖如下:,2024/2/29,2024/2/29,垃圾郵件過(guò)濾的基礎(chǔ),在不考慮附件、圖片化文字等問(wèn)題,只簡(jiǎn)單考慮郵件中包含的文本內(nèi)容

46、情況下,這類垃圾郵件大概占總垃圾郵件數(shù)量的80%垃圾郵件過(guò)濾的基礎(chǔ)是識(shí)別出所接收到郵件是正常郵件還是垃圾郵件,而這個(gè)識(shí)別過(guò)程可以看作是一種二類的文本分類問(wèn)題,即正常郵件和垃圾郵件兩個(gè)類別文本的識(shí)別,2024/2/29,識(shí)別方法的主要步驟,基于內(nèi)容的垃圾郵件識(shí)別方法的主要步驟:將解碼并格式化后的電子郵件視為文本;分詞并使用相應(yīng)的文本表示方法來(lái)表示文本,較多的方法采用向量空間模型 VSM;基于已有的垃圾郵件和正常郵件語(yǔ)料庫(kù),采用文本

47、分類算法建立垃圾郵件識(shí)別模型;基于識(shí)別模型判別新收到的郵件是否為垃圾郵件,2024/2/29,8.4.3 一種基于聚類的垃圾郵件識(shí)別方法,介紹的方法首先采用聚類算法學(xué)習(xí)訓(xùn)練語(yǔ)料,并建立識(shí)別模型,然后再結(jié)合kNN分類方法思想對(duì)測(cè)試語(yǔ)料決策分類,具有很好的識(shí)別準(zhǔn)確度以及效率并可以通過(guò)聚類算法增量更新模型,2024/2/29,建立識(shí)別模型,利用一趟聚類算法建立識(shí)別模型,過(guò)程如下:初始時(shí), 簇集合為空,讀入一個(gè)新的文本;以這個(gè)對(duì)象構(gòu)造一

48、個(gè)新的簇,該文本的類別標(biāo)識(shí)作為新簇的類別標(biāo)識(shí);若文本已被處理完,則轉(zhuǎn)(6),否則讀入新對(duì)象, 計(jì)算并選擇最大的相似度的簇;若最大相似度小于給定半徑閾值r,轉(zhuǎn)(2);否則將該文本并入具有最大相似度的簇,轉(zhuǎn)(3);采用投票機(jī)制對(duì)聚類得到的簇進(jìn)行標(biāo)識(shí);得到聚類結(jié)果(識(shí)別模型),建模階段結(jié)束。,2024/2/29,決策分類,結(jié)合kNN分類方法思想,利用識(shí)別模型對(duì)測(cè)試語(yǔ)料進(jìn)行分類處理:給定一個(gè)測(cè)試文本x,使用公式(1)計(jì)算模型m0的每

49、個(gè)簇的打分,即(1)(2)找出k1(first_k_value)個(gè)最近鄰的簇,并在這些簇中查找k2(second_k_value)個(gè)最近鄰的文本基于得到的k2最近鄰文本集,使用公式(2)給其打分,并將x判定為得分最高的類別,2024/2/29,,,模型更新,對(duì)于新添加的訓(xùn)練語(yǔ)料,采用建立模型一樣的方法對(duì)新添加的訓(xùn)練文本進(jìn)行增量式聚類,更新聚類結(jié)果,以得到新的識(shí)別模型,2024/2/29,部分算法性能測(cè)試結(jié)果,2024/2/29,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論