2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、命名實(shí)體識(shí)別是將文本中的元素分成預(yù)先定義的類,如人名、地名、組織機(jī)構(gòu)名、時(shí)間、貨幣等等。作為自然語言的承載信息單位,命名實(shí)體識(shí)別屬于文本信息處理基礎(chǔ)的研究領(lǐng)域,是信息抽機(jī)構(gòu)取、信息檢索、機(jī)器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)中必不可少的組成部分。在實(shí)體識(shí)別領(lǐng)域,國外科研機(jī)構(gòu)針對(duì)英文實(shí)體的識(shí)別已取得了突出的成績,識(shí)別準(zhǔn)確度達(dá)到90%以上。由于中文在分詞及語義方面存在著眾多的困難,國內(nèi)針對(duì)該問題還處于研究和探索階段。所以針對(duì)中文實(shí)體及關(guān)系

2、的識(shí)別的研究有著重大的意義。
  論文的工作主要體現(xiàn)在以下幾個(gè)方面:
  第一,研究分析了用于實(shí)體識(shí)別及實(shí)體關(guān)系識(shí)別的眾多的機(jī)器學(xué)習(xí)模型,包括隱馬爾科夫模型、最大熵模型以及支持向量機(jī)模型。分析這些模型在實(shí)體識(shí)別方式方面的優(yōu)勢(shì)和缺陷,并通過分析發(fā)現(xiàn)新興的“條件隨機(jī)場(chǎng)模型”是一種在結(jié)構(gòu)上繼承了經(jīng)典模型的優(yōu)點(diǎn),并克服了在識(shí)別中不能依賴周邊信息以及標(biāo)記偏置等缺陷的模型。國內(nèi)外的相關(guān)實(shí)驗(yàn)也表明在自然語言處理,特別是實(shí)體識(shí)別領(lǐng)域,條件隨

3、機(jī)場(chǎng)模型有著更加出色的發(fā)揮。故而本系統(tǒng)選用其作為實(shí)體及實(shí)體關(guān)系識(shí)別的算法模型。
  第二,由于條件隨機(jī)場(chǎng)模型擁有可進(jìn)行長距離信息依賴的特點(diǎn),可以充分利用當(dāng)前詞前后詞的屬性對(duì)當(dāng)前詞進(jìn)行更加準(zhǔn)確的判斷,因此本論文將該模型選擇為本課題研究和引用的模型。而“條件隨機(jī)場(chǎng)模型”也存在著“過于依賴特征的選取”的弊端,即實(shí)體識(shí)別程度的好壞在很大程度上取決于對(duì)于特征向量選取的好壞?,F(xiàn)階段還沒有針對(duì)中文特征選取的相關(guān)規(guī)則,本文將針對(duì)該系統(tǒng)語料集的特點(diǎn)

4、,使用由簡到繁的特征選取方式構(gòu)建特征模板。因此對(duì)于特征的選取及特征模板的構(gòu)建是本系統(tǒng)的重點(diǎn)工作。
  在實(shí)體識(shí)別階段構(gòu)建的特征模板為:1)選取詞語本身及詞性作為特征構(gòu)建了基本特征模板;2)選取實(shí)體特征,通過語料轉(zhuǎn)換構(gòu)建了實(shí)體特征模板;3)選取實(shí)體指示詞構(gòu)建了指示詞模板,并在其中加入了相關(guān)的專業(yè)詞典信息;4)通過特征的組合構(gòu)建了組合特征模板。在實(shí)體關(guān)系識(shí)別階段除了選取了基本特征、詞性特征外,本文還提出了將句法結(jié)構(gòu)作為重要的特征用于構(gòu)

5、建特征模板。通過對(duì)句法結(jié)構(gòu)的分析,選取共同節(jié)點(diǎn)特征、依賴動(dòng)詞特征、實(shí)體-實(shí)體路徑特征以及實(shí)體-依賴動(dòng)詞路徑特征作為實(shí)體關(guān)系識(shí)別的重要特征。
  第三,本系統(tǒng)以條件隨機(jī)場(chǎng)模型為框架,使用1998年人民日?qǐng)?bào)語料做為訓(xùn)練集,完成模型的訓(xùn)練工作。在網(wǎng)頁解析方面,提出了一種結(jié)合HTMLParser的技術(shù)將涉及《天龍八部》小說人物的百度詞條中的正文信息進(jìn)行了提取,生成測(cè)試集。使用測(cè)試集進(jìn)行實(shí)體識(shí)別及實(shí)體關(guān)系識(shí)別的實(shí)驗(yàn),數(shù)據(jù)表明本文提出的特征模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論