時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁(yè)數(shù)：149 大小：10.78MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩148頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、時(shí)間序列數(shù)據(jù)是一類重要的具有時(shí)序特征的數(shù)據(jù)對(duì)象。時(shí)間序列數(shù)據(jù)可以通過科學(xué)應(yīng)用以及其他商業(yè)應(yīng)用（例如，金融領(lǐng)域）方便的獲取得到。一個(gè)時(shí)間序列是一組按照時(shí)間先后順序排列好的數(shù)據(jù)采樣觀察值。具體地，時(shí)間序列數(shù)據(jù)的性質(zhì)包括:數(shù)據(jù)規(guī)模大（大數(shù)據(jù)），高維度以及流數(shù)據(jù)特性（數(shù)據(jù)更新連續(xù)）。此外，時(shí)間序列數(shù)據(jù)采樣點(diǎn)具有連續(xù)性和數(shù)值特性，整個(gè)時(shí)間序列可以被看成是一個(gè)整體的數(shù)據(jù)對(duì)象而非每個(gè)單獨(dú)具體的數(shù)值采樣點(diǎn)。由于時(shí)間序列可以方便的采集得到，大量的時(shí)間序列

2、數(shù)據(jù)可以用于科學(xué)研究和深入的數(shù)據(jù)挖掘。在過去十年中，大量的科學(xué)工作者致力于時(shí)間序列數(shù)據(jù)挖掘工作，并取得了很多有效的成果。與此同時(shí)，由于時(shí)間序列數(shù)據(jù)的復(fù)雜特性，實(shí)際應(yīng)用中時(shí)間序列數(shù)據(jù)挖掘面臨了很多挑戰(zhàn)。時(shí)間序列數(shù)據(jù)挖掘的目的之一是從時(shí)序數(shù)據(jù)形狀角度，嘗試抽取所有有意義的知識(shí)。整體上來看，時(shí)間序列數(shù)據(jù)挖掘同更一般的數(shù)據(jù)挖掘任務(wù)類似，同樣是為了更好的挖掘、抽取得到可以用于進(jìn)一步分析和應(yīng)用的知識(shí)表示。盡管人類可以很直觀的、很自然的通過時(shí)間序列數(shù)

3、據(jù)“形狀”上的特性獲知每個(gè)時(shí)間序列的潛在知識(shí)，諸如:類別，是否相似，是否是反轉(zhuǎn)點(diǎn)等。然而，對(duì)于任何一部計(jì)算機(jī)，它都只能完成基本的機(jī)械式的計(jì)算任務(wù)。任何包括類似人的這種感知、理解、識(shí)別的能力，計(jì)算機(jī)都無法直接獲得。因此，包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)在內(nèi)的領(lǐng)域，其根本任務(wù)均為設(shè)計(jì)相應(yīng)的模型和算法，從某種程度上通過程序使得計(jì)算機(jī)獲得這種智能的感知、理解和識(shí)別等能力。
　　本文著重探索時(shí)間序列數(shù)據(jù)挖掘的若干問題。具體而言，本論文從時(shí)間序列數(shù)據(jù)分

4、類、時(shí)間序列數(shù)據(jù)檢索以及時(shí)間序列表示和建模等方面入手，結(jié)合現(xiàn)實(shí)生活中的若干具體問題提出了相應(yīng)的模型和方法，并通過大量實(shí)驗(yàn)驗(yàn)證了這些方法的有效性和其在性能上的優(yōu)勢(shì)。本篇論文的主要目的之一是通過機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法，結(jié)合具體工業(yè)、科學(xué)領(lǐng)域的具體問題，設(shè)計(jì)并提出解決相應(yīng)問題的模型和方法，從而更好的解決現(xiàn)實(shí)世界中對(duì)應(yīng)的時(shí)間序列數(shù)據(jù)的問題。我們希望本篇論文能夠提供一種新的看待時(shí)間序列數(shù)據(jù)的視角給相關(guān)時(shí)間序列研究人員，從而使該工作獲得更廣泛的關(guān)

5、注并被擴(kuò)展、引申出更多深入的研究工作。
　　本文的研究?jī)?nèi)容分為四個(gè)部分，分別探索時(shí)間序列表示方法，多元時(shí)間序列分類問題，時(shí)間序列快速檢索以及時(shí)間序列分段表示以及建模問題。針對(duì)以上四個(gè)具體的時(shí)間序列數(shù)據(jù)挖掘問題，結(jié)合現(xiàn)實(shí)世界中四個(gè)具體的問題，我們相應(yīng)的提出了四個(gè)具體的模型方法來解決這些問題。
　　在過去十幾年里，時(shí)間序列數(shù)據(jù)挖掘中的序列分類問題引起了學(xué)術(shù)界大量的關(guān)注。相應(yīng)地，以往學(xué)者提出了許多有關(guān)時(shí)間序列分類的方法，并且認(rèn)為基

6、于最近鄰（k-Neartest Neighbor，特別是1-NN）的方法是目前效果最好的分類方法。對(duì)于給定的具體分類問題，由于基于最近鄰方法的分類效果主要依賴于距離度量的選擇，因此，如何對(duì)給定問題選擇一個(gè)合適的距離度量成為了時(shí)間序列數(shù)據(jù)挖掘中的一個(gè)熱門的研究問題。
　　目前，針對(duì)時(shí)間序列數(shù)據(jù)，已經(jīng)存在許多基于不同角度設(shè)計(jì)的距離度量方法。其中，應(yīng)用最為廣泛的兩個(gè)距離度量方法是歐式距離(Euclidean distance)和動(dòng)態(tài)時(shí)間

7、反轉(zhuǎn)（Dynamic Time Warping）。歐氏距離是一種簡(jiǎn)單有效的度量方法，在一些實(shí)際的時(shí)間序列數(shù)據(jù)分類中，它可以獲得比較好的分類效果。相對(duì)地，動(dòng)態(tài)時(shí)間反轉(zhuǎn)引入了兩個(gè)序列對(duì)齊的概念，從而允許兩個(gè)時(shí)間序列不同時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行對(duì)齊。這種序列對(duì)齊的方法使得動(dòng)態(tài)時(shí)間反轉(zhuǎn)在一些分類場(chǎng)景下獲得了比歐式距離好的效果。然而，動(dòng)態(tài)時(shí)間反轉(zhuǎn)主要的一個(gè)缺點(diǎn)是它需要更多的計(jì)算開銷，并且，盡管結(jié)合1-NN方法，在許多場(chǎng)景下，它可以獲得最好的分類效果，但是

8、對(duì)于其他一些實(shí)際應(yīng)用問題，它的分類效果沒有明顯優(yōu)于其他度量方法。目前的研究結(jié)果表明，沒有一種時(shí)間度量方法能夠在所有時(shí)間序列數(shù)據(jù)上都可以獲得最好的分類效果。另一方面，一般來說距離度量的選擇需要人為的經(jīng)驗(yàn)選擇，因此，這需要大量的人力成本和時(shí)間開銷。因此，對(duì)于時(shí)間序列數(shù)據(jù)如何自動(dòng)的選擇一個(gè)合適的距離度量是目前時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域的一個(gè)挑戰(zhàn)。
　　借鑒特征學(xué)習(xí)的方法，我們探索距離度量學(xué)習(xí)方法在時(shí)間序列數(shù)據(jù)上的應(yīng)用。具體地，通過距離度量的學(xué)

9、習(xí)，針對(duì)不同的數(shù)據(jù)，我們可以自動(dòng)的學(xué)習(xí)得到更好地距離度量方法，從而可以提升時(shí)間序列分類的準(zhǔn)確率。過去幾年，許多距離度量學(xué)習(xí)方法已經(jīng)被提出。其中，一種通過線性變換的模型名為近鄰成分分析(Neighborhood Components Analysis，NCA)的方法，通過學(xué)習(xí)得到的原始數(shù)據(jù)的低維表示方法，結(jié)合k-NN分類器，從而提升了分類的準(zhǔn)確率。然而，這種簡(jiǎn)單的線性變換的局限在于它不能夠?qū)υ紨?shù)據(jù)高階的相關(guān)性進(jìn)行建模，從而影響了分類的效

10、果。因此，基于NCA方法，另一種稱為非線性近鄰成分分析(Nonlinear NCA)的距離度量學(xué)習(xí)方法被提出。這種方法能夠?qū)W習(xí)獲得原始數(shù)據(jù)更好的低維空間表示，從而可以獲得比線性近鄰成分分析方法更好的分類的準(zhǔn)確率。遺憾的是，對(duì)于時(shí)間序列數(shù)據(jù)，以上兩種距離度量學(xué)習(xí)方法不能夠捕捉到時(shí)間序列的本質(zhì)特性，即時(shí)間軸上的偏移(time shift)。
　　為了能夠捕捉時(shí)間軸上偏移的特性，我們結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)，即時(shí)空不變形，針對(duì)時(shí)間序列數(shù)據(jù)

11、，提出了一種全新的距離度量學(xué)習(xí)方法。具體地，我們基于非線性近鄰成分分析方法(NNCA)，設(shè)計(jì)了一種名為卷積非線性近鄰成分分析的距離度量學(xué)習(xí)方法(CNNCA)。該方法不僅能夠?qū)W習(xí)得到低維空間的非線性數(shù)據(jù)映射，并且可以捕捉到時(shí)間序列在時(shí)間軸上的偏移。通過學(xué)習(xí)得到數(shù)據(jù)的低維空間表示，結(jié)合1-NN分類器，我們通過大量實(shí)驗(yàn)證明了，對(duì)于許多數(shù)據(jù)集，這種基于卷積非線性近鄰分析方法學(xué)習(xí)得到的距離表示可以獲得比傳統(tǒng)歐式距離，動(dòng)態(tài)時(shí)間反轉(zhuǎn)，基于窗口約束的D

12、TW更好的分類效果。特別對(duì)于每個(gè)類別都含有大量充足訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集，這種方法的優(yōu)勢(shì)更明顯。另一方面，我們通過比較不同方法的效率，發(fā)現(xiàn)CNNCA對(duì)于大數(shù)據(jù)集和長(zhǎng)時(shí)間序列具有效率上的優(yōu)勢(shì)。該項(xiàng)研究?jī)?nèi)容的主要貢獻(xiàn)分為如下三個(gè)方面:
　　盡管目前已經(jīng)存在若干關(guān)于時(shí)間序列距離度量學(xué)習(xí)方法的研究，但是就我們所知，過去的工作在學(xué)習(xí)距離度量過程中，基本上沒有考慮時(shí)間軸上的偏移問題，而我們主要考慮時(shí)間序列的這個(gè)特性。
　　進(jìn)而，我們針對(duì)時(shí)間序

13、列數(shù)據(jù)提出了一種全新的距離度量學(xué)習(xí)方法(CNNCA)。該方法能夠通過卷積神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)學(xué)習(xí)得到時(shí)間序列的組合特征表示，進(jìn)而利用隨機(jī)近鄰分類的方法學(xué)習(xí)得到低維的距離度量表示。
　　通過在大量公開數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比，我們發(fā)現(xiàn)相比傳統(tǒng)的時(shí)間序列距離度量（如歐式距離、動(dòng)態(tài)時(shí)間反轉(zhuǎn)等）以及提及的兩種距離度量學(xué)習(xí)方法（LNCA和NNCA），CNNCA方法學(xué)習(xí)得到的距離度量都能夠在某種程度上提升分類的準(zhǔn)確率，特別對(duì)于相對(duì)較大規(guī)模的數(shù)據(jù)集。

14、
　　隨著信息技術(shù)的發(fā)展和進(jìn)步，傳感器的價(jià)格越來越低廉，這使得近些年傳感器的使用越來越普及。因此，大量的來自不同領(lǐng)域（例如，生物信息領(lǐng)域，金融領(lǐng)域，移動(dòng)互聯(lián)網(wǎng)以及醫(yī)療領(lǐng)域）的時(shí)間序列數(shù)據(jù)可以被容易的采集得到。于是，諸如一元時(shí)間序列分類問題、多元時(shí)間序列分類問題這些時(shí)間序列數(shù)據(jù)挖掘的研究問題得到了很多學(xué)者的關(guān)注。
　　特別地，較比一元時(shí)間序列，多元時(shí)間序列數(shù)據(jù)對(duì)于潛在的特征模式能夠提供更多的信息（通過不同的維度提供更多的視角）

15、，從而，多種角度的信息可以幫助提升時(shí)間序列分類的準(zhǔn)確率。因此，多元時(shí)間序列分類任務(wù)在許多實(shí)際應(yīng)用問題中變得越來越重要。在本項(xiàng)研究中，我們著重考慮多元時(shí)間序列分類問題。在過去十幾年，已經(jīng)有許多時(shí)間序列分類算法被提出。并且，許多以往的工作聲稱，在這些分類方法中，基于距離度量方法的k最近鄰方法（k-NN）能夠獲得最好的分類效果。另一方面，更多的證據(jù)也表明，對(duì)于許多不同領(lǐng)域的時(shí)間序列數(shù)據(jù)，動(dòng)態(tài)時(shí)間反轉(zhuǎn)度量是目前效果最好的序列距離度量方法。因此，

16、采用動(dòng)態(tài)時(shí)間反轉(zhuǎn)(DTW)度量的k-NN方法在大部分場(chǎng)景下可以獲得最好的分類準(zhǔn)確率。相對(duì)基于距離度量的方法，傳統(tǒng)的基于特征的分類方法也可以應(yīng)用于時(shí)間序列數(shù)據(jù)。然而，這種方法的分類準(zhǔn)確率嚴(yán)重依賴于人工構(gòu)造的特征質(zhì)量。不同于其他數(shù)據(jù)類型，對(duì)于時(shí)間序列數(shù)據(jù)，我們很難直觀的人為構(gòu)造出很好的、能夠捕捉到時(shí)間序列本質(zhì)特性的特征表示，因此，基于特征的分類方法的分類效果一般沒有基于距離度量的方法的分類效果好，特別對(duì)于1-NN和DTW方法?；仡欀疤岬降?/p>

17、1-NN和DTW的不足，我們得到了如下的研究動(dòng)機(jī)。針對(duì)基于特征的分類方法，是否可以提高其分類準(zhǔn)確率？使得基于特征的分類方法不僅能夠在計(jì)算效率上有優(yōu)勢(shì)并且在分類準(zhǔn)確率上也有一定的競(jìng)爭(zhēng)能力？
　　受到深度學(xué)習(xí)應(yīng)用在圖像分類任務(wù)中的啟發(fā)，我們?cè)O(shè)計(jì)并提出了一種應(yīng)用于多元時(shí)間序列數(shù)據(jù)的深度學(xué)習(xí)框架。深度學(xué)習(xí)技術(shù)不需要人工構(gòu)造特征表示，相對(duì)地，它可以通過原始數(shù)據(jù)自動(dòng)的學(xué)習(xí)得到層次化的特征表示。具體地，我們提出了一種有效的多通道深度卷積神經(jīng)網(wǎng)絡(luò)

18、(MC-DCNN)模型用于多元時(shí)間序列分類問題。該模型中，每一個(gè)通道的輸入是相應(yīng)多元時(shí)間序列中某個(gè)一元時(shí)間序列數(shù)據(jù)，每個(gè)通道獨(dú)自的學(xué)習(xí)該一元時(shí)間序列的層次化的特征表示。并且，每個(gè)通道學(xué)習(xí)得到的特征表示再通過多層感知機(jī)進(jìn)行特征的融合并進(jìn)行分類。基于梯度的方法被用于模型的訓(xùn)練。我們通過幾個(gè)真實(shí)世界的數(shù)據(jù)集對(duì)MC-DCNN方法以及對(duì)比方法進(jìn)行評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明MC-DCNN方法的分類效果優(yōu)于其他的對(duì)比方法并且具有更好的泛化能力（特別對(duì)于弱標(biāo)注

19、的數(shù)據(jù)）。此外，我們還對(duì)比了幾種不同的激發(fā)函數(shù)和池化策略(pooling strategy)，并且比較了不同激發(fā)函數(shù)和池化策略組合在訓(xùn)練過程中的收斂速率。為了進(jìn)一步的提升分類效果，我們采用了一種無監(jiān)督的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的方法，并且提出了基于預(yù)訓(xùn)練的多通道卷積深度神經(jīng)網(wǎng)絡(luò)模型。同時(shí)，為了更好的感知模型學(xué)習(xí)得到的特征，我們對(duì)卷積層學(xué)習(xí)得到的局部特征進(jìn)行了有效的可視化展示。
　　地震學(xué)界對(duì)于實(shí)時(shí)的報(bào)告地震信息的進(jìn)行大量的努力和研究。最

20、近幾年，這些研究和努力集中在地震預(yù)警系統(tǒng)的開發(fā)工作中。這些預(yù)警系統(tǒng)可以在地震發(fā)生后幾秒到幾分鐘之內(nèi)對(duì)公眾發(fā)出預(yù)警消息。目前在世界范圍內(nèi)存在若干個(gè)地震預(yù)警系統(tǒng)，包括日本的REIS，墨西哥的SAS，臺(tái)灣的VSN以及土耳其的IERREWS系統(tǒng)。美國(guó)的研究人員致力于開發(fā)針對(duì)加利福尼亞地區(qū)的ElarmS早期預(yù)警系統(tǒng)，然而該系統(tǒng)的效果不明顯。目前已經(jīng)存在若干魯棒的算法用于自動(dòng)的估計(jì)地震震源信息。例如，日本的REIS系統(tǒng)能夠在P波(P-wave)到達(dá)

21、之后5秒鐘之內(nèi)，利用密集的地震監(jiān)測(cè)臺(tái)站網(wǎng)絡(luò)數(shù)據(jù)，得到地震的位置和震級(jí)信息。然而，盡管采用新近提出的基于格林函數(shù)以及矩張量反演方法，該系統(tǒng)仍然需要若干分鐘甚至更多的時(shí)間來推斷震源機(jī)制解信息。同樣地，基于GPS數(shù)據(jù)的方法也需要若干分鐘才能夠得到大地震矩張量的幾何中心。
　　探索實(shí)時(shí)的推斷地震震源機(jī)制、震源位置和震級(jí)有著非常重大的意義。以海嘯預(yù)測(cè)為例，海嘯預(yù)測(cè)需要使用全部的震源參數(shù)，包括震源深度，震級(jí)，滑動(dòng)(slip)以及斷層的走向（s

22、trike和dip）。例如，2010年10月25日發(fā)生在蘇門答臘島西部海域的震級(jí)為Mw7.7的淺層地震，引起了局部地區(qū)的海嘯并且在幾分鐘之內(nèi)到達(dá)該島，使得400多人意外喪生。震源機(jī)制解的研究表明這次地震是由逆斷層機(jī)制引起海水運(yùn)動(dòng)造成的。另一個(gè)相對(duì)的例子是在2012年4月11日發(fā)生的震級(jí)為Mw8.6的印度洋大地震之后大約兩小時(shí)的震級(jí)Mw8.2的余震，該余震并沒有引起海嘯，盡管已經(jīng)發(fā)布了預(yù)警信息。震源機(jī)制解的研究表明這兩次地震都是由于走向滑

23、動(dòng)引起的。然而，相對(duì)較少的海水移動(dòng)不太可能會(huì)引發(fā)海嘯。
　　實(shí)時(shí)的震源機(jī)制解估計(jì)對(duì)于監(jiān)測(cè)地質(zhì)斷層的活動(dòng)具有很重要的作用。通過分析1999年震級(jí)Mw7.6的伊茲米特地震，發(fā)現(xiàn)一系列前陣的震源機(jī)制解顯示出相似的斷層滑動(dòng)方式。局部地區(qū)一組地震的震源機(jī)制解能夠有助于刻畫出該地區(qū)地質(zhì)斷層的活動(dòng)。從而有利于實(shí)時(shí)的描繪出地震活躍區(qū)域的斷層移動(dòng)方式。
　　估計(jì)震源機(jī)制解最大的挑戰(zhàn)在于如何在獲得地震數(shù)據(jù)后數(shù)秒鐘之內(nèi)更加快速自動(dòng)化的得出結(jié)果。在

24、本研究中，我們借鑒傳統(tǒng)Web搜索引擎的思想，設(shè)計(jì)了一種基于圖像的地震圖搜索引擎(SeisE)，用以在一秒鐘之內(nèi)完成對(duì)地震震源參數(shù)的估計(jì)。具體地，我們事先通過相應(yīng)的地震模型構(gòu)造得到大規(guī)模的地震圖數(shù)據(jù)庫(kù)并且用于后續(xù)的檢索問題。類似于語音數(shù)據(jù)，每一個(gè)地震圖數(shù)據(jù)可以認(rèn)為是一個(gè)一元的時(shí)間序列數(shù)據(jù)，并通過地震監(jiān)測(cè)臺(tái)站記錄得到地震引起的地表運(yùn)動(dòng)。每一個(gè)地震圖即時(shí)間序列，包含有地震震源信息以及該地震波傳播媒介的信息。假設(shè)我們采用的地球速度模型已知，我們

25、采用前向建模方法(forwardmodeling)來模擬生成地震圖并構(gòu)建地震圖數(shù)據(jù)庫(kù)。通過設(shè)定每個(gè)參數(shù)的集合構(gòu)建參數(shù)網(wǎng)格來完成地震圖數(shù)據(jù)庫(kù)的生成。地震搜索引擎的目的是查找得到輸入地震記錄在地震數(shù)據(jù)庫(kù)中最相似的若干個(gè)地震圖，即傳統(tǒng)的時(shí)間序列檢索問題。整個(gè)地震圖搜索以及后續(xù)震源參數(shù)估計(jì)過程都可以自動(dòng)的完成，而不需要人為的干預(yù)。因此，該地震搜索引擎可以用于日常自動(dòng)化的地震震源參數(shù)的推斷任務(wù)。我們通過若干具體的地震事件來驗(yàn)證我們方法的有效性以及

26、效率。特別地，我們的方法可以在少于一秒鐘時(shí)間內(nèi)完成對(duì)輸入地震事件的震源參數(shù)估計(jì)，同時(shí)對(duì)于發(fā)生在地震數(shù)據(jù)庫(kù)之外區(qū)域的以及多個(gè)重疊地震事件（發(fā)生時(shí)間相近），我們的系統(tǒng)能夠有效的區(qū)分出這些情況并且通過設(shè)定初始閾值進(jìn)行過濾。
　　過去二十年，股票收益或者股票指數(shù)預(yù)測(cè)吸引了許多研究者的關(guān)注。很長(zhǎng)一段時(shí)間，為了預(yù)測(cè)股票市場(chǎng)的變化，主要存在兩類預(yù)測(cè)方法。一種是基于基本面分析的方法，另一種是基于技術(shù)分析的方法。前者主要側(cè)重于分析影響上市公司股票價(jià)

27、格的各種因素，比如整體經(jīng)濟(jì)情況以及公司的經(jīng)營(yíng)狀況等。目的是判斷得出公司未來股票價(jià)格的長(zhǎng)期走勢(shì)。相對(duì)于基本面分析，技術(shù)分析方法也稱為圖表法，通過分析上市公司股票價(jià)格的歷史數(shù)據(jù)，包括股票價(jià)格以及股票交易量等信息。至今，許多有效的基于曲線圖模式的方法已經(jīng)被用于預(yù)測(cè)股票價(jià)格的走勢(shì)，比如，head and shoulder，cup and handle等基于形狀的模式。此外，存在許多技術(shù)指標(biāo)(technical indicator)，例如，Mov

28、ing Average，Relative strengthindex(RSI)等指標(biāo)用于估計(jì)股票價(jià)格的反轉(zhuǎn)點(diǎn)。技術(shù)分析方法主要采用曲線圖模式以及領(lǐng)先的技術(shù)指標(biāo)來預(yù)測(cè)股票價(jià)格走勢(shì)，并且利用滯后的技術(shù)指標(biāo)來確認(rèn)預(yù)測(cè)得到的股票價(jià)格反轉(zhuǎn)點(diǎn)。無論是基本面分析還是技術(shù)分析方法，兩種方法都需要大量的人工分析并且強(qiáng)烈依賴于分析人員的經(jīng)驗(yàn)和能力才能獲得最后的決策。這樣使得投資者花費(fèi)大量時(shí)間在分析股市上和決策判斷上。
　　隨著計(jì)算機(jī)相關(guān)領(lǐng)域的快速發(fā)展

29、，科技技術(shù)的進(jìn)步使得很多研究人員嘗試采用數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)的方法進(jìn)行股票市場(chǎng)的預(yù)測(cè)。在過去二十年，許多有關(guān)股票市場(chǎng)預(yù)測(cè)方法被提出，包括基于機(jī)器學(xué)習(xí)的方法，比如基于神經(jīng)網(wǎng)絡(luò)的方法、基于支持向量機(jī)(SVM)的方法、基于模糊系統(tǒng)的方法和基于演化算法的方法等，以及基于統(tǒng)計(jì)模型的方法，比如基于GARCH(Generalized AutoRegressiveConditional Heteroskedasticity)模型的方法。這些研究的結(jié)果指

30、出，定量分析（即技術(shù)分析）和定性分析（即基本面分析）對(duì)于股票價(jià)格的預(yù)測(cè)都是有幫助的。
　　從基本面分析的角度看，社會(huì)上的公開信息，例如新聞，微博用戶的整體情感以及有關(guān)上市公司股票的分析文章都會(huì)影響或者反應(yīng)出整個(gè)股票市場(chǎng)的趨勢(shì)。Web可以認(rèn)為是金融信息最大的信息源（例如新聞文章和個(gè)體用戶的觀點(diǎn)等），并且，許多研究人員指出可以基于社會(huì)大眾的情感分析從而預(yù)測(cè)股票市場(chǎng)的走勢(shì)。
　　股票市場(chǎng)被認(rèn)為是一個(gè)高度復(fù)雜的系統(tǒng)，它包含了大量的噪

31、聲信息，并且是混沌的和非穩(wěn)定的。已知很多研究人員曾經(jīng)指出它們的方法（或者基于神經(jīng)網(wǎng)絡(luò)的，或者基于模糊邏輯的，或者基于任何其他的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法）能夠在某種程度上用來預(yù)測(cè)未來股票價(jià)格或者股票價(jià)格走勢(shì)。然而，我相信大部分人員對(duì)此都這些方法的可靠性持懷疑的態(tài)度。另一方面，縱然我們相信這些方法可以在一定的準(zhǔn)確率條件下預(yù)測(cè)股票市場(chǎng)，例如，55％，那么，對(duì)于這些預(yù)測(cè)的結(jié)果，我們?cè)趺从脕碇笇?dǎo)我們進(jìn)行決策呢？
　　直觀地，在進(jìn)行股票交易的過

32、程中，我們最期望知道的信息是何時(shí)是短期時(shí)間內(nèi)該股票的最低價(jià)格，并且，更好的情況是我們還可以獲知何時(shí)是股票價(jià)格的最高值。為了簡(jiǎn)化說法，我們將這些局部時(shí)間的最低股價(jià)和最高股價(jià)合稱為股票價(jià)格的反轉(zhuǎn)點(diǎn)(turning points)，具體地，將最低股價(jià)稱為“山谷點(diǎn)(valley)”，將最高股價(jià)稱為“山峰點(diǎn)(peak)”。股票價(jià)格反轉(zhuǎn)點(diǎn)可以認(rèn)為是股票價(jià)格序列的一種高等級(jí)的抽象表示。任何股票價(jià)格序列都可以用一個(gè)反轉(zhuǎn)點(diǎn)的序列來表示（山谷點(diǎn)和山峰點(diǎn)交替

33、出現(xiàn)）。如果我們能夠相對(duì)準(zhǔn)確的預(yù)測(cè)反轉(zhuǎn)點(diǎn)的出現(xiàn)，那么理想的交易決策應(yīng)該是在山谷點(diǎn)買入股票并且在山峰點(diǎn)賣出股票?；谶@種交易策略，我們最終的收益將會(huì)增加。然而，如何才能知道何時(shí)是反轉(zhuǎn)點(diǎn)呢？如果我們將這個(gè)問題考慮為分類問題，并且期望通過數(shù)據(jù)挖掘方法或者機(jī)器學(xué)習(xí)方法來預(yù)測(cè)反轉(zhuǎn)點(diǎn)的出現(xiàn)，那么這個(gè)問題主要包括兩個(gè)挑戰(zhàn)。第一是怎樣獲得訓(xùn)練數(shù)據(jù)，即如何獲得已知反轉(zhuǎn)點(diǎn)的股票價(jià)格序列數(shù)據(jù)。第二是如何在已知訓(xùn)練數(shù)據(jù)的情況下，構(gòu)造有效地特征從而用來進(jìn)行反轉(zhuǎn)點(diǎn)

34、的預(yù)測(cè)。本研究?jī)?nèi)容主要嘗試探索以上兩個(gè)問題。具體地，我們通過設(shè)計(jì)得到一種股票反轉(zhuǎn)點(diǎn)預(yù)測(cè)的方法，最終得到基于預(yù)測(cè)反轉(zhuǎn)點(diǎn)的股票交易決策支持系統(tǒng)。該系統(tǒng)主要包括兩部分內(nèi)容，一是通過逐端重要點(diǎn)(PIP)識(shí)別方法以及邏輯規(guī)則方法得到反轉(zhuǎn)點(diǎn)的訓(xùn)練數(shù)據(jù)。二是通過大量豐富的技術(shù)指標(biāo)(technical indicator)作為反轉(zhuǎn)點(diǎn)的特征進(jìn)行反轉(zhuǎn)點(diǎn)的預(yù)測(cè)任務(wù)。該項(xiàng)研究目的之一是探索技術(shù)指標(biāo)是否對(duì)股票反轉(zhuǎn)點(diǎn)的預(yù)測(cè)有幫助，另一個(gè)目的是通過預(yù)測(cè)的反轉(zhuǎn)點(diǎn)可以對(duì)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載

時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究.pdf