首頁(yè) > 精品范文 > 數(shù)據(jù)挖掘技術(shù)分析論文

數(shù)據(jù)挖掘技術(shù)分析論文精品(七篇)

時(shí)間：2022-12-21 17:52:27

序論：寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感，挖掘那些隱藏在內(nèi)心深處的真相，好投稿為您帶來了七篇數(shù)據(jù)挖掘技術(shù)分析論文范文，愿它們成為您寫作過程中的靈感催化劑，助力您的創(chuàng)作。

數(shù)據(jù)挖掘技術(shù)分析論文

篇(1)

數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學(xué)科，它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù)，能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法，關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法，是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí)，其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor（t支持度）和Confi-dence（可信度）。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。

二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境（WaikatoEnviron-mentforKnowledgeAnalysis），是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法，是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的，Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試，KnowledgeFlow和Explorer類似，但該模塊通過其特殊的接口可以讓使用者通過拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案，Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進(jìn)行。

（一）數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算，在這里我們將以上得分分別確定分類屬性值。

（二）數(shù)據(jù)載入

點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式，這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF，我們將處理好的xls格式另存為csv，在weka中找到這個(gè)文件并重新保存為arff文件格式來實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多，這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除，只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。

（三）關(guān)聯(lián)挖掘與結(jié)果分析

WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法，在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”（最小支持度）參數(shù)值設(shè)為0.1，將“upperBoundMinSupprot”（最大支持度）參數(shù)值設(shè)為1，在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng)，將“minMetric”參數(shù)值設(shè)為1.1，將“numRules”（數(shù)據(jù)集數(shù)）參數(shù)值設(shè)為10，其它選項(xiàng)保存默認(rèn)值，這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

三、挖掘結(jié)果與應(yīng)用

以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作，從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高，即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的，因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng)，在課題研究的過程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來支撐立項(xiàng)，所以這類教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果，在今后的科研工作中，科研處要鼓勵(lì)和幫助教師搞科研，為教師的科研工作提供精神上的支持和物質(zhì)上的幫助，這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)校科研工作的進(jìn)展。

2、副教授類的教師科研立項(xiàng)得分很高，而講師類教師和助教類教師的科研立項(xiàng)得分很低，這樣符合實(shí)際情況。因?yàn)楦苯淌陬惖慕處熡幸欢ǖ慕虒W(xué)經(jīng)驗(yàn)，并且很多副教授類的教師還想晉職稱，所以大多數(shù)副教授類教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類和助教類的教師，由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究，因此這兩類教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果，在今后的科研工作中，科研處可以采用一幫一、結(jié)對(duì)子的形式來幫助年輕教師，這樣可以使青年教師參與到老教師的科研課題研究工作中去，在課題研究工程中提高科研能力和教學(xué)能力。

篇(2)

關(guān)鍵詞：中醫(yī)證侯；研究概況；進(jìn)展

【中圖分類號(hào)】R255.2 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1672-3783(2012)05-0093-01

1 引言

辨證是中醫(yī)學(xué)的特點(diǎn)與優(yōu)勢(shì)之一，也是中醫(yī)藥取得療效的前提。中醫(yī)是以傳承性為主的實(shí)踐醫(yī)學(xué)，受生產(chǎn)技術(shù)水平的影響，前人在辨證的時(shí)候主要靠個(gè)人的臨診經(jīng)驗(yàn)，摻雜了許多主觀因素與模糊概念，加上眾多的醫(yī)學(xué)流派推崇不同的思辨方式，使證侯的外延與內(nèi)涵愈加復(fù)雜而不可確定。隨著計(jì)算機(jī)、生物技術(shù)的進(jìn)步以及交叉學(xué)科的發(fā)展，中醫(yī)證侯的研究開始了新局面，能否從病、證、癥、生物學(xué)基礎(chǔ)等不同層次中挖掘出其固有的規(guī)律性的聯(lián)系，以確定不同證侯的概念范疇、使辨證更具重復(fù)性和臨床可操作性，這成為大家所探求的方向。眾多學(xué)者為此開展了不少研究工作，筆者就中醫(yī)證侯近十年的研究概況進(jìn)行論述并分析如下。

2 中醫(yī)證侯近十年的研究概況

2.1 證侯研究成果檢索結(jié)果與分析:利用“中醫(yī)”、“證或證侯”、“文獻(xiàn)”、“臨床” 及“動(dòng)物（實(shí)驗(yàn)）”等主題詞檢索CNKI數(shù)據(jù)庫(kù)從2000-2008年所收錄的論文，其中文獻(xiàn)研究相關(guān)論文272篇，臨床研究相關(guān)論文5323篇，動(dòng)物實(shí)驗(yàn)相關(guān)論文238篇。統(tǒng)計(jì)結(jié)果如圖1所示。從圖中可以看出以下特點(diǎn)：1）臨床研究是證侯研究的主要方式，這是由中醫(yī)的臨證性所決定的。2）中醫(yī)古籍資源有限、研究成果轉(zhuǎn)換周期較長(zhǎng)，是導(dǎo)致文獻(xiàn)研究數(shù)量低的主要原因。

2.2 證侯研究主要切入方向的研究成果檢索結(jié)果與分析:在檢索“證”或“證侯”研究論文的基礎(chǔ)上，以“四診規(guī)范”、“生物學(xué)”、“數(shù)據(jù)挖掘”等關(guān)鍵詞結(jié)合手工進(jìn)一步檢索，獲得近十年發(fā)表的論文中，與四診規(guī)范研究相關(guān)的論文227篇，與生物學(xué)研究相關(guān)論文436篇，與數(shù)據(jù)挖掘相關(guān)論文220篇。其研究態(tài)勢(shì)如圖2所示。從圖2中可以看出，相關(guān)研究論文均有逐年上升的趨勢(shì)。就近十年而言，證侯生物學(xué)研究相關(guān)論文最多，數(shù)據(jù)挖掘類論文數(shù)量增長(zhǎng)迅速。

2.3 證侯的具體研究概況

2.3.1 四診的定性與定量研究:通過四診收集到的癥狀（主要由患者自己敘述出來）、體征（由患者表現(xiàn)出來，通過望、聞、切可知的，包括舌象、脈象、面色、神志狀況）等信息是證侯的構(gòu)成基礎(chǔ)。舌、脈和面色雖客觀存在，但易受周圍環(huán)境、自然光線及醫(yī)者主觀判斷的影響，因此利用物理儀器、高分辨率的數(shù)碼相機(jī)結(jié)合色彩、圖譜分析軟件力求量化已成為趨勢(shì)。就舌象客觀化而言，不少學(xué)者對(duì)舌色、苔色、舌苔的厚度與濕度、齒痕、紋理特征，甚至對(duì)舌體的胖瘦、歪斜，舌下絡(luò)脈的長(zhǎng)度、寬度、顏色進(jìn)行了量化分析[2-5]，具有一定的臨床符合率。

此外，通過問診所獲取的信息在中醫(yī)證候分類中起著重要的作用。如何控制和把握這些“軟指標(biāo)”，近年來不少學(xué)者也做了很多工作。有學(xué)者把社會(huì)學(xué)中的定性研究引入中醫(yī)問診領(lǐng)域[12]，建議與患者進(jìn)行深入交談，對(duì)患者的語(yǔ)氣、語(yǔ)言表達(dá)方式、神態(tài)、言語(yǔ)內(nèi)容等進(jìn)行綜合分析，以期獲取盡可能多的與病癥相關(guān)的信息，這些信息可能容易被醫(yī)生所忽視，但對(duì)證侯的判別起重要作用，能彌補(bǔ)定量研究的缺憾。

2.3.2 證侯生物學(xué)基礎(chǔ)的研究:中醫(yī)證侯的確立是依據(jù)表現(xiàn)型組資料得來的，對(duì)于現(xiàn)代生命科學(xué)而言，一個(gè)證候表現(xiàn)型的產(chǎn)生必然有從基因組層次到器官組層次的不同范圍的功能異常[13]。從文獻(xiàn)檢索的結(jié)果來看，涉及細(xì)胞、基因?qū)用娴难芯空撐妮^多，技術(shù)相對(duì)成熟；蛋白、代謝組學(xué)層面的論文較少，研究技術(shù)有待完善。

就細(xì)胞層面而言，研究較多的是細(xì)胞因子、細(xì)胞外基質(zhì)及細(xì)胞表面標(biāo)志物在不同證侯下的特異表達(dá)。細(xì)胞因子的相關(guān)性研究趨于熱化主要是因?yàn)椋浩浣閷?dǎo)細(xì)胞間相互影響、作用而形成復(fù)雜的人體調(diào)節(jié)網(wǎng)絡(luò)，這可能是證的實(shí)質(zhì)所在[14]；其種類眾多，功能各異，如白細(xì)胞介素、腫瘤壞死因子、趨化性細(xì)胞因子及其細(xì)胞膜受體和可溶性受體等，這些指標(biāo)常見于諸多論文中；檢測(cè)方法較為便利，且敏感性強(qiáng)。

2.3.3 利用數(shù)據(jù)挖掘方法的證侯研究:中醫(yī)辨證的過程是醫(yī)者憑借個(gè)人經(jīng)驗(yàn)從患者的一系列癥狀、體征或生物學(xué)指征、外界環(huán)境等復(fù)雜的非線性現(xiàn)象[15]中提取出相互關(guān)聯(lián)的、有內(nèi)在規(guī)律的、特異的組合信息。數(shù)據(jù)挖掘[16]則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的，以及最終可理解的模式的非平凡過程。可以說兩者在獲取信息的方式與過程上有契合之處。

研究者常依據(jù)不同的研究目的及數(shù)據(jù)的特點(diǎn)選擇不同的多元統(tǒng)計(jì)方式。如探討飲食習(xí)慣、居住環(huán)境、體質(zhì)因素等不同的致病因素或生物學(xué)檢測(cè)指標(biāo)或某一疾病下各證型的癥狀、體征與該證型之間的關(guān)聯(lián)性多采用回歸法，如進(jìn)一步分析哪些癥狀、體征和生物學(xué)指標(biāo)對(duì)區(qū)分不同的證侯有較高的貢獻(xiàn)度，多通過逐步判別分析。

3 結(jié)語(yǔ)

就近年主要的研究成果來看，將宏觀與微觀、定性與定量的研究方式相結(jié)合是證侯研究的可行路徑和發(fā)展趨勢(shì)。然而如何將有一定組合規(guī)則和重疊涵蓋關(guān)系的證侯要素進(jìn)行合理的分解，四診宏觀信息如何定量，生物學(xué)微觀指標(biāo)如何定性，二者怎樣結(jié)合，采用什么樣的方式結(jié)合才能真正提示或反應(yīng)、甚而揭示證侯的內(nèi)涵，這是目前研究的困惑與癥結(jié)所在，借鑒現(xiàn)代計(jì)算機(jī)信息處理技術(shù)、生物學(xué)技術(shù)和多學(xué)科交叉的優(yōu)勢(shì)互補(bǔ)，可能會(huì)有所突破。

參考文獻(xiàn)

[1] 郭蕾，王永炎，張志斌.關(guān)于證候概念的詮釋.北京中醫(yī)藥大學(xué)學(xué)報(bào),2002; 26(2): 5-7

[2] 衛(wèi)保國(guó)，沈蘭蓀.舌體胖瘦的自動(dòng)分析.計(jì)算機(jī)工程,2004; 30(11):25-58

[3] 衛(wèi)保國(guó)，沈蘭蓀，蔡軼珩.舌體歪斜的自動(dòng)分析.計(jì)算機(jī)工程與應(yīng)用,2003; 25(10): 22-26

[4] 沙洪，趙舒，王妍，任超世. 中醫(yī)脈象多信息采集系統(tǒng)的研制.中華中醫(yī)藥雜志,2007; 22(1): 21-24

篇(3)

關(guān)鍵詞：居民出行特征；數(shù)據(jù)挖掘； GPS軌跡數(shù)據(jù)； DBSCAN

中圖分類號(hào)：TP29 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1006-8228（2017）05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan， Zhang Yaqiong， Zhang Hui

（School of Information Technology， Yulin University， Yulin， Shaanxi 719000， China）

Abstract： The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning， and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore， in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning， the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data， which can not only extract the temporal and spatial characteristics of urban resident travel， but also effectively reduce the taxi no-load rate.

Key words： resident travel characteristic； data mining； GPS trajectory data； DBSCAN

0 引言

在城市的上下班高峰期，道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題，這跟城市居民出行行為密不可分，因?yàn)槌鲂械木用袷墙煌康闹饕獊碓碵1]。一個(gè)城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān)，居民的出行行為會(huì)對(duì)城市交通體系產(chǎn)生影響[2]。對(duì)居民出行特征進(jìn)行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個(gè)基礎(chǔ)性任務(wù)，不僅可以用來對(duì)目前的交通出行情況進(jìn)行評(píng)估，也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè)，對(duì)實(shí)施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。

出租車因其靈活性和便利性，已日漸成為城市交通系統(tǒng)的重要組成部分，同時(shí)，因?yàn)樗钠瘘c(diǎn)和終點(diǎn)由乘客決定，且24小時(shí)不間斷服務(wù)，所以，出租車的運(yùn)營(yíng)規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運(yùn)管理中心傳送出租車的實(shí)時(shí)經(jīng)緯度、運(yùn)營(yíng)狀態(tài)、行駛方向、速度等信息，因此，管理中心會(huì)積累大量的出租車GPS軌跡數(shù)據(jù)[5]，利用DBSCAN對(duì)這些進(jìn)行數(shù)據(jù)進(jìn)行聚類分析，可以在一定程度上挖掘乘客出行的時(shí)空特征，也能為出租車尋找最佳的載客區(qū)域提供依據(jù)，有效的降低出租車的空駛率。

1 GPS軌跡數(shù)據(jù)挖掘設(shè)計(jì)

1.1 數(shù)據(jù)預(yù)處理

本文選取榆陽(yáng)區(qū)（地理坐標(biāo)為東經(jīng)108?58'-110?24'，北緯37?49'-38?58'之間）作為研究區(qū)域，GPS軌跡數(shù)據(jù)使用榆陽(yáng)區(qū)1100多輛出租車五天的運(yùn)營(yíng)數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后，出租車軌跡數(shù)據(jù)由車牌ID tID、、當(dāng)前位置loc、GPS時(shí)間ct、營(yíng)運(yùn)狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個(gè)屬性組成，部分屬性值如表1所示。

表1中，營(yíng)運(yùn)狀態(tài)的取值為0-3，其中0表示空載，1表示載客，2表示駐車，3表示停運(yùn)；GPS方向的取值為000-360，以度為單位，即與北極方向的夾角，代表車輛的行駛方向。

1.2 利用DBSCAN算法進(jìn)行聚類挖掘

居民的作息和社會(huì)活動(dòng)有明顯的時(shí)間規(guī)律，比如上下班高峰期的載客點(diǎn)分布情況和非高峰期的居民出行特征有可能完全不同，因此，可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時(shí)間特征分類，再進(jìn)行密度聚類分析，如此便可充分挖掘在不同時(shí)間段上居民出行特征的空間密度分布情況，給出租車提供更加合理的時(shí)空載客區(qū)域分布數(shù)據(jù)，有效地提高其巡游過程中的載客成功率。基于此，論文引入了DBBSCAN算法，該算法需要3個(gè)輸入?yún)?shù)：歷史軌跡數(shù)據(jù)對(duì)象D，空間半徑ε，以及密度閾值MinPts；輸出參數(shù)為聚類簇C，部分MATLAB代碼如下：

data=importdata（'data.xlsx'）；

data=data.data.Sheet1；

……

num=size（data，1）；

k=floor（log（num））+1；

k=round（num/25）+1；

k_dist=zeros（num，1）；

for i=1：num

temp=repmat（data（i，：），num，1）；

gx0=temp（：，1）； gy0=temp（：，2）；

gx1=data（：，1）；gy1=data（：，2）；

dist0=sqrt（（gx0-gx1）.^2+（gy0-gy1）.^2）；

dist_s=sort（dist0）；

k_dist（i）=dist_s（k）；

end

x=1：num；

figure；plot（x，k_dist，'r-'）；

xlabel（'?ù±?±à??'）；ylabel（'k_{-}dist'）；title（'k_{-}dist??'）；

……

x=[（1：m）' data]；

[m，n]=size（x）；

types=zeros（1，m）；

dealed=zeros（m，1）；

dis=calDistance（x（：，2：n））；

number=1；

……

img=imread（'map.jpg'）；

[Ny，Nx]=size（img）；

……

figure；imagesc（x00，y00，img）； colormap（gray）； hold on；

for i=1：m

if class（i）==-1

plot（data（i，1），data（i，2），'.r'）；

else if class（i）==1

if types（i）==1

plot（data（i，1），data（i，2），'+b'）；

else

plot（data（i，1），data（i，2），'.b'）；

end

elseif class（i）==2

if types（i）==1

plot（data（i，1），data（i，2），'+g'）；

else

plot（data（i，1），data（i，2），'.g'）；

end

……

plot（x1，y1，'r*'）；

xlabel（'度'）； ylabel（'緯度'）；

2 實(shí)驗(yàn)結(jié)果

聚類結(jié)果如圖1和圖2所示，出行熱點(diǎn)區(qū)域在圖中用圓圈標(biāo)出。

以上的聚類結(jié)果顯示，榆陽(yáng)區(qū)的居民出行呈現(xiàn)一定空間和時(shí)間特征。工作日和非工作日出租車熱點(diǎn)區(qū)域不同，且工作日的不同時(shí)間居民出行的特征不同；在工作日，出租車的載客熱點(diǎn)數(shù)比非工作日多；而載客熱點(diǎn)分布，工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機(jī)提供歷史載客熱點(diǎn)序列，從一定程度上解決巡游方式的出租車空載率高的問題。

3 結(jié)束語(yǔ)

本文利用DBSCAN算法對(duì)出租車的歷史GPS軌跡數(shù)據(jù)進(jìn)行挖掘，從挖掘結(jié)果可以分析出居民出行的時(shí)空特征，從而用來對(duì)目前的交通出行情況進(jìn)行評(píng)估，同時(shí)也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè)；再者，可以根據(jù)挖掘結(jié)果給出租車司機(jī)提供歷史載客熱點(diǎn)序列，幫助出租車司機(jī)降低空駛率。本文僅針對(duì)工作日和周末特定時(shí)刻給出了聚類分析，沒有詳細(xì)地分析一天中不同時(shí)刻的居民出行特征，以后的工作中會(huì)繼續(xù)研究和改進(jìn)。

參考文獻(xiàn)（References）：

[1] 衛(wèi)龍，高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進(jìn)展[J].西部交通科技，2016.10：87-92

[2] 馮琦森.基于出租車軌跡的居民出行熱點(diǎn)路徑和區(qū)域挖掘[D].重慶大學(xué)，2016.

[3] 陳世莉，陶海燕，李旭亮，卓莉.基于潛在語(yǔ)義信息的城市功能區(qū)識(shí)別――廣州市浮動(dòng)車GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào)，2016.3：471-483

[4] 張俊濤，武芳，張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué)，2015.6：104-108

[5] 張薇，林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè)，2015.7：61-64

[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)碩士學(xué)位論文，2015.

[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學(xué)碩士學(xué)位論文，2012.

篇(4)

長(zhǎng)久以來信息的不完備是影響管理者進(jìn)行理性判斷和決策的直接原因之一，而現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和部分統(tǒng)計(jì)等功能，但是無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則，無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。因此，杭州市西湖區(qū)院為了在檢察業(yè)務(wù)信息、隊(duì)伍建設(shè)情況和綜合行政事務(wù)方面輔助領(lǐng)導(dǎo)決策，建設(shè)應(yīng)用行政決策輔助系統(tǒng)，將各科室以往分散的數(shù)據(jù)資源進(jìn)行整合，并充分發(fā)揮電子政務(wù)平臺(tái)的優(yōu)勢(shì)，通過系統(tǒng)提供的多種分析功能進(jìn)行多角度、多層次的分析，將各類數(shù)據(jù)轉(zhuǎn)化為院領(lǐng)導(dǎo)決策所需要的信息。它的實(shí)施使得行政決策者可以在廣泛了解決策所需信息的前提下進(jìn)行決策，避免了靠經(jīng)驗(yàn)決策和決策信息不完備導(dǎo)致的決策的盲目性現(xiàn)象，從而提高了行政決策的科學(xué)性和合理性，支持與強(qiáng)化行政決策過程。

一、系統(tǒng)架構(gòu)及技術(shù)分析

系統(tǒng)架構(gòu)主要由數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、模型庫(kù)系統(tǒng)、知識(shí)庫(kù)系統(tǒng)及可視化接口4部分構(gòu)成。采用的關(guān)鍵技術(shù)是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(DW)、數(shù)據(jù)挖掘技術(shù)(DM)、在線分析處理技術(shù)(OLAP)。

(一)數(shù)據(jù)倉(cāng)庫(kù)的作用

電子政務(wù)的決策過程是一個(gè)從非結(jié)構(gòu)化數(shù)據(jù)中抽取結(jié)構(gòu)化信息，再提供非結(jié)構(gòu)化決策分析結(jié)果的過程。因此，為了營(yíng)造良好的電子政務(wù)決策數(shù)據(jù)環(huán)境，獲得高質(zhì)量的數(shù)據(jù)分析結(jié)果，建立適合政府決策的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是電子政務(wù)決策支持系統(tǒng)的關(guān)鍵環(huán)節(jié)，以確保政務(wù)系統(tǒng)中的數(shù)據(jù)能夠更好地發(fā)揮分析、決策的作用。這種數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的功能要能向兩個(gè)不同方向拓展，一是廣度計(jì)算，二是深度計(jì)算。廣度計(jì)算是使數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的應(yīng)用范圍盡量擴(kuò)大，能基本涵蓋市級(jí)政府決策、服務(wù)的領(lǐng)域;深度計(jì)算使數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)克服了以往數(shù)據(jù)庫(kù)簡(jiǎn)單數(shù)據(jù)操作處理(即事務(wù)處理)的缺點(diǎn)，對(duì)數(shù)據(jù)處理提出了更高的要求，使其能更多地參與政府對(duì)數(shù)據(jù)分析和決策的制定等工作。

(二)模型庫(kù)系統(tǒng)的功能

模型庫(kù)系統(tǒng)包括模型庫(kù)及其管理系統(tǒng)，模型庫(kù)是一個(gè)包含有財(cái)務(wù)、統(tǒng)計(jì)、運(yùn)籌和其他定量模型的軟件包，存放解決行政管理問題的經(jīng)驗(yàn)?zāi)Ｐ停菫闆Q策提供分析能力的部件，給予決策者通過推理、比較、選擇來分析、預(yù)測(cè)和解答整個(gè)問題的能力。因此，研究一些決策支持模型，建立一個(gè)政府決策的模型庫(kù)系統(tǒng)是完成系統(tǒng)的關(guān)鍵環(huán)節(jié)之一。這種模型庫(kù)系統(tǒng)應(yīng)具有以下兩個(gè)特點(diǎn)，一是能實(shí)現(xiàn)多目標(biāo)決策;二是能實(shí)現(xiàn)多領(lǐng)域、多部門、多用途的決策，即按經(jīng)濟(jì)內(nèi)容來看應(yīng)具有預(yù)測(cè)類模型、綜合平衡模型、結(jié)構(gòu)優(yōu)化模型、經(jīng)濟(jì)控制類模型等，按決策活動(dòng)來看應(yīng)有規(guī)劃模型、推理模型、分析模型、預(yù)測(cè)模型、評(píng)估模型等。

(三)知識(shí)庫(kù)系統(tǒng)的功能

知識(shí)庫(kù)系統(tǒng)包括知識(shí)庫(kù)及知識(shí)庫(kù)管理系統(tǒng)，其功能是對(duì)知識(shí)進(jìn)行系統(tǒng)化組織與管理，存儲(chǔ)、增加、刪除、修改和查詢知識(shí)，以及對(duì)知識(shí)進(jìn)行一致性和完整性校驗(yàn)。知識(shí)庫(kù)與數(shù)據(jù)庫(kù)既有區(qū)別又有聯(lián)系，從知識(shí)的邏輯表示觀點(diǎn)來看，關(guān)系數(shù)據(jù)庫(kù)是一種簡(jiǎn)單的知識(shí)庫(kù)，數(shù)據(jù)庫(kù)中的每一個(gè)關(guān)系是一個(gè)原子公式，即一個(gè)謂詞，關(guān)系中的元組即是知識(shí)中的事實(shí)，因此利用關(guān)系數(shù)據(jù)庫(kù)來建造知識(shí)庫(kù)，就可以充分利用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的功能，便于知識(shí)庫(kù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。

(四)可視化接口

可視化接口包括預(yù)測(cè)、分析、查詢和維護(hù)等4個(gè)子系統(tǒng)。通過數(shù)據(jù)分析和預(yù)測(cè)工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維分析、匯總，結(jié)果可以用二維表、餅圖、折線圖和直方圖表示。

二、數(shù)據(jù)挖掘的技術(shù)工具和基本過程

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘常用的技術(shù)有神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、近鄰算法和規(guī)則推導(dǎo)等。數(shù)據(jù)挖掘常用的工具有：

第一，基于神經(jīng)網(wǎng)絡(luò)的工具。由于對(duì)非線性數(shù)據(jù)具有快速建模能力，神經(jīng)網(wǎng)絡(luò)很適合非線性數(shù)據(jù)和含噪聲數(shù)據(jù)，所以在政府?dāng)?shù)據(jù)庫(kù)的分析和建模方面可以應(yīng)用。

第二，基于關(guān)聯(lián)規(guī)則和決策樹的工具。大部分?jǐn)?shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹分類技術(shù)來發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則，其核心是某種歸納算法。

第三，基于模糊邏輯的工具。其發(fā)現(xiàn)方法是應(yīng)用模糊邏輯進(jìn)行數(shù)據(jù)查詢、排序等。

第四，綜合多方法工具。不少數(shù)據(jù)挖掘工具采用了多種開采方法，這類工具一般規(guī)模較大，適用于大型數(shù)據(jù)庫(kù)或者并行數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘的基本過程包括數(shù)據(jù)準(zhǔn)備、模型搜索、結(jié)果分析和生成報(bào)告。

數(shù)據(jù)準(zhǔn)備：收集和凈化來自數(shù)據(jù)源的信息并加以存儲(chǔ)，將其放入數(shù)據(jù)倉(cāng)庫(kù)中。

模型搜索：利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型，搜索過程可以由系統(tǒng)自動(dòng)執(zhí)行，也可以由用戶參與執(zhí)行。對(duì)于一個(gè)主題的搜索，可用神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、統(tǒng)計(jì)方法等。

結(jié)果分析：一般地說，數(shù)據(jù)挖掘的搜索過程需要反復(fù)多次，因?yàn)楫?dāng)分析人員評(píng)價(jià)輸出結(jié)果后，他們可能會(huì)發(fā)現(xiàn)一些偏差或一些新的問題，要求對(duì)某一方面做更精細(xì)的查詢。

篇(5)

摘要：本文闡述了電子表格在投資分析中的應(yīng)用，并以某只股票價(jià)格數(shù)據(jù)為例（華夏銀行600015），作為數(shù)據(jù)挖掘的對(duì)象，得出股票買賣的定價(jià)模型。并通過實(shí)證，說明電子表格在數(shù)據(jù)挖掘和財(cái)務(wù)管理方面是可以帶來經(jīng)濟(jì)效益的。

關(guān)鍵詞：電子表格；股票價(jià)格；買賣定價(jià)模型；案例分析

在現(xiàn)實(shí)的生產(chǎn)與生活中，有許多事物我們還沒有掌握其規(guī)律，讓我們做起來很容易失敗，甚至造成很大的損失。但我們又想利用它，就必須研究其規(guī)律。例如，氣象學(xué)中的天氣預(yù)報(bào)，我們?nèi)祟愐呀?jīng)研究的比較準(zhǔn)確了。但在地震、洪澇災(zāi)害等面前，人類就還遠(yuǎn)沒有研究明白。也就是說，數(shù)據(jù)挖掘活動(dòng)仍有廣闊的研究空間和大有用武之地，人類還需要做出大量的數(shù)據(jù)挖掘才能發(fā)現(xiàn)新的或更多的事物的規(guī)律性。

一、數(shù)據(jù)挖掘的作用

1.數(shù)據(jù)挖掘有助于領(lǐng)導(dǎo)者提高決策質(zhì)量

決策是在兩個(gè)以上方案或諸多方案中選擇一個(gè)比較正確的方案的過程。使用數(shù)據(jù)挖掘技術(shù)來揭示事物發(fā)展變化的規(guī)律，然后制定出一種符合規(guī)律的行為模式，這樣取得成功的概率才比較大。在企業(yè)，領(lǐng)導(dǎo)層經(jīng)常要進(jìn)行各種決策。如果沒有一些有利數(shù)據(jù)的支持，全憑借你“拍腦門”決策，就容易事與愿違，欲速則不達(dá)。利用數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)改善決策，它能及時(shí)和更好地幫助領(lǐng)導(dǎo)者做好決策。

2.數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中得到了比較普遍的應(yīng)用，它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ)，其基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。通過收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息，確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求，進(jìn)而推斷出相應(yīng)消費(fèi)群體的消費(fèi)行為，以此為基礎(chǔ)，對(duì)所識(shí)別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷，這與傳統(tǒng)的營(yíng)銷手段相比，大大節(jié)省了營(yíng)銷成本，提高了營(yíng)銷效果，從而為企業(yè)贏得更多的利潤(rùn)。

3.數(shù)據(jù)挖掘在投資領(lǐng)域的應(yīng)用

投資活動(dòng)的目的是為了盈利，但是有些投資者（機(jī)構(gòu)、個(gè)人）卻事與愿違，不但未能盈利，反倒是虧損了。股市上歷來有：“七賠兩平一虧”的說法。這說明，那些在投資活動(dòng)的贏家肯定是有一套成功的方法，而成功的方法依然是離不開數(shù)據(jù)挖掘的結(jié)果。可以斷言，在公平的游戲規(guī)則下，長(zhǎng)期來看，任何成功者都是成功的數(shù)據(jù)挖掘者，都是在掌握了大量經(jīng)驗(yàn)或有關(guān)數(shù)據(jù)，進(jìn)行符合規(guī)律性的操作的結(jié)果；而違背規(guī)律的操作就必然造成投資失敗。當(dāng)前，在投資領(lǐng)域，有股票、期貨、黃金、外匯、白銀、比特幣等。這些領(lǐng)域就是很值得數(shù)據(jù)挖掘。做好了，就是可以實(shí)現(xiàn)盈利的。所以，如果你建立了一個(gè)有效的數(shù)據(jù)模型進(jìn)行有關(guān)投資的買賣，就等于你有了一個(gè)金礦的挖掘機(jī)，從市場(chǎng)中可以挖掘出許多超額利潤(rùn)來。

二、股票數(shù)據(jù)挖掘的案例分析

1.數(shù)據(jù)挖掘的目標(biāo)、思路、依據(jù)和任務(wù)

股票數(shù)據(jù)挖掘，目的是為了在炒股中盈利。在這里，我主要說明一下我利用電子表格進(jìn)行股票數(shù)據(jù)挖掘的做法，并進(jìn)行實(shí)證檢驗(yàn)。

只有通過低買高賣才能賺取差價(jià)而獲利。股票價(jià)格是高低波動(dòng)著的。在股票價(jià)格運(yùn)行在低點(diǎn)區(qū)域時(shí)買入，運(yùn)行到高點(diǎn)區(qū)域時(shí)賣出就掙錢了。所以，股票價(jià)格低到什么程度買，高到什么區(qū)域賣，最重要的是需要計(jì)算股票的買賣價(jià)格系數(shù)。

任何事物都是有著自身變化規(guī)律的，股票價(jià)格的運(yùn)動(dòng)也必定是按照某種規(guī)律變化著的。股票價(jià)格的變動(dòng)規(guī)律可以通過對(duì)大量歷史價(jià)格資料進(jìn)行統(tǒng)計(jì)觀察而被發(fā)現(xiàn)。利用計(jì)算機(jī)電子表格進(jìn)行股票數(shù)據(jù)挖掘的主要任務(wù)是：對(duì)股票價(jià)格開展對(duì)比計(jì)算、平均值計(jì)算和標(biāo)準(zhǔn)差的計(jì)算，從而得出制定股票買賣價(jià)格的重要參數(shù)，解決了人工計(jì)算的速度太慢的問題。

2.研究的過程

（1）搜集數(shù)據(jù)資料，應(yīng)用電子表格對(duì)股票價(jià)格數(shù)據(jù)的處理搜集數(shù)據(jù)。從網(wǎng)上搜索到華夏銀行股票2013 年之前的價(jià)格資料做樣本，導(dǎo)入到電子表格，以便于快速計(jì)算。這里取2004年5月21日至2012年12月28日的共424個(gè)交易周的價(jià)格資料，限于篇幅，為說明該股票實(shí)際價(jià)格構(gòu)成情況，這里只列示了首尾少數(shù)幾周的數(shù)據(jù)（見表1）。

（2）買賣價(jià)格系數(shù)的計(jì)算與買賣定價(jià)公式的建立這里僅以股票的周線資料做研究對(duì)象，讀者也可以類推到日線、月線和季度線等的研究。步驟如下：

①抽取某股票的n 周（n>30）歷史價(jià)格資料，并利用

這樣定價(jià)的道理是為了低買高賣，賺得股票價(jià)差利得。

式中，為概率度，根據(jù)概率論原理，t=1時(shí)，盈利的可靠性為68.27%左右；t=1.5時(shí)股票贏利的可靠性為0.8664；

t=2 時(shí)，盈利的可靠性為0.9545 左右；t=3 時(shí)，盈利的可靠性為0.9973左右。

②股票買賣價(jià)格的制定，即股票買賣定價(jià)模型為：

買價(jià)=上周收盤價(jià)×股票買價(jià)系數(shù)（R）

賣價(jià)=上日收盤價(jià)×股票賣價(jià)系數(shù)（S）

股票華夏銀行每周的買賣定價(jià)模型和操作批量如下：

本周買價(jià)=上周收盤價(jià)×0.8974

這個(gè)盈利水平還是不錯(cuò)的，和一般企業(yè)的年收益率大體相近。如果再結(jié)合趨勢(shì)分析來做，盈利程度將更高。從投資管理的麻煩程度來看，比企業(yè)管理要輕松得多。所以，按這種方法來炒股，是可以帶來穩(wěn)定收益的。

四、結(jié)論

數(shù)據(jù)挖掘技術(shù)具有廣泛的應(yīng)用空間。只要明確研究目的和任務(wù)，設(shè)計(jì)出合理的研究方案，就能找到事物內(nèi)在的規(guī)律。本論文只是研究了一只股票的買賣定價(jià)方法，可見還是很有優(yōu)勢(shì)的。在證券投資領(lǐng)域如此，在其他各個(gè)領(lǐng)域也都是如此，只不過研究的內(nèi)容不同罷了。上述研究方法也可以推廣到炒股指期貨、炒黃金、炒外匯、炒白銀、炒各種貴金屬、炒原油和農(nóng)產(chǎn)品等價(jià)格波動(dòng)型投資對(duì)象中的買賣價(jià)格定價(jià)模式的研究上。因?yàn)樵诖罅繑?shù)據(jù)面前，事物的規(guī)律性才能暴露出來，而基于計(jì)算機(jī)高速計(jì)算能力的現(xiàn)代數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用，必將給研究成果的利用者帶來豐厚的回報(bào)。

參考文獻(xiàn)：

[1]楊云生.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用[J].價(jià)值工程，2004年03期.

[2]王崢，王彥慶.客戶知識(shí)管理的數(shù)據(jù)挖掘方法研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)，2009年05期.

篇(6)

關(guān)鍵詞：數(shù)據(jù)挖掘；客戶價(jià)值分析；K-Means聚類分析

DOI：10.16640/ki.37-1222/t.2017.04.248

1 緒論

體驗(yàn)經(jīng)濟(jì)時(shí)代消費(fèi)趨勢(shì)主要有以下六個(gè)方面：體驗(yàn)化、情感化、個(gè)性化、主動(dòng)化、休閑化和求美化。[1]第三次工業(yè)革命以來，現(xiàn)代信息技術(shù)得到迅猛發(fā)展，各行各業(yè)意識(shí)到數(shù)據(jù)的重要性，建立了無(wú)數(shù)的數(shù)據(jù)庫(kù)，面對(duì)數(shù)以億計(jì)的數(shù)據(jù)，傳統(tǒng)的統(tǒng)計(jì)方法的弊端日益顯現(xiàn)。人們面對(duì)海量的數(shù)據(jù)，卻不能挖掘出有用的信息，隨著“數(shù)據(jù)爆炸”困惑的增加，人們迫切需要新的數(shù)據(jù)處理技術(shù)，因而數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。法國(guó)著名雕塑家羅丹說，生活中從不缺少美，而是缺少發(fā)現(xiàn)美的眼睛。如今，企業(yè)從不缺少數(shù)據(jù)，而是缺少挖掘數(shù)據(jù)價(jià)值的能力。通過對(duì)現(xiàn)有數(shù)據(jù)的挖掘，發(fā)現(xiàn)隱藏在數(shù)據(jù)里的模式，有用信息，指導(dǎo)航空公司作出決策，增加顧客的滿意度，是航空公司必須解決的問題。自從1989年舉行的第十一屆國(guó)際聯(lián)合公認(rèn)學(xué)術(shù)會(huì)上首次提出數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)（KDD），到目前為止，美國(guó)人工智能協(xié)會(huì)曾經(jīng)舉辦了9次KDD全球研討會(huì)。規(guī)模從原來的專題討論會(huì)到策略和技術(shù)的集成以及多學(xué)科跨領(lǐng)域融合。數(shù)據(jù)挖掘技術(shù)迅速在航空電子領(lǐng)域，航空安全領(lǐng)域，航空維修等等航空領(lǐng)域得到較好的應(yīng)用與發(fā)展。我國(guó)在上世紀(jì)90年代的時(shí)候就已經(jīng)開始的對(duì)數(shù)據(jù)挖掘的研究，經(jīng)過多年的研究，我國(guó)已經(jīng)形成數(shù)據(jù)挖掘基礎(chǔ)理論的框架，并且越來越多的學(xué)者投入數(shù)據(jù)挖掘的研究之中。不過相對(duì)于國(guó)外來說，我國(guó)的數(shù)據(jù)挖掘應(yīng)用并沒有得到較高的發(fā)展，依然面臨著嚴(yán)重的挑戰(zhàn)，仍舊有很多問題等待著研究人員去探索和發(fā)現(xiàn)。

2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘有三大步驟：第一數(shù)據(jù)籌備，第二數(shù)據(jù)挖掘，第三結(jié)果表達(dá)和解釋[5]。

數(shù)據(jù)籌備包含數(shù)據(jù)集成，數(shù)據(jù)選擇，目標(biāo)數(shù)據(jù)預(yù)處理。

數(shù)據(jù)挖掘主要是對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘。

結(jié)果表達(dá)和解釋即我們所說的結(jié)果可視化。

3 航空公司客戶價(jià)值分析

3.1 傳統(tǒng)客戶價(jià)值分析方法

傳統(tǒng)的客戶價(jià)值分析使用RFM方法（Recency--最近購(gòu)買日期， Frequency--各時(shí)期購(gòu)買頻率， Monetary一段時(shí)間內(nèi)消費(fèi)總和）在多數(shù)領(lǐng)域中的多數(shù)情況下能有效地預(yù)測(cè)老顧客今后可能的消費(fèi)行為和費(fèi)用，之后對(duì)銷售毛利率、關(guān)系營(yíng)銷費(fèi)用進(jìn)行預(yù)測(cè)，就能按不同時(shí)間段分析出今后短期內(nèi)的客戶價(jià)值。[6]說明，在這種分析方法中，客戶價(jià)值是指CRM毛利。CRM毛利 = 購(gòu)買金額 - 產(chǎn)品成本 - 關(guān)系營(yíng)銷費(fèi)用。[7]

RFM模型以Recency為X軸，F(xiàn)requency為Y軸，Monetary為Z軸做一個(gè)三維立體模型，可以把客戶價(jià)值分為八種：重要發(fā)展客戶、重要價(jià)值客戶、一般發(fā)展客戶、一般價(jià)值客戶、一般保持客戶、一般挽留客戶、重要保護(hù)客戶、重要挽留客戶。

由于航空公司客戶的獨(dú)特性，RFM方法分析航空公司客戶價(jià)值存在多種弊端和不足，造成分析結(jié)果的不準(zhǔn)確和實(shí)用性降低。

（1）在RFM模型中，消費(fèi)金額是一段時(shí)間內(nèi)客戶消費(fèi)總和，由于航空票價(jià)受到運(yùn)輸距離，艙位等級(jí)，閑忙時(shí)，天氣等眾多因素的影響，同樣消費(fèi)金額的客戶對(duì)于航空公司的價(jià)值是不同的。所以用這個(gè)指標(biāo)分析航空公司客戶價(jià)值存在不妥。

（2）RFM是使用屬性分箱法分析客戶價(jià)值的，這種方法細(xì)分客戶群較多，需要逐個(gè)識(shí)別客戶特征和行為，大大提高的針對(duì)性營(yíng)銷的成本。

（3）RFM方法在處理大量數(shù)據(jù)時(shí)由于模型的限制需要的成本較高。

3.2 航空公司客戶數(shù)據(jù)分析方法與步驟

航空客戶信息，包含會(huì)員檔案信息和其他乘坐航班記錄信息等

（1）因?yàn)橄M(fèi)金額總和這一指標(biāo)在航空公司客戶價(jià)值分析過程中不太實(shí)用，所以我們可以選擇航空客戶在一段時(shí)間內(nèi)積累的乘坐距離M和乘坐艙位折扣系數(shù)平均值C來替代消費(fèi)金額總和。同時(shí)，因?yàn)楹娇展緯?huì)員的加入時(shí)間一定程度上可以影響客戶價(jià)值，所以我們?cè)诤娇展究蛻魞r(jià)值分析模型中添加客戶關(guān)系長(zhǎng)度L，當(dāng)做區(qū)分客戶價(jià)值的另一個(gè)指標(biāo)，所以我們構(gòu)建出LRFMC模型。

（2）使用聚類分析的方法把客戶進(jìn)行分類，并且分析客戶群的特征，分析客戶價(jià)值。

第1步數(shù)據(jù)抽取。

（1）以2014年3月31為結(jié)束日期，選取寬度為兩年的時(shí)間段作為分析觀測(cè)窗口，抽取觀測(cè)窗口內(nèi)有乘機(jī)記錄的所有顧客的詳細(xì)資料形成歷史數(shù)據(jù)。對(duì)于后來新增客戶信息利用數(shù)據(jù)中最大的某個(gè)時(shí)間作為結(jié)束時(shí)間，采用同樣的方法進(jìn)行抽取，形成增量數(shù)據(jù)。

（2）根據(jù)末次飛行日期從航空公司系統(tǒng)內(nèi)抽取2012年4月1日至2014年3月31日內(nèi)所有所有乘客的詳細(xì)數(shù)據(jù)，共62988條記錄。

第2步數(shù)據(jù)探索分析。

在原始數(shù)據(jù)中存在票價(jià)為空的情況，票價(jià)為空值的數(shù)據(jù)有可能是航空客戶未有乘機(jī)記錄造成的。票價(jià)最小值為0，折扣率最小值為0，總飛行里程不為0的數(shù)據(jù)有可能是顧客使用0折機(jī)票或者是使用積分兌換的機(jī)票造成的。

第3步數(shù)據(jù)預(yù)處理。

（1）數(shù)據(jù)清洗：從航空公司業(yè)務(wù)和數(shù)據(jù)挖掘建模需要考慮篩選出需要的數(shù)據(jù)。

A）不需要票價(jià)為空的數(shù)據(jù)。

B）不需要票r為0，平均折扣率不為0，總飛行里程不為0的數(shù)據(jù)。

（2）屬性規(guī)約。在原始數(shù)據(jù)中數(shù)據(jù)屬性太多，我們只需要與LRFMC模型相關(guān)的6個(gè)數(shù)據(jù)屬性，所以我們需要?jiǎng)h除不相關(guān)，弱相關(guān)和冗余的數(shù)據(jù)屬性。

（3）數(shù)據(jù)變換。A）數(shù)據(jù)屬性構(gòu)造 B）數(shù)據(jù)標(biāo)準(zhǔn)化

第4步建構(gòu)模型。

構(gòu)建航空公司客戶價(jià)值分析LRFMC模型

A）客戶K-Means聚類分析 B）客戶價(jià)值分析 C）應(yīng)用模型

A客戶K-Means聚類分析。

采用K-Means辦法對(duì)所有客戶數(shù)據(jù)進(jìn)行聚類分析，將客戶數(shù)據(jù)聚為5類。（具體情況具體分析，必須依據(jù)實(shí)際狀況決定分幾類）

B客戶價(jià)值分析。

對(duì)聚類結(jié)果進(jìn)行屬性分析：顧客群1在L、M屬性上最小；顧客群2在R屬性上最大，在F、M上最小；客戶群3在屬性F、M上最大，在R上最小；客戶群4在屬性L上最大；客戶群5在屬性C上最大。

根據(jù)航空公司業(yè)務(wù)定義為五個(gè)等級(jí)的客戶類別：重要保持客戶，重要發(fā)展客戶，重要挽留客戶，普通價(jià)值客戶，低價(jià)值客戶。

根據(jù)每種客戶群類型的特征對(duì)客戶群M行客戶價(jià)值排名，以便獲得高價(jià)值客戶的信息。

C模型應(yīng)用：根據(jù)每種客戶群的特征，可以采取更多個(gè)性化服務(wù)和營(yíng)銷策略。

由于各種行業(yè)面臨的具體問題不同，數(shù)據(jù)挖掘技術(shù)的發(fā)展受到不同的挑戰(zhàn)，不過總大趨勢(shì)來說，數(shù)據(jù)挖掘技術(shù)必將會(huì)得到更好發(fā)展和更加普遍的運(yùn)用。隨著數(shù)據(jù)量爆炸式的激增，分析決策難度的增加，傳統(tǒng)分析方法弊端的顯現(xiàn)，人們對(duì)分析決策智能化和自動(dòng)化的迫切需求，數(shù)據(jù)挖掘技術(shù)與工具將得到更廣泛的使用和發(fā)展。在數(shù)據(jù)爆炸時(shí)代，航空公司面臨的新挑戰(zhàn)為數(shù)據(jù)挖掘技術(shù)提供了發(fā)展背景，個(gè)性化服務(wù)的發(fā)展為數(shù)據(jù)挖掘技術(shù)提供了很好的基礎(chǔ)和發(fā)展平臺(tái)。

數(shù)據(jù)挖掘未來會(huì)吸引越來越多的研究人員，會(huì)涌現(xiàn)出越來越多的研究成果。從目前來看，數(shù)據(jù)挖掘在中國(guó)的研究與應(yīng)用還有很多務(wù)實(shí)的問題沒有解決。本文僅僅是數(shù)據(jù)挖掘技術(shù)在航空公司客戶價(jià)值分析中的初步嘗試，展望未來數(shù)據(jù)挖掘的發(fā)展，有以下幾點(diǎn)需要注意的地方：要充分考慮是否有必要進(jìn)行數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)分析辦法的確有很多弊病，但是相對(duì)于傳統(tǒng)的方法數(shù)據(jù)挖掘需要成本較高。在傳統(tǒng)數(shù)據(jù)分析技術(shù)可以滿足要求的情況下，沒有必要必須進(jìn)行數(shù)據(jù)挖掘，這樣能更加節(jié)省成本。數(shù)據(jù)挖掘需要較大的成本，須要大量的人力，物力和財(cái)力用于數(shù)據(jù)籌備，數(shù)據(jù)搜集，問題建模，生成模型和數(shù)據(jù)分析等等。

參考文獻(xiàn)：

[1]吳釗.體驗(yàn)經(jīng)濟(jì)時(shí)代六大消費(fèi)趨勢(shì)[J].商業(yè)研究，2003（24）.[2]Jiaweihan，Miche line kan ber.Data ming：Concepts and techniques.Diane Cerra Publisher.20063

[3]劉浩，韓晶.MATLAB R2014a一本通[J].電子工業(yè)出版社.

[4]李定遠(yuǎn).CIO時(shí)代網(wǎng).2012，09（29）.

[5]耿向華.數(shù)據(jù)挖掘在旅游商務(wù)系統(tǒng)中的應(yīng)用研究[J].魅力中國(guó)，2013，5（27）.

[6]郭良.基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析[J].華東師范大學(xué)碩士論文，2015.

篇(7)

關(guān)鍵詞：大數(shù)據(jù)；Hadoop；分布式；k-means

中圖分類號(hào)：TP393.02

“大數(shù)據(jù)”時(shí)代已經(jīng)降臨，在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中，決策將日益基于數(shù)據(jù)和分析而作出，而并非基于經(jīng)驗(yàn)和直覺[1]。隨著互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展，在日常運(yùn)營(yíng)中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)的規(guī)模是非常龐大的，以至于不能用G或T來衡量。我們希望從這些結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)中學(xué)習(xí)到有趣的知識(shí)，但這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。因此，并行化數(shù)據(jù)挖掘成為了當(dāng)下的一個(gè)熱門研究課題，其主要編程模式包括：數(shù)據(jù)并行模式，消息傳遞模式，共享內(nèi)存模式以及后兩種模式同時(shí)使用的混合模式[2][3]。

1 國(guó)內(nèi)研究現(xiàn)狀

當(dāng)前中國(guó)的云計(jì)算的發(fā)展正進(jìn)入成長(zhǎng)期，國(guó)內(nèi)很多研究者正進(jìn)入分布式的數(shù)據(jù)挖掘領(lǐng)域，利用國(guó)外的成熟平臺(tái)，例如Hadoop來實(shí)現(xiàn)大數(shù)據(jù)的聚類等算法。但是數(shù)據(jù)的多樣性，文本多格式，造成對(duì)數(shù)據(jù)的操作有很大的難度，而如今大多數(shù)論文都利用了標(biāo)準(zhǔn)化的mapreduce方法來進(jìn)行代碼的編寫，具有一定的通用性，但是Hadoop下還有許多的工具，能夠簡(jiǎn)化m/r過程，同樣對(duì)一定結(jié)構(gòu)的數(shù)據(jù)具有很好的并行效果，但是這方面的研究比較少，因此本文引入了HIVE的運(yùn)用，簡(jiǎn)化了數(shù)據(jù)的操作過程，利用類似標(biāo)準(zhǔn)的SQL語(yǔ)句對(duì)數(shù)據(jù)集進(jìn)行運(yùn)算，在一定程度上提高了并行化計(jì)算的效率。

2 Hadoop并行化基礎(chǔ)

數(shù)據(jù)挖掘（Data Mining）是對(duì)海量數(shù)據(jù)進(jìn)行分析和總結(jié)，得到有用信息的知識(shí)發(fā)現(xiàn)的過程[4]。其中的聚類是一個(gè)重要的研究課題，在面對(duì)如此的海量數(shù)據(jù)，現(xiàn)有的單機(jī)模式的挖掘算法在時(shí)間與空間上遇到了很大的限制，而并行化處理是一種比較好的解決模式。Hadoop是當(dāng)下比較熱門的一個(gè)分布式計(jì)算的平臺(tái)，其中的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具HIVE簡(jiǎn)單快捷地實(shí)現(xiàn)MapReduce方法，適用于結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式。

Hadoop是一個(gè)分布式系統(tǒng)的基礎(chǔ)架構(gòu)，其平臺(tái)由兩部分組成，Hadoop分布式文件存儲(chǔ)系統(tǒng)（HDFS）和MapReduce計(jì)算模型[5]。

HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的（參見圖1），這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括NameNode（僅一個(gè)），它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù)；DataNode，它為HDFS提供存儲(chǔ)塊。由于僅存在一個(gè)NameNode，因此這是HDFS的一個(gè)缺點(diǎn)（單點(diǎn)失敗）。存儲(chǔ)在HDFS中的文件被分成塊，然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中（DataNode）。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小（通常為64MB）和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。

MapReduce是一種高效的分布式編程模型，用于海量數(shù)據(jù)（大于1TB）的并行運(yùn)算[6]，它的主要思想就是映射（Map）和化簡(jiǎn)（Reduce）。一個(gè)任務(wù)（Job）需要實(shí)現(xiàn)基本的MapReduce過程主要包括三個(gè)部分：（1）輸入數(shù)據(jù)；（2）實(shí)現(xiàn)Map函數(shù)與Reduce函數(shù)；（3）實(shí)現(xiàn)此任務(wù)的配置項(xiàng)（JobConf）[7]，圖1描述了實(shí)現(xiàn)MapReduce的基本原理：

圖1 MapReduce原理圖

3 基于HIVE的并行k-means聚類算法設(shè)計(jì)

3.1 Hive簡(jiǎn)介

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供完整的sql查詢功能，可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是可以通過類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

3.2 Hive體系結(jié)構(gòu)

圖2 HIVE體系結(jié)構(gòu)圖

圖2顯示了HIVE的主要組件以及它和Hadoop的相互作用[8]，其主要組件說明如下：

外部接口，Hive同時(shí)提供了用戶界面的命令行（CLI）和Web UI，以及應(yīng)用程序編程接口（API），如JDBC和ODBC。

Hive Thrift服務(wù)器公開了一個(gè)簡(jiǎn)單的客戶端API來執(zhí)行HiveQL語(yǔ)句。Thrift[9]是一個(gè)用于跨語(yǔ)言服務(wù)的框架，框架內(nèi)用一種語(yǔ)言（如Java）編寫，服務(wù)器也可以支持其他的語(yǔ)言的客戶端。Thrift Hive客戶端用不同語(yǔ)言生成用于構(gòu)建常用的驅(qū)動(dòng)程序，如JDBC（java），ODBC（c++），以及用php，perl，python等編寫的腳本驅(qū)動(dòng)程序。

元數(shù)據(jù)存儲(chǔ)（metastore）是系統(tǒng)目錄。所有其他的Hive組件都和metastore有交互。

3.3 K-means算法介紹

k-means算法是最為經(jīng)典的基于劃分的聚類方法，它的基本思想是：以空間中k個(gè)點(diǎn)作為中心進(jìn)行聚類，對(duì)最靠近它們的對(duì)象進(jìn)行分類。通過迭代的方法，逐次更新各聚類中心的值，直到有良好的收斂[10]。假設(shè)要把樣本集分為m個(gè)類別，算法描述如下：

（1）適當(dāng)選擇m個(gè)類的初始中心；

（2）在第k次迭代中，對(duì)任意一個(gè)樣本，求其到m個(gè)中心的距離，將該樣本歸到距離最短的中心所在的類；

（3）利用歐式距離等方法更新每一個(gè)新類的中心值；

（4）對(duì)于所有的m個(gè)聚類中心，如果利用（2）（3）的迭代法更新后，值保持不變或者變化在可允許范圍內(nèi)，則迭代結(jié)束，否則重復(fù)（2）（3）步驟。

參考文獻(xiàn)：

[1]杜鵑，沈銘思.大數(shù)據(jù)時(shí)代，讓子彈飛[J].中國(guó)制衣，2013-02-05：12.

[2]胡善杰.數(shù)據(jù)挖掘算法并行化研究[J].電子世界，2012（12）：67-68.

[3]都志輝.高性能計(jì)算之并行編程技術(shù)——MPI并行程序設(shè)計(jì)[M].北京：清華大學(xué)出版社，2006.

[4]王超鵬.基于云計(jì)算分布式數(shù)據(jù)挖掘算法研究[J].技術(shù)研發(fā)，2012：92-104.

[5]Dean J，Ghemawat S.MapReduce：simplified data processing on large clusters[C].Proceedings of Operating Systems Design and Implementation. San Francisco，CA，2004：137-150.

[6]付東華.基于HDFS的海量分布式文件系統(tǒng)研究與優(yōu)化[J].北京：北京郵電大學(xué)軟件工程，2012-05.

[7]江小平，李成華，向文，張新訪，顏海濤.k-means聚類算法的MapReduce并行化實(shí)現(xiàn)[J].華東科技大學(xué)學(xué)報(bào)，2011-06（39）：120-124.

[8]葉文宸.基于HIVE性能優(yōu)化方法的研究與實(shí)踐[J].南京：南京大學(xué)軟件工程學(xué)院，2011.

[9]劉書楠.Thrift入門簡(jiǎn)介[J].YOUNG青年與社會(huì)，2013（1）：228.

[10]崔丹丹.K-means聚類算法研究及改進(jìn)[M].安徽：安徽大學(xué)計(jì)算機(jī)學(xué)院，2012-04.

[11]Xu X W，Jager J， Kriegel H P. A fast parallel clustering algorithm for large spaial databases[J].Data Mining aand knowledeg Discovery，1999，3（3）：263-290.

相關(guān)文章

亚洲国产精品无码成人片久久-夜夜高潮夜夜爽夜夜爱爱-午夜精品久久久久久久无码-凹凸在线无码免费视频

數(shù)據(jù)挖掘技術(shù)分析論文精品(七篇)

篇(1)

篇(2)

篇(3)

篇(4)

篇(5)

篇(6)

篇(7)

數(shù)據(jù)

大數(shù)據(jù)

大數(shù)據(jù)時(shí)代

數(shù)據(jù)法學(xué)