- 相關(guān)推薦
統(tǒng)計數(shù)據(jù)挖掘的方法及應用
統(tǒng)計數(shù)據(jù)挖掘的方法及應用
摘要:在我國,經(jīng)濟統(tǒng)計工作的進行是為了有效地反映經(jīng)濟發(fā)展狀況,為決策者提供有效決策的依據(jù)。
因此,統(tǒng)計部門在進行經(jīng)濟統(tǒng)計時必須重視經(jīng)濟統(tǒng)計信息的準確性和可靠性。
統(tǒng)計數(shù)據(jù)挖掘技術(shù)可以從混亂、紛繁的數(shù)據(jù)中提取關(guān)鍵的信息與知識,有利于過程控制、決策支持、查詢優(yōu)化、信息管理等工作的順利開展,在信息爆炸的時代具有十分重要的應用價值。
因此,分析統(tǒng)計數(shù)據(jù)挖掘的方法,探究統(tǒng)計數(shù)據(jù)挖掘技術(shù)的恰當應用是非常必要的。
關(guān)鍵詞:統(tǒng)計數(shù)據(jù)挖掘;聚類分析方法;統(tǒng)計基礎方法
數(shù)據(jù)挖掘是由數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)規(guī)則知識表達和知識應用與服務等幾個方面組成。
其中,數(shù)據(jù)采集是基礎,數(shù)據(jù)處理是關(guān)鍵,數(shù)據(jù)規(guī)則知識表達是形式,知識應用與服務是目的。
現(xiàn)實世界中的大部分數(shù)據(jù)是有污染的,任何對數(shù)據(jù)的分析和挖掘都是建立在或多或少的病態(tài)數(shù)據(jù)基礎上的,沒有好的數(shù)據(jù),就不可能提供可靠的規(guī)則和知識。
規(guī)則往往是被大量復雜的數(shù)據(jù)項隱藏,有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無關(guān)的,它們的存在有可能影響到有價值規(guī)則的發(fā)現(xiàn),這必然要求我們在數(shù)據(jù)處理過程中把好數(shù)據(jù)關(guān),即選擇什么樣的數(shù)據(jù),如何進行數(shù)據(jù)清理,對選擇好的數(shù)據(jù)如何處理、要進行哪些處理,只有過好數(shù)據(jù)關(guān)才能保證整個基于統(tǒng)計分析的數(shù)據(jù)挖掘工作的順利完成。
一、數(shù)據(jù)挖掘技術(shù)的概念及特征
數(shù)據(jù)挖掘技術(shù),簡單地說就是從大量的數(shù)據(jù)信息中挖掘出有用的信息。
這里大量的數(shù)據(jù)信息通常被認為是不完全的、模糊的、有噪音的、隨機的,是完全沒有加以處理的信息。
而挖掘之后呈現(xiàn)的就是有效的、潛在有用的、新穎的信息。
這樣的一個變化過程,也常常被認為是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘,可以是經(jīng)濟信息轉(zhuǎn)換的一個過程,還可以是一門交叉的學科。
數(shù)據(jù)挖掘是一門涉及面廣的學科,包括機器學習、神經(jīng)網(wǎng)絡、數(shù)據(jù)庫、數(shù)據(jù)統(tǒng)計等等,現(xiàn)在廣泛應用于統(tǒng)計界。
數(shù)據(jù)挖掘作為一個信息轉(zhuǎn)換的過程,其大體的步驟是:數(shù)據(jù)準備――數(shù)據(jù)挖掘――結(jié)果分析總結(jié)。
數(shù)據(jù)挖掘的主要功能是:分類、預測模型、數(shù)據(jù)聚類、數(shù)據(jù)總結(jié)等。
數(shù)據(jù)挖掘的特點,同時又是數(shù)據(jù)挖掘的優(yōu)點有以下幾點:其一,處理的數(shù)據(jù)量巨大;其二,具有自動找尋信息的功能;其三,能夠有效地描繪過去和預測未來;其四,信息反映快捷及時。
數(shù)據(jù)挖掘常常采用的一些技術(shù)有:關(guān)聯(lián)規(guī)則方法、聚集檢測、記憶基礎推理方法、鏈接分析等等。
二、統(tǒng)計數(shù)據(jù)挖掘的內(nèi)容
隨著統(tǒng)計信息化工程的進展,各地市統(tǒng)計系統(tǒng)的數(shù)據(jù)庫建設正在緊鑼密鼓地進行,有的已經(jīng)開始,有的正在醞釀之中。
一般小型數(shù)據(jù)庫采用了FoxPro、Access等數(shù)據(jù)庫軟件,大型數(shù)據(jù)庫采用了oracle系統(tǒng),同時一些大型企業(yè)也都建立了自己的統(tǒng)計數(shù)據(jù)庫。
另外還有基于Web的統(tǒng)計數(shù)據(jù)庫系統(tǒng),這些不同數(shù)據(jù)源收集的統(tǒng)計信息,通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝人和定期數(shù)據(jù)刷新就構(gòu)成了一個大型的統(tǒng)計數(shù)據(jù)倉庫,為統(tǒng)計數(shù)據(jù)的挖掘創(chuàng)造了條件。
具體來講統(tǒng)計數(shù)據(jù)挖掘的內(nèi)容有:
(一)時間序列數(shù)據(jù)序的挖掘
時間序列數(shù)據(jù)庫是存放隨時間變化序列值的數(shù)據(jù)庫,包括反映月度、季度變化的進度數(shù)據(jù)庫以及年度數(shù)據(jù)庫,由于這些數(shù)據(jù)是經(jīng)過長期歷史積累形成的,因此顯得尤其珍貴。
其中有些是反映國家或某一地區(qū)國家經(jīng)濟和社會發(fā)展的,出現(xiàn)在各種統(tǒng)計年鑒中的,有些是反映企業(yè)的生產(chǎn)、銷售、成本等狀況的,有些是反映市場狀況的,如交易狀況。
通過對時間序列數(shù)據(jù)庫的挖掘,可以發(fā)現(xiàn)數(shù)據(jù)庫中對象演變特征或?qū)ο蟮淖兓厔,以及相互之間的長期均衡的各種關(guān)系,利用這些信息可以進行有關(guān)預測及決策和進一步的定量分析。
(二)截面數(shù)據(jù)庫的挖掘
截面數(shù)據(jù)庫是存放同一時間上不同個體數(shù)據(jù)指標的數(shù)據(jù)庫,包括不同省市、城市、縣鎮(zhèn)區(qū)的宏觀經(jīng)濟指標數(shù)據(jù)庫,也包括不同企業(yè)、家庭及居民的各種行為指標數(shù)據(jù)庫,反映了不同個體之間的差異性及特殊性。
通過對截面數(shù)據(jù)庫的挖掘,可以發(fā)現(xiàn)不同個體之間呈現(xiàn)出的各種規(guī)律及量化關(guān)系,以及通過統(tǒng)計中的聚類分析、判別分析,對不同個體進行分類,還可以進行孤立點分析,判別出那些數(shù)據(jù)與數(shù)據(jù)的一般行為或模型不一致,例如可以發(fā)現(xiàn)信用卡欺詐、為騙取保險金的偽保險、交易中的違規(guī)交易等。
(三)統(tǒng)計信息數(shù)據(jù)庫的挖掘
統(tǒng)計信息涵蓋了國家社會、經(jīng)濟、科技信息的主要方面,是國家重要的基本信息資源。
統(tǒng)計工作信息化的建設一直是各級統(tǒng)計部門工作中的重點,已經(jīng)初具規(guī)模,有FoxPro為系統(tǒng)的小型信息數(shù)據(jù)庫,也有oracle大型數(shù)據(jù)庫管理系統(tǒng),此外,還開發(fā)引進了一些通用的和專用的報表處理、統(tǒng)計報表排版、統(tǒng)計分析等應用較件,各種統(tǒng)計信息資源應有盡有。
同是大型企業(yè)也十分重視建立統(tǒng)計信息管理系統(tǒng),主要用于企業(yè)內(nèi)部的統(tǒng)計業(yè)務處理和向上級公司和政府機關(guān)上報報表。
通過對統(tǒng)計信息數(shù)據(jù)庫的挖掘,可以全方位掌握和了解最新的國民經(jīng)濟、社會發(fā)展、企業(yè)景氣狀況的動態(tài),為政府和企業(yè)的決策服務。
(四)統(tǒng)計普查數(shù)據(jù)庫的挖掘
普查是專門組織的一次性全面調(diào)查,是全面系統(tǒng)地掌握國情國力統(tǒng)計資料的重要途徑。
例如工業(yè)普查、農(nóng)業(yè)普查、人口普查、物質(zhì)庫存普查、工作設備普查等等。
由于進行普查的工作量大,需要動員較多的人力、物力,組織一次很不容易,因此普查的統(tǒng)計資料就顯得尤為珍貴,需要對普查后的數(shù)據(jù)整理、保存,建立相關(guān)統(tǒng)計普查數(shù)據(jù)庫,通過對統(tǒng)計普查數(shù)據(jù)庫的挖掘,可以掌握相關(guān)的真實數(shù)據(jù),從普查中提煉出有價值的信息。
(五)抽樣調(diào)查數(shù)據(jù)庫的挖掘
在社會經(jīng)濟現(xiàn)象中,有很多現(xiàn)象,是無法進行全面調(diào)查的,有些也不必要進行全面調(diào)查,這樣抽樣調(diào)查的方法就顯得比較重要,它較全面調(diào)查有節(jié)省人力、財力,速度快等優(yōu)點。
由于抽樣調(diào)查需要事先設計好抽樣框,要體現(xiàn)出隨機性原則,因此隨機抽樣,并不是簡單地抽取,要完成一次好的隨機抽樣也并不是易事,抽樣調(diào)查的結(jié)果也非常有價值,抽樣調(diào)查的結(jié)果保存在計算機中,就形成了抽樣調(diào)查數(shù)據(jù)庫。
通過抽樣調(diào)查數(shù)據(jù)庫的挖掘可以及時了解社會經(jīng)濟,特別是居民生活方面的現(xiàn)實狀況,對企業(yè)來講可全方位地了解市場信息及市場行情。
三、統(tǒng)計數(shù)據(jù)挖掘的方法及應用探析
(一)統(tǒng)計基礎方法
數(shù)據(jù)挖掘經(jīng)常能夠用到統(tǒng)計的基礎方法,例如,用直方圖和莖葉圖對樣本數(shù)據(jù)作描述;數(shù)據(jù)結(jié)構(gòu)的基本特征可以用數(shù)據(jù)的集中頻次和頻率進行描述;數(shù)據(jù)中心可以用均值、中位數(shù)和眾數(shù)進行描述;數(shù)據(jù)的離散特征可以用極值與百分位點等進行點狀描述;數(shù)據(jù)的離散特征可以用極差和離差進行區(qū)間描述;數(shù)據(jù)特征的綜合描述可以用樣本方差或箱形圖等。
此外,數(shù)據(jù)挖掘中,還廣泛的應用了回歸分析,回歸又包括線性回歸和非線性回歸。
線性回歸是最簡單的回歸形式。
雙變量回歸是將一個隨機變量看作另一個隨機變量的線性函數(shù)。
非線性回歸用于描述變量間的曲線性式關(guān)系。
回歸分析表明了數(shù)據(jù)間的相關(guān)關(guān)系,為進一步的數(shù)據(jù)分析提供了依據(jù)。
(二)聚類分析方法
在模式類型無法得知的情況下,可以運用聚類分析法進行分類、識別。
按照模式間的相似程度進行自動分類的聚類分析法,能夠?qū)⑾嗨贫却蟮哪J綒w為一類。
聚類分析法有凝聚算法、分裂算法、增量聚類和劃分聚類。
例如,層次方法就是按照一定的層次分解給定的數(shù)據(jù)對象集合,可以分為分裂層次方法和凝聚層次方法。
聚類分析法適用于分析樣本之間的內(nèi)部關(guān)系,合理的評價樣本結(jié)構(gòu)。
此外,孤立點的檢測也可以應用聚類分析。
聚類是為了將某個對象從大量的數(shù)據(jù)中分離出來,不是簡單地將數(shù)據(jù)集聚在一起。
目前,聚類分析廣泛應用于圖像處理、模式識別、經(jīng)濟分析等多個領域。
(三)粗集方法
在缺少數(shù)據(jù)先驗知識的情況下,例如隸屬函數(shù)、隸屬度和概率分布等,直接從給定的問題出發(fā),問題的近似域確定可以運用不可分辨類與不可分辨關(guān)系,找出問題中存在的規(guī)律。
粗集理論和證據(jù)理論、神經(jīng)網(wǎng)絡、模糊集等一樣都是進行不確定性計算的重要理論方法,粗集方法在數(shù)據(jù)挖掘中有著廣泛的應用,在殘缺、模糊信息和知識的分類與獲取上有著較大的應用優(yōu)勢,比較有代表性的方法有:統(tǒng)計檢驗方法;單規(guī)則離散器方法;信息嫡方法等。
這些方法都各具特點,但又存在著一個共同的缺陷――每個屬性的離散化過程是各自獨立的,這忽視了不同屬性之間的關(guān)聯(lián),進而導致離散的結(jié)果中包含了不合理或冗余的分割點。
四、結(jié)束語
可以確信,如果數(shù)學是統(tǒng)計方法的首要工具,那么以計算機和網(wǎng)絡為代表的信息技術(shù),正在成為統(tǒng)計應用的首要工具。
隨著統(tǒng)計學與現(xiàn)代信息技術(shù)的融合,在方法上不斷進行新的探索,一定會為統(tǒng)計學和數(shù)據(jù)挖掘未來的發(fā)展開辟一片新的天地。
參考文獻:
[1]陳鳳蘭.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應用[J].現(xiàn)代商業(yè),2010,05
[2]吳慧香.數(shù)據(jù)挖掘在財務風險警報系統(tǒng)中的應用[J].財會通訊,2008,02
[3]丁衛(wèi)平,王杰華,管致錦.基于數(shù)據(jù)挖掘技術(shù)的教學評估智能輔助決策平臺的設計與實現(xiàn)[J].電化教育研究,2009,04
[4]李占宣.數(shù)據(jù)庫中面向復雜應用的查詢方法[J].電腦學習,2009,04
【統(tǒng)計數(shù)據(jù)挖掘的方法及應用】相關(guān)文章:
數(shù)據(jù)挖掘在電子商務管理中的應用論文10-09
Web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用論文10-09
淺談數(shù)據(jù)挖掘在電子商務中的應用經(jīng)濟論文10-10
計算機應用基礎教學方法10-26
列方程解應用題的方法10-26
關(guān)于談經(jīng)濟統(tǒng)計的應用方法論文10-09
淺談項目管理方法在物業(yè)管理的應用10-05
中醫(yī)學多元教學方法的應用的論文10-08
開放性應用題的學習方法總結(jié)01-23