香港(國際):+852-5979-8118
廣州(國內):+8620-89834518


@統計挖掘服務

 

 真理諮詢資料採擷技術服務 

1. 真理資料採擷簡介

資料採擷(data mining)是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。隨著資訊技術的高速發展,人們積累的資料量急劇增長,動輒以TB計,如何從海量的資料中提取有用的知識成為當務之急。真理資料採擷就是為順應這種需要應運而生發展起來的資料處理與技術服務,是知識發現(knowledge discovery in database)的關鍵步驟。

2.真理資料採擷物件

根據資訊存儲格式,用於挖掘的物件有關聯式資料庫、物件導向資料庫、資料倉庫、文本資料來源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及internet等。涉及通信使用與使用者資訊、零售銷售與客戶資訊、企業內部管理資料、政府部門資料等。

3.真理資料採擷工具

真理諮詢目前使用的統計挖掘軟體包括SPSS Modeler(Clementine)SASRWekaMathlabAMOSChaidWin等專業軟體,真理諮詢可以結合不同軟體實現幾乎所有的統計挖掘技術。

4.真理資料採擷流程

定義問題:清晰地定義出業務問題,確定資料採擷的目的。

數據準備:資料準備包括:選擇資料--在大型資料庫和資料倉庫目標中提取資料採擷的目標資料集;資料預處理--進行資料再加工,包括檢查資料的完整性及資料的一致性、去雜訊,填補丟失的域,刪除無效資料等。

資料採擷:根據資料功能的類型和和資料的特點選擇相應的演算法,在淨化和轉換過的資料集上進行資料採擷。

結果分析:對資料採擷的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。

知識的運用:將分析所得到的知識集成到業務資訊系統的組織結構中去。

5.真理資料採擷任務

真理資料採擷的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。

     (1)關聯分析(association analysis)

關聯規則挖掘是由Rakesh Apwal等人首先提出的。兩個或兩個以上變數的取值之間存在某種規律性,就稱為關聯。資料關聯是資料庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。一般用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。

聚類分析(clustering)

聚類是把資料按照相似性歸納成若干類別,同一類中的資料彼此相似,不同類中的資料相異。聚類分析可以建立宏觀的概念,發現資料的分佈模式,以及可能的資料屬性之間的相互關係。

分類(classification)

分類就是找出一個類別的概念描述,它代表了這類資料的整體資訊,即該類的內涵描述,並用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練資料集通過一定的演算法而求得分類規則。分類可被用於規則描述和預測。

預測(predication)

預測是利用歷史資料找出變化規律,建立模型,並由此模型對未來資料的種類及特徵進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。

時序模式(time-series pattern)

時序模式是指通過時間序列搜索出的重複發生概率較高的模式。與回歸一樣,它也是用己知的資料預測未來的值,但這些資料的區別是變數所處時間的不同。

偏差分析(deviation)

在偏差中包括很多有用的知識,資料庫中的資料存在很多異常情況,發現資料庫中資料存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。

6.真理資料採擷的方法

神經網路方法

神經網路由於本身良好的魯棒性、自組織自我調整性、並行處理、分佈存儲和高度容錯等特性非常適合解決資料採擷的問題,因此近年來越來越受到人們的關注。典型的神經網路模型主要分3大類:以感知機、bp反向傳播模型、函數型網路為代表的,用於分類、預測和模式識別的前饋式神經網路模型;以hopfield的離散模型和連續模型為代表的,分別用於聯想記憶和優化計算的回饋式神經網路模型;以art模型、koholon模型為代表的,用於聚類的自組織映射方法。神經網路方法的缺點是"黑箱"性,人們難以理解網路的學習和決策過程。

遺傳演算法

遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜索演算法,是一種仿生全域優化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在資料採擷中被加以應用。

sunil已成功地開發了一個基於遺傳演算法的資料採擷工具,利用該工具對兩個飛機失事的真實資料庫進行了資料採擷實驗,結果表明遺傳演算法是進行資料採擷的有效方法之一。遺傳演算法的應用還體現在與神經網路、粗集等技術的結合上。如利用遺傳演算法優化神經網路結構,在不增加錯誤率的前提下,刪除多餘的連接和隱層單元;用遺傳演算法和bp演算法結合訓練神經網路,然後從網路提取規則等。但遺傳演算法的演算法較複雜,收斂於局部極小的較早收斂問題尚未解決。

決策樹方法

決策樹是一種常用於預測模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基於資訊熵的id3演算法。它的主要問題是:id3是非遞增學習演算法;id3決策樹是單變數決策樹,複雜概念的表達困難;同性間的相互關係強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進演算法,如 schlimmerfisher設計了id4遞增式學習演算法;鐘鳴,陳文偉等提出了ible演算法等。

粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。目前成熟的關聯式資料庫管理系統和新發展起來的資料倉庫管理系統,為粗集的資料採擷奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實資訊表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點。現在國際上已經研製出來了一些基於粗集的工具應用軟體,如加拿大regina大學開發的kdd-r;美國kansas大學開發的lers等。

覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則舍去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的演算法有michalskiaq11方法、洪家榮改進的aq15方法以及他的ae5方法。

統計分析方法

在資料庫欄位項之間存在兩種關係:函數關係(能用函數公式表示的確定性關係)和相關關係(不能用函數公式表示,但仍是相關確定性關係),對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計(求大量資料中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變數間的數量關係)、相關分析(用相關係數來度量變數間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體參數之間是否存在差異)等。

模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型--雲模型,並形成了雲理論。

 

ü  真理資料採擷具體分析方法請參見:

 

行銷精英教學計畫 之二 統計分析與資料採擷方法集成

 

 

關於真理      |      信息反饋      |      聯繫我們      |      滿意度研究       |      營銷定位研究       |      市場細分與品牌定位