零基礎學習大資料挖掘的33個知識點整理-知識星球

下麵是一些關於大資料挖掘的知識點，今天和大家一起來學習一下。

1. 資料、資訊和知識是廣義資料表現的不同形式。

2. 主要知識樣式型別有：廣義知識，關聯知識，類知識，預測型知識，特異型知識

3. web挖掘研究的主要流派有：Web結構挖掘、Web使用挖掘、Web內容挖掘

4. 一般地說，KDD是一個多步驟的處理過程，一般分為問題定義、資料抽取、資料預處理、.資料挖掘以及樣式評估等基本階段。

5. 資料庫中的知識發現處理過程模型有：階梯處理過程模型，螺旋處理過程模型，以使用者為中心的處理結構模型，聯機KDD模型，支援多資料源多知識樣式的KDD處理模型

6. 粗略地說，知識發現軟體或工具的發展經歷了獨立的知識發現軟體、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段，其中後面兩種反映了目前知識發現軟體的兩個主要發展方向。

7. 決策樹分類模型的建立通常分為兩個步驟：決策樹生成，決策樹修剪。

8. 從使用的主要技術上看，可以把分類方法歸結為四種型別：

基於距離的分類方法
決策樹分類方法
貝葉斯分類方法
規則歸納方法

9. 關聯規則挖掘問題可以劃分成兩個子問題：

發現頻繁專案集:透過使用者給定Minsupport ，尋找所有頻繁專案集或者最大頻繁專案集。
生成關聯規則:透過使用者給定Minconfidence ，在頻繁專案集中，尋找關聯規則。

10. 資料挖掘是相關學科充分發展的基礎上被提出和發展的，主要的相關技術：

資料庫等資訊科技的發展
統計學深入應用
人工智慧技術的研究和應用

11. 衡量關聯規則挖掘結果的有效性，應該從多種綜合角度來考慮：

準確性：挖掘出的規則必須反映資料的實際情況。
實用性：挖掘出的規則必須是簡潔可用的。
新穎性：挖掘出的關聯規則可以為使用者提供新的有價值資訊。

12. 約束的常見型別有：

單調性約束;
反單調性約束;
可轉變的約束;
簡潔性約束.

13. 根據規則中涉及到的層次，多層次關聯規則可以分為：

同層關聯規則：如果一個關聯規則對應的專案是同一個粒度層次，那麼它是同層關聯規則。
層間關聯規則：如果在不同的粒度層次上考慮問題，那麼可能得到的是層間關聯規

14. 按照聚類分析演演算法的主要思路，聚類方法可以被歸納為如下幾種。

劃分法：基於一定標準構建資料的劃分。
屬於該類的聚類方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
層次法：對給定資料物件集合進行層次的分解。
密度法：基於資料物件的相連密度評價。
網格法：將資料空間劃分成為有限個單元(Cell)的網格結構，基於網格結構進行聚類。
模型法：給每一個簇假定一個模型，然後去尋找能夠很好的滿足這個模型的資料集。

15. 類間距離的度量主要有：

最短距離法：定義兩個類中最靠近的兩個元素間的距離為類間距離。
最長距離法：定義兩個類中最遠的兩個元素間的距離為類間距離。
中心法：定義兩類的兩個中心間的距離為類間距離。
類平均法：它計算兩個類中任意兩個元素間的距離，並且綜合他們為類間距離：離差平方和。

16. 層次聚類方法具體可分為：

凝聚的層次聚類：一種自底向上的策略，首先將每個物件作為一個簇，然後合併這些原子簇為越來越大的簇，直到某個終結條件被滿足。
分裂的層次聚類：採用自頂向下的策略，它首先將所有物件置於一個簇中，然後逐漸細分為越來越小的簇，直到達到了某個終結條件。
層次凝聚的代表是AGNES演演算法。層次分裂的代表是DIANA演演算法。

17. 文字挖掘(TD)的方式和標的是多種多樣的，基本層次有：

關鍵詞檢索：最簡單的方式，它和傳統的搜尋技術類似。
挖掘專案關聯：聚焦在頁面的資訊(包括關鍵詞)之間的關聯資訊挖掘上。
資訊分類和聚類：利用資料挖掘的分類和聚類技術實現頁面的分類，將頁面在一個更到層次上進行抽象和整理。
自然語言處理：揭示自然語言處理技術中的語意，實現Web內容的更精確處理。

18. 在web訪問挖掘中常用的技術：

路徑分析

路徑分析最常用的應用是用於判定在一個Web站點中最頻繁訪問的路徑，這樣的知識對於一個電子商務網站或者資訊保安評估是非常重要的。

關聯規則發現

使用關聯規則發現方法可以從Web訪問事務集中，找到一般性的關聯知識。

序列樣式發現

在時間戳有序的事務集中，序列樣式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務樣式。

分類

發現分類規則可以給出識別一個特殊群體的公共屬性的描述。這種描述可以用於分類新的項。

聚類

可以從Web Usage資料中聚集出具有相似特性的那些客戶。在Web事務日誌中，聚類顧客資訊或資料項，就能夠便於開發和執行未來的市場戰略。

19. 根據功能和側重點不同，資料挖掘語言可以分為三種型別：

資料挖掘查詢語言：希望以一種像SQL這樣的資料庫查詢語言完成資料挖掘的任務。
資料挖掘建模語言：對資料挖掘模型進行描述和定義的語言，設計一種標準的資料挖掘建模語言，使得資料挖掘系統在模型定義和描述方面有標準可以遵循。
通用資料挖掘語言：通用資料挖掘語言合併了上述兩種語言的特點，既具有定義模型的功能，又能作為查詢語言與資料挖掘系統通訊，進行互動式挖掘。通用資料挖掘語言標準化是目前解決資料挖掘行業出現問題的頗具吸引力的研究方向。

20. 規則歸納有四種策略：減法、加法，先加後減、先減後加策略。

減法策略：以具體例子為出發點，對例子進行推廣或泛化，推廣即減除條件(屬性值)或減除合取項(為了方便，我們不考慮增加析取項的推廣)，使推廣後的例子或規則不改寫任何反例。
加法策略：起始假設規則的條件部分為空(永真規則)，如果該規則改寫了反例，則不停地向規則增加條件或合取項，直到該規則不再改寫反例。
先加後減策略：由於屬性間存在相關性，因此可能某個條件的加入會導致前面加入的條件沒什麼作用，因此需要減除前面的條件。
先減後加策略：道理同先加後減，也是為了處理屬性間的相關性。

21. 資料挖掘定義有廣義和狹義之分。

從廣義的觀點，資料挖掘是從大型資料集(可能是不完全的、有噪聲的、不確定性的、各種儲存形式的)中，挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。
從這種狹義的觀點上，我們可以定義資料挖掘是從特定形式的資料集中提煉知識的過程。

22. web挖掘的含義：針對包括Web頁面內容、頁面之間的結構、使用者訪問資訊、電子商務資訊等在內的各種Web資料，應用資料挖掘方法以幫助人們從因特網中提取知識，為訪問者、站點經營者以及包括電子商務在內的基於因特網的商務活動提供決策支援。

23. K-近鄰分類演演算法(K Nearest Neighbors，簡稱KNN)的定義：透過計算每個訓練資料到待分類元組的距離，取和待分類元組距離最近的K個訓練資料，K個資料中哪個類別的訓練資料佔多數，則待分類元組就屬於哪個類別。

24. K-means演演算法的效能分析：

主要優點：

是解決聚類問題的一種經典演演算法，簡單、快速。
對處理大資料集，該演演算法是相對可伸縮和高效率的。
當結果簇是密集的，它的效果較好。

主要缺點

在簇的平均值被定義的情況下才能使用，可能不適用於某些應用。
必須事先給出k(要生成的簇的數目)，而且對初值敏感，對於不同的初始值，可能會導致不同結果。
不適合於發現非凸面形狀的簇或者大小差別很大的簇。而且，它對於“躁聲”和孤立點資料是敏感的。

25. ID3演演算法的效能分析：

ID3演演算法的假設空間包含所有的決策樹，它是關於現有屬性的有限離散值函式的一個完整空間。所以ID3演演算法避免了搜尋不完整假設空間的一個主要風險：假設空間可能不包含標的函式。
ID3演演算法在搜尋的每一步都使用當前的所有訓練樣例，大大降低了對個別訓練樣例錯誤的敏感性。因此，透過修改終止準則，可以容易地擴充套件到處理含有噪聲的訓練資料。
ID3演演算法在搜尋過程中不進行回溯。所以，它易受無回溯的爬山搜尋中的常見風險影響：收斂到區域性最優而不是全域性最優。

26. Apriori演演算法有兩個致命的效能瓶頸:

多次掃描事務資料庫，需要很大的I/O負載

對每次k迴圈，侯選集Ck中的每個元素都必須透過掃描資料庫一次來驗證其是否加入Lk。假如有一個頻繁大專案集包含10個項的話，那麼就至少需要掃描事務資料庫10遍。

可能產生龐大的侯選集

由Lk-1產生k-侯選集Ck是指數增長的，例如104個1-頻繁專案集就有可能產生接近107個元素的2-侯選集。如此大的侯選集對時間和主存空間都是一種挑戰。a基於資料分割的方法：基本原理是“在一個劃分中的支援度小於最小支援度的k-項集不可能是全域性頻繁的”。

27. 改善Apriori演演算法適應性和效率的主要的改進方法有：

基於資料分割(Partition)的方法：基本原理是“在一個劃分中的支援度小於最小支援度的k-項集不可能是全域性頻繁的”。
基於雜湊的方法：基本原理是“在一個hash桶內支援度小於最小支援度的k-項集不可能是全域性頻繁的”。
基於取樣的方法：基本原理是“透過取樣技術，評估被取樣的子集中，並依次來估計k-項集的全域性頻度”。
其他：如，動態刪除沒有用的事務：“不包含任何Lk的事務對未來的掃描結果不會產生影響，因而可以刪除”。

28. 面向Web的資料挖掘比面向資料庫和資料倉庫的資料挖掘要複雜得多：

異構資料源環境：Web網站上的資訊是異構: 每個站點的資訊和組織都不一樣;存在大量的無結構的文字資訊、複雜的多媒體資訊;站點使用和安全性、私密性要求各異等等。
資料的是複雜性：有些是無結構的(如Web頁)，通常都是用長的句子或短語來表達檔案類資訊;有些可能是半結構的(如Email，HTML頁)。當然有些具有很好的結構(如電子錶格)。揭開這些複合物件蘊涵的一般性描述特徵成為資料挖掘的不可推卸的責任。
動態變化的應用環境：

Web的資訊是頻繁變化的，像新聞、股票等資訊是實時更新的。
這種高變化也體現在頁面的動態連結和隨機存取上。
Web上的使用者是難以預測的。
Web上的資料環境是高噪音的。

29. 簡述知識發現專案的過程化管理I-MIN過程模型。

MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理，在每個步驟裡，集中討論幾個問題，並按一定的質量標準來控制專案的實施。

IM1任務與目的：它是KDD專案的計劃階段，確定企業的挖掘標的，選擇知識發現樣式，編譯知識發現樣式得到的元資料;其目的是將企業的挖掘標的嵌入到對應的知識樣式中。
IM2任務與目的：它是KDD的預處理階段，可以用IM2a、IM2b、IM2c等分別對應於資料清洗、資料選擇和資料轉換等階段。其目的是生成高質量的標的資料。
IM3任務與目的：它是KDD的挖掘準備階段，資料挖掘工程師進行挖掘實驗，反覆測試和驗證模型的有效性。其目的是透過實驗和訓練得到濃縮知識(Knowledge Concentrate)，為終端使用者提供可使用的模型。
IM4任務與目的：它是KDD的資料挖掘階段，使用者透過指定資料挖掘演演算法得到對應的知識。
IM5任務與目的：它是KDD的知識表示階段，按指定要求形成規格化的知識。
IM6任務與目的：它是KDD的知識解釋與使用階段，其目的是根據使用者要求直觀地輸出知識或整合到企業的知識庫中。

30. 改善Apriori演演算法適應性和效率的主要的改進方法有：

基於資料分割(Partition)的方法：基本原理是“在一個劃分中的支援度小於最小支援度的k-項集不可能是全域性頻繁的”。
基於雜湊(Hash)的方法：基本原理是“在一個hash桶內支援度小於最小支援度的k-項集不可能是全域性頻繁的”。
基於取樣(Sampling)的方法：基本原理是“透過取樣技術，評估被取樣的子集中，並依次來估計k-項集的全域性頻度”。
其他：如，動態刪除沒有用的事務：“不包含任何Lk的事務對未來的掃描結果不會產生影響，因而可以刪除”。

31. 資料分類的兩個步驟是什麼?

建立一個模型，描述預定的資料類集或概念集

資料元組也稱作樣本、實體或物件。
為建立模型而被分析的資料元組形成訓練資料集。
訓練資料集中的單個元組稱作訓練樣本，由於提供了每個訓練樣本的類標號，因此也稱作有指導的學習。
透過分析訓練資料集來構造分類模型，可用分類規則、決策樹或數學公式等形式提供。

使用模型進行分類

首先評估模型(分類法)的預測準確率。
如果認為模型的準確率可以接受，就可以用它對類標號未知的資料元組或物件進行分類。

32. web訪問資訊挖掘的特點：

Web訪問資料容量大、分佈廣、內涵豐富和形態多樣
一個中等大小的網站每天可以記載幾兆的使用者訪問資訊。
廣泛分佈於世界各處。
訪問資訊形態多樣。
訪問資訊具有豐富的內涵。
Web訪問資料包含決策可用的資訊
每個使用者的訪問特點可以被用來識別該使用者和網站訪問的特性。
同一類使用者的訪問，代表同一類使用者的個性。
一段時期的訪問資料代表了群體使用者的行為和群體使用者的共性。
Web訪問資訊資料是網站的設計者和訪問者進行溝通的橋梁。
Web訪問資訊資料是開展資料挖掘研究的良好的物件。
Web訪問資訊挖掘物件的特點
訪問事務的元素是Web頁面，事務元素之間存在著豐富的結構資訊。
訪問事務的元素代表的是每個訪問者的順序關係，事務元素之間存在著豐富的順序資訊。
每個頁面的內容可以被抽象出不同的概念，訪問順序和訪問量部分決定概念。
使用者對頁面存在不同的訪問時長，訪問長代表了使用者的訪問興趣。

33. web頁面內文字資訊的挖掘：

挖掘的標的是對頁面進行摘要和分類。

頁面摘要：對每一個頁面應用傳統的文字摘要方法可以得到相應的摘要資訊。
頁面分類：分類器輸入的是一個Web頁面集(訓練集)，再根據頁面文字資訊內容進行監督學習，然後就可以把學成的分類器用於分類每一個新輸入的頁面。

{在文字學習中常用的方法是TFIDF向量表示法，它是一種檔案的詞集(Bag-of-Words)表示法，所有的詞從檔案中抽取出來，而不考慮詞間的次序和文字的結構。這種構造二維表的方法是：

每一列為一個詞，列集(特徵集)為辭典中的所有有區分價值的詞，所以整個列集可能有幾十萬列之多。
每一行儲存一個頁面內詞的資訊，這時，該頁面中的所有詞對應到列集(特徵集)上。列集中的每一個列(詞)，如果在該頁面中不出現，則其值為0;如果出現k次，那麼其值就為k;頁面中的詞如果不出現在列集上，可以被放棄。這種方法可以表徵出頁面中詞的頻度。

對中文頁面來說，還需先分詞然後再進行以上兩步處理。

這樣構造的二維表表示的是Web頁面集合的詞的統計資訊，最終就可以採用Naive Bayesian方法或k-Nearest Neighbor等方法進行分類挖掘。

在挖掘之前，一般要先進行特徵子集的選取，以降低維數。

轉自：資料線上；

END

版權宣告：本號內容部分來自網際網路，轉載請註明原文連結和作者，如有侵權或出處有誤請和我們聯絡。

關聯閱讀：

原創系列文章：

1：從0開始搭建自己的資料運營指標體系（概括篇）

2 ：從0開始搭建自己的資料運營指標體系（定位篇）

3 ：從0開始搭建自己的資料運營體系（業務理解篇）

4 ：資料指標的構建流程與邏輯