數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。 數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘(計算機科學)
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。
數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
產生背景
20世紀90年代,隨著數(shù)據(jù)庫系統(tǒng)的廣泛應用和網絡技術的高速發(fā)展,數(shù)據(jù)庫技術也進入一個全新的階段,即從過去僅管理一些簡單數(shù)據(jù)發(fā)展到管理由各種計算機所產生的圖形、圖像、音頻、視頻、電子檔案、Web頁面等多種類型的復雜數(shù)據(jù),并且數(shù)據(jù)量也越來越大。數(shù)據(jù)庫在給我們提供豐富信息的同時,也體現(xiàn)出明顯的海量信息特征。信息爆炸時代,海量信息給人們帶來許多負面影響,最主要的就是有效信息難以提煉,過多無用的信息必然會產生信息距離(信息狀態(tài)轉移距離)是對一個事物信息狀態(tài)轉移所遇到障礙的測度,簡稱DIST或DIT)和有用知識的丟失。這也就是約翰·內斯伯特( John Nalsbert)稱為的“信息豐富而知識貧乏”窘境。因此,人們迫切希望能對海量數(shù)據(jù)進行深入分析,發(fā)現(xiàn)并提取隱藏在其中的信息,以更好地利用這些數(shù)據(jù)。但僅以數(shù)據(jù)庫系統(tǒng)的錄入、查詢、統(tǒng)計等功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢,更缺乏挖掘數(shù)據(jù)背后隱藏知識的手段。正是在這樣的條件下,數(shù)據(jù)挖掘技術應運而生。
數(shù)據(jù)挖掘對象
數(shù)據(jù)的類型可以是結構化的、半結構化的,甚至是異構型的。發(fā)現(xiàn)知識的方法可以是數(shù)學的、非數(shù)學的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護等。
數(shù)據(jù)挖掘的對象可以是任何類型的數(shù)據(jù)源??梢允顷P系數(shù)據(jù)庫,此類包含結構化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結構化數(shù)據(jù)甚至異構性數(shù)據(jù)的數(shù)據(jù)源。
發(fā)現(xiàn)知識的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護等。
以上就是【數(shù)據(jù)挖掘的概念】的全部解答,如果想要學習更多相關知識,歡迎大家前往
高頓教育官網!