作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/536
人工智能是目前炙手可熱的領域,所有的互聯網公司以及各路大迦們紛紛表態人工智能將是下一個時代的革命性技術。數據挖掘(Data Mining)和機器學習(Machine Learning)作為人工智能研究與應用的分支領域,也越來越多的被提到。 在大多數非計算機專業人士以及部分計算機專業背景人士眼中,機器學習以及數據挖掘是兩個高深的領域。本文翻譯自外網文章,將從基本概念出發淺析他們的關系和異同,希望對大家能有所幫助。
原文章:https://www.import.io/post/data-mining-machine-learning-difference/
數據挖掘不是數字時代帶來的新發明。這個概念已經存在了一個多世紀,在20世紀30年代就受到眾多的公眾關注。
據Hacker Bits稱,數據挖掘在1936年首次被提出,當時Alan Turing提出了一種通用機器的概念,可以執行與現代計算機類似的計算。
Forbes還報道了圖靈在1950年開發的?“Turing Test”?,以確定一臺計算機是否具有真正的智能。計算機需要讓人相信它也是人類才能通過測試。僅僅兩年后,亞瑟·塞繆爾創建了塞繆爾跳棋游戲程序,這似乎是世界上第一個自我學習程序。它通過自我學習跳棋游戲規則,在比賽中獲得了很不錯的成績。
通過長時間的發展,企業現在利用數據挖掘和機器學習來改進業務,包括企業的銷售、投資、財務管理等多個方面。隨著各企業希望通過數據科學實現更大的業務目標,數據科學家已經成為全世界各組織的重要團隊成員。
數據挖掘(Data mining)一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘本質上像是機器學習和人工智能的基礎,它的主要目的是從各種各樣的數據來源中,提取出需要的信息,然后將這些信息合并,并發掘內在關系。數據挖掘不能告訴你這些問題的答案,他只能告訴你,A和B可能存在相關關系,但是它無法告訴你A和B存在什么相關關系。數據挖掘是從大量的數據中尋找數據相互之間的特性。
機器學習指的是計算機系統無需遵照顯示的程序指令,而只是依靠暴露在數據中來提升自身性能的能力。機器學習關注的是“如何構建能夠根據經驗自動改進的計算機程序”。比如,給予機器學習系統一個關于交易時間、商家、地點、價格及交易是否正當等信用卡交易信息數據庫,系統就會學習到可用來預測的信用卡欺詐的模式。機器學習本質上是跨學科的,他采用了計算機科學、統計學和人工智能等領域的技術。
機器學習的應用范圍非常廣泛,針對那些產生龐大數據的活動,它幾乎擁有改進一切性能的潛力。現如今,機器學習已經成為認知技術中最炙手可熱的研究領域之一。
機器學習和數據挖掘之間的一個關鍵區別是它們如何在我們的日常生活中應用。
數據挖掘可以用于多種用途,例如財務研究:投資者可能會使用數據挖掘和網絡抓取來查看初創企業的財務狀況,并幫助他們做好投資決策。公司還可以使用數據挖掘來幫助收集有關銷售趨勢的數據,以便更好地了解從市場營銷到庫存需求的所有方面的信息,以及挖掘潛在客戶。數據挖掘可用于梳理社交媒體檔案、網站和數字資產,以收集相關公司有效銷售線索的信息,從而開始推廣活動。利用數據挖掘,可以在10分鐘內挖掘10000個潛在客戶。通過分析挖掘的數據信息,可以預測未來的發展趨勢, 有助于企業研究客戶需求。
機器學習體現了數據挖掘的原理,但也可以進行自動關聯數據,并從數據中學習以應用于新的算法。機器學習是自動駕駛汽車背后的技術,可以在駕駛時快速適應新的環境。當買家從亞馬遜購買產品時,機器學習還提供即時建議。這些算法和分析一直都在改進,因此隨著時間的推移,結果只會變得更加準確。機器學習不是人工智能,但是學習和改進能力仍然是一項令人印象深刻的壯舉。
數據挖掘和機器學習都是以相同的基礎,但以不同的方式。數據科學家利用數據挖掘來尋找決策的新模式。例如,服裝品牌自由人使用數據挖掘來梳理數以百萬計的客戶記錄。這些數據包括了最暢銷的商品、退貨最多的商品以及客戶反饋,以幫助銷售更多的衣服并增強產品推薦。使用數據分析可以提高總體客戶體驗。
另一方面,機器學習實際上可以從現有數據中學習,并為機器自學提供必要的基礎。Zebra Medical Vision開發了一種機器學習算法,用于預測導致每年超過500,000名美國人死亡的心血管疾病和事件。
機器學習可以觀察模式并從中學習以適應未來事件的行為,而數據挖掘通常用作機器學習的信息源。盡管數據科學家可以設置數據挖掘來自動查找特定類型的數據和參數,但如果沒有人的交互,它就無法自主學習和應用知識。數據挖掘也無法自動看到與機器學習相同深度的現有數據塊之間的關系。
收集數據只是挑戰的一部分;?另一部分是理解這一切。正確的軟件和工具需要能夠分析和解釋科學家收集的大量信息數據,并找到可識別的模式來采取行動。除非數據科學家花時間自行尋找這些復雜的、不明顯的、看似隨機的模式,否則這些數據基本上是不可用的。任何一個熟悉數據科學和數據分析的人都知道這是一項艱巨而耗時的任務。
企業可以使用數據來確定銷售預測或確定客戶真正想要購買的產品類型。例如,沃爾瑪為其數據倉庫收集了3,000多家商店的銷售點。供應商可以查看此信息并使用它來識別購買模式并指導他們的庫存預測和未來流程。
數據挖掘可以通過分類和序列分析揭示一些模式。然而,機器學習通過使用數據挖掘用于自動學習和適應所收集數據的相同算法,使這一概念更進一步。隨著惡意軟件成為越來越普遍的問題,機器學習可以尋找系統或云中數據訪問方式的模式。機器學習還會查看模式,以幫助確定哪些文件實際上是惡意軟件,具有高度的準確性。所有這一切都是在不需要人類不斷監測的情況下完成的。如果檢測到異常模式,則可以發送警報,以便采取措施防止惡意軟件傳播。
數據挖掘和機器學習都有助于提高收集數據的準確性。但是,數據挖掘及其分析方法通常與數據的組織和收集方式有關。數據挖掘通過和抓取軟件從數千個資源中提取數據,并篩選有用的數據。
機器學習的主要基礎之一是數據挖掘。數據挖掘可用于提取更準確的數據。這最終有助于優化您的機器學習,以獲得更好的結果。人可能會錯過數據之間的多重聯系和關系,而機器學習技術可以精確定位所有這些移動部件,以得出高度準確的結論,以幫助塑造機器的行為。
機器學習可以增強CRM系統中的關系智能,幫助銷售團隊更好地了解客戶并與他們建立聯系。結合機器學習,公司的CRM可以分析過去導致轉換或客戶滿意度反饋的行為。它還可用于了解如何預測哪些產品和服務的銷售情況最佳以及如何為這些客戶制定營銷信息。
數據科學的未來是光明的,因為數據量會不斷的增加。據《福布斯》報道,到2020年,我們積累的數字數據世界將從4.4 zettabytes增長到44 zettabytes。地球上的每一個人將在每秒創建1.7兆字節的新信息。
隨著我們收集更多的數據,對先進數據挖掘和機器學習技術的需求將迫使行業不斷發展,以跟上時代的步伐。我們很可能會看到數據挖掘和機器學習之間有更多的重疊,因為這兩個交叉點可以增強用于分析目的的大量數據的收集和可用性。
根據Bio IT World的報告,數據挖掘的未來指向預測分析,因為我們將看到醫療研究等行業的高級分析。科學家將能夠使用預測分析來觀察與疾病相關的因素,并預測哪種治療最有效。
我們只是觸及了機器學習可以做什么以及它將如何傳播的表面,以幫助衡量我們的分析能力和改進我們的技術。根據Geekwire的報告,隨著我們數十億臺機器的連接,從醫院到工廠到高速公路的一切都可以通過物聯網技術進行改進,物聯網技術可以從其他機器中學習。
機器學習為數據挖掘提供了理論方法,而數據挖掘技術是機器學習技術的一個實際應用。逐步開發和應用了若干新的分析方法逐步演變而來形成的;這兩個領域彼此之間交叉滲透,彼此都會利用對方發展起來的技術方法來實現業務目標,數據挖掘的概念更廣,機器學習只是數據挖掘領域中的一個新興分支與細分領域,只不過基于大數據技術讓其逐漸成為了當下顯學和主流。