作者:探碼科技, 原文鏈接: http://nbbskj.com/learning/317
前言:機(jī)器學(xué)習(xí)是近20多年興起的一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門學(xué)科。機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動“學(xué)習(xí)”的算法。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。因?yàn)閷W(xué)習(xí)算法中涉及了大量的統(tǒng)計(jì)學(xué)理論,機(jī)器學(xué)習(xí)與推斷統(tǒng)計(jì)學(xué)聯(lián)系尤為密切,也被稱為統(tǒng)計(jì)學(xué)習(xí)理論。算法設(shè)計(jì)方面,機(jī)器學(xué)習(xí)理論關(guān)注可以實(shí)現(xiàn)的,行之有效的學(xué)習(xí)算法。很多推論問題屬于無程序可循難度,所以部分的機(jī)器學(xué)習(xí)研究是開發(fā)容易處理的近似算法。
機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)有一下幾種定義:
機(jī)器學(xué)習(xí)可以分成下面幾種類別:
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的差別就是訓(xùn)練集目標(biāo)是否人標(biāo)注。他們都有訓(xùn)練集 且都有輸入和輸出
決策樹是一個決策支持工具,它使用樹形圖或者決策模型以及可能性序列,包括偶然事件的結(jié)果、資源成本和效用。下圖是其基本原理:
樸素貝葉斯分類器是一類簡單的概率分類器,它基于貝葉斯定理和特征間的強(qiáng)大的(樸素的)獨(dú)立假設(shè)。圖中是貝葉斯公式,其中P(A|B)是后驗(yàn)概率,P(B|A)是似然,P(A)是類先驗(yàn)概率,P(B)是預(yù)測先驗(yàn)概率。
如果你懂統(tǒng)計(jì)學(xué)的話,你可能以前聽說過線性回歸。最小二乘法是一種計(jì)算線性回歸的方法。你可以將線性回歸看做通過一組點(diǎn)來擬合一條直線。實(shí)現(xiàn)這個有很多種方法,“最小二乘法”就像這樣:你可以畫一條直線,然后對于每一個數(shù)據(jù)點(diǎn),計(jì)算每個點(diǎn)到直線的垂直距離,然后把它們加起來,那么最后得到的擬合直線就是距離和盡可能小的直線。
邏輯回歸是一個強(qiáng)大的統(tǒng)計(jì)學(xué)方法,它可以用一個或多個解釋變量來表示一個二項(xiàng)式結(jié)果。它通過使用邏輯函數(shù)來估計(jì)概率,從而衡量類別依賴變量和一個或多個獨(dú)立變量之間的關(guān)系,后者服從累計(jì)邏輯分布。
SVM是二進(jìn)制分類算法。給定N維坐標(biāo)下兩種類型的點(diǎn),SVM生成(N-1)維的超平面來將這些點(diǎn)分成兩組。假設(shè)你在平面上有兩種類型的可以線性分離的點(diǎn),SVM將找到一條直線,將這些點(diǎn)分成兩種類型,并且這條直線盡可能遠(yuǎn)離所有這些點(diǎn)。
集成方法是學(xué)習(xí)算法,它通過構(gòu)建一組分類器,然后通過它們的預(yù)測結(jié)果進(jìn)行加權(quán)投票來對新的數(shù)據(jù)點(diǎn)進(jìn)行分類。原始的集成方法是貝葉斯平均,但是最近的算法包括糾錯輸出編碼、Bagging和Boosting。
聚類是將一系列對象分組的任務(wù),目標(biāo)是使相同組(集群)中的對象之間比其他組的對象更相似。
PCA是一個統(tǒng)計(jì)學(xué)過程,它通過使用正交變換將一組可能存在相關(guān)性的變量的觀測值轉(zhuǎn)換為一組線性不相關(guān)的變量的值,轉(zhuǎn)換后的變量就是所謂的主分量。
在線性代數(shù)中,SVD是分解一個實(shí)數(shù)的比較復(fù)雜的矩陣。對于一個給定的m*n的矩陣M,存在一個分解M = UΣV,這里U和V是酉矩陣,Σ是一個對角矩陣。
PCA 是 SVD 的一個簡單應(yīng)用,在計(jì)算機(jī)視覺中,第一個人臉識別算法,就運(yùn)用了 PCA 和 SVD 算法。使用這兩個算法可以將人臉表示為 “特征臉”線性組合,降維,然后通過簡單的方法匹配人臉的身份;雖然現(xiàn)代的方法復(fù)雜得多,但許多仍然依賴于類似的技術(shù)。
ICA是一種統(tǒng)計(jì)技術(shù),主要用于揭示隨機(jī)變量、測量值或信號集中的隱藏因素。ICA對觀測到的多變量數(shù)據(jù)定義了一個生成模型,這通常是作為樣本的一個大的數(shù)據(jù)庫。在模型中,假設(shè)數(shù)據(jù)變量由一些未知的潛在變量線性混合,混合方式也是未知的。潛在變量被假定為非高斯分布并且相互獨(dú)立,它們被稱為觀測數(shù)據(jù)的獨(dú)立分量。在線性代數(shù)中,SVD是復(fù)雜矩陣的因式分解。對于給定的m * n矩陣M,存在分解使得M=UΣV,其中U和V是酉矩陣,Σ是對角矩陣。
安檢識別:航班乘客、音樂會觀眾以及球迷在進(jìn)入特定場所時,其隨身攜帶的包都要進(jìn)行安全檢查。人類安全檢查人員只能大概知道這些人包裹里帶的什么東西,而機(jī)器學(xué)習(xí)可以識別每個物品是什么。而且,機(jī)器學(xué)習(xí)可以輕松應(yīng)付季節(jié)變化對于背包類型和包里所裝東西的變化,并能夠有針對某些特定比賽或場所設(shè)置特定檢測規(guī)則。
法律信息分析:律師有時需要尋找一些特定行為的描述文字,有時則需要為某個特定行為搜索更多資料。但人類會由于自身的經(jīng)驗(yàn)和過往經(jīng)歷的限制,導(dǎo)致在尋找相關(guān)模型時產(chǎn)生偏見,比如尋找最熟悉的。但機(jī)器不會,機(jī)器學(xué)習(xí)可以更精確地找到結(jié)果,而且速度更快,也會節(jié)約成本。
垃圾郵件檢測:根據(jù)郵箱中的郵件,識別哪些是垃圾郵件,哪些不是。這樣的模型,可以程序幫助歸類垃圾郵件和非垃圾郵件。這個例子,我們應(yīng)該都不陌生。
信用卡欺詐檢測:根據(jù)用戶一個月內(nèi)的信用卡交易,識別哪些交易是該用戶操作的,哪些不是。這樣的決策模型,可以幫助程序退還那些欺詐交易。
數(shù)字識別:根據(jù)信封上手寫的郵編,識別出每一個手寫字符所代表的數(shù)字。這樣的模型,可以幫助程序閱讀和理解手寫郵編,并根據(jù)地利位置分類信件。
語音識別:從一個用戶的話語,確定用戶提出的具體要求。這樣的模型,可以幫助程序能夠并嘗試自動填充用戶需求。帶有Siri系統(tǒng)的iPhone就有這種功能。
人臉識別:根據(jù)相冊中的眾多數(shù)碼照片,識別出那些包含某一個人的照片。這樣的決策模型,可以幫助程序根據(jù)人臉管理照片。某些相機(jī)或軟件,如iPhone,就有這種功能。
產(chǎn)品推薦:根據(jù)一個用戶的購物記錄和冗長的收藏清單,識別出這其中哪些是該用戶真正感興趣,并且愿意購買的產(chǎn)品。這樣的決策模型,可以幫助程序?yàn)榭蛻籼峁┙ㄗh并鼓勵產(chǎn)品消費(fèi)。登錄Facebook或GooglePlus,它們就會推薦可能有關(guān)聯(lián)的用戶給你。
醫(yī)學(xué)分析:根據(jù)病人的癥狀和一個匿名的病人資料數(shù)據(jù)庫,預(yù)測該病人可能患了什么病。這樣的決策模型,可以程序?yàn)閷I(yè)醫(yī)療人士提供支持。
股票交易:根據(jù)一支股票現(xiàn)有的和以往的價格波動,判斷這支股票是該建倉、持倉還是減倉。這樣的決策模型,可以幫助程序?yàn)榻鹑诜治鎏峁┲С帧?/p>
客戶細(xì)分:根據(jù)用戶在試用期的的行為模式和所有用戶過去的行為,識別出哪些用戶會轉(zhuǎn)變成該產(chǎn)品的付款用戶,哪些不會。這樣的決策模型,可以幫助程序進(jìn)行用戶干預(yù),以說服用戶早些付款使用或更好的參與產(chǎn)品試用。
形狀鑒定:根據(jù)用戶在觸摸屏幕上的手繪和一個已知的形狀資料庫,判斷用戶想描繪的形狀。這樣的決策模型,可以幫助程序顯示該形狀的理想版本,以繪制清晰的圖像。iPhone應(yīng)用Instaviz就能做到這樣。
機(jī)器學(xué)習(xí)能夠擴(kuò)展到企業(yè)所面臨的各項(xiàng)挑戰(zhàn)中,如合同管理,客戶服務(wù),金融,法律,質(zhì)量,定價,生產(chǎn)等,這一能力要?dú)w功于機(jī)器學(xué)習(xí)會不斷學(xué)習(xí)并改善表現(xiàn)。機(jī)器學(xué)習(xí)算法本質(zhì)上是迭代、持續(xù)學(xué)習(xí)的,并且會尋找最優(yōu)的輸出結(jié)果。每出現(xiàn)一次誤算,機(jī)器學(xué)習(xí)算法就會改正一次錯誤,然后開始下一次的數(shù)據(jù)分析的迭代計(jì)算。計(jì)算過程以毫秒為單位進(jìn)行,機(jī)器學(xué)習(xí)可以異常高效地優(yōu)化決策和預(yù)測輸出。
加速企業(yè)采用機(jī)器學(xué)習(xí)的幾項(xiàng)因素有,云計(jì)算、云存儲的經(jīng)濟(jì)性,驅(qū)動物聯(lián)網(wǎng)連接設(shè)備增長的傳感器的發(fā)展,可在幾分鐘內(nèi)讀取幾 G 數(shù)據(jù)移動設(shè)備的普遍使用,等。還有以下情況,搜索引擎中創(chuàng)建語境(creatingcontext )所面臨的許多挑戰(zhàn),在預(yù)測最具可能后果時,優(yōu)化運(yùn)行所面臨的復(fù)雜問題,以及既有的讓機(jī)器學(xué)習(xí)蓬勃的完美條件。