為什么越來越多的企業(yè)開始應(yīng)用機(jī)器學(xué)習(xí)

作者：探碼科技，原文鏈接： http://nbbskj.com/learning/317

前言：機(jī)器學(xué)習(xí)是近20多年興起的一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門學(xué)科。機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動“學(xué)習(xí)”的算法。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律，并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。因?yàn)閷W(xué)習(xí)算法中涉及了大量的統(tǒng)計(jì)學(xué)理論，機(jī)器學(xué)習(xí)與推斷統(tǒng)計(jì)學(xué)聯(lián)系尤為密切，也被稱為統(tǒng)計(jì)學(xué)習(xí)理論。算法設(shè)計(jì)方面，機(jī)器學(xué)習(xí)理論關(guān)注可以實(shí)現(xiàn)的，行之有效的學(xué)習(xí)算法。很多推論問題屬于無程序可循難度，所以部分的機(jī)器學(xué)習(xí)研究是開發(fā)容易處理的近似算法。

機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。

一、機(jī)器學(xué)習(xí)的定義

機(jī)器學(xué)習(xí)有一下幾種定義：

機(jī)器學(xué)習(xí)是一門人工智能的科學(xué)，該領(lǐng)域的主要研究對象是人工智能，特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。
機(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究。
機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn)，以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。

二、機(jī)器學(xué)習(xí)分類

機(jī)器學(xué)習(xí)可以分成下面幾種類別：

監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù)，當(dāng)新的數(shù)據(jù)到來時，可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出，也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類。
無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相比，訓(xùn)練集沒有人為標(biāo)注的結(jié)果。常見的無監(jiān)督學(xué)習(xí)算法有聚類。
半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間。
增強(qiáng)學(xué)習(xí)通過觀察來學(xué)習(xí)做成如何的動作。每個動作都會對環(huán)境有所影響，學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。

監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的差別就是訓(xùn)練集目標(biāo)是否人標(biāo)注。他們都有訓(xùn)練集且都有輸入和輸出

三、機(jī)器學(xué)習(xí)算法列表

決策樹（Decision tree）

決策樹是一個決策支持工具，它使用樹形圖或者決策模型以及可能性序列，包括偶然事件的結(jié)果、資源成本和效用。下圖是其基本原理：

機(jī)器學(xué)習(xí)，探碼科技

樸素貝葉斯分類(Naive Bayesian classification)

樸素貝葉斯分類器是一類簡單的概率分類器，它基于貝葉斯定理和特征間的強(qiáng)大的（樸素的）獨(dú)立假設(shè)。圖中是貝葉斯公式，其中P（A|B）是后驗(yàn)概率，P（B|A）是似然，P（A）是類先驗(yàn)概率，P（B）是預(yù)測先驗(yàn)概率。

機(jī)器學(xué)習(xí)，探碼科技

最小二乘法（Ordinary Least Squares Regression）

如果你懂統(tǒng)計(jì)學(xué)的話，你可能以前聽說過線性回歸。最小二乘法是一種計(jì)算線性回歸的方法。你可以將線性回歸看做通過一組點(diǎn)來擬合一條直線。實(shí)現(xiàn)這個有很多種方法，“最小二乘法”就像這樣：你可以畫一條直線，然后對于每一個數(shù)據(jù)點(diǎn)，計(jì)算每個點(diǎn)到直線的垂直距離，然后把它們加起來，那么最后得到的擬合直線就是距離和盡可能小的直線。

機(jī)器學(xué)習(xí)，探碼科技

邏輯回歸(Logistic Regression)

邏輯回歸是一個強(qiáng)大的統(tǒng)計(jì)學(xué)方法，它可以用一個或多個解釋變量來表示一個二項(xiàng)式結(jié)果。它通過使用邏輯函數(shù)來估計(jì)概率，從而衡量類別依賴變量和一個或多個獨(dú)立變量之間的關(guān)系，后者服從累計(jì)邏輯分布。

機(jī)器學(xué)習(xí)，邏輯回歸，探碼科技

支持向量機(jī)（Support Vector Machine，SVM）

SVM是二進(jìn)制分類算法。給定N維坐標(biāo)下兩種類型的點(diǎn)，SVM生成（N-1）維的超平面來將這些點(diǎn)分成兩組。假設(shè)你在平面上有兩種類型的可以線性分離的點(diǎn)，SVM將找到一條直線，將這些點(diǎn)分成兩種類型，并且這條直線盡可能遠(yuǎn)離所有這些點(diǎn)。

機(jī)器學(xué)習(xí)，支持向量機(jī)，探碼科技

集成方法（Ensemble methods）

集成方法是學(xué)習(xí)算法，它通過構(gòu)建一組分類器，然后通過它們的預(yù)測結(jié)果進(jìn)行加權(quán)投票來對新的數(shù)據(jù)點(diǎn)進(jìn)行分類。原始的集成方法是貝葉斯平均，但是最近的算法包括糾錯輸出編碼、Bagging和Boosting。

機(jī)器學(xué)習(xí)，繼承方法，探碼科技

聚類算法（Clustering Algorithms）

聚類是將一系列對象分組的任務(wù)，目標(biāo)是使相同組（集群）中的對象之間比其他組的對象更相似。

機(jī)器學(xué)習(xí)，聚類算法，探碼科技

主成分分析（Principal Component Analysis，PCA）

PCA是一個統(tǒng)計(jì)學(xué)過程，它通過使用正交變換將一組可能存在相關(guān)性的變量的觀測值轉(zhuǎn)換為一組線性不相關(guān)的變量的值，轉(zhuǎn)換后的變量就是所謂的主分量。

機(jī)器學(xué)習(xí)，主成分分析，探碼科技

奇異值分解（Singular Value Decomposition，SVD）

在線性代數(shù)中，SVD是分解一個實(shí)數(shù)的比較復(fù)雜的矩陣。對于一個給定的m*n的矩陣M，存在一個分解M = UΣV，這里U和V是酉矩陣，Σ是一個對角矩陣。

PCA 是 SVD 的一個簡單應(yīng)用，在計(jì)算機(jī)視覺中，第一個人臉識別算法，就運(yùn)用了 PCA 和 SVD 算法。使用這兩個算法可以將人臉表示為 “特征臉”線性組合，降維，然后通過簡單的方法匹配人臉的身份；雖然現(xiàn)代的方法復(fù)雜得多，但許多仍然依賴于類似的技術(shù)。

機(jī)器學(xué)習(xí)，奇異值分解，探碼科技

獨(dú)立成分分析（Independent Component Analysis，ICA）

ICA是一種統(tǒng)計(jì)技術(shù)，主要用于揭示隨機(jī)變量、測量值或信號集中的隱藏因素。ICA對觀測到的多變量數(shù)據(jù)定義了一個生成模型，這通常是作為樣本的一個大的數(shù)據(jù)庫。在模型中，假設(shè)數(shù)據(jù)變量由一些未知的潛在變量線性混合，混合方式也是未知的。潛在變量被假定為非高斯分布并且相互獨(dú)立，它們被稱為觀測數(shù)據(jù)的獨(dú)立分量。在線性代數(shù)中，SVD是復(fù)雜矩陣的因式分解。對于給定的m * n矩陣M，存在分解使得M=UΣV，其中U和V是酉矩陣，Σ是對角矩陣。

機(jī)器學(xué)習(xí)，獨(dú)立成分分析，探碼科技

四、經(jīng)典案例看機(jī)器學(xué)習(xí)的優(yōu)勢

安檢識別：航班乘客、音樂會觀眾以及球迷在進(jìn)入特定場所時，其隨身攜帶的包都要進(jìn)行安全檢查。人類安全檢查人員只能大概知道這些人包裹里帶的什么東西，而機(jī)器學(xué)習(xí)可以識別每個物品是什么。而且，機(jī)器學(xué)習(xí)可以輕松應(yīng)付季節(jié)變化對于背包類型和包里所裝東西的變化，并能夠有針對某些特定比賽或場所設(shè)置特定檢測規(guī)則。

法律信息分析：律師有時需要尋找一些特定行為的描述文字，有時則需要為某個特定行為搜索更多資料。但人類會由于自身的經(jīng)驗(yàn)和過往經(jīng)歷的限制，導(dǎo)致在尋找相關(guān)模型時產(chǎn)生偏見，比如尋找最熟悉的。但機(jī)器不會，機(jī)器學(xué)習(xí)可以更精確地找到結(jié)果，而且速度更快，也會節(jié)約成本。

垃圾郵件檢測：根據(jù)郵箱中的郵件，識別哪些是垃圾郵件，哪些不是。這樣的模型，可以程序幫助歸類垃圾郵件和非垃圾郵件。這個例子，我們應(yīng)該都不陌生。

信用卡欺詐檢測：根據(jù)用戶一個月內(nèi)的信用卡交易，識別哪些交易是該用戶操作的，哪些不是。這樣的決策模型，可以幫助程序退還那些欺詐交易。

數(shù)字識別：根據(jù)信封上手寫的郵編，識別出每一個手寫字符所代表的數(shù)字。這樣的模型，可以幫助程序閱讀和理解手寫郵編，并根據(jù)地利位置分類信件。

語音識別：從一個用戶的話語，確定用戶提出的具體要求。這樣的模型，可以幫助程序能夠并嘗試自動填充用戶需求。帶有Siri系統(tǒng)的iPhone就有這種功能。

人臉識別：根據(jù)相冊中的眾多數(shù)碼照片，識別出那些包含某一個人的照片。這樣的決策模型，可以幫助程序根據(jù)人臉管理照片。某些相機(jī)或軟件，如iPhone，就有這種功能。

產(chǎn)品推薦：根據(jù)一個用戶的購物記錄和冗長的收藏清單，識別出這其中哪些是該用戶真正感興趣，并且愿意購買的產(chǎn)品。這樣的決策模型，可以幫助程序?yàn)榭蛻籼峁┙ㄗh并鼓勵產(chǎn)品消費(fèi)。登錄Facebook或GooglePlus，它們就會推薦可能有關(guān)聯(lián)的用戶給你。

醫(yī)學(xué)分析：根據(jù)病人的癥狀和一個匿名的病人資料數(shù)據(jù)庫，預(yù)測該病人可能患了什么病。這樣的決策模型，可以程序?yàn)閷I(yè)醫(yī)療人士提供支持。

股票交易：根據(jù)一支股票現(xiàn)有的和以往的價格波動，判斷這支股票是該建倉、持倉還是減倉。這樣的決策模型，可以幫助程序?yàn)榻鹑诜治鎏峁┲С帧?/p>

客戶細(xì)分：根據(jù)用戶在試用期的的行為模式和所有用戶過去的行為，識別出哪些用戶會轉(zhuǎn)變成該產(chǎn)品的付款用戶，哪些不會。這樣的決策模型，可以幫助程序進(jìn)行用戶干預(yù)，以說服用戶早些付款使用或更好的參與產(chǎn)品試用。

形狀鑒定：根據(jù)用戶在觸摸屏幕上的手繪和一個已知的形狀資料庫，判斷用戶想描繪的形狀。這樣的決策模型，可以幫助程序顯示該形狀的理想版本，以繪制清晰的圖像。iPhone應(yīng)用Instaviz就能做到這樣。

五、企業(yè)越來越多的應(yīng)用及其學(xué)習(xí)的原因

機(jī)器學(xué)習(xí)能夠擴(kuò)展到企業(yè)所面臨的各項(xiàng)挑戰(zhàn)中，如合同管理，客戶服務(wù)，金融，法律，質(zhì)量，定價，生產(chǎn)等，這一能力要?dú)w功于機(jī)器學(xué)習(xí)會不斷學(xué)習(xí)并改善表現(xiàn)。機(jī)器學(xué)習(xí)算法本質(zhì)上是迭代、持續(xù)學(xué)習(xí)的，并且會尋找最優(yōu)的輸出結(jié)果。每出現(xiàn)一次誤算，機(jī)器學(xué)習(xí)算法就會改正一次錯誤，然后開始下一次的數(shù)據(jù)分析的迭代計(jì)算。計(jì)算過程以毫秒為單位進(jìn)行，機(jī)器學(xué)習(xí)可以異常高效地優(yōu)化決策和預(yù)測輸出。

加速企業(yè)采用機(jī)器學(xué)習(xí)的幾項(xiàng)因素有，云計(jì)算、云存儲的經(jīng)濟(jì)性，驅(qū)動物聯(lián)網(wǎng)連接設(shè)備增長的傳感器的發(fā)展，可在幾分鐘內(nèi)讀取幾 G 數(shù)據(jù)移動設(shè)備的普遍使用，等。還有以下情況，搜索引擎中創(chuàng)建語境（creatingcontext ）所面臨的許多挑戰(zhàn)，在預(yù)測最具可能后果時，優(yōu)化運(yùn)行所面臨的復(fù)雜問題，以及既有的讓機(jī)器學(xué)習(xí)蓬勃的完美條件。

手机看片欧美日韩,久久精品国产主播一区二区,欧美亚洲中日韩中文字幕在线

為什么越來越多的企業(yè)開始應(yīng)用機(jī)器學(xué)習(xí)

一、機(jī)器學(xué)習(xí)的定義

二、機(jī)器學(xué)習(xí)分類

三、機(jī)器學(xué)習(xí)算法列表

四、經(jīng)典案例看機(jī)器學(xué)習(xí)的優(yōu)勢

五、企業(yè)越來越多的應(yīng)用及其學(xué)習(xí)的原因

最近更新...