近期,我們在生活中經(jīng)常會聽到關(guān)于機(jī)器學(xué)習(xí)與人工智能(AI)方面的信息。機(jī)器正學(xué)著模仿人類大腦,自動處理各類工作。能夠自動駕駛的車輛則在學(xué)習(xí)了解駕駛路況,還有能夠與人類對話的私人助手,以及像人類一樣預(yù)測股票市場走勢的機(jī)器等。從某些方面來說,機(jī)器學(xué)習(xí)簡直像“魔法”一樣神奇。
但在機(jī)器學(xué)習(xí)的背后,應(yīng)用了許多基礎(chǔ)性、深入研究過的技術(shù)。人類需要學(xué)習(xí)如何利用這些技術(shù)來解決某類問題。首先需要了解一下這些技術(shù),再來說明發(fā)現(xiàn)存在不當(dāng)訪問非結(jié)構(gòu)化數(shù)據(jù)問題時的解決方案。
機(jī)器學(xué)習(xí)——定義:
機(jī)器學(xué)習(xí)屬于人工智能,計算機(jī)能夠利用訓(xùn)練或觀察學(xué)習(xí)到的算法來探測相關(guān)模式并確定其基準(zhǔn)行為。機(jī)器學(xué)習(xí)能夠處理與分析海量數(shù)據(jù),這對于人類來說可不是輕而易舉的事情。
機(jī)器學(xué)習(xí)任務(wù)主要分為兩大類:
1、監(jiān)督學(xué)習(xí):向機(jī)器內(nèi)輸入各種資料,以及預(yù)期輸出內(nèi)容,如此,以后只要錄入相關(guān)內(nèi)容,就能得出預(yù)期輸出。
2、無監(jiān)督學(xué)習(xí):此類機(jī)器用于在沒有明確輸入具體查詢模式的前提下,檢測數(shù)據(jù)集中的各類數(shù)據(jù)模式。
更重要的是,在無監(jiān)督機(jī)器學(xué)習(xí)過程中,有多種技術(shù)可識別各類數(shù)據(jù)模式,最終生成有價值的分析結(jié)構(gòu)。了解問題域是正確的選擇應(yīng)用技術(shù)的關(guān)鍵。數(shù)據(jù)專家們的主要任務(wù)之一就是要確定該使用哪種技術(shù)。如數(shù)據(jù)專家不了解問題域,則無法選擇正確的方法解決問題。
聚類:
聚類是向同類組分配對象的過程(亦稱為簇),旨在確保各組的對象都不同。聚類屬于無監(jiān)督任務(wù),用于描述對象的隱藏結(jié)構(gòu)。
各對象由一系列特點組成,稱之為特征。劃分對象到不同集群時,首先要確定各個對象間的距離。定義適當(dāng)距離測量法是成功完成聚類的關(guān)鍵。
k-means:
目前有許多聚類算法可用,各有優(yōu)缺點。常用的聚類算法就是 k-means,這種算法可以迭代法識別出最佳的k 聚類中心。聚類中心是與聚類相關(guān)的對象“代表”,k-means的主要優(yōu)缺點如下:
1、必需明確指定聚類數(shù)量,但某些情況下無法知道各類聚類的數(shù)量;
2、k-means的迭代特性容易因局部最小值匯聚產(chǎn)生錯誤結(jié)果。
3、假設(shè)聚類是球狀的。
雖然有這些缺點,但在許多情況下,k-means仍是最正確也是最常用的算法。關(guān)于球面數(shù)據(jù)使用k-means的聚類示例可見圖1。


圖1:球狀數(shù)據(jù)上的k-means聚類
OPTICS 聚類算法:
另外一種聚類算法是OPTICS,它是基于密度的聚類算法。基于密度的聚類算法,與基于質(zhì)心的聚類算法不同,這種算法通過識別點簇“密度”,了解任意形狀與密度的聚類。OPTICS還可通過識別出分散的對象來確定數(shù)據(jù)的離群值(噪聲)。


圖2: k-means與OPTICS應(yīng)用于數(shù)據(jù)時的對比
OPTICS與k-means算法會生成截然不同的數(shù)據(jù)點組;它會將離群值分類,并更為精確的按數(shù)據(jù)性質(zhì)而非球狀的方式來表現(xiàn)簇。可參見圖2在數(shù)據(jù)上應(yīng)用k-means及OPTICS后的對比示例。
降維:
在機(jī)器學(xué)習(xí)領(lǐng)域,通常針對高維數(shù)據(jù)采用降維法處理。此處理方法旨在減少需要考慮的各類特征數(shù)據(jù),因為每項特征都代表了對象的一個部分。
為何降維如此重要?隨著特征的增多,數(shù)據(jù)變的更加稀疏,因此需要從維度災(zāi)難方面進(jìn)行分析。此外,還便于處理小型數(shù)據(jù)集。
利用以下兩個方法執(zhí)行降維:
1、從現(xiàn)有特征中選擇(特征選擇)
2、組合現(xiàn)有特征后,提取新特征(特征提取)。
特性提取的主要技術(shù)是主成份分析法(PCA)。主成份分析法可保證找到最佳線性變換,降低維數(shù)數(shù)量,減少信息損失。有時,丟失的信息被稱為噪聲,這種信息并不具有代表性,只是部分未知程序的副作用而已。主成份分析法的視覺表達(dá)如下(圖3):


圖3:主成份分析法
上述示例中,可能對PC1的結(jié)果表示滿意,最終以一個特性取代了原來的兩個特性。
有許多降維技術(shù)可選擇:部分線性技術(shù),如:主成份分析法,部分非線性技術(shù)以及后期日趨普遍使用的深度學(xué)習(xí)法等(詞嵌入)。
將相關(guān)技術(shù)用于動態(tài)學(xué)習(xí)對等組:
Imperva Defense Center近期的黑客情報計劃(HII)調(diào)查報告中提到了文件安全的最新創(chuàng)新方法。這種方法會利用無監(jiān)督機(jī)器動態(tài)學(xué)習(xí)對等組。一旦學(xué)會了對等組,就可以用對等組來確定每個用戶訪問組織中的各種共享文檔的虛擬權(quán)限是否正確。Imperva的違規(guī)防御解決方案CounterBreach中就使用了這種動態(tài)對等組功能。
圖4介紹了如何根據(jù)動態(tài)對等組分析結(jié)果,利用機(jī)器學(xué)習(xí)探測可疑文件訪問活動。


圖4:利用動態(tài)對等組分析結(jié)果探測可疑活動的過程
首先Imperva將審計數(shù)據(jù)轉(zhuǎn)化為用戶訪問目錄的矩陣,其中橫坐標(biāo)為用戶與縱坐標(biāo)為文件夾。矩陣單元內(nèi)的值為指定用戶訪問文件夾的活動量。然后,Imperva會進(jìn)行降維的處理。使用PCA的首個原因就是矩陣的稀疏性,因為矩陣單元內(nèi)99%以上都是空的。其次,許多文件夾的訪問模式都是關(guān)聯(lián)的,從而導(dǎo)致矩陣出現(xiàn)多重共線性。而實際上在我們的案例中,多組用戶會在一個類似項目中工作,這些用戶都有關(guān)聯(lián)性,因此被放置在類似的文件夾組中。最后,使用PCA后,矩陣范圍縮小了90%,因此更便于處理。收集與準(zhǔn)備數(shù)據(jù)后,機(jī)器學(xué)習(xí)可構(gòu)建虛擬對等組。Imperva利用前述機(jī)器學(xué)習(xí)技術(shù)(即:PCA以及基于密度的聚集法)構(gòu)建動態(tài)對等組。
其次,Imperva選擇OPTICS算法作為其聚集算法,即:根據(jù)密度來聚集用戶。因為對等組數(shù)據(jù)未知,而k-means需要了解簇的數(shù)量——本案中為需要了解對等組數(shù)量,因此無法使用該算法。
OPTICS則不受此數(shù)據(jù)限制。OPTICS還便于采取特殊手段處理噪聲用戶,即:將噪聲用戶單獨放入一個簇內(nèi)。除上述原因外,經(jīng)過大量的試驗與辨錯后,確認(rèn)OPTICS是本數(shù)據(jù)集最佳算法。
小結(jié):
選擇正確的算法是數(shù)據(jù)分析三要素最重要的一個環(huán)節(jié)。數(shù)據(jù)分析三要素:首先就是數(shù)據(jù)本身,其次是數(shù)據(jù)準(zhǔn)備工作,即:清理與選擇能夠代表數(shù)據(jù)特點的具體特征,第三就是利用正確的機(jī)器學(xué)習(xí)法,適當(dāng)描述數(shù)據(jù)。
本案中,PCA與OPTICS都是經(jīng)過證明,特別適用于學(xué)習(xí)對等工作組的工具。但“機(jī)器”并不能神奇的自我決策。只有人(也就是團(tuán)隊)才能了解問題所在,分析數(shù)據(jù),并“魔法般的”選擇正確的機(jī)器學(xué)習(xí)法構(gòu)建人工智能的高樓大廈。
推薦閱讀
啟蒙電商運(yùn)維中心:開好直通車人氣旺起來
推廣當(dāng)然都希望立竿見影,最好來一個點你廣告的,就做一筆生意,所以要選擇你店里最好的寶貝來推廣,最好是有交易記錄和評價內(nèi)容的。好的寶貝首先會有最好的成交可能,其次會吸引客人進(jìn)入店鋪瀏覽其他寶貝,可謂一舉>>>詳細(xì)閱讀
本文標(biāo)題:機(jī)器學(xué)習(xí)的技術(shù)秘密-走進(jìn)Imperva的“魔法秘籍”
地址:http://www.zcgs360.cn/a/05/306168.html
1/2 1
2 下一頁