7月4日消息,2012年中國計算機網(wǎng)絡安全年會在西安舉行,阿里巴巴云計算有限公司資深安全專家吳瀚清發(fā)表了題為“關于網(wǎng)站離線數(shù)據(jù)安全分析漫談”的演講。
以下為演講實錄:
我今天給大家做了一個演講是關于網(wǎng)站離線數(shù)據(jù)安全分析漫談,其實這個東西是我在阿里巴巴大概有三年了,一直想做的一件事情。這件事情3年下來經(jīng)歷了非常多的看客,中間也夭折了幾次,但是我也堅持做下來。接下來我給大家講一講這件實是什么事,我是怎么做的。
首先介紹一下我自己,我叫吳瀚清,我在阿里七年了。寫字了一本書叫《白帽子講web安全》,在6月份,最大的網(wǎng)站,他的446萬個的用戶的密碼泄露,被人公布在網(wǎng)上,至今他沒有公布他被黑掉,他發(fā)現(xiàn)這一件事以后,第一個反映是他要去查漏洞,怎么查?同時還有一項研究表明,63%的人并不知他曾經(jīng)被人黑過。我們?nèi)绻麕瓦^這過這些站廠,讓他們知道如何被黑掉。所以我們?nèi)绻麖恼麄公司安全角度分析看,數(shù)據(jù)分析這一塊是非常重要的,在發(fā)現(xiàn)問題這個環(huán)節(jié),這個模型是一個比較經(jīng)典的模型,怎么去解決安全問題,發(fā)現(xiàn)問題,然后去修復問題,解決辦法解決。那么在數(shù)據(jù)分析這一塊,在發(fā)現(xiàn)問題這個環(huán)節(jié),有一些開源項目在這個事情,用的最多的是大家手動的分析grep,還有一些規(guī)則集。還有PHp-ids等等,這些問題都能給我們提供幫助,但是都有問題,因為他是給單個網(wǎng)站用的,網(wǎng)站的信息量不大。
我在做這件事情的時候,有時候問題,有掃描了還需要分析日志嗎?我們應該把安全問題修復掉,那么分析日志干什么,當然這是理想狀態(tài)下。當然需要,分析日志可以發(fā)現(xiàn)攻擊,我們可以看一下掃描可以發(fā)現(xiàn)什么,時間、地方、起因,掃描只能提供三個,但是分析日志可以發(fā)現(xiàn)6個,時間、地方、人物、起因、經(jīng)過、結(jié)果,可以發(fā)現(xiàn)誰干的,它的IP是什么,你光說漏洞還是沒用,他要知道他進來之后干了什么。這些東西可能是需要分析日志。計算損失很重要的,現(xiàn)在在很多都被忽視了,所以說分析日志可以提供比掃描更多的漏洞,我們可以在上面查很多有價值的東西。為什么不適用IPS/IDS/WAF,這個也是很重要的,離線的分析數(shù)據(jù)很復雜,我們今天看到的,離線數(shù)據(jù)分析可以處理更多的數(shù)據(jù)量,因為它的時效性要求并不高,同時他是并聯(lián)、異步的。這就使得這個產(chǎn)品可以成為IPS和WAF的一個重要補充。下來就是滿足更復雜的需求,這是場景1,統(tǒng)計某XS蠕蟲感染的參數(shù),第二個場景是現(xiàn)在阿里巴巴已經(jīng)用了很多年的,把網(wǎng)站的所有請求根據(jù)URL去重,提供給掃描器進行掃描。所以在阿里做了一件非常取巧的事情,就是把網(wǎng)站所有的請求提出來,然后去重,然后讓掃描器直接去掃描,也可以。這里有兩個場景,但是我們還可以想到更多的場景。我們在離線分析里面可以做到多次分析,比如說我可以根據(jù)頻率去做請求,這個來源到底是什么樣的,多數(shù)的來源是什么?少數(shù)的來源是什么?像這種多次請求有關系的,就需要通過離線系統(tǒng)來做分析,所以說分析以后就有更復雜的分析需求。
那么遇到的最大挑戰(zhàn)什么?就是大數(shù)據(jù),數(shù)據(jù)量大了以后原來看來不是很大的問題的時候都會成為很大的問題。所以在未來,可能會采用新的技術,比如說專門開發(fā)了一套傳輸日志的技術,這樣的技術我們未來可能會用,因為今天已經(jīng)進入到這個時代,大數(shù)據(jù)的存儲是hds,大數(shù)據(jù)的計算是map-reduce,實時性的提高是hbase,在這樣一個環(huán)境里面,性能并不是一個瓶頸。這點和以前的分析是有很大的區(qū)別。那么未來還要考慮到實時性的提高,現(xiàn)在其實已經(jīng)可以做到,未來可以做到更快,如果要提高實時性的話,會考慮hbase,所以我們面對的最大問題是大數(shù)據(jù)。現(xiàn)有流程,這個架構符號,先是日志收集,然后經(jīng)過ETL,進行規(guī)則分析,最后是結(jié)果輸出,其實也可以看到這樣的一個倉庫,把日志收集,經(jīng)過ETL,進行規(guī)則分析,然后進行結(jié)果的輸出。前面講了大數(shù)據(jù)以后,在阿里今天的數(shù)據(jù)請求是每天十多億,基本上半個小時分析完,但是仍有有提高的空間。所以說他的處理的能力還是有非常大的提高空間的,我們可以申請更多的資源,讓它變得更快,滿足更多的需求。所以說處理也不是非常強的,仍然有提高的空間,因為阿里是做業(yè)務,會有很多網(wǎng)站,把這些網(wǎng)站集中起來,我們一起做這個業(yè)務,會有很多的數(shù)據(jù)價值,在未來數(shù)據(jù)是很重要的。我們到底要分析什么?分析什么呢?在一開始我想的非常理想,我提出了一個假設,就是互聯(lián)網(wǎng)網(wǎng)站的請求,正常的請求都是有規(guī)律的,但是異常攻擊的請求是有明顯區(qū)別于正常請求的,如果我們把正常的區(qū)分出來,那么異常的就出來的。比如URL,可能大部分URL都是來自比較固定的來源,那么少數(shù)的就不是異常,結(jié)果這個結(jié)果就是產(chǎn)生了過多的噪音,你會看到每天會和這些噪音做戰(zhàn)斗,結(jié)果產(chǎn)生了過高的人力成本,最后成果并不是特別大。到第二年,又做了一個,我們就檢測一些供給類型,注冊、文件包含這些,跨站,如果在請求里面,出現(xiàn)了Alibaba的需求vs小網(wǎng)站的需求,結(jié)果第二年還是失敗的,這個時候檢測出意義其實并不是特別大,也可以看到很多請求,但是發(fā)給安全主管,會發(fā)現(xiàn)他拿這個東西不知道干什么,后來這個結(jié)果就造到了置疑。在阿里的網(wǎng)站,像文件包括這種,所以說到第三,我想到阿里的需求和其他的網(wǎng)站不一樣的。所以第二次嘗試是失敗的,到第三年,為中小網(wǎng)站提供服務,檢測什么東西,每一個漏洞新出來,比如說我們新出現(xiàn)一個漏洞,這些信息涉及到一個漏洞庫和知識庫的一個過程。到今天我又開始檢測具體的漏洞,每一個漏洞在網(wǎng)絡里面的實際攻擊情況到底是怎么樣的,到今天也算是做出來一些眉目了。其實一塊是做這個還是很好的,從實驗室做到產(chǎn)品是有一定距離的。做到這里還沒做完,漏洞,供給,供給成功,當我再次給老板看的時候,老板說沒用,這個價值其實意義并不是特別大,好了,把它做死,我們能夠檢測到攻擊,這些東西都是造成誤報的主要來源,有用嗎?用處不大。所以說這是一個非常關鍵的一個需求,所以在供給驗證滯后,我們的流程加兩步,就變化了規(guī)則分析再到供給驗證,再到結(jié)果分析。阿里已經(jīng)做了四五年,規(guī)則分析之后,把這些信息再進去確認一遍。這個是照的一張截圖,可以看到中間的,這兩分鐘處理了很多的數(shù)據(jù)。所以說整個大數(shù)據(jù),隨著業(yè)務的增長這個數(shù)據(jù)量可能會更多的增長。在這個過程中,我們還做了web檢測,這是一個月內(nèi)的一個趨勢圖,在這個里面,每年都能發(fā)現(xiàn),所以說今天的互聯(lián)網(wǎng)安全形勢是非常不樂觀的,其實我一開始在公司來說,也是一個意外,因為也沒想到會分析出來這么多,所以做安全的時候并不能僅僅憑想象。今天可以說能夠檢測到90%以上,甚至95%以上,有很多黑客寫的有加密的,所以說今天我們檢測這么多,實際上是非常了不起的成績,很有意思是90%以上是為了DDOS,而且發(fā)現(xiàn)多數(shù)webshell是ddos、掛暗鏈,掛馬。這集中行為都和地區(qū)無關,所以說現(xiàn)在的黑站,只需要把網(wǎng)站拿下來以后,他就可以完成他需要干的事情,左邊的這個是一個服務商分析,主要是webshell的一個服務商,在webshll請求量的趨勢,0.0026%為了webshell請求,因為ddos能夠知道,就相當于一種加速網(wǎng)絡,去下達指令的時候,不會產(chǎn)生一條新的請求,這其實也是一個問題。
推薦閱讀
7月4日消息,2012年中國計算機網(wǎng)絡安全年會今日在西安舉行,杭州迪普科技有限公司總工程師孫曉明發(fā)表了主題是“新環(huán)境下安全基礎架構研究”的演講。 杭州迪普科技有限公司總工程師孫曉明 以下為演講實錄: 我今天給大>>>詳細閱讀
本文標題:吳瀚清:網(wǎng)站離線數(shù)據(jù)安全分析漫談
地址:http://m.sdlzkt.com/a/11/20120705/73441.html