Bài viết đề xuất một phương thức phát hiện dấu hiệu bất thường (dPCA) trong lưu lượng mạng dựa trên thuật toán phân tích thành phần chính (PCA). Kết quả thử nghiệm của phương thức phát hiện được đánh giá dựa trên tập dữ liệu tri thức dành cho phát hiện xâm nhập NSL-KDD. Mời các bạn cùng tham khảo!
Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Một Phƣơng Thức Phát Hiện Bất Thƣờng Trong Lƣu Lƣợng Mạng Nguyễn Hà Dƣơng Khoa Công nghệ thông tin, Trƣờng Đại học Xây Dựng Hà Nội Email: duongnh@nuce.edu.vn ví dụ tăng đột biến lƣu lƣợng ngƣời dùng tới dịch vụ suy giảm đột ngột lƣu lƣợng cố liên quan đến thiết bị mạng Nếu xét riêng lĩnh vực an ninh mạng, chức IDS ADS nhƣ có mục tiêu phát cơng vào hệ thống Trong thực tế, phƣơng pháp phát IDS thƣờng dựa dấu hiệu biết trƣớc tập mẫu nhƣ trình bày mà hệ thống điển hình Snort, Bro [10, 11] Trong đó, ADS thƣờng dựa phƣơng pháp mơ hình thống kê, khai phá liệu, học máy v.v [1-8] Abstract— Phát lưu lượng mạng bất thường giúp phát sớm nguy công mạng hoạt động công tin tặc gây biến đổi khơng bình thường lưu lượng mạng, nghĩa thăng giáng lưu lượng so với lưu lượng bình thường mạng Trong báo này, tác giả đề xuất phương thức phát dấu hiệu bất thường (dPCA) lưu lượng mạng dựa thuật tốn phân tích thành phần (PCA) Kết thử nghiệm phương thức phát đánh giá dựa tập liệu tri thức dành cho phát xâm nhập NSL-KDD Trong số nghiên cứu [1-7], phƣơng pháp phát bất thƣờng lƣu lƣợng mạng dựa thuật toán PCA chứng minh khả phát với độ xác tƣơng đối cao ứng dụng mạng trực tuyến Vì vậy, tác giả lựa chọn sử dụng PCA đề đề xuất thuật toán phƣơng thức phát lƣu lƣợng bất thƣờng mục II Mục III trình bày kết thử nghiệm phƣơng thức phát Mục IV phần kết luận báo Keywords- lưu lượng bất thường; phát lưu lượng bất thường; phát xâm nhập; an ninh mạng I GIỚI THIỆU Phát sớm nguy công mạng nhu cầu cấp thiết thực tế Những hoạt động công thƣờng gây biến đổi khơng bình thƣờng, thăng giáng lƣu lƣợng mạng, chí tạo lƣu lƣợng đột biến so với lƣu lƣợng bình thƣờng mạng Vì việc phát lƣu lƣợng bất thƣờng giúp sớm tìm dấu hiệu cơng, điển hình công DoS, Scan, v.v II A Cơ sở thuật tốn PCA Phân tích thành phần (Principal Component Analysis – PCA) thuật toán thƣờng sử dụng để giảm số chiều liệu nhƣng giữ đƣợc phần lớn đặc tính liệu Mỗi trị riêng thành phần tƣơng ứng phần với biến thiên thuộc tính hay biến liệu Trị riêng lớn chứa nhiều biến thiên vector riêng tƣơng ứng phản ánh quy luật biến thiên lớn nên quan trọng Do vậy, thành phần quan trọng cần đƣợc xếp trƣớc thành phần không quan trọng Một hệ thống phát công thƣờng đƣợc gọi với tên: hệ thống phát xâm nhập (Intrusion Detection System - IDS) [8-11] Trong IDS, nhìn chung có hai phƣơng pháp để phát cơng là: phát dựa dấu hiệu phát bất thƣờng [8] Phƣơng pháp phát dựa dấu hiệu (signature-based detection) thƣờng đòi hỏi phải biết trƣớc mẫu dấu hiệu công lƣu sở liệu so sánh lƣu lƣợng thu đƣợc từ mạng với mẫu dấu hiệu lƣu sẵn Tuy nhiên, phƣơng pháp phát đƣợc dấu hiệu công biết mà không phát đƣợc loại cơng Mặt khác, tin tặc dễ dàng thay đổi vài chi tiết để biến cơng trở thành kiểu mới, khơng cịn chứa dấu hiệu biết trƣớc sở liệu tập mẫu để qua vƣợt qua đƣợc khả phát phƣơng thức Phƣơng pháp thứ hai khơng địi hỏi mẫu dấu hiệu biết trƣớc, cho phép phát xâm nhập dựa hành vi bất thƣờng (hành vi bất thƣờng đƣợc hiểu hành vi cơng) Vì vậy, phƣơng pháp cho phép phát đƣợc kiểu công Dữ liệu PCA đƣợc biểu diễn trục tạo thành vector riêng Trong liệu dùng để huấn luyện không chứa liệu bất thƣờng, trục tƣơng ứng đƣợc coi bình thƣờng Những điểm nằm cách xa trục bình thƣờng nghi ngờ bất thƣờng Gọi X tập liệu gồm n quan sát với p biến X1, X2,… Xp đƣợc tổ chức thành ma trận nxp (n hàng, p cột) Mỗi biến biểu thị thuộc tính liệu ban đầu Mỗi quan sát x=(x1, x2,…,xp)T chứa p thuộc tính khác Gọi R ma trận tƣơng quan pxp tính đƣợc từ X, (k, ek) cặp trị riêng vector riêng R đƣợc xếp theo thứ tự giảm dần trị riêng (1 2 … p>0), thành phần thứ i quan sát x đƣợc tính nhƣ sau: Hệ thống áp dụng phƣơng pháp phát bất thƣờng đƣợc gọi với tên hệ thống phát bất thƣờng (Anomaly Detection System - ADS) [8] ADS không phát cơng mà cịn phát kiện bất thƣờng khác, ISBN: 978-604-67-0635-9 PHƢƠNG THỨC ĐỀ XUẤT PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG DỰA TRÊN PCA 92 92 Hội Hội Thảo Quốc GiaGia 2015 vềvềĐiện CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và Công TinTin (ECIT 2015) yi T e i z ei1 z1 ei z2 eip z p Một giá trị ngƣỡng dN đƣợc xác định dựa vào hàm phân bố tích lũy thực nghiệm độ lệch d (empirical cumulative distribute function - ecdf) đƣợc tính liệu huấn luyện (1) đó: yi thành phần thứ i quan sát x ban đầu, i=1…p, ei=(ei1,ei2,…,eip)T vectơ riêng thứ i Khi có quan sát mới, giá trị d đƣợc tính dựa tham số huấn luyện nhƣ sau: z = (z1, z2,…,zp)T vectơ chuẩn hóa x theo cơng thức: xk xk (2) Chuẩn hóa liệu dựa giá trị trung bình bậc hai phƣơng sai cho thuộc tính (biến đầu vào) với xk giá trị trung bình, sk phƣơng sai biến thứ k, k = 1…p Đối với toán phát bất thƣờng, xử lý lƣợng liệu lớn nhiều biến làm tăng thời gian xử lý liệu tốn tài nguyên hệ thống Vì vậy, áp dụng thuật tốn PCA giảm thiểu số chiều không cần thiết tăng hiệu tận dụng tài nguyên hệ thống Sử dụng vectơ riêng để chuyển quan sát sang trục miền PCA zk sk Tính giá trị d dựa (3) so sánh với ngƣỡng thiết lập dN huấn luyện Nếu d > dN, quan sát đƣợc coi bất thƣờng Ngƣợc lại quan sát đƣợc coi bình thƣờng Phƣơng thức phát báo đƣợc đặt tên dPCA B Phương thức phát đề xuất (dPCA) Trong [1-3, 6], tác giả theo dõi thay đổi giá trị thành phần phát thay đổi bất thƣờng thành phần định Các thành phần phân chia thành thành phần quan trọng phản ánh quy luật biến thiên lƣu lƣợng y(m) trạng thái bình thƣờng hệ thống thành phần dƣ thừa phản ánh biến thiên không theo quy luật y(p-m) Trong [1, 6], độ lớn phần dƣ tái tạo tƣơng ứng với y(p-m) đƣợc phân tích từ phát dấu hiệu bất thƣờng dựa mức ngƣỡng Một cách tƣơng tự tính khoảng cách Euclidean liệu chuẩn hóa z liệu tái tạo từ thành phần y(m) [2] Tuy nhiên tái tạo lại z từ thành phần y(m) làm tăng mức độ xử lý hệ thống Trong [3], khoảng cách Mahalanobis dựa thành phần chủ yếu thứ yếu đƣợc sử dụng để phân tích dấu hiệu bất thƣờng III A Tập liệu NSL-KDD KDD (Knowledge Data Mining Data Set) tập liệu tri thức thuộc lĩnh vực khác nhƣ: y tế, an ninh mạng, kinh tế đƣợc tổng hợp từ điều kiện thực tế sử dụng thuật toán, phƣơng pháp khai phá liệu Một tập liệu hay sử dụng để kiểm nghiệm phƣơng thức phát xâm nhập KDD-CUP 99 [12] Đây tập liệu qua tiền xử lý từ tập liệu DARPA 1998 KDD-CUP 99 tách trƣờng liệu đặc trƣng (thuộc tính) từ gói tin (một số thuộc tính nhƣ bảng 1) sau tổng hợp lại cho kết nối Các trƣờng liệu hay thuộc tính trở thành biến đầu vào cho chế phát cơng Tổng cộng có 42 trƣờng liệu trƣờng số 42 đánh nhãn (labeling) kết nối bình thƣờng tên loại công Dữ liệu đƣợc phân loại thành lớp: Bình thƣờng (Normal) lớp cơng (DoS, PROBE, R2L, U2R) Từ nghiên cứu thấy cách theo dõi biến thiên thành phần miền PCA miền gốc ban đầu sau tái tạo so sánh với đƣờng sở đƣợc coi bình thƣờng, phát dấu hiệu bất thƣờng lƣu lƣợng mạng KDD-CUP 99 tồn số vấn đề mà điển hình có q nhiều liệu dƣ thừa trùng lặp [12] Điều ảnh hƣởng đến kết đánh giá hiệu phƣơng thức phát nghiên cứu sử dụng tập liệu [2, 3, 6, 12] Theo dõi giá trị PCA không hiệu biến thiên biến ban đầu phân tán sang thành phần khác khơng gian PCA Vì cần kết hợp thành phần lại thuật toán phát bất thƣờng Bài báo sử dụng tập liệu NSL-KDD cho việc thử nghiệm thuật toán phát bất thƣờng NSL-KDD tập liệu đƣợc phát triển từ tập KDD-CUP 99 nhƣng loại bỏ kết nối dƣ thừa trùng lặp [12] Do khắc phục đƣợc số nhƣợc điểm quan trọng KDD-CUP 99, NSL-KDD tập liệu có độ tin cậy cao KDD-CUP 99 thử nghiệm phƣơng thức phát bất thƣờng Tiếp theo, báo đề xuất thuật toán phát dấu hiệu bất thƣờng không gian PCA: q d wi yi c THỬ NGHIỆM PHƢƠNG THỨC PHÁT HIỆN DPCA (3) ir Trong đó: r q p , wi trọng số cho thành phần yi đƣợc lựa chọn dựa thực nghiệm, d độ lệch hình thành từ thành phần yi trọng số tƣơng ứng wi, c số mũ yi c số, số thực số nguyên wi , c đƣợc lựa chọn dựa thực nghiệm B Các thông số đánh giá thử nghiệm True Positive (TP): Sự kiện mẫu công đƣợc phát xác False Positive (FP): Sự kiện mẫu bị phát công nhƣng thực tế lại mẫu bình thƣờng Tập hợp giá trị d đƣợc tính tất quan sát với liệu huấn luyện (không chứa bất thƣờng) tạo nên đƣờng sở để phát ngoại lai Vì coi d độ lệch quan sát để xét quan sát bình thƣờng hay bất thƣờng True Negative (TN): Sự kiện mẫu bình thƣờng đƣợc phát xác False Negative (FN): Sự kiện mẫu đƣợc hệ thống phát bình thƣờng nhƣng thực tế lại mẫu công 93 93 HộiHội Thảo Quốc vàCông CôngNghệ Nghệ Thông (ECIT 2015) Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) Precision (Độ chinh xác): Bằng tỷ lệ số mẫu phát cơng xác tổng số mẫu phát công tập liệu kiểm tra Precision TP TP FP (4) True Positive Rate (TPR) gọi Recall: Tỷ lệ số mẫu công phát xác số mẫu cơng thực tế tập liệu kiểm tra TPR TP TP FN TP TN TP FP TN FN Features % số kết nối đến dịch vụ xét dst_host_count Số lƣợng địa đích dst_host_srv_count Số lƣợng kết nối đến địa đích xét dịch vụ đích (8) d =| yr|+ |yr+1|+ …+ |yq| B NG II k (6) Precision (%) KẾT QU THỬ NGHIỆM TPR (%) FPR (%) TA (%) 13 95.3 75.3 3.2 86.8 94.6 87.2 4.3 92.1 Do trị riêng i phản ánh mức biến thiên trục thành phần tạo nên vectơ riêng ei nên i đƣa vào trọng số wi công thức (3) Bảng thống kê kết phát với trọng số wi = i số c =1 Công thức (3) trở thành: (7) d = r |yr|+ r+1 |yr+1|+ …+q|yq| C Thử nghiệm kết Quá trình thử nghiệm đƣợc thực dựa phần mềm Matlab R2013a Bài báo sử dụng 1000 kết nối bình thƣờng dùng để huấn luyện; 50000 kết nối cơng bình thƣờng đƣợc lựa chọn ngẫu nhiên để kiểm tra độ xác phƣơng thức phát Do tập liệu có nhiều thuộc tính nên báo lựa chọn thuộc tính cần thiết đƣợc liệt kê bảng Quá trình thử nghiệm lựa chọn tất thành phần số thành phần cuối từ thống kê tỷ lệ phát thành công cảnh báo sai Kết phƣơng thức phát bất thƣờng đƣợc thống kê bảng 2-6 Giá trị k bảng 2-6 số thành phần B NG I diff_srv_rate (5) Total Accuracy (TA) : Độ xác tổng số mẫu phát xác cơng bình thƣờng số mẫu tập liệu TA % số kết nối có lỗi đồng REJ Bảng thống kê kết phát với trọng số wi =1 số c =1 Công thức (3) trở thành: False Positive (FPR): Tỷ lệ số mẫu cơng phát sai số mẫu bình thƣờng tập liệu kiểm tra FP FPR TN FP rerror_rate B NG III k Precision (%) KẾT QU THỬ NGHIỆM TPR (%) FPR (%) TA (%) 13 96.7 68.4 3.3 83.6 95.0 85.6 3.8 92.0 Bảng thống kê kết phát với trọng số wi = i1/ số c =1 Công thức (3) trở thành: d r1/ yr r1/21 yr 1 q1/ yq THUỘC TÍNH DÙNG TRONG THỬ NGHIỆM Meaning duration Thời gian kết nối protocol_type Loại giao thức service Dịch vụ (ví dụ HTTP) 13 95.1 69.9 3.1 84.4 src_bytes Số lƣợng byte gửi từ nguồn đến đích 94.8 87.6 4.1 92.1 dst_bytes Số lƣợng byte gửi từ đích nguồn num_access_files Số lƣợng truy nhập file điều khiển count Số lƣợng kết nối đến địa đích xét 2s srv_count serror_rate B NG IV k Precision (%) KẾT QU THỬ NGHIỆM TPR (%) FPR (%) TA (%) Bảng thống kê kết phát với trọng số wi = 1/ i số c =2 Công thức (3) trở thành: Số lƣợng kết nối đến dịch vụ đích xét 2s % số kết nối có lỗi đồng SYN 94 94 d yr2 r yr21 r 1 yq2 q HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) B NG V k KẾT QU THỬ NGHIỆM Precision (%) TPR (%) FPR (%) IV KẾT LUẬN Trên sở nghiên cứu phát lƣu lƣợng bất thƣờng dựa thuật toán PCA, báo đề xuất thuật toán cho đƣờng sở phƣơng thức phát lƣu lƣợng bất thƣờng Kết thử nghiệm cho thấy thay đổi độ xác của phƣơng thức đề xuất với tham số khác thuật toán đƣờng sở nhƣ số lƣợng thành phần Ngồi ra, kết cho thấy việc phát bất thƣờng phƣơng thức đề xuất (dPCA) thực đƣợc với thành phần cuối đƣợc coi phần dƣ với điều kiện lƣu lƣợng mạng dùng cho liệu tập huấn đầu vào không chứa bất thƣờng (dữ liệu sạch) TA (%) 13 95.4 80.3 3.4 89.1 95.1 87.2 3.8 92.1 Bảng thống kê kết phát với trọng số wi = 1/ i số c =1 Công thức (3) trở thành: d yr r yr 1 r 1 yq q TÀI LIỆU THAM KH O [1] B NG VI k Precision (%) KẾT QU THỬ NGHIỆM TPR (%) FPR (%) [2] TA (%) 13 95.6 81 3.2 89.3 95.2 87.1 3.8 92.0 [3] [4] Nhận xét: Kết thử nghiệm cho thấy lựa chọn wi = 1, wi = i, wi = i1/ có chênh lệch tỷ lệ TPR lớn k = k = 13 TPR cho biết khả phát công tổng số công đƣa vào kiểm tra Điều cho thấy giá trị ngoại lai thƣờng nằm thành phần cuối đƣợc coi phần dƣ Quy luật biến thiên hệ thống điều kiện bình thƣờng khơng có cơng thƣờng nằm thành phần Do lựa chọn k = 13, khuyếch đại thành phần wi = i, wi = i1/ chênh lệch w i yi [5] [6] [7] [8] c thành phần cuối lớn làm số giá trị ngoại lai d So với kết nghiên cứu [2, 3, 6], tác giả nhận định kết đạt đƣợc tƣơng đƣơng nhƣng giảm đƣợc mức độ tính tốn cho thuật tốn đƣờng sở với cơng thức (8), (11) (12) Cơng thức (8) áp dụng cho phần dƣ chênh lệch thành phần cuối khơng nhiều Thử nghiệm với công thức (11) (12) cho kết tƣơng đƣơng nhƣng áp dụng công thức (12) giảm đƣợc mức độ tính tốn trọng số wi cố định khơng phải tính bình phƣơng thành phần Khi lựa chọn trọng số wi = 1/ i , wi = 1/ i coi nhƣ chuẩn hóa yi c miền PCA nên chênh lệch TPR không nhiều giá trị k Đồng thời, kết thử nghiệm báo có độ tin cậy cao [2, 3, 6] sử dụng tập liệu NSL-KDD khắc phục đƣợc số nhƣợc điểm quan trọng ảnh hƣởng đến hiệu đánh giá phƣơng thức phát với KDD-CUP 99 [9] [10] [11] [12] [13] [14] A Lakhina, M Crovella, and C Diot, “Diagnosing network-wide traffic anomalies,” in Proc of ACM SIGCOMM, pp 219–230, 2004 W Wang and R Battiti, “Identifying Intrusions in Computer Networks with Principal Component Analysis,” in Proc of IEEE ARES, 2006 M Shyu, S Chen, K Sarinnapakorn, L Chang, "Principal Componentbased Anomaly Detection Scheme", Foundations and Novel Approaches in Data Mining, Vol 9, pp 311-329, 2006 Y Bouzida, “Efficient intrusion detection using principal component analysis,” in Proc of 7th World Multiconference on Systemics, Cybernetics and Informatics, 2003 D Brauckhoff, K Salamatian, M May, “Applying PCA for Traffic Anomaly Detection: Problems and Solutions,” in Proc of IEEE INFOCOM, 2009 A Lakhina, M Crovella, and C Diot Diot, “Mining anomalies using traffic feature distributions,” in Proc of ACM SIGCOMM, 2005 L Mechtri, F.D Tolba, N.Ghoualmi, “Intrusion detection using principal component analysis,” in Proc of IEEE ICESMA, 2010 M.H.Bhuyan, D.K.Bhattacharyya, J.K.Kalita, “Network Anomaly Detection: Methods, Systems and Tools,” in Proc of IEEE Communications Surveys and Tutorials, Vol 16, pp 303 – 336, 2013 K Wankhade, S Patka, R Thool, “An Overview of Intrusion Detection Based on Data Mining Techniques,” in Proc of IEEE CSNT, 2013 C Kacha, K A Shevade, “Comparison of Different Intrusion Detection and Prevention Systems,” Intl Journal of Emerging Technology and Advanced Engineering, Vol.2, Iss.12, pp.243-245, 2012 S Myers, J Musacchio, N Bao, “Intrusion Detection Systems: A Feature and Capability Analysis,” Tech.Report UCSC-SOE-10-12, Jack Baskin School of Engineering, 2010 M Tavallaee, E Bagheri, W Lu, A.A Ghorbani, “A Detailed Analysis of the KDD CUP 99 Data Set,” In the Proc of IEEE CISDA 2009 The KDD99 cup data, http://kdd.ics.uci.edu /databases/kddcup99/kddcup99.html, 1999 The NSL-KDD data, http://nsl.cs.unb.ca/nsl-kdd, 2009 95 95 ... thử nghiệm phƣơng thức phát bất thƣờng Tiếp theo, báo đề xuất thuật toán phát dấu hiệu bất thƣờng không gian PCA: q d wi yi c THỬ NGHIỆM PHƢƠNG THỨC PHÁT HIỆN DPCA (3) ir Trong đó: r q... coi bất thƣờng Ngƣợc lại quan sát đƣợc coi bình thƣờng Phƣơng thức phát báo đƣợc đặt tên dPCA B Phương thức phát đề xuất (dPCA) Trong [1-3, 6], tác giả theo dõi thay đổi giá trị thành phần phát. .. nghiên cứu phát lƣu lƣợng bất thƣờng dựa thuật toán PCA, báo đề xuất thuật toán cho đƣờng sở phƣơng thức phát lƣu lƣợng bất thƣờng Kết thử nghiệm cho thấy thay đổi độ xác của phƣơng thức đề xuất