Rút gọn thuộc tính sử dụng độ lợi thông tin đế tăng cường hiệu năng của các hệ thống phát hiện xâm nhập mạng (tt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	589,36 KB

Nội dung

Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Đà Năng, ngày 17-18/08/2017 DOi: 10.15625/vap 2017.00097 _ RÚT GỌN THUỘC TÍNH SỬ DỤNG ĐỘ LỢI THƠNG TIN ĐẾ TĂNG CƯỜNG HIỆU NĂNG CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG Hoàng Ngọc Thanh1, 3, Trần Văn Lăng2, * 'Trường Đại học Lạc Hồng 2Viện Cơ học Tin học ứng dụng, VAST 3Khoa Công nghệ thông tin, Trường Đại học Bà Rịa - Vũng Tàu thanhhn@bvu.edu.vn, langtv@vast.vn TOM TĂT: Chức hệ thống phát xâm nhập mạng (Intrusion Detection System: IDS) để bảo vệ hệ thống, phân tích dự báo hành vi truy cập mạng người sử dụng Những hành vi xem xét bình thường công Các phương pháp máy học sử dụng IDS nhờ khả học hỏi từ mâu liệu khứ để nhận mâu công Các phương pháp hiệu lại có chi phí tính tốn tương đối cao Trong đó, khối lượng tốc độ liệu mạng phát triển ngày nhanh, vấn đề chi phí máy tính cần phải giải Bài viết đề cập đến việc sử dụng độ lợi thơng tin để rút gọn thuộc tính tập liệu cần phân tích Nhờ đó, giúp xây dựng IDS với chi phí thấp hiệu cao Kết thử nghiệm tập liệu NSL-KDD99 sử dụng đánh giá chéo 5-fold minh chứng: với tập thuộc tính tối ưu phù hợp với kiểu phân lớp phương pháp máy học, độ xác phân lớp IDS cải thiện với thời gian tính tốn Từ khóa: Máy học, Độ lợi thơng tin, An ninh mạng, Rút gọn thuộc tính I GIỚI THIỆU Do tiến công nghệ gần đây, dịch vụ dựa mạng ngày đóng vai trò quan trọng xã hội đại Kẻ xâm nhập khơng ngừng tìm kiếm lỗ hổng hệ thống máy tính để truy cập trái phép vào nhân hệ thống Tuy nhiên, IDS chưa đủ linh hoạt, khả mở rộng không cao, không đủ mạnh để đối phó với cơng Trước đây, phương pháp dựa luật chiếm ưu Những phương pháp tìm xâm nhập cách so sánh đặc tính liệu cần phân tích với dấu hiệu cơng biết Khi lưu lượng mạng phát triển nhanh chóng, việc cập nhật dấu hiệu công ngày trở nên khó khăn, tẻ nhạt tốn nhiều thời gian Kể từ đó, phương pháp máy học giới thiệu để giải vấn đề phát xâm nhập Máy học đề cập đến thuật toán máy tính có khả học hỏi từ mẫu liệu khứ để nhận mẫu công Dựa máy học, IDS hoạt động tốt nhiều báo cáo thực tế triển khai Tuy nhiên, tài sản "khơng có mơ hình" phương pháp gây chi phí tính tốn tương đối cao Hơn nữa, khối lượng tốc độ liệu mạng phát triển ngày nhanh, vấn đề chi phí máy tính cần phải giải [1] Một giải pháp quan trọng nhằm giảm chi phí tính tốn rút gọn số thuộc tính liệu cần phân tích Có nhiều tiếp cận khác vấn đề học giả trình bày [2, 3, 4] Tuy nhiên, thuộc tính lựa chọn tối ưu không phụ thuộc vào kiểu phân lớp mà phụ thuộc vào phương pháp máy học, đến chưa có nghiên cứu đánh giá đầy đủ thuộc tính phù hợp ứng với kiểu phân lớp, phương pháp máy học sử dụng IDS Nội dung báo đề xuất sử dụng độ lợi thông tin (Information Gain) để xếp hạng độ quan trọng thuộc tính tập liệu cần phân tích Sau đó, sử dụng hai thuật toán Backward Elimination Ranking (BER) Forward Selection Ranking (FSR) để loại bỏ thuộc tính khơng cần thiết Từ đó, tìm tập thuộc tính tối ưu ứng với kiểu phân lớp phương pháp máy học Việc rút gọn số thuộc tính liệu giúp cải thiện hiệu IDS dựa máy học, cụ thể giảm thời gian huấn luyện kiểm tra, đồng thời tăng độ xác phân lớp II TẬP DỮ LIỆU Trước phân lớp đưa vào sử dụng để phát xâm nhập mạng, phân lớp phải trải qua trình huấn luyện kiểm tra, việc huấn luyện kiểm tra thực tập liệu gán nhãn trước Theo thống kê [5], tập liệu sử dụng phổ biến thí nghiệm KDD99, tạo cách xử lý phần liệu TCPDUMP lấy tuần từ hệ thống phát xâm nhập DARPA 1998 KDD99 gồm tập liệu huấn luyện kiểm tra Tập liệu huấn luyện có 4.898.431 ghi, ghi có 41 thuộc tính (loại giao thức, dịch vụ cờ) dán nhãn bình thường cơng cách xác với kiểu cơng cụ thể [6] Số thứ tự tên thuộc tính mô tả chi tiết Bảng Bảng Thơng tin chi tiết 41 thuộc tính tập liệu huấn luyện kiểm tra KDD99 10 duration protocol type service flag src bytes dst bytes land wrong fragment urgent hot 11 12 13 14 15 16 17 18 19 20 num failed logins logged in num compromised root shell su attempted num root num file creations num shells num access files num outbound cmds 21 22 23 24 25 26 27 28 29 30 is host login is guest login count srv count serror rate srv serror rate rerror rate srv rerror rate same srv rate diff srv rate 31 32 33 34 35 36 37 38 39 40 41 srv dst dst dst dst dst dst dst dst dst dst diff host rate host count host srv count host same srv rate host diff srv rate host same src port rate host srv diff host rate host serror rate host srv serror rate host rerror rate host srv rerror rate Tập liệu huấn luyện chứa 22 kiểu công thêm 17 kiểu tập liệu kiểm tra, phân thành nhóm: (1) Denial of Service (DoS), gồm kiểu công như: neptune, smurf, pod, teardrop, Ở đó, kẻ cơng làm cho tài ngun tính tốn nhớ q tải để xử lý yêu cầu hợp lệ, từ chối người dùng hợp lệ truy cập máy (2) Remote to Local (R2L), gồm kiểu công như: guess-passwd, ftp-write, imap, phf, Ở đó, kẻ cơng khơng có tài khoản có khả gửi gói tin đến máy qua mạng, khai thác số lỗ hổng để đạt quyền truy cập cục người sử dụng máy (3) User to Root (U2R), gồm kiểu cơng như: buffer-overflow, load-module, perl, rootkit, Ở đó, kẻ cơng bắt đầu với quyền truy cập bình thường sau khai thác số lỗ hổng để đạt quyền truy cập r oot hệ thống (4) Probe, gồm kiểu công như: port-sweep, ip-sweep, nmap, Ở đó, kẻ cơng nỗ lực thu thập thơng tin mạng máy tính nhằm phá vỡ khả kiểm sốt an ninh Năm 2009, Tavallaee đồng nghiệp [6] tiến hành phân tích thống kê liệu KDD99 Các tác giả tìm thấy số lượng lớn ghi dư thừa, 78% tập liệu huấn luyện 75% tập liệu kiểm tra Số lượng ghi trùng lặp ngăn chặn thuật tốn máy học với ghi khơng xuất thường xuyên công U2R Các tác giả lưu ý ghi trùng lặp tập liệu KDD99 làm cho kết đánh giá bị sai lệch, thuật toán phát tốt với ghi xuất thường xuyên Tavallaee đồng nghiệp [6] tạo liệu NSL-KDD từ tập liệu KDD99 để giải vấn đề đề cập trên, cách loại bỏ ghi dư thừa Tập liệu huấn luyện NSL-KDD gồm 125.973 ghi tập liệu kiểm tra gồm 22.544 ghi, nhiều so với tập liệu KDD99 Các tác giả cho kích thước tập liệu NSL-KDD hợp lý, sử dụng tập liệu hồn chỉnh mà khơng cần phải lấy mẫu ngẫu nhiên Điều cho phép xem xét cách quán so sánh cơng trình nghiên cứu khác Thơng tin chi tiết kiểu công tập liệu NSL-KDD mô tả Bảng Bảng Thông tin chi tiết tập liệu huấn luyện NSL-KDD Phân lớp công Normal Probe DoS U2R R2L Tổng cộng Tên công Số ghi 67.343 ipsweep, mscan, nmap, portsweep, saint, satan 11.656 apache2, back, land, mailbomb, neptune, pod, processtable, smurf, 45.927 teardrop, udpstorm buffer_overflow, httptunnel, loadmodule, perl, ps, rootkit, 52 sqlattack, xterm ftp_write, guess_passwd, imap, multihop, named, phf, sendmail, 995 snmpgetattack, snmpguess, spy, warezclient, warezmaster, worm, xlock, xsnoop 125.973 Tỷ lệ % 53,45% 9,26% 36,46% 0,04% 0,79% 100% III GIẢI PHÁP Để tìm tập thuộc tính tối ưu phù hợp với kiểu phân lớp phương pháp máy học Trước tiên, tùy kiểu phân lớp, thuộc tính thứ tự (giảm dần) dựa vào độ lợi thơng tin Sau đó, thuật tốn lựa chọn thuộc tính áp dụng để lựa chọn thuộc tính tối ưu phù hợp ứng với phương pháp máy học Phần tiếp sau trình bày sơ lược độ lợi thơng tin, mơ hình máy học, tiêu chí đánh giá, thuật tốn lựa chọn thuộc tính sử dụng thực nghiệm A Độ lợi thông tin Là độ đo thông tin đề xuất sử dụng để xếp hạng độ quan trọng thuộc tính tập liệu cần phân tích Giả thiết: S: Tập liệu huấn luyện S Lớp tập lớp C (i=1, ,m) a Giá trị thuộc tínhA (j=1, ,v) Chỉ số thông tin (Information) cho phân lớp: K S i S „ S J - - I S , > g (ệ ) Giả sử thuộc tính A chọn để huấn luyện, A - { S ’1 S ’2, , S ’v} Khi số thông tin mong muốn (Entropy) cho phân lớp A tính theo cơng thức: “ (A - ĩ ĩ - ^ '^ i ậ Trong S ’j trường hợp phân lớp S ’ Độ lợi thơng tin (Information Gain) có thuộc tính A tính sau: Gain(A) - I(S1 S2, , Sm) - Ent(A) B Các mô hình máy học Phần trình bày tóm tắt số mơ hình máy học [7] sử dụng thực nghiệm để tìm tập thuộc tính tối thiểu phù hợp ứng với kiểu phân lớp: (1) K láng giềng gần (k-NN): phương pháp truyền thống phi tham số đơn giản để phân lớp liệu Nó tính khoảng cách xấp xỉ điểm khác dựa liệu đầu vào sau định điểm không dán nhãn vào lớp k láng giềng gần Trong q trình phân lớp, k tham số quan trọng giá trị khác k tạo kết khác Nếu k lớn đáng kể, láng giềng sử dụng để dự đoán làm cho thời gian phân lớp lớn ảnh hưởng đến tính xác dự báo (2) Máy vectơ hỗ trợ (SVM): Là giải thuật máy học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán SVM toán phân lớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng (3) Mạng nơron nhân tạo (ANN): Là mơ hình xử lý thơng tin mơ hoạt động hệ thống thần kinh sinh vật (Haykin, 1999), bao gồm số lượng lớn nơ ron gắn kết để xử lý thông tin Mạng nơron nhiều lớp (MLP) cấu trúc mạng nơron sử dụng rộng rãi toán phân lớp MLP gồm lớp đầu tập hợp nút đầu vào; nhiều lớp ẩn nút tính tốn lớp đầu nút tính tốn Mỗi kết nối nơron gắn với trọng số điều chỉnh suốt trình huấn luyện Ngồi thuật tốn lan truyền ngược sử dụng để đào tạo MLP (4) Cây định (DT): Với ưu điểm mình, DT đánh giá công cụ mạnh, phổ biến đặc biệt thích hợp cho khai khống liệu nói chung phân lớp liệu nói riêng Ngồi ưu điểm như: xây dựng tương đối nhanh, đơn giản Việc phân lớp dựa DT đạt tương tự, đơi xác so với phương pháp phân lớp khác C Tiêu chí đánh giá Nếu FP số mẫu bị phân lớp sai dương tính; TP số mẫu phân lớp dương tính; FN số mẫu bị phân lớp sai âm tính; TN số mẫu phân lớp âm tính Việc đánh giá hiệu IDS thực qua việc đo so sánh số [8]: - Accuracy - (TP + TN) / (TP + FP + TN + FN); - Sensitivity - Recall - TPR - TP / (TP + FN); - Specificity - TNR - TN / (TN + FP); - Efficiency - (Sensitivity + Specificity) / 2; - Độ xác cảnh báo: Precise - P - TP / (TP + FP); - Thời gian huấn luyện kiểm tra Có nhiều kỹ thuật đánh giá độ xác dự báo như: đánh giá chéo K-fold, Holdout, Re-substitution Leaveone-out [9] Trong đó, đánh giá chéo K-fold xem hiệu quả, phù hợp với IDS Theo đó, ghi phân ngẫu nhiên thành k tập con; tập định tập liệu kiểm tra tập lại xử lý tập liệu huấn luyện Sau đó, q trình đánh giá chéo lặp lại k lần, độ xác phân lớp kiểm tra thơng qua độ xác phân lớp trung bình từ k lần đánh giá Đánh giá chéo K-fold đặc biệt phù hợp với nguồn liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực D Thuật toán chọn lựa thuộc tính Có hai thuật tốn lựa chọn thuộc tính đề xuất thực Thuật toán đầu tiên, xuất phát từ tập thuộc tính rỗng, sau thuộc tính chọn để bổ sung việc bổ sung thuộc tính giúp cải thiện độ xác phân lớp hệ thống, thuộc tính có độ lợi thơng tin lớn chọn để bổ sung trước Thuật toán thứ hai, xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộc tính chọn để loại bỏ việc loại bỏ thuộc tính giúp cải thiện độ xác phân lớp hệ thống, thuộc tính có độ lợi thơng tin nhỏ chọn để loại bỏ trước Lưu đồ giải thuật thuật tốn trình bày sau: (1) Thuật toán Forward Selection Ranking (FSR): c Bắt đầu S2= Thuộc tính S Tính độ xác phân lớp S2 n Tính độ xác phân lớp S3= S2thêm thuộc tính thứ i S No Hoàn thành thực tất thuộc tính S Hình Thuật tốn lựa chọn thuộc tính FSR (2) Thuật tốn Backward Elimination Ranking (BER): No Hoàn thành thực tất thuộc tính S Hình Thuật tốn Backward Elimination Ra IV KẾT QUẢ THÍ NGHIỆM Các chương trình, thuật tốn thí nghiệm sử dụng ngơn ngữ lập trình C#, dựa thư viện, khung làm việc máy học Accord.NET (http://accord-framework.net) sở liệu SQL Server 2014 Thông tin chi tiết tập liệu dùng thí nghiệm, số mẫu tin cụ thể ứng với kiểu công tập liệu thống kê Bảng Bảng Thông tin chi tiết tập liệu sử dụng thí nghiệm TT Tên tập liệu NSL-KDD Probe-U2R-R2L Số mẫu tin ứng với kiểu công U2R R2L Normal DoS Probe 67.343 45.927 11.656 52 995 0 41.102 52 1.126 Tổng số mẫu tin 125.973 42.280 Trong đó, tập liệu NSL-KDD sử dụng cho phân lớp Normal DoS, tập liệu Probe-U2R-R2L gồm tất mẫu tin kiểu công Probe, U2R R2L rút trích từ tập liệu KDD99, sử dụng cho phân lớp lại: Probe, U2R R2L Đó tỷ lệ mẫu tin kiểu công Probe, U2R R2L tập liệu NSL-KDD ít, khơng đảm bảo độ xác phân lớp đánh giá hiệu thuật tốn Sau đó, tùy kiểu phân lớp Normal, DoS, Probe, U2R R2L, ta tiến hành tính tốn độ lợi thơng tin thuộc tính Kết tính tốn xếp độ lợi thơng tin thuộc tính phân lớp Normal trình bày Hình Tương tự cho phân lớp DoS, Probe, U2R R2L trình bày Hình 4, Hình 5, Hình Hình Hình Độ lợi thơng tin thuộc tính phân lớp Normal 30 29 38233539252634 33123732362431 40274110 13222816191714111518 2021 Hình Độ lợi thơng tin thuộc tính phân lớp DoS 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 rim IIIIIIIII 123710 353433224032 41 27292330392824253136113826141713161918 15 20 21 Hình Độ lợi thơng tin thuộc tính phân lớp Probe III,- 141317121041163527 334032231828 3438242931302526393722 15 3619201121 Hình Độ lợi thơng tin thuộc tính phân lớp U2R Hình Độ lợi thơng tin thuộc tính phân lớp R2L Sau đó, hai thuật tốn lựa chọn thuộc tính BER FSR áp dụng để lựa chọn thuộc tính tối ưu phù hợp ứng với phương pháp máy học Kết độ xác (Accuracy) độ nhạy (Recall) phân lớp sử dụng đánh giá chéo 5-fold tốt với kiểu phân lớp, thuật tốn lựa chọn thuộc tính, mơ hình máy học trình bày Bảng 4, Bảng 5, Bảng Bảng Theo đó, cột BER thể độ xác (hoặc độ nhạy) phân lớp dùng thuật toán BER, cột FSR thể độ xác (hoặc độ nhạy) phân lớp dùng thuật toán FSR cột FULL thể độ xác (hoặc độ nhạy) phân lớp khơng rút gọn thuộc tính Ở đây, đánh giá chéo k-fold với k=5 chọn, k lớn, tập huấn luyện lớn nhiều so với tập kiểm tra, kết đánh giá không phản ánh chất phương pháp máy học, đặc biệt với tập liệu lớn Đó lý đánh giá chéo 5-fold nhiều học giả lựa chọn [10] Bảng Độ xác phân lớp (Accuracy) với kiểu phân lớp Normal DoS TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Normal BER FULL FSR 92.21% 93.31% 89.56% 94.63% 93.62% 94.11% 99.74% 99.63% 99.71% 99.30% 98.96% 99.11% 95.52% 94.95% 95.31% 95.66% 94.78% 95.47% 99.64% 99.68% 99.61% Phân lớp DoS BER FULL FSR 97.83% 96.85% 82.92% 97.55% 96.81% 97.48% 99.98% 99.97% 99.97% 99.90% 99.73% 99.85% 97.97% 97.40% 97.95% 98.68% 98.28% 98.36% 99.91% 99.94% 99.88% Bảng Độ nhạy phân lớp (Recall) với kiểu phân lớp Normal DoS TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Normal BER FULL FSR 92.59% 95.75% 88.41% 95.95% 95.50% 95.90% 99.77% 99.66% 99.73% 99.35% 98.99% 99.18% 96.71% 95.94% 96.41% 96.28% 95.89% 96.41% 99.66% 99.76% 99.66% Phân lớp DoS BER FULL FSR 95.70% 94.77% 97.89% 94.94% 93.62% 94.69% 99.97% 99.96% 99.97% 99.83% 99.56% 99.71% 95.82% 95.50% 95.77% 97.31% 96.85% 96.91% 99.91% 99.94% 99.86% Bảng Độ xác phân lớp (Accuracy) với kiểu phân lớp Probe, U2R R2L TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Probe BER FSR FULL 99.58% 99.50% 99.56% 99.30% 99.06% 99.14% 99.95% 99.90% 99.86% 99.91% 99.87% 99.84% 99.30% 99.17% 99.27% 99.61% 99.17% 99.54% 99.92% 99.89% 99.90% Phân lớp U2R BER FSR FULL 98.64% 89.69% 88.37% 99.75% 99.75% 99.74% 99.87% 99.92% 99.87% 99.86% 99.85% 99.84% 99.81% 99.79% 99.80% 99.81% 99.81% 99.80% 99.87% 99.93% 99.85% Phân lớp R2L BER FSR FULL 99.49% 99.35% 99.36% 99.05% 98.81% 98.96% 99.91% 99.87% 99.83% 99.86% 99.83% 99.76% 99.22% 99.02% 99.17% 99.52% 99.19% 99.52% 99.87% 99.85% 99.81% Bảng Độ nhạy phân lớp (Recall) với kiểu phân lớp Probe, U2R R2L Phân lớp U2R Phân lớp R2L BER FSR FULL BER FSR FULL 59.52% 93.38% 82.98% 98.01% 96.19% 96.54% Naive Bayes SVM 37.50% 40.31% 30.22% 91.42% 91.23% 90.65% Cây định (C4.5) 76.26% 82.94% 78.19% 99.40% 99.11% 98.69% Mạng nơron 64.47% 56.74% 60.19% 99.20% 99.43% 98.09% 48.10% 49.20% 51.91% 96.22% 95.80% 96.04% Hồi quy logistic 47.86% 47.66% 50.24% 96.29% 95.90% 96.14% Hồi quy logistic đa thức K láng giềng gần 66.79% 83.79% 67.34% 99.00% 98.69% 98.52% Các độ xác (hoặc độ nhạy) phân lớp tơ đậm kết tốt tương ứng với kiểu phân lớp Từ giúp ta xác định phương pháp máy học, thuộc tính lựa chọn để độ xác phân lớp tương ứng với kiểu phân lớp tốt nhất, Bảng trình bày chi tiết kết đạt Theo đó, cột Thời gian huấn luyện thể thời gian huấn luyện phân lớp rút gọn thuộc tính cột Thời gian tiết kiệm thể % thời gian tiết kiệm so với trường hợp huấn luyện phân lớp khơng rút gọn thuộc tính Với thuật tốn K láng giềng gần chúng tơi chọn sử dụng k=5, kết chọn sau số thí nghiệm với giá trị khác k Ở Bảng 7, dễ dàng nhận thấy phân lớp U2R R2L, độ nhạy phương pháp máy học dựa K láng giềng gần định thấp so với Naive Bayes Mạng nơron, chọn số mẫu tin bị phân lớp sai dương tính phương pháp máy học Naive Bayes Mạng nơron cao TT Bộ phân lớp Phân lớp Probe BER FSR FULL 99.84% 99.75% 99.84% 99.79% 99.67% 99.72% 99.98% 99.96% 99.94% 99.95% 99.97% 99.93% 99.54% 99.39% 99.52% 99.83% 99.39% 99.80% 99.94% 99.97% 99.95% Bảng Các thuộc tính phương pháp máy học lựa chọn phù hợp với kiểu phân lớp Kiếu phân Phương pháp máy học lớp Normal DoS Probe U2R R2L Các thuộc tính lựa chọn 11, 15, 17, 22, 19, 16, 13, 8, 1, 28, 40 2, 41, 24, 36, 32, 37, 23, Cây định 39, 12, 38, 34, 33, 30, 4, 6, 3, (C4.5) 13, 8, 41, 40, 2, 31, 32, 25, 39, 35, 38, 3,29, 4, 30, 36, 25, 23, 2, 1, 35, 6, 12, 3, K láng giềng 6, 5, 3, 14, 12, 41, 4, 28, 38, 11 gần (k=5) Cây định 13, 19, 11, 36, 39, 23, 41, 32, 22, 6, 35, 10, 37, 12, 3, ( c 4.5) Thời gian huấn Thời gian luyện (giây) tiết kiệm Accuracy (%) Recall (%) 99.74% 99.77% 105 26% 99.98% 99.97% 25 63% 99.95% 99.98% 83% 99.93% 83.79% 82% 99.91% 99.40% 60% Với kết đạt được, ta xây dựng phân lớp lai đa tầng mô tả Hình dựa mơ hình phân đa lớp truyền thống One-Versus-Rest [11], với tập thuộc tính lựa chọn tối ưu trước phân lớp tầng Theo đó, liệu truy cập mạng đưa vào tầng 1, thuộc tính phù hợp chọn lựa phân lớp bình thường công, truy cập công, hệ thống cảnh báo cho người quản trị, đồng thời liệu chuyển sang tầng 2, thuộc tính phù hợp lại chọn lựa phân lớp để xác định có phải kiểu cơng DoS hay khơng? Nếu không, liệu chuyển sang tầng kế tiếp, thuộc tính phù hợp lại chọn lựa phân lớp để xác định xác kiểu công cụ thể, trường hợp không xác định được, kiểu cơng chưa biết đến Kết thí nghiệm, độ xác dự báo tổng thể phân lớp lai đa tầng có rút gọn thuộc tính đạt 99.74% phân lớp truy cập bình thường 99.77% phân lớp kiểu công, tốt so với việc không rút gọn thuộc tính có tỷ lệ tương ứng 99.71% 99.57% Hơn nữa, thời gian huấn luyện kiểm tra, phân lớp lai đa tầng có rút gọn thuộc tính giảm xấp xỉ 34% so với trường hợp khơng rút gọn thuộc tính Hình Kiến trúc phân lớp lai đa tầng với tập thuộc tính lựa chọn tối ưu V KẾT LUẬN Từ kết thí nghiệm, ta nhận thấy: tính chất đặc thù liệu kiểu công phương pháp máy học, phương pháp rút gọn thuộc tính sử dụng độ lợi thơng tin kết hợp với thuật tốn rút gọn thuộc tính phù hợp cho tập thuộc tính tối ưu phù hợp Qua đó, cải thiện độ xác dự báo tổng thể phân lớp lai đa tầng giảm thời gian huấn luyện kiểm tra tồn hệ thống, điều đồng nghĩa với việc giảm chi phí tính tốn IDS, phù hợp với thực tế khối lượng tốc độ liệu mạng ngày lớn Đồng thời, kết thí nghiệm đặt vấn đề cần tiếp tục nghiên cứu, đặc biệt nội dung: (1) Việc nghiên cứu sử dụng độ đo thơng tin khác như: tỷ suất lợi ích (Gain Ratio), thuộc tính tương quan (Correlation Attribute), để rút gọn thuộc tính, đem lại hiệu cao phát triển IDS (2) Năng lực xử lý liệu tính tốn hệ thống máy đóng vai trò quan trọng việc khai thác thuật toán phương pháp máy học Từ nâng cao hiệu xử lý, tiếp cận theo hướng trí tuệ nhân tạo TÀI LIỆU THAM KHẢO Al-Jarrah O Y., Siddiqui A., et al - Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion Detection In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, 177-181 Calix R A., Sankaran R - Feature Ranking and Support Vector Machines Classification Analysis of the NSLKDD Intrusion Detection Corpus Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 2013, 292-295 Moradi Koupaie H., Ibrahim S., Hosseinkhani J - Outlier detection in stream data by machine learning and feature selection methods International Journal of Advanced Computer Science and Information Technology (IJACSIT), 2014, 17-24 Patel S., Sondhi J - A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature Optimization Technique International Journal of Computer Applications, 2014, 93(14) 43-47 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 7(7) 799-813 Tavallaee, Mahbod; Bagheri, Ebrahim; Lu, Wei; Ghorbani, Ali A - A detailed analysis of the KDD CUP 99 data set 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, 2009, pp.1-6 Gaidhane R., Vaidya C., Raghuwanshi M - Survey: Learning Techniques for Intrusion Detection System (IDS), International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28 Marina Sokolova, Guy Lapalme - A systematic analysis of performance measures for classification tasks Information Processing and Management 45, 2009, 427-437 Li W., Liu Z - A method of SVM with Normalization in Intrusion Detection Procedia Environmental Sciences 11, 2011, Part A(0) 256-262 10 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 2013, 7(7) 799-813 11 Neha Mehra, Surendra Gupta - Survey on multiclass classification methods International Journal of Computer Science and Information Technologies, Vol (4), 2013, 572-576 FEATURE SELECTION BASED ON INFORMATION GAIN TO IMPROVE PERFORMANCE OF NETWORK INTRUSION DETECTION SYSTEMS Hoang Ngoc Thanh, Tran Van Lang ABSTRACT: The main function o f the Intrusion Detection System (IDS) is to protect the system, analyze and predict the network access behavior o f users These behaviors are considered to be normal or an attack Machine learning methods are used in IDS because o f the ability to learn from past patterns in order to identify new patterns o f attack These methods are effective but have relatively high computational costs Moreover, as the volume and velocity o f network data grows rapidly, such computing cost issues must be resolved This article refers to using Information Gain to reduce features o f the dataset to be analyzed Thanks to that, it helps to build IDS at a lower computational cost but with higher performance The test results on the NSL-KDD99 data set use a 5-fold cross-validation assay: with a set o f optimization attributes that match the layering as well as the machine learning method, the accuracy o f the IDS has been improved with less computational time ... nhận thấy: tính chất đặc thù liệu kiểu công phương pháp máy học, phương pháp rút gọn thuộc tính sử dụng độ lợi thơng tin kết hợp với thuật tốn rút gọn thuộc tính phù hợp cho tập thuộc tính tối... phân lớp hệ thống, thuộc tính có độ lợi thơng tin lớn chọn để bổ sung trước Thuật toán thứ hai, xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộc tính chọn để loại bỏ việc loại bỏ thuộc tính giúp... phân lớp đánh giá hiệu thuật toán Sau đó, tùy kiểu phân lớp Normal, DoS, Probe, U2R R2L, ta tiến hành tính tốn độ lợi thơng tin thuộc tính Kết tính tốn xếp độ lợi thông tin thuộc tính phân lớp Normal

Ngày đăng: 29/08/2018, 13:05