Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thôngtin (FAIR), Đà Năng, ngày 17-18/08/2017 DOi: 10.15625/vap 2017.00097 _ RÚTGỌNTHUỘCTÍNHSỬDỤNGĐỘLỢITHƠNGTINĐẾTĂNGCƯỜNGHIỆUNĂNGCỦACÁCHỆTHỐNGPHÁTHIỆNXÂMNHẬPMẠNG Hoàng Ngọc Thanh1, 3, Trần Văn Lăng2, * 'Trường Đại học Lạc Hồng 2Viện Cơ học Tin học ứng dụng, VAST 3Khoa Công nghệ thông tin, Trường Đại học Bà Rịa - Vũng Tàu thanhhn@bvu.edu.vn, langtv@vast.vn TOM TĂT: Chức hệthốngphátxâmnhậpmạng (Intrusion Detection System: IDS) để bảo vệ hệ thống, phân tích dự báo hành vi truy cập mạng người sửdụng Những hành vi xem xét bình thường công Các phương pháp máy học sửdụng IDS nhờ khả học hỏi từ mâu liệu khứ để nhận mâu công Các phương pháp hiệu lại có chi phí tính tốn tương đối cao Trong đó, khối lượng tốc độ liệu mạngphát triển ngày nhanh, vấn đề chi phí máy tính cần phải giải Bài viết đề cập đến việc sửdụngđộlợithơngtinđểrútgọnthuộctính tập liệu cần phân tích Nhờ đó, giúp xây dựng IDS với chi phí thấp hiệu cao Kết thử nghiệm tập liệu NSL-KDD99 sửdụng đánh giá chéo 5-fold minh chứng: với tập thuộctính tối ưu phù hợp với kiểu phân lớp phương pháp máy học, độ xác phân lớp IDS cải thiện với thời gian tính tốn Từ khóa: Máy học, Độlợithơng tin, An ninh mạng, Rútgọnthuộctính I GIỚI THIỆU Do tiến công nghệ gần đây, dịch vụ dựa mạng ngày đóng vai trò quan trọng xã hội đại Kẻ xâmnhập khơng ngừng tìm kiếm lỗ hổng hệthống máy tínhđể truy cập trái phép vào nhân hệthống Tuy nhiên, IDS chưa đủ linh hoạt, khả mở rộng không cao, không đủ mạnh để đối phó với cơng Trước đây, phương pháp dựa luật chiếm ưu Những phương pháp tìm xâmnhập cách so sánh đặc tính liệu cần phân tích với dấu hiệu cơng biết Khi lưu lượng mạngphát triển nhanh chóng, việc cập nhật dấu hiệu công ngày trở nên khó khăn, tẻ nhạt tốn nhiều thời gian Kể từ đó, phương pháp máy học giới thiệu để giải vấn đềphátxâmnhập Máy học đề cập đến thuật toán máy tính có khả học hỏi từ mẫu liệu khứ để nhận mẫu công Dựa máy học, IDS hoạt động tốt nhiều báo cáo thực tế triển khai Tuy nhiên, tài sản "khơng có mơ hình" phương pháp gây chi phí tính tốn tương đối cao Hơn nữa, khối lượng tốc độ liệu mạngphát triển ngày nhanh, vấn đề chi phí máy tính cần phải giải [1] Một giải pháp quan trọng nhằm giảm chi phí tính tốn rútgọn số thuộctính liệu cần phân tích Có nhiều tiếp cận khác vấn đề học giả trình bày [2, 3, 4] Tuy nhiên, thuộctính lựa chọn tối ưu không phụ thuộc vào kiểu phân lớp mà phụ thuộc vào phương pháp máy học, đến chưa có nghiên cứu đánh giá đầy đủ thuộctính phù hợp ứng với kiểu phân lớp, phương pháp máy học sửdụng IDS Nội dung báo đề xuất sửdụngđộlợithôngtin (Information Gain) để xếp hạng độ quan trọng thuộctính tập liệu cần phân tích Sau đó, sửdụng hai thuật toán Backward Elimination Ranking (BER) Forward Selection Ranking (FSR) để loại bỏ thuộctính khơng cần thiết Từ đó, tìm tập thuộctính tối ưu ứng với kiểu phân lớp phương pháp máy học Việc rútgọn số thuộctính liệu giúp cải thiện hiệu IDS dựa máy học, cụ thể giảm thời gian huấn luyện kiểm tra, đồng thời tăngđộ xác phân lớp II TẬP DỮ LIỆU Trước phân lớp đưa vào sửdụngđểphátxâmnhập mạng, phân lớp phải trải qua trình huấn luyện kiểm tra, việc huấn luyện kiểm tra thực tập liệu gán nhãn trước Theo thống kê [5], tập liệu sửdụng phổ biến thí nghiệm KDD99, tạo cách xử lý phần liệu TCPDUMP lấy tuần từ hệthốngphátxâmnhập DARPA 1998 KDD99 gồm tập liệu huấn luyện kiểm tra Tập liệu huấn luyện có 4.898.431 ghi, ghi có 41 thuộctính (loại giao thức, dịch vụ cờ) dán nhãn bình thường cơng cách xác với kiểu cơng cụ thể [6] Số thứ tự tên thuộctính mô tả chi tiết Bảng Bảng Thơngtin chi tiết 41 thuộctính tập liệu huấn luyện kiểm tra KDD99 10 duration protocol type service flag src bytes dst bytes land wrong fragment urgent hot 11 12 13 14 15 16 17 18 19 20 num failed logins logged in num compromised root shell su attempted num root num file creations num shells num access files num outbound cmds 21 22 23 24 25 26 27 28 29 30 is host login is guest login count srv count serror rate srv serror rate rerror rate srv rerror rate same srv rate diff srv rate 31 32 33 34 35 36 37 38 39 40 41 srv dst dst dst dst dst dst dst dst dst dst diff host rate host count host srv count host same srv rate host diff srv rate host same src port rate host srv diff host rate host serror rate host srv serror rate host rerror rate host srv rerror rate Tập liệu huấn luyện chứa 22 kiểu công thêm 17 kiểu tập liệu kiểm tra, phân thành nhóm: (1) Denial of Service (DoS), gồm kiểu công như: neptune, smurf, pod, teardrop, Ở đó, kẻ cơng làm cho tài ngun tính tốn nhớ q tải để xử lý yêu cầu hợp lệ, từ chối người dùng hợp lệ truy cập máy (2) Remote to Local (R2L), gồm kiểu công như: guess-passwd, ftp-write, imap, phf, Ở đó, kẻ cơng khơng có tài khoản có khả gửi gói tin đến máy qua mạng, khai thác số lỗ hổng để đạt quyền truy cập cục người sửdụng máy (3) User to Root (U2R), gồm kiểu cơng như: buffer-overflow, load-module, perl, rootkit, Ở đó, kẻ cơng bắt đầu với quyền truy cập bình thường sau khai thác số lỗ hổng để đạt quyền truy cập r oot hệthống (4) Probe, gồm kiểu công như: port-sweep, ip-sweep, nmap, Ở đó, kẻ cơng nỗ lực thu thập thơngtinmạng máy tính nhằm phá vỡ khả kiểm sốt an ninh Năm 2009, Tavallaee đồng nghiệp [6] tiến hành phân tích thống kê liệu KDD99 Các tác giả tìm thấy số lượng lớn ghi dư thừa, 78% tập liệu huấn luyện 75% tập liệu kiểm tra Số lượng ghi trùng lặp ngăn chặn thuật tốn máy học với ghi khơng xuất thường xuyên công U2R Các tác giả lưu ý ghi trùng lặp tập liệu KDD99 làm cho kết đánh giá bị sai lệch, thuật toán phát tốt với ghi xuất thường xuyên Tavallaee đồng nghiệp [6] tạo liệu NSL-KDD từ tập liệu KDD99 để giải vấn đềđề cập trên, cách loại bỏ ghi dư thừa Tập liệu huấn luyện NSL-KDD gồm 125.973 ghi tập liệu kiểm tra gồm 22.544 ghi, nhiều so với tập liệu KDD99 Các tác giả cho kích thước tập liệu NSL-KDD hợp lý, sửdụng tập liệu hồn chỉnh mà khơng cần phải lấy mẫu ngẫu nhiên Điều cho phép xem xét cách quán so sánh cơng trình nghiên cứu khác Thơngtin chi tiết kiểu công tập liệu NSL-KDD mô tả Bảng Bảng Thôngtin chi tiết tập liệu huấn luyện NSL-KDD Phân lớp công Normal Probe DoS U2R R2L Tổng cộng Tên công Số ghi 67.343 ipsweep, mscan, nmap, portsweep, saint, satan 11.656 apache2, back, land, mailbomb, neptune, pod, processtable, smurf, 45.927 teardrop, udpstorm buffer_overflow, httptunnel, loadmodule, perl, ps, rootkit, 52 sqlattack, xterm ftp_write, guess_passwd, imap, multihop, named, phf, sendmail, 995 snmpgetattack, snmpguess, spy, warezclient, warezmaster, worm, xlock, xsnoop 125.973 Tỷ lệ % 53,45% 9,26% 36,46% 0,04% 0,79% 100% III GIẢI PHÁP Để tìm tập thuộctính tối ưu phù hợp với kiểu phân lớp phương pháp máy học Trước tiên, tùy kiểu phân lớp, thuộctính thứ tự (giảm dần) dựa vào độlợithơngtin Sau đó, thuật tốn lựa chọn thuộctính áp dụngđể lựa chọn thuộctính tối ưu phù hợp ứng với phương pháp máy học Phần tiếp sau trình bày sơ lược độlợithơng tin, mơ hình máy học, tiêu chí đánh giá, thuật tốn lựa chọn thuộctínhsửdụng thực nghiệm A Độlợithôngtin Là độđothôngtinđề xuất sửdụngđể xếp hạng độ quan trọng thuộctính tập liệu cần phân tích Giả thiết: S: Tập liệu huấn luyện S Lớp tập lớp C (i=1, ,m) a Giá trị thuộc tínhA (j=1, ,v) Chỉ số thôngtin (Information) cho phân lớp: K S i S „ S J - - I S , > g (ệ ) Giả sửthuộctính A chọn để huấn luyện, A - { S ’1 S ’2, , S ’v} Khi số thôngtin mong muốn (Entropy) cho phân lớp A tính theo cơng thức: “ (A - ĩ ĩ - ^ '^ i ậ Trong S ’j trường hợp phân lớp S ’ Độlợithơngtin (Information Gain) có thuộctính A tính sau: Gain(A) - I(S1 S2, , Sm) - Ent(A) B Các mô hình máy học Phần trình bày tóm tắt số mơ hình máy học [7] sửdụng thực nghiệm để tìm tập thuộctính tối thiểu phù hợp ứng với kiểu phân lớp: (1) K láng giềng gần (k-NN): phương pháp truyền thống phi tham số đơn giản để phân lớp liệu Nó tính khoảng cách xấp xỉ điểm khác dựa liệu đầu vào sau định điểm không dán nhãn vào lớp k láng giềng gần Trong q trình phân lớp, k tham số quan trọng giá trị khác k tạo kết khác Nếu k lớn đáng kể, láng giềng sửdụngđể dự đoán làm cho thời gian phân lớp lớn ảnh hưởng đến tính xác dự báo (2) Máy vectơ hỗ trợ (SVM): Là giải thuật máy học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán SVM toán phân lớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng (3) Mạng nơron nhân tạo (ANN): Là mơ hình xử lý thơngtin mơ hoạt động hệthống thần kinh sinh vật (Haykin, 1999), bao gồm số lượng lớn nơ ron gắn kết để xử lý thôngtinMạng nơron nhiều lớp (MLP) cấu trúc mạng nơron sửdụng rộng rãi toán phân lớp MLP gồm lớp đầu tập hợp nút đầu vào; nhiều lớp ẩn nút tính tốn lớp đầu nút tính tốn Mỗi kết nối nơron gắn với trọng số điều chỉnh suốt trình huấn luyện Ngồi thuật tốn lan truyền ngược sửdụngđể đào tạo MLP (4) Cây định (DT): Với ưu điểm mình, DT đánh giá công cụ mạnh, phổ biến đặc biệt thích hợp cho khai khống liệu nói chung phân lớp liệu nói riêng Ngồi ưu điểm như: xây dựng tương đối nhanh, đơn giản Việc phân lớp dựa DT đạt tương tự, đơi xác so với phương pháp phân lớp khác C Tiêu chí đánh giá Nếu FP số mẫu bị phân lớp sai dương tính; TP số mẫu phân lớp dương tính; FN số mẫu bị phân lớp sai âm tính; TN số mẫu phân lớp âm tính Việc đánh giá hiệu IDS thực qua việc đo so sánh số [8]: - Accuracy - (TP + TN) / (TP + FP + TN + FN); - Sensitivity - Recall - TPR - TP / (TP + FN); - Specificity - TNR - TN / (TN + FP); - Efficiency - (Sensitivity + Specificity) / 2; - Độ xác cảnh báo: Precise - P - TP / (TP + FP); - Thời gian huấn luyện kiểm tra Có nhiều kỹ thuật đánh giá độ xác dự báo như: đánh giá chéo K-fold, Holdout, Re-substitution Leaveone-out [9] Trong đó, đánh giá chéo K-fold xem hiệu quả, phù hợp với IDS Theo đó, ghi phân ngẫu nhiên thành k tập con; tập định tập liệu kiểm tra tập lại xử lý tập liệu huấn luyện Sau đó, q trình đánh giá chéo lặp lại k lần, độ xác phân lớp kiểm tra thơng qua độ xác phân lớp trung bình từ k lần đánh giá Đánh giá chéo K-fold đặc biệt phù hợp với nguồn liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực D Thuật toán chọn lựa thuộctính Có hai thuật tốn lựa chọn thuộctínhđề xuất thực Thuật toán đầu tiên, xuất phát từ tập thuộctính rỗng, sau thuộctính chọn để bổ sung việc bổ sung thuộctính giúp cải thiện độ xác phân lớp hệ thống, thuộctính có độlợithơngtin lớn chọn để bổ sung trước Thuật toán thứ hai, xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộctính chọn để loại bỏ việc loại bỏ thuộctính giúp cải thiện độ xác phân lớp hệ thống, thuộctính có độlợithơngtin nhỏ chọn để loại bỏ trước Lưu đồ giải thuật thuật tốn trình bày sau: (1) Thuật toán Forward Selection Ranking (FSR): c Bắt đầu S2= Thuộctính S Tínhđộ xác phân lớp S2 n Tínhđộ xác phân lớp S3= S2thêm thuộctính thứ i S No Hoàn thành thực tất thuộctính S Hình Thuật tốn lựa chọn thuộctính FSR (2) Thuật tốn Backward Elimination Ranking (BER): No Hoàn thành thực tất thuộctính S Hình Thuật tốn Backward Elimination Ra IV KẾT QUẢ THÍ NGHIỆM Các chương trình, thuật tốn thí nghiệm sửdụng ngơn ngữ lập trình C#, dựa thư viện, khung làm việc máy học Accord.NET (http://accord-framework.net) sở liệu SQL Server 2014 Thôngtin chi tiết tập liệu dùng thí nghiệm, số mẫu tin cụ thể ứng với kiểu công tập liệu thống kê Bảng Bảng Thôngtin chi tiết tập liệu sửdụng thí nghiệm TT Tên tập liệu NSL-KDD Probe-U2R-R2L Số mẫu tin ứng với kiểu công U2R R2L Normal DoS Probe 67.343 45.927 11.656 52 995 0 41.102 52 1.126 Tổng số mẫu tin 125.973 42.280 Trong đó, tập liệu NSL-KDD sửdụng cho phân lớp Normal DoS, tập liệu Probe-U2R-R2L gồm tất mẫu tin kiểu công Probe, U2R R2L rút trích từ tập liệu KDD99, sửdụng cho phân lớp lại: Probe, U2R R2L Đó tỷ lệ mẫu tin kiểu công Probe, U2R R2L tập liệu NSL-KDD ít, khơng đảm bảo độ xác phân lớp đánh giá hiệu thuật tốn Sau đó, tùy kiểu phân lớp Normal, DoS, Probe, U2R R2L, ta tiến hành tính tốn độlợithơngtinthuộctính Kết tính tốn xếp độlợithơngtinthuộctính phân lớp Normal trình bày Hình Tương tự cho phân lớp DoS, Probe, U2R R2L trình bày Hình 4, Hình 5, Hình Hình Hình Độlợithơngtinthuộctính phân lớp Normal 30 29 38233539252634 33123732362431 40274110 13222816191714111518 2021 Hình Độlợithơngtinthuộctính phân lớp DoS 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 rim IIIIIIIII 123710 353433224032 41 27292330392824253136113826141713161918 15 20 21 Hình Độlợithơngtinthuộctính phân lớp Probe III,- 141317121041163527 334032231828 3438242931302526393722 15 3619201121 Hình Độlợithơngtinthuộctính phân lớp U2R Hình Độlợithơngtinthuộctính phân lớp R2L Sau đó, hai thuật tốn lựa chọn thuộctính BER FSR áp dụngđể lựa chọn thuộctính tối ưu phù hợp ứng với phương pháp máy học Kết độ xác (Accuracy) độ nhạy (Recall) phân lớp sửdụng đánh giá chéo 5-fold tốt với kiểu phân lớp, thuật tốn lựa chọn thuộc tính, mơ hình máy học trình bày Bảng 4, Bảng 5, Bảng Bảng Theo đó, cột BER thể độ xác (hoặc độ nhạy) phân lớp dùng thuật toán BER, cột FSR thể độ xác (hoặc độ nhạy) phân lớp dùng thuật toán FSR cột FULL thể độ xác (hoặc độ nhạy) phân lớp khơng rútgọnthuộctính Ở đây, đánh giá chéo k-fold với k=5 chọn, k lớn, tập huấn luyện lớn nhiều so với tập kiểm tra, kết đánh giá không phản ánh chất phương pháp máy học, đặc biệt với tập liệu lớn Đó lý đánh giá chéo 5-fold nhiều học giả lựa chọn [10] Bảng Độ xác phân lớp (Accuracy) với kiểu phân lớp Normal DoS TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Normal BER FULL FSR 92.21% 93.31% 89.56% 94.63% 93.62% 94.11% 99.74% 99.63% 99.71% 99.30% 98.96% 99.11% 95.52% 94.95% 95.31% 95.66% 94.78% 95.47% 99.64% 99.68% 99.61% Phân lớp DoS BER FULL FSR 97.83% 96.85% 82.92% 97.55% 96.81% 97.48% 99.98% 99.97% 99.97% 99.90% 99.73% 99.85% 97.97% 97.40% 97.95% 98.68% 98.28% 98.36% 99.91% 99.94% 99.88% Bảng Độ nhạy phân lớp (Recall) với kiểu phân lớp Normal DoS TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Normal BER FULL FSR 92.59% 95.75% 88.41% 95.95% 95.50% 95.90% 99.77% 99.66% 99.73% 99.35% 98.99% 99.18% 96.71% 95.94% 96.41% 96.28% 95.89% 96.41% 99.66% 99.76% 99.66% Phân lớp DoS BER FULL FSR 95.70% 94.77% 97.89% 94.94% 93.62% 94.69% 99.97% 99.96% 99.97% 99.83% 99.56% 99.71% 95.82% 95.50% 95.77% 97.31% 96.85% 96.91% 99.91% 99.94% 99.86% Bảng Độ xác phân lớp (Accuracy) với kiểu phân lớp Probe, U2R R2L TT Bộ phân lớp Naive Bayes SVM Cây định (C4.5) Mạng nơron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Phân lớp Probe BER FSR FULL 99.58% 99.50% 99.56% 99.30% 99.06% 99.14% 99.95% 99.90% 99.86% 99.91% 99.87% 99.84% 99.30% 99.17% 99.27% 99.61% 99.17% 99.54% 99.92% 99.89% 99.90% Phân lớp U2R BER FSR FULL 98.64% 89.69% 88.37% 99.75% 99.75% 99.74% 99.87% 99.92% 99.87% 99.86% 99.85% 99.84% 99.81% 99.79% 99.80% 99.81% 99.81% 99.80% 99.87% 99.93% 99.85% Phân lớp R2L BER FSR FULL 99.49% 99.35% 99.36% 99.05% 98.81% 98.96% 99.91% 99.87% 99.83% 99.86% 99.83% 99.76% 99.22% 99.02% 99.17% 99.52% 99.19% 99.52% 99.87% 99.85% 99.81% Bảng Độ nhạy phân lớp (Recall) với kiểu phân lớp Probe, U2R R2L Phân lớp U2R Phân lớp R2L BER FSR FULL BER FSR FULL 59.52% 93.38% 82.98% 98.01% 96.19% 96.54% Naive Bayes SVM 37.50% 40.31% 30.22% 91.42% 91.23% 90.65% Cây định (C4.5) 76.26% 82.94% 78.19% 99.40% 99.11% 98.69% Mạng nơron 64.47% 56.74% 60.19% 99.20% 99.43% 98.09% 48.10% 49.20% 51.91% 96.22% 95.80% 96.04% Hồi quy logistic 47.86% 47.66% 50.24% 96.29% 95.90% 96.14% Hồi quy logistic đa thức K láng giềng gần 66.79% 83.79% 67.34% 99.00% 98.69% 98.52% Cácđộ xác (hoặc độ nhạy) phân lớp tơ đậm kết tốt tương ứng với kiểu phân lớp Từ giúp ta xác định phương pháp máy học, thuộctính lựa chọn đểđộ xác phân lớp tương ứng với kiểu phân lớp tốt nhất, Bảng trình bày chi tiết kết đạt Theo đó, cột Thời gian huấn luyện thể thời gian huấn luyện phân lớp rútgọnthuộctính cột Thời gian tiết kiệm thể % thời gian tiết kiệm so với trường hợp huấn luyện phân lớp khơng rútgọnthuộctính Với thuật tốn K láng giềng gần chúng tơi chọn sửdụng k=5, kết chọn sau số thí nghiệm với giá trị khác k Ở Bảng 7, dễ dàng nhận thấy phân lớp U2R R2L, độ nhạy phương pháp máy học dựa K láng giềng gần định thấp so với Naive Bayes Mạng nơron, chọn số mẫu tin bị phân lớp sai dương tính phương pháp máy học Naive Bayes Mạng nơron cao TT Bộ phân lớp Phân lớp Probe BER FSR FULL 99.84% 99.75% 99.84% 99.79% 99.67% 99.72% 99.98% 99.96% 99.94% 99.95% 99.97% 99.93% 99.54% 99.39% 99.52% 99.83% 99.39% 99.80% 99.94% 99.97% 99.95% Bảng Cácthuộctính phương pháp máy học lựa chọn phù hợp với kiểu phân lớp Kiếu phân Phương pháp máy học lớp Normal DoS Probe U2R R2L Cácthuộctính lựa chọn 11, 15, 17, 22, 19, 16, 13, 8, 1, 28, 40 2, 41, 24, 36, 32, 37, 23, Cây định 39, 12, 38, 34, 33, 30, 4, 6, 3, (C4.5) 13, 8, 41, 40, 2, 31, 32, 25, 39, 35, 38, 3,29, 4, 30, 36, 25, 23, 2, 1, 35, 6, 12, 3, K láng giềng 6, 5, 3, 14, 12, 41, 4, 28, 38, 11 gần (k=5) Cây định 13, 19, 11, 36, 39, 23, 41, 32, 22, 6, 35, 10, 37, 12, 3, ( c 4.5) Thời gian huấn Thời gian luyện (giây) tiết kiệm Accuracy (%) Recall (%) 99.74% 99.77% 105 26% 99.98% 99.97% 25 63% 99.95% 99.98% 83% 99.93% 83.79% 82% 99.91% 99.40% 60% Với kết đạt được, ta xây dựng phân lớp lai đa tầng mô tả Hình dựa mơ hình phân đa lớp truyền thống One-Versus-Rest [11], với tập thuộctính lựa chọn tối ưu trước phân lớp tầng Theo đó, liệu truy cập mạng đưa vào tầng 1, thuộctính phù hợp chọn lựa phân lớp bình thường công, truy cập công, hệthống cảnh báo cho người quản trị, đồng thời liệu chuyển sang tầng 2, thuộctính phù hợp lại chọn lựa phân lớp để xác định có phải kiểu cơng DoS hay khơng? Nếu không, liệu chuyển sang tầng kế tiếp, thuộctính phù hợp lại chọn lựa phân lớp để xác định xác kiểu công cụ thể, trường hợp không xác định được, kiểu cơng chưa biết đến Kết thí nghiệm, độ xác dự báo tổng thể phân lớp lai đa tầng có rútgọnthuộctính đạt 99.74% phân lớp truy cập bình thường 99.77% phân lớp kiểu công, tốt so với việc không rútgọnthuộctính có tỷ lệ tương ứng 99.71% 99.57% Hơn nữa, thời gian huấn luyện kiểm tra, phân lớp lai đa tầng có rútgọnthuộctính giảm xấp xỉ 34% so với trường hợp khơng rútgọnthuộctính Hình Kiến trúc phân lớp lai đa tầng với tập thuộctính lựa chọn tối ưu V KẾT LUẬN Từ kết thí nghiệm, ta nhận thấy: tính chất đặc thù liệu kiểu công phương pháp máy học, phương pháp rútgọnthuộctínhsửdụngđộlợithơngtin kết hợp với thuật tốn rútgọnthuộctính phù hợp cho tập thuộctính tối ưu phù hợp Qua đó, cải thiện độ xác dự báo tổng thể phân lớp lai đa tầng giảm thời gian huấn luyện kiểm tra tồn hệ thống, điều đồng nghĩa với việc giảm chi phí tính tốn IDS, phù hợp với thực tế khối lượng tốc độ liệu mạng ngày lớn Đồng thời, kết thí nghiệm đặt vấn đề cần tiếp tục nghiên cứu, đặc biệt nội dung: (1) Việc nghiên cứu sửdụngđộđothơngtin khác như: tỷ suất lợi ích (Gain Ratio), thuộctính tương quan (Correlation Attribute), đểrútgọnthuộc tính, đem lại hiệu cao phát triển IDS (2) Năng lực xử lý liệu tính tốn hệthống máy đóng vai trò quan trọng việc khai thác thuật toán phương pháp máy học Từ nâng cao hiệu xử lý, tiếp cận theo hướng trí tuệ nhân tạo TÀI LIỆU THAM KHẢO Al-Jarrah O Y., Siddiqui A., et al - Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion Detection In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, 177-181 Calix R A., Sankaran R - Feature Ranking and Support Vector Machines Classification Analysis of the NSLKDD Intrusion Detection Corpus Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 2013, 292-295 Moradi Koupaie H., Ibrahim S., Hosseinkhani J - Outlier detection in stream data by machine learning and feature selection methods International Journal of Advanced Computer Science and Information Technology (IJACSIT), 2014, 17-24 Patel S., Sondhi J - A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature Optimization Technique International Journal of Computer Applications, 2014, 93(14) 43-47 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 7(7) 799-813 Tavallaee, Mahbod; Bagheri, Ebrahim; Lu, Wei; Ghorbani, Ali A - A detailed analysis of the KDD CUP 99 data set 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, 2009, pp.1-6 Gaidhane R., Vaidya C., Raghuwanshi M - Survey: Learning Techniques for Intrusion Detection System (IDS), International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28 Marina Sokolova, Guy Lapalme - A systematic analysis of performance measures for classification tasks Information Processing and Management 45, 2009, 427-437 Li W., Liu Z - A method of SVM with Normalization in Intrusion Detection Procedia Environmental Sciences 11, 2011, Part A(0) 256-262 10 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 2013, 7(7) 799-813 11 Neha Mehra, Surendra Gupta - Survey on multiclass classification methods International Journal of Computer Science and Information Technologies, Vol (4), 2013, 572-576 FEATURE SELECTION BASED ON INFORMATION GAIN TO IMPROVE PERFORMANCE OF NETWORK INTRUSION DETECTION SYSTEMS Hoang Ngoc Thanh, Tran Van Lang ABSTRACT: The main function o f the Intrusion Detection System (IDS) is to protect the system, analyze and predict the network access behavior o f users These behaviors are considered to be normal or an attack Machine learning methods are used in IDS because o f the ability to learn from past patterns in order to identify new patterns o f attack These methods are effective but have relatively high computational costs Moreover, as the volume and velocity o f network data grows rapidly, such computing cost issues must be resolved This article refers to using Information Gain to reduce features o f the dataset to be analyzed Thanks to that, it helps to build IDS at a lower computational cost but with higher performance The test results on the NSL-KDD99 data set use a 5-fold cross-validation assay: with a set o f optimization attributes that match the layering as well as the machine learning method, the accuracy o f the IDS has been improved with less computational time ... nhận thấy: tính chất đặc thù liệu kiểu công phương pháp máy học, phương pháp rút gọn thuộc tính sử dụng độ lợi thơng tin kết hợp với thuật tốn rút gọn thuộc tính phù hợp cho tập thuộc tính tối... phân lớp hệ thống, thuộc tính có độ lợi thơng tin lớn chọn để bổ sung trước Thuật toán thứ hai, xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộc tính chọn để loại bỏ việc loại bỏ thuộc tính giúp... phân lớp đánh giá hiệu thuật toán Sau đó, tùy kiểu phân lớp Normal, DoS, Probe, U2R R2L, ta tiến hành tính tốn độ lợi thơng tin thuộc tính Kết tính tốn xếp độ lợi thông tin thuộc tính phân lớp Normal