K ỷ yếu Hội nghị Khoa học Quốc gia lần th ứ IX “Nghiên cứu ứng dụng Cơng nghệ thơng tin (FAIR'9) Cần Thơ, ngày 4-5/8/2016 DƠI: 10.15625/vap 2016.00061 _ MỘTTIẾPCẬNMÁYHỌCĐẾPHÂNLỚPCÁCKIỀUTẤNCÔNGTRONGHỆTHỐNGPHÁTHIỆNXÂMNHẬPMẠNG Hoàng Ngọc Thanh1, 3, Trần Văn Lăng2, *, Hoàng Tùng4 'Trường Đại học Lạc Hồng 2Viện Cơ học Tin học ứng dụng, VAST 3Khoa Công nghệ thông tin, Trường Đại học Bà Rịa - Vũng Tàu 4Trung tâm Tin học, Trường Đại học Nguyễn Tất Thành thanhhn@bvu.edu.vn, langtv@vast.vn, htung@ntt.edu.vn TOM TẢT — Chức hệthốngphátxâmnhậpmạng (Intrusion Detection System: IDS) để bảo vệ hệ thống, phân tích dự báo hành vi truy cập mạng người sử dụng Những hành vi xem xét bình thường cơngCác IDS ngồi việc xác định hành vi bình thường cơng dựa máu lưu trữ, có khả họcđể nhận dạng táncông Với kiêutáncông cụ thê DoS, Probe, R2L U2R, tập liệu máu có tính chát đặc thù Bài viết đề cập đến việc tìm kiếm kỹ thuật máyhọc tối ưu phù hợp với kiểucơng dựa thuật tốn máyhọc biết như: định, K láng giềng gần nhất, máy vectơ hỗ trợ (SVM), mạng nơron nhân tạo, Từ đó, xây dựng phânlớp lai đa tầng sở sử dụng kỹ thuật máyhọc tối ưu phù hợp với kiểucơng tầng Kết thí nghiệm tập liệu KDD99 sử dụng đánh giá chéo 5-fold cho thấy, phânlớp lai đa tầng kết hợp kỹ thuật máy học: định, mạng nơron nhân tạo SVM có độ xác dự báo cao nhất: 99.83% phânlớp truy cập bình thường 99.58% phânlớpkiểucông Từ khóa — Máy học, IDS, an ninh mạng I GIỚI THIỆU Trong sống đại, internet yếu tố quan trọng thúc đẩy phát triển tổ chức, doanh nghiệp Tuy nhiên, có nhiều rủi ro sử dụng internet xuất phát từ cơngmạng Vì vậy, hệthốngphátxâmnhập (Intrusion Detection System - IDS) khác thiết kế xây dựng nhằm ngăn chặn công Mục tiêu IDS để cung cấp tường bảo vệ, giúp hệthốngmạng có khả chống lại cơng từ internet Các IDS sử dụng đểphát việc sử dụng loại truyền thơngmạnghệthốngmáy tính độc hại, nhiệm vụ mà tường lửa quy ước thực Việc phátxâmnhập dựa giả thiết hành vi kẻ xâmnhập khác với người sử dụng hợp lệ [1] Hình mơ tả vị trí điển hình IDS hệthốngmạng Ở đó, bít liệu vào internet mạng tổ chức, doanh nghiệp IDS bắt, xử lý phânlớpđể xác định truy cập bình thường cơng; từ có cảnh báo, hành động phù hợp Các IDS chia thành hai loại: IDS dựa dấu hiệu (misuse-based) IDS dựa bất thường (anomalybased) [2] Việc phânlớp vào cách tiếpcậnphátxâmnhập IDS dựa dấu hiệu sử dụng mẫu công biết điểm yếu hệthốngđể xác định xâm nhập, tương tự phần mềm chống virus sử dụng mẫu đểphát virus Yếu điểm kỹ thuật phát mẫu cơng mới, nên cần phải cập nhật liên tục dấu hiệu côngđể nhận dạng công Bức tường lửa Hình Vị trí IDS hệthốngmạng IDS dựa bất thường cố gắng xác định độ lệch so với mẫu sử dụng thông thường thiết lập trước để đánh dấu xâmnhập Vì vậy, IDS dựa bất thường cần quen với mẫu sử dụng thông thường thông qua việc họcCác kỹ thuật máyhọc khác sử dụng rộng rãi để phục vụ cho mục đích Hình mơ tả kiến trúc IDS sử dụng kỹ thuật máyhọc [3] Ở đó, chuỗi bít bắt được, sau qua cơng đoạn tiền xử lý, chọn lựa thuộc tính phânlớpphânlớp (classifier) huấn luyện Việc huấn luyện phânlớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ Bắt liệu qua mạng Tiền xử lý liệu Chọn thuộc tính I Pha huấn luyện Bộ phânlớp Tập liệu huấn luyện Dữ liệu phânlớp Pha kiểm tra Hình Kiến trúc IDS Có nhiều kỹ thuật học khác học giả đề xuất sử dụng xây dựng phânlớp Bài viết đề cập đến việc xây dựng phânlớp lai đa tầng, sở sử dụng phânlớp thành phần tối ưu phù hợp với kiểucông tầng Nội dung viết gồm phần: phần I giới thiệu, phần III trình bày chi tiết kiểucơngmạng Do tính chất đặc thù kiểu công, kỹ thuật máyhọc tối ưu phù hợp trình bày phần II lựa chọn xây dựng phânlớp thành phần theo tiêu chí đánh giá trình bày phần IV Từ đó, kiến trúc phânlớp lai đa tầng đề nghị, kết thí nghiệm trình bày phần V Phần VI tóm tắt kết đạt được, đồng thời đưa tồn cầntiếp tục nghiên cứu thời gian tới II CÁC KỸ THUẬT MÁYHỌC DÙNG TRONG BỘ PHÂNLỚP LAI ĐA TẦNG Phần mơ tả tóm tắt kỹ thuật máyhọc tối ưu phù hợp với kiểu công, lựa chọn xây dựng phânlớp thành phần kiến trúc phânlớp lai đa tầng, đề xuất sử dụng đểphânlớpkiểucông IDS A M áy vectơ h ỗ trợ Máy vectơ hỗ trợ (SVM) giải thuật máyhọc dựa lý thuyết họcthống kê Vapnik (1998) đề xuất Bài toán SVM toán phânlớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng Xét tập liệu mẫu tách rời tuyến tính {(x1,yi), (x2,y 2), , (Xn, y n ) } với Xi R d v y , {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn Tức là, cần tìm siêu phẳng H : y = w x + b = hai siêu phẳng H i , H hỗ trợ song song với H có khoảng cách đến H Với điều kiện khơng có phần tử tập mẫu nằm Hi H2, đó: w.x + b > +1 với y = +1 w.x + b < -1 vớiy = -1, kết hợp ta có y(w.x + b) > Khoảng cách siêu phẳng H H2 đến H là: || w || = + w22 + — + w£ Ta cần tìm siêu phẳng H với lề lớn nhất, tức giải tốn tối ưu tìm ||w || với ràng buộc y(w.x + b) > Từ w,b giải để tìm giá trị tối ưu cho w, b Về sau, việc phân loại mẫu việc kiểm tra hàm dấu sign(w.x + b) Lời giải tìm siêu phẳng tối ưu mở rộng trường hợp liệu khơng thể tách rời tuyến tính cách ánh xạ liệu vào khơng gian có số chiều lớn hơn, qua việc sử dụng hàm nhân (kernel) như: Polynomial, Laplacian, Sigmoid, Gaussian (GRBF), Cho đến có nhiều cải tiến, biến thể SVM với mục đích nâng cao hiệu phânlớp IDS [7, 8, 9, 10, 11, 12, 13, 14] B M ạng nơron nhân tạo Là mơ hình xử lý thông tin mô hoạt động hệthống thần kinh sinh vật, bao gồm số lượng lớn nơron gắn kết để xử lý thông tin ANN giống não người, học kinh nghiệm (qua huấn luyện), có khả lưu giữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đốn liệu chưa biết ANN huấn luyện hay học theo kỹ thuật học có giám sát học khơng giám sát - Học có giám sát: q trình huấn luyện lặp lại kết (output) ANN đạt giá trị mong muốn biết Điển hình cho kỹ thuật mạng nơron lan truyền ngược (back-propagation) - Học không giám sát: khơng sử dụng tri thức bên ngồi q trình học, nên gọi tự tổ chức (Self Organizing) Mạng nơron điển hình huấn luyện theo kiểu khơng giám sát SOM Q trình học có giám sát ANN mơ tả Hình 3, gồm bước: Tính giá trị output Y So sánh Y với giá trị mong muốn Z Nếu chưa đạt giá trị mong muốn (delta = Z - Y lớn) chỉnh trọng số (weights) tính lại output delta = nhỏ đến mức chấp nhận delta = Zj - Yj C Cây định Với ưu điểm mình, DT đánh giá công cụ mạnh, phổ biến đặc biệt thích hợp cho data mining nói chung phânlớp liệu nói riêng [10] Ngồi ưu điểm như: xây dựng tương đối nhanh, đơn giản DT dễ dàng chuyển đổi sang câu lệnh SQL sử dụng để truy nhập sở liệu cách hiệu Cuối cùng, việc phânlớp dựa DT đạt tương tự, xác so với phương pháp phânlớp khác HTTP _ _ _ FTP ^_ _ _ (^B m h thưcmg^) SO V-_ _ _ _ ( ^ ^ Tấn côrụT^ ) _ _ _ ^ _ _ (^B m h thưcmg^) SI _ _ _ N _ _ _ (^^Tấn cơnỹ~^^ Hình Cây định Biểu đồ phát triển hình DT minh họa Hình 4, gồm: - Gốc: node cây; - Node trong: biểu diễn kiểm tra thuộc tính đơn; - Nhánh: biểu diễn kết kiểm tra node trong; - Node lá: biểu diễn lớpĐểphânlớp mẫu liệu chưa biết, giá trị thuộc tính mẫu đưa vào kiểm tra DT Mỗi mẫu tương ứng có đường từ gốc đến biểu diễn dự đoán giá trị phânlớp mẫu III TẬP DỮ LIỆU (DATA SET) Trước phânlớp đưa vào sử dụng đểphátxâmnhập mạng, phânlớp phải trải qua trình huấn luyện kiểm tra, việc huấn luyện kiểm tra thực tập liệu gán nhãn trước Theo thống kê [16], tập liệu sử dụng phổ biến thí nghiệm KDD99, tạo cách xử lý phần liệu TCPDUMP lấy tuần từ hệthốngphátxâmnhập DARPA 1998 KDD99 gồm tập liệu huấn luyện kiểm tra Tập liệu huấn luyện có 4.898.431 vectơ kết nối đơn, vectơ có 41 thuộc tính (loại giao thức, dịch vụ cờ) dán nhãn bình thường cơng cách xác với kiểucông cụ thể [17] Tập liệu huấn luyện chứa 22 kiểucông thêm 17 kiểu tập liệu kiểm tra, phân thành nhóm: (1) Denial of Service (DoS), gồm kiểucông như: Neptune, Smurf, Pod, Teardrop Ở đó, kẻ cơng làm cho tài ngun tính tốn nhớ q tải để xử lý yêu cầu hợp lệ, từ chối người dùng hợp lệ truy cập máy (2) Remote to Local (R2L), gồm kiểucông như: Guess-password, Ftp-write, Imap Phf Ở đó, kẻ cơng khơng có tài khoản có khả gửi gói tin đến máy qua mạng, khai thác số lỗ hổng để đạt quyền truy cập cục người sử dụng máy (3) User to Root (U2R), gồm kiểucơng như: Buffer-overflow, Load-module, Perl Spy Ở đó, kẻ cơng bắt đầu với quyền truy cập bình thường sau khai thác số lỗ hổng để đạt quyền truy cập root hệthống (4) Probe, gồm kiểucông như: Port-sweep, IP-sweep Nmap Ở đó, kẻ cơng nỗ lực thu thập thơng tin mạngmáy tính nhằm phá vỡ khả kiểm sốt an ninh Thơng tin chi tiết kiểucông tập liệu KDD99 mô tả Bảng Bảng Thông tin chi tiết tập liệu huấn luyện kiểm tra KDD99 Tập liệu huấn luyện Kiếucông Tỷ lệ % Số mẫu Normal DoS Probe R2L U2R 972.781 3.883.370 41.102 1.126 52 19,860 79,280 0,840 0,023 0,001 Tập liệu kiếm tra Kiếucông Tỷ lệ % Số mẫu Normal DoS Probe R2L U2R 60.593 229.853 4.166 16.374 70 19,48 73,90 1,34 5,26 0,02 IV CÁC CHỈ SỐ ĐÁNH GIÁ Nếu FP số mẫu bị phânlớp sai dương tính; TP số mẫu phânlớp dương tính; FN số mẫu bị phânlớp sai âm tính; TN số mẫu phânlớp âm tính Việc đánh giá hiệu IDS thực qua việc đo so sánh số: - Accuracy = (TP + TN) / (TP + FP + TN + FN) - Sensitivity = R = TPR = TP / (TP + FN) - Specificity = TNR = TN / (TN + FP) - Efficiency = (Sensitivity + Specificity) / - Độ xác cảnh báo: Precise = P = TP / (TP + FP) - Thời gian huấn luyện kiểm tra Có nhiều kỹ thuật đánh giá độ xác dự báo như: đánh giá chéo K-fold, Holdout, Re-substitution Leave-oneout [11] Trong đó, đánh giá chéo K-fold xem hiệu quả, phù hợp với IDS Theo đó, ghi phân ngẫu nhiên thành k tập con; tập định tập liệu kiểm tra tập lại xử lý tập liệu huấn luyện Sau đó, q trình đánh giá chéo lặp lại k lần, độ xác phânlớp kiểm tra thơng qua độ xác phânlớp trung bình từ k lần đánh giá Đánh giá chéo K-fold đặc biệt phù hợp với nguồn liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực hiện, gây trở ngại thời gian đào tạo lớn V KIẾN TRÚC BỘ PHÂNLỚP LAI ĐA TẦNG VÀ KẾT QUẢ THÍ NGHIỆM Đểphânlớp liệu mạng bắt thành lớp ứng với kiểucông cụ thể Kiến trúc phânlớp lai đa tầng dựa mơ hình phân đa lớp truyền thống One-Versus-Rest (OVR) đề xuất mô tả Hình Theo đó, liệu truy cập mạng đưa vào tầng đểphânlớp bình thường công, truy cập công, hệthống cảnh báo cho người quản trị, đồng thời liệu chuyển sang tầng để xác định có phải kiểucông DoS hay không? không, liệu chuyển sang tầng để xác định xác kiểucơng cụ thể, trường hợp khơng xác định được, kiểucơng chưa biết đến Kiểu công DoS Kiểucông Probe Kiểucông R2L Kiểucông U2R Hình Kiến trúc phânlớp lai đa tầng dựa mơ hình phân đa lớp truyền thống Việc lựa chọn thứ tự phânlớpkiểucông dựa vào xác suất xuất thực tế kiểucông nhằm tối ưu thời gian phân lớp, kiểucơng có xác suất xuất thấp nằm tầng cao thời gian phânlớp lớn Do tính chất đặc thù liệu kiểu công, phân loại sử dụng tầng khác nhau, để xác định xác kỹ thuật máyhọc tối ưu tầng, sử dụng nhiều kỹ thuật máyhọc khác để huấn luyện, kiểm tra so sánh kết dựa số đánh giá Các tập liệu dùng thí nghiệm tạo cách rút trích cách ngẫu nhiên mẫu tin từ tập liệu KDD99, số mẫu tin cụ thể cho kiểucông tập liệu thí nghiệm thống kê Bảng Bảng Thông tin chi tiết tập liệu sử dụng thí nghiệm TT Tập liệu Tập Tập Tập Tập Tập Tập liệu liệu liệu liệu liệu liệu Số mẫu tin ứng với kiểucông Normal DoS Probe R2L U2R 9.623 9.622 9.903 9.743 9.706 38.891 38.937 38.629 38.830 38.856 462 407 437 400 416 41.102 18 13 12 1.126 0 52 Tổng số mẫu tin 48.985 48.985 48.985 48.985 48.985 42.280 Các tập liệu 1-5 sử dụng cho phânlớp Normal DoS Tập liệu 6, gồm tất mẫu tin kiểucông Probe, R2L U2R rút trích từ tập liệu KDD99, sử dụng cho phânlớp lại: Probe, R2L U2R Đó số lượng mẫu tin kiểucông Probe, R2L U2R tập liệu 1-5 ít, khơng đảm bảo độ xác phânlớp đánh giá hiệu thuật tốn Kết quả, độ xác phânlớp (Accuracy) trung bình dựa đánh giá chéo 5-fold chạy tập liệu sử dụng thuật tốn: Nạve Bayes, SVM, mạng nơron, định, hồi quy luận lý (Logistic Regression) k láng giềng gần trình bày Bảng Bảng Độ xác phânlớp trung bình ứng với thuật tốn phânlớp TT Bộ phânlớp Cây định K láng giềng gần Hồi quy luận lý Hồi quy luận lý đa thức Nạve Bayes Mạng nơ ron SVM tuyến tính SVM với nhân dùng GRBF Normal DoS Probe R2L U2R 99,83% 99,79% 99,14% 99,33% 98,36% 99,76% 98,65% 99,63% 99,94% 99,90% 99,39% 99,64% 99,57% 99,90% 99,45% 99,95% 99,81% 99,88% 99,26% 99,53% 99,56% 99,88% 99,18% 99,87% 99,85% 99,78% 99,17% 99,52% 99,36% 99,83% 98,93% 99,77% 99,90% 99,85% 99,81% 99,80% 86,76% 99,82% 99,73% 99,87% Theo đó, số liệu cột Normal thể độ xác phânlớp truy cập bình thường hay công, số liệu cột lại thể độ xác phânlớp với kiểucông cụ thể DoS, Probe, R2L U2R Theo đó, phânlớp sử dụng định đạt độ xác cao tầng 1, 5; phânlớp sử dụng mạng nơron đạt độ xác cao tầng phânlớp sử dụng SVM với nhân dùng GRBF đạt độ xác cao tầng Để thực SVM với nhân dùng GRBF, thuật tốn tìm kiếm lưới sử dụng tập huấn luyện để có tham số tối ưu dùng cho GRBF, tham số sau SVM sử dụng cho việc phânlớp Kiến trúc phânlớp lai đa tầng hình thành từ phânlớp đơn tối ưu phù hợp với kiểucơng tầng trình bày Hình Truy cập bình thường >k Kiểucơng DoS - - t - Du lieu tray cap mang Bộ ph ân lớp * dùng DT Bộ phânlớp > dùng SVM Kiểucông Probe Kiểucông R2L t- _ Bộ phânlớp -> Bộ phânlớp dùng DT dùng ANN Kiểucông U2R >k, Bộ phânlớp dùng DT ■ Tấncông chưa biết BO PHAN L dP LAI BA TANG Hình Kiến trúc phânlớp lai đa tầng Theo kết thí nghiệm, độ xác dự báo tổng thể phânlớp lai đa tầng đạt 99.83% phânlớp truy cập bình thường 99.58% phânlớpkiểu công, tốt so với việc áp dụng kỹ thuật máyhọc đơn IDS [15] VI KẾT LUẬN Từ kết thí nghiệm, ta nhận thấy: tính chất đặc thù liệu kiểu công, kỹ thuật máyhọc tối ưu phù hợp lựa chọn xây dựng phânlớp loại lớp Từ đó, kiến trúc phânlớp lai đa tầng dùng kỹ thuật OVR, sở sử dụng phânlớp loại lớp tối ưu chọn tầng đểphânlớpkiểucông IDS Đồng thời, kết thí nghiệm đặt vấn đềcầntiếp tục nghiên cứu, đặc biệt nội dung: (1) Việc nghiên cứu tìm phânlớp phức tạp so với phânlớp đơn tầng cần xem xét Xuất phát từ ý tưởng kết hợp nhiều phânlớpđể hợp tác thay cạnh tranh việc thực nhiệm vụ, đem lại hiệu cao kết hợp phânlớpđểphát triển IDS (2) Cácphânlớp sở: việc lựa chọn phânlớp đơn phânlớp sở để so sánh đánh giá phânlớp khơng phải lựa chọn tốt, tốt phânlớp lai kết hợp sử dụng để so sánh độ xác dự báo (3) Việc lựa chọn thuộc tính phân cụm liệu có nhiều hướng tiếpcận [7, 18, 19, 20] Tuy nhiên, cần nghiên cứu tìm kiếm thuật tốn lựa chọn thuộc tính phân cụm liệu tối ưu, phù hợp với kỹ thuật máy học, đặc thù liệu kiểucông (4) Năng lực xử lý liệu tính tốn hệthốngmáy đóng vai trò quan trọng việc khai thác thuật toán kỹ thuật máyhọc Từ nâng cao hiệu xử lý, tiếpcận theo hướng trí tuệ nhân tạo TÀI LIỆU THAM KHẢO Devarakonda, N., S Pamidi, et al - Intrusion Detection System using Bayesian Network and Hidden Markov Model Procedia Technology, 2012, 4(0) 506-514 Bhat A H., Patra S., Jena D - Machine learning approach for intrusion detection on cloud virtual machines International Journal of Application or Innovation in Engineering & Management (IJAIEM), 2013, 2(6) 56-66 Gaidhane R., Vaidya C., Raghuwanshi M - Survey: Learning Techniques for Intrusion Detection System (IDS), International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28 Omar S., Ngadi A., Jebur H H - Machine learning techniques for anomaly detection: an overview International Journal of Computer Applications, 2013, 79(2) 33-41 Singh J., Nene M J - A Survey on Machine Learning Techniques for Intrusion Detection Systems International Journal of Advanced Research in Computer and Communication Engineering, 2013, 2(11) 4349-4355 Wagh S K., Pachghare V K., Kolhe S R - Survey on intrusion detection system using machine learning techniques International Journal of Computer Applications, 2013, 78(16) 30-37 Calix R A., Sankaran R - Feature Ranking and Support Vector Machines Classification Analysis of the NSL-KDD Intrusion Detection Corpus Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 2013, 292-295 Reddy R R., Kavya B., Ramadevi Y - A Survey on SVM Classifiers for Intrusion Detection International Journal of Computer Applications, 2014, 98(19) 38-44 Catania C.A., Bromberg F., et al - An autonomous labeling approach to support vector machines algorithms for network traffic anomaly detection Expert Systems with Applications, 2012, 39(2) 1822-1829 10 Guanghui S., Jiankang G., et al - An Intrusion Detection Method Based on Multiple Kernel Support Vector Machine Network Computing and Information Security (NCIS), 2011 International Conference on, IEEE, 2011, 119-123 11 Li W., Liu Z - A method of SVM with Normalization in Intrusion Detection Procedia Environmental Sciences 11, 2011, Part A(0) 256-262 12 Mohammad M.N., Sulaiman N., et al - A novel local network intrusion detection system based on support vector machine Journal of Computer Science, 2011, 7(10) 1560-1564 13 Xiaozhao F., Wei Z,, et al - A Research on Intrusion Detection Based on Support Vector Machines Communications and Intelligence Information Security (ICCIIS), 2010 International Conference on, IEEE, 2010, 109-112 14 Xie Y., Zhang T., - An intelligent anomaly analysis for intrusion detection based on SVM Computer Science and Information Processing (CSIP), 2012 International Conference on, IEEE, 2012, 739-742 15 Altwaijry H., Algarny S - Bayesian based intrusion detection system Journal of King Saud University - Computer and Information Sciences, 2012, 24(1) 1-6 16 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 7(7) 799-813 17 Sanjaya S K S S S., Jena K - A Detail Analysis on Intrusion Detection Datasets In 2014 IEEE International Advance Computing Conference (IACC), 2014, 1348-1353 18 Al-Jarrah O Y., Siddiqui A., et al - Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion Detection In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, 177-181 19 Moradi Koupaie H., Ibrahim S., Hosseinkhani J - Outlier detection in stream data by machine learning and feature selection methods International Journal of Advanced Computer Science and Information Technology (IJACSIT), 2014, 17-24 20 Patel S., Sondhi J - A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature Optimization Technique International Journal of Computer Applications, 2014, 93(14) 43-47 A MACHINE LEARNING APPROACH TO CLASSIFY TYPES OF ATTACKS IN NETWORK INTRUSION DETECTION SYSTEM Hoang Ngoc Thanh, Tran Van Lang, Hoang Tung ABSTRACT — The main function o f Network Intrusion Detection Systems (IDS) is to protect the system, analyze and predict network access behavior o f users This behavior is considered normal or an attack IDS than to identify the behavior is normal or an attack based on the stored data, has the ability to learn to identify new attacks For each specific type o f attack is DoS, Probe, R2L or U2R, dataset have peculiar characteristics This article refers to finding the optimum machine learning techniques fo r each type o f attack is based on known machine learning algorithms as: Decision Tree (DT), K Nearest Neighbor, Support Vector Machine (SVM), Artificial Neural Network (ANN), Since then, built a multi-layer hybrid classifier based on the use o f optimal machine learning techniques, best suited to type o f attack on each layer Results o f experiments on the KDD99 dataset using 5-fold Cross Validation showed that the multi layer hybrid classifier integrated machine learning techniques: DT, ANN and SVM have highest predicted accuracy: 99.83% when the classification o f normal access and 99.58% when the classification o f types o f attacks ... mang Bộ ph ân lớp * dùng DT Bộ phân lớp > dùng SVM Kiểu công Probe Kiểu công R2L t- _ Bộ phân lớp -> Bộ phân lớp dùng DT dùng ANN Kiểu công U2R >k, Bộ phân lớp dùng DT ■ Tấn công chưa biết... cần tiếp tục nghiên cứu thời gian tới II CÁC KỸ THUẬT MÁY HỌC DÙNG TRONG BỘ PHÂN LỚP LAI ĐA TẦNG Phần mơ tả tóm tắt kỹ thuật máy học tối ưu phù hợp với kiểu công, lựa chọn xây dựng phân lớp thành... với phân lớp đơn tầng cần xem xét Xuất phát từ ý tưởng kết hợp nhiều phân lớp để hợp tác thay cạnh tranh việc thực nhiệm vụ, đem lại hiệu cao kết hợp phân lớp để phát triển IDS (2) Các phân lớp