Chức năng chính của hệ thống phát hiện xâm nhập mạng (Intrusion Detection System: IDS) là để bảo vệ hệ thống, phân tích và dự báo hành vi truy cập mạng của người sử dụng. Những hành vi này được xem xét là bình thường hoặc một cuộc tấn công. Các IDS ngoài việc xác định một hành vi là bình thường hoặc một cuộc tấn công dựa trên các mẫu đã lưu trữ, còn có khả năng học để nhận dạng các cuộc tấn công mới. Với mỗi kiểu tấn công cụ thể là DoS, Probe, R2L hoặc U2R, tập dữ liệu mẫu có các tính chất đặc thù. Bài viết này đề cập đến việc tìm kiếm kỹ thuật máy học tối ưu phù hợp với mỗi kiểu tấn công dựa trên các thuật toán máy học đã biết như: cây quyết định, K láng giềng gần nhất, máy vectơ hỗ trợ (SVM), mạng nơron nhân tạo.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00061 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CƠNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG Hồng Ngọc Thanh1, 3, Trần Văn Lăng2, *, Hoàng Tùng4 Trường Đại học Lạc Hồng Viện Cơ học Tin học ứng dụng, VAST Khoa Công nghệ thông tin, Trường Đại học Bà Rịa - Vũng Tàu Trung tâm Tin học, Trường Đại học Nguyễn Tất Thành thanhhn@bvu.edu.vn, langtv@vast.vn, htung@ntt.edu.vn TĨM TẮT — Chức hệ thống phát xâm nhập mạng (Intrusion Detection System: IDS) để bảo vệ hệ thống, phân tích dự báo hành vi truy cập mạng người sử dụng Những hành vi xem xét bình thường cơng Các IDS ngồi việc xác định hành vi bình thường công dựa mẫu lưu trữ, cịn có khả học để nhận dạng công Với kiểu công cụ thể DoS, Probe, R2L U2R, tập liệu mẫu có tính chất đặc thù Bài viết đề cập đến việc tìm kiếm kỹ thuật máy học tối ưu phù hợp với kiểu công dựa thuật toán máy học biết như: định, K láng giềng gần nhất, máy vectơ hỗ trợ (SVM), mạng nơron nhân tạo,… Từ đó, xây dựng phân lớp lai đa tầng sở sử dụng kỹ thuật máy học tối ưu phù hợp với kiểu công tầng Kết thí nghiệm tập liệu KDD99 sử dụng đánh giá chéo 5-fold cho thấy, phân lớp lai đa tầng kết hợp kỹ thuật máy học: định, mạng nơron nhân tạo SVM có độ xác dự báo cao nhất: 99.83% phân lớp truy cập bình thường 99.58% phân lớp kiểu cơng Từ khóa — Máy học, IDS, an ninh mạng I GIỚI THIỆU Trong sống đại, internet yếu tố quan trọng thúc đẩy phát triển tổ chức, doanh nghiệp Tuy nhiên, có nhiều rủi ro sử dụng internet xuất phát từ cơng mạng Vì vậy, hệ thống phát xâm nhập (Intrusion Detection System - IDS) khác thiết kế xây dựng nhằm ngăn chặn công Mục tiêu IDS để cung cấp tường bảo vệ, giúp hệ thống mạng có khả chống lại công từ internet Các IDS sử dụng để phát việc sử dụng loại truyền thông mạng hệ thống máy tính độc hại, nhiệm vụ mà tường lửa quy ước thực Việc phát xâm nhập dựa giả thiết hành vi kẻ xâm nhập khác với người sử dụng hợp lệ [1] Hình mơ tả vị trí điển hình IDS hệ thống mạng Ở đó, bít liệu vào internet mạng tổ chức, doanh nghiệp IDS bắt, xử lý phân lớp để xác định truy cập bình thường cơng; từ có cảnh báo, hành động phù hợp Các IDS chia thành hai loại: IDS dựa dấu hiệu (misuse-based) IDS dựa bất thường (anomaly-based) [2] Việc phân lớp vào cách tiếp cận phát xâm nhập IDS dựa dấu hiệu sử dụng mẫu công biết điểm yếu hệ thống để xác định xâm nhập, tương tự phần mềm chống virus sử dụng mẫu để phát virus Yếu điểm kỹ thuật phát mẫu công mới, nên cần phải cập nhật liên tục dấu hiệu công để nhận dạng công Bức tường lửa IDS Mạng công ty Mạng internet Bộ định tuyến IDS Mạng cơng ty Hình Vị trí IDS hệ thống mạng IDS dựa bất thường cố gắng xác định độ lệch so với mẫu sử dụng thông thường thiết lập trước để đánh dấu xâm nhập Vì vậy, IDS dựa bất thường cần quen với mẫu sử dụng thông thường thông qua việc học Các kỹ thuật máy học khác sử dụng rộng rãi để phục vụ cho mục đích Hình mơ tả kiến trúc IDS sử dụng kỹ thuật máy học [3] Ở đó, chuỗi bít bắt được, sau qua cơng đoạn tiền xử Hoàng Ngọc Thanh, Trần Văn Lăng, Hoàng Tùng 503 lý, chọn lựa thuộc tính phân lớp phân lớp (classifier) huấn luyện Việc huấn luyện phân lớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ Bắt liệu qua mạng Tiền xử lý liệu Chọn thuộc tính Pha huấn luyện Bộ phân lớp Tập liệu huấn luyện Dữ liệu phân lớp Pha kiểm tra Hình Kiến trúc IDS Có nhiều kỹ thuật học khác học giả đề xuất sử dụng xây dựng phân lớp Bài viết đề cập đến việc xây dựng phân lớp lai đa tầng, sở sử dụng phân lớp thành phần tối ưu phù hợp với kiểu công tầng Nội dung viết gồm phần: phần I giới thiệu, phần III trình bày chi tiết kiểu cơng mạng Do tính chất đặc thù kiểu công, kỹ thuật máy học tối ưu phù hợp trình bày phần II lựa chọn xây dựng phân lớp thành phần theo tiêu chí đánh giá trình bày phần IV Từ đó, kiến trúc phân lớp lai đa tầng đề nghị, kết thí nghiệm trình bày phần V Phần VI tóm tắt kết đạt được, đồng thời đưa tồn cần tiếp tục nghiên cứu thời gian tới II CÁC KỸ THUẬT MÁY HỌC DÙNG TRONG BỘ PHÂN LỚP LAI ĐA TẦNG Phần mơ tả tóm tắt kỹ thuật máy học tối ưu phù hợp với kiểu công, lựa chọn xây dựng phân lớp thành phần kiến trúc phân lớp lai đa tầng, đề xuất sử dụng để phân lớp kiểu công IDS A Máy vectơ hỗ trợ Máy vectơ hỗ trợ (SVM) giải thuật máy học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán SVM toán phân lớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng Xét tập liệu mẫu tách rời tuyến tính {(x1, y1), (x2, y2), , (xn, yn)} với xi Rd yi {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn Tức là, cần tìm siêu phẳng H: y = w.x + b = hai siêu phẳng H1, H2 hỗ trợ song song với H có khoảng cách đến H Với điều kiện khơng có phần tử tập mẫu nằm H1 H2, đó: w.x + b ≥ +1 với y = +1 w.x + b ≤ -1 với y = -1, kết hợp ta có y(w.x + b) ≥ Khoảng cách siêu phẳng H1 H2 đến H là: √ Ta cần tìm siêu phẳng H với lề lớn nhất, tức giải tốn tối ưu tìm với ràng buộc y(w.x + b) ≥ Từ giải để tìm giá trị tối ưu cho w, b Về sau, việc phân loại mẫu việc kiểm tra hàm dấu sign(w.x + b) Lời giải tìm siêu phẳng tối ưu mở rộng trường hợp liệu khơng thể tách rời tuyến tính cách ánh xạ liệu vào khơng gian có số chiều lớn hơn, qua việc sử dụng hàm nhân (kernel) như: Polynomial, Laplacian, Sigmoid, Gaussian (GRBF),… Cho đến có nhiều cải tiến, biến thể SVM với mục đích nâng cao hiệu phân lớp IDS [7, 8, 9, 10, 11, 12, 13, 14] B Mạng nơron nhân tạo Là mơ hình xử lý thơng tin mô hoạt động hệ thống thần kinh sinh vật, bao gồm số lượng lớn nơron gắn kết để xử lý thông tin ANN giống não người, học kinh nghiệm (qua huấn luyện), có khả lưu giữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đoán liệu chưa biết MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 504 ANN huấn luyện hay học theo kỹ thuật học có giám sát học khơng giám sát - Học có giám sát: q trình huấn luyện lặp lại kết (output) ANN đạt giá trị mong muốn biết Điển hình cho kỹ thuật mạng nơron lan truyền ngược (back-propagation) - Học không giám sát: không sử dụng tri thức bên ngồi q trình học, nên gọi tự tổ chức (Self Organizing) Mạng nơron điển hình huấn luyện theo kiểu khơng giám sát SOM Q trình học có giám sát ANN mơ tả Hình 3, gồm bước: Tính giá trị output Y So sánh Y với giá trị mong muốn Z Nếu chưa đạt giá trị mong muốn (delta = Z - Y lớn) chỉnh trọng số (weights) tính lại output delta = nhỏ đến mức chấp nhận delta = Zj - Yj x1 w1j x2 w2j xi wij Nơron j = wijxi delta Zj ∫ Yj Hàm chuyển giao Hình Giảm thiểu delta cách chỉnh trọng số C Cây định Với ưu điểm mình, DT đánh giá cơng cụ mạnh, phổ biến đặc biệt thích hợp cho data mining nói chung phân lớp liệu nói riêng [10] Ngồi ưu điểm như: xây dựng tương đối nhanh, đơn giản DT dễ dàng chuyển đổi sang câu lệnh SQL sử dụng để truy nhập sở liệu cách hiệu Cuối cùng, việc phân lớp dựa DT đạt tương tự, đơi xác so với phương pháp phân lớp khác Loại giao thức TCP Loại dịch vụ HTTP Bình thường UDP ICMP Cờ Tấn cơng FTP S0 Tấn cơng Bình thường S1 Tấn cơng Hình Cây định Biểu đồ phát triển hình DT minh họa Hình 4, gồm: - Gốc: node cây; - Node trong: biểu diễn kiểm tra thuộc tính đơn; - Nhánh: biểu diễn kết kiểm tra node trong; - Node lá: biểu diễn lớp Để phân lớp mẫu liệu chưa biết, giá trị thuộc tính mẫu đưa vào kiểm tra DT Mỗi mẫu tương ứng có đường từ gốc đến biểu diễn dự đốn giá trị phân lớp mẫu III TẬP DỮ LIỆU (DATA SET) Trước phân lớp đưa vào sử dụng để phát xâm nhập mạng, phân lớp phải trải qua trình huấn luyện kiểm tra, việc huấn luyện kiểm tra thực tập liệu gán nhãn trước Hoàng Ngọc Thanh, Trần Văn Lăng, Hoàng Tùng 505 Theo thống kê [16], tập liệu sử dụng phổ biến thí nghiệm KDD99, tạo cách xử lý phần liệu TCPDUMP lấy tuần từ hệ thống phát xâm nhập DARPA 1998 KDD99 gồm tập liệu huấn luyện kiểm tra Tập liệu huấn luyện có 4.898.431 vectơ kết nối đơn, vectơ có 41 thuộc tính (loại giao thức, dịch vụ cờ) dán nhãn bình thường cơng cách xác với kiểu cơng cụ thể [17] Tập liệu huấn luyện chứa 22 kiểu công thêm 17 kiểu tập liệu kiểm tra, phân thành nhóm: (1) Denial of Service (DoS), gồm kiểu công như: Neptune, Smurf, Pod, Teardrop Ở đó, kẻ cơng làm cho tài ngun tính tốn nhớ q tải để xử lý yêu cầu hợp lệ, từ chối người dùng hợp lệ truy cập máy (2) Remote to Local (R2L), gồm kiểu công như: Guess-password, Ftp-write, Imap Phf Ở đó, kẻ cơng khơng có tài khoản có khả gửi gói tin đến máy qua mạng, khai thác số lỗ hổng để đạt quyền truy cập cục người sử dụng máy (3) User to Root (U2R), gồm kiểu công như: Buffer-overflow, Load-module, Perl Spy Ở đó, kẻ cơng bắt đầu với quyền truy cập bình thường sau khai thác số lỗ hổng để đạt quyền truy cập root hệ thống (4) Probe, gồm kiểu cơng như: Port-sweep, IP-sweep Nmap Ở đó, kẻ công nỗ lực thu thập thông tin mạng máy tính nhằm phá vỡ khả kiểm sốt an ninh Thơng tin chi tiết kiểu công tập liệu KDD99 mô tả Bảng Bảng Thông tin chi tiết tập liệu huấn luyện kiểm tra KDD99 Tập liệu huấn luyện Kiểu công Số mẫu Tỷ lệ % Normal 972.781 19,860 DoS 3.883.370 79,280 Probe 41.102 0,840 R2L 1.126 0,023 U2R 52 0,001 Tập liệu kiểm tra Kiểu công Số mẫu Tỷ lệ % Normal 60.593 19,48 DoS 229.853 73,90 Probe 4.166 1,34 R2L 16.374 5,26 U2R 70 0,02 IV CÁC CHỈ SỐ ĐÁNH GIÁ Nếu FP số mẫu bị phân lớp sai dương tính; TP số mẫu phân lớp dương tính; FN số mẫu bị phân lớp sai âm tính; TN số mẫu phân lớp âm tính Việc đánh giá hiệu IDS thực qua việc đo so sánh số: - Accuracy = (TP + TN) / (TP + FP + TN + FN) - Sensitivity = R = TPR = TP / (TP + FN) - Specificity = TNR = TN / (TN + FP) - Efficiency = (Sensitivity + Specificity) / - Độ xác cảnh báo: Precise = P = TP / (TP + FP) - Thời gian huấn luyện kiểm tra Có nhiều kỹ thuật đánh giá độ xác dự báo như: đánh giá chéo K-fold, Holdout, Re-substitution Leaveone-out [11] Trong đó, đánh giá chéo K-fold xem hiệu quả, phù hợp với IDS Theo đó, ghi phân ngẫu nhiên thành k tập con; tập định tập liệu kiểm tra tập lại xử lý tập liệu huấn luyện Sau đó, q trình đánh giá chéo lặp lại k lần, độ xác phân lớp kiểm tra thơng qua độ xác phân lớp trung bình từ k lần đánh giá Đánh giá chéo K-fold đặc biệt phù hợp với nguồn liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực hiện, gây trở ngại thời gian đào tạo lớn V KIẾN TRÚC BỘ PHÂN LỚP LAI ĐA TẦNG VÀ KẾT QUẢ THÍ NGHIỆM Để phân lớp liệu mạng bắt thành lớp ứng với kiểu công cụ thể Kiến trúc phân lớp lai đa tầng dựa mơ hình phân đa lớp truyền thống One-Versus-Rest (OVR) đề xuất mơ tả Hình Theo đó, liệu truy cập mạng đưa vào tầng để phân lớp bình thường công, truy cập công, hệ thống cảnh báo cho người quản trị, đồng thời liệu chuyển sang tầng để xác định có phải kiểu cơng DoS hay không? không, liệu chuyển sang tầng để xác định xác kiểu cơng cụ thể, trường hợp khơng xác định được, kiểu cơng chưa biết đến 506 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG Kiểu công DoS Kiểu công Probe Kiểu công R2L Kiểu công U2R Yes Cảnh báo cho người quản trị Tầng DoS? Yes No Probe? Tầng Dữ liệu truy cập mạng No Tầng Yes R2L? No Tầng Normal? Yes Yes No Bình thường Tầng U2R? No Tấn cơng chưa biết Hình Kiến trúc phân lớp lai đa tầng dựa mơ hình phân đa lớp truyền thống Việc lựa chọn thứ tự phân lớp kiểu công dựa vào xác suất xuất thực tế kiểu công nhằm tối ưu thời gian phân lớp, kiểu cơng có xác suất xuất thấp nằm tầng cao thời gian phân lớp lớn Do tính chất đặc thù liệu kiểu công, phân loại sử dụng tầng khác nhau, để xác định xác kỹ thuật máy học tối ưu tầng, sử dụng nhiều kỹ thuật máy học khác để huấn luyện, kiểm tra so sánh kết dựa số đánh giá Các tập liệu dùng thí nghiệm tạo cách rút trích cách ngẫu nhiên mẫu tin từ tập liệu KDD99, số mẫu tin cụ thể cho kiểu công tập liệu thí nghiệm thống kê Bảng Bảng Thông tin chi tiết tập liệu sử dụng thí nghiệm TT Tập liệu Tập liệu Tập liệu Tập liệu Tập liệu Tập liệu Tập liệu Số mẫu tin ứng với kiểu công Normal DoS Probe R2L U2R 9.623 38.891 462 9.622 38.937 407 18 9.903 38.629 437 13 9.743 38.830 400 12 9.706 38.856 416 0 41.102 1.126 52 Tổng số mẫu tin 48.985 48.985 48.985 48.985 48.985 42.280 Các tập liệu 1-5 sử dụng cho phân lớp Normal DoS Tập liệu 6, gồm tất mẫu tin kiểu công Probe, R2L U2R rút trích từ tập liệu KDD99, sử dụng cho phân lớp lại: Probe, R2L U2R Đó số lượng mẫu tin kiểu công Probe, R2L U2R tập liệu 1-5 ít, khơng đảm bảo độ xác phân lớp đánh giá hiệu thuật toán Kết quả, độ xác phân lớp (Accuracy) trung bình dựa đánh giá chéo 5-fold chạy tập liệu sử dụng thuật tốn: Nạve Bayes, SVM, mạng nơron, định, hồi quy luận lý (Logistic Regression) k láng giềng gần trình bày Bảng Bảng Độ xác phân lớp trung bình ứng với thuật tốn phân lớp TT Bộ phân lớp Cây định K láng giềng gần Hồi quy luận lý Hồi quy luận lý đa thức Nạve Bayes Mạng nơ ron SVM tuyến tính SVM với nhân dùng GRBF Normal 99,83% 99,79% 99,14% 99,33% 98,36% 99,76% 98,65% 99,63% DoS 99,94% 99,90% 99,39% 99,64% 99,57% 99,90% 99,45% 99,95% Probe 99,81% 99,88% 99,26% 99,53% 99,56% 99,88% 99,18% 99,87% R2L 99,85% 99,78% 99,17% 99,52% 99,36% 99,83% 98,93% 99,77% U2R 99,90% 99,85% 99,81% 99,80% 86,76% 99,82% 99,73% 99,87% Theo đó, số liệu cột Normal thể độ xác phân lớp truy cập bình thường hay cơng, số liệu cột cịn lại thể độ xác phân lớp với kiểu công cụ thể DoS, Probe, R2L U2R Theo đó, phân lớp sử dụng định đạt độ xác cao tầng 1, 5; phân lớp sử dụng mạng nơron đạt độ xác cao tầng phân lớp sử dụng SVM với nhân dùng GRBF đạt độ xác Hồng Ngọc Thanh, Trần Văn Lăng, Hoàng Tùng 507 cao tầng Để thực SVM với nhân dùng GRBF, thuật toán tìm kiếm lưới sử dụng tập huấn luyện để có tham số tối ưu dùng cho GRBF, tham số sau SVM sử dụng cho việc phân lớp Kiến trúc phân lớp lai đa tầng hình thành từ phân lớp đơn tối ưu phù hợp với kiểu công tầng trình bày Hình Dữ liệu truy cập mạng Truy cập bình thường Kiểu cơng DoS Kiểu công Probe Kiểu công R2L Kiểu công U2R Bộ phân lớp dùng DT Bộ phân lớp dùng SVM Bộ phân lớp dùng ANN Bộ phân lớp dùng DT Bộ phân lớp dùng DT Tấn công chưa biết BỘ PHÂN LỚP LAI ĐA TẦNG Hình Kiến trúc phân lớp lai đa tầng Theo kết thí nghiệm, độ xác dự báo tổng thể phân lớp lai đa tầng đạt 99.83% phân lớp truy cập bình thường 99.58% phân lớp kiểu công, tốt so với việc áp dụng kỹ thuật máy học đơn IDS [15] VI KẾT LUẬN Từ kết thí nghiệm, ta nhận thấy: tính chất đặc thù liệu kiểu công, kỹ thuật máy học tối ưu phù hợp lựa chọn xây dựng phân lớp loại lớp Từ đó, kiến trúc phân lớp lai đa tầng dùng kỹ thuật OVR, sở sử dụng phân lớp loại lớp tối ưu chọn tầng để phân lớp kiểu cơng IDS Đồng thời, kết thí nghiệm đặt vấn đề cần tiếp tục nghiên cứu, đặc biệt nội dung: (1) Việc nghiên cứu tìm phân lớp phức tạp so với phân lớp đơn tầng cần xem xét Xuất phát từ ý tưởng kết hợp nhiều phân lớp để hợp tác thay cạnh tranh việc thực nhiệm vụ, đem lại hiệu cao kết hợp phân lớp để phát triển IDS (2) Các phân lớp sở: việc lựa chọn phân lớp đơn phân lớp sở để so sánh đánh giá phân lớp khơng phải lựa chọn tốt, tốt phân lớp lai kết hợp sử dụng để so sánh độ xác dự báo (3) Việc lựa chọn thuộc tính phân cụm liệu có nhiều hướng tiếp cận [7, 18, 19, 20] Tuy nhiên, cần nghiên cứu tìm kiếm thuật tốn lựa chọn thuộc tính phân cụm liệu tối ưu, phù hợp với kỹ thuật máy học, đặc thù liệu kiểu công (4) Năng lực xử lý liệu tính tốn hệ thống máy đóng vai trị quan trọng việc khai thác thuật tốn kỹ thuật máy học Từ nâng cao hiệu xử lý, tiếp cận theo hướng trí tuệ nhân tạo TÀI LIỆU THAM KHẢO Devarakonda, N., S Pamidi, et al - Intrusion Detection System using Bayesian Network and Hidden Markov Model Procedia Technology, 2012, 4(0) 506-514 Bhat A H., Patra S., Jena D - Machine learning approach for intrusion detection on cloud virtual machines International Journal of Application or Innovation in Engineering & Management (IJAIEM), 2013, 2(6) 56-66 Gaidhane R., Vaidya C., Raghuwanshi M - Survey: Learning Techniques for Intrusion Detection System (IDS), International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28 Omar S., Ngadi A., Jebur H H - Machine learning techniques for anomaly detection: an overview International Journal of Computer Applications, 2013, 79(2) 33-41 Singh J., Nene M J - A Survey on Machine Learning Techniques for Intrusion Detection Systems International Journal of Advanced Research in Computer and Communication Engineering, 2013, 2(11) 4349-4355 Wagh S K., Pachghare V K., Kolhe S R - Survey on intrusion detection system using machine learning techniques International Journal of Computer Applications, 2013, 78(16) 30-37 Calix R A., Sankaran R - Feature Ranking and Support Vector Machines Classification Analysis of the NSL-KDD Intrusion Detection Corpus Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 2013, 292-295 Reddy R R., Kavya B., Ramadevi Y - A Survey on SVM Classifiers for Intrusion Detection International Journal of Computer Applications, 2014, 98(19) 38-44 Catania C.A., Bromberg F., et al - An autonomous labeling approach to support vector machines algorithms for network traffic anomaly detection Expert Systems with Applications, 2012, 39(2) 1822-1829 10 Guanghui S., Jiankang G., et al - An Intrusion Detection Method Based on Multiple Kernel Support Vector Machine Network Computing and Information Security (NCIS), 2011 International Conference on, IEEE, 2011, 119-123 11 Li W., Liu Z - A method of SVM with Normalization in Intrusion Detection Procedia Environmental Sciences 11, 2011, Part A(0) 256-262 508 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 12 Mohammad M.N., Sulaiman N., et al - A novel local network intrusion detection system based on support vector machine Journal of Computer Science, 2011, 7(10) 1560-1564 13 Xiaozhao F., Wei Z,, et al - A Research on Intrusion Detection Based on Support Vector Machines Communications and Intelligence Information Security (ICCIIS), 2010 International Conference on, IEEE, 2010, 109-112 14 Xie Y., Zhang T., - An intelligent anomaly analysis for intrusion detection based on SVM Computer Science and Information Processing (CSIP), 2012 International Conference on, IEEE, 2012, 739-742 15 Altwaijry H., Algarny S - Bayesian based intrusion detection system Journal of King Saud University - Computer and Information Sciences, 2012, 24(1) 1-6 16 Aburomma A A., Reaz M B I - Evolution of Intrusion Detection Systems Based on Machine Learning Methods Australian Journal of Basic and Applied Sciences, 7(7) 799-813 17 Sanjaya S K S S S., Jena K - A Detail Analysis on Intrusion Detection Datasets In 2014 IEEE International Advance Computing Conference (IACC), 2014, 1348-1353 18 Al-Jarrah O Y., Siddiqui A., et al - Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion Detection In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, 177-181 19 Moradi Koupaie H., Ibrahim S., Hosseinkhani J - Outlier detection in stream data by machine learning and feature selection methods International Journal of Advanced Computer Science and Information Technology (IJACSIT), 2014, 17-24 20 Patel S., Sondhi J - A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature Optimization Technique International Journal of Computer Applications, 2014, 93(14) 43-47 A MACHINE LEARNING APPROACH TO CLASSIFY TYPES OF ATTACKS IN NETWORK INTRUSION DETECTION SYSTEM Hoang Ngoc Thanh, Tran Van Lang, Hoang Tung ABSTRACT — The main function of Network Intrusion Detection Systems (IDS) is to protect the system, analyze and predict network access behavior of users This behavior is considered normal or an attack IDS than to identify the behavior is normal or an attack based on the stored data, has the ability to learn to identify new attacks For each specific type of attack is DoS, Probe, R2L or U2R, dataset have peculiar characteristics This article refers to finding the optimum machine learning techniques for each type of attack is based on known machine learning algorithms as: Decision Tree (DT), K Nearest Neighbor, Support Vector Machine (SVM), Artificial Neural Network (ANN), Since then, built a multi-layer hybrid classifier based on the use of optimal machine learning techniques, best suited to type of attack on each layer Results of experiments on the KDD99 dataset using 5-fold Cross Validation showed that the multi-layer hybrid classifier integrated machine learning techniques: DT, ANN and SVM have highest predicted accuracy: 99.83% when the classification of normal access and 99.58% when the classification of types of attacks ... biết đến 506 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG Kiểu công DoS Kiểu công Probe Kiểu công R2L Kiểu công U2R Yes Cảnh báo cho người quản trị... mạng Truy cập bình thường Kiểu cơng DoS Kiểu công Probe Kiểu công R2L Kiểu công U2R Bộ phân lớp dùng DT Bộ phân lớp dùng SVM Bộ phân lớp dùng ANN Bộ phân lớp dùng DT Bộ phân lớp dùng DT Tấn công. .. Environmental Sciences 11, 2011, Part A(0) 256-262 508 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 12 Mohammad M.N., Sulaiman N., et al - A novel local