Bài viết trình bày việc nghiên cứu một số kỹ thuật học máy trong phát hiện xâm nhập mạng. Các thí nghiệm đã được tiến hành trên bộ dữ liệu KDD99 tại phòng thí nghiệm An ninh mạng - Học viện Kỹ thuật quân sự.
Nghiên cứu khoa học công nghệ PHÁT HIỆN XÂM NHẬP MẠNG SỬ DỤNG KỸ THUẬT HỌC MÁY Vũ Văn Cảnh*, Hồng Tuấn Hảo, Nguyễn Văn Qn Tóm tắt: Cùng với phát triển mạng máy tính, vấn đề an ninh mạng đối mặt với thách thức lớn, hệ thống mạng trở thành mục tiêu công phá hoại, xâm nhập trái phép đánh cắp thông tin Hacker Hầu hết kỹ thuật phát xâm nhập truyền thống có tỷ lệ phát xác thấp tỷ lệ phát nhầm cao Các nghiên cứu dựa kỹ thuật học máy phát xâm nhập cho thấy hiệu việc phát công với tỷ lệ phát cao, tỷ lệ phát nhầm thấp với chi phí tính tốn hợp lý Trong báo này, nghiên cứu số kỹ thuật học máy phát xâm nhập mạng Các thí nghiệm tiến hành liệu KDD99 phòng thí nghiệm An ninh mạng - Học viện Kỹ thuật quân Từ khóa: Học máy, Xâm nhập mạng, Phát xâm nhập, Phân cụm GIỚI THIỆU Trong sống đại, Internet yếu tố quan trọng thúc đẩy phát triển quan, tổ chức Tuy nhiên, có nhiều rủi ro sử dụng Internet xuất phát từ cơng mạng Vì vậy, hệ thống phát xâm nhập (Intrusion Detection System - IDS) khác thiết kế xây dựng nhằm ngăn chặn công Mục tiêu IDS cung cấp hàng rào bảo vệ, giúp hệ thống mạng có khả phát cơng từ bên ngồi Việc phát xâm nhập dựa giả thiết hành vi kẻ xâm nhập khác với người sử dụng hợp lệ [12] Hình mơ tả vị trí điển hình IDS hệ thống giám sát an ninh mạng Trong đó, liệu vào Internet mạng nội IDS bắt, xử lý phân lớp để xác định truy cập bình thường cơng; Từ đó, có cảnh báo, hành động phù hợp IDS chia thành hai loại: IDS dựa dấu hiệu (misuse-based) IDS dựa bất thường (anomaly-based) [2] Việc phân lớp vào cách tiếp cận phát xâm nhập IDS dựa dấu hiệu sử dụng mẫu công biết điểm yếu hệ thống để xác định xâm nhập, tương tự phần mềm chống virus sử dụng mẫu để phát virus Yếu điểm kỹ thuật phát mẫu cơng mới, nên cần phải cập nhật liên tục dấu hiệu công để nhận dạng công IDS dựa bất thường cố gắng xác định độ lệch so với mẫu sử dụng Tạp chí Nghiên cứu KH&CN qn sự, Số Đặc san An tồn Thơng tin, 05 - 2017 105 Cơng nghệ thơng tin Hình Vị trí IDS hệ thống giám sát an ninh mạng thông thường thiết lập trước để đánh dấu xâm nhập Vì vậy, IDS dựa bất thường cần quen với mẫu sử dụng thông thường thông qua việc học Các kỹ thuật học máy khác sử dụng rộng rãi để phục vụ cho mục đích Hình mơ tả kiến trúc IDS sử dụng kỹ thuật học máy [7] Trong đó, liệu bắt sau qua công đoạn tiền xử lý, chọn lựa thuộc tính phân lớp phân lớp (classifier) huấn luyện Việc huấn luyện phân lớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ Hình Kiến trúc IDS 106 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ Bài báo viết với cấu trúc sau: sau phần giới thiệu, phần trình bày kiến thức tảng công đột nhập mạng, kỹ thuật xâm nhập kỹ thuật học máy Một số kỹ thuật học máy ứng dụng phát công xâm nhập trình bày phần Phần trình bày thử nghiệm kết kỹ thuật học máy đề xuất KIẾN THỨC NỀN TẢNG 2.1 Tấn công đột nhập mạng Tấn công, đột nhập mạng hành vi công xâm nhập trái phép nhằm lạm dụng tài nguyên mạng, việc lạm dụng dẫn đến hậu khiến cho tài nguyên mạng trở nên không đáng tin cậy không sử dụng Hầu hết cơng xâm nhập mạng máy tính vượt qua lớp bảo mật hệ thống theo phương thức cụ thể nhằm phá vỡ thuộc tính bảo mật thơng tin hệ thống Ví dụ số công nhằm đọc, đánh cắp thông tin không thay đổi thành phần hệ thống Một số công lại tắt làm ngừng hoạt động thành phần hệ thống Hoặc cơng khác lại có khả chiếm tồn quyền điều khiển phá huỷ hệ thống Chung quy lại, chúng thường gây nên tổn thương đến thuộc tính bảo mật thơng tin hệ thống: tính bí mật, tính tồn vẹn tính khả dụng 2.2 Các kỹ thuật phát xâm nhập Hệ thống phát xâm nhập (Intrusion Detection System - IDS) [10] hệ thống có khả phân biệt hành vi người dùng bình thường bất thường, ngồi ra, có chức giám sát, phân tích lưu lượng mạng, hoạt động khả nghi cảnh báo cho hệ thống, nhà quản trị 2.2.1 Kỹ thuật phát dựa phương pháp phát lạm dụng Những nghiên cứu phát xâm nhập dựa phương pháp phát lạm dụng bắt đầu vào năm 1980 với báo cáo Anderson [1] Trong đó, hành vi xâm nhập phát cách so sánh hành vi giám sát với hành vi công mẫu biết Do đó, phương pháp có hiệu việc phát dạng công, đột nhập biết Mơ hình phát lạm dụng minh họa hình bao gồm bốn thành phần: thu thập liệu, hồ sơ hệ thống, thành phần phát lạm dụng, thành phần phản hồi Dữ liệu thu thập từ nhiều nguồn, bao gồm báo cáo kiểm tra, lưu lượng mạng, dấu vết lời gọi hệ thống, v.v Dữ liệu thu thập chuyển sang định dạng mà thành phần khác hệ thống xử lý Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 107 Cơng nghệ thông tin Hồ sơ hệ thống thường tập luật (rules), sử dụng để mô tả hành vi bình thường bất thường Hình Mơ hình phát lạm dụng Phương pháp phát dựa lạm dụng có bốn kỹ thuật thường sử dụng, kỹ thuật đối sánh mẫu, kỹ thuật dựa tập luật, kỹ thuật dựa trạng thái, kỹ thuật dựa khai phá liệu 2.2.2 Kỹ thuật dựa phương pháp phát bất thường Khác với phát dựa lạm dụng, phương pháp phát dựa bất thường [1] dựa vào việc thiết lập hồ sơ hoạt động bình thường cho hệ thống Phương pháp dựa giả định hành vi cơng, xâm nhập có quan hệ mật thiết với hành vi bất thường Các nghiên cứu phát bất thường bắt đầu cách định nghĩa hành động coi bình thường, sau xác định hoạt động xâm nhập phương pháp phân biệt hành động xâm nhập cụ thể Hình Mơ hình phát bất thường 108 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học cơng nghệ Mơ hình phát bất thường, minh họa hình bao gồm bốn thành phần: Thu thập liệu, hồ sơ hệ thống bình thường, phát bất thường thành phần phản hồi Các hành động sử dụng hệ thống bình thường hay lưu lượng liệu thu thập lưu lại thành phần thu thập liệu Các kỹ thuật mô hình cụ thể sử dụng để tạo hồ sơ hệ thống bình thường Thành phần phát bất thường định hành vi giám sát bất thường thông qua mức sai lệch hành vi với hành vi bình thường tập hồ sơ Cuối cùng, thành phần phản ứng báo cáo xâm nhập phát Ưu điểm phương pháp dựa phát bất thường khả phát cơng khơng đòi hỏi có hiểu biết dạng cơng Tuy nhiên, phương pháp tồn số hạn chế tỷ lệ phát sai thường cao phương pháp dựa giả định công, xâm nhập đồng nghĩa với bất thường Trên thực tế, nhiều hành vi bất thường hành vi công Hơn nữa, phương pháp gặp phải khó khăn việc thu thập liệu để xây dựng hồ sơ hành vi bình thường Chẳng hạn, hồ sơ hành vi bình thường người dùng xây dựng dựa liệu thu thập khoảng thời gian hoạt động bình thường, hoạt động xâm nhập khơng bị phát thời gian coi hành vi bình thường Điều dẫn đến giảm tỷ lệ phát Một vấn đề khác kỹ thuật phát bất thường khó phát cơng tàng hình, kiểu công mà hành vi công ẩn số lượng lớn hành vi bình thường Phương pháp phát dựa bất thường chia thành kỹ thuật sau: kỹ thuật mơ hình thống kê mở rộng, kỹ thuật dựa mơ hình luật, kỹ thuật dựa mơ hình sinh học kỹ thuật dựa mơ hình học 2.3 Kỹ thuật học máy Học máy (ML – Machine Learnning) [9] kỹ thuật thiết kế phát triển thuật toán cho phép máy tính đánh giá hành vi dựa liệu thực nghiệm, chẳng hạn liệu cảm biến sở liệu Một chương trình học tận dụng mẫu (dữ liệu) để nắm bắt đặc điểm quan tâm, liệu xem ví dụ minh họa mối quan hệ biến quan sát Trọng tâm nghiên cứu học máy tự động học cách nhận mẫu phức tạp đưa định thơng minh dựa liệu Học máy chia thành nhánh sau: học có giám sát, học nửa giám sát học không giám sát 2.3.1 Kỹ thuật học có giám sát Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 109 Công nghệ thông tin Học có giám sát (Supervised learning) [9] q trình học với tập liệu huấn luyện ban đầu hoàn tồn gán nhãn từ trước Học có giám sát sử dụng cho lớp toán phân lớp phân loại Với cách học này, kinh nghiệm cho cách tường minh dạng đầu vào đầu hàm đích Hình mơ tả kỹ thuật học có giám sát Hình Mơ hình học có giám sát Một số kỹ thuật học có giám sát thường quan tâm máy hỗ trợ vector, định, mạng thần kinh nhân tạo, lập trình di truyền … 2.3.2 Kỹ thuật học nửa giám sát Kỹ thuật học nửa giám sát [9] kỹ thuật học sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Nhiều nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với lượng nhỏ liệu có gán nhãn, cải thiện đáng kể độ xác Trong kỹ thuật học có giám sát, để gán nhãn liệu cho tốn học máy thường đòi hỏi chuyên viên có kỹ để phân loại tay mẫu huấn luyện Trong đó, chi phí gán nhãn tay cao, không khả thi Với phương pháp kết hợp mẫu liệu gán nhãn chưa gán nhãn đạt hiệu cao 2.3.3 Kỹ thuật học không giám sát Trong kỹ thuật học không giám sát [9], tập liệu cho dạng với vector đặc trưng mẫu huấn luyện Nhiệm vụ thuật toán phải phân chia tập liệu D thành nhóm con, nhóm chứa vector đầu vào có đặc trưng giống Như vậy, việc học không giám sát, số lớp phân loại chưa biết trước, tùy theo tiêu chuẩn đánh giá độ tương tự mẫu mà ta có lớp phân loại khác 110 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG PHÁT HIỆN XÂM NHẬP MẠNG 3.1 Kỹ thuật học máy phát xâm nhập Học máy kỹ thuật mạnh mẽ số nhà nghiên cứu ứng dụng vào giải toán phát xâm nhập mạng Năm 1990 Fox cộng [6] lần cố gắng mơ hình hóa hệ thống hành vi người dùng mạng thần kinh nhân tạo Đề xuất họ sử dụng kỹ thuật học không giám sát để phát cấu trúc liệu mà không cần mẫu hành vi bất thường có sẵn Năm 1994, Frank [5] sử dụng trí tuệ nhân tạo cho phát xâm nhập theo hướng phân loại hành vi xâm nhập giảm liệu Một đề xuất dựa mạng lan truyền ngược để giám sát chương trình chạy Ghost [15] cộng dựa kỹ thuật học giám sát đề xuất Các tác giả sử dụng liệu đầu vào tạo ngẫu nhiên cho hành vi bất thường, cho hiệu phát kỹ thuật phụ thuộc vào trọng số khởi tạo đầu vào huấn luyện Một số nghiên cứu dựa thuật toán di truyền đề xuất, năm 1993 tác giả Me [8] sử dụng thuật toán di truyền cho phát lạm dụng Đề xuất cải thiện tỷ lệ cảnh báo nhầm hiệu quả; nhiên phương pháp chưa xác định xác loại cơng cụ thể 3.2 Thuật toán quy nạp ID3 Thuật toán quy nạp ID3 [9] Quinlan đề xuất cuối thập niên 1970s với ưu điểm lựa chọn thuộc tính tốt để triển khai bước cách sử dụng độ lợi (Gain) thông tin để đo tính hiệu thuộc tính phân lớp Trong q trình xây dựng định theo thuật tốn ID3 bước phát triển cây, thuộc tính chọn để triển khai thuộc tính có độ lợi lớn Xét trường hợp đơn giản cho liệu huấn luyện toán phát xâm nhập, ta quan tâm đến địa IP nguồn, IP đích, cổng nguồn, cổng đích để xác định mẫu có phải cơng hay khơng biểu diễn bảng Bảng Tập liệu huấn luyện cho toán phát xâm nhập IP nguồn IP đích Cổng nguồn Cổng đích Xâm nhập 123.202.72.109 225.142.187.12 001360 000080 False 123.202.72.109 225.142.187.12 001360 000025 False 225.142.147.75 225.142.187.12 001360 000080 True 233.167.15.65 150.216.191.119 001360 000080 True Tạp chí Nghiên cứu KH&CN qn sự, Số Đặc san An tồn Thơng tin, 05 - 2017 111 Công nghệ thông tin 233.167.15.65 125.250.187.19 001425 000080 True 233.167.15.65 125.250.187.19 001425 000025 False 225.142.147.75 125.250.187.19 001425 000025 True 123.202.72.109 150.216.191.119 001360 000080 False 123.202.72.109 125.250.187.19 001425 000080 True 233.167.15.65 150.216.191.119 001425 000080 True 123.202.72.109 150.216.191.119 001425 000025 True 225.142.147.75 150.216.191.119 001360 000025 True 225.142.147.75 225.142.187.12 001425 000080 True 233.167.15.65 150.216.191.119 001360 000025 False Mỗi mẫu tập liệu phân loại “True” (xâm nhập) “False” (không phải xâm nhập), giá trị phân loại gọi thuộc tính đích Quá trình huấn luyện ID3 xây dựng định có khả phân loại xác mẫu tập liệu huấn luyện với kỳ vọng cho kết chuẩn đốn xác đầu ID3 xây dựng định theo phương pháp từ xuống, nút ID3 chọn thuộc tính để kiểm tra phân vùng tập hợp mẫu đệ quy cho vùng Thuật toán lặp lại thành viên phân vùng nằm lớp, lớp trở thành nút Hiệu thuật toán phụ thuộc nhiều vào tiêu chuẩn chọn giá trị gốc ID3_algorithm(TSet, Class_Labels, Attri){ If Tất_cả_các_mẫu TSet thuộc Class_C Return Nút Root gắn với Class_C If Tập thuộc tính Attri rỗng Return Nút Root gắn nhãn lớp ≡ Majority_Class_Label(TSet) A ← Thuộc tính Attri có khả phân loại “tốt nhất” TSet Thuộc tính kiểm tra cho nút Root ← A For each Giá trị v thuộc tính A Bổ sung nhánh nút Root, tương ứng với: “Giá trị A v” Xác định TSetv = {mẫu x | x ⊆ TSet, xA=v} If (TSetv rỗng) Tạo nút với nhãn lớp ≡ Majority_Class_Label(TSet) Gắn nút vào nhánh vừa tạo 112 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ Else Gắn vào nhánh vừa tạo tạo ID3_algorithm(TSetv, Class_Labels, { Attri A}) Return Root } Việc lựa chọn thuộc tính A có khả phân loại “tốt nhất” tập liệu huấn luyện TSet thực theo công thức: Với Values(A) tập hợp có giá trị thuộc tính A TSetv tập TSet chứa mẫu có thuộc tính A mang giá trị v; Độ cho tập liệu Entropy(TSet) xác định theo công thức sau: Với tập huấn luyện cho bảng gồm 02 thuộc tính “True” “False”, tỷ lệ mẫu thuộc tính xác định Áp dụng cho liệu huấn luyện bảng ta xây dựng định theo thuật tốn ID3 sau: Bước Tính Entropy tập liệu Bước Tình Gain cho thuộc tính để tìm thuộc tính làm gốc Với: Tương tự với đích: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 113 Cơng nghệ thông tin Dễ thấy lớn Vậy lấy thuộc tính làm nút gốc Và ta xây dựng ban đầu hình Hình Cây định sau xác định nút gốc (Root) Tiếp tục xét nhánh nút gốc tất Entropy (không thể xây dựng nữa), ta có định xây dựng giải thuật ID3 hình 7: Hình Cây định xây dựng theo thuật toán ID3 3.3 Thuật toán phân cụm liệu mờ Phân cụm liệu mờ phương pháp phân cụm liệu cho phép điểm liệu thuộc hai nhiều cụm thông qua bậc thành viên Ruspini [11] giới thiệu khái quát khái niệm phân hoạch mờ để mô tả cấu trúc cụm tập liệu đề xuất thuật tốn để tính tốn tối ưu phân hoạch mờ Dunn [4] mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ 114 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ Ý tưởng thuật toán xây dựng phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Bezdek [3] cải tiến tổng hóa hàm mục tiêu mờ cách đưa trọng số mũ để xây dựng thuật toán phân cụm mờ FuzzyCMeans (FCM), chứng minh độ hội tụ thuật toán cực tiểu cục Thuật toán FCM thực phân hoạch tập n vector đối tượng liệu thành c nhóm mờ dựa tính tốn tối thiểu hóa hàm mục tiêu để đo chất lượng phân hoạch tìm trọng tâm cụm nhóm, cho chi phí hàm đo độ tương tự nhỏ Một phân hoạch mờ n vector điểm liệu đặc trưng đầu vào biểu diễn ma trận cho điểm liệu cho thuộc số nhóm với bậc xác định mức độ [0,1] Như vậy, ma trận U sử dụng để mô tả cấu trúc cụm X cách giải thích bậc thành viên với cụm i Cho phân hoạch mờ C, ta có: Khi để tính tốn hàm mục tiêu mờ với tham số mờ m, trọng tâm cụm mờ thứ i xác định sau: , Khoảng cách mẫu liệu với trọng tâm cụm thứ xác định theo phương pháp Euclide bậc mẫu liệu , với cụm thứ i Ma trận biểu diễn giá trị tâm cụm phân hoạch mảng đối tượng liệu Để đơn giản, ta coi cột ma trận đối tượng liệu Ma trận phân hoạch U sử dụng để mô tả cấu trúc cụm liệu Hàm mục tiêu đạt giá trị nhỏ phân hoạch phân cụm thỏa mãn: , Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 115 Cơng nghệ thơng tin Thuật toán: Input: Số cụm c tham số m cho hàm mục tiêu J, với sai số ε Output: c cụm liệu cho hàm mục tiêu đạt giá trị cực tiểu Algorithm: Fuzzy C – Mean (FCM) Begin Bước Khởi tạo Nhập tham số , Khởi tạo ma trận Bước Tính ma trận phân hoạch U cập nhật lại trọng tâm cụm V 2.1 j=j+1 2.2 Tính ma trận phân hoạch mờ 2.3 Cập nhật trọng tâm cụm Bước 3: Kiểm tra điều kiện dừng Nếu chuyển sang bước 4, ngược lại quay lại bước Bước Đưa cụm kết End THỰC NGHIỆM VÀ KẾT QUẢ Để đánh giá kết thuật toán học máy giới thiệu phần Nhóm tiến hành cài đặt thử nghiệm 10% liệu huấn luyện kiểm tra KDD’99 thuật tốn học có giám sát (ID3) thuật tốn học khơng giám sát (FCM) phòng thí nghiệm An ninh mạng – Học viện Kỹ thuật quân Với kết nhận được, để đánh giá độ tin cậy phương pháp học, độ tin cậy (Accuracy) tính tốn sau: Trong đó: - TN: Số ghi phân loại - FP: Số ghi bị phân loại nhầm Mỗi thuật toán với tham số thiết lập đầu vào thực 20 lần, kết thống kê trung bình 20 lần thực 116 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ Bảng Kết thực nghiệm sử dụng thuật toán ID3 cho phân loại công Số ghi DL huấn luyện 800 8000 10000 Thuật toán ID3 Số ghi DL kiểm tra Phân loại (%) Độ tin cậy (%) 2000 92,90 91.35 4000 99,98 99.97 8000 99,93 99,92 8000 98,72 98,33 Kết bảng cho thấy với trường hợp liệu huấn luyện 800 ghi liệu kiểm tra 2000 ghi; việc huấn luyện liệu với số lượng mẫu so với số mẫu kiểm tra ảnh hưởng lớn đến độ xác độ tin cậy thuật toán Trong trường hợp huấn luyện mẫu liệu lớn tiến hành kiểm tra liệu có số lượng mẫu nhỏ nhận độ xác độ tin cậy cao Khi huấn luyện với liệu có 8000 ghi kiểm tra liệu 4000 ghi kết nhận dạng xác đạt 99.98% với độ tin cậy đạt 99.97% Tuy nhiên, huấn luyện kiểm tra liệu lớn hiệu phân loại độ tin cậy thuật toán ID3 giảm dần, đặc biệt trường hợp số mẫu liệu huấn luyện lớn không đáng kể so với số mẫu liệu kiểm tra Đối với kỹ thuật học khơng giám sát FCM, q trình thực nghiệm tiến hành thiết lập tham số khác với số cụm 2, 4; tham số mờ lựa chọn Kết thể bảng Trong trình thử nghiệm cho thấy thay đổi tham số mờ m hiệu độ tin cậy kỹ thuật thay đổi không đáng kể Bảng Kết thực nghiệm sử dụng thuật toán FCM cho phân loại công Số ghi DL huấn luyện 800 8000 10000 Số Thuật toán FCM ghi c =2, m=2 c=3, m=2 c = 4, m=2 DL Phân loại Độ tin Phân loại Độ tin Phân loại Độ tin kiểm tra (%) cậy (%) (%) cậy (%) (%) cậy (%) 2000 50,35 100 49,85 100 94,4 93.43 4000 49,75 100 49,75 100 96,3 96,2 8000 48,63 100 49,7625 100 97,06 96.847 8000 48,63 100 49,0625 100 94,91 93,893 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 117 Cơng nghệ thông tin Với trường hợp số cụm thiết lập hiệu phân loại thấp, đạt cao 50.35% , nhiên độ tin cậy thuật toán đạt 100% Trong trường hợp thiết lập tham số phân cụm 4, hiệu phân loại tăng lên nhanh, điều cho thấy số cụm thiết lập lớn kết phân loại cao Tuy nhiên, độ tin cậy thuật toán giảm dần Mặt khác, tương tự với thuật tốn học có giám sát (ID3), với số mẫu huấn luyện nhỏ số mẫu kiểm tra cho kết phân loại độ tin cậy thấp nhiều so với thí nghiệm số mẫu huấn luyện lớn nhiều so với số mẫu kiểm tra Từ kết bảng bảng cho thấy, q trình học có giám sát đạt hiệu phân loại độ tin cậy cao nhiều so với học không giám sát Tuy nhiên, q trình học có giám sát u cầu mẫu liệu huấn luyện gán nhãn, mà chi phí để xây dựng liệu gán nhãn cao, huấn luyện kỹ thuật học khơng giám sát khơng cần liệu huấn luyện gán nhãn, trường hợp số cụm thiết lập cao hiệu kỹ thuật học không giám sát tương đương với kỹ thuật học có giám sát KẾT LUẬN Bài báo trình bày số nội dung nghiên cứu kỹ thuật học máy ứng dụng lĩnh vực phát công xâm nhập mạng Các kết nghiên cứu áp dụng thuật toán ID3 FCM cho thấy hiệu học máy phân loại công Tuy nhiên, thuật tốn FCM chưa có quy tắc cụ thể để lựa chọn tham số m cho hiệu phân loại tối ưu Do đó, thời gian tới, nhóm nghiên cứu tiếp tục định hướng nghiên cứu cho hệ thống tự đáp ứng tham số m để đạt hiệu tối ưu thuật toán TÀI LIỆU THAM KHẢO [1] Anderson, James P “Computer Security Threat Monitoring and Surveillance”, 15 April 1980 [2] Bhat A H., Patra S., Jena D “Machine learning approach for intrusion detection on cloud virtual machines” International Journal of Application or Innovation in Engineering & Management (IJAIEM), 2013, 2(6) 56-66 [3] J C Bezdek, “Pattern Recognition with Fuzzy Objective Function Algorithms”, Plenum Press, New York, (1981) 118 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” Nghiên cứu khoa học công nghệ [4] Dunn JC “A fuzzy relative to the ISODATA process and its use in detecting compact well-separated clusters” J Cybernet 1974, 3:310–313 [5] Frank, J “Artificial intelligence and intrusion detection: Current and future directions” In Proceedings of the National 17th Computer Security Conference (1994) [6] Fox, K L., Henning, R R., Reed, J H., and Simonian, R “A neural network approach towards intrusion detection” In Proceedings of the 13th National Computer Security Conference, 125–134 (1990) [7] Gaidhane R., Vaidya C., Raghuwanshi M “Survey: Learning Techniques for Intrusion Detection System (IDS)”, International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28 [8] Me, Ludovic “Security Audit Trail Analysis Using Genetic Algorithms.” Proceedings of the Twerfh International Conference on Computer Safety, Reliability, and Security, Poznan, Poland, 1993 [9] Mitchell, Tom M “Machine Learning” McGraw-Hill, 1997 [10] Stephen Northcutt, Judy Novak, “Network Intrusion Detection”, Third Edition, New Riders Publishing, United States of America, 2004 [11] Ruspini, E.H “A new approach new clustering” Information and control, 15 (1969), 22-32 [12] Devarakonda, N., S Pamidi, et al “Intrusion Detection System using Bayesian Network and Hidden Markov Model” Procedia Technology, 2012, 4(0) 506-514 [13] B.Ben Sujitha, R.Roja Ramani, Parameswari, “Intrusion Detection System using Fuzzy Genetic Approach”, International Journal of Advanced Research in Computer and Communication Engineering, Vol.1, Issue 10, December 2012 [14] KDD 99 Task Avaiable at: http://kdd.ics.uci.edu/databases/kddcup99/task.html [15] A K Ghost, J Wanken, F Charron (September 27, 1997), "Detecting Anomalous and Unknown Intrusions Against Programs in Real-Time" DARPA SBIR FOCI Tutorial 2007 134 Phase I Final Report Reliable Software Technologies Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 119 Công nghệ thông tin ABSTRACT INTRUSION DETECTION USING MACHINE LEARNING TECHNIQUES In recent years, the growth of computer network is entailed many challenges to cyber security Network is becoming the target of attacks, unauthorized intrusions and information stealed Most of traditional intrusion detection techniques are known with relatively low true positive rate and high false alarm rate Research on intrusion detection using machine learning techniques have proved effectively in detecting new attacks with high detection rate and low false alarm rate in reasonable computational cost In this paper, we study some machine learning techniques (FCM, IC3) in network intrusion detection Some experiments were conducted on KDD99 datasets at Laboratory of Network Security – Le Quy Don Technical University Keywords: Machine Learning, Network Intrusion, Intrusion Detection, Cluster Nhận ngày 03 tháng năm 2017 Hoàn thiện ngày 04 tháng năm 2017 Chấp nhận đăng ngày 01 tháng năm 2017 Địa chỉ: Học viện Kỹ thuật quân * Email: canhvuvan@yahoo.com 120 V V Cảnh, H T Hảo, N V Quân, “Phát xâm nhập mạng sử dụng kỹ thuật học máy.” ... kỹ thuật học máy. ” Nghiên cứu khoa học công nghệ ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG PHÁT HIỆN XÂM NHẬP MẠNG 3.1 Kỹ thuật học máy phát xâm nhập Học máy kỹ thuật mạnh mẽ số nhà nghiên cứu ứng dụng. .. pháp phát dựa bất thường chia thành kỹ thuật sau: kỹ thuật mơ hình thống kê mở rộng, kỹ thuật dựa mơ hình luật, kỹ thuật dựa mơ hình sinh học kỹ thuật dựa mơ hình học 2.3 Kỹ thuật học máy Học máy. .. xâm nhập kỹ thuật học máy Một số kỹ thuật học máy ứng dụng phát cơng xâm nhập trình bày phần Phần trình bày thử nghiệm kết kỹ thuật học máy đề xuất KIẾN THỨC NỀN TẢNG 2.1 Tấn công đột nhập mạng