Nghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phép
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - NGUYỄN HOÀNG GIANG NGHIÊN CỨU CÁC PHƢƠNG PHÁP HỌC MÁY VÀ ỨNG DỤNG TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS TS Trần Quang Anh Phản biện 1: TS Hoàng Xuân Dậu Phản biện 2: TS Nguyễn Vĩnh An Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: 09 30 ngày 20 tháng 08 năm 2016 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Tính cấp thiết đề tài Vấn đề đảm bảo an toàn thông tin cho hệ thống mạng, hệ thống thông tin vấn đề không ngày trở thành đòi hỏi có tính cấp bách Cùng với phát triển cách nhanh chóng hệ thống mạng Internet tiện ích nó, việc bảo đảm an toàn thông tin trở nên cấp thiết hết Đặc biệt bối cảnh vài năm trở lại đây, hệ thống mạng Việt Nam liên tục trở thành mục tiêu công phá hoại, xâm nhập trái phép, lấy cắp thông tin Hacker nước ngoài, đặc biệt từ Hacker Trung Quốc Đây thực tình trạng báo động nhiều máy bị truy cập trái phép thuộc mạng Bộ, ban, ngành, tổ chức lưu giữ, soạn thảo thông tin quan trọng quốc gia thông tin tài chính, kỹ thuật quan trọng Có nhiều phương pháp kỹ thuật lẫn sách đề xuất, áp dụng nhằm đảm bảo an toàn thông tin như: triển khai hệ thống tường lửa (Firewall) nhiều lớp, hệ thống phát xâm nhập trái phép (IDS), hệ thống xác thực, hệ thống bảo mật thiết bị đầu cuối (Endpoint) Tuy vậy, giải pháp phát xâm nhập trái phép (IDS) giải pháp quan trọng, quan tâm triển khai Có nhiều cách để phát xâm nhập trái phép hệ thống mạng Thông thường phân làm loại chính: Misuse Detection (phát dựa lạm dụng) Anomaly Detection (phát bất thường) Cách thức phát dựa lạm dụng phân tích hoạt động hệ thống, tìm kiếm kiện giống với mẫu công biết trước Các mẫu công biết trước gọi dấu hiệu công Do cách thức gọi cách thức phát dựa dấu hiệu Kiểu phát công có ưu điểm phát công nhanh xác, không đưa cảnh báo sai làm giảm khả nǎng hoạt động mạng giúp người quản trị xác định lỗ hổng bảo mật hệ thống Tuy nhiên, cách thức có nhược điểm không phát công sở liệu, kiểu công mới, hệ thống phải cập nhật mẫu công Trong cách thức phát bất thường kỹ thuật phát thông minh, nhận dạng hành động không bình thường mạng Quan niệm cách thức công khác so với hoạt động thông thường Ban đầu, chúng lưu trữ mô tả sơ lược hoạt động bình thường hệ thống Các công có hành động khác so với bình thường cách thức phát nhận dạng Do đó, cách thức phát xâm nhập trái phép dựa bất thường mạng trở thành hướng nghiên cứu chủ yếu hệ thống phát xâm nhập trái phép Học máy (Machine learning) kỹ thuật cho phép giải vấn để định dựa liệu kinh nghiệm Với học máy, chương trình máy tính sử dụng kinh nghiệm, quan sát, liệu khứ để cải thiện công việc tương lai thay thực theo quy tắc lập trình sẵn Chính thế, việc ứng dụng Học máy phát xâm nhập trái phép, đặc biệt phát bất thường, phù hợp cần thiết bối cảnh Chính vậy, học viên chọn đề tài luận văn “Nghiên cứu phương pháp học máy ứng dụng phát xâm nhập trái phép”, tập trung nghiên cứu ứng dụng học máy phát xâm nhập mạng bất thường Mục đích nghiên cứu - Nghiên cứu phương pháp học máy; Nghiên cứu số cách thức phát xâm nhập trái phép Từ ứng dụng phương pháp học máy phát bất thường mạng Đối tƣợng nghiên cứu phạm vi nghiên cứu - Đối tượng nghiên cứu: Các phương pháp học máy; phương pháp phát xâm nhập trái phép đặc biệt phát bất thường mạng; luồng liệu mạng - Phạm vi nghiên cứu: Phát bất thường mạng máy tính Cấu trúc luận văn Nội dung luận văn trình bày ba phần sau: Phần mở đầu Phần nội dung: bao gồm ba chương Chương 1: Tổng quan phương pháp học máy Trong chương này, luận văn trình bày khái niệm học máy; phân loại phương pháp học máy chủ yếu phương pháp học máy có giám sát phương pháp học máy giám sát; tiếp trình bày số thuật toán học máy tiêu biểu phương pháp học máy, sâu vào thuật toán học máy SVM, K-NN Oneclass SVM sử dụng ứng dụng phát xâm nhập mạng bất thường nêu chương Chương 2: Phát xâm nhập trái phép cách tiếp cận phương pháp học máy Trong chương này, luận văn trình bày khái niệm xâm nhập trái phép; phân loại phát xâm nhập trái phép dựa nguồn liệu (Network-based, Host-based) dựa theo phương pháp xử lý (Misuse Detection, Anomaly Detection); cách tiếp cận phát xâm nhập trái phép dựa bất thường phương pháp học máy; Mô tả toán đề xuất luận văn Chương 3: Ứng dụng phương pháp học máy KNN, SVM One-class SVM để phát bất thường Trong chương này, luận văn trình bày việc thử nghiệm ứng dụng phương pháp học máy để phát xâm nhập mạng bất thường: giới thiệu mô hình thử nghiệm, giới thiệu cách thức xây dựng liệu thử nghiệm dạng Netflow (từ liệu thử nghiệm dạng Tcpdump DARPA, ISCX); cách thức cài đặt thử nghiệm; kết thử nghiệm đánh giá kết thử nghiệm Phần kết luận CHƢƠNG TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY Giới thiệu học máy Học máy, gọi Máy học, (tiếng Anh: Machine Learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Học máy khả chương trình máy tính sử dụng kinh nghiệm, quan sát, liệu khứ để cải thiện công việc tương lai thay thực theo quy tắc lập trình sẵn Phân loại phƣơng pháp học máy 2.1 Phương pháp học máy có giám sát Học có giám sát (supervised learning): kĩ thuật ngành học máy để xây dựng hàm (function) từ liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp gồm đối tượng đầu vào (thường dạng vec-tơ), đầu mong muốn Đầu hàm giá trị liên tục (gọi hồi qui), dự đoán nhãn phân loại cho đối tượng đầu vào (gọi phân loại) Nhiệm vụ chương trình học có giám sát dự đoán giá trị hàm cho đối tượng đầu vào hợp lệ, sau xem xét số ví dụ huấn luyện (nghĩa là, cặp đầu vào đầu tương ứng) Để đạt điều này, chương trình học phải tổng quát hóa từ liệu sẵn có để dự đoán tình chưa gặp phải theo cách "hợp lí" Học có giám sát tạo loại mô hình Phổ biến nhất, học có giám sát tạo mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu mong muốn Tuy nhiên, số trường hợp, việc ánh xạ thực dạng tập mô hình cục Các phương pháp học máy có giám sát thông dụng: - K-Nearest Neighbor (K-NN); - Support Vector Machine (SVM) 2.2 Phương pháp học máy giám sát Học giám sát (unsupervised learning) phương pháp ngành học máy nhằm tìm mô hình mà phù hợp với quan sát Khác với phương pháp học máy có giám sát, phương pháp học giám sát dạng học máy ví dụ cung cấp giá trị đầu hay giá trị đích (hay nói cách khác, liệu huấn luyện không gán nhãn phân loại) Thay xác định giá trị đích, thuật toán học máy dựa độ tương tự ví dụ để xếp chúng thành nhóm, nhóm gồm ví dụ tương tự Hình thức học không giám sát gọi phân cụm (clustering) Ngoài phân cụm, dạng học không giám sát phổ biến khác phát luật kết hợp (association rule) Luật kết hợp có dạng P(A | B), cho thấy xác suất hai tính chất A B xuất với Các phương pháp học máy giám sát thông dụng: - One-class SVM; Một số thuật toán học máy 3.1 Thuật toán học máy có giám sát: Support Vector Machine (SVM) SVM công cụ mạnh phổ biến để phân lớp liệu lớn nhiều chiều Máy vector hỗ trợ (SVM) đề xuất V.Vapnik đồng nghiệp vào năm 1970 Nga, sau trở nên tiếng năm 90 kỉ trước 3.1.1 Tổng quan SVM Cho tập liệu huấn luyện biểu diễn không gian vector, liệu biểu diễn điểm Đặc điểm thuật toán SVM tìm siêu phẳng định tốt để chia điểm không gian thành hai lớp riêng biệt đánh số +1 -1 Chất lượng siêu phẳng định khoảng cách (được gọi biên – margin) điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn siêu phẳng định tốt việc phân loại xác Mục đích SVM tìm khoảng cách biên lớn lỗi tách sai bé Như việc tìm biên cực đại vấn đề cốt lõi định đến chất lượng phân loại phương pháp SVM Cho tập mẫu {(x1,y1), (x2,y2), …, (xn,yn)} với xi Rn thuộc vào hai lớp nhãn yi {1, +1} nhãn lớp tương ứng xi với -1 nhãn biểu thị lớp âm, +1 nhãn biểu thị lớp dương Ta có phương trình siêu phẳng chứa vector ⃗⃗⃗ không gian sau: (1.1) ⃗⃗⃗ ⃗⃗ + b = Trong w vector pháp tuyến n chiều b giá trị ngưỡng Vector pháp tuyến w xác định chiều siêu phẳng h(x), giá trị ngưỡng b xác định khoảng cách siêu phẳng gốc (1.2) ⃗⃗⃗ ⃗⃗ Đặt (⃗⃗⃗ ) (⃗⃗⃗ ⃗⃗ + b) = { ⃗⃗⃗ ⃗⃗ Bài toán đặt làm để tìm mặt phẳng phân tách h( ) tối ưu, tức tìm w b cho biên mặt phẳng phân tách cực đại 3.1.2 Phân lớp tuyến tính Hình thức đơn giản việc phân lớp phân lớp nhị phân: gồm hai lớp dương (+1) âm (-1) Phân lớp nhị phân sử dụng hàm giá trị thực h: X Rn R hàm tuyến tính, tương ứng đầu y {-1,1} Có đầu vào x = (x1, x2, …, xn) gán nhãn y = (-1,+1) Với { * * + ( ) { ( ) + (1.3) Bởi h(x) hàm tuyến tính nên ( ) ∑ (1.4) Từ rút siêu phẳng phân chia thỏa mãn công thức sau: (1.5) ( Về mặt hình học, phần tử không gian đầu vào X thuộc hai phần phân tách siêu phẳng xác định biểu thức + b = với tích vô hướng Trong không gian hai chiều điểm có phương trình = tương ứng với đường qua gốc tọa độ, không gian ba chiều mặt phằng qua gốc tọa độ Biến b dịch chuyển mặt phẳng khoảng so với mặt phẳng gốc tọa độ Như đề cập trên, vấn đề cốt lõi để tìm siêu phẳng h(x) tối ưu, tức tìm w b để khoảng cách biên cực đại Gọi m độ rộng biên Ta phải tìm w b cho m lớn Với mặt phẳng phân tách ta định nghĩa hai đường nằm hai phía tách điểm có dấu dương dấu âm gọi đưởng cộng đường trừ Đường cộng đường nằm phía lớp có dấu dương, đường trừ nằm phía dấu âm Các điểm nằm hai đường gọi vector hỗ trợ Phương trình đường cộng wTx + b = Phương trình đường trừ wTx + b = -1 Tính w b ta có phương trình siêu phẳng 3.1.3 Phân lớp tuyến tính với trường hợp không phân tách Thuật toán phân lớp tuyến tính trường hợp không phân tách gọi thuật toán C-SVM Giả sử có toán sau: Hình 1.1: Ví dụ toán phân loại tuyến tính không tách biệt Theo hình trên, tồn điểm có nhãn dương nằm phía nhãn âm ngược lại.Trong thực tế, liệu thường không phân chia tuyến tính.Trường hợp phân lớp tuyến tính phân tách lý tưởng xảy Nếu tập liệu chứa nhiễu điều kiện không thỏa mãn, không tìm giá trị tối ưu w b Để chấp nhận số lỗi, ta thay ràng buộc dạng bất đẳng thức (1.5) thành: (1.6) ( ) biến phụ không âm Đối với ví dụ bị lỗi ξi > ∑i ξi giới hạn lỗi ví dụ huấn luyện Ngoài ta phải tích hợp lỗi vào hàm mục tiêu cách gán giá trị chi phí cho lỗi Hàm tối ưu hóa trở thành: ‖ ‖ (∑ ) với ràng buộc: Trong C > tham số xác định mức độ chi phí lỗi (penalty degree) (1.7) Giá trị C lớn mức độ chi phí cao lỗi Nó thiết lập mức độ quan trọng việc cực đại biên giảm số lượng biến phụ i Đây công thức SVM biên mềm (Cortes Vapnik, 1995) Giá trị k thường sử dụng để thu biểu thức đối ngẫu đơn giản Như theo hàm tối ưu hóa trên,chúng ta phải tìm cực tiểu ||w|| 2, phải thêm khoảng cách điểm lỗi đến vị trị Để giải toán cực tiểu hóa này, ta sử dụng biến đổi Lagrange trên, với biểu thức Lagrange sau: ‖ ‖ ∑ , ( ∑ ) - ∑ (1.8) i i hệ số nhân Lagrange Từ ta có tập điều kiện Karush Kuhn Tucker sau: (1.9) ∑ (1.10) ∑ (1.11) ( ( ( ) (1.12) ) ) (1.13) (1.14) Chú ý i hệ số nhân Lagrange không xuất biểu thức đối ngẫu hàm mục tiêu giống trường hợp SVM biên cứng trên, khác điều kiện ràng buộc w tính theo (1.9).Tuy nhiên giá trị b phụ thuộc vào i , mà ta lại chưa có giá trị i Như ta sử dụng mẫu xk thỏa mãn điều kiện để tính giá trị b Từ ta có kết luận sau: - Nếu i yi (w.xi + b) i =0 - Nếu < i < C yi (w.xi + b) = i =0 - Nếu i C yi (w.xi + b) < i >0 Kết luận cho thấy: điểm nằm viền có giá trị i =0 chúng chiếm số lượng lớn tập huấn luyện Các điểm nằm viền vector hỗ trợ có i khác Còn lại điểm bị lỗi điểm có i = C 3.1.4 Phân lớp phi tuyến tính Trong nhiều trường hợp phân lớp phi tuyến có độ xác cao Tuy nhiên phân lớp tuyến tính thuật toán đơn giản Vì người ta nghĩ cách để phân lớp tuyến tính áp dụng sang cho phân lớp phi tuyến Hướng giải ánh xạ liệu sang không gian rộng hơn, chúng trở thành phân loại tuyến tính Trong không gian này, điểm liệu trở thành khả tách tuyến tính phân tách với lỗi so với trường hợp sử dụng không gian ban đầu Một mặt định tuyến tính không gian tương ứng với mặt định phi tuyến tính không gian ban đầu x (x) Từ đó: f(x) = w.(x) + b Miền ánh xạ thể hình dưới: Hình 1.2: Chuyển đổi không gian biểu diễn Không gian biểu diễn ban đầu gọi không gian đầu vào (input space); Không gian biểu diễn sau chuyển đổi gọi không gian đặc trưng (feature space); Chiều không gian đặc trưng liên quan kích thước không gian đầu vào Thông thường số chiều không gian đặc trưng lớn nhiều số chiều không gian ban đầu Một điểm liệu đặc trưng tọa độ (xi, yi) Khi ánh xạ vào không gian đặc trưng nhiều chiều hơn, giả sử không gian chiều, phép biến đổi là: 12 Đối với giá trị liên tục sử dụng chuẩn hóa Min – Max chuẩn hóa ZScore - Chuẩn hóa Min – Max: ( ) ( ) ( ) ( ) ( ) (1.18) Trong đó: X : giá trị thuộc tính đổi tượng min(X): giá trị nhỏ miền giá trị thuộc tính max(X): giá trị lớn miền giá trị thuộc tính - Chuẩn hóa Z-Score: ( ) ( ) (1.19) Trong đó: X : giá trị thuộc tính đổi tượng mean(X) giá trị trung bình miền giá trị thuộc tính; SD(X) độ lệch chuẩn thuộc tính Đối với biến danh sách đo khoảng cách Euclide không thích hợp, ta định nghĩa hàm khác, sử dụng để so sánh giá trị thuộc tính thứ i ghi sau: ( ) { (1.20) Trong đó: xi, yi thuộc tính thứ i loại danh sách đối tượng x y Sau thay hàm Different(xi,yi) cho thuộc tính thứ i thước đo khoảng cách Euclide nói 3.2.4 Chọn K Trong thực tế, cách chọn cho giải pháp tốt Nếu chọn K nhỏ phân loại hay dự đoán dễ bị ảnh hưởng giá trị ngoại lai (nhiễu) Thuật toán bị tình trạng khớp liệu (overfitting) khả khái quát chung liệu Còn chọn K lớn đặc tính riêng biệt (các láng giềng giống nhất) từ tập huấn luyện bị bỏ qua (làm mịn liệu) 3.3 Thuật toán học máy giám sát: One-class SVM 3.3.1 Tổng quan One-class SVM One-class SVM đề xuất Schölkopf để ước lượng hỗ trợ phân bố chiều cao (a high-dimensional distribution) Cho tập liệu không đánh nhãn thông tin gì, One-class SVM xây dựng hàm định, theo lấy giá trị +1 13 tròn vùng nhỏ bắt hầu hết điểm liệu, lấy giá trị -1 trường hợp lại 3.3.2 Thuật toán One-class SVM Bài toán One-class SVM: Cho tập huấn luyện thông tin nhãn phân loại sau: (1.21) Để phân chia tập liệu từ tập gốc, One-class SVM cần giải phương trình (Schölkopf – 2001) sau: (1.22) ∑ Với ràng buộc: Trong Ф hàm ánh xạ, giá trị w (1.23) có dạng hàm định tuyến tính sau: ( ) (( ( )) ) (1.23) ngưỡng sử dụng hàm định (1.24) để tổng quát hóa liệu lạ thường Vì lý tính toán, thay giải (1.23) trực tiếp, One-class SVM giải đồng thời toán sau: (1.24) Với ràng buộc: Trong Qij = K(xi, xj) =Ф(xi)TФ(xj) Lời giải giá trị α (1.25) sử dụng để tính giá trị w (33) Để giúp ngăn chặn số hạng sau dấu chấm tính toán không gian đặc trưng nhiều chiều, SVM sử dụng hàm nhân K(xi, xj) =Ф(xi)TФ(xj) hàm Radial Basic Function (RBF), loại hàm nhân hợp lý hay sử dụng SVM 14 ( CHƢƠNG ) ( ‖ ‖ ) (1.25) PHÁT HIỆN XÂM NHẬP TRÁI PHÉP VÀ CÁCH TIẾP CẬN BẰNG PHƢƠNG PHÁP HỌC MÁY Khái niệm xâm nhập trái phép 1.1 Xâm nhập trái phép Xâm nhập trái phép mạng máy tính hành vi đột nhập vào mạng (tấn công mạng) để truy cập, thao tác lạm dụng số tài sản có giá trị mạng Phát xâm nhập tập hợp kỹ thuật phương pháp sử dụng trình theo dõi kiện bất thường đáng nghi ngờ xảy hệ thống máy tính mạng, từ phân tích tìm dấu hiệu cố xảy 1.2 Hệ thống IDS 1.2.1 Khái niệm IDS từ viết tắt tiếng Anh Intrusion Detection System hay gọi hệ thống phát truy nhập trái phép Theo định nghĩa Wiki, hệ thống phát xâm nhập IDS thiết bị phần cứng phần mềm theo dõi hệ thống mạng, có chức giám sát lưu thông mạng, tự động theo dõi kiện xảy hệ thống mạng máy tính, phân tích để phát vấn đề liên quan đến an ninh, bảo mật đưa cảnh báo IDS có nhiệm vụ rà quét gói tin mạng, phát truy nhập trái phép, dấu hiệu công vào hệ thống từ cảnh báo cho người quản trị hay phận điều khiển biết nguy xảy công trước xảy 1.2.2 Thành phần hệ thống IDS Kiến trúc hệ thống IDS bao gồm thành phần chính: Thành phần thu thập gói tin (information collection), thành phần phân tích gói tin ( Dectection), thành phần phản hồi (response) gói tin phát công tin tặc Trong thành phần thành phần phân tích gói tin thành phần quan trọng thành phần cảm biến đóng vai trò định nên xâu vào phân tích cảm biến để hiểu rõ kiến trúc hệ thống phát xâm nhập Phân loại phát xâm nhập trái phép theo nguồn liệu Dựa nguồn liệu có hai loại hệ thống phát xâm nhập: Network Based IDS Host Based IDS 15 2.1 Phát xâm nhập trái phép mạng (Network-based) Network-based Instrusion Detection System (Hệ thống phát truy nhập cho mạng) giải pháp độc lập để xác định truy nhập trái phép cách kiểm tra luồng thông tin mạng giám sát nhiều máy trạm Hình 2.1: Hệ thống Network-based IDS (NIDS) 2.2 Phát xâm nhập trái phép máy chủ (Host-based) Trong hệ thống HIDS (Hệ thống phát truy nhập dựa máy trạm), Sensor thường thường phần mềm máy trạm (Software agent), giám sát tất hoạt động máy trạm mà nằm Hình 2.2: Hệ thống Host-based IDS (HIDS) Phân loại phát xâm nhập trái phép theo kỹ thuật phân tích liệu Phát xâm nhập trái phép dựa vào kỹ thuật phân tích liệu có hai phương pháp phát dựa lạm dụng (Misuse Detection) phát không bình thường (Anomaly Detection) 3.1 Misuse Detection Phương pháp phân tích hoạt động hệ thống, tìm kiếm kiện giống với mẫu công biết trước Thông thường hệ thống lưu trữ sở liệu gói tin có liên quan đến kiểu công từ trước dạng so sánh được, trình xử lý kiện so sánh Với thông tin sở liệu giống hệ thống đưa cánh báo ngăn chặn Các mẫu công biết trước gọi dấu hiệu công Do phương pháp gọi phương pháp dò dấu hiệu (Signature Detection) 16 Hình 2.3: Hệ thống Misuse Detection Kiểu phát công dấu hiệu có ưu điểm phát công nhanh Và xác, không đưa cảnh báo Sai làm giảm khả họat động mạng giúp người quản trị xác định lỗ hổng bảo mật hệ thống Tuy nhiên, phương pháp có nhược điểm không phát công mẫu, kiểu công 3.2 Anomaly Detection Đây kỹ thuật dò thông minh cách nhận dạng hành động không bình thường mạng Quan niệm phương pháp công khác so với hoạt động thông thường Ban đầu, chúng lưu trữ mô tả sơ lược họat động bình thường hệ thống Các công có hành động khác so với trạng thái bình thường nhận dạng chúng Hình 2.4: Hệ thống Anomaly Detection Phương pháp dò không bình thường hệ thống hữu hiệu việc phát công kiểu từ chối dịch vụ Ưu điểm phương pháp phát kiểu công mới, cung cấp thông tin hữu ích bô sung cho phương pháp dò lạm dụng, nhiên chúng có nhược điểm thường tạo số lượng tương đối lớn cảnh báo sai làm giảm hiệu suất họat động mạng Tuy nhiên phương pháp hướng nghiên cứu nhiều hơn, hoàn thiện nhược điểm, đưa cảnh báo sai để hệ thống chạy chuẩn xác Phát xâm nhập trái phép tiếp cận băng phƣơng pháp học máy (Machine Learning Approach) Hệ thống phát xâm nhập dựa bất thường có ưu điểm so với hệ thống dựa dấu hiệu Thứ nhất, có khả phát công chưa nhận diện trước mô hình hóa hoạt động bình thường hệ thống từ phát độ lệch hành vi bất thường so với mô hình Ưu điểm thứ có khả tùy biến hồ sơ hành vi bình thường cho tất hệ thống, ứng dụng mạng Do 17 đó, giúp làm tăng mức độ phức tạp kẻ công cố gắng thực dò tìm cách công mà không để bị phát Hệ thống phát xâm nhập dựa bất thường trở thành xu hướng phát triển hệ thống phát xâm nhập; để góp phần cải thiện hiệu hệ thống có nhiều kỹ thuật áp dụng có kỹ thuật học máy Kiến trúc hệ thống phát xâm nhập dựa bất thường minh họa sau: gồm khối khối tham số hóa; khối huấn luyện khối phát Khối tham số hóa bao gồm công việc thu thập liệu nguyên gốc từ hệ thống giám sát mạng Khối huấn luyện thực tìm kiếm mô hình cho hệ thống sử dụng phương pháp thủ công tự động Khối phát thực so sánh hệ thống sinh từ khối huấn luyện với phần liệu tham số hóa đưa vào Một tiêu chí ngưỡng lựa chọn để xác định liệu đưa vào bất thường hay không Các phương pháp học máy giúp xây dựng mô hình cách tự động dựa liệu huấn luyện Hiện có số hướng áp dụng học máy phát xâm nhập trái phép dựa bất thường, là: phương pháp học có giám sát phương pháp học giám sát Hình 2.5: Kiến trúc hệ thống phát xâm nhập dựa bất thƣờng 4.1 Phát xâm nhập trái phép dựa vào học máy có giám sát Phương pháp học có giám sát (hay gọi phương pháp phân loại) yêu cầu tập liệu huấn luyện đánh nhãn chứa liệu thông thường liệu bất thường để từ xây dựng mô hình dự đoán Về mặt lý thuyết, phương pháp học có giám sát có hiệu phát tốt phương pháp học không giám sát Tuy nhiên, phương pháp tồn số vấn đề ảnh hưởng tới tính xác Đầu tiên, kích thước tập liệu huấn luyện, bé để bao trùm hết tất trường hợp Ngoài ra, việc đánh nhãn cách xác thử thách tập liệu huấn luyện tồn nhiễu nên gây tình trạng cảnh báo sai với tần suất cao Một số phương pháp học có giám sát thường sử dụng như: Mạng Neural có giám sát, SVM, K-NN, mạng Bayes Cây định 4.2 Phát xâm nhập trái phép dựa vào học máy giám sát Phương pháp học giám sát không yêu cầu cần phải có liệu huấn luyện Phương pháp dựa giả thiết Thứ nhất, giả thiết phần lớn kết nối mạng 18 luồng liệu bình thường có số luồng liệu bất thường Thứ hai, biết trước luồng liệu bất thường khác mặt thống kê so với luồng liệu bình thường Theo giải thiết trên, nhóm liệu trường hợp xuất với tần suất thường xuyên coi luồng liệu bình thường, trường hợp xuất với tần suất không bình thường khác với đa số trường hợp khác coi bất thường Một số phương pháp học giám sát là: K-means, C-Means, One-class SVM, kỹ thuật Clustering Mô tả toán đề xuất luận văn Trong phạm vi luận văn này, đề xuất sử dụng phương pháp học máy có giám sát (K-NN SVM) phương pháp học máy không giám sát (One-class SVM) để thực kiểm thử việc phát xâm nhập trái phép mạng dựa bất thường liệu mạng dạng Netflow 5.1 Lựa chọn luồng liệu Net-Flow Netflow giao thức hãng Cisco phát triển vào năm 1996, phát triển thành công nghệ giám sát lưu lượng mạng Netflow cho phép thực giám sát, phân tích, tính toán lưu lượng gói Một ưu điểm Netflow so với giao thức khác cho phép định danh phân loại loại công DoS, DDoS, Virus, Worm, theo thời gian thực dựa vào hành vi thay đổi bất thường mạng, đặc biệt mạng có lưu lượng lớn Trên giới tồn số liệu tiếng DARPA, KDD-99, ISCX, Tuy vậy, liệu tồn dạng tcpdump, dạng Netflow nên không ứng dụng nghiên cứu IDS Netflow Các liệu dạng Netflow ít, có không đầy đủ chưa hoàn chỉnh Để có liệu kiểm thử luận văn, phần sau, trình bày phương pháp xây dựng liệu dạng Netflow 5.2 Phát bất thường K-NN, SVM One-class SVM Với thuật toán học máy KNN, SVM, One-class SVM tìm hiểu chương I, đề xuất sử dụng phương pháp thử nghiệm sau: - Thuật toán K-NN: lựa chọn K = 1, 4; - Thuật toán SVM: o Hàm nhân tuyến tính (Linear kernel) Hàm linear kernel có dạng: ( ) o Hàm nhân đa thức (Polynomial kernel) Hàm polynomial kernel có dạng: (2.1) 19 ( ) ( ) o Hàm nhân RBF (RBF kernel) Hàm RBF kernel có dạng: (2.2) ‖ ‖ ( ) o Hàm nhân đường xích-ma (sigmoid kernel) (2.3) Hàm sigmoid kernel có dạng: ( - ) ( ) (2.4) Thuật toán One-class SVM: sử dụng hàm nhân RBF Hàm RBF kernel có dạng: ( ) ‖ ‖ (2.5) 20 CHƢƠNG ỨNG DỤNG PHƢƠNG PHÁP HỌC MÁY KNN, SVM VÀ ONE-CLASS SVM ĐỂ PHÁT HIỆN BẤT THƢỜNG Mô hình thử nghiệm Mô hình thử nghiệm gồm có: Dataset Darpa/ ISCX tcpdump Chuyển đổi liệu Dataset Darpa/ ISCX netflow Dataset Darpa/ ISCX tcpdump 10-Fold cross-validation Bộ kiểm thử thuật toán học máy K-NN, SVM Trích chọn đặc trƣng Dataset Netflow rút gọn Kết kiểm thử Hình 3.1: Mô hình kiểm thử với thuật toán học máy có giám sát Chuyển đổi liệu Dataset Darpa/ ISCX netflow One-class Flags Training set Testing set Trích chọn đặc trƣng Bộ kiểm thử thuật toán học máy One-class SVM Dataset Netflow rút gọn Kết kiểm thử Hình 3.2: Mô hình kiểm thử với thuật toán học máy giám sát 1.1 Giới thiệu liệu thử nghiệm DARPA ISCX Research Center 1.1.1 Bộ liệu DARPA Tcpdump Bộ liệu DARPA hình thành Cục dự án nghiên cứu cao cấp Bộ quốc phòng Mỹ (Defense Advanced Research Project Agency) tài trợ đề tài xây dựng sở liệu mẫ xâm nhập trái phép Phòng thí nghiệm Lincoln, Đại học MIT Để xây dựng tập liệu này, nhà khoa học lây liệu mạng quân Mỹ hoạt động bình thường làm liệu bình thường; sau đưa thêm liệu xâm nhập trái phép vào tập liệu Cách làm cho phép biết chắn đâu liệu bình thường, đâu liệu xâm nhập trái phép Toàn liệu có kích thước khoảng 10Gb, gồm 54 loại xâm nhập phân làm nhóm: R2L (Remote to Local – nhóm xâm nhập cho phép kẻ công từ xa lấy quyền người dung máy chủ), U2R (User to Root – nhóm xâm nhập cho phép người dùng bình thường máy chủ đoạt quyền quản trị root), DoS (Denial of Service – nhóm công từ chối dịch vụ, phá hoạt tính sẵn sàng hệ thống), Probe (là nhóm công thám, ảnh hưởng đến tính bảo mật hệ thống, đồng thời cung cấp thông tin cần thiết để tiến hành bước công 21 1.1.2 Bộ liệu ISCX Tcpdump Information Security Centre of Excellence (ISCX) trung tâm nghiên cứu an toàn thông tin trường đại học New Brunswick (UNB) – Canada ISCX xây dựng mô hình mạng, mô công mạng dựa giao thức HTTP, SMTP, SSH, IMAP, POP3 FTP Những luồng liệu thông thường bất thường bắt giữ đánh dấu Bộ liệu UNB ISCX 2012 IDS bao gồm liệu thu thập vòng ngày, bao gồm liệu thông thường bất thường dạng Tcpdump Bộ liệu ISCX 1.2 Chuyển đổi liệu từ Tcpdump sang Netflow Để phục vụ cho đề tài luận văn này, thực xây dựng Bộ liệu dạng Netflow sở liệu Tcpdump để dùng IDS (Kết việc chuyển đổi liệu từ dạng Tcpdump sang Netflow trình bày chi tiết báo khoa học “Bộ liệu dạng Netflow dùng phát xâm nhập trái phép ứng dụng” đăng Tạp chí Khoa học công nghệ thông tin truyền thông, số 1, tháng năm 2016 Học viện Công nghệ Bưu viễn thông) Đầu việc chuyển đổi liệu 02 liệu dạng Netflow DARPA Netflow ISCX Netflow Cài đặt thử nghiệm 2.1 Tập liệu thử nghiệm DARPA Netflow Như đề cập mục chuyển đổi liệu nêu trên, sau chuyển đổi liệu DARPA Tcpdump, thu thập phân tách liệu netflow tương ứng với máy chủ victim Trong phạm vi luận văn này, dự kiến sử dụng tập liệu thử nghiệm tập liệu netflow máy chủ Pascal (172.16.112.50), trình bày chi tiết sau: Bảng 3.1: Các thông số liệu netflow máy chủ Pascal Mô tả Số lượng flow đến máy chủ Pascal Số lượng flow công vào máy chủ Pascal Số lượng flow bình thường vào máy chủ Pascal Giá trị 170.153 29.416 140.737 2.2 Tập liệu thử nghiệm ISCX Netflow Như đề cập mục chuyển đổi liệu nêu trên, sau chuyển đổi liệu ISCX Tcpdump, thu thập liệu netflow tương ứng với ngày thu thập ISCX Trong phạm vi luận văn này, dự kiến sử dụng tập liệu thử nghiệm tập liệu netflow ngày 14/6/2010 có ghi nhận xâm nhập trái phép loại HTTP Denial of Service, trình bày chi tiết sau: 22 Bảng 3.2: Các thông số liệu ISCX Netflow Mô tả Giá trị 18.682 1.000 17.682 Tổng số lượng flow Số lượng flow công Số lượng flow bình thường 2.3 Trích chọn đặc trưng Bộ liệu netflow gồm nhiều trường liệu khác Tuy nhiên, để ứng dụng phát xâm nhập trái phép, lựa chọn sử dụng đặt trưng sau: Bảng 3.3: Các đặc trƣng lựa chọn phát xâm nhập trái phép Tên đặc trƣng Protocol Mô tả Giao thức kết nôi Packets Số lượng gói tin (packet) flow Octets Số lượng bytes flow Flags Số dạng hexa biểu thị cờ flow Các đặc trưng trích chọn nêu dạng số (numeric) nên thuận lợi cho việc thử nghiệm phát xâm nhập trái phép phương pháp học máy, mô phần mềm Weka Đặc trưng Flags gán nhãn Normal Abnormal biểu thị Flow bình thường bất thường sử dụng làm nhãn phân loại Thông tin liệu DARPA Netflow dùng để thử nghiệm sau: gồm 38.278 flows (dòng liệu) Bảng 3.4: Thông tin liệu thử nghiệm DARPA Netflow máy chủ Pascal Thuộc tính Giá trị Protocol 1, 6, 17 Octets 46 – 8.279.218 Packets – 179.983 Flags Normal (9.856), Abnormal (29.422) Thông tin liệu ISCX Netflow dùng để thử nghiệm sau: gồm 18.682 flows (dòng liệu) Bảng 3.5: Thông tin liệu thử nghiệm ISCX Netflow ngày 14/6 Thuộc tính Giá trị Protocol Octets 46 – 1.045.728 Packets – 22.528 Flags Normal (17.682), Abnormal (1.000) 23 2.4 Cài đặt Trước thực thử nghiệm với thuật toán học máy K-NN, SVM Oneclass SVM, liệu cần thực chuẩn hóa để nâng cao tính xác cho thuật toán học máy Đối với thuật toán học máy có giám sát (K-NN SVM), liệu chuẩn hóa sử dụng lọc Discretize Weka Đối với thuật toán học máy giám sát (One-class SVM), liệu chuẩn hóa sử dụng lọc Normalize Weka - Đối với cài đặt thử nghiệm thuật toán học máy có giám sát, cách thức thử nghiệm đánh sau: Sử dụng phương pháp đánh giá 10-fold cross-validation Weka liệu dataset đầy đủ Với phương pháp này, liệu dataset đầy đủ chia cách ngẫu nhiên thành 10 tập Với 10 tập con, tập sử dụng cho mục đích kiểm thử, tập khác sử dụng cho mục đích liệu huấn luyện Phương pháp 10-fold cross-validation Weka thực lặp lặp lại 10 lần với tập liệu, lần với tập làm tập kiểm thử Kết 10 lần thực tính giá trị trung bình để xác định hiệu tổng thể giải thuật học máy - Đối với cài đặt thử nghiệm thuật toán học máy giám sát, cách thức thử nghiệm đánh sau: Thuật toán sử dụng để thử nghiệm One-class SVM Do nhãn phân loại liệu 01 nhãn Bộ liệu sử dụng trình Training liệu Dataset gồm Flow bất thường Bộ liệu sử dụng trình kiểm thử Testing liệu Dataset đầy đủ gán nhãn phân loại toàn bất thường Kết đánh giá 3.1 Tiêu chí đánh giá hệ thống IDS - Các thông số đánh giá độ xác mô hình bao gồm: Độ xác (Accuracy – AC) số lượng mẫu dự đoán đúng: True Positive (TP): tỉ lệ phát mẫu công (các nhãn positive gán nhãn positive) False Positive (FP): tỉ lệ phát sai mẫu công lại gán nhãn công (các nhãn negative bị gán nhãn nhầm positive) True Negative (TN): tỉ lệ phát mẫu công (các nhãn negative gán nhãn negative) False Negative (FN): tỉ lệ phát sai mẫu công lại gãn nhãn bình thường (các nhãn positive bị gán nhãn nhầm negative) Precision (P): 24 - Đánh giá hệ thống IPS người ta chủ yếu dựa vào thông số False Positive ( cảnh báo sai), True Positive (cảnh báo đúng), dùng tỷ lệ yếu tố xây dựng nên đường cong ROC (Recevier Operating Characteristic Curve) 3.2 Kết thử nghiệm Chi tiết xem Mục 3, Mục - Phụ lục 01 Bản luận văn 3.3 Đánh giá Dựa kết thực nghiệm, ta thu kết sau: - Đối với liệu DARPA Netflow Thuật toán có giám sát K-NN K=1 97.1664 AC % TP 0.997 FP 0.104 P 0.966 K-NN K=4 97.146 % 0.997 0.105 0.966 SVM Linear 97.1282 % 0.997 0.105 0.966 SVM Poly 97.1714 % 0.997 0.104 0.966 SVM RBF 97.1664 % 0.997 0.104 0.966 SVM Sigmoid 97.0391 % 0.997 0.108 0.965 Thuật toán không giám sát SVM One-class 82.8072 % Hình 3.3: So sánh độ xác (AC) thuật toán học máy với liệu DARPA Netflow - Đối với liệu ISCX Netflow Thuật toán có giám sát K-NN K=1 AC 99.7752 % K-NN K=4 99.7538 % SVM Linear 99.7752 % SVM Poly 99.7805 % SVM RBF 99.7805 % SVM Sigmoid 99.7805 % Thuật toán không giám sát SVM One-class 87.1641 % 25 TP 0.999 FP 0.002 P 0.961 0.003 0.956 0.999 0.002 0.961 0.999 0.002 0.962 0.999 0.002 0.962 0.999 0.002 0.962 Hình 3.4: So sánh độ xác (AC) thuật toán học máy với liệu ISCX Netflow Nhận xét: - Qua thử nghiệm với hai liệu DARPA Netflow ISCX Netflow, thuật toán học máy có giám sát có độ xác cao thuật toán học máy giám sát; - Đối với thuật toán học máy có giám sát, liệu huấn luyện kiểm thử đánh nhãn đầy đủ độ xác phân loại cao; - Đối với thuật toán học không giám sát (One-class SVM): liệu đánh nhãn phân loại nên độ xác phân loại không cao; - Các đặc trưng sử dụng để thử nghiệm flow (4 đặc trưng) Điều góp phần làm tăng độ xác thuật toán trình kiểm thử 26 KẾT LUẬN Kết đạt đƣợc Luận văn trình bày cách thức ứng dụng phương pháp học máy để phát xâm nhập trái phép mạng dựa bất thường Dựa sở lý thuyết thuật toán học máy SVM, K-NN, One-class SVM lý thuyết phát xâm nhập trái phép dựa bất thường, luận văn thực đề xuất mô hình thử nghiệm số thuật toán học máy để phát bất thường liệu dạng Netflow Nội dung chi tiết phần mà luận văn thực được: - - Nghiên cứu cách tổng quan phương pháp học máy; nghiên cứu chi tiết số thuật toán học máy SVM, K-NN, One-class SVM; Nghiên cứu hệ thống phát xâm nhập trái phép, số hệ thống phát xâm nhập trái phép, đặc biệt hệ thống phát xâm nhập trái phép dựa bất thường Từ đó, đề xuất cách thức phát xâm nhập trái phép dựa bất thường phương pháp tiếp cận học máy; Đã xây dựng liệu thử nghiệm dạng Netflow cách chuyển đổi từ liệu tiếng DARPA, ISCX dạng Tcpdump; sở liệu thử nghiệm dạng Netflow thực thử nghiệm phát bất thường công cụ WEKA sử dụng thuật toán học máy SVM, K-NN, One-class SVM Hƣớng nghiên cứu tƣơng lai Luận văn dừng lại việc thử nghiệm thuật toán học máy liệu thử nghiệm Netflow Trong tương lai, đề xuất hướng nghiên cứu tiếp theo: - - Bộ liệu dạng Netflow liệu mới, có nhiều ưu điểm việc nghiên cứu IDS Do đó, tương lai tiếp tục nghiên cứu hoàn thiện liệu dạng Netflow; Nghiên cứu, cải tiến phương pháp học máy nhằm nâng cao hiệu phát xâm nhập trái phép dựa bất thường liệu dạng Netflow; Tích hợp vào hệ thống bảo mật quan, tổ chức để giúp tăng cường an toàn thông tin cho hệ thống mạng [...]... One-class SVM; Nghiên cứu về hệ thống phát hiện xâm nhập trái phép, một số hệ thống phát hiện xâm nhập trái phép, đặc biệt là hệ thống phát hiện xâm nhập trái phép dựa trên bất thường Từ đó, đề xuất cách thức phát hiện xâm nhập trái phép dựa trên bất thường bằng phương pháp tiếp cận học máy; Đã xây dựng được một bộ dữ liệu thử nghiệm dạng Netflow bằng cách chuyển đổi từ các bộ dữ liệu nổi tiếng DARPA, ISCX... vào Một tiêu chí ngưỡng được lựa chọn để xác định dữ liệu đưa vào là bất thường hay không Các phương pháp học máy có thể giúp xây dựng các mô hình một cách tự động dựa trên dữ liệu huấn luyện Hiện có một số hướng áp dụng học máy trong phát hiện xâm nhập trái phép dựa trên bất thường, đó là: phương pháp học có giám sát và phương pháp học không có giám sát Hình 2.5: Kiến trúc của hệ thống phát hiện xâm. .. cùng các lý thuyết về phát hiện xâm nhập trái phép dựa trên bất thường, luận văn đã thực hiện đề xuất mô hình thử nghiệm một số thuật toán học máy để phát hiện bất thường trên bộ dữ liệu dạng Netflow Nội dung chi tiết các phần mà luận văn đã thực hiện được: - - Nghiên cứu một cách tổng quan về phương pháp học máy; nghiên cứu chi tiết một số thuật toán học máy như SVM, K-NN, One-class SVM; Nghiên cứu. .. phát hiện xâm nhập: Network Based IDS và Host Based IDS 15 2.1 Phát hiện xâm nhập trái phép trên mạng (Network-based) Network-based Instrusion Detection System (Hệ thống phát hiện truy nhập cho mạng) là một giải pháp độc lập để xác định các truy nhập trái phép bằng cách kiểm tra các luồng thông tin trên mạng và giám sát nhiều máy trạm Hình 2.1: Hệ thống Network-based IDS (NIDS) 2.2 Phát hiện xâm nhập. .. thống, các ứng dụng và các mạng Do 17 đó, nó giúp làm tăng mức độ phức tạp đối với kẻ tấn công khi cố gắng thực hiện dò tìm cách tấn công mà không để bị phát hiện Hệ thống phát hiện xâm nhập dựa trên bất thường hiện nay đang trở thành xu hướng phát triển của các hệ thống phát hiện xâm nhập; và để góp phần cải thiện hiệu quả của hệ thống hiện nay có rất nhiều kỹ thuật được áp dụng trong đó có kỹ thuật học. .. w và của (33) Để giúp ngăn chặn số hạng sau dấu chấm trong tính toán trong không gian đặc trưng nhiều chiều, SVM sử dụng hàm nhân K(xi, xj) =Ф(xi)TФ(xj) là hàm Radial Basic Function (RBF), là loại hàm nhân hợp lý nhất hay sử dụng trong SVM 14 ( CHƢƠNG 2 ) ( ‖ ‖ ) (1.25) PHÁT HIỆN XÂM NHẬP TRÁI PHÉP VÀ CÁCH TIẾP CẬN BẰNG PHƢƠNG PHÁP HỌC MÁY 1 Khái niệm về xâm nhập trái phép 1.1 Xâm nhập trái phép Xâm. .. nhập trái phép trên máy chủ (Host-based) Trong hệ thống HIDS (Hệ thống phát hiện truy nhập dựa trên máy trạm), các Sensor thường thường là một phần mềm trên máy trạm (Software agent), nó giám sát tất cả các hoạt động của máy trạm mà nó nằm trên đó Hình 2.2: Hệ thống Host-based IDS (HIDS) 3 Phân loại phát hiện xâm nhập trái phép theo kỹ thuật phân tích dữ liệu Phát hiện xâm nhập trái phép dựa vào kỹ... phát hiện xâm nhập dựa trên bất thƣờng 4.1 Phát hiện xâm nhập trái phép dựa vào học máy có giám sát Phương pháp học có giám sát (hay còn gọi là phương pháp phân loại) yêu cầu một tập dữ liệu huấn luyện được đánh nhãn chứa cả dữ liệu thông thường và dữ liệu bất thường để từ đó xây dựng một mô hình dự đoán Về mặt lý thuyết, phương pháp học có giám sát có hiệu năng phát hiện tốt hơn phương pháp học không... xuất trong luận văn Trong phạm vi luận văn này, tôi đề xuất sử dụng phương pháp học máy có giám sát (K-NN và SVM) và phương pháp học máy không giám sát (One-class SVM) để thực hiện kiểm thử việc phát hiện xâm nhập trái phép trong mạng dựa trên bất thường đối với dữ liệu mạng dạng Netflow 5.1 Lựa chọn luồng dữ liệu Net-Flow Netflow là một giao thức do hãng Cisco phát triển vào những năm 1996, được phát. .. không cao; - Các đặc trưng được sử dụng để thử nghiệm đối với mỗi flow là ít (4 đặc trưng) Điều này cũng góp phần làm tăng độ chính xác của các thuật toán trong quá trình kiểm thử 26 KẾT LUẬN 1 Kết quả đạt đƣợc Luận văn đã trình bày được cách thức ứng dụng các phương pháp học máy để phát hiện xâm nhập trái phép trong mạng dựa trên bất thường Dựa trên cơ sở lý thuyết của các thuật toán học máy SVM, K-NN,