Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

26 245 1
Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Lê Thị Hằng NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT TẬP THÔ TRONG PHÂN LỚP DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2017 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS.Vũ Văn Thỏa Phản biện 1: ………………………………………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông LỜI MỞ ĐẦU Những năm gần đây, với phát triển Công nghệ thông tin, người tạo nhiều liệu nghiệp vụ, tập liệu tích lũy có kích thước ngày lớn, chứa nhiều thông tin ẩn dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật để phân lớp liệu hay dự đoán xu hướng liệu tương lai Có nhiều thuật toán khai phá tri thức cách phân lớp rời rạc liệu như: sử dụng định, phương pháp thống kê, mạng nơron, thuật toán di truyền, Gần đây, lý thuyết tập thô nhiều nhóm nghiên cứu lĩnh vực khai phá tri thức triển khai ứng dụng thực tế Lý thuyết tập thô xây dựng tảng toán học vững giúp cung cấp công cụ hữu ích để giải toán phân lớp liệu, phát luật, đặc biệt hữu ích toán phải xử lý liệu mơ hồ, không chắn Các mối quan hệ liệu mô hình biểu diễn qua mối quan hệ “không phân biệt được”; tập liệu mơ hồ, không chắn biểu diễn thông qua tập xấp xỉ xấp xỉ Nhờ vào điều mà liệu phân tích xử lý công cụ toán học Cụ thể lý thuyết tập thô liệu biểu diễn thông qua hệ thông tin hay bảng định Trong thực tế, với bảng liệu lớn với liệu không hoàn hảo, thừa, liên tục biểu diễn dạng hiệu, lý thuyết tập thô cho phép khai phá tri thức sở liệu nhằm phát tri thức tiềm ẩn từ khối liệu “thô” Tri thức tìm được thể dạng luật, mẫu Sau tìm quy luật chung để biểu diễn liệu, người ta tính toán độ mạnh độ phụ thuộc thuộc tính hệ thông tin Xuất phát từ vấn đề trên, học viên lựa chọn đề tài: “Nghiên cứu ứng dụng kỹ thuật tập thô phân lớp liệu” làm luận văn tốt nghiệp cao học Ý tưởng lý thuyết tập thô lần nhà toán học Ba Lan Z.Pawlak đề xuất Tiếp theo sau đó, nhà khoa học khắp nơi giới đóng góp nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thô ứng dụng Một số toán lĩnh vực ngân hàng, tài chính, y học,… giải thành công nhờ công cụ tập thô Theo [6], cách tiếp cận tập thô để phân tích liệu có nhiều điểm lợi quan trọng sau: - Cho phép xử lý hiệu bảng liệu lớn, loại bỏ liệu thừa, liệu không hoàn hảo, liệu liên tục - Hiệu việc tìm kiếm mẫu tiềm ẩn sở liệu - Sử dụng tri thức kinh nghiệm - Nhận mối quan hệ mà sử dụng phương pháp thống kê khác không phát - Sử dụng quan hệ thứ lỗi trình phát mẫu - Làm việc hiệu tập rút gọn - Cách giải thích rõ ràng dễ hiểu Kiến thức sở lý thuyết tập thô cổ điển phép toán xấp xỉ trên, xấp xỉ dựa phân hoạch tạo quan hệ tương đương Trên sở đó, kỹ thuật tập thô tập trung vào hai hướng chính: (1) Nghiên cứu thuật toán để rút gọn tập thuộc tính nhằm hạn chế số chiều không gian liệu (2) Nghiên cứu thuật toán sinh luật định nhằm phân lớp liệu để làm giảm độ phức tạp không gian liệu Mục tiêu luận văn nghiên cứu thuật toán sinh luật định dựa tập thuộc tính rút gọn theo hướng tiếp cận tập thô ứng dụng cho toán phân loại kiểu công liệu KDD Cup 99 Để đạt mục tiêu trên, luận văn trình bày bao gồm phần mở đầu, ba chương nội dung, kết luận tài liệu tham khảo Nội dung ba chương sau: Chương 1: Tổng quan tập thô vấn đề liên quan Chương luận văn trình bày khái niệm hệ thông tin vấn đề liên quan, xấp xỉ trên, xấp xỉ khái niệm tập thô Các khái niệm ma trận phân biệt hàm phân biệt được, bảng định luật định đề cập nội dung chương Từ đó, luận văn khảo sát vấn đề ứng dụng kỹ thuật tập thô giải toán phân lớp liệu Chương 2: Nghiên cứu kỹ thuật sinh luật định dựa tập thô Chương luận văn tập trung khảo sát số thuật toán sinh luật định dựa tập thô thường sử dụng toán phân lớp liệu Chương 3: Phân loại kiểu công liệu KDD CUP 99 dựa tập thô Nội dung chương nghiên cứu ứng dụng tập thô phân loại kiểu công liệu KDD Cup 99 nhằm hỗ trợ hệ thống phát xâm nhập Trong chương luận văn trình bày kết thử nghiệm liệu KDD Cup 99 số kiểu công mạng CHƯƠNG 1: TỔNG QUAN VỀ TẬP THÔ VÀ CÁC VẤN ĐỀ LIÊN QUAN Chương luận văn trình bày số khái niệm lý thuyết tập thô khảo sát vấn đề liên quan đến toán phân lớp liệu Vấn đề ứng dụng tập thô giải toán phân lớp liệu đề cập chương 1.1 Hệ thông tin khái niệm liên quan 1.1.1 Hệ thông tin Định nghĩa 1.1: Hệ thông tin cặp IS = (U, A) Trong đó: U tập hữu hạn khác rỗng đối tượng (tập vũ trụ hay tập phổ dụng) A tập hữu hạn khác rỗng thuộc tính 1.1.2 Quan hệ không phân biệt Cho tập thuộc tính B A hệ thông tin IS = (U, A) Quan hệ B không phân biệt hiệu INDA(B) định nghĩa sau: INDA(B) = {(x,x’) U2 | a B, a(x) = a(x’)} Khi INDA(B) quan hệ tương đương U 1.2 Tập thô 1.2.1 Xấp xỉ xấp xỉ Cho hệ thông tin IS = (U, A), với tập X U B A, hiệu R = IND(B) ta có hai tập sau: (X) = {u U | [u]B X}; (X) = {u U | [u]B X } (X), (X) gọi R-xấp xỉ R-xấp xỉ tập X Từ hai tập xấp xỉ người ta định nghĩa tập: BNB(X) = (X) - (X): B- miền biên X hiệu tập thương IND(B) U U/B, xấp xỉ X viết lại: (X) = {W U/B | W X } (X) = {W U/B | W X } Trong trường hợp BNB(X) , X gọi tập thô, ngược lại X gọi tập rõ 1.2.2 Các tính chất xấp xỉ Sự xác tập xấp xỉ X phân hoạch B giá trị sau: αR(X) = )) )) =| ) | ) Trong Card(X) = |X| lực lượng (số phần tử) tập X Rõ ràng αR 1, αR(X) = 1, ta nói X xác R αR(X) , (X) xấp xỉ (X) xấp xỉ Độ xác thô việc biểu diễn X cho [6]: ≤ αR(X) = | (X)| / (X)| ≤ Nếu αR(X) = X tập cổ điển, ngược lại αR(X) < X tập thô 1.3 Ma trận phân biệt hàm phân biệt 1.3.1 Ma trận phân biệt 1.3.2 Hàm phân biệt 1.4 Bảng định luật định 1.4.1 Bảng định Một trường hợp đặc biệt hệ thông tin gọi bảng định tập thuộc tính A phân thành hai tập khác rỗng rời C D, C tập thuộc tính điều kiện, D tập thuộc tính định cho C ∩ D = , C D = A Bảng định hiệu là: DT = (U, C D) [3] 1.4.2 Luật định Cho bảng định DT = (U, C D), giả sử U/C = {X1, X2, …, Xm} U/D = {Y1, Y2, …, Yn} phân hoạch sinh C, D Với Xi U/C, Yj U/D Xi ∩ Yj = , hiệu des (Xi) des(YJ) mô tả lớp tương đương Xi YJ bảng định DT Một luật định đơn có dạng Zij: des(Xi) → des(Yj) Tổng quát, luật định luật kết hợp Φ Ψ, hay "nếu Φ Ψ" (“if Φ then Ψ”), Φ Ψ biểu thức logic Khi Φ gọi điều kiện Ψ gọi định luật định tương ứng [6] Để đánh giá hiệu các luật định, người ta thường sử dụng ba độ đo: độ hỗ trợ, độ xác độ bao phủ 1.4.3 Các độ đo đánh giá luật định Độ hỗ trợ luật định Độ hỗ trợ (còn gọi độ mạnh) luật định Φ Ψ, hiệu supp(Φ, Ψ), định nghĩa tỷ số |Φ ^ Ψ| |U|: supp(Φ, Ψ) = (1.1) Độ chắn luật định Độ chắn luật định Φ Ψ, hiệu cer(Φ,Ψ), định nghĩa tỷ số |Φ ^ Ψ| |Φ|: cer(Φ,Ψ) = (1.2) Thông thường, cer(Φ,Ψ) = luật định Φ Ψ gọi chắn, ngược lại, gọi không chắn Độ bao phủ luật định Độ bao phủ luật định Φ Ψ, hiệu cov(Φ,Ψ) định nghĩa tỷ số |Φ ^ Ψ| |Ψ|: cov(Φ, Ψ) = (1.3) Thuật toán định Một tập hợp gồm k luật định Dec(Φ,Ψ) = {ΦiΨi | i = 1, 2, …, k; k  2} gọi thuật toán định bảng định DT thỏa mãn ba điều kiện sau [6]: (1) Điều kiện chấp nhận được: với i (1 ≤ i ≤ k) supp(ΦiΨi) > (2) Điều kiện độc lập: với cặp luật (ΦiΨi) (ΦjΨj) có Φi = Φj |Ψi^Ψj| = 0, có Ψi = Ψj |Φi^Φj| = (3) Điều kiện phủ U: Mỗi đối tượng thuộc U thỏa mãn Φi thỏa mãn Ψj số k luật định 1.5 Ứng dụng tập thô giải toán phân lớp liệu 1.5.1 Bài toán phân lớp liệu Phân lớp (classification) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Lớp Dữ liệu Mô hình phân lớp Lớp LớpLớp n Hình 1.1: Bài toán phân lớp liệu [5] Trong thực tế, toán phân lớp liệu biểu diễn dạng bảng định DT = (U, C D), U tập đối tượng, C tập thuộc tính D tập nhãn lớp Yêu cầu phân lớp liệu xem xét sinh luật định để gán nhãn lớp cho liệu Trong phạm vi luận văn, toán phân lớp liệu đặt sau Input: Bảng định DT = (U, C D); Output: Các luật định nhãn liệu 1.5.2 Phân lớp liệu dựa tập thô Quá trình phân lớp liệu dựa tập thô bao gồm hai giai đoạn: Giai đoạn 1: Tìm tập rút gọn thuộc tính, tức thực trích chọn đặc trưng dựa tập thô Giai đoạn 2: Sinh luật định dựa tập rút gọn 1.5.2.1 Trích chọn đặc trưng dựa lý thuyết tập thô Trong thực tế, việc ứng dụng tập thô trích chọn đặc trưng có hiệu cao Chẳng hạn, kết ứng dụng thuật rút gọn thuộc tính dựa tập thô liệu KDD Cup 99, thuộc tính đặc trưng nhãn lớp DOS giảm từ 41 thuộc tính xuống 07 thuộc tính, nhãn lớp U2R giảm từ 41 thuộc tính xuống 13 thuộc tính đặc trưng [9] 1.5.2.2 Sinh luật định nhãn lớp liệu dựa tập rút gọn Trong giai đoạn này, tiến trình phân lớp liệu thực thông qua trình sinh toàn thể luật định gán nhãn Sau đó, dựa ngưỡng độ đo luật định người dùng đưa ra, lựa chọn luật định tốt để tao nên mô hình phân lớp Lớp Bảng Bảng định với tập rút gọn thuộc tính Sinh luật định gán nhãn lớp LớpLớp n Hình 1.2: Mô hình phân lớp liệu dựa tập thô 1.6 Kết luận chương Chương luận văn trình bày tổng quan lý thuyết tập thô bao gồm khái niệm hệ thông tin, xấp xỉ trên, xấp xỉ dưới, ma trận hàm phân biệt được, bảng định luật định Trên sở đó, chương khảo sát phương pháp giải toán phân lớp liệu theo hướng tiếp cận tập thô Các nội dung kiến thức tảng chương sở để nghiên cứu phương pháp rút gọn thuộc tính sinh luật định chủ đề nghiên cứu chương CHƯƠNG 2: NGHIÊN CỨU KỸ THUẬT SINH LUẬT QUYẾT ĐỊNH DỰA TRÊN TẬP THÔ Trong chương này, luận văn khảo sát số thuật toán sinh luật định dựa tập rút gọn thuộc tính tìm theo hướng tiếp cận tập thô 2.1 Thuật toán sinh luật định với tập rút gọn thuộc tính Cho bảng định DT=(U, CD), U tập đối tượng, C tập thuộc tính điều kiện D tập nhãn lớp (các thuộc tính định) Như trình bày mục 1.4.2, luật định đơn có dạng Zij: des(Xi) → des(Yj), với Xi  C Yj  D Thông thường, trình sinh luật định thực phương pháp duyệt toàn thể Do đó, để giảm độ phức tạp tính toán, trước sinh luật định, cần phải tìm tập rút gọn thuộc tính C’  C Hiệu thuật toán sinh luật định phụ thuộc nhiều vào chất lượng C’ Trong mục này, luận văn trình bày thuật toán chung sinh luật định phương pháp duyệt toàn thể với tập rút gọn thuộc tính (Thuật toán Sinh luật 01) [12] Thuật toán 2.1: Thuật toán Sinh luật định 01 Input: Bảng định DT = (U, CD), giá trị supp, cer cov; Output: Danh sách luật định với độ hỗ trợ  supp, độ chắn  cer độ bao phủ  cov; Tìm tập rút gọn C’  C dựa tập thô; For each (X  C’, Y  D) Begin Xét luật định Z: X  Y Tính độ hỗ trợ supp(Z) theo công thức (1.1); Tính độ chắn cer(Z) theo công thức (1.2); Tính độ bao phủ cov(Z) theo công thức (1.3); Chấp nhận luật Z (supp(Z)  supp, cer(Z)  cer, cov(Z)  cov) ; End; 10 End; 11 Return 2.2 Thuật toán sinh luật định dựa tập rút gọn thuộc tính sử dụng ma trận phân biệt 2.2.1 Thuật toán tìm tập rút gọn thuộc tính sử dụng ma trận phân biệt cho hệ thông tin 2.2.1.1 Các khái niệm liên quan a, Khái niệm b, Quan hệ tương đương 2.2.1.2 Mô tả thuật toán Thuật toán 2.2: Thuật toán tìm lõi Core(B) Input: Cho bảng định DT = (U, CD), // A = CD = {a1, a2, …, am}, B ; Output:M(B) and Core(B) // Khởi tạo Core(B) = ; c := ; Index:= ; t = ; Sign(i,j)= -1; // i,j= 1, ,n ij ij For (i, 2, n) { For (j,1, i-1) { For (k,1, m) { If ak(xj) ≠ ak(xi) { cij=cij {ak}, tij = tij+1 } else { cij = cij; tij = tij } If (tij = 1) { Core(B) = Core(B) cij and Index = Index [k]; Sign(i,j):=1;} }}} Thuật toán 2.3: Tìm rút gọn R(A) A Input: Cho bảng định DT = (U, CD) // A = CD = {a1, a2 , , am} Output: R(A) Sử dụng thuật toán 2.2, ta tìm Core(A) Đặt B = Core(A); T = , // if ak B then k Index Nếu B chuyển sang bước 2, ngược lại chuyển sang bước Nếu D(B) = chuyển sang bước 4, ngược lại chuyển sang bước For (k,1,m){ If k Index { For (i, 2, n ) { For (j, 1, i-1 ) { If Sign(i,j) = -1 { If (ak cij and cij B= ) { B =B [ak]; Sign((i, j) = 1; < quay lại bước >;} }}}}} R(A) =B 2.2.2 Thuật toán sinh luật định 02 Thuật toán 2.4: Thuật toán Sinh luật định 02 Input: Bảng định DT = (U, CD), giá trị supp, cer cov; Output: Danh sách luật định với độ hỗ trợ  supp, độ chắn  cer độ bao phủ  cov; Đặt A = CD = {a1, a2 , , am}; Tính Core(A) theo thuật toán 2.2; Tính R(A) theo thuật toán 2.3; Đặt C’ = A C; For each (X  C’, Y  D) Begin Xét luật định Z: X  Y Tính độ hỗ trợ supp(Z) theo công thức (1.1); Tính độ chắn cer(Z) theo công thức (1.2); 10 Tính độ bao phủ cov(Z) theo công thức 1.3); 11 Chấp nhận luật Z (supp(Z)  supp, cer(Z)  cer, cov(Z)  cov) ; 12 End; 10 T T CHƯƠNG 3: PHÂN LOẠI KIỂU TẤN CÔNG TRONG BỘ DỮ LIỆU KDD CUP 99 DỰA TRÊN TẬP THÔ Trong chương luận văn giải toán phân loại kiểu công liêu KDD Cup 99 sử dung kỹ thuật tập thô Các kết thử nghiệm đề cập đến chương luận văn 3.1 Bộ liệu KDD Cup 99 toán phân loại kiểu công 3.1.1 Giới thiệu liệu KDD Cup 99 Tập liệu huấn luyện KDD Cup 99 có chứa 23 kiểu công, để tổ hợp kiểu công tương tự vào loại nhằm cải thiện tốc độ phát kiểu công khác liệu nhóm thành loại công (gán nhãn lớp) liệu KDD Cup 99 bao gồm: Normal DoS (denial of service) Probe R2L (Remote to Local) U2R (User to Root) 3.1.2 Các đặc tả liệu KDD Cup 99 Trong phạm vi luận văn lựa chọn tập liệu 10% KDD Cup 99 nghiên cứu thử nghiệm Trong liệu KDD Cup 99, với kết nối TCP/IP, 41 thuộc tính số phi số trích xuất Các thuộc tính mức cao định nghĩa giúp phân biệt kết nối thường từ công Dưới bảng mô tả thuộc tính liệu KDD Cup 99: Bảng 3.1: Các thuộc tính liệu KDD Cup 99 [15] Tên Mô tả Tính chất Ví dụ thuộc tính Duration Chiều dài (số giây) kết nối Liên tục Protocol_type Loại giao thức, ví dụtcp, udp, vv Rời rạc tcp Dịch vụ mạng điểm http Service Rời rạc đến ví dụ http,telnet, vv Src_bytes Số byte liệu từ nguồn đến đích Liên tục SF DTt_bytes Số byte liệu từ đích đến nguồn Liên tục 181 Trạng thái bình thường lỗi 5450 Flag Rời rạc kết nối kết nối from/to máy Land Rời rạc chủ/cổng; ngược lại Wrong_fragme Số lượng đoạn “sai” Liên tục nt Urgent Số gói tin khẩn cấp Liên tục Hot Chỉ số “hot” Liên tục 11 T T Tên thuộc tính Num_failed_lo gins Logged_in Num_compro mised Root_shell Su_attempted Num_root Num_file_crea tions Num_shells Num_access_fi les Num_outboun d_cmDT Is_host_login Is_guest_login Count Mô tả Số lần đăng nhập không thành công đăng nhập thành công; ngược lại Số lượng điều kiện thỏa hiệp Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” Diff_srv_rate Srv_count Srv_serror_rate Srv_rerror_rate 0 Rời rạc Liên tục Kiểm soát số lần truy cập file Liên tục Số % kết nối có lỗi“REJ” Số % kết nối đến dịch vụ tương tự % kết nối với dịch vụ khác số kết nối đến dịch vụ với kết nối hành hai giây qua % kết nối có lỗi “SYN” từ dịch vụ % kết nối có lỗi “REJ” từ dịch Rời rạc Liên tục Rerror_rate Liên tục Số lượng shell prompts Số % kết nối có lỗi “SYN” Rời rạc Liên tục Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc danh sách “máy chủ” biết, ngược lại Bằng đăng nhập tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết nối hành giây qua Ví dụ Liên tục Số hoạt động tạo tập tin Serror_rate Same_srv_rate Tính chất 0 0 Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 0.00 0.00 12 T T Tên thuộc tính Srv_diff_host_ rate DTt_host_coun t DTt_host_srv_ count DTt_host_sam e_srv_rate DTt_host_diff_ srv_rate DTt_host_sam e_src_ port_rate DTt_host_srv_ diff_host_rate DTt_host_serr or_rate Mô tả vụ Tỉ lệ % kết nối đến máy chủ khác từ dịch vụ Đếm kết nối có đích đến Đếm kết nối có 1host đích sử dụng dịch vụ tương tự % kết nối có 1host đích sử dụng cácdịch vụ tương tự % dịch vụ khác host hành % kết nối đến host thời có cổng src Tính chất Ví dụ Liên tục 0.00 Liên tục Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 % kết nối đến dịch vụ Liên tục 0.00 tương tự đến từ host khác % kết nối đến host Liên tục 0.00 thời có lỗi SO % kết nối đến host Liên tục 0.00 DTt_host_srv_ hành dịch vụ quy định có serror_rate lỗi SO DTt_host_rerro % kết nối đến host Liên tục 0.00 r_rate thời có lỗi RST % kết nối đến máy chủ Liên tục 0.00 DTt_host_srv_ hành dịch vụ quy định rerror_rate có lỗi RST Attack Kiểu công Tượng trưng normal 3.1.3 Bài toán phân loại kiểu công liệu KDD Cup 99 Bài toán đặt phân loại kiểu công liệu KDD Cup 99 nhằm hỗ trợ cho hệ thống phát xâm nhập mạng Đây toán nhiều tác giả quan tâm thời gian gần Đầu vào toán: Bộ liệu KDD Cup 99; Đầu toán: Mô hình phân loại kiểu công liệu KDD Cup 99 13 3.2 Ứng dụng tập thô giải toán phân loại kiểu công liệu KDD Cup 99 Để giải toán phân loại kiểu công liệu KDD Cup 99, luận văn thực hai giai đoạn sau: (1) Tìm tập rút gọn thuộc tính dựa tập thô kiểu công; (2) Sinh luật định gán nhãn kiểu công với tập rút gọn tìm 3.2.1 Tìm tập rút gọn thuộc tính cho kiểu công liệu KDD Cup 99 3.2.1.1 Thuật toán đề xuất Thuật toán đề xuất cách tiếp cận dựa tập thô để trích chọn đặc trưng liệu KDD Cup 99 mô tả sau [9]: Đầu vào: Tập giá trị liệu KDD Cup 99 (ND); Đầu ra: Tập rút gọn thuộc tính cho nhãn lớp kiểu công; Bước 1: Nạp giá trị tập liệu ND Bước 2: Lặp lại bước với tất giá trị tập liệu Bước 3: Áp dụng với giá trị liệu nạp vào đó, MD = Giá trị thuộc tính sử dụng FV = Giá trị thuộc tính ban đầu MF = Trung bình giá trị thuộc tính theo hàng F = Độ lệch chuẩn véc tơ thuộc tính Bước 4: Đặt giá trị liệu thao tác vào biến AT Bước 5: Làm tròn tất biến AT AT1 = Round (AT) Bước 6: Khởi tạo biến (ATnew) cách thay giá trị AT1 với cột tương ứng ATnew = [Số cột AT1] Bước 7: So sánh tham số hàng với tham số cột Bước 8: Nhận giá trị Index liệu hàng liệu cột Bước 9: Đếm tổng giá trị thuộc tính liệu bị rút gọn đạt đến ngưỡng giới hạn Bước 10: Bằng cách cập nhật tập thuộc tính rút gọn cuối ta thu thuộc tính đặc trưng xác 3.2.1.2 Các tập rút gọn thuộc tính 14 Thực nghiệm với thuật toán đề xuất thực MATLAB 2012a Kết thực nghiệm tìm tập rút gọn cho kiểu công thể Bảng 3.3 Bảng 3.2: Các thuộc tính tối ưu trích xuất MATLAB sử dụng thuật toán đề xuất Tổng số Nhãn lớp thuộc tính Tên thuộc tính DoS Normal 24 Probe 22 R2L 19 3, 23, 29, 30, 32, 34, 35 1, 3, 5, 6, 10, 12, 16, 19, 23, 24, 26, 28, 30, 31, 32, 33, 34, 35, 36, 37, 38, 40, 41 1, 3, 4, 10, 12, 23, 24, 25, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41 1, 6, 10, 12, 19, 22, 23, 28, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 U2R 13 6, 11, 12, 14, 17, 24, 32, 33, 35, 36, 37, 40, 41 3.2.2 Sinh luật định phân loại kiểu công liệu KDD Cup 99 Mục trình bày trình sử dụng thuật toán 2.1 để sinh luật định phân loại kiểu công liệu KDD Cup 99 Do hạn chế mặt thời gian, luận văn thực phân loại hai kiểu công DOS U2R Các kiểu công khác phân loại tương tự hai kiểu công 3.2.2.1 Tiền xử lý liệu cho toán áp dụng với nhãn lớp DoS Bước 1: Lớp kết nối liệu KDD CUP 99 thuộc tính phi số Lớp kết nối thay thuộc tính số bảng 3.4 Bảng 3.3: Thay lớp kết nối thuộc tính số TT Nhãn lớp Giải thích Nhãn lớp Normal Bình thường DoS Tấn công từ chối dịch vụ PROBE Tấn công thăm dò R2L Tấn công từ xa U2R Tấn công chiếm quyền Root Bước 2: Căn vào bảng 3.3, tệp liệu thử nghiệm với nhãn DOS lúc xét thuộc tính 3, 23,29, 30, 32, 34, 35, 42 Kiểu liệu thuộc tính chuyển từ liệu phi số sang liệu số, kiểu liệu xâu bảng 3.5 đây: 15 3.2.2.2 Tiền xử lý liệu cho toán áp dụng với nhãn lớp U2R Bước 1: Lớp kết nối liệu KDD CUP 99 thuộc tính phi số Lớp kết nối thay thuộc tính số bảng 3.6 Bảng 3.4: Thay lớp kết nối thuộc tính số STT Nhãn lớp Normal DOS PROBE R2L U2R Giải thích Bình thường Tấn công từ chối dịch vụ Tấn công thăm dò Tấn công từ xa Tấn công chiếm quyền Root Nhãn lớp 0 0 Bước 2: Căn vào bảng 3.3, tệp liệu thử nghiệm với nhãn U2R lúc xét thuộc tính 6, 11, 12, 14, 17, 24, 32, 33, 35, 36, 37, 40, 41, 42 Kiểu liệu thuộc tính chuyển từ liệu phi số sang liệu số, kiểu liệu xâu bảng 3.7 đây: 16 3.3 Cài đặt thử nghiệm 3.3.1 Cài đặt thử nghiệm với nhãn lớp DOS Với toán này, học viên xây dựng module hệ thống sau: - Module Tiền xử lý liệu; - Module Sinh luật định; - Module Phân lớp liệu Ngôn ngữ lập trình lựa chọn: - Giao diện hệ thống sử dụng Java; - Các module tính toán sử dụng ngôn ngữ lập trình Java Một số giao diện hệ thống xây dựng sau: 17 Hình 3.1: Giao diện hệ thống Hình 3.2: Tiền xử lý liệu với nhãn lớp DOS 18 Hình 3.3: Sinh luật định với nhãn lớp DOS Hình 3.4: Kết phân lớp với luật thuộc lớp DOS 3.3.2 Cài đặt thử nghiệm với nhãn lớp U2R Học viên xây dựng số giao diện hệ thống với nhãn lớp U2R sau: 19 Hình 3.5: Tiền xử lý liệu với nhãn lớp U2R Hình 3.6: Sinh luật định với nhãn lớp U2R 20 Hình 3.7: Kết phân lớp với luật thuộc lớp khác 3.4 Kết đánh giá 3.4.1 Kết thực với nhãn lớp DOS - Trong tổng số 494.021 ghi liệu, có 391.458 ghi có nhãn DOS - Kết thực chương trình với 494.021 ghi sinh 1.509 luật khác (có nhãn lớp DOS nhãn lớp DOS), với 391.458 ghi có nhãn lớp DOS có 1.347 luật định sinh nhãn lớp DOS Bảng 3.8 mô tả chung luật định Bảng 3.5: Bảng mô tả giới hạn giá trị độ đo luật định Giá trị Độ đo hỗ trợ Độ chắn Độ bao phủ độ đo (supp) (cer) (cov) Giá trị lớn 0.460138 1.00 0.580696 Giá trị nhỏ 2.0E-6 2.19E-4 3.0E-6 Trong bảng 3.9 mô tả 10 luật định đại diện cho 1.509 luật thu Bảng 3.6: Danh sách 10 luật định đại diện cho 1509 luật thu 21 400000 Độ đo hỗ trợ (supp) 0.107753 Độ chắn (cer) 11 0 0 0.091026 11 0 0 4 Độ bao phủ (cov) Attack 0.135984 1 0.114876 0.014018 0.067519 10 0 0 0.004901 0.023605 11 0 0 0.101457 0.999781 0.128039 000000 0.460138 0.999248 0.580696 000040 0.004012 0.998992 0.019325 000200 0.008271 0.975645 0.039839 000100 0.015149 0.974479 0.07297 10 000000 0.087452 0.962183 0.421234 Thứ tự Nội dung luật Đánh giá Một số luật định bảng 3.5 mô tả cụ thể sau: Luật 1: If (Service = 9, Count = 4, Srv_serror_rate=0, Srv_rerror_rate=0, DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then (Attack = 1) với độ chắn cer = 1.00, độ bao phủ cov = 0.135984 độ hỗ trợ (độ mạnh) supp = 0.107753 Luật 5: If (Service = 11, Count = 2, Srv_serror_rate=0, Srv_rerror_rate=0, DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then (Attack = 1) với độ chắn cer = 0.999781, độ bao phủ cov = 0.128039 độ hỗ trợ (độ mạnh) supp = 0.101457 Luật 6: If (Service = 9, Count = 0, Srv_serror_rate=0, Srv_rerror_rate=0, DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then (Attack = 1) với độ chắn cer = 0.999248, độ bao phủ cov = 0.580696 độ hỗ trợ (độ mạnh) supp = 0.460138 3.4.2 Kết thực với nhãn lớp U2R - Trong tổng số 494.021 ghi liệu, có 52 ghi có nhãn U2R - Kết thực chương trình với 494.021 ghi sinh 51 luật (có nhãn U2R nhãn U2R), với 52 ghi liệu có nhãn U2R có luật định sinh nhãn lớp U2R Bảng 3.10 mô tả chung luật định Bảng 3.7: Bảng mô tả giới hạn giá trị độ đo luật định Giá trị Độ đo hỗ trợ Độ chắn Độ bao phủ độ đo (supp) (cer) (cov) Giá trị lớn 0.82709 1.0 0.961538 22 Giá trị nhỏ 2.0E-6 8.3E-5 2.0E-6 Trong bảng 3.11 mô tả luật định sinh nhãn lớp U2R đại diện cho 51 luật thu Bảng 3.8: Danh sách luật định đại diện cho 51 luật thu Độ đo Độ Độ bao Attack Thứ Nội dung luật hỗ trợ chắn phủ tự (supp) (cer) (cov) 0 0 0 0 0 0 0.000101 0.000122 0.961538 010000000000 0.000002 0.018519 0.019231 000000110000 0.000002 0.000083 0.019231 000004000000 0.108922 0.108934 000001330000 0.000065 0.000065 000020110000 0.000006 0.000006 Như vây, đến nhận xét sau: - Khi xét luật định dựa nhiều thuộc tính điều kiện độ chắn tăng lên Tuy nhiên, độ hỗ trợ độ bao phủ suy giảm - Để áp dụng luật định thực tế, cần có ý kiến chuyên gia để lựa chọn luật phù hợp theo nghĩa hài hòa độ đo Trong luận văn, học viên chưa có điều kiện kiểm nghiệm luật đề xuất theo ý kiến chuyên gia Để lựa chọn luật phù hợp cho giai đoạn cảnh báo phát sớm xâm nhập mạng, thường chọn ngưỡng cho độ đo Sau đó, dựa ý kiến chuyên gia chọn luật phù hợp để sử dụng 3.5 Kết luận chương Chương luận văn ứng dụng lý thuyết tập thô nghiên cứu hai chương trước để giải toán phân loại kiểu công liệu KDD Cup 99 Luận văn xây dựng chương trình cài đặt thử nghiệm phân loại hai kiểu công DoS U2R Các kết thử nghiệm chứng tỏ tính hiệu hướng tiếp cận tập thô việc giải toán phân lớp liệu 23 KẾT LUẬN Các kết đạt luận văn: Luận văn đạt số kết sau: (1) Khảo sát tổng quan lý thuyết tập thô ứng dụng tập thô giải toán phân lớp liệu (2) Khảo sát số thuật toán sinh luật định với tập rút gọn thuộc tính tìm dựa hướng tiếp cận tập thô (3) Xây dựng phương pháp phân loại kiểu công liệu KDD Cup 99 dựa tập thô (4) Xây dựng chương trình cài đặt thử nghiệm phân loại hai kiểu công DoS U2R liệu KDD Cup 99 dựa tập thô Với kết trên, học viên hoàn thành mục tiêu đề cho luận văn Hướng phát triển tiếp theo: Học viên tiếp tục nghiên cứu, tìm hiểu thuật toán, phương pháp rút gọn tập thuộc tính, phương pháp sinh tập luật định ứng dụng giải toán thực tế khác dựa lý thuyết tập thô Học viên tiếp tục hoàn thiện chương trình cài đặt thử nghiệm để giải trọn vẹn toán phân loại kiểu công liệu KDD Cup 99 dựa tập thô 24 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngọc Minh Châu, Nguyễn Xuân Thảo (2013) -“Một thuật toán tìm tập rút gọn thuộc tính sử dụng ma trận phân biệt được” - Tạp chí Khoa học Phát triển, T 11, S 5, Tr 729-734 Tiếng Anh [2] Allam A.A., Bakeir M.Y and Abo-Tabl E.A (2008) -“Some MethoDT for Generating Topologies by Relations”, Bull Malays Maths.Soc, V 2, No 31, pp 3545 [3] Chan C.C (1998) – “A rough Sets approach to attribute genneralization in data mining” – Juornal of Information Science V 107, pp.69-176 [4] Gao J., Ma H., Han Zh (2015) - “Atribute Reduction Algorithm Based on Discernibility Matrix with Algegebraic Method” - IIICEC, pp 349-353 [5] Han J., Kamber M (2011) – “Data mining: Concepts and Techniques” - 3nd Edition, Morgan Kaufman Publishers [6] Pawlak Z (2002) –“Rough Set Theory and Its Applications” - Journal of Telecommunications and Information Technology, pp 7-10 [7] Olusola A.A., Oladele A.S and Abosede D.O (2010) –“Analysis of KDD’99 Intrusion Detection Dataset for Selection of Relevance Features” – WCECS, Vol [8] Rampure V., Tiwari A (2014) –“A Rough Set Based Classification Model for The Generation of Decision Rules” - International Journal of Database Theory and Application, V 7, No 5, pp 95-108 [9] Ranpure V., Tiwari A (2015) – “A Rough Set Based Feature Selection on KDD CUP 99 Data Set” - International Journal of Database Theory and Application, V 8, No 1, pp 149-156 [10] Siddiqui M.K and Naahid S (2013) – “Analysis of KDD CUP 99 Dataset using Clustering based Data Mining” - International Journal of Database Theory and Application, V 6, No 5, pp 23-34 [11] Tavallaee M., Bagheri E., Lu W and Ghorbani A.A (2009) –“A Detailed Analysis of the KDD CUP 99 Data Set ” – CISDA (IEEE 2009) [12] Vashist R., Gang M.L (2011) –“Rule Generation based on Reduct and Core: A Rough Set Approach” - International Journal of Computer Applicasion, V 29, No 9, pp 1-5 [13] Wang C.R and Ou F.F (2008) - “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy” - International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [14] Zhao W., Zhang Z (2005) –“An Email Classification Model Based on Rough Set Theory” - IEEE, pp 403-408 Trang WEB [15] http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html ... vấn đề ứng dụng kỹ thuật tập thô giải toán phân lớp liệu Chương 2: Nghiên cứu kỹ thuật sinh luật định dựa tập thô Chương luận văn tập trung khảo sát số thuật toán sinh luật định dựa tập thô thường... Ứng dụng tập thô giải toán phân lớp liệu 1.5.1 Bài toán phân lớp liệu Phân lớp (classification) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Lớp Dữ liệu Mô hình phân. .. dựa tập thô thường sử dụng toán phân lớp liệu Chương 3: Phân loại kiểu công liệu KDD CUP 99 dựa tập thô Nội dung chương nghiên cứu ứng dụng tập thô phân loại kiểu công liệu KDD Cup 99 nhằm hỗ

Ngày đăng: 23/10/2017, 12:27

Hình ảnh liên quan

Hình 1.1: Bài toán phân lớp dữ liệu [5] - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 1.1.

Bài toán phân lớp dữ liệu [5] Xem tại trang 7 của tài liệu.
Hình 1.2: Mô hình phân lớp dữ liệu dựa trên tập thô - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 1.2.

Mô hình phân lớp dữ liệu dựa trên tập thô Xem tại trang 8 của tài liệu.
Đầu ra của bài toán: Mô hình phân loại kiểu tấn công trong bộ dữ liệu KDD Cup 99.  - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

u.

ra của bài toán: Mô hình phân loại kiểu tấn công trong bộ dữ liệu KDD Cup 99. Xem tại trang 14 của tài liệu.
Bảng 3.2: Các thuộc tính tối ưu được trích xuất trong MATLAB sử dụng thuật toán đề xuất  - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Bảng 3.2.

Các thuộc tính tối ưu được trích xuất trong MATLAB sử dụng thuật toán đề xuất Xem tại trang 16 của tài liệu.
Bảng 3.4: Thay thế lớp của kết nối bằng các thuộc tính số - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Bảng 3.4.

Thay thế lớp của kết nối bằng các thuộc tính số Xem tại trang 17 của tài liệu.
Bước 2: Căn cứ vào bảng 3.3, tệp dữ liệu thử nghiệm với nhãn U2R lúc này được xét trên các thuộc tính 6, 11, 12, 14, 17, 24, 32, 33, 35, 36, 37, 40, 41, 42 - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

c.

2: Căn cứ vào bảng 3.3, tệp dữ liệu thử nghiệm với nhãn U2R lúc này được xét trên các thuộc tính 6, 11, 12, 14, 17, 24, 32, 33, 35, 36, 37, 40, 41, 42 Xem tại trang 17 của tài liệu.
Hình 3.1: Giao diện chính của hệ thống - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 3.1.

Giao diện chính của hệ thống Xem tại trang 19 của tài liệu.
Hình 3.3: Sinh luật quyết định với nhãn lớp DOS - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 3.3.

Sinh luật quyết định với nhãn lớp DOS Xem tại trang 20 của tài liệu.
Hình 3.5: Tiền xử lý dữ liệu với nhãn lớp U2R - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 3.5.

Tiền xử lý dữ liệu với nhãn lớp U2R Xem tại trang 21 của tài liệu.
Hình 3.7: Kết quả phân lớp với các luật thuộc các lớp khác nhau - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

Hình 3.7.

Kết quả phân lớp với các luật thuộc các lớp khác nhau Xem tại trang 22 của tài liệu.
Một số luật quyết định trong bảng 3.5 có thể mô tả cụ thể như sau: - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

t.

số luật quyết định trong bảng 3.5 có thể mô tả cụ thể như sau: Xem tại trang 23 của tài liệu.
Trong bảng 3.11 mô tả 6 luật quyết định sinh ra nhãn lớp U2R đại diện cho 51 luật thu được - Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt)

rong.

bảng 3.11 mô tả 6 luật quyết định sinh ra nhãn lớp U2R đại diện cho 51 luật thu được Xem tại trang 24 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan