Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chuẩn đoán bệnh tại bệnh viện đa khoa y học cổ truyền tuệ tĩnh (tóm tắt luận văn ngành khoa học máy tính)
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
416,64 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HIỀN ĐÁNH GIÁ HIỆU NĂNG MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP CHUYÊN NGÀNH MÃ SỐ : : KHOA HỌC MÁY TÍNH 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS PHẠM HỒNG DUY Phản biện 1: PGS.TS Đỗ Trung Tuấn Phản biện 2: PGS.TS Bùi Thu Lâm Luận văn bảo vệ Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 11 45 ngày 05 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, công nghệ thông tin ứng dụng sâu rộng lĩnh vực kinh tế - xã hội … Đây công cụ thiếu cho việc phát triển thương mại, vận hành hệ thống tổ chức, doanh nghiệp phục vụ nhu cầu cơng việc, học tập, giải trí vấn đề an tồn thơng tin sử dụng mạng vấn đề lớn cần quan tâm nghiên cứu cho tổ chức cá nhân Tuy nhiên bên cạnh tiến lợi ích mang lại, có nhiều rủi ro xuất phát từ công mạng môi trường internet Do nhiều hệ thống khác thiết kế xây dựng ngăn chặn công để bảo đảm tính an tồn hệ thống máy tính hệ thống phát xâm nhập (Intrusion Detection Systym- IDS) Mục tiêu IDS để giúp hệ thống mạng có khả phản ứng tích cực với công Trong thời gian qua nhiều hệ thống phát xâm nhập phát triển Các nhà nghiên cứu quan tâm đánh giá hiệu việc đánh giá khó khăn thứ việc thu liệu mạng chất lượng cao để thực việc đánh giá Thứ hai, liệu thực tế có sẵn, ghi nhãn kết nối mạng bình thường xâm nhập đòi hỏi lớn nhiều thời gian Thứ ba, thay đổi liên tục mạng, lưu lượng truy cập, biến thể công Đề tài “Đánh giá hiệu số thuật toán phân lớp cho phát xâm nhập” nhằm giới thiệu khả mức độ xác thuật tốn dùng cho việc phát hành vi bất thường việc sử dụng truy nhập mạng 2 Luận văn gồm có nội dung sau: Chương 1: Tổng quan phát xâm nhập Chương 2: Một số thuật toán phân lớp cho phát xâm nhập Chương 3: Thực nghiệm đánh giá Chương - TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP An toàn liệu mối quan tâm hàng đầu với người sử dụng máy tính mạng máy tính, năm gần vấn đề an ninh mạng trở nên cấp thiết tác động lớn tới hiệu hoạt động mạng máy tính đại Chương trình bày tổng quan xâm nhập phát xâm phạm 1.1 Xâm nhập mạng 1.2 Một số dạng công phổ biến 1.2.1 Tấn cơng từ chối dịch vụ 1.2.2 Tấn cơng thăm dị 1.2.3 Tấn công chiếm quyền root 1.2.4 Tấn công điều khiển từ xa 1.3 Một số giải pháp ngăn chặn xâm nhập truyền thống 1.3.1 Tường lửa 1.3.2 Mã hóa liệu 1.3.3 Xác thực 1.3.4 Quyền truy cập 1.4 Hệ thống phát xâm nhập (instrucsion detection system) Hệ thống phát xâm nhập mạng (Intrusion Detetion System) hệ thống (có thể thiết bị phần cứng hay phần mềm) nhằm giám sát lưu lượng mạngtheo dõi, thu thập thông tin để phát xâm nhập mạng đưa cảnh báo 1.5 Phân loại hệ thống phát xâm nhập 4 1.5.1 Dựa vùng thu thập liệu giám sát Hệ thống phát xâm nhập mức mạng (Network – based IDS) Hệ thống phát xâm nhập mức máy trạm chủ (Host – based IDS) 1.5.2 Theo cách phân loại theo phương pháp phát Hệ thống phát xâm nhập dựa vào đặc trưng (Signature- based IDS) Nhược điểm hệ thống phát công biết, không phát công biến thể Do phải thường xuyên cập nhật đặc trưng (dấu hiệu) cơng thời gian phát tăng sở liệu lớn IDS phát theo đặc tả IDS loại nhận biết theo dõi trạng thái giao thức (tương ứng cặp yêu cầu/ đáp ứng) Việc đặc tả phụ thuộc vào nhà cung cấp giao thức Hệ thống phát xâm nhập dựa vào bất thường (Anomalybased IDS) Là phương pháp phát có ưu điểm hiệu việc phát mối nguy hiểm trước Phát xâm nhập dựa bất thường có nhiều triển vọng có khả phát công, xâm nhập Những năm gần đây, hướng tiếp cận thu hút nhiều quan tâm nhà nghiên cứu Do đó, luận văn tập trung vào hướng tiếp cận Việc phát bất thường giải thơng qua toán phân loại hành vi sử dụng hay truy cập tài nguyên hệ thống để xác định hành vi truy nhập tiềm tàng Chương sau giới thiệu số thuật toán phân lớp ứng dụng cho phát xâm nhập 6 Chương - MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP Nội dung chương trình bày sở lí thuyết ứng dụng số thuật toán phâp lớp 2.1 Học định Học định phương pháp học máy tiêu biểu có nhiều ứng dụng phân loại dự đốn Học định có nhiều ưu điểm đơn giản, dễ lập trình cho phép biểu diễn hàm phân loại dạng dễ hiểu, dễ giải thích cho người Cây định: biểu đồ định phát triển có cấu trúc dạng Hình 2.1: Mơ tả chung định Trong đó: Gốc: Nút Nút trong: Biểu diễn kiểm tra thuộc tính đơn (hình chữ nhật) Nhánh: Biểu diễn kết kiểm tra node (mũi tên) Node lá: Biểu diễn lớp (hình trịn) nhãn phân loại Cây định dùng để xác định nhãn phân loại cho liệu đó, giá trị thuộc tính mẫu dược đưa vào kiểm tra định Mỗi mẫu tương ứng với đường từ gốc tới node Tại nút, thuộc tính tương ứng với nút kiểm tra, tùy theo giá trị thuộc tính mà ví dụ chuyển xuống nhánh tương ứng bên Quá trình lặp lại ví dụ tới nút nhận nhãn phân loại nhãn nút tương ứng 2.1.1 Xây dựng định 2.1.2 Xây dựng định dựa vào Entropy 2.2 .Máy vectơ hỗ trợ (support vector machine-SVM) Máy vectơ hỗ trợ (SVM) giải thuật máy học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán SVM toán phân lớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng 2.2.1 Ý tưởng thuật toán 2.2.2 Cơ sở lý thuyết 2.2.3 Một số ứng dụng tiêu biểu SVM 2.3 Mạng neural nhân tạo (Artificial Neural Networks)-ANN Là mơ hình xử lý thơng tin mơ hoạt động hệ thống thần kinh sinh vật, bao gồm số lượng lớn neural gắn kết để xử lý thông tin ANN giống não người, học kinh nghiệm (qua huấn luyện), có khả lưu giữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đoán liệu chưa biết 2.3.1 a) Kiến trúc mạng neural nhân tạo Mạng truyền thẳng (feedforward networks) b) Mạng hồi quy (Recurrent networks) c) Kết nối neural 2.3.2 Quá trình học ANN 2.3.3 Ứng dụng mạng neural nhân tạo 2.4 Kết chương Nội dung chương tập chung vào trình bày thuật tốn định,svm, mạng neural nhân tạo, tham số ảnh hưởng đến kết phân loại thuật toán, sở lý thuyết áp dụng vào toán phát xâm nhập toán phân loại lớp normol hay anomal cho thực nghiệm chương 9 Chương – THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương phân tích đánh giá hiệu thuật toán tập liệu NSL-KDD, trình bày việc lập mơ hình thử nghiệm, thử nghiệm thuật tốn công cụ weka 3.1 3.1.1 Một số độ đo đánh giá Các độ đo đánh giá Bài toán phân loại lớp với định nghĩa sau tp: nhãn dương mẫu chương trình phân loại dương fp: nhãn dương mẫu, chương trình phân loại gán nhãn âm tn: nhãn âm, chương trình phân loại âm fn: nhãn âm chương trình phân loại gán dương Thì ta có định nghĩa số độ đo sau: Tỷ lệ lỗi: error = (fp + fn)/N Độ chinhd xác accuracy: accuracy = (tp + tn)/N = – error Tỉ lệ dương đúng: tp-rate = tp/p Tỉ lệ dương sai: fp-rate = fp/p Độ xác precision: precision = tp/p Độ thu hồi Recall= tp/p=tp-rate Độ đo F: F-measure =2*p*r(precision+recall) Các độ nói có gía trị nằm khoảng [0,1] 10 Các số dùng để đánh giá kết thử nghiệm 3.1.2 Cách đánh giá Có nhiều kỹ thuật đánh giá độ xác dự báo như: Kiểm tra chéo với tập kiểm tra tách riêng (hold-out cross validation), Kiểm tra chéo k-fold (k-fold cross validation) 3.2 Giới thiệu liệu NSL- KDD 3.2.1 Giới thiệu NSL-KDD tập liệu tinh chỉnh tập liệu gốc KDD99 , có số ưu điểm sau: khắc phục hạn chế việc dư thừa liệu gốc (khơng có ghi dự phịng tập huấn luyện), số lượng ghi dư thừa, dẫn đến thuật toán thiên vị cho ghi xuất nhiều lần (thường xuyên hơn, hạn chế ghi xuât lần gây hại cho mạng công U2R) Số lượng ghi huấn luyện kiểm tra hợp lý vừa đủ lớn, chạy thử nghiệm hồn chỉnh mà không cần ngẫu nhiên chọn phần nhỏ mà chi phí khơng lớn Do kết đánh giá cơng trình nghiên cứu khác quán Phù hợp để đánh giá thuật toán 3.2.2 Mô tả tập liệu NSL KDD Mỗi ghi bao gồm 41 thuộc tính thể đặc trưng khác luồng thông tin gán nhãn cơng bình thường Các thuộc tính tiêu biểu kết nối mạng 11 duration : thời gian kết nối protocol_type : giao thức ví dụ tcp service : dịch vụ mạng sử dụng ví dụ ftp Flag: tình trạng kết nối bình thường hay lỗi ví dụ SF Các thuộc tính tiêu biểu lưu lượng trạm dst_host_count : số kết nối có địa trạm đích dst_host_srv_count : số kết nối có địa cổng đích dst_host_same_srv_rate : tỷ lệ kết nối có dịch vụ số kết nối tới trạm đích 3.3 Cơng cụ thử nghiệm chuẩn liệu đầu vào 3.3.1 Giới thiệu công cụ Weka + Weka công cụ phần mềm viết Java phục vụ lĩnh vực học máy khai phá liệu + Tính Weka: Một tập cơng cụ tiền xử lý liệu, giải thuật học máy, khai phá liệu, phương pháp thí nghiệm đánh giá; giao diện đồ họa dễ dàng thực hiện; môi trường cho phép so sánh giải thuật học máy khai phá liệu 3.3.2 Chuẩn liệu đầu vào Để tiến hành thực nghiệm Weka điều bắt buộc phải đưa liệu định dạng Weka quy định sẵn csv, arff Trong luân văn này, sử dụng tập tin có định dạng ARFF (Atrribute-Regation File Format) 3.4 Thực nghiệm đánh giá 3.4.1 Thực nghiệm 12 Máy tính sử dụng cho q trình chạy mơ hình đánh giá có xử lý Intel core i3, tần số 2.2GHz 2.2 GHz, 4.0 GB ram Bộ công cụ weka phiên 3.8 Dữ liệu đầu vào cho thực nghiệm tập KDDtrain+.arff chứa 125973 ghi, số thuộc tính 42 (cả nhãn) Các thuật tốn áp dụng định, svm, mạng neural nhân tạo Sử dụng việc chuẩn hóa liệu mặc định SVM sử dụng hàm hai hàm nhân polykenel puk MLP với 1,2, lớp ẩn 3.4.2 Kết Sử dụng tập KDDTrain+.arff, công cụ weka, phương pháp đánh giá cross-validation k=10 ta kết sau Bảng 1: Tóm tắt kết mơ hình tập KDDTrain đánh giá 10 fold Thuật Tham số tốn Trung Tỉ lệ bình phát precision trung bình (%) J48 C 0.25 M 0.998 99.7 SMO weka.classifiers.functions.SMO -C 0.974 97.4 Polyke 1.0 -L 0.001 -P rnel 1.0E-12 -N -V -1 -W -K "weka.classifiers.functions.supportVe 13 ctor.PolyKerne l -E 1.0 -C 250007" calibrator "weka.classifiers.functions.Logistic R 1.0E-8 -M -1 - num-decimal-places 4" SMO weka.classifiers.functions.SMO -C Puk 1.0 -L 0.001 -P 1.0E-12 -N -V -1 - 0.995 99.5 0.985 98.5 0.978 97.7 99.2 W -K "weka.classifiers.functions.supportV ector.Puk -O 1.0 -S 1.0 -C 250007" calibrator "weka.classifiers.functions.Logistic R 1.0E-8 -M -1 -num-decimal-places 4" MLP- -L 0.3 -M 0.2 -N 500 -V -S -E 20 a -H a MLP- -L 0.3 -M 0.2 -N 500 -V -S -E 20 o -H o MLP -L 0.3 -M 0.2 -N 500 -V -S -E 20 0.992 30-20 -H "30, 20" Kiểm định mơ hình sử dụng tập KDDTest+.arff, công cụ weka, với tùy chọn supplied test set ta kết tóm tắt thể bảng 3.7 14 Bảng 2: Tóm tắt kết đánh giá dựa tập KDDtest+ Thuật tốn Trung bình Tỉ lệ phát precision trung bình (%) RandomForest 0.852 80,5 J48 0.858 81,5 SMO-Polykernel 0.802 75,4 SMO- Puk 0.831 78,6 MLP- a 0.817 77,7 MLP- o 0.789 73,4 MLP -30-20-10 0.835 77,6 MLP 30-20 0.816 77,7 Trong precison= số dự đoán dương đúng/ tổng số mẫu dương Biểu đồ so sánh kết phân lớp thuật toán tập liệu 15 120 110 100 90 80 70 60 50 40 30 20 10 J48 Randomforest SMO-poly SMO-puk MLP-a MLP-o MLP-30 20 10 MLP-3020 Train Test Hình 3.1: So sánh độ xác 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 J48 Randomforest SMO-poly SMO-puk MLP-a MLP-o Train Test MLP-30 20 10 Hình 3.2: Trung bình PRECISION 3.4.3 Đánh giá Kết Mục 3.4.2 cho thấy Thuật toán SVM mạng neural có thời gian xây dựng mơ hình lớn (nhiều 24h), thuật tốn định có ưu điểm 16 thời gian huấn luyện ngắn hiệu cao, đặc biệt xác định hành vi sử dụng mạng bình thường (nomal) Qua biểu đồ so sánh kết quả, ta thấy thuật tốn có thời gian thực khác nhau,có mực độ xác riêng, chênh lệch khơng nhiều Để nâng cao hiệu qủa thuật toán ta cần Mỗi thuật tốn có điểm mạnh với số loại công SVM ANN cho kết tốt phát công dos, probe định cho kết cao phân lớp phát cơng hay bình thường, nên để nâng cao hiệu ta sử dụng mơ hình phân loại nhiều bước Phân loại hành vi bất thường Phân loại hành vi công 3.5 Kết luận chương Chương luận văn, tác giả tìm hiểu tập liệu NSLKDD nghiên cứu sử dụng cơng cụ thử nghiệm weka, xây dựng mơ hình thử nghiệm tiến hành chạy thuật toán phân lớp phát định, máy vector hỗ trợ mạng neural nhân tạo, dựa vào kết tập liệu để so sánh hiệu thuật toán để xuất hướng tiếp cận nâng cao hiệu thuật toán áp dụng cho toán phát xâm nhập mạng 17 KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu tổng quan toán xâm nhập phát xâm nhập thực nghiệm với tập liệu NSLKDD sử dụng thuật toán định, máy vector hỗ trợ, mạng neural nhân tạo để đánh giá Những kết mà luận văn đạt được: Nghiên cứu tìm hiểu tốn xâm nhập phát xâm nhập, trình bày số phương pháp xâm nhập phát xâm nhập có trước Nghiên cứu tìm hiểu thuật tốn định, máy vector hỗ trợ, mạng neural nhân tạo Tìm hiểu tập liệu NSL-KDD, nghiên cứu cơng cụ Weka lập mơ hình phân loại kiểm thử số thuật tốn Xây dựng mơ hình huấn luyện kiểm thử với liệu lấy mơ tả với thuật tốn khác nhau; tìm hiểu, thay đổi tham số mơ hình thuật toán để kết đánh giá tốt Hạn chế Luận văn tập trung tìm hiểu sử dụng liệu NSLKDD để đánh giá Hướng phát triển Cải thiện hiệu suất, tăng tốc độ xử lý liệu với liệu lớn 18 Xây dựng hệ thống hoàn chỉnh với tập liệu lớn để tự động phát xâm nhập với nhiều thuật toán khác cho kết cao Bên cạnh phân loại hành vi bất thường, nghiên cứu nâng cao chất lượng mơ hình cho phép phân loại cụ thể loại công hành vi bất thường ... dựng định 2.1.2 X? ?y dựng định dựa vào Entropy 2.2 .M? ?y vectơ hỗ trợ (support vector machine-SVM) M? ?y vectơ hỗ trợ (SVM) giải thuật m? ?y học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán... công cụ phần mềm viết Java phục vụ lĩnh vực học m? ?y khai phá liệu + Tính Weka: Một tập công cụ tiền xử lý liệu, giải thuật học m? ?y, khai phá liệu, phương pháp thí nghiệm đánh giá; giao diện đồ họa... đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 11 45 ng? ?y 05 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ng? ?y nay, công