Đánh Giá Hiệu Quả Một Số Thuật Toán Trong Phát Hiện Xâm Nhập Mạng 6732424.Pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	35
Dung lượng	1,68 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẦN THỊ HƢƠNG ĐÁNH GIÁ HIỆU QUẢ MỘT SỐ THUẬT TOÁN TRONG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘ[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - TRẦN THỊ HƢƠNG ĐÁNH GIÁ HIỆU QUẢ MỘT SỐ THUẬT TOÁN TRONG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - TRẦN THỊ HƢƠNG ĐÁNH GIÁ HIỆU QUẢ MỘT SỐ THUẬT TOÁN TRONG PHÁT HIỆN XÂM NHẬP MẠNG Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Lê Trọng Vĩnh Hà Nội – 2016 MỤC LỤC DANH MỤC HÌNH VẼ iii DANH MỤC BẢNG BIỂU iv DANH MỤC CÁC TỪ VIẾT TẮT v LỜI CẢM ƠN vi LỜI MỞ ĐẦU .1 Chƣơng 1: Tổng quan phát xâm nhập mạng 1.1 Giới thiệu 1.2 Xâm nhập 1.2.1 Khái niệm 1.2.2 Một số kiểu xâm nhập phổ biến .4 1.2.3 Một số giải pháp ngăn chặn xâm nhập truyền thống 1.3 Hệ thống phát xâm nhập mạng 1.3.1 Định nghĩa 1.3.2 Phân loại hệ thống phát xâm nhập mạng 1.4 Một số cách tiếp cận cho toán phát xâm nhập 11 1.4.1 Cách tiếp cận dựa vào luật .11 1.4.2 Cách tiếp cận dựa vào thống kê .12 1.4.3 Cách tiếp cận dựa vào học máy .13 1.4.4 Hƣớng tiếp cận luận văn 16 Chƣơng 2: Phát xâm nhập mạng dựa vào học máy 17 2.1 Hồi quy logistic 18 2.2 Máy véc-tơ hỗ trợ 21 2.2.1 SVM tuyến tính 22 2.2.2 SVM phi tuyến tính 26 2.3 Mạng nơ-ron nhân tạo 27 2.3.1 Mơ hình mạng nơ-ron nhân tạo .28 2.3.2 Phát xâm nhập dựa vào mạng nơ-ron 33 2.4 Rút gọn đặc trƣng 36 i Chƣơng 3: Đánh giá hiệu số thuật toán học máy 41 việc phát xâm nhập mạng 41 3.1 Bộ liệu KDD CUP 99 41 3.2 Tiền xử lý liệu 45 3.2.1 Chuyển giá trị phi số sang số 46 3.2.2 Chuẩn hóa giá trị đầu vào 50 3.3 Kết thực nghiệm 52 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 58 CÁC CÔNG BỐ LIÊN QUAN 60 TÀI LIỆU THAM KHẢO 61 ii DANH MỤC HÌNH VẼ Hình 1.1 Hệ thống phát xâm nhập NIDS Hình 1.2 Hệ thống phát xâm nhập HIDS 10 Hình 2.1 Quá trình phát xâm nhập dựa vào học máy 18 Hình 2.2 Hình dạng hàm sigmoid .19 Hình 2.3 Một siêu phẳng phân chia liệu học thành hai lớp 22 Hình 2.4 Dữ liệu khơng phân tách tuyến tính 25 Hình 2.5 Hàm ánh xạ từ không gian hai chiều sang không gian ba chiều 27 Hình 2.6 Mơ perceptron 28 Hình 2.7 Mô mạng nơ-ron ba lớp 30 Hình 2.8 Các bƣớc huấn luyện mạng nơ-ron 33 Hình 2.9 Các bƣớc kiểm tra liệu với mơ hình mạng nơ-ron sau huấn luyện 34 Hình 2.10 Sơ đồ huấn luyện mạng nơ-ron hệ thống phát xâm nhập 35 Hình 2.11 Phát gói tin bất thƣờng sử dụng mạng nơ-ron .36 Hình 3.1 Độ đo Information Gain 41 thuộc tính .55 iii DANH MỤC BẢNG BIỂU Bảng 3.1 Mô tả đặc trƣng liệu KDD cup 99 .41 Bảng 3.2 Bảng phân bố số lƣợng kiểu trạng thái kết nối 45 Bảng 3.3 Bảng chuyển đổi loại giao thức .46 Bảng 3.4 Bảng chuyển đổi trạng thái cờ kết nối 46 Bảng 3.5 Bảng chuyển đổi loại dịch vụ 47 Bảng 3.6 Bảng phân bố chuyển đổi nhãn trạng thái mạng .48 Bảng 3.7 Các kiểu công liệu 50 Bảng 3.8 Giá trị nhỏ lớn cột tập “Whole KDD 99” 51 Bảng 3.9 Kết chạy chƣơng trình thuật tốn học máy 54 Bảng 3.10 Kết thực nghiệm sử dụng 31 đặc trƣng 56 iv DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt IDS NIDS HIDS LR SVM ANN DOS R2L U2R IG Ý nghĩa Intrusion Detection System Network- Based Intrusion Detection System Host- Based Intrusion Detection System Logistic Regression Support Vector Machine Artificial Neural Network Denial of Service Remote to Local User to root Information Gain v LỜI CẢM ƠN Trƣớc tiên, em xin đƣợc gửi lời cảm ơn chân thành tới PGS.TS Lê Trọng Vĩnh, trƣờng Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội dành nhiều công sức hƣớng dẫn em thực luận văn nhƣ suốt trình học tập làm việc trƣờng Em xin chân thành cảm ơn thầy cô Bộ môn Tin học, trƣờng Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội nhiệt tình truyền đạt kiến thức, kinh nghiệm, phƣơng pháp nghiên cứu say mê khoa học tới nhiều lứa học viên cao học có em Em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, anh chị em ngƣời sát cánh bên em, giúp đỡ quan tâm, động viên suốt trình học tập nhƣ thời gian thực đề tài Với bảo tận tình thầy, cơ, em cố gắng để hoàn thành luận văn Tuy nhiên, em nhiều điểm hạn chế nên luận văn cịn tồn nhiều thiếu sót Em kính mong tiếp tục nhận đƣợc ý kiến góp ý thầy, cô nhƣ bạn học viên để em phát triển đề tài Một lần em xin gửi tới tất ngƣời lời cảm ơn chân thành Học viên Trần Thị Hƣơng vi LỜI MỞ ĐẦU Thế kỷ XXI, chứng kiến phát triển nhanh chóng Internet ảnh hƣởng sâu rộng tới lĩnh vực đời sống ngƣời Song song với lợi ích mà mạng máy tính đem lại trở thành mục tiêu lợi dụng kẻ công, xâm nhập trái phép nhằm thực mƣu đồ xấu, đe dọa tới tính an tồn bảo mật thông tin tổ chức hay ngƣời dùng kết nối mạng Mặc dù, hệ thống máy tính có chế tự bảo vệ riêng nhƣng chƣa đủ để phát hay ngăn chặn công ngày tinh vi Vấn đề đặt xây dựng đƣợc hệ thống phát sớm có hiệu cơng hay xâm nhập trái phép từ đƣa cảnh báo biện pháp xử lý kịp thời Một số hệ thống phát xâm nhập mạng truyền thống đƣợc áp dụng phổ biến rộng rãi giới nhƣ hệ thống phát xâm nhập dựa tập luật, phân tích thống kê,…Các hệ thống phát tốt công biết với tỷ lệ cảnh báo sai thấp Tuy nhiên, chúng tỏ hiệu công mới, đồng thời phải cập nhật luật Một vài nghiên cứu gần [1][5] đƣa hƣớng tiếp cận dựa vào học máy cho toán phát xâm nhập mạng Từ nghiên cứu thực nghiệm liệu chuẩn, tác giả thuật toán dựa vào học máy có khả học tiếp thu tri thức từ tri thức biết từ giúp phân loại mẫu đƣợc học, dự đoán tốt mẫu (các kiểu công mới) Điều hứa hẹn đem lại cách tiếp cận hiệu cho tốn phát xâm nhập.Vì vậy, luận văn tập trung theo hƣớng tiếp cận lựa chọn ba thuật tốn điển hình nhận đƣợc quan tâm nghiên cứu gần hồi quy logistic, máy véc-tơ hỗ trợ, mạng nơ-ron nhân tạo Đồng thời tiến hành xây dựng hệ thống phát xâm nhập dựa vào thuật toán học máy từ phân tích đánh giá hiệu thuật toán việc phát xâm nhập Luận văn “Đánh giá hiệu số thuật toán phát xâm nhập mạng” đƣợc chia làm ba chƣơng với nội dung nhƣ sau: Chƣơng 1: Tổng quan: Hệ thống hóa vấn đề liên quan tới phát xâm nhập mạng hệ thống phát xâm nhập mạng Ngồi ra, chƣơng trình bày số cách tiếp cận để giải vấn đề phát xâm nhập mạng Chƣơng 2: Phát xâm nhập mạng dựa vào học máy: Trình bày số thuật tốn học máy có giám sát điển hình nhƣ hồi quy logistic, máy véc-tơ hỗ trợ, mạng nơ-ron nhân tạo cho toán phát xâm nhập, nhƣ việc áp dụng thuật toán giải tốn Bên cạnh đó, chƣơng trình bày vấn đề rút gọn đặc trƣng sử dụng độ đo information gain để giảm thiểu chi phí tính toán thời gian phát Chƣơng 3: Đánh giá hiệu số thuật toán việc phát xâm nhập mạng: Tiến hành thực nghiệm thuật toán học máy nêu chƣơng hai nhiều liệu chuẩn (KDD CUP 99), từ có đánh giá, nhận xét so sánh tỷ lệ phát xâm nhập thời gian phát mơ hình chúng [17] Đặc biệt, đối tƣợng, hệ thống ln trì hai loại hồ sơ hồ sơ hoạt động (current profile) hồ sơ lƣu trữ (stored profile) Nhƣ vậy, kiện diễn ra, hệ thống cập nhật hồ sơ thƣờng xun tính tốn điểm bất thƣờng cách so sánh hồ sơ với hồ sơ đƣợc lƣu trữ Nếu điểm số bất thƣờng cao ngƣỡng định hệ thống đƣa cảnh báo Haystack [17] hệ thống đơn giản áp dụng phân tích thống kê cho việc phát bất thƣờng Các tham số hệ thống đƣợc mơ hình hóa nhƣ biến độc lập hay biến ngẫu nhiên Guassian Sau đó, Haystack định nghĩa miền giá trị tiêu chuẩn (thơng số thời điểm hoạt động bình thƣờng) cho thuộc tính Nếu suốt phiên làm việc, đặc trƣng nằm miền giá trị tiêu chuẩn, điểm số cho đối tƣợng tăng lên Nếu điểm số vƣợt ngƣỡng cho phép đƣa cảnh báo Ƣu điểm phƣơng pháp phát dựa vào thống kê khơng đỏi hịi kiến thức lỗ hổng bảo mật hay xâm nhập Tuy nhiên, nhƣợc điểm phƣơng pháp khó xác định ngƣỡng cảnh báo Bên cạnh đó, việc xác định phân bố thống kê phù hợp với hành vi hệ thống ngƣời thách thức khơng thể sử dụng phƣơng pháp thống kê đơn giản để mơ hình hóa hành vi 1.4.3 Cách tiếp cận dựa vào học máy Trong vài năm trở lại đây, cách tiếp cận dựa vào thuật toán học máy cho việc phát bất thƣờng mạng đƣợc quan tâm, đầu tƣ nghiên cứu Trong nghiên cứu [5][17] rằng, hệ thống phát dựa vào thuật tốn học máy khơng phát tốt cơng biết mà cịn có khả phát tốt công với tỷ lệ cảnh báo sai thấp Dƣới đây, luận văn trình bày qua số nghiên cứu gần sử dụng thuật tốn học máy có giám sát cho toán phát xâm nhập mạng nhƣ: mạng Bayes, hồi quy logistic, máy véc-tơ hỗ trợ, mạng SOM, mạng nơ-ron nhân tạo 13 a) Mạng Bayes Mạng Bayes [17] mơ hình đồ thị thể mối quan hệ nguyên nhân - kết quả, dựa chủ yếu lý thuyết xác suất có điều kiện kết hợp với lý thuyết đồ thị để giải hai vấn đề quan trọng tính khơng chắn tính phức tạp Do đó, mạng Bayes đƣợc ứng dụng rộng rãi nhiều toán Mạng Bayes hoạt động nguyên tắc mô tả mối quan hệ phụ thuộc biến, hoạt động đƣợc trƣờng hợp liệu không đầy đủ phân bố không nhƣ liệu mạng Ƣu điểm mạng Bayes tính ổn định với liệu đồng thời có khả đốn trƣớc đƣợc kết hành vi sử dụng mối quan hệ nhân Các hệ thống phát bất thƣờng dựa mạng Bayes mơ hình Valdes, có khả phát chuỗi công phân tán công tách biệt không sinh cảnh báo Mơ hình sử dụng hệ thống Bayes để xây dựng mối quan hệ nguyên nhân kết cơng yếu tố quan sát Sau dựa phân bố xác suất yếu tố quan sát đƣợc để tính xác suất có cơng Việc sử dụng mạng Bayes cho phát bất thƣờng có ƣu điểm giảm đƣợc tỷ lệ cảnh báo sai Tuy nhiên, mạng có hạn chế hiệu suất hoạt động giảm yếu tố quan sát tăng lên b) Hồi quy logistic Một nghiên cứu gần [1] đề xuất mơ hình phát xâm nhập dựa vào hồi quy logistic Các tác giả nghiên cứu phụ thuộc biến trả lời (nhãn công) biến dự báo (dấu hiệu công) cách xây dựng hàm giả thiết Mặt khác, mơ hình phân loại logistic thực tính tốn đặc trƣng dạng số, vậy, nhóm nghiên cứu tiến hành chuyển hóa đặc trƣng dạng phi số dạng số sử dụng chuẩn hóa max-min để chuẩn hóa giá trị đặc trƣng Nhóm tác giả tiến hành thực nghiệm nhiều lần huấn luyện test, đánh giá hiệu suất lần thực nghiệm, từ chọn tham số tốt cho mơ hình 14 c) Máy véc-tơ hỗ trợ Trong lớp toán phân loại hồi quy, máy véc-tơ hỗ trợ (Support Vector Machine) thuật toán phân loại tốt đặc biệt toán phân loại nhị phân SVM kỹ thuật phân loại dựa vào lý thuyết học thống kê [18] Ý tƣởng thuật tốn tìm siêu phẳng tuyến tính tối ƣu có khoảng cách hai lớp cần phân loại lớn Và để tìm đƣợc siêu phẳng này, SVM phải dựa vào số véc-tơ đặc biệt đƣợc gọi véc-tơ hỗ trợ Cơ sở toán học thuật tốn đƣợc luận văn trình bày chi tiết chƣơng Trong nghiên cứu [18], nhóm tác giả xây dựng mơ hình sử dụng SVM phân loại mẫu kết nối mạng vào hai lớp “normal” hay “attack” Nhóm nghiên cứu sử dụng hàm nhân khác nhƣ hàm sigmoid, hàm đa thức hay hàm RBF để ánh xạ liệu huấn luyện sang khơng gian nhiều chiều Từ tìm đƣợc siêu phẳng tối ƣu phân loại tốt mẫu liệu d) Mạng nơ-ron nhân tạo Nghiên cứu đáng ý áp dụng mạng nơ-ron nhân tạo cho toán phát xâm nhập mạng đến từ nhóm tác giả Mukkamala, Janoski, Sung [16] Các tác giả chọn 14000 ghi kết nối ngẫu nhiên liệu KDD Cup 99 chia thành hai phần, 7000 kết nối ngẫu nhiên thuật toán lan truyền ngƣợc (back propagation) đƣợc áp dụng cho việc huấn luyện mơ hình Phần cịn lại dùng để kiểm tra Nhóm nghiên cứu mơ hình phát dựa vào mạng nơ-ron phân loại tốt kết nối công không công Tuy nhiên, nghiên cứu áp dụng liệu nhỏ so với liệu gốc để kiểm chứng hiệu phƣơng pháp cần phải nghiên cứu liệu có kích thƣớc lớn Một nghiên cứu đáng ý khác nhóm tác giả Yacine Cuppens [2] tiến hành kết hợp mạng nơ-ron định cho phát xâm nhập mạng Với việc thiết kế mạng nơ-ron ba lớp gồm lớp đầu vào, lớp ẩn, lớp đầu 15 sử dụng thuật toán C4.5 để phân loại hai cơng với số lƣợng nhƣ R2L U2L Nhóm tác giả mạng nơ-ron có khả phát tốt công biết định lại có khả phát tốt công Nhƣng số lƣợng công lớn liệu cơng thƣa khiến giá trị thuộc tính liệu lớn dẫn đến bùng nổ tổ hợp định 1.4.4 Hƣớng tiếp cận luận văn Phần trên, luận văn trình bày số cách tiếp cận cho toán phát xâm nhập mạng Tuy nhiên, luận văn nhận thấy hƣớng tiếp cận dựa vào bất thƣờng giải toán phát xâm nhập mạng, cụ thể áp dụng thuật toán học máy việc phát bất thƣờng đƣợc quan tâm, đầu tƣ nghiên cứu Bởi ƣu điểm cách tiếp cận việc phát công Trong nghiên cứu này, luận văn tập trung theo hƣớng tiếp cận dựa vào học máy, luận văn lựa chọn nghiên cứu ba thuật tốn học máy điển hình nhận đƣợc quan tâm, nghiên cứu cho toán phát xâm nhập mạng gần hồi quy logistic, máy véc-tơ hỗ trợ, mạng nơ-ron nhân tạo Từ tiến hành thiết kế áp dụng thuật toán học máy giải toán phát xâm nhập mạng Bên cạnh đó, tỷ lệ phát công số nghiên cứu gần [4][7] đạt 91% với chi phí tính tốn tƣơng đối lớn thời gian phát chậm Do đó, luận văn tập trung vào hai nhiệm vụ lớn cải tiến tỷ lệ phát công giảm bớt chi phí tính tốn từ giúp cho thời gian phát công nhanh 16 Chƣơng 2: Phát xâm nhập mạng dựa vào học máy Bài tốn phát xâm nhập đƣợc mơ hình hóa thành toán phân lớp nhƣ sau: Cho tập liệu liệu gồm N mẫu {x1, y1}, { x2, y2}…, {xN, yN}, xi , yi {normal, attack } Nhiệm vụ đặt xây dựng mô hình giả thiết h(.) tốt từ tập liệu cho để dự đoán phân lớp y0 cho mẫu liệu x0 Trong lĩnh vực học máy, ngƣời ta gọi trình xây dựng giải thiết từ tập huấn luyện cho trƣớc trình học có giám sát Trong chƣơng này, luận văn nêu sở lý thuyết cách áp dụng số thuật tốn học máy có giám sát để giải toán phân loại Cụ thể, luận văn sử dụng thuật toán học máy điển hình nhƣ: hồi quy logistic (Logistic Regression), máy véc-tơ hỗ trợ (Support Vector Machine), mạng nơ-ron nhân tạo (Artificial Neural Networks) Q trình phát dựa vào mơ hình học máy chia làm hai pha: pha huấn luyện (quá trình huấn luyện) pha phát (quá trình phát hiện) Sau thu bắt gói tin, ta tiến hành đƣa gói tin qua mơ hình phát xâm nhập (mơ hình dựa vào học máy) Tại pha phát mơ hình đƣa dự báo gói tin qua mạng gói tin kết nối bình thƣờng gói tin cơng Hình 2.1 dƣới mơ q trình phát xâm nhập dựa vào mơ hình học máy 17 Pha huấn luyện Pha phát Dữ liệu huấn luyện Trích chọn đặc trƣng Dữ liệu kiểm tra Tiền xử lý liệu Trích chọn đặc trƣng Mơ hình huấn luyện Tiền xử lý liệu Mơ hình sau huấn luyện Dự đốn Normal Attack Hình 2.1 Q trình phát xâm nhập dựa vào học máy 2.1 Hồi quy logistic Hồi quy logistic đƣợc phát triển nhà thống kê học David R.Cox vào năm 1970, nghiên cứu phụ thuộc biến trả lời (response variable) vào nhiều biến dự báo (predictors) Ngày nay, mơ hình hồi quy đƣợc áp dụng rộng rãi nhiều toán học máy, đặc biệt toán phân loại Với tập liệu liệu gồm N mẫu {x1, y1}, { x2, y2}…, {xN, yN}, xi mẫu thứ i tập huấn luyện xij giá trị đặc trƣng j mẫu thứ i Đối với mơ hình hồi quy logistic xi đƣợc bổ xung thêm đặc trƣng xi0 xi D1 18 1, Với đối tƣợng x0, mơ hình hồi quy logistic đƣa hàm dự báo (hàm giả thiết) (x0): = g( )= (2.1) Trong đó: - g(z) = hàm sigmoid - tham số mơ hình Hình 2.2 Hình dạng hàm sigmoid Khi đó, mơ hình hồi quy logistic đƣợc xây dựng nhƣ sau [1]: P(y=1| x0; ) = (x0) P(y=0| x0; ) = 1- (x0) Gọi ˆ ƣớc lƣợng hợp lý cực đại tham số Giả sử biết véc-tơ tham số ˆ , ta có quy tắc phân loại sau:  Xếp đối tƣợng x0 vào lớp (attack) nếu: P(y=1|x0; ̂) > P(y=0| x0; ̂ ) 19 ̂ (x0) > ̂ x0 >  Ngƣợc lại x0 đƣợc xếp vào lớp (normal) Giả sử tập liệu huấn luyện đƣợc sinh độc lập nhau, log hợp lý liệu với tham số là: l( ) = ∑ (2.2) Đặt J( ) hàm mục tiêu: J( ) = (2.3) Trong đó: - R( ) hàm hiệu chỉnh Đối với mơ hình hồi quy logistic ngƣời ta hay sử dụng hàm hiệu chỉnh dạng chuẩn L1, L2 hyperbolic – L1 - Tham số dùng để điều khiển tính cân mơ hình việc phù hợp với liệu quan sát việc hiệu chỉnh tham số Nhƣ vậy, ta phải tìm để tối thiểu hóa hàm mục tiêu Và thuật toán phổ biến để giải toán tối ƣu sử dụng thuật toán giảm gradient Ý tƣởng thuật toán giảm gradient nhƣ sau: Ta xuất từ giá trị khởi đầu := - lặp để cập nhật theo công thức J( ), J( ) gradient J( ): J( ) = ( Mỗi tham số ) đƣợc cập nhật nguyên tắc: := - , j = 0, 1, …D Mã giả cho thuật toán giảm gradient ngẫu nhiên cho hồi quy logistic áp dụng cho toán phát xâm nhập mạng: 20 Đầu vào: (x1, y1), (x2, y2), …, (xN, yN) Đầu ra: ⃗ Lặp { Trộn ngẫu nhiên tập huấn luyện For i =1 to N - [ ] } đến hội tụ; 2.2 Máy véc-tơ hỗ trợ Máy véc-tơ hỗ trợ (Support Vector Machine), viết tắt SVM, thuật tốn phân lớp điển hình lĩnh vực học máy SVM phân lớp dựa lý thuyết học thống kê đƣợc tác giả Vapnick Corted đề xuất năm 1993, phát triển mạnh mẽ vào năm 1995 [12] Đây thuật tốn học có giám sát đƣợc áp dụng nhiều cho toán phân lớp đạt hiệu cao Ƣu điểm bật thuật tốn SVM khơng quan tâm tới số chiều liệu Đối với tốn phát xâm nhập đƣợc trình bày Các mẫu liệu đƣợc phân vào hai lớp normal attack Tuy nhiên, ta gán nhãn -1 mẫu liệu “normal” +1 mẫu liệu “attack” nhƣ yi {-1, +1} thay yi {0, 1} nhƣ mơ hình hồi quy logistic Ý tƣởng máy véc-tơ hỗ trợ xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vô hạn chiều để phân tách đƣợc tập hợp mẫu (huấn luyện) thuộc hai lớp tách biệt Với mẫu liệu mới, SVM biểu diễn mẫu liệu khơng gian dự đốn mẫu liệu thuộc lớp hai lớp +1 hay -1, điều phụ thuộc vào vị trí điểm nằm phía siêu phẳng Một cách trực giác, để phân loại tốt siêu phẳng nằm xa điểm liệu tất lớp (hàm lề) tốt, lề lớn sai 21 số thuật toán phân loại bé Hay siêu phẳng phân loại tốt siêu phẳng có lề (margin) lớn hai lớp Những điểm liệu gần biên đƣợc gọi vec-tơ hỗ trợ (support vector) Trong hình 2.3, điểm đƣợc khoanh tròn đƣợc gọi support vector Điểm thú vị thuật tốn siêu phẳng cần tìm phụ thuộc vào support vector, bỏ điểm liệu khác mà không ảnh hƣởng tới việc phân loại thuật tốn mang tên “Support Vector Machine” để thể ý nghĩa quan trọng support vector Hình 2.3 Một siêu phẳng phân chia liệu học thành hai lớp với khoảng cách biên lớn 2.2.1 SVM tuyến tính Phƣơng trình siêu phẳng qua điểm x khơng gian có dạng: + b = 0, đó: Tham số pháp tuyến véc-tơ pháp tuyến siêu phẳng khoảng cách gốc tọa độ siêu phẳng theo hƣớng véc-tơ Để tìm đƣợc siêu phẳng có biên lớn nhất, ta giả sử tất điểm liệu thỏa mãn điều kiện sau [18]: với yi = với yi = -1 22 Hay viết gọn lại là: yi ( + b) i i = ̅̅̅̅̅̅ (2.4) Nhƣ vậy, siêu phẳng tối ƣu xác định cách giải toán tối ƣu bậc hai:  min ,b với ràng buộc yi ( (2.5) i + b) i = ̅̅̅̅̅̅ Nếu số thuộc tính mẫu liệu lớn, đơn giản hóa phép tính cách chuyền toán với điều kiện Tucker tƣơng đƣơng với phƣơng pháp Lagrange cho (2.5) giải toán sau: 1 max   θ,b α 0  Với =( , , …, ),  -  αi [ yi ( xi • θ + b ) - 1] i=1  N (2.6) nhân tử Lagrange tƣơng ứng với điểm liệu huấn luyện Đặt L( , b, ) =  2 N -  αi [ yi ( xi • θ + b ) - 1] (2.7) i=1 Vi phân phần (2.7) lần lƣợt với , b ta thu đƣợc: N L ( , b, ) =   =  yii x i  i1 L ( , b, ) =  b = b N yi i  i 1 (2.8) Từ (2.6), (2.7), (2.8) ta có tốn tối ƣu sau: N N N L( )   αi   αi α j yi y j xi T x j i 1 j=1 i 1 N N N   αi   αi α j yi y j K ( xi , x j ) i 1 j=1 i 1 N với ràng buộc  y i 1 i i (2.9)  0,  i  Số lƣợng biến toán tối ƣu số mẫu tập liệu huấn 23 luyện Giả sử ta tìm đƣợc cặp nghiệm tối ƣu , Theo lý thuyết Karush Tucker, điều kiện để xảy bất đẳng thức (2.4) tƣơng ứng cặp huấn luyện vào-ra (xi, yi) > mẫu huấn luyện véc-tơ hỗ trợ (support vector) Giải (2.9) với =( ) ta tìm đƣợc support vector hai lớp dƣơng (+1) lớp âm (-1) Khi đó, tính đƣợc b* theo công thức: b*  N *  j y j ( x r x j + xs x j ) j=1 (2.10) với xr, xs lần lƣợt support vector lớp (+1) lớp (-1)  SVM lề mềm Nếu không tồn siêu phẳng phân tách đƣợc hai lớp liệu sử dụng thuật toán “lề mềm” chọn siêu phẳng phân tách điểm liệu tốt có thể, đồng thời cực đại hóa khoảng cách siêu phẳng với mẫu liệu đƣợc gán nhãn Ý tƣởng phƣơng pháp sử dụng biến “bù” ( 0), dùng để đo độ sai lệch mẫu xi 24 Hình 2.4 Dữ liệu khơng phân tách tuyến tính Ràng buộc (2.4) trƣờng hợp liệu khơng phân tách tuyến tính là: yi ( i + b) , i = ̅̅̅̅̅̅ 1- Khi đó, tốn tối ƣu trở thành: Tải FULL (71 trang): https://bit.ly/3fQM1u2 Dự phòng: fb.com/KhoTaiLieuAZ N 1    + C i  θ, i  i=1  với ràng buộc: yi ( i + b) (2.11) 1- (2.12) , i = ̅̅̅̅̅̅ C tham số phản ánh độ lớn lỗi phân loại thƣờng đƣợc chọn theo toán Giải toán tối ƣu (2.12) sử dụng phƣơng pháp nhân tử Lagrange N N N T min ,b max , L( ,b, , , )=  + C  i    i ( yi [ xi  b]  i )    ii i=1 i 1 i=1 25 (2.13) , nhân tử Lagrange Đạo hàm L( , b, , , ta thu đƣợc: ) theo biến , b, N L ( , b, ,  ,  ) =   =  yi i x i  i1 L ( , b, ,  ,  ) =0  b = b N yi i  i 1 L ( , b, ,  ,  ) =   i  i  C  (2.14) Tải FULL (71 trang): https://bit.ly/3fQM1u2 Dự phịng: fb.com/KhoTaiLieuAZ 2.2.2 SVM phi tuyến tính Trên đây, luận văn trình bày mơ hình SVM cho trƣờng hợp liệu phân tách tuyến tính nhƣng trƣờng hợp liệu khơng phân tách tuyến tính (hình 2.4), tức khơng tìm đƣợc siêu phẳng phân tách đƣợc hai lớp liệu tốn tối ƣu (2.4) khơng cịn trƣờng hợp Năm 1995, Cortes Vapnik đề xuất ý tƣởng cho việc phân lớp với liệu khơng phân tách tuyến tính sử dụng SVM ta tiến hành ánh xạ véc-tơ đầu vào x sang khơng gian có số chiều lớn sử dụng hàm [12] Khi đó, khơng gian này, ta xây dựng siêu phẳng phân tách tối ƣu hai lớp liệu (hình 2.5) Tiền xử lý liệu với: x (x) Học cách ánh xạ từ (x) sang y: (x) =   (x) + b (2.15) Ví dụ: : 26  ( x1 , x2 )  ( z1 , z2 , z3 ) : ( x12 , x1 x2 , x2 ) Hình 2.5 Hàm ánh xạ từ khơng gian hai chiều sang không gian ba chiều SVM sử dụng hàm nhân (Kernel) để ánh xạ toàn liệu từ khơng gian chiều sang khơng gian nhiều chiều [12] Hàm Kernel có dạng: K(xi, xj) = ( )T ( ) (2.16) Một số hàm Kernel thƣờng dùng là: o Hàm Kernel tuyến tính: K ( xi , x j )   xi T x j o Hàm Kernel đa thức: K ( xi , x j )  (1  xi T x j ) p o 2.3 Hàm Kernel RBF (Radial Basis Function): K ( xi , x j )  e    xi  x j  Mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo (Artificial Neural Networks) lần đƣợc giới thiệu Frank Rosenblatt năm 1960, xuất phát từ ý tƣởng mô hoạt động hệ 27 6732424 ... hành xây dựng hệ thống phát xâm nhập dựa vào thuật toán học máy từ phân tích đánh giá hiệu thuật toán việc phát xâm nhập Luận văn ? ?Đánh giá hiệu số thuật toán phát xâm nhập mạng? ?? đƣợc chia làm ba... tới phát xâm nhập mạng hệ thống phát xâm nhập mạng Ngồi ra, chƣơng trình bày số cách tiếp cận để giải vấn đề phát xâm nhập mạng Chƣơng 2: Phát xâm nhập mạng dựa vào học máy: Trình bày số thuật. .. trung vào việc nghiên cứu toán phát xâm nhập mạng, xây dựng đánh giá mơ hình phát xâm nhập mạng 1.2 Xâm nhập 1.2.1 Khái niệm Hiện chƣa có định nghĩa xác thuật ngữ xâm nhập Mỗi chuyên gia lĩnh

Ngày đăng: 03/02/2023, 18:52