Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
501,99 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐỨC HIỂN MÁY VÉCTƠ HỖ TRỢ ĐA LỚP VÀ ỨNG DỤNG PHÁT HIỆN TẤN CÔNG MẠNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SỸ KĨ THUẬT HÀ NỘI – NĂM 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS NGÔ QUỐC TẠO Phản biện 1: TS Trần Nguyên Ngọc Phản biện 2: PGS TS Đỗ Năng Toàn Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày 20 tháng 01 năm 2013 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng I MỞ ĐẦU - Lý chọn đề tài: Mặc dù đời chưa lâu mạng Internet phát triển mạnh mẽ có ảnh hưởng sâu rộng tất lĩnh vực đời sống người Bên cạnh lợi ích to lớn mang lại phiền phức nguy không nhỏ cho tổ chức người dùng kết nối vào Internet, có nguy đến từ cơng mạng Số lượng cơng mạng tồn giới không ngừng tăng số lượng mức độ nguy hiểm chúng Các công mạng gây hậu nghiêm trọng kinh tế, trị chí ảnh hưởng tới an ninh quốc gia Việc phát xử lý thủ phạm gây công khó khăn Giải pháp kỹ thuật phổ biến cho vấn đề phát sớm cơng mạng để từ có giải pháp thích hợp xử lý chúng - Những vấn đề tồn tại: Rất nhiều kỹ thuật áp dụng để phát kết nối mạng công mạng hay không với hiệu cao, chẳng hạn SVM, iSVM, Neural network… Nhưng thực tế ln địi hỏi độ xác phải cao - Mục đích nghiên cứu: Mục đích đề tài nghiên cứu kỹ thuật MSVM ứng dụng vào việc phát phân loại công không gian mạng để nâng cao độ xác hệ thống phát công mạng - Đối tượng phạm vi nghiên cứu: Kỹ thuật M-SVM ứng dụng MSVM vào việc phân loại kết nối mạng liệu KDD cup 99 Trong chương trình đánh giá phát công mạng Cơ quan Quản lý Nghiên cứu Dự Án Bộ quốc phịng Mỹ (DARPA), mơi trường thiết lập để thu liệu thô TCP/IP dump cho mạng mô giống mạng LAN Không lực Hoa Kỳ Với kết nối TCP/IP, 41 đặc trưng số phi số trích xuất Dữ liệu sử dụng thi kdd cup 1999 phiên liệu Các công thuộc bốn loại chính: DOS, R2L, U2R, Probing Dữ liệu kdd cup 1999 tải từ địa chỉ: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html 2 - Phương pháp nghiên cứu: Nghiên cứu cài đặt kỹ thuật Máy véc tơ hỗ trợ đa lớp Thu thập tiền xử lý liệu mẫu có cơng mạng Áp dụng SVMs liệu xử lý, so sánh, đánh giá hiệu kỹ thuật SVMs việc phát công mạng II NỘI DUNG Chương - TỔNG QUAN VỀ PHÁT HIỆN TẤN CƠNG MẠNG 1.1 Tấn cơng mạng 1.1.1 Khái niệm cơng mạng Có nhiều cách hiểu khác công mạng, theo Sandeep Gutta cơng mạng (cyber attack hay intrusion) định nghĩa loạt hoạt động máy tính nguy hiểm đe dọa làm tổn hại tới bảo mật tính tồn vẹc máy thính hay hệ thống mạng Tấn cơng mạng phá vỡ hoạt động bình thường hệ thống máy tính truy nhập trái phép phá hủy thơng trin hệ thống máy tính [11] Theo cách khác cơng mạng định nghĩa hành động cố gắng làm tổn hại tồn vẹn, bí mật, tính sẵn sàng tài nguyên ngược lại mục tiêu bảo mật tài nguyên 1.1.2 Các kiểu cơng mạng Có nhiều kiểu cơng mạng ta phân chúng vào bốn loại sau : DoS - Denial of Service attack : Tấn công kiểu DoS công làm cho tài ngun máy tính (ví dụ Web server) khơng khả dụng với người dùng thực [11] Dạng phổ biến DoS làm cho tài nguyên máy tính q bận bị sử dụng tồn với nhiều u cầu vơ ích đến mức người dùng thực khơng thể sử dụng Có nhiều biến thể công DoS bao gồm TCP-SYN Flood, ICMP/UDP Flood, Smurf, Ping of Death, Teardrop, Mailbomb, Apache2 R2L - Remote to Local attack :Trong loại công này, tin tặc cố gắng đạt quyền truy cập khu vực vào hệ thống máy tính việc gửi gói tin tới hệ thống thơng qua mạng Một vài cách phổ biến mà loại thực đốn mật thơng qua phương pháp từ điển brute-force, FTP Write,… U2R - User to Root attack : Trong lớp công này, tin tặc với quyền người dùng bình thường cố gắng để đạt quyền truy nhập cao (đặc quyền người quản trị hệ thống) vào hệ thống cách bất hợp pháp.Một cách phổ biến lớp công thực phương pháp gây tràn đệm Probe – Surveillance : Trong loại công này, tin tặc qt mạng máy tính để tìm điểm yếu dễ cơng mà thơng qua tin tặc khai thác hệ thống Điều có phần giống theo dõi, giám sát hệ thống Một cách phổ biến loại công thực thông qua việc quét cổng hệ thống máy tính Bằng việc này, tin tặc lấy thơng tin cổng mở, dịch vụ chạy, nhiều thông tin chi tiết nhạy cảm khác địa IP, địa MAC, luật tường lửa sử dụng, … 1.2 Bài toán phát xâm nhập mạng Khi máy tính hay hệ thống hoạt động mơi trường mạng, có nhiều kết nối máy tính, thiết bị khác Trong kết nối có kết nối tìm cách cơng hệ thống để đạt mục đích Bản thân máy tính có chế để tự bảo vệ có điểm yếu thực khơng đủ sức chống lại công với mức độ nguy hiểm ngày lớn Bên cạnh máy tính hay hệ thống phải chịu nguy đến từ hành vi vi phạm sách an tồn bảo mật cơng nghệ thơng tin cách vơ tình hay hữu ý Bài tốn đặt cần có chế để phát sớm cơng để từ có biện pháp ngăn chặn giảm thiểu tối đa thiệt hại, tác động công gây 1.2.1 Phát xâm nhập mạng Phát xâm nhập mạng trình theo dõi kiện xảy hệ thống máy tính mạng máy tính phân tích chúng để tìm dấu hiệu cố xảy ra, vi phạm mối đe dọa xảy vi phạm sách bảo mật máy tính, sách sử dụng chấp nhận thực hành bảo mật tiêu chuẩn 4 1.2.2 Phân loại hệ thống phát xâm nhập mạng Các IDS giám sát kiện cấp độ khác : mạng (network), máy trạm (host), ứng dụng (application) Chúng phân tích kiện việc sử dụng phương pháp : dựa dấu hiệu (signature-based), dựa dị thường (anomaly-based) phân tích trạng thái giao thức (statefull protocol analysic) Bên cạnh việc theo dõi phân tích kiện để nhận dạng hoạt động không mong muốn, loại cộng nghệ IDS thường thực chức sau : - Ghi lại thông tin liên quan tới kiện quan sát - Thông báo cho quản trị hệ thống kiện quan trọng quan sát - Đưa báo cáo kiện quan sát cung cấp chi tiết kiện đặc biệt cần quan tâm Có hai cách để phân loại IDS dựa phương pháp giám sát dựa phương pháp phân tích IDS Dựa phương pháp giám sát Hệ thống phát xâm nhập dựa mạng (Network-based Intrution Detection System - NIDS) : Đây loại phổ biến sản phẩm thương mại Cơ chế phát cơng giám sát theo dõi gói tin mạng Điểm mạnh IDS kiểu với số IDS đặt vị trí tốt giám sát mạng lớn Việc triển khai IDS dựa mạng tác động tới hiệu suất mạng có Chúng tạo tính an tồn cao chống lại công Điểm yếu IDS dựa mạng khó xử lý tồn gói tin mạng lớn bận Hệ thống phát xâm nhập dựa máy trạm (Host-based Intrution Detection System – HIDS) phân tích hoạt động máy tính riêng biệt Vì chúng phải thu thập thông tin từ máy trạm mà chúng giám sát Điều cho phép IDS phân tích hoạt động trạm tốt định xác tiến trình user thực hoạt động nguy hại hệ điều hành 5 Trong tổ chức triển khai NIDS việc triển khai HIDS đề xuất để tăng thêm mức bảo vệ Dựa phương pháp phân tích Hệ thống phát xâm nhập dựa dấu hiệu (Signature-based IDS) Dấu hiệu (signature) thơng tin kết nối nguy hiểm biết trước Phát dựa dấu hiệu (signature-based detection) trình so sánh signature với kiện quan sát để nhận dạng cố xảy Phát dựa dấu hiệu phương pháp phát đơn giản so sánh hoạt động thời, với danh sách dấu hiệu hoạt động so sách chuỗi Ưu phương pháp hiệu việc phát công mà không tạo số lượng lớn cảnh báo sai Nhược điểm phát cơng mà biết khứ hay nói khác có sở liệu signature, hệ thống phải liên tục cập nhật dấu hiệu công Hệ thống phát xâm nhập dựa dị thường (Anomaly-based IDS) : Phát dựa dấu hiệu dị thường trình so sánh định nghĩa coi hoạt động bình thường so với kiện quan sát để xác định độ lệch đáng kể (significal deviation) IDS sử dụng phát dựa dị thường có cấu hình (profile) đại diện cho hành vi bình thường người sử dụng, máy chủ, kết nối mạng hay ứng dụng Các cấu hình phát triển việc quan sát đặc trưng hoạt động thông thường khoảng thời gian Lợi ích chủ yếu phương thức phát dựa dị thường hiệu việc phát mối nguy hiểm khơng biết trước 1.3 Một số kỹ thuật phát công mạng 1.3.2 Kỹ thuật Haystack Haystack sử dụng thuật toán phát dị thường theo thống kê, thơng qua như thành phần cốt lõi việc giám sát máy trạm hệ thống phát xâm nhập phân tán (DIDS) ( Axelsson, 1999) Thuật tốn phân tích hoạt động người dùng tương ứng với trình gồm bước : Bước thứ nhất, thuật toán tạo véctơ phiêm giao dịch (session) đại diện cho hoạt động người dụng với phiên làm việc riêng biệt Véctơ session X = biểu diễn số lượng thuộc tính đa dạng sử dụng để đại diện cho hoạt động người dùng phiên làm việc đơn Ví dụ, thuộc tính bao gồm thời gian phiên làm việc, số lượng file mở để đọc Bước thứ hai, thuật toán tạo véctơ Bernoulli để đại diện cho thuộc tính vượt ngồi khoảng cho phiên làm việc riêng biệt Một véctơ ngưỡng T = , ti mẫu sử dụng để hỗ trợ bước Véctơ ngưỡng lưu trữ cấu hình cá nhân Véctơ Bernoulli B= tạo cho bi thiết lập xi rơi khỏi phạm vi ti bi thiết lập trường hợp lại Bước thứ ba, thuật toán tạo điểm số trọng số xâm nhập cho loại xâm nhập riêng biệt, từ véctơ Bernoulli véctơ trọng số xâm nhập Mỗi nhóm cặp loại xâm nhập có véctơ trọng số xâm nhập W = , wi liên quan tới tầm quan trọng thuộc tính thứ i véctơ Bernoulli để phát kiểu xâm nhập riêng biệt Điểm số trọng số xâm nhập đơn giản tổng trọng số wi, thuộc tính thứ i rơi khỏi phạm vi ti Đó là, Điểm trọng số xâm nhập = ∑ Bước cuối cùng, thuật toán tạo thương số khả nghi đại diện cho mức độ khả nghi phiên làm việc này, so sánh với tất phiên làm việc khác cho loại xâm nhập riêng biệt Đặc biệt, thương số khả nghi xác suất mà điểm số trọng số xâm nhập phiên làm việc ngẫu nhiên hoạc điểm số trọng số xâm nhập tính tốn bước trước 1.3.2 Kỹ thuật Neural Network Fox, Henning, Reed Simmonian (1990) lần cố gắng mơ hình hóa hệ thống hành vi người dùng mạng nơron (neural nework) Lựa chọn mạng nơron họ đồ tự tổ chức Kohonen (Kohonen’s selforganizing map – Kohonen SOM), kiểu kỹ thuật học khơng giám sát, phát cấu trúc liệu mà khơng có mẫu trước hoạt động xâm nhập hay hoạt động bình thường Họ sử dụng SOM phận giám sát chạy ngầm theo thời gian thực, báo động cho hệ chuyên gia phức tạp Trong hệ thống mẫu họ, 11 tham số hệ thống sử dụng từ liệu thống kê hiệu suất hệ thống định nghĩa đầu vào mơ hình SOM Những tham số bao gồm : CPU usage, paging activity, mailer activity, disk accesses, memory usage, average session time, number of users, absentee jobs, reads of help files, failed log-ins, multiple log-ins Tuy nhiên, nghiên cứu họ kết chương trình mơ cơng virus, khơng đủ để đưa kết luận quan trọng Trong cố gắng áp dụng mạng nơron khác vào việc phát dị thường, Ghosh, Wanken Charron (1998) đề xuất sử dụng mạng lan truyền ngược (back-propagation network) để giám sát chương trình chạy Một mạng lan truyền ngược phát triển cho việc học có giám sát Nó cần mẫu hoạt động thông thường xâm nhập (dữ liệu huấn luyện) để xây dựng mơ hình phát xâm nhập Như mạng bao gồm lớp đầu vào, lớp ẩn (nơron khơng kết nối trực tiếp với nốt đầu vào ra) lớp đầu Thơng thường, khơng có kết nối nơron lớp nơron lớp với nơron lớp trước Chu kỳ huấn luyện mạng lan truyền ngược diễn giai đoạn Trong giai đoạn thứ nhất, đầu vào gửi tới mạng lan truyền tới đầu mạng Trong giai đoạn thứ hai, đầu thực tế mạng so sánh với đầu tiêu chuẩn Nếu véctơ không chấp nhận, mạng cập nhật trọng số bắt đầu nơron đầu Sau thay đổi trọng số tính tốn cho lớp trước đổ qua lớp nơron hướng phía nơron đầu vào Ghosh công đề xuất sử dụng đầu vào chương trình bên chương trình đầu vào mạng lan truyền ngược Một kết đáng ý họ cải tiến hiệu phát việc sử dụng liệu tạo ngẫu nhiên đầu vào dị thường Bằng việc xem xét liệu tạo cách ngẫu nhiên, mạng nhận nhiều liệu huấn luyện bổ sung cho liệu huấn luyện thực tế 8 Cũng giống mơ hình phát dựa thống kê dị thường, việc định tham số đầu vào cho mạng nơron phát dị thường vấn đề khó khăn Thêm vào đó, việc gán trọng số khởi tạo cho mạng nơron câu hỏi chưa giải Kinh nghiệm Ghosh cộng trọng số khởi tạo khác dẫn tới phát dị thường với hiệu khác 1.3.3 Kỹ thuật khai phá phân tích liệu kiểm tốn Khai thác phân tích liệu kiểm toán ( Audit data analysis and mining – ADAM) đề xuất áp dụng kỹ thuật khai phá liệu vào việc khám phá mẫu dị thường lượng lớn ADAM sử dụng vài kỹ thuật liên quan tới khai phá liệu giúp phát hoạt động mạng bất thường luật kết hợp (association rules), ước lượng giả Bayes (Pseudo Beyes estimator), Kỹ thuật thứ ba ADAM sử dụng kỹ thuật phân lớp 9 Chương – MÁY VÉCTƠ HỖ TRỢ 2.1 Tổng quan máy véctơ hỗ trợ 2.1.1 Giới thiệu máy véctơ hỗ trợ Máy véctơ hỗ trợ (Support vector machine – SVM) thuật toán học máy tiếng sử dụng để giải toán phân lớp Thuật toán SVM ban đầu phát minh Vladimir N Vapnik thuật toán SVM tiêu chuẩn đề xuất Vladimir N Vapnik Corinna Cortes năm 1995 SVM áp dụng thành công việc giải vấn đề giới thực nhận dạng văn [9], nhận dạng hình ảnh [2], nhận dạng chữ viết tay [15], phân loại thư rác điện tử [6], phát xâm nhập mạng [10],[12]… Ban đầu thuật toán SVM thiết kế cho toán phân lớp nhị phân Ý tưởng sau : Cho X= {xi} tập véctơ không RD xi thuộc hai lớp yi = -1 yi = +1 Ta có tập điểm liệu huấn luyện biểu diễn sau : {xi, yi} với i = 1…l, yi ∈ {-1, 1}, l số điểm liệu huấn luyện Giả sử liệu phân tách tuyến tính, nghĩa ta vẽ đường thẳng đồ thị x1 x2 phân tách hai lớp D = siêu phẳng đồ thị x1, x2… xD phân tách hai lớp với D > Mục tiêu SVM xây dựng siêu phẳng hai lớp cho khoảng cách từ tới điểm gần siêu phằng hai lớp cực đại Siêu phẳng mơ tả phương trình : w.x+b=0 đó: phép nhân véctơ vơ hướng w véctơ pháp tuyến siêu phẳng || || khoảng cách vng góc từ siêu phẳng tới gốc tọa độ Véctơ hỗ trợ điểm liệu gần siêu phẳng phân tách 10 Hình học véctơ lề ‖ ‖ việc cực đại hóa với ràng buộc (2.3) giống với việc tìm kiếm: ||w|| thỏa mãn yi(xi w + b) - ≥ ∀i (2.6) Khi tìm w0, b0 thỏa mãn (2.6), mẫu x’ phân lớp cách sử dụng mơ hình: Người ta véctơ huấn luyện phân tách mà khơng có lỗi siêu phẳng xác suất lỗi mắc phải mẫu kiểm tra giới hạn tỉ lệ giá trị kì vọng số lượng véctơ hỗ trợ số lượng véctơ huấn luyện [3] : E[Pr(error)] ≤ [ ố é ố é ℎỗ ơℎ ấ ợợ] ệ 2.2 Mơ hình SVM cho tốn hai lớp 2.2.1 Mơ hình primal Cho X = {xi, i = 1,…,n} tập véctơ không ℝ , nhãn lớp xi yi ∈ Y = {-1,+1} Ta có tập điểm liệu huấn luyện biểu diễn sau: T={(xi, yi) ; i = 1…n ; yi ∈ {-1, 1}}, n số điểm liệu huấn luyện Như trình bày phần 2.1.1, để cực đại hóa lề người ta cực tiểu hóa ||w|| Điều tương tự cực tiểu hóa với ‖ ‖ việc thay ||w|| ‖ ‖ giúp tốn giải dễ dàng Để xác định phân lớp (w,b) người ta giải toán tối ưu sau: , thỏa mãn: ‖ ‖ yi(xi w + b) - ≥ i, i=1,…,n (2.2) Bài toán (2.2) tốn tối ưu dạng tồn phương Mơ hình thường gọi SVM biên cứng Trong thực tế, ta thường sử dụng biên mềm cách chấp nhận số lượng nhỏ mẫu 11 phân lớp sai giới hạn chấp nhận Việc thực cách thêm vào tham số nới lỏng không âm , i = 1, …n: xi w + b ≥ +1 - cho yi = +1 (2.3) xi w + b ≤ -1 - cho yi = -1 (2.4) ≥0∀ (2.5) Có thể kết hợp hai phương trình thành: ≥0∀ ≥ với yi(xi w + b) – + (2.6) Chúng ta có mơ hình SVM biên mềm sau: ( cho: ‖ ‖ + , + )−1+ ∀ = 1, …n (2.7) 2.2.2 Mơ hình dual Ta xét biểu thức Lagrange toán tối ưu hóa (2.2): L = L( Trong đó, , , ) = ‖ ‖ − ∑ [ ( + ) − 1] nhân tử Lagrange Ta cần tìm điểm yên ngựa ( (2.8) , , ) hàm Lagrange phải cực tiểu hóa theo w b, cực đại hóa theo âm Phương trình (2.8) viết lại sau: L = L( , , ) = ‖ ‖ − ∑ ( + )+ ∑ không (2.10) Áp dụng điều kiện Karush-Kuhn-Tucker, lấy vi phân phần LP theo w b cho đạo hàm ta có: =0⇒w=∑ =0⇒∑ (2.11) =0 (2.12) Thay phương trình (2.11) (2.12) vào phương trình (2.10) ta thu cơng thức phụ thuộc vào α: LD (2.13) = ∑ - ∑, 12 = ∑ - ∑, = ∑ - ∑, với = (2.14) (2.15) Bài toán đối ngẫu (2.2), vậy, có dạng sau: max ∑ − (2.16) ≥ ∀ ∑ với điều kiện: =0 Bài toán có dạng tối ưu hóa tồn phương lồi theo biến Bất kì điểm liệu thỏa mãn (2.11) véctơ hỗ trợ xs có dạng: ys (w.xs + b) = Thay vào phương trình (2.11): ys(∑ ∊ + )=1 Trong đó, S tập số véctơ hỗ trợ S định việc tìm ≥ Nhân hai vế phương trình với ys sử dụng số i mà = ta có: (∑ ∊ + )= Suy ra: b = ys - ∑ ∊ (2.17) Chúng ta xét mơ hình trường hợp biên mềm Để chuyển toán biên mềm primal toán đối ngẫu, ta xét biểu thức Lagrange toán tối ưu (2.7) sau: = ‖ ‖ + ∑ −∑ [ ( + )−1+ ]−∑ (2.18) Áp dụng điều kiện Karush-Kuhn-Tucker, lấy vi phân phân theo w, b và cho đạo hàm 0, ta có: =0 ⟹ =0 ∑ =0 C= =∑ α y =0 + (2.19) (2.20) (2.21) 13 Thay phương trình vào (2.18) thu LD có dạng giống (2.14) Tuy nhiên, kết hợp (2.21) với (2.7) có dạng: max ∑ > ∀ suy α < C, tốn đối ngẫu − với điều kiện: (2.22) 0≤ ≤ ∀ ; ∑ =0 2.2.4 Hàm kernel Kỹ thuật SVM ban đầu giải toán với liệu phân tách tuyến tính Nhưng thực tế, liệu thường khơng phân tách tuyến tính Bằng việc sử dụng hàm kernel, liệu đầu vào ánh xạ vào khơng gian đặc trưng có số chiều cao mà liệu phân tách tuyến tính sau kỹ thuật SVM áp dụng Trong thuật toán máy học, khái niệm kernel trick cách ánh xạ quan sát từ tập S thông thường vào không gian F gọi Inner Products Space mà xác định ánh xạ cách tường minh Mục đích để quan sát đạt cấu trúc phân tách tuyến tính có ý nghĩa khơng gian F Sự phân lớp tuyến tính khơng gian F tương đương với việc phân lớp thông thường S Thủ thuật (trick) để tránh việc xác định ánh xạ cách tường minh thuật tốn học máy u cầu phép tích vơ hướng (dot product) véctơ không gian F chọn ánh xạ cho tích vơ hướng khơng gian nhiều chiều tính tốn không gian liệu ban đầu hàm kernel Với x, y S, hàm xác định K(x,y) biểu diễn tích vơ hướng (thường không gian khác) K thường gọi kernel hay hàm kernel Gọi Φ ánh xạ từ không gian liệu sang không gian đặc trưng, Φ: S F hàm kernel định nghĩa sau: K(x,y) = F , với 〈∙,∙〉F tích vơ hướng định nghĩa không gian F 14 Dễ thấy toán đối ngẫu (2.16) (2.22) xuất tích vơ hướng Vì vậy,bằng việc áp dụng phân lớp tuyến tính cực đại hóa lề cho tập liệu không gian mới, biểu thức Lagrange (2.13) viết lại sau: LD = ∑ −∑ ∑ ( ) ( ) (2.25) Và véctơ trọng số tối ưu phương trình (2.19): =∑ b0 = ys - m ( ) với ≥0 (2.26) y m ( xm ), ( x s ) mS Siêu phẳng tối ưu, trường hợp biểu diễn phương trình (2.27) sau: w x + b = ∑ ( ) ( )+ =0 (2.27) hàm định tối ưu: + g(x) = sign( ) = sign ∑ ( ) ( )+ (2.28) 2.3 Máy véctơ hỗ trợ trường hợp phân đa lớp 2.3.1 Mơ hình SVMs Kỹ thuật phân đa lớp dạng Multiple binary-classification Chiến lược one-vs-all Nó xây dựng k mơ hình SVM với k số lượng lớp SVM thứ i huấn luyện với tất mẫu huấn luyện gán nhãn sau: mẫu lớp thứ i gán nhãn tất lớp cịn lại gán nhãn -1 Theo cách đó, với l điểm liệu (x1, y1), (x2, y2),…, (xl, yl) xi ∊ Rn, i = 1, …, l yi ∊ {1, … , k} lớp xi, SVM thứ i giải vấn đề sau: (wi)T wi + C∑ , , ( ) Với ràng buộc : ( ) + ≥1− ( ) + ≤ −1 + ≥ 0, j = 1,…,l , = , ≠ (2.37) 15 Trong liệu huấn luyện xi ánh xạ vào không gian nhiều chiều việc sử dụng hàm Φ C tham số phạt Sau giải (2.27), có k hàm định: ( ( )+ ) (w ) ϕ(x) + b … ( ( )+ ) Ta nói x thuộc lớp có giá trị hàm định lớn nhất: Lớp x = arg max ,…, ( ( )+ ) (2.38) Chiến lược one-vs-one Phương pháp xây dựng k(k-1)/2 phân lớp, phân lớp huấn luyện liệu từ hai lớp Để huấn luyện liệu từ lớp thứ i thứ j, giải vấn đề phân lớp nhị phân đây: ( , ) , ( ( )+ ) + C∑ ≥ 1− ( ) , = (w ) ϕ(x ) + b ≤ −1 + ξ , if y = j ≥0 Có nhiều phương pháp thực kiểm tra sau k(k-1)/2 phân lớp xây dựng Sau số lần kiểm tra, sử dụng chiến lược sau: dấu ( ) ( ) + x thuộc lớp thứ i phiếu bầu cho lớp thứ i tăng thêm Ngược lại lớp thứ j tăng thêm Sau dự đốn x thuộc lớp có số phiếu bầu lớn 2.3.2 Mơ hình M-SVM Gọi X tập véc tơ không gian Rd Y = {1, ,Q} tập giá trị lớp Cho trước tập liệu huấn luyện X = {(x1, y1), (x2, y2), , (xn, yn)} ∈ R^(n∗(d+1)) cho xi ∈ X, yi ∈ Y, i = {1, , n} Ký hiệu G lớp hàm có dạng g : X → R^Q với g = {g1, g2, , gQ}, gi : X → R, i = 1, ,Q Một phân loại đa lớp hàm có dạng H : X → Y ánh xạ phần tử x thuộc X tới giá trị lớp y ∈ Y Cho w = (w1,w2, ,wQ) 16 véc tơ không gian R(Q.d) mà bao gồm Q véc tơ wi ∈ Rd, i ∈ {1, ,Q} cho b véc tơ không gian RQ Chúng ta xem xét hàm H có dạng: H(x)=arg max ( ) cho gi(x) = + bi, i ∈ [1 Q] tích vơ hướng định nghĩa không gian Rd Mục tiêu tìm siêu phẳng thích hợp gi(x), i ∈ {1, ,Q} mà phân chia tập liệu huấn luyện theo cách tốt Mơ hình MSVM Crammer-Singer Dạng Primal , , ‖ ‖ + với điều kiện: 〈 − , Φ( )〉 + , ≥ − , (1 ≤ ≤ ), (1≤ ≤ ) Dạng Dual + (1 ≤ ≤ ), (1 ≤ ≤ ) = , (1 ≤ ≤ ) Với ràng buộc ≥ 0, ∑ Mô hình MSVM Weston & Watkin Dạng Primal , , ‖ ‖ + với điều kiện: 〈 − ≥ 0, , Φ( )〉 + − ≥ 1− , (1 ≤ ≤ (1 ≤ ≤ Dạng Dual −1 ), (1 ≤ ), (1 ≤ ≠ ≠ ≤ ) ≤ ) 17 với điều kiện: 0≤ ⎧ ⎨ ⎩ ≤ , ∗ (1 ≤ ≤ Φ( ) − = 0, ), (1 ≤ (1 ≤ ≠ ≠ ≤ ) ≤ ) : Chương – KỸ THUẬT PHÁT HIỆN TẤN CÔNG MẠNG SỬ DỤNG MÁY VÉCTƠ HỖ TRỢ ĐA LỚP 3.1 Các yêu cầu hệ thống phát công mạng - Phát cơng mạng cách xác Một hệ thống phát xâm nhập mạng có độ xác cao bảo vệ tốt an toàn cho hệ thống đồng thời giảm bất lợi việc báo động sai hệ thống phát xâm nhập gây - Phát sớm công mạng - Hỗ trợ tốt cho người quản trị 3.2 Cấu trúc hệ thống phát công mạng 3.2.1 Mơ hình chung hệ thống phát xâm nhập mạng Mơ hình chung hệ thống phát xâm nhập mạng thường bao gồm thành phần : Sensor, Alarm-processing unit, Management unit Bên cạnh cịn có thành phần mang tính lựa chọn Deception system, Intrusion visualisation unit 18 Hình 3.1 Mơ hình chung IDS 3.2.2 Bộ phân loại sử dụng máy hỗ trợ véctơ đa lớp 19 Data base Preprocess ing data SVMs arg ,…, ( ) Normal data Dos U2R R2L Probe Alarm Executor Reactions Sensor s Management unit Hình 3.2 Mơ hình IDS sử dụng máy hỗ trợ véctơ đa lớp Các loại cơng mạng phân chia thành bốn lớp : DoS, U2R, R2L Probe Ta xem tốn phát cơng mạng tốn phân lớp nhiều lớp Trong phạm vi đồ án tác giả lựa chọn phân lớp đa lớp SVMs với chiến lược OneBộ phận Analyser sử dụng kỹ thuật phân lớp đa lớp SVMs tiến hành phân loại kết nối Nếu kết nối hoạt động công hệ thống phát công gửi thông tin cho phận Executor Bộ phận Executor dựa thông tin nhận phát báo động có hành động phản ứng lại 3.2.3 Thuật tốn phát cơng mạng Thuật tốn phát cơng mạng mơ tả sau : 20 Bước 1: Huấn luyện Input : file liệu định dạng Output: 1.for i=1 to Q (Q số siêu phẳng tương ứng với số lớp liệu huấn luyện) Gán nhãn cho tất điểm liệu thuộc lớp i giá trị + điểm liệu thuộc lớp cịn lại giá trị -1 Tính ma trận H Gọi solver Cplex để giải toán tối ưu Tính w, b Step 2: Phân lớp Input : file liệu lưu mẫu cần kiểm tra Output: Đọc ghi file liệu kiểm tra Tính gi(x) = wi x + bi , i = 1,…,Q Tìm gmax = max{gi(x)} Lớp x i = max 3.3 Các chuẩn đánh giá phân loại công mạng Để đánh giá phân loại công mạng, người ta thường sử dụng tiêu chuẩn sau : CE (Classification Error), ACTE (Average Cost per Test Example), True Possitive, Diagnosis Rate, False Posittive 21 Chương – CÀI ĐẶT VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Bộ liệu KDD cup 99 Bộ liệu KDD cup 99 có nguồn gốc từ MIT’s Lincoln Lab Nó phát triển cho chương trình đánh giá phát cơng mạng Cơ quan Quản lý Nghiên cứu Dự Án Phòng Thủ Tiên tiến Bộ quốc phòng Mỹ (DARPA) năm 1998 coi liệu tiêu chuẩn cho việc đánh giá phát công mạng [19] Với kết nối TCP/IP, 41 đặc trưng số phi số trích xuất Dữ liệu sử dụng thi kdd cup 1999 phiên liệu Các kiểu công chia vào bốn loại chính: DoS - denial of service R2L - Remote to Local U2R - User to Root attack Probe 4.2 Tiền xử lý liệu Trong liệu KDD 99 có 23 loại cơng mạng, chia vào loại chính: DOS, R2L, U2R, Probe Lớp kết nối liệu KDD CUP’99 thuộc tính phi số bảng viết vị trí cuối ghi Lớp kết nối thay lớp thuộc tính số bảng 4.4 Bảng 4.4 Thay lớp kết nối thuộc tính số STT Lớp kêt nối Lớp Normal DOS R2L U2R Probe 22 4.3 Các module chương trình Chương trình viết ngôn ngữ Visual C++ phiên 2008 Microsoft Hàm kernel sử dụng chương trình hàm Gauss Module: tính hàm kernel Gauss , Module: tính ma trận H Module: tạo file định dạng lp Module: tính giá trị W Module : phân lớp 4.4 Một số kết đánh giá Trong tốn phát cơng mạng có số lớp lớn hai nhu cầu đặt không phát kết nối có phải cơng hay khơng mà cần rõ thuộc loại công Bộ phân lớp đa lớp SVMs đáp ứng yêu cầu mà tốn phát cơng mạng đề Bên cạnh đó, ưu điểm SVMs có độ phân lớp xác cao, tỉ lệ False Positive tốt giúp cho hệ thống phát công phát sớm công mạng giảm thiểu cảnh báo sai Như việc sử dụng SVMs vào việc phát cơng mạng hồn tồn phù hợp Một số vấn đề tồn tại: Độ xác phân lớp SVMs nhạy cảm với tham số C người sử dụng lựa chọn Thời gian huấn luyện kiểm tra kỹ thuật SVMs cần phải cải thiện để đáp ứng việc xây dựng hệ thống phát xâm nhập mạng có khả xử lý khối lượng liệu ngày lớn Một vấn đề khác việc xây dựng máy véctơ hỗ trợ đa lớp cách kết hợp nhiều SVM khơng phản mối tương quan lớp ... ADAM sử dụng kỹ thuật phân lớp 9 Chương – MÁY VÉCTƠ HỖ TRỢ 2.1 Tổng quan máy véctơ hỗ trợ 2.1.1 Giới thiệu máy véctơ hỗ trợ Máy véctơ hỗ trợ (Support vector machine – SVM) thuật toán học máy tiếng... ) : Chương – KỸ THUẬT PHÁT HIỆN TẤN CÔNG MẠNG SỬ DỤNG MÁY VÉCTƠ HỖ TRỢ ĐA LỚP 3.1 Các yêu cầu hệ thống phát công mạng - Phát công mạng cách xác Một hệ thống phát xâm nhập mạng có độ xác cao bảo... máy hỗ trợ véctơ đa lớp Các loại công mạng phân chia thành bốn lớp : DoS, U2R, R2L Probe Ta xem tốn phát cơng mạng tốn phân lớp nhiều lớp Trong phạm vi đồ án tác giả lựa chọn phân lớp đa lớp