Các nghiên cứu dựa trên kỹ thuật học máy trong phát hiện xâm nhập đã cho thấy hiệu quả trong việc phát hiện các tấn công mới với tỷ lệ phát hiện cao, tỷ lệ phát hiện nhầm thấp với chi [r]
(1)PHÁT HIỆN XÂM NHẬP MẠNG SỬ DỤNG KỸ THUẬT HỌC MÁY Vũ Văn Cảnh*, Hoàng Tuấn Hảo, Nguyễn Văn Quân
Tóm tắt: Cùng với phát triển mạng máy tính, vấn đề an ninh mạng đối mặt với thách thức lớn, hệ thống mạng trở thành mục tiêu tấn công phá hoại, xâm nhập trái phép đánh cắp thông tin Hacker Hầu hết kỹ thuật phát xâm nhập truyền thống có tỷ lệ phát xác thấp và tỷ lệ phát nhầm cao Các nghiên cứu dựa kỹ thuật học máy phát hiện xâm nhập cho thấy hiệu việc phát công với tỷ lệ phát cao, tỷ lệ phát nhầm thấp với chi phí tính tốn hợp lý Trong báo này, chúng tơi nghiên cứu số kỹ thuật học máy phát xâm nhập mạng Các thí nghiệm tiến hành liệu KDD99 phịng thí nghiệm An ninh mạng - Học viện Kỹ thuật quân sự.
Từ khóa: Học máy, Xâm nhập mạng, Phát xâm nhập, Phân cụm
1 GIỚI THIỆU
Trong sống đại, Internet yếu tố quan trọng thúc đẩy phát triển quan, tổ chức Tuy nhiên, có nhiều rủi ro sử dụng Internet xuất phát từ cơng mạng Vì vậy, hệ thống phát xâm nhập (Intrusion Detection System - IDS) khác thiết kế xây dựng nhằm ngăn chặn công Mục tiêu IDS cung cấp hàng rào bảo vệ, giúp hệ thống mạng có khả phát cơng từ bên ngồi Việc phát xâm nhập dựa giả thiết hành vi kẻ xâm nhập khác với người sử dụng hợp lệ [12] Hình mơ tả vị trí điển hình IDS hệ thống giám sát an ninh mạng Trong đó, liệu vào Internet mạng nội IDS bắt, xử lý phân lớp để xác định truy cập bình thường cơng; Từ đó, có cảnh báo, hành động phù hợp
IDS chia thành hai loại: IDS dựa dấu hiệu (misuse-based) IDS dựa bất thường (anomaly-based) [2] Việc phân lớp vào cách tiếp cận phát xâm nhập IDS dựa dấu hiệu sử dụng mẫu công biết điểm yếu hệ thống để xác định xâm nhập, tương tự phần mềm chống virus sử dụng mẫu để phát virus Yếu điểm kỹ thuật phát mẫu công mới, nên cần phải cập nhật liên tục dấu hiệu công để nhận dạng cơng
(2)Hình 1 Vị trí IDS hệ thống giám sát an ninh mạng.
thông thường thiết lập trước để đánh dấu xâm nhập Vì vậy, IDS dựa bất thường cần quen với mẫu sử dụng thông thường thông qua việc học Các kỹ thuật học máy khác sử dụng rộng rãi để phục vụ cho mục đích Hình mơ tả kiến trúc IDS sử dụng kỹ thuật học máy [7] Trong đó, liệu bắt sau qua công đoạn tiền xử lý, chọn lựa thuộc tính phân lớp phân lớp (classifier) huấn luyện Việc huấn luyện phân lớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ
(3)Bài báo viết với cấu trúc sau: sau phần giới thiệu, phần trình bày kiến thức tảng cơng đột nhập mạng, kỹ thuật xâm nhập kỹ thuật học máy Một số kỹ thuật học máy ứng dụng phát công xâm nhập trình bày phần Phần trình bày thử nghiệm kết kỹ thuật học máy đề xuất
2 KIẾN THỨC NỀN TẢNG 2.1 Tấn công đột nhập mạng
Tấn công, đột nhập mạng hành vi công xâm nhập trái phép nhằm lạm dụng tài nguyên mạng, việc lạm dụng dẫn đến hậu khiến cho tài nguyên mạng trở nên không đáng tin cậy không sử dụng Hầu hết cơng xâm nhập mạng máy tính vượt qua lớp bảo mật hệ thống theo phương thức cụ thể nhằm phá vỡ thuộc tính bảo mật thơng tin hệ thống Ví dụ số công nhằm đọc, đánh cắp thông tin không thay đổi thành phần hệ thống Một số công lại tắt làm ngừng hoạt động thành phần hệ thống Hoặc cơng khác lại có khả chiếm toàn quyền điều khiển phá huỷ hệ thống Chung quy lại, chúng thường gây nên tổn thương đến thuộc tính bảo mật thơng tin hệ thống: tính bí mật, tính tồn vẹn tính khả dụng
2.2 Các kỹ thuật phát xâm nhập
Hệ thống phát xâm nhập (Intrusion Detection System - IDS) [10] hệ thống có khả phân biệt hành vi người dùng bình thường bất thường, ngồi ra, cịn có chức giám sát, phân tích lưu lượng mạng, hoạt động khả nghi cảnh báo cho hệ thống, nhà quản trị
2.2.1 Kỹ thuật phát dựa phương pháp phát lạm dụng
Những nghiên cứu phát xâm nhập dựa phương pháp phát lạm dụng bắt đầu vào năm 1980 với báo cáo Anderson [1] Trong đó, hành vi xâm nhập phát cách so sánh hành vi giám sát với hành vi công mẫu biết Do đó, phương pháp có hiệu việc phát dạng công, đột nhập biết
(4)Hồ sơ hệ thống thường tập luật (rules), sử dụng để mơ tả hành vi bình thường bất thường
Hình 3 Mơ hình phát lạm dụng.
Phương pháp phát dựa lạm dụng có bốn kỹ thuật thường sử dụng, kỹ thuật đối sánh mẫu, kỹ thuật dựa tập luật, kỹ thuật dựa trạng thái, kỹ thuật dựa khai phá liệu
2.2.2 Kỹ thuật dựa phương pháp phát bất thường
Khác với phát dựa lạm dụng, phương pháp phát dựa bất thường [1] dựa vào việc thiết lập hồ sơ hoạt động bình thường cho hệ thống Phương pháp dựa giả định hành vi công, xâm nhập có quan hệ mật thiết với hành vi bất thường Các nghiên cứu phát bất thường bắt đầu cách định nghĩa hành động coi bình thường, sau xác định hoạt động xâm nhập phương pháp phân biệt hành động xâm nhập cụ thể
(5)Mơ hình phát bất thường, minh họa hình bao gồm bốn thành phần: Thu thập liệu, hồ sơ hệ thống bình thường, phát bất thường thành phần phản hồi Các hành động sử dụng hệ thống bình thường hay lưu lượng liệu thu thập lưu lại thành phần thu thập liệu Các kỹ thuật mô hình cụ thể sử dụng để tạo hồ sơ hệ thống bình thường Thành phần phát bất thường định hành vi giám sát bất thường thông qua mức sai lệch hành vi với hành vi bình thường tập hồ sơ Cuối cùng, thành phần phản ứng báo cáo xâm nhập phát Ưu điểm phương pháp dựa phát bất thường khả phát cơng khơng địi hỏi có hiểu biết dạng cơng Tuy nhiên, phương pháp cịn tồn số hạn chế tỷ lệ phát sai thường cao phương pháp dựa giả định công, xâm nhập đồng nghĩa với bất thường Trên thực tế, nhiều hành vi bất thường hành vi công Hơn nữa, phương pháp gặp phải khó khăn việc thu thập liệu để xây dựng hồ sơ hành vi bình thường Chẳng hạn, hồ sơ hành vi bình thường người dùng xây dựng dựa liệu thu thập khoảng thời gian hoạt động bình thường, hoạt động xâm nhập khơng bị phát thời gian coi hành vi bình thường Điều dẫn đến giảm tỷ lệ phát Một vấn đề khác kỹ thuật phát bất thường khó phát cơng tàng hình, kiểu công mà hành vi công ẩn số lượng lớn hành vi bình thường
Phương pháp phát dựa bất thường chia thành kỹ thuật sau: kỹ thuật mơ hình thống kê mở rộng, kỹ thuật dựa mơ hình luật, kỹ thuật dựa mơ hình sinh học kỹ thuật dựa mơ hình học
2.3 Kỹ thuật học máy
Học máy (ML – Machine Learnning) [9] kỹ thuật thiết kế phát triển thuật tốn cho phép máy tính đánh giá hành vi dựa liệu thực nghiệm, chẳng hạn liệu cảm biến sở liệu Một chương trình học tận dụng mẫu (dữ liệu) để nắm bắt đặc điểm quan tâm, liệu xem ví dụ minh họa mối quan hệ biến quan sát Trọng tâm nghiên cứu học máy tự động học cách nhận mẫu phức tạp đưa định thông minh dựa liệu Học máy chia thành nhánh sau: học có giám sát, học nửa giám sát học không giám sát
(6)Học có giám sát (Supervised learning) [9] q trình học với tập liệu huấn luyện ban đầu hoàn toàn gán nhãn từ trước Học có giám sát sử dụng cho lớp toán phân lớp phân loại Với cách học này, kinh nghiệm cho cách tường minh dạng đầu vào đầu hàm đích Hình mơ tả kỹ thuật học có giám sát
Hình 5 Mơ hình học có giám sát.
Một số kỹ thuật học có giám sát thường quan tâm máy hỗ trợ vector, định, mạng thần kinh nhân tạo, lập trình di truyền …
2.3.2 Kỹ thuật học nửa giám sát
Kỹ thuật học nửa giám sát [9] kỹ thuật học sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Nhiều nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với lượng nhỏ liệu có gán nhãn, cải thiện đáng kể độ xác Trong kỹ thuật học có giám sát, để gán nhãn liệu cho toán học máy thường địi hỏi chun viên có kỹ để phân loại tay mẫu huấn luyện Trong đó, chi phí gán nhãn tay cao, khơng khả thi Với phương pháp kết hợp mẫu liệu gán nhãn chưa gán nhãn đạt hiệu cao
2.3.3 Kỹ thuật học không giám sát
Trong kỹ thuật học không giám sát [9], tập liệu cho
dạng với vector đặc trưng mẫu huấn
luyện Nhiệm vụ thuật toán phải phân chia tập liệu D thành nhóm con, nhóm chứa vector đầu vào có đặc trưng giống
(7)3 ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG PHÁT HIỆN XÂM NHẬP MẠNG
3.1 Kỹ thuật học máy phát xâm nhập
Học máy kỹ thuật mạnh mẽ số nhà nghiên cứu ứng dụng vào giải toán phát xâm nhập mạng Năm 1990 Fox cộng [6] lần cố gắng mô hình hóa hệ thống hành vi người dùng mạng thần kinh nhân tạo Đề xuất họ sử dụng kỹ thuật học không giám sát để phát cấu trúc liệu mà không cần mẫu hành vi bất thường có sẵn Năm 1994, Frank [5] sử dụng trí tuệ nhân tạo cho phát xâm nhập theo hướng phân loại hành vi xâm nhập giảm liệu
Một đề xuất dựa mạng lan truyền ngược để giám sát chương trình chạy Ghost [15] cộng dựa kỹ thuật học giám sát đề xuất Các tác giả sử dụng liệu đầu vào tạo ngẫu nhiên cho hành vi bất thường, cho hiệu phát kỹ thuật phụ thuộc vào trọng số khởi tạo đầu vào huấn luyện
Một số nghiên cứu dựa thuật toán di truyền đề xuất, năm 1993 tác giả Me [8] sử dụng thuật toán di truyền cho phát lạm dụng Đề xuất cải thiện tỷ lệ cảnh báo nhầm hiệu quả; nhiên phương pháp chưa xác định xác loại cơng cụ thể
3.2 Thuật tốn quy nạp ID3
Thuật toán quy nạp ID3 [9] Quinlan đề xuất cuối thập niên 1970s với ưu điểm lựa chọn thuộc tính tốt để triển khai bước cách sử dụng độ lợi (Gain) thơng tin để đo tính hiệu thuộc tính phân lớp Trong q trình xây dựng định theo thuật toán ID3 bước phát triển cây, thuộc tính chọn để triển khai thuộc tính có độ lợi lớn
Xét trường hợp đơn giản cho liệu huấn luyện toán phát xâm nhập, ta quan tâm đến địa IP nguồn, IP đích, cổng nguồn, cổng đích để xác định mẫu có phải cơng hay khơng biểu diễn bảng
Bảng 1. Tập liệu huấn luyện cho toán phát xâm nhập.
IP nguồn IP đích Cổng nguồn Cổng đích Xâm nhập