Các nghiên cứu hiện nay về máy học cho IDS

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng (Trang 39 - 43)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.4. Các nghiên cứu hiện nay về máy học cho IDS

Trong các nghiên cứu gần đây, ta cĩ thể thấy sự phát triển và thực hiện dần dần của một loạt các hệ thống phát hiện dị thường dựa trên các kỹ thuật máy học khác nhau. Nhiều nghiên cứu đã thực hiện các thuật tốn máy học một giai đoạn, chẳng hạn như mạng nơ-ron nhân tạo (ANN), thuật tốn di truyền (GA), máy véc-tơ hỗ trợ (SVM), cây quyết định (DT), … Tuy nhiên, các hệ thống dựa trên sự kết hợp của một số phương pháp, chẳng hạn như các hệ thống lai (hybrid) hoặc kết hợp (ensemble), hiện đang được nhiều học giả trên thế giới nghiên cứu sử dụng phổ biến.

2.4.1. Các nghiên cứu trong nước

Các tác giả Hồng Ngọc Thanh, Trần Văn Lăng, Hồng Tùng (2016) [18] đã đề xuất một cách xây dựng bộ kiểu tấn cơng lai đa tầng trên cơ sở kiến trúc của mơ hình phân đa lớp truyền thống One-vs-Rest trong đĩ luồng dữ liệu đi qua sẽ được sàn lọc qua các tầng thuật tốn như SVM, ANN, … Mỗi tầng của thuật tốn chuyên dụng được dùng để phân tích một loại tấn cơng tương ứng. Các tác giả đã xác nhận rằng sử dụng mơ hình đa lớp sẽ cho ra kết quả tốt hơn mơ hình đơn lớp.

Với kỹ thuật học sâu, các tác giả Tơ Trọng Tín, Trần Văn Lăng đã đề xuất các giải pháp học sâu để cải thiện khả năng phát hiện tấn cơng mạng trên Tạp chí Khoa học và Cơng nghệ số 1 được cơng bố 01/02/2018 [19]. Với việc áp dụng mạng thần kinh sâu như mạng đa lớp ẩn (Multilayer Perceptron - MLP) và mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) trên tập dữ liệu KDD99 được sử dụng để đánh giá độ chính xác (Accuracy), độ lỗi kiểu tấn cơng (MSE - Mean Squared Error) và ma trận hỗn loạn (Confusion Matrix). Hiệu quả đạt được là 98,2% với MLP và 99,04% với RNNs, so với 92,6% của SVM và 88.46% của Nạve Bayes, …

2.4.2. Một số nghiên cứu ngồi nước - Với kỹ thuật kết hợp đồng nhất: - Với kỹ thuật kết hợp đồng nhất:

Syarif, Zaluska, Prugel - Bennett và Wills [20] đã thực hiện các phương pháp Bagging, Boosting và Stacking, để giải quyết vấn đề phát hiện xâm nhập. Mục tiêu chính của nghiên cứu của họ là cải thiện độ chính xác của phân loại và giảm tỷ lệ dương

tính giả FPR, để phân loại tập dữ liệu NSL-KDD. Các kỹ thuật Bagging và Boosting được xây dựng với bốn thuật tốn phân loại truyền thống: Nạve Bayes, J48 (cây quyết định), JRip (quy tắc cảm ứng rule induction) và iBK (K láng giềng gần nhất). Ngồi ra, các kết hợp khơng đồng nhất được xây dựng bằng chiến lược xếp chồng, trong đĩ bốn thuật tốn được sử dụng lần lượt để thực hiện phân loại cấp độ meta. Cách tiếp cận của họ đạt được độ chính xác hơn 99%, trong việc phát hiện các xâm nhập đã biết. Tuy nhiên, đối với các loại xâm nhập mới, tỷ lệ chính xác chỉ là 60%. Việc sử dụng các kết hợp đồng nhất được tạo ra với Bagging và Boosting cho thấy khơng cĩ sự gia tăng đáng kể về độ chính xác. Mặt khác, kết hợp khơng đồng nhất được thiết lập với xếp chồng dẫn đến giảm đáng kể (46,84%) tỷ lệ dương tính giả FPR.

- Với kỹ thuật kết hợp khơng đồng nhất:

Meng và Kwok [21] đã thử nghiệm với cả hai bộ phân loại đơn và kết hợp gồm J45, KNN và SVM, để phân loại tập dữ liệu đánh giá phát hiện xâm nhập DARPA 1998. Họ phát hiện ra rằng một nhĩm gồm cả ba phân loại, dựa trên biểu quyết đa số, thực hiện vượt trội tất cả các kết hợp khác.

Xuejun Gu et al. [22] đã chỉ ra hiệu quả của mạng nơ-ron học sâu trong xử lý dữ liệu phi tuyến thời gian thực; theo đĩ ba mơ hình học sâu được thực nghiệm gồm: 1) Multilayer - Perceptrons (MLP); 2) Mạng nơ-ron tái phát (RNN) và 3) Mạng nơ-ron tích chập (CNN); trong đĩ mơ hình MLP và RNN là rất hiệu quả trong việc phân tích chuỗi dữ liệu tuần tự, liên tục và mang nhiều đặc trưng dữ liệu [23].

2.4.3. Một số nhận xét và các tồn tại cần nghiên cứu

Mặc dù cĩ nhiều cách tiếp cận để phát hiện xâm nhập sử dụng kỹ thuật máy học, các hệ thống đa chuyên gia vẫn là một trong những lĩnh vực nghiên cứu tích cực nhất. Cụ thể, các vấn đề phân loại mẫu thường được giải quyết thơng qua việc thực hiện các kỹ thuật dựa trên kết hợp. Tổng quan về các nghiên cứu liên quan cho thấy nhiều phương pháp như vậy đã được sử dụng thành cơng trong các lĩnh vực nghiên cứu khác nhau. Nhìn chung, cĩ nhiều cách tiếp cận để triển khai nhiều phân loại. Ví dụ, cĩ các phương pháp chủ yếu làm giảm phương sai (variance), chẳng hạn như Bagging hoặc Boosting và các phương pháp làm giảm độ lệch (bias), chẳng hạn như

Stacking.

Mặc dù cĩ nhiều kỹ thuật kết hợp phong phú, các hệ thống dựa trên biểu quyết là một trong những cách kết hợp phân loại phổ biến hơn. Các lỗi được giới thiệu bởi một trình phân loại cĩ thể được sửa chữa bằng cách sử dụng các quyết định đúng của các phân loại khác, với điều kiện là hiệu suất tương tự từ tất cả các phân loại cĩ thể được dự kiến. Tuy nhiên, nếu cĩ thể ước tính độ tin cậy của từng bộ phân loại trong một kết hợp, thì việc cải thiện độ chính xác tổng thể của kết hợp thơng qua việc bỏ phiếu và giới thiệu các trọng số là cĩ thể. Các hệ thống nhiều phân loại trong đĩ quyết định cuối cùng là sự kết hợp của các bộ phân loại cơ sở cĩ trọng số, các quyết định thường được gọi là các kết hợp biểu quyết đa số cĩ trọng số.

Tổng quan về các tài liệu liên quan đã nêu bật hai loại chính của hệ thống nhiều phân loại:

- Các kết hợp đồng nhất hoặc các hệ thống dựa trên một phương pháp phân loại duy nhất.

- Kết hợp khơng đồng nhất hoặc các hệ thống dựa trên hai hoặc nhiều cách tiếp cận phân loại khác nhau.

Việc triển khai các bộ phân loại dựa trên kết hợp trong xây dựng IDS cho thấy sự phân phối xấp xỉ bằng nhau của cả hai kết hợp đồng nhất và khơng đồng nhất. Việc sử dụng các kết hợp đồng nhất trong xây dựng IDS là một nền tảng hiệu quả cho nghiên cứu trong nhiều năm qua. Tuy nhiên, phân tích song song các nghiên cứu liên quan cho cả hai phương pháp cho thấy việc thực hiện các kết hợp khơng đồng nhất trong IDS cĩ phần chưa hồn chỉnh. Sự kết hợp đúng đắn của nhiều thuật tốn vẫn cịn là con đường phía trước.

KDDCup99 và tập dữ liệu NSL-KDD biến thể của nĩ là hai tập dữ liệu được sử dụng rộng rãi nhất, mặc dù chúng đã gần 20 năm tuổi. Xu hướng liên tục này cĩ thể dẫn đến tiến trình tĩnh trong IDS, trong khi các cuộc tấn cơng xâm nhập tiếp tục phát triển cùng với các cơng nghệ và hành vi người dùng mới. Cuối cùng, tình huống này sẽ dẫn đến việc sử dụng IDS lỗi thời như một phần của cơng cụ bảo mật mạng. Do đĩ, tập dữ liệu mới đại diện cho thiết lập mơi trường hiện tại, cả phần mềm và phần cứng,

rất quan trọng. Các tập dữ liệu cơng khai mới nhất như: UNSW-NB15, CICIDS2017, nên được khám phá.

Ba chỉ số đánh giá được sử dụng nhiều nhất để đánh giá hiệu suất của các IDS là Độ chính xác, TPR và FPR. Điều này được mong đợi, bởi vì các số liệu này cung cấp các chỉ dẫn quan trọng rất phù hợp với chức năng IDS. Để hiệu quả hơn quá trình đánh giá, cĩ thể sử dụng thêm các chỉ số là kết hợp cả ba số liệu như: F-Measure, G-

Means, AUC, … Điều này đặc biệt phù hợp với các nguồn dữ liệu mất cân bằng

(imbalanced data) trong các IDS.

Từ các nhận xét về các nghiên cứu của các tác giả trong và ngồi nước nêu trên, bài tốn sử dụng kỹ thuật máy học trong các hệ thống phát hiện xâm nhập mạng đặt ra một số vấn đề cần giải quyết:

1) Việc sử dụng các kỹ thuật máy học kết hợp và lai giúp cải thiện chất lượng phân lớp so với các kỹ thuật máy học đơn. Tuy nhiên chưa cĩ sự so sánh, đánh giá kỹ thuật nào là hiệu quả hơn với cùng một tập dữ liệu huấn luyện và kiểm tra duy nhất, đặc biệt là các kỹ thuật học sâu.

2) Các tập dữ liệu được nhiều học giả sử dụng đã quá cũ, khơng phù hợp với các hệ thống phát hiện xâm nhập đương đại gồm nhiều mẫu tấn cơng mới và tấn cơng tổng hợp.

3) Việc sử dụng chỉ số đánh giá như Accuracy được nhiều học giả sử dụng, tuy nhiên chỉ số này khơng phản ánh đúng hiệu quả của các hệ thống phát hiện xâm nhập cĩ tỷ lệ dữ liệu mất cân bằng giữa các lớp rất cao.

Nội dung của luận văn này là đề xuất giải pháp để giải quyết 3 tồn tại nêu trên nhằm nâng cao hiệu quả của các hệ thống phát hiện xâm nhập mạng. Tiến tới xây dựng một hệ thống phát hiện xâm nhập với độ chính xác cao để phát hiện các mẫu tấn cơng mới hoặc các mẫu tấn cơng với nhiều biến thể mới.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng (Trang 39 - 43)

Tải bản đầy đủ (PDF)

(136 trang)