Ứng dụng Machine Learning để Phân tích và Bảo vệ Luồng dữ liệu không tin cậy trong An toàn thông tin

MỤC LỤC

Đặt vấn đề

Trong đó, các luồng dữ liệu không tin cậy, bao gồm thông tin từ nguồn không xác định hoặc bị can thiệp từ bên thứ ba, cũng như các cuộc tấn công mạng và các hình thức xâm nhập khác ngày càng trở nên phức tạp, và tinh vi hon, đangtrởthành mộtvấn đề ngày càngphức tạp vàtiềm ẩn các rủi ro bảo mậtnghiêm trọng. Thứ ba việc ứng dụng các mô hình học máy góp phần có thể phát hiện các biến thể mới từ các cuộc tấn công trong thời gian thực, từ đó giúp các chuyên giaan toàn thông tin có thể tìm hiểu và nghiên cứu về những mối đe dọa mới và pháttriển cácgiải pháp phù hợp để bảo vệ an toàn thông tin.

Mục tiêu nghiên cứu

Trước những vấn đề phân tích nhưtrên, học viên đề xuất đề tài “ứng dụng machine learning để phân tích luồng dữ liệu không tin cậy trong lĩnh vực an toàn thông tin” với mong muốn mang lại nhiều lợi ích cho cộng đồng an toàn thông tin. Thứ hai, việc ứng dụng học máy để phân tích cho phép chúng ta nắm bắt được khả năng và tiềm năng của phương pháp này, đồng thời cũng giúp chỳng ta hiểu rừ hơn về những hạn chế và nhược điểm của nú.

Ý nghĩa thực tiễn của đề tài

Dựa trên nền tảng của các công trình nghiên cứu trước đây, luận văn không chỉ mở rộng hiểu biết về các thách thức và giải pháp liên quan đến việc xử lý luồng dữ liệu không tin cậy và tạo tiền đề cho việc nghiên cứu và dụng học máytrong việc xác định và phân loại luồng dữ liệu không tin cậy. Bên cạnh luận văn cho thấy việc sử dụng mạng no rơn một lớp vẫn có nhiều ưu điểm vượt trội hơn mạng nơ-rơn học sâu (DNN) và manglại hiệu quả cao trong việc phân tíchdữ liệu trong lĩnh vực an toàn thông tin. Điều này giảm bớt sự phụ thuộc vào lượng lớn dữ và thời gian huấn luyện dài, một yếu tố rất quan trọng phù hợp với tình hình thực tế, nơi dữ liệu thay đổi liên tục và đòi hỏi sự linh hoạt trong việc phát hiện luồng dữ liệu không tin cậy, cũng như áp dụng vào ứng dụng thực tế yêu cầu thời gian thực.

ỨNG DỤNG MACHINE LEARNING TRONG PHÂN TÍCH LUỒNG Dữ LIỆU KHÔNG TIN CẬY

Phân tích các kỹ thuật học máy đã được đề xuất

Cách tiếp cận này cung cấp một sự minh bạch và khả năng giải thích cao cho các quyết định của môhình, đó là những yếu tố quan trọng trong việc xâydựng lồng tin và hiểu biết về các quy trình tự động. Tuy nhiên, phưong pháp này gặp hạn chế trong việc thích nghi với các mô hình tấn công đang phát triển và dữ liệu thay đổi liên tục, yêu cầu sự cập nhật và điều chỉnh liên tục. Các phưong pháp trên cho thấy đạt được nhiều kết quả cao, nhưng đòi hỏi có một bộ dữ lớn trong quá khứ và thời gian huấn luyện lâu.

Nhưng trong thực tế các cuộc tấn công diễn ra nhanh chóng, đòi hỏi mô hình đáp ứng đượcthời gian thực, xử lý bộ dữ không quá lớn, cũng như mang lại hiệu quảcao. Ngoài ra vói việc phân loại luồng dữ liệu không tin cậy, bộ dữ liệu tưong đối phức tạp, nên sử dụng các phưong pháp phân loại co bản có nhiều hạn chế trong việc giải quyết các dữ liệu phi tuyến tính. Việc sử dụng một mạngno-ron truyền thẳng một lóp ẩn để giải quyết và mang lại hiệu quả về mặt thời gian là một trong nhưng vấn đề cần quan tâm và nghiên cứu.

Máy học cực trị

Nó đã được giới thiệu bởi Guang-Bin Huang, Zhuangwei Zhu, vàChee-Kheong Siew vào năm 2004 [15], ELM đã nhanh chóng thu hút sự quan tâm của cộng đồng nghiên cứutrong lĩnh vực học máy và trí tuệ nhân tạo nhờvào hiệu suất cao vàtính hiệuquả trong quátrình huấn luyện. Một điểm quan trọng là trọng số và ngưừng của cỏc nơ-ron ẩn được khỏi tạo một cỏch ngẫu nhiờnvà khụng cần được điều, chỉnh trong quátrìnhhuấn luyện, điều này giúpELM nhanh chóng và hiệu quả. Phần ẩn trong mô hình ELM sử dụng một lượnglởn các nút (nodes) để tạo ra nhiều hàm phi tuyến tính được mô tảbỏi một ma trận trọng số w sinhngẫu nhiên có k.

Máy học cực trị có tốc độ huấn luyện nhanh chóng hon so vói nhiều phưong pháp khác như mạng nơ-ron sâu (deep neural networks) chỉ đon giản là một bước: phát triển trọng số giữa các lớp ẩn và lóp đầu ra, không cần quá trình tinhchỉnh tham số như backpropagation trong các mạngnơ-ron sâu. Khi đánh giávới cácphưong pháp khác, máy học cực trị có độ chính xác cao và tốc độ huấn luyện nhanh vói bộ dữ liệu phi tuyến tính, mà các thuật toán máy học co bản không thể đem lại ví dụ như thuật toán hồi quy tuyến tính, cây quyết định, SVM [15]. Ngoài ra với môi trường các cuộc tấn công mạngthay đổi liên tục, đòi hỏi mô hình huấn luyện nhanh chóng, đáp ứng ngăn chặn các cuộc tấn công một cách nhanh chóng, trong khi các mô hình mạng học sâu khác thì lại đòi hỏi một lượng dữ liệu lớn trong quá khứ, điều này khiến cho mô hình sẽ không phù hợp trong việc phân loại luồng dữ liệu không tin cậy về mặt thời gian, trong khi máy học cựctrị cóthể manghiệu quả ổn định.

Hình  2.2  Cấu trúc  cơ  bản Extreme Learning Machine (ELM) [16]
Hình 2.2 Cấu trúc cơ bản Extreme Learning Machine (ELM) [16]

Xây đụng mô hình Extreme Learning Machine

Sau khi tính toán được phần ẩn H, mô hình tính toán giátrị đầu ra của trọng số P. Quá trình huấn luyện mô hình bắt đầu bằng việc áp dụng nhiều kỹ thuậttiền xử lý đối với tập dữ liệu đàotạo, nhằm cải thiện chất lượng và tính khả dụng của dữ liệu. Điều chỉnh cách thức học máy để nhanh chóng đạt được hiệu suất tối ưu cũng là một phần quan trọng của quá trình này.

Tiếp theo, tập dữ liệu kiểm thử được sử dụng để kiểm định và đanh giá hiệu suất của mô hình. Mục đích là phát triển một mô hình huấn luyện dựa trên co sở củaExtreme LearningMachine (ELM), như mô tả trong Hình 2.3. Mô hình được kỳ vọng có thể mang lại hiệu quảtrong việc phân tích luồng dữ liệu không tin cậy, đảm bảo tốc độ xử lý nhanh và phù hợp với các tình huốngthực tế, tận dụng lợi thế của Extreme Learning Machine (ELM).

Hình  2.3  Khung mô hình  ELM sử  dụng bộ  dữ liệu CID-IDS-2017
Hình 2.3 Khung mô hình ELM sử dụng bộ dữ liệu CID-IDS-2017

THỰC NGHỆM VÀ ĐÁNH GIÁ

Công cụ và môi trường

Ngôn ngữ lập trình Python 3.7.8, dựa trên nền tảng Anaconda, sử dụngjupyter để quản lý và chạythử nghiệm.

Phương thức .1 Tiền dữ lỷ dữ liệu

Chuẩn hóa dữ liệu: Để đảm bảo tính thống nhất và đồng nhấttrong dữ liệu, quá trình tiền xử lý bao gồm việc chuẩn hóadữ liệu, tránh việc sai lệch của dữ liệu, trong nghiên cứu này chúng tôi tập trung vào chuẩn hóa standardization, ngoài ra chúng tôi còn thực nghiệm các chuẩn hóa khác để đánh giá sự ảnh hưởng của việc chuẩn hóatrong phần thựcnghiệm bên dưới. Quá trình tiền xử lý dữ liệu trong trường hợp này đóng vai trò then chốt trong việc chuẩn bị dữ liệu trước khi áp dụng các thuật toán học máy, và nó đóng góp đáng kể vào việc tối ưu hóa và cải thiện độ chính xác của quá trình huấn luyện và đánh giá mô hình. Đe đảm bảo tính chính xác trong việc đánh giá và đo lường hiệu quả của máy học cực trị trong quá trình huấn luyện bộ dữ liệu, chúng tôi đã tiến hành nhiều thí nghiệm khác nhau thông quacác độ đo khác nhau để đánh giá mức độ hiệu quả máy học cựctrị ELM.

Kết quả cho thấy, khi áp dụng hàm kích hoạt sigmoid và hàm kích hoạt tanh mô hình đạt độ chính xác dương tính tương đối cao, với độ chính xác dương tính khi sử dụng hàm sigmoid cho dữ liệu độc hại là 0.96 và độ phủ là 0.94 với 30,245 trường hợp được dự đoán chính xác trong tổng số 30,249. Bằng cách áp dụng các phưong pháp chuẩn hóa dữ liệu như Standardization, Robust và Min-Max, chúng tôi mong muốn đánh giá mức độ ảnh hưởng tới độ chính xác và hiệu quả của mô hình và xác định phưong pháp chuẩn hóa tối ưu thể hiện trong Bảng3.10. Kết quả thí nghiệm của chúng tôi chứng minh phưong pháp này đem lại nhiều ưu điểm vượt trội, kết quả đạt được kỳ vọng cao, hiệu quả trong việc phân loại luồng dữ liệu không tin cậy, đồng thời có khả năng huấn luyện mô hình một cách nhanh chóng với độ chính xác cao mà không đòi hỏi một lượng lớn dữ liệu phức tạp, phù hợp vói sự thay đổi nhanh chóng củaluồngdữ liệu không tin cây, dễ dàng ứng dụng vào các sản phẩm mang tính chất cần thời gian thực,.

Hình  3.7 Biểu  đồ so sánh kết  quả  theo số lượng  ẩn với hàm kích  hoạt khác nhau
Hình 3.7 Biểu đồ so sánh kết quả theo số lượng ẩn với hàm kích hoạt khác nhau