MO HÌNH & PHƯƠNG PHAP DE XUẤT

NGHIÊN CỨU LIÊN QUAN

CHƯƠNG 3. MO HÌNH & PHƯƠNG PHAP DE XUẤT

Khoá luận nay đề xuất mô hình mang sinh đối kháng kết hợp với các khối

Transformer dựa trên học cộng tác nhằm mục đích vừa có thể tạo ra lưu lượng

tấn công đối kháng có khả năng trốn tránh, vừa có khả năng phân loại và nhận diện các mối đe dọa như một hệ thống phát hiện xâm nhập. Đầu tiên, chúng tôi

sẽ giới thiệu ngữ cảnh đặt ra cho mô hình và phương pháp đề xuất của Khoá luận này ở Phần 3.1. Tiếp theo, phần thảo luận về hướng nghiên cứu và phương pháp thực hiện xây dựng mô hình đề xuất được trình bày tại Phần 3.2. Cuối

cùng, chúng tôi sẽ đi sâu vào kiến trúc, cấu tạo của các thành phần bên trong

và mô tả cách thức mô hình hoạt động tại Phần 3.3.

3.1. Ngữ cảnh đặt ra

Trong ngữ cảnh của IoT, an ninh mang van là một vấn đề cực kỳ quan trọng. Các thiết bị loT thường được kết nối với nhiều mô hình kỹ thuật số và giao tiếp thông qua mạng, tạo ra lưu lượng truy cập đặc biệt. Tương tự như

trong mạng máy tính thông thường, khả năng phát hiện xâm nhập vẫn được coi

là một phần thiết yếu để bảo vệ hệ thống IoT' khỏi các mối đe dọa và tấn công.

Vấn đề của mô hình IDS trong IoT vẫn là một lĩnh vực nghiên cứu khó khăn và đòi hỏi sự nỗ lực để đảm bảo an ninh mang cho các hệ thống IoT. Các

chuyên gia nghiên cứu an ninh mạng đang nỗ lực tìm ra các phương pháp và kỹ

thuật mới để xử lý các vấn đề này và tạo ra các giải pháp hiệu quả cho an ninh

mạng IoT.

Mặc dù đề tài này có rất nhiều khó khăn và bất cập, nhưng trong Khoá luận này chúng tối sẽ đề cập đến khả năng ngăn ngừa và phát hiện xâm nhập, xác

định các hoạt động bất thường dựa trên các mẫu lưu lượng truy cập. Tuy nhiên, trong các nghiên cứu về IDS, các tệp dữ liệu công khai nhìn chung đều xuất hiện

sự mất cân bằng nghiêm trọng. Diéu này tạo nên một van đề thách thức cho mô hình học máy khi số lượng mẫu bất thường thấp hơn đáng kể so với mẫu bình thường và hiệu suất tổng quát hóa của bộ phân loại bị suy giảm do thiếu dữ liệu từ các lớp thuộc tính thiểu số [31] [3] [32]. Bên cạnh đó, các mô hình IDS cũng dễ bị tấn công và đánh bại bởi các đối thủ sử dụng kỹ thuật học máy hiện đại, bao gồm việc thực hiện các biến đổi nhỏ đối với các mẫu lưu lượng mạng

nhằm mục đích làm giảm độ chính xác trong việc phát hiện mối đe dọa [20].

Cyber Physical System

irs

ra Networl

Do đó, phạm vi ngữ cảnh của khóa luận này là nghiên cứu và xây dựng mô

hình đề xuất dựa trên ngữ cảnh mất cân bằng và thiếu hụt dữ liệu, bao gồm sự chênh lệch đáng kể giữa nhãn lành tính so với nhãn độc hại, giữa các lớp thuộc tính thiểu số so với các lớp đa số trong các tệp dit liệu.

3.2. Phương pháp đề xuất

Động lực nghiên cứu và phát triển trong Khoá luận này là đề xuất ra mô

hình mạng sinh đối kháng tối ưu khả năng tái tạo các mẫu đối kháng có khả

năng trốn tránh và có thể sử dụng như một hệ thống phát hiện xâm nhập trong ngữ cảnh như đã đề cập ở Phần 3.1. Hơn nữa, chúng tôi sử dụng phương pháp học cộng tác với mô hình đề xuất để vừa làm đa dạng khả năng tạo mẫu của

mô hình mạng sinh đối kháng, vừa có thể tạo ra một hệ thống kết nối, chia sẻ

dit liệu giữa các bên mà vẫn dam bảo tính riêng tư và bảo mật dữ liệu. Từ đó,

đóng góp một giải pháp mới cho việc tạo ra các mẫu có khả năng biến đổi, trốn tránh để huấn luyện các mô hình IDS nhận diện được các lưu lượng này.

3.2.1. Tích hop Transformer vao EVAGAN

Thong thường, các yêu tố can thiết trong việc xây dựng một mô hình GAN bao gồm mục đích xây dựng, ngữ cảnh huấn luyện và nguồn dif liệu đào tạo. Sau

đó, độ hiệu quả của lưu lượng đối kháng và hiệu suất huấn luyện của mô hình. Nguồn dữ liệu huấn luyện, ngữ cảnh huấn luyện, chất lượng mẫu đối kháng và hiệu suất huấn luyện của mô hình là những yếu tố được quan tâm trong các mô

hình GAN được đề xuất. Để đạt được điều đó, dữ liệu huấn luyện đầu vào và

kiến trúc mô hình là hai vấn đề cần chú trọng.

Trong thực tế, nhiều mô hình tăng cường dữ liệu đã đề xuất ra các kỹ thuật

bổ sung dữ liệu mất cân bằng nhằm giảm bớt kết quả sai lệch trong huấn luyện

[34] [35]. Tuy nhiên, các mô hình tăng cường hiện tại dat được hiệu quả còn

thấp, khả năng tổng hợp trong các trường hợp ngoại lệ đặc biệt như dữ liệu vừa chênh lệch giữa nhãn dữ liệu, vừa chênh lệch giữa các thuộc tính thiểu số và đa

số, khiến dit liệu được tạo ra không khả dụng hoặc chưa đạt được hiệu suất tối

ưu cho mô hình hoc máy [36] [37].

Để tăng cường khả năng nhận diện bất thường và lưu lượng tấn công cho IDS, các nghiên cứu về tổng hợp dữ liệu đối kháng bằng mô hình GAN với phương

pháp đầu độc dữ liệu hay tạo mẫu có khả năng trốn tránh cũng được sử dụng rất nhiều [38] [39]. Tuy vậy, các mẫu trốn tránh sử dụng các không gian nhiễu

ngẫu nhiên hay thay đổi các yếu tố nhỏ trong thuộc tính cũng có thể gây ra sự

thiếu nhất quán giữa các thuộc tính còn lại trong lưu lượng và giảm hiệu suất

của quá trình học của bộ phân biệt [40].

Majority | Minority

class class

[fake j .

X eat (data)

C (All classes) Z (noise) (c =f _ class) | LZ(noise) |

MO HÌNH &amp; PHƯƠNG PHAP DE XUẤT

Hệ thống phát hiện xâm nhập (IDS)