PHƯƠNG PHÁP LUẬN VÀ THIẾT KẾ HỆ THỐNG 15

3.1. Phát sinh dữ liệu đối kháng bằng mô hình IDSGAN

Mô hình IDSGAN dưới đây thừa hưởng từ công trình [6], được hình thành dựa trên 5 bước cơ bản nhằm tạo ra một công cụ sinh dữ liệu đối kháng một cách tự động với khả năng trốn tránh được trình nhận diện bất thường của mô hình IDS toàn cục. Biến thể WGAN được sử dụng trong mô hình IDSGAN này.

Hình 3.1: Nguyên lý hoạt động của mô hình IDSGAN

• Bước 1: Tải xuống mô hình IDS toàn cục từ máy chủ trung tâm. Mô hình này đã có khả năng nhận diện các mẫu tấn công nhờ những cập nhật trước đó.

• Bước 2: Huấn luyện bộ sinh Generator (G)

Dựa trên mô hình WGAN, bộ sinh G sẽ sinh ra dữ liệu đối kháng

– Input:Dữ liệu độc hại trong tập dữ liệu có sẵn kèm nhiễu (noise), được đặt là tập đầu vào x

– Output: Dữ liệu đối kháng G(x) trộn với x có khả năng vượt qua mô hình IDS.

• Bước 3: Dán nhãn cho các luồng dữ liệu

Lúc này, dữ liệu từ output của G được trộn với dữ liệu bình thường trong tập dữ liệu ban đầu và gửi đến cho mô hình IDS được tải xuống ở B1 phân biệt (gán nhãn).

– Input:Bộ dữ liệu bao gồm dữ liệu đối kháng sinh ra từ G cùng với dữ liệu bình thường trong tập dữ liệu ban đầu.

– Output: Toàn bộ các bản ghi dữ liệu đi qua IDS được gán nhãn.

• Bước 4: Huấn luyện bộ phân biệt D

Nhiệm vụ của D ở đây là bắt chước và hiểu được cách IDS phân biệt dữ liệu. Sau khi nhận được bộ traffic có nhãn từ IDS bao gồm dữ liệu sinh đối kháng và dữ liệu bình thường, D thực hiện đánh giá các mẫu dữ liệu dựa trên thang điểm nhất định. Cụ thể, nếu như mẫu có điểm gần với 0 thì đó là mẫu lành tính (benign), ngược lại nếu gần với 1 thì đó là mẫu tấn công (attack) . Tiếp đó, D thực hiện so sánh kết quả phân loại của mình với nhãn dán từ IDS bằng cách tính loss. Nếu kết quả của D khác với nhãn dán của IDS thì nó sẽ hiểu rằng nó sai, từ đó D tự học bằng cách thay đổi các tham số huấn luyện để có kết quả phân loại khớp với nhãn dán của IDS. Đồng thời, D cũng phản hồi kết quả cho G để G có thể cập nhật tham số huấn luyện của mình.

– Input: Bộ dữ liệu (dữ liệu sinh đối kháng + dữ liệu bình thường) và kết quả dán nhãn từ IDS.

– Output: D học được cách đánh giá dữ liệu bình thường và dữ liệu tấn công như IDS.

• Bước 5: Sử dụng các mô hình ML-IDS đánh giá chất lượng của các lưu lượng tấn công đối kháng.

Sau khi quá trình huấn luyện mô hình IDSGAN kết thúc, mô hình có khả năng sinh ra dữ liệu đối kháng. Bộ sinh G sẽ được sử dụng để tạo ra dữ liệu đối kháng Sadversarial từ các dữ liệu tấn công Sattack trong tập dữ liệu ban đầu S . Sau đó, chúng tôi sử dụng 2 tập dữ liệu bao gồm 1 tập S và 1 tập A (bao gồm Sadversarial+Sbenign) để thực hiện đánh giá khả năng nhận diện của các ML-IDS. Kết quả mong muốn là các ML-IDS có khả năng phát hiện tốt ở tập S nhưng hiệu suất giảm đi khi đánh giá trên tập A. Điều này chứng tỏ dữ liệu đối kháng sinh ra có khả năng đánh lừa các ML-IDS.

3.2. Quy trình huấn luyện mô hình IDS theo cơ chế cộng tác (IDS-FL)

Chúng tôi tiến hành xây dựng khung FL huấn luyện mô hình IDS dựa trên 4 bước, được thực hiện cụ thể như sau:

• Bước 1: Khởi tạo mô hình IDS toàn cục học cộng tác FL

Mô hình FL bắt đầu bằng việc máy chủ trung tâm khởi tạo mô hình IDS học máy toàn cục (global IDS model) với các thông số K (số client), epoch, R (số round), . . . đi kèm. Sau đó, mô hình toàn cục được phân tán đến K tổ chức (client) đã thỏa thuận tham gia học cộng tác để thực hiện quá trình huấn luyện cục bộ.

• Bước 2: Huấn luyện mô hình IDS cục bộ

Mô hình IDS được tạo ra nhằm mục đích bảo vệ các hệ thống trong các cuộc tấn công an ninh mạng ngày nay.

– Input: Toàn bộ bản ghi trong tập huấn luyện tương ứng, dữ liệu đã được qua xử lí và gán nhãn hoàn thiện bao gồm các bản ghi bình thường và độc hại.

– Output: Mô hình IDS đã học được cách phân biệt dữ liệu là bình thường hay độc hại.

Kết thúc quá trình huấn luyện, các client thực hiện cập nhật các tham số học của mô hình học máy sau huấn luyện lên máy chủ trung tâm.

• Bước 3: Huấn luyện mô hình IDS toàn cục ở máy chủ trung tâm.

Ở bước này, máy chủ trung tâm sử dụng thuật toán tính trung bình cộng Federated Averaging (FedAvg) các tham số học được gửi lên từ các mô hình cục bộ và từ đó cho ra trạng thái mới của mô hình học máy toàn cục ở round tiếp theo để tiếp tục quá trình huấn luyện phân tán như trên.

– Input: Các tham số cập nhật từ các mô hình cục bộ.

– Output: Mô hình IDS sau khi được tổng hợp mới.

Công thức của thuật toán FedAvg:

ωt+1=

k=1

n ωt+1k where ωkt+1=ClientU pdate(k, ωt) (1)

Trong đó, ωkt+1 chính là các trọng số cục bộ (local weight parameters) đã huấn luyện của client k tại round t. Công thức (1) là công thức tổng hợp trung bình các local weight parameter do các cá nhân tham gia học cộng tác gửi lên máy chủ trung tâm với tỉ lệ nnk với nk là số lượng dữ liệu tham gia huấn luyện của client k trên tổng số n dữ liệu được dùng để huấn luyện.

• Bước 4: Cập nhật mô hình IDS toàn cục ở các máy cục bộ

Sau khi quá trình tổng hợp mô hình kết thúc, máy chủ trung tâm thực hiện phân tán mô hình toàn cục cho các client tham gia để họ có thể tiếp tục cập

nhật mô hình. Quá trình quay lại Bước 2 và lặp lại cho đến hết số round đã quy định.

3.3. Tổng quan mô hình đề xuất

Bằng những trình bày ở mục 3.1 và 3.2, chúng tôi đề xuất giải pháp tấn công nhiễm độc IDS trong môi trường cộng tác (Hình 3.2) bằng việc kết hợp 2 mô hình IDSGAN và IDS-FL.

Hình 3.2: Mô hình tấn công đề xuất

Cụ thể, một hoặc nhiều tổ chức độc hại chỉ cần huấn luyện mô hình IDS cục bộ bằng dữ liệu đối kháng được sinh ra từ mô hình IDSGAN của chính họ.

Trong đó, các dữ liệu đối kháng sẽ được gán nhãn 0, tương ứng với benign để các IDS cục bộ học sai. Từ đó, những tham số cập nhật từ các mô hình cục bộ có ảnh hưởng xấu trực tiếp đến hiệu suất của mô hình IDS toàn cục ở máy chủ trung tâm.