Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu phương pháp cải thiện khả năng kháng mẫu đối kháng cho các trình phát hiện tấn công mạng

81 4.25 Đồ thị cột biểu diễn tỷ lệ % tấn công thành công của các cuộc tan công đối kháng theo cột vào các mô hình phát hiện xâm nhập theo hàng dựa trên thực hiện phân loại multi-class,

Tổng quan các công trình nghiên cứu liên quan

Ta thấy việc chuyển giao đối kháng là không đối xứng, nghĩa là các mẫu đối kháng sinh ra từ mô hình A có thể tấn công sang mô hình B một cách dé dàng và điều này cũng đúng với trường hợp ngược lại Phát hiện này phù hợp với nghiên cứu [1].

Thứ hai, tác giả nhận thấy rằng các mẫu đối kháng được tạo ra từ một mô hình sâu dường như ít chuyển giao hơn so với các mẫu từ một mô hình nông Bên cạnh đó, tác giả cũng khám phá tác động tiêu cực của độ không trơn tru cục bộ của bề mặt mat mát lên khả năng chuyển giao của các mẫu đối kháng đã tạo.

Vào năm 2016, nghiên cứu [2] đã trình bày phương pháp tấn công hộp đen bằng cách huấn luyện một mô hình thay thế với dữ liệu truy vấn có hạn Nghiên cứu [3] lần đầu tiên khám phá khả năng truyền tải mục tiêu và giới thiệu các cuộc tấn công dựa trên sự tương đồng để tăng cường khả năng truyền tải Nghiên cứu gần đây của (Dong và cộng sự) nhấn mạnh rằng quy mô của mô hình có tác động đáng kể đến việc cải thiện khả năng truyền tải.

Ngoài ra nghiên cứu [2] cho rằng khả năng chuyển giao là do sự giống nhau giữa các gradient đầu vào của mô hình nguồn và mô hình đích. Nghiên cứu [3] đã dé xuất sử dụng kỹ thuật trực quan hóa để xem sự giống nhau trên quy mô lớn của các ranh giới quyết định Tuy nhiên, các cuộc

Chương 1 TONG QUAN điều tra thực nghiệm của họ cho thay rằng những giải thích dựa trên sự tương đồng này có hạn chế là chúng không thể giải thích tính chất không đối xứng của khả năng chuyển đổi đối kháng.

Năm 2019, Singla và cộng sự [4] đã cho thấy bằng thực nghiệm trên bộ du liệu UNSW-NBI5 (9 bộ du liệu phụ) rằng Học chuyển đổi có hiệu quả trong việc giảm số lượng dữ liệu được gắn nhãn cần thiết để đào tạo các mô hình mạng thần kinh cho IDS, bằng cách quan sát độ chính xác của phân loại (tốt hơn tới 26,4% độ chính xác) và các số liệu chính xác để so sánh và đánh giá các mô hình mạng thần kinh thu được.

Năm 2019, Zhang và cộng sự [5] đã dé xuất một sơ dé cập nhật bộ phân loại tự động, thách thức là van dé cập nhật bộ phân loại lưu lượng mạng hiện có Họ đã đánh giá công việc của mình bằng cách sử dụng các mô hình MLP và CNN trên bộ dữ liệu ISCX VPN-nonVPN trên các chỉ số recall, accuracy và fl-score Họ cũng chứng minh rằng lược dé cập nhật trình phân loại được đề xuất của họ có thể giúp xây dựng tập dữ liệu của ứng dụng mới từ lưu lượng mạng đang hoạt động.

Năm 2019 trong nghiên cứu [6] đã áp dụng học chuyển giao để phát hiện R2L không được gắn nhãn từ bộ dữ liệu NSL-KDD bằng cách sử dụng các cuộc tấn công DoS được gắn nhãn cua bộ dữ liệu NSL-KDD và có độ chính xác là 89,79%) và FPR là 0,15% Sau đó, trong [6], các tác giả da đề xuất một khung học tập chuyển đổi chuyển đổi sâu để phát hiện các cuộc tân công zero-day được thể hiện dưới dạng miền mục tiêu không được dán nhãn Họ sử dụng phương pháp căn chỉnh đa tạp DAMA, tạo các nhãn mềm đích để bù đắp cho việc không có các phiên bản đích được gắn nhãn thông qua việc áp dung các quy trình tương ứng cụm Họ đã điều tra các mô hình được đề xuất bằng cách sử dụng nhiều thuật toán học máy như kNN, SVM, RE, DT và DNN với hai kịch bản thử nghiệm Trong lần đầu

Chương 1 TONG QUAN tiên, ho đã điều tra va thử nghiệm bang cách sử dung tập dữ liệu NSL- KDD và trong lần thứ hai, họ đã phát hiện các cuộc tan công zero-day vào tập dữ liệu đám mây CIDD bằng cách coi phần DoS của NSL-KDD là tập dữ liệu nguồn.

Năm 2020, Qureshi và cộng sự [7] đã dé xuất một mạng lưới thần kinh sâu và kỹ thuật học chuyển giao dựa trên tự học thích ứng (được đặt tên là DST-TL) sử dụng phương pháp học tự học để phát triển IDS của họ Họ đã tiền hành Tăng tốc cập nhật IDS dựa trên DL cho IoI bằng cách sử dụng học chuyển giao sâu (Idriss Idrissi) thử nghiệm bằng cách so sánh kỹ thuật của họ với hiệu suất của các bộ phân loại thông thường (như MLP), phân tích thành phần chính phi tuyến tính (NLPCA) và mạng niềm tin sâu sắc (DBN)) Đầu tiên, bằng cách trích xuất các tính năng và chuyển bộ tính năng ban đầu của bộ dữ liệu NSL-KDD qua mạng được đào tạo trước Sau đó, một hỗn hợp các tính năng gốc và trích xuất được sử dụng trong quá trình đào tạo bộ mã hóa tự động thưa thớt Phương pháp được để xuất (DST-TL) trong nghiên cứu [7] cho thay độ chính xác dự đoán được cai thiện rõ ràng.

Năm 2019, Zhang và cộng sự được dé xuất trong nghiên cứu [4] một khung học tập chuyển giao dựa trên kỹ thuật đào tạo đối kháng miễn để phát hiện xâm nhập trong môi trường mạng lưới thông minh Họ sử dụng bộ đữ liệu bảo mật, được thu thập thông qua trình mô phỏng phần cứng trong vòng lặp Khung của họ có khả năng kết hợp các trình phân loại máy học cơ bản khác nhau để cải thiện hiệu suất, trong đó họ đã cải thiện từ 7% lên 36,8% khi sử dụng các trình phân loại AdB, KNN, SVM và RF, đồng thời cải thiện trung bình hơn 2,5%.

Trong các công trình liên quan này, một số nhà nghiên cứu chỉ sử dụng một bộ dữ liệu để thực hiện cả đào tạo trước và Học chuyển giao, trong khi

Chương 1 TONG QUAN những người khác khai thác các bộ dữ liệu khác nhau dé dao tạo trước mô hình liên quan đến mô hình học chuyển giao Hơn nữa, một số bộ dữ liệu được sử dụng mang tính tổng quát hơn và không thực sự được thu thập từ các cuộc tan công vào hệ thống IoT.

Bên cạnh đó, tan công các hệ thống phát hiện xâm nhập bằng Generative

Adversarial Network (GAN) [8] Trong GAN, mô hình phân biệt được sử dụng để phân biệt mẫu được tạo với mẫu thực và mô hình được tạo được đào tạo để làm cho mô hình phân biệt phân loại sai mẫu được tạo thành mẫu thực MalGAN [9] đã được đề xuất để phá vỡ hệ thống phát hiện phần mềm độc hại bằng cách sử dụng công nghệ tạo mô hình thế hệ Mô hình MalGAN đã sử dụng mạng nơ-ron chuyển tiếp làm trình tạo, trình phát hiện thay thế làm trình phân biệt đối xử và nhiễu ngẫu nhiên làm đầu vào để tạo các mẫu độc hại Tuy nhiên, làm thé nào để máy do thay thế học được các chỉ tiết bên trong của mô hình hộp đen ở mức độ tối đa vẫn còn phải nghiên cứu thêm IDSGAN [10] đã được để xuất để tạo ra các cuộc tấn công đối kháng chống lại các hệ thống phát hiện xâm nhập, dựa trên Wasserstein GAN [11] và bao gồm bộ tạo generator, bộ phân biệt discriminator và IDS hộp đen Bộ phân biệt được sử dụng để mô phỏng hệ thống phát hiện xâm nhập hộp đen và bộ tạo có thể tạo ra một mẫu lưu lượng độc hại Mặc dù họ tuyên bồ giữ lại các đặc điểm chức năng của dữ liệu lưu lượng truy cập, nhưng thực tế họ đã thay đổi hai đặc điểm chức năng để làm mất hiệu lực di liệu lưu lượng truy cập được tạo.

Muhammad và cộng sự [12] đã dé xuất và xác minh một cuộc tan công học máy đối kháng dựa trên GAN chống lại hệ thống phát hiện xâm nhập hộp đen Thuật toán dựa trên GAN là cuộc tan công đối kháng đầu tiên có thể trốn tránh thành công hệ thống phát hiện xâm nhập và đảm bảo giữ lại đặc tính của dữ liệu Mặc dù độ chính xác của kết quả thử nghiệm của họ

Chương 1 TONG QUAN bị giảm, nhưng mức độ giảm còn hạn ché va tỷ lệ tấn công thành công cần phải được cải thiện hơn nữa.

Mụctiêu ẶẶ Ặ ee es 8

Đối tượng và phạm vi nghiên cứu

— Các mô hình phát hiện xâm nhập: CNN, VGG16, VGG19, Xcep- tion, ResNet, Inception, InceptionResnet, VAE, CVAE, LSTM, CNN- LSTM, Stacked-LSTM, MLP, XGBoost,

— Các thuật toán phân loại: SVM, DT, RF, NB, KNN, MLP, LR

- Thư viện hỗ trợ máy học Tensorflow.

- Thư viện python mã nguồn mở Scikit-Learn. ¢ Phạm vi nghiên cứu: Tạo ra các mẫu tấn công đối kháng bằng cách sử dụng GAN và các mô hình chuyển giao để tân công vào một số mô hình phát hiện xâm nhập hiện nay Sau đó tác giả dé xuất phương pháp dựa trên các mô hình thuật toán phân loại Cuối cùng tác giả sẽ đánh giá khả năng và hiệu suất của phương pháp mà tác giả dé xuât so với các mô hình phát hiện xâm nhập mạng hiện nay.

1.4 Cấu trúc Khóa luận tốt nghiệp

Sau khi giới thiệu tổng quan về đẻ tài ở phần trước, các nội dung có trong Khóa luận tốt nghiệp bao gồm các phần sau: se Chương 1: Giới thiệu tổng quan về khóa luận và các nghiên cứu liên quan đến dé tài. e Chương 2: Giới thiệu tổng quan về khóa luận và các nghiên cứu liên quan đên đề tai. e Chương 3: Giới thiệu phương pháp, dé xuất mô hình dùng để phát hiện các cuộc tân công đôi kháng.

Chương 1 TONG QUAN se Chương 4:Trinh bày môi trường thực nghiệm, tap du liệu, phương pháp đánh giá và kết quả thực nghiệm. se Chương 5: Kết luận và hướng phát triển của khoá luận.

CHUONG 2 KIÊN THỨC NEN TANG

Trong chương này, tác giả sẽ trình bày cơ sở lý thuyết liên quan đến dé tài để có một nền tảng kiến thức vững chắc hỗ trợ cho các chương tiếp theo.

2.1 Hệ thống phát hiện xâm nhập IDS

2.1.1 Hệ thống phát hiện xâm nhập IDS

Hệ thống Phát hiện Xâm nhập (IDS) chịu trách nhiệm phát hiện hoạt động đáng ngờ, sau đó gửi cảnh báo thông qua ứng dụng phần mềm quét các mạng hoặc hệ thống Hoạt động độc hại hoặc vi phạm chính sách được hệ thống thông tin an toàn và hệ thống quản lý sự kiện (SIEM) thu thập và báo cáo cho quản trị viên SIEM tổng hợp kết quả từ nhiều nguồn bằng các kỹ thuật lọc cảnh báo, phân biệt giữa hoạt động có hại và hoạt động sai.

Mặc dù các hệ thống phát hiện xâm nhập có thể giám sát các mạng để phát hiện hoạt động độc hại tiềm ẩn, nhưng chúng cũng dé bị báo động sai Do đó, diéu quan trọng đối với các tổ chức là tinh chỉnh các sản phẩm IDS khi chúng được cài đặt lần đầu tiên Điều này có nghĩa là thiết lập chính xác hệ thống phát hiện xâm nhập phát hiện lưu lượng truy cập bình thường trên mạng khác với hoạt động độc hại như thế nào.

Hệ thống ngăn chặn xâm nhập (IPS) cũng giám sát các gói mạng trên hệ thống để biết hoạt động độc hại liên quan đến chúng và gửi thông báo cảnh báo ngay lập tức.

Chương 2 KIEN THUC NEN TANG

Dựa trên nguồn dữ liệu đầu vào, hệ thống IDS được phân thành 3 loại: ¢ Hệ thống phát hiện xâm nhập mạng (NIDS):

— Network-based IDPS (NIDPS) theo dõi lưu lượng mạng cho một phần của mạng (network segment) hoặc các thiết bị, phân tích các hoạt động mạng và các giao thức, ứng dụng để xác định các hành vi bất thường.

- Thường triển khai ở biên mạng, như gần tường lửa hoặc router biên, server VPN, server remote access và mạng không dây.

- Gồm nhiều sensor đặt ở nhiều điểm khác nhau trong mạng để theo đõi lưu lượng mạng. e Hệ thống phát hiện xâm nhập máy chủ (HIDS):

- Host-based IDPS (HIDPS), theo dõi các đặc điểm của một host riêng lẻ và các sự kiện xảy ra trong host đó để phát hiện hoạt động bắt thường.

- Được triển khai trên host quan trọng (các server có thể truy cập từ bên ngoài, các server chứa thông tin quan trọng). ¢ Hệ thống phát hiện xâm nhập hỗn hợp (Hybrid IDS):

- Hybrid IDPS được phát triển để hướng đến xem xét tat cả dữ liệu từ các sự kiện trên host và sự kiện trong các phần mạng, kết hợp chức năng của cả network và host-based IDPS.

— Tích hợp các ưu điểm của cả 2 kỹ thuật trên.

- Cần tích hợp sao cho 2 kỹ thuật riêng biệt có thể cùng tương tác và hoạt động trong cùng một hệ thống

2.1.2 Phuong phap phat hién xam nhap ® Signature-Based IDS:

— Signature là một mẫu dwt liệu tương ứng với các dấu hiệu của một loại tan công (cơ sở dữ liệu về các loại tan công đã biết trước).

— Kỹ thuật phát hiện Signature-based (hay còn gọi knowledge- based) là một quá trình so sánh các signature với các sự kiện quan sát được để xác định các sự cô có thể có. ® Anomaly-Based IDS:

— Kỹ thuật phat hiện Anomaly-based (hoặc profile-based) hoạt động dựa trên việc:

— Tạo ra một profile cơ sở đại diện cho các hành vi bình thường/dự kiến trong mạng.

- Dựa trên đó, bat kỳ hoạt động mạng đang xem xét nào có sai khác so với profile này đều bị xem là bất thường.

— Profiles đại điện cho hoạt động mạng bình thường hầu hết được tạo ra thông qua phân tích lịch sử lưu lượng mạng (qua các hàm thống kê, hoc máy, clustering, fuzzy logic, heuristics ). ® Specification-based:

Kỹ thuật phát hiện dựa vào đặc điểm kỹ thuật thu thập các hoạt động chính xác của một chương trình hoặc giao thức và theo dõi hành vi của nó dựa trên các ràng buộc đã định.

Học máy là một tập hợp con của trí tuệ nhân tạo, được định nghĩa là khả năng của máy móc bắt chước hành vi thông minh của con người Hệ thống học máy có khả năng học hỏi từ dữ liệu mà không cần được lập trình rõ ràng Chúng có thể thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như phân loại dữ liệu, dự đoán kết quả hoặc ra quyết định.

AI được sử dụng để thực hiện các nhiệm vụ phức tạp theo cách tương tự như cách con người giải quyết vẫn đề.

Hệ thống phát hiện xâm nhập IDS_

Hệ thống phát hiện xâm nhập IDS

Việc phát hiện hoạt động đáng ngờ là công việc chính của Hệ thống Phát hiện Xâm nhập (IDS) Sau khi được phát hiện, một cảnh báo sẽ được gửi đi Một ứng dung phan mềm quét mạng hoặc hệ thống để tìm bat kỳ hoạt động có hại hoặc vi phạm chính sách nào Mọi hoạt động độc hại hoặc vi phạm chính sách thường được báo cáo cho quản trị viên và được thu thập bằng hệ thống thông tin an toàn và hệ thống quản lý sự kiện (SIEM) Các hệ thống SIEM thu thập kết quả đầu ra từ nhiều nguồn khác nhau và sử dụng các kỹ thuật khác nhau để lọc cảnh báo và phân biệt giữa hoạt động có hại và hoạt động sai.

Mặc dù các hệ thống phát hiện xâm nhập có thể giám sát các mạng để phát hiện hoạt động độc hại tiềm ẩn, nhưng chúng cũng dé bị báo động sai Do đó, diéu quan trọng đối với các tổ chức là tinh chỉnh các sản phẩm IDS khi chúng được cài đặt lần đầu tiên Điều này có nghĩa là thiết lập chính xác hệ thống phát hiện xâm nhập phát hiện lưu lượng truy cập bình thường trên mạng khác với hoạt động độc hại như thế nào.

Hệ thống ngăn chặn xâm nhập (IPS) cũng giám sát các gói mạng trên hệ thống để biết hoạt động độc hại liên quan đến chúng và gửi thông báo cảnh báo ngay lập tức.

Dựa trên nguồn dữ liệu đầu vào, hệ thống IDS được phân thành 3 loại: ¢ Hệ thống phát hiện xâm nhập mạng (NIDS):

— Network-based IDPS (NIDPS) theo dõi lưu lượng mạng cho một phần của mạng (network segment) hoặc các thiết bị, phân tích các hoạt động mạng và các giao thức, ứng dụng để xác định các hành vi bất thường.

- Thường triển khai ở biên mạng, như gần tường lửa hoặc router biên, server VPN, server remote access và mạng không dây.

- Gồm nhiều sensor đặt ở nhiều điểm khác nhau trong mạng để theo đõi lưu lượng mạng. e Hệ thống phát hiện xâm nhập máy chủ (HIDS):

Hệ thống phát hiện xâm nhập dựa trên máy chủ (HIDPS) giám sát hành vi của một máy chủ cụ thể và các sự kiện xảy ra trên máy chủ đó để phát hiện hoạt động bất thường.

- Được triển khai trên host quan trọng (các server có thể truy cập từ bên ngoài, các server chứa thông tin quan trọng). ¢ Hệ thống phát hiện xâm nhập hỗn hợp (Hybrid IDS):

- Hybrid IDPS được phát triển để hướng đến xem xét tat cả dữ liệu từ các sự kiện trên host và sự kiện trong các phần mạng, kết hợp chức năng của cả network và host-based IDPS.

— Tích hợp các ưu điểm của cả 2 kỹ thuật trên.

- Cần tích hợp sao cho 2 kỹ thuật riêng biệt có thể cùng tương tác và hoạt động trong cùng một hệ thống

2.1.2 Phuong phap phat hién xam nhap ® Signature-Based IDS:

— Signature là một mẫu dwt liệu tương ứng với các dấu hiệu của một loại tan công (cơ sở dữ liệu về các loại tan công đã biết trước).

Kỹ thuật phát hiện xâm nhập dựa trên chữ ký (hoặc còn được gọi là dựa trên kiến thức) là quá trình so sánh các mẫu chữ ký đã biết với các sự kiện quan sát được để xác định các sự cố tiềm ẩn.

— Kỹ thuật phat hiện Anomaly-based (hoặc profile-based) hoạt động dựa trên việc:

— Tạo ra một profile cơ sở đại diện cho các hành vi bình thường/dự kiến trong mạng.

- Dựa trên đó, bat kỳ hoạt động mạng đang xem xét nào có sai khác so với profile này đều bị xem là bất thường.

— Profiles đại điện cho hoạt động mạng bình thường hầu hết được tạo ra thông qua phân tích lịch sử lưu lượng mạng (qua các hàm thống kê, hoc máy, clustering, fuzzy logic, heuristics ). ® Specification-based:

- Kỹ thuật phát hiện Specification-based thu thập các hoạt động chính xác của một chương trình hoặc giao thức và theo dõi hoạt động của nó dựa trên các ràng buộc.

Machine Learning, Deep Learning

MachineLearning

Hoc may là một lĩnh vực phụ của trí tuệ nhân tạo được định nghĩa rộng rãi là khả năng máy móc bắt chước hành vi trí tuệ của con người Các hệ thống

AI được sử dụng để thực hiện các nhiệm vụ phức tạp theo cách tương tự như cách con người giải quyết vẫn đề.

Boris Katz, điều tra viên chính tai CSAIL va là người đứng đầu nhóm InfoLab, cho biết mục tiêu của trí tuệ nhân tạo là tạo ra các mô hình máy tính có thể thể hiện "hành vi thông minh" tương tự như con người Điều này có nghĩa là máy móc có thể nhận biết các cảnh trực quan, hiểu văn bản được viết bằng ngôn ngữ tự nhiên và thực hiện các hành động trong thế giới thực.

Học máy là một nhánh của trí tuệ nhân tạo (AI), nơi máy tính được thiết kế để học hỏi và thích ứng với dữ liệu mới mà không cần lập trình rõ ràng Khái niệm này được tiên phong bởi Arthur Samuel, người đã định nghĩa AI vào những năm 1950 là "lĩnh vực nghiên cứu mang lại cho máy tính khả năng học hỏi mà không can lập trình rõ rang”.

Các mô hình học máy được lợi thé rất nhiều từ lượng dữ liệu lớn hơn.

Dữ liệu nên được thu thập và tổ chức để sử dụng trong các mô hình đào tạo và cung cấp thông tin Dữ liệu có thể ở nhiều dạng, chẳng hạn như dữ liệu số, ảnh hoặc văn bản, dữ liệu cảm biến, báo cáo bán hàng, ảnh của các cá nhân và thậm chí cả thông tin giao dịch tài chính.

Các mô hình hoc máy được đào tạo bởi các lập trình viên nhập dt liệu và cho phép máy tính phát hiện các mẫu hoặc đưa ra dự đoán Khi các lập trình viên sửa lại mô hình, họ có thể sửa đổi các tham số để nâng cao kết quả

Theo các nhà nghiên cứu, hệ thống học máy sở hữu ba chức năng nổi bật:- Quy định: Cung cấp kiến nghị hành động dựa trên dữ liệu.- Giải thích: Sử dụng dữ liệu để lý giải các sự kiện đã xảy ra.- Dự đoán: Dựa trên dữ liệu, dự đoán các sự kiện có thể xảy ra trong tương lai.

Học máy gồm 3 loại mô hình con: se Các mô hình học máy có giám sát (supervised) được đào tạo với các tập dữ liệu được gắn nhãn và liên tục cải thiện độ chính xác của chúng theo thời gian Hình ảnh con chó và các đối tượng khác được con người dán nhãn được sử dụng để đào tạo các thuật toán, cho phép máy nhận dạng hình ảnh con chó một cách độc lập Là loại phổ biến, học máy có giám sát hiện đang được sử dụng rộng rãi. se Trong hoc máy không giám sát (unsupervised) sử dụng thuật toán kiểm tra dữ liệu chưa được gắn nhãn trong quá trình học máy không giám sát để khám phá các mẫu và xu hướng chưa xác định trước đó. Thuật toán này có thể phân tích cụ thể dữ liệu bán hàng trực tuyến, phân biệt các loại khách hàng khác nhau dựa trên thói quen mua hàng của họ. e May học tăng cường (reinforcement), là một phương pháp huấn luyện máy bằng cách sử dụng hệ thống phần thưởng để dạy máy cách thực hiện hành động tốt nhất Bằng cách thông báo khi nó đưa ra quyết định chính xác, nó cho phép máy học hiểu được những hành động mà nó nên thực hiện theo thời gian Khả năng này cho phép học tăng cường để huấn luyện các mô hình choi game và xe tự lái.

Deep Learnng

Trong hoc máy, học sâu là một dang mang than kinh bao gồm ít nhất ba lớp Độ chính xác của các dự đoán có thể được cải thiện bằng cách thêm các lớp ẩn vào mạng Các mạng được phân loại có thể phân tích lượng dữ liệu khổng 16 và xác định cường độ của từng kết nối trong mạng Chang hạn, một hệ thống nhận dạng hình ảnh có thể có các lớp xác định các đặc điểm khác nhau trên khuôn mặt như mắt, mũi và miệng và một lớp khác xác định xem các đặc điểm đó có xuất hiện trong nét mặt hay không.

Học sâu, một phần không thể thiếu của AI, cho phép tự động hóa và tối ưu hóa các tác vụ khác nhau mà không cần sự tham gia của con người.

Nó làm nên tảng cho nhiều ứng dụng va công nghệ hàng ngày, chẳng hạn như trợ lý kỹ thuật số, phát hiện gian lận thẻ tín dựng và điều khiển từ xa

TV hỗ trợ giọng nói, cũng như các dịch vụ và sản phẩm mới và đang phát triển.

2.2.3 Phan biệt Machine Learning va Deep Learning

Hoc sâu độc đáo ở chỗ nó hoạt động trên một loại dữ liệu khác và hoc các phương pháp khác với học máy cổ điển. Được sắp xếp thành các bảng, các tính năng cụ thể được xác định từ đữ liệu đầu vào đưa ra dự đoán Dữ liệu phi câu trúc cũng có thể được sử dụng, nhưng đữ liệu này thường trải qua quá trình tiền xử lý để đạt được định dang có câu trúc Các thuật toán học máy dựa trên dữ liệu được gắn nhãn và có cấu trúc.

Bằng cách tự động hóa nhiệm vụ trích xuất tính năng, học sâu loại bỏ nhu cau quá trình tiền xử lý dữ liệu thường được yêu cầu trong học máy. Điều này có nghĩa là các thuật toán có thể nhập và phân tích trực tiếp dữ

Chương 2 KIEN THUC NEN TANG liệu phi cấu trúc như hình anh và văn bản, loại bỏ sự phụ thuộc vào đầu Vào của con người Lây ví dụ, nếu tác giả sở hữu một bộ sưu tập ảnh thú cưng khác nhau và muốn phân loại chúng thành các danh mục như "mèo",

"chó" hoặc "hamster".(ví dụ như tai) là quan trọng nhất để phân biệt từng loài động vật với nhau Còn đối với học máy, hệ thống phân cấp các tính năng này được thiết lập thủ công bởi một chuyên gia.

Thuật toán học sâu sử dụng giảm độ đốc và lan truyền ngược để tự sửa lỗi và sửa lỗi, cho phép thuật toán này dự đoán chính xác hình ảnh động vật mới. Để học có giám sát hoạt động, người ta cần có các tập dữ liệu được dan nhãn cho phép phân loại và dự đoán Loại hình học tập này liên quan đến sự can thiệp của con người để dan nhãn chính xác cho dữ liệu đầu vào.

Tuy nhiên, học không giám sát lại hoàn toàn khác, vì nó phát hiện các mẫu trong dữ liệu mà không có bat kỳ nhãn nào và phân cum chúng dựa trên các đặc điểm phân biệt Ngoài ra, các mô hình học máy và học sâu cũng có khả năng tham gia vào quá trình học tăng cường, trong đó độ chính xác của mô hình học được cải thiện bằng cách tối đa hóa phần thưởng trong môi trường tập trung vào phản hồi.

2.3 Mạng sinh đối kháng (Generative Adversarial Networks)

Có 2 loại mô hình trong bối cảnh học tập có giám sát là mô hình sinh và mô hình phân biệt Mô hình phân biệt chủ yêu được sử dụng để giải quyết nhiệm vụ phân loại, dự đoán điểm dữ liệu thuộc về lớp nào Mặt khác, mô hình sinh chủ yếu được sử dụng dé tạo ra các điểm dữ liệu tổng hợp, tuân theo cùng một phân phối xác suất với phân phối của dữ liệu huấn luyện.

GAN là một loại của mô hình sinh, vì vậy GAN có khả năng sinh ra dữ liệu mới.

Cau trúc co bản của GAN là vanilla GAN, đó là sự kết hợp giữa hai mô hình chính (hai mạng nơ-ron) là Bộ sinh (chịu trách nhiệm tao dữ liệu giả giống với dữ liệu thật) và Bộ phân biệt (chịu trách nhiệm phân biệt dữ liệu giả với dữ liệu thật) Hai mô hình này được huấn luyện và hoạt động theo mục tiêu trái ngược nhau, vì vậy nó còn có tên khác là mạng sinh đối kháng Chúng cạnh tranh với nhau và có thể sao chép và phân tích sự đa dạng trong một tập dữ liệu Sự cạnh tranh giữa cả hai thành phần này tiếp tục cho đến khi đạt được mức độ hoàn hảo.

Các ưu điểm của GAN bao gồm: ® Việc tạo mẫu đơn giản. se Việc huấn luyện không bị tác động bởi việc ước lượng hợp lý cực đại. se Mô hình không dé bị quá khớp với dữ liệu huấn luyện khi Bộ sinh chưa từng thấy bộ dir liệu huấn luyện. © Đặc biệt, GAN rất giỏi trong việc đi sâu vào dữ liệu và nắm bắt được các phương thức phân phối của bộ dữ liệu.

Bên cạnh các ưu điểm nổi bật, GAN cũng tôn tại các khuyết điểm như: ® Khó huấn luyện, cần cung cấp liên tục các loại dữ liệu khác nhau để kiểm tra xem mô hình có hoạt động chính xác hay không. e Phân phối xác suất không rõ ràng, va Vanilla GAN chỉ tốt trong việc tạo mẫu mới. se Việc tạo kết quả từ văn bản hoặc giọng nói rat phức tạp.

Bộ sinh sẽ tạo ra dữ liệu là dữ liệu giả dựa trên dữ liệu gốc (dữ liệu thật).

Bộ sinh sử dụng một mạng nơ-ron có các lớp an, chức năng kích hoạt, hàm mat mát Mục đích của nó là tạo ra hình ảnh giả bằng cách kết hợp với phản hồi từ Bộ phân biệt và cố gắng tiếp tục đánh lừa Bộ phân biệt, khiến cho Bộ phân biệt không thể phân biệt được đâu là dữ liệu thật và đâu là dữ liệu giả do Bộ sinh tạo ra Và khi Bộ phân biệt bị lừa bởi Bộ sinh, quá trình huấn luyện sẽ dừng lại và chúng ta có thể nói rằng một mô hình GAN tổng quát được tạo ra Về cơ bản, Bộ sinh sử dụng phương pháp học tập không có giám sát Tuy nhiên, kiến trúc GAN có một đặc tính thông minh là việc huấn luyện mô hình sinh được đóng khung như một phương pháp học tập có giám sát. Ở dạng cơ bản nhất, Bộ sinh lấy vectơ nhiễu ngẫu nhiên có độ dài cố định làm đầu vào của nó Vectơ được lay ngẫu nhiên, sau đó Bộ sinh sé biến nó thành một đầu ra có ý nghĩa Bằng cách sử dụng nhiễu làm đầu vào, chúng ta có thể giúp GAN tạo ra một lượng lớn các loại dữ liệu.

Sau khi huấn luyện, các điểm trong không gian vectơ nhiều chiều này sẽ tương ứng với các điểm trong miễn của bài toán, tạo thành một biểu diễn nén của phân phối dữ liệu Không gian vecto này được gọi là không gian tiềm ẩn, hoặc không gian vectơ bao gồm các biến tiém ẩn Biến tiềm an, hoặc biến ẩn, là những biến quan trọng đối với một miền nhưng không thể quan sát trực tiếp Để thuận tiện, không gian được dùng để lay nhiễu thường có kích thước nhỏ hơn kích thước của không gian đầu ra. Để huấn luyện một mạng nơ-ron, chúng ta diéu chỉnh trọng số của mạng để giảm lỗi hoặc mat mát trong kết quả đầu ra của nó Bộ sinh cung cấp dữ liệu cho Bộ phân biệt và Bộ phân biệt tạo ra đầu ra mà chúng ta

Mang sinh đối kháng (Generative Adversarial Networks)

Bộphânbiệt

Bộ phân biệt trong GAN chỉ đơn giản là một bộ phân loại Nó có gang phan biệt dữ liệu thật với dữ liệu được tạo bởi Bộ sinh Nó có thể sử dụng bat kỳ kiến trúc mô hình mang nào phù hợp với loại dữ liệu mà nó dang phân loại.

Dữ liệu đào tao của Bộ phân biệt đến từ hai nguồn: e Các dữ liệu thật, chẳng hạn như hình ảnh thật của con người. ¢ Dữ liệu giả được tạo bởi Bộ sinh.

Bộ phân biệt kết nối với hai ham mat mát Trong quá trình huấn luyện

Bộ phân biệt, Bộ sinh sẽ không được đào tạo Bộ phân biệt chỉ sử dụng và điều chỉnh hàm mất mát của chính nó và không điều chỉnh các mất mát của Bộ sinh Vì vậy các trọng số của Bộ sinh không đổi trong khi nó tạo ra các mẫu mới để huấn luyện Bộ phân biệt.

Bộ phân biệt được huấn luyện theo quy trình sau: ¢ Bộ phân biệt phân loại dữ liệu that và dữ liệu giả từ Bộ sinh Nó phải học cách nhận ra các sai sót của Bộ sinh Do là một vấn đề khác đối với Bộ sinh đã được huấn luyện trước so với Bộ sinh chưa được huấn luyện và sẽ tạo ra đầu ra ngẫu nhiên. ¢ Su mất mát của Bộ phân biệt sẽ phạt nó vì đã phân loại sai một trường hợp thật là giả hoặc một trường hợp giả là thật.

* Bộ phân biệt tự cập nhật trọng số thông qua việc sử dụng mang nơ- ron của chính nó để truyền ngược giá trị mat mát.

Do GAN được dựa trên trò chơi tổng bằng không và chứa hai mạng được đào tạo riêng biệt, nên trong quá trình huấn luyện GAN thường gặp một vấn đề là mô hình không thể hội tụ, tức là không thể tìm được điểm cân bằng giữa Bộ sinh và Bộ phân biệt.

Trong trường hợp Bộ sinh quá kém, nó sẽ tạo ra các dữ liệu rác mà Bộ phân biệt luôn có thể dé dàng phân biệt được Điều này dẫn đến mat mát

Chương 2 KIEN THUC NEN TANG của Bộ phân biệt luôn xap xỉ hoặc bằng 0 Trong khi đó mat mát của Bộ sinh tăng lên Loại lỗi này có thể xảy ra ngay khi bắt đầu huấn luyện và tiếp tục diễn ra trong suốt quá trình.

Khi Bộ sinh trở nên quá tốt, Bộ phân biệt sẽ gặp khó khăn trong việc xác định sự khác biệt giữa dữ liệu thật và giả, dẫn đến sự suy giảm hiệu suất của mô hình GAN Phản hồi từ Bộ phân biệt trở nên kém có giá trị, khiến Bộ sinh phải học từ những phản hồi không chính xác Điều này làm giảm chất lượng của Bộ sinh và cản trở sự hội tụ của mô hình GAN.

Vì vậy, Bộ phân biệt luôn cần phải được huấn luyện với các thuật toán tương xứng với hiệu suất của Bộ sinh để có thể đưa ra kết quả tốt nhất. Chúng cần được đào tạo song song và phải có khả năng ngang nhau tại cùng một thời điểm để tìm được điểm hội tụ, bởi vì sự hội tụ thường là một trạng thái nhất thời chứ không phải là trạng thái ổn định đối với GAN.

Ham mất mát là hàm tinh toán khoảng cách giữa dau ra hiện tai của thuật toán và dau ra mong đợi, đối với GAN thì đó là việc phản ánh khoảng cách giữa phân phối dữ liệu do GAN tạo ra và phân phối dữ liệu thực Nó là một thước đo cho thay mô hình hoạt động tốt như thé nào và có thể đánh giá được cách thuật toán tạo lập mô hình từ dữ liệu Sử dụng đúng hàm mat mát sẽ giúp ta chuyển một bài toán học tập thành bài toán tối ưu hóa, khi đó việc tối ưu hóa nó và sẽ làm giảm thiểu hàm mắt mát va dẫn đến một kết quả tốt hơn cho các tham số của bài toán học tập.

Một hàm mat mát ánh xạ một kịch bản gồm một hoặc nhiều giá trị thành một số thực nhằm thể hiện tổn thất hoặc lỗi của kịch bản đó Nếu gia tri

Chương 2 KIEN THUC NEN TANG của tập hợp các nhãn dự đoán dau ra của kịch ban đó không đúng với giá trị của tập hợp các nhãn chính xác, thì hàm mat mát sẽ xuất ra một giá trị cao hơn và ngược lại.

Trong học sâu, giá trị mất mát được sử dụng để tính toán ra độ dốc tương ứng với trọng số của mô hình, sau đó cập nhật các trọng số đó cho phù hợp thông qua việc lan truyền ngược Việc cập nhật mô hình này diễn ra lặp lại cho đến khi mô hình không có thêm bắt kỳ cải thiện nào về các chỉ số đánh giá Vì vậy, khi sử dụng các chỉ số để đánh giá mô hình như accuracy hoặc f1-score trên bộ dữ liệu dùng để xác thực, thì sự mất mát có thể được điều chỉnh và sửa đổi để có được các chỉ số đánh giá tốt nhất.

Việc lựa chọn hàm mắt mát cũng giống như việc lựa chọn kiến trúc mô hình hoặc trình tối ưu hóa, cần phải suy nghĩ kỹ khi đưa ra lựa chọn để có thể tìm được một ham mat mát phù hợp với mô hình đã được đưa ra. Trong học máy và học sâu, có hai nhóm ham mat mát được sử dụng rộng rãi cho các vấn đề học tập phổ biến là bài toán hồi quy (cho các giá trị liên tục) va bài toán phân loại (cho các giá tri rời rac).

Một số hàm mất mát thường dùng trong các bài toán hồi quy là lỗi bình phương trung bình (MSE), lỗi tuyệt đối trung bình (MAE) và lỗi Huber Trong khi đó, các bài toán phân loại thường sử dụng các hàm mất mát như lỗi hinge và lỗi entropy nhị phân chéo (BCE).

Chương 2 KIEN THUC NEN TANG ® Sparse Categorical Cross Entropy Loss ¢ Kullback Leibler Divergence Loss (KL Loss)

Hàm mấtmát

Một mô hình GAN có thể sử dung hai ham mất mát riêng biệt, một hàm sử dụng cho Bộ sinh và một hàm sử dụng cho Bộ phân biệt, thay vì sử dụng chung một ham Tuy nhiên, hai hàm này chính là được lay ra từ công thức chung bên trên. Đối với Bộ phân biệt, ham mất mát của nó sẽ giống như công thức chung Khi Bộ phân biệt phân loại sai, nó sẽ tự phạt bằng cách tối ưu hóa hàm bên dưới: max V(D) = Ex~pygeq(x)llogD (x)| + Ez~p,(z)[log(l — D(G(z))] 22)

Hay nói cách khác, Bộ phân biệt sẽ cô gang tối wu D(x) dé tăng khả năng phân loại dữ liệu thật là thật, giảm thiểu D(G(2)) (hay tối ưu 1 - D(G(z))) để giảm khả năng phân loại dt liệu giả là thật Đối với Bộ sinh, nó sẽ tự phat nêu như đữ liệu nó tạo ra không thể đánh lừa được Bộ phân biệt Bởi vì Bộ sinh không thé tác động trực tiếp đến giá trị log(D(x)) trong hàm, vì vậy, đối với Bộ sinh, nó cần giảm thiểu mất mát là Bộ phân biệt có thể nhận biết được dữ liệu mà nó tao ra là dữ liệu giả, tương đương với giảm thiểu log(1

- D(G(z))) (hay tối ưu D(G(z)) Hàm mat mát của Bộ sinh có công thức: mịn V(G) = Ez~p,(2)[log(1 — D(G(2))| (23)

Các mô hình phát hiện xâm nhập

Một trong các van dé bảo mật được nhắc đến của lĩnh vực học máy trong việc triển khai và vận hành các mô hình đó là lỗi mô hình không an toàn.

Nguyên nhân thường là do tính bảo mật của mô hình học máy không được xem xét một cách kỹ lưỡng, điều này tạo nên các bề mặt tấn công rộng rãi ở tât cả các giai đoạn của quy trình làm việc với học máy Bên cạnh

Sự gia tăng của các hệ thống học máy (ML) đã mở ra cánh cửa cho các kiểu tấn công mới có thể làm sai lệch các kết quả của các mô hình ML Các cuộc tấn công này, như đối kháng tiền xử lý, đầu độc và trốn tránh, khai thác môi trường vận hành độc đáo của các hệ thống ML Chúng có thể dẫn đến việc tạo ra các kết quả không đáng tin cậy và vô nghĩa, làm suy yếu hiệu quả của các mô hình ML trong việc phân tích các ứng dụng độc hại Ví dụ, các ứng dụng độc hại có thể làm sai lệch quá trình trích xuất tính năng của mô hình, cho phép kẻ tấn công phá hoại mô hình hoặc giải cấu trúc để thực hiện các cuộc tấn công tiếp theo, cuối cùng có thể làm tê liệt toàn bộ hệ thống.

Cho đến nay, nhiều chiến lược tan công hộp trắng đã được sử dụng để tạo ra các mẫu độc hại khiến các hệ thống học máy bị thay đổi dần đần mà con người không thể nhận ra được, cuối cùng khả năng dự đoán của mô hình bị thay đổi hoàn toàn Tân công hộp trắng là khi kẻ tấn công có thể truy cập trực tiếp vào mô hình mục tiêu và nắm rõ cấu trúc của nó Tuy nhiên trong thực tế không thể xác định được thông tin của mục tiêu, nghĩa là họ không biết về bộ dữ liệu huấn luyện của mục tiêu, không nắm được đầy đủ chỉ tiết của hệ thống học máy, chẳng hạn như các tham số của nó, cũng như không thể sửa đổi cấu trúc bên trong.

Tuy nhiên có thể có quyền truy cập vào các dự đoán của mô hình cho các mẫu đầu vào, bao gồm cả xác suất của các lớp phân loại Với quyền truy cập vào các dự đoán của mô hình, có thể tìm thấy sự mat mát của mô hình đối với một đầu vào nhất định, nhưng nếu không có quyền truy cập vào toàn bộ mô hình, thì không thể truy cập các độ dốc cần thiết để thực hiện các cuộc tan công hộp trang vì vậy kẻ tan công chỉ có thể thực hiện

Chương 2 KIEN THUC NEN TANG các cuộc tan công hộp den Chiến lược của tan công hộp den chính là đào tạo một mô hình cục bộ để thay thế cho mô hình mục tiêu Đầu vào cho mô hình này là tập dữ liệu tổng hợp bao gồm các biến thể được tạo ra bởi Bộ sinh cục bộ; nhãn tương ứng cho tập dt liệu này sẽ là nhãn nhận được từ mô hình mục tiêu khi đưa dir liệu biến thể vào cho mô hình mục tiêu phân loại Chiến lược tan công hộp den này có khả năng né tránh các chiến lược phòng thủ trước đây, làm cho các mẫu biến thể mới được tạo ra ngày càng tốt hơn Vì vậy trong quá trình huấn luyện lặp lại, bộ phân loại của mục tiêu và cả bộ phân loại cục bộ bắt đầu đưa ra những dự đoán sai đối với đầu vào là các biến thể mới vì cả hai mô hình đều có ranh giới quyết định tương tự nhau Sau khi hoàn thành huấn luyện, các cuộc tan công nay có thể đạt được tỷ lệ tan công thành công va mức độ làm sai lệch gần VỚI các cuộc tấn công hộp trắng. tác giả sử dụng các mô hình thuật toán học máy và học sâu sau cho việc đánh giá và thiết kế hệ thống.

Bộ mã hóa tự động (AE) là một loại mạng thần kinh nhân tạo được sử dụng để học cách mã hóa dữ liệu một cách hiệu quả theo cách không giám sát Mục tiêu của bộ mã hóa tự động là: ® Tìm hiểu cách biểu diễn cho một tập hợp dữ liệu, thường là để giảm kích thước bằng cách huấn luyện mạng bỏ qua nhiễu tín hiệu. s Cùng với khía cạnh rút gọn, khía cạnh tái cầu trúc cũng được học, trong đó bộ mã hóa tự động cô gắng tạo từ mã hóa đã rút gọn một biểu diễn gần nhất có thể với đầu vào ban đầu của nó Điều này giúp

Chương 2 KIEN THUC NEN TANG bộ mã hóa tự động tìm hiểu các tinh năng quan trọng có trong dữ liệu.

Autoencoder gồm 3 phần: ® Input Layer: Để truyền dữ liệu đầu vào vào mạng.

* Hidden Layer: Bao gồm Bộ mã hóa và Bộ giải mã.

* Output Layer: Thường khớp với các nơ-ron đầu vào.

Variational Autoencoder là một mô hình tạo kiểu rõ ràng được sử dụng để tao dữ liệu mẫu mới bằng cách sử dụng dữ liệu trong quá khứ VAE thực hiện ánh xạ giữa các biến tiềm ẩn, chi phối để giải thích dữ liệu đào tạo và phân phối cơ bản của dữ liệu đào tao Các vectơ biến tiềm ẩn này có thé được sử dụng để tái tạo lại dữ liệu mẫu mới gần với dữ liệu thực.

Input layer Hidden layer Output layer

HÌNH 2.1: Kiến trúc mô hình AE.

VAE bao gồm hai loại mang than kinh trong kiến trúc của chúng: Bộ mã hóa và Bộ giải mã Bộ mã hóa đưa ra giá trị trung bình và hiệp phương sai tương ứng với xác suất sau của dữ liệu huấn luyện đã cho và bộ giải mã lay mẫu vectơ tiém ẩn từ đầu ra của bộ mã hóa và tái tao lại dữ liệu mẫu.

Kiến trúc của VAE được mô tả ở Hình 2.2. ¢ Encoder trong VAE

Nhiệm vu lay dữ liệu đào tạo làm đầu vào và đầu ra giá trị trung bình

LỄ và hiệp phương sai >Z tương ứng với phân phối gần đúng sau của Po(Z |X) Từ đó, một vectơ tiềm ẩn mẫu z được lay và chuyển qua bộ giải mã Encoder trong mô hình VAE được mô tả ở Hình 2.3.

Mục tiêu của bộ mã hóa là áp dụng một ràng buộc trên mạng sao cho phân phối sau p¿(Z | x) gần với phân phối gaussian đơn vị trước đó

Bằng cách này, chính quy hóa được áp dụng trên mạng và mục tiêu là tối đa hóa tiêu cực của khoảng cách phân kỳ KL giữa p¿(Z |X) và gần bằng pạ(Z).

Tiếp theo, thay vì chuyển toàn bộ đầu ra của bộ mã hóa sang lớp cổ chai tiếp theo, tác giả lay một mẫu (z) bằng phương pháp tái tham số hóa.Phương pháp tái tham số hóa này giúp các gradient lan truyền

HÌNH 2.2: Kiến trúc mô hình VAE.

Trong mô hình VAE, quá trình Encoder tiến hành ngược từ bộ giải mã đến bộ mã hóa thông qua lớp thắt cổ chai mô tả trong Hình 2.3, với giá trị epsilon được phân phối chuẩn với trung bình 0 và phương sai 1 (€ = N(0, 1)) Tiếp đó, Decoder trong VAE thực hiện quá trình giải mã.

Nhiệm vụ lấy vectơ không gian tiềm ẩn z, được lẫy mẫu từ bộ mã hóa bằng phương pháp tái tham số hóa, làm đầu vào và đầu ra giá trị trung bình HZ và hiệp phương sai *Xtương ứng với phân phối sau của Ð¿(x | Z) Từ đó, một mẫu mới có thể được tạo ra.

Decoder trong mô hình VAE được mô tả ở Hình 2.4.

Mục đích của quá trình giải mã là tái tạo dữ liệu mục tiêu sao cho gần với dữ liệu gốc nhất Bằng cách sử dụng tổn thất tái tạo log(pe(x | Z)), có thể đảm bảo dữ liệu tái tạo gần với phân phối dữ liệu gốc Để tối đa hóa khả năng này, lỗi bình phương trung bình có thể được sử dụng.

HÌNH 2.4: Mô tả quá trình Decoder trong mô hình VAE

MôhinhRNN

Mô hình Stacked-LSTM

MôhìnhCNN-LSTM

CNN-LSTM là một kiến trúc LSTM được thiết kế đặc biệt cho các bài toán dự đoán trình tự với đầu vào không gian như hình ảnh và video.

Kiến trúc CNN-LSTM áp dụng các lớp mạng thần kinh tích chập (CNN) để trích xuất các đặc trưng từ dữ liệu đầu vào Các đặc trưng này sau đó được truyền vào các đơn vị bộ nhớ dài ngắn hạn (LSTM), hỗ trợ mạnh mẽ cho nhiệm vụ dự đoán chuỗi Sự kết hợp của CNN và LSTM giúp tăng cường khả năng học các mối quan hệ không gian và thời gian trong dữ liệu, dẫn đến kết quả dự đoán chính xác hơn.

Chương 2 KIEN THUC NEN TANG cho các van dé dự đoán chuỗi thời gian trực quan va các ứng dụng tao mô tả văn bản từ một chuỗi hình ảnh (chẳng hạn như video).Một số vấn đề về: se Nhận dạng hoạt động : Tao mô tả bằng văn bản về một hoạt động được thể hiện trong một chuỗi hình ảnh. ® Mô tả video : Tạo mô tả văn bản của một chuỗi hình ảnh.

Kiến trúc này cũng đã được sử dụng cho các vấn dé về nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên trong đó CNN được sử dụng làm bộ trích xuất đặc trưng cho LSTM trên dữ liệu đầu vào âm thanh và văn bản Kiến trúc này phù hợp với các van dé: © Có cấu trúc không gian trong đầu vào của chúng, chẳng hạn như cấu trúc 2D hoặc pixel trong hình ảnh hoặc câu trúc 1D của từ trong câu, đoạn văn hoặc tài liệu. e Có câu trúc thời gian trong đầu vào của chúng, chang hạn như thứ tự hình ảnh trong video hoặc từ trong văn bản hoặc yêu cầu tạo đầu ra có câu trúc thời gian, chẳng hạn như từ trong mô tả văn bản

Mô hình CNN-LSTM được thể hiện ở Hình 2.10.

2.4.3 Mô hình CNN tác gia đã chọn VGG16, VGG19, Xception, Resnet, Inception và Inception-

ResNet trở thành lựa chọn hiệu quả cho các mô hình phát hiện, nhờ thành công của chúng đối với đa dạng các vấn đề phân loại hình ảnh [13] Các mô hình CNN này được đào tạo trước với dữ liệu khổng lồ trên ImageNet, thể hiện hiệu năng vượt trội trong các tác vụ phân loại hình ảnh phổ biến ImageNet, là tập dữ liệu xử lý hình ảnh chuẩn, chứa hơn một triệu hình ảnh thuộc 1.000 lớp [13].

Các mô hình VGG16 với 16 lớp (VGG16) và 19 lớp (VGG19) được dé xuất

Chương 2 KIEN THUC NEN TANG trong [14] đã đạt được ty lệ lỗi giảm 7,3% trong Thử thách ImageNet Kiến trúc VGG16 bao gồm năm khối lớp tích chập và ba lớp được kết nối đầy đủ, trong khi kiến trúc VGG19 có thêm ba lớp tích chập Mạng Inception được giới thiệu trong [15] sử dụng bộ trích xuất tính năng tích chập kết hợp các bối cảnh khác nhau để thu được các loại mẫu tính năng khác nhau, giúp giảm chi phí tính toán thông qua giảm kích thước Xception [16] là một phần mở rộng của mạng Inception sử dụng các kết hợp có thể phân tách theo chiều sâu để thay thế các kết hợp mạng tiêu chuẩn Yêu cầu bộ nhớ của Xception nhỏ hơn một chút so với Inception InceptionResnet là một phần mở rộng khác của Inception kết hợp các kết nối còn lại từ Resnet vào mạng Inception [13] InceptionResnet vượt trội so với các mô hình Incep- tion về thách thức phân loại hình ảnh, nhưng nó đòi hỏi gấp đôi hoạt động tính toán và bộ nhớ so với Inception.

Mạng lưới CNN bao gồm các lớp tích chập xếp chồng lên nhau, trong đó các hàm kích hoạt phi tuyến tính như ReLU đóng vai trò kích hoạt trọng số của các lớp này Điều này giúp CNN có khả năng trích xuất những đặc trưng phức tạp và phân cấp từ dữ liệu đầu vào, qua đó cải thiện độ chính xác khi thực hiện các tác vụ nhận dạng hình ảnh và xử lý hình ảnh khác.

Chương 2 KIEN THUC NEN TANG nút Mỗi lớp tao ra nhiều thông tin trừu tượng hơn cho lớp tiếp theo sau khi chuyển chức năng kích hoạt ° Kiến trúc

Mỗi lớp tạo ra nhiều thông tin trừu tượng hơn cho lớp tiếp theo sau khi chuyển chức năng kích hoạt Trong mô hình mạng nơ-ron chuyển tiếp nguồn cấp dữ liệu, mỗi no-ron đầu vào cung cấp cho từng nơ-ron đầu ra trong các lớp tiếp theo Mô hình này được gọi là lớp được kết nối day đủ. Trong các mô hình CNN, điều ngược lại là đúng Các lớp này được kết nối với nhau bằng cơ chế tích chập Lớp tiếp theo là kết quả của phép tích chập của lớp trước, vì vậy chúng ta có các kết nỗi cục bộ Do đó, mỗi nơ-ron trong lớp tiếp theo được tạo ra từ kết quả của bộ lọc được áp dụng cho vùng hình ảnh cục bộ của nơ-ron trước đó.Mỗi lớp sử dụng một bộ lọc khác nhau (thường là hàng trăm nghìn) và kết quả được kết hợp Có một số lớp khác, chẳng hạn như các lớp tổng hợp/lấy mẫu con, có thể trích xuất nhiều thông tin hữu ích hơn Trong quá trình đào tạo mạng, CNN sẽ tự động học các giá trị thông qua các lớp lọc Ví dụ: trong một tác vụ phân loại hình ảnh, CNN có gắng tìm các tham số tốt nhất của các bộ lọc tương ứng theo thứ tự pixel thô > cạnh > hình dạng > khuôn mặt > tính năng nâng cao Lớp cuối cùng được sử dụng để phân loại hình ảnh.

Kiến trúc mô hình CNN-LSTM được thể hiện ở Hình 2.11. e Kiên trúc

CNN là mô hình DL được sử dụng rộng rãi trong nhận dạng hình ảnh, gồm lớp tích chập trích xuất đặc điểm hình ảnh và lớp liên kết đầy đủ xác định loại hình ảnh đầu vào Lớp tích chập trích xuất các đặc điểm độc đáo của hình ảnh, vẫn giữ nguyên đặc điểm không gian.

FULLY INPUT —— +RELU POOUNG CONVOLUTION + RELU POOUNG 7 ở LATTE — gprs SOFTMAX )

HINH 2.11: Kiến trúc mô hình CNN. giữ thông tin I/O và không gian của hình ảnh, đồng thời giảm kích thước của dir liệu tinh năng bằng cách thêm một lớp tổng hợp vào lớp tích chập.

Một hình ảnh được xử lý dựa trên phương trình (2.4).

L dé cập đến chiều dài của hình anh đầu vào K và P dé cập đến kích thước hạt nhân và số không được lấp đầy bởi mức độ kích thước của cả hai đầu Cuối cùng, S dé cập đến bước tiền của hạt nhân trên lớp tích chập. Mặc dù nhiều lớp tích chập có thể học hình ảnh hiệu quả hơn với các tính năng phức tạp, nhưng số lượng và hiệu suất của các lớp tích chập không phải lúc nào cũng tỷ lệ thuận Do mối tương quan giữa số lượng lớp tích chập và hiệu suất của nó phụ thuộc vào đặc điểm của hình ảnh đầu vào, chúng ta cần tìm ra thiết kế tối ưu thông qua các thiết kế và học tập khác nhau Tác giả thiết kế các mô hình của mình dựa trên các siêu tham số như loại hình ảnh (thang độ xám hoặc RGB), số lớp tích chập và kích thước của nhân, số lượng trọng số được sử dụng để thiết kế một lớp ẩn trong lớp tích chập.

Mô hình mô tả thuật toán CNN được thể hiện ở Hình 2.12.

Hoạt động tích chập trên các feature map đầu vào và một lớp tích chập trong kiến trúc CNN được cung cấp thông qua phương trình (2.5).

Trong đó, * là tích chập 2 chiều, n\” là đầu ra của feature map j trong lớp

J an n, ni? 'là giá trị thứ k trong lớp an (1-1), Wy la trong so cua gia tri thứ k trong bộ lọc thứ ƒ trong lớp 7,by,? là dự đoán của thuật toán. Đối với mọi lớp, các hệ số bộ lọc được chọn với các giá trị ngẫu nhiên để bắt đầu và sau đó được học thông qua thuật toán lan truyền ngược Ngoài ra, các lớp tích chập cũng liên quan đến chức năng kích hoạt để thiết lập tính phi tuyến Tập hợp các lớp tích chập tạo ra một khối lượng đáng kể các bản dé đặc trưng Để giúp hạn chế kích thước của các thuộc tính này,

Input Layer Convolution Layer & Pooling Layer

Output Layer Fully-Connected Layer normal R LÌ

> Binary-class oO attack classification > o normal oi neptune về Multi-class im pee % | classification -

HINH 2.12: M6 hinh m6 ta thuat toan CNN.

Chương 2 KIEN THUC NEN TANG các lớp tích chập được theo sau bởi một lớp bổ sung, được gọi là tổng hợp, nhằm hạn ché chi phí tính toán cho việc đào tạo trong mạng và giảm khả năng trang bị quá mức Một số hoạt động tổng hợp tôn tại, bao gồm tổng hợp tối đa, trung bình và ngẫu nhiên Đối với lớp tổng hợp tối đa, lớp này hoạt động như một cửa sổ trượt có khoảng cách sải chân để đặt giá trị tối đa bên trong kích thước của cửa sổ trượt.

Quá trình training của CNN được hoàn thành với một thuật toán lặp di chuyển giữa các chuyển động dữ liệu truyền tới và truyền ngược Tại mỗi lần lặp lại lan truyền ngược, các bộ lọc tích chập va các lớp được kết nối đầy đủ được cập nhật Mục đích chính là hạn chế hàm loss E trung bình trên các nhãn lớp thực và đầu ra mạng, tức là,

T đó *(K) (kK) xa - ~ ` HÀ > x rong do y; và y; © lan lượt là nhãn thực và dau ra mang của dau vào thứ i ở lớp k với các đầu vào huấn luyện m va các nơ-ron c ở lớp dau ra.

Mô hình VGG16 là một Kiến trúc mạng nơ-ron liên kết (CNN) đơn giản gồm 19 lớp tích chập Kiến trúc VGG16 được thể hiện ở Hình 2.13.

HÌNH 2.13: Kiến trúc mô hình VGGI16.

Mô hình VGG19 là một Kiến trúc mạng nơ-ron liên kết (CNN) đơn giản gồm 19 lớp tích chập Kiến trúc VGG19 được thể hiện ở Hình 2.14.

112x112x124 im Convolutional layer (ReLU) Œ Fully connected layer (ReLU) asec @ Max pooling fa] Dropout (0.5)

224x224x3 @ Fully-connected layer (Flatten) Œ Fully-connected layer (SoftMax)

HÌNH 2.14: Kiến trúc mô hình VGG19.

Mô hình Xception là một Kiến trúc mạng nơ-ron liên kết (CNN) đơn giản gồm 71 lớp tích chập Kiến trúc Xception được thể hiện ở Hình 2.15.

3x3 max pool, /2 Filter Concat —_ eemeepee lá | Filter Concat

| Filter Concat Filter Concat global vg pool 1000 fc, Softmax

HINH 2.15: Kiến trúc mô hình Xception.

MôhìinhhCNN

Mô hình Resnet50

Môhình InceptionV3

Inception v3 là mô hình nhận dạng hình ảnh tiên tiến được xây dựng dựa trên những nghiên cứu của nhiều nhà khoa học Mô hình có độ chính xác cao trên 78,1% trên tập dữ liệu ImageNet, chứng tỏ hiệu suất vượt trội trong nhận dạng hình ảnh.

Architecture for Computer Vision" của Szegedy, et al Ban thân mô hình được tạo thành từ các khối xây dựng đối xứng va không đối xứng, bao gồm các cấu trúc chập, tổng hợp trung bình, tổng hợp tối đa, nối, bỏ học và các lớp được kết nối đầy đủ Chuẩn hóa hàng loạt được sử dụng rộng rãi trong toàn bộ mô hình và được áp dụng cho các đầu vào kích hoạt.Tổn thất được tính bằng Softmax.

Model Inception là một mạng lưới thần kinh tích chập được đào tạo trên tập dữ liệu ImageNet để phân loại các đối tượng khác nhau trong hình ảnh Còn được gọi là GoogleLeNet, mô hình này sử dụng kiến trúc độc đáo với các mô-đun inception, giúp trích xuất các đặc trưng phong phú và đa cấp từ hình ảnh Inception đã đạt được kết quả tiên tiến trong nhiều nhiệm vụ phân loại hình ảnh và vẫn là một trong những kiến trúc mạng nơ-ron phổ biến nhất hiện nay.

Cấu trúc Inception sử dụng hình ảnh có kích thước 299x299x3 pixel Lớp khởi động bao gồm sự kết hợp của các lớp tích chập 1x1, 3x3 và 5x5 Đầu ra bộ lọc của các lớp này được nối thành một vectơ đầu ra duy nhất, đóng vai trò là đầu vào cho giai đoạn tiếp theo Cấu trúc Inception được giới thiệu lần đầu vào năm 2015.

Có một kết cau trong Inception có kích thước 5x5 và hai kết cầu khác có kích thước 1x1 và 3x3. © Các kết câu có kích thước 1x1 có khả năng học các mẫu dựa trên độ sâu của đầu vào Dữ liệu được truyền qua mạng có thể được giảm kích thước, điều này cũng làm tăng chiều rộng và chiều sâu của mạng. Điều này phục vụ mục đích giảm truyền di liệu trên mạng. e Tat cả các thành phan chiều (chiêu cao, chiêu rộng và chiêu sâu) của

Chương 2 KIEN THUC NEN TANG đầu vào được học bởi kết câu 3x3 va 5x5, từ đó hiểu được các mau không gian Các kích thước bộ lọc biến đổi khác nhau cho phép mang học các mẫu không gian khác nhau ở các tỷ lệ khác nhau.

Sơ đồ cấp cao của mô hình Inception được thể hiện ở Hình 2.17 Kiến trúc của mô hình InceptionV3 được hiển thị trong Hình 2.18.

28 (height) x 28(width) x 192(depth) ‘Output (Concatenated)

28(height) x 28(width) x 256(Channels) ae Ves

HINH 2.17: Sơ đồ cấp cao của mô hình Inception.

HH ng ng th) PAC) ha = eons i Ụ am

HINH 2.18: Kiến trúc mô hình InceptionV3.

Mô hình InceptionResnetV2

Inception-ResNet-v2 là mạng thần kinh tích chập được dao tạo trên hơn một triệu hình ảnh từ cơ sở dữ liệu ImageNet Mạng có độ sâu 164 lớp và có thể phân loại hình ảnh thành 1000 loại đối tượng, chẳng hạn như bàn

Chương 2 KIEN THUC NEN TANG phím, chuột, bút chì va nhiều loài động vật Kết qua là, mang đã học được các biểu diễn tính năng phong phú cho nhiều loại hình ảnh Mạng có kích thước đầu vào hình ảnh là 299 x 299 và đầu ra là danh sách các xác suất ước tính của lớp.

Mô hình InceptionResnetV2 được thể hiện ở Hình 2.19. lnception Resnet V2 Network

Nó được hình thành dựa trên sự kết hợp giữa câu trúc Inception và kết nối Residual Trong khối Inception-Resnet, nhiều bộ lọc chập có kích thước được kết hợp với các kết nối còn lại Việc sử dụng các kết nối còn lại không chỉ tránh được van dé xuống cấp do cau trúc sâu gây ra mà còn giảm thời gian đào tạo Hình này cho thấy kiến trúc mạng cơ bản của Inception-

Kiến trúc của mô hình InceptionResnetV2 được thể hiện ở Hình 2.20.

Stem block ————> 5 x Inception- Reduction-A 10 x Inception- resnet-A resnet-B

HINH 2.20: Kiến trúc mô hình InceptionResnetV2.

CHUONG 3 PHƯƠNG PHAP KHANG MAU ĐỐI

Trong chương này, tác giả sẽ nói về các phương pháp tạo mẫu đối kháng.Quan trọng nhất tác giả sẽ giới thiệu một phương pháp và mô hình phát hiện các cuộc tan công đối kháng bằng cách kết hợp nhiều thuật toán phân loại tốt nhất hiện nay.

Các phương pháp tạo mẫu đối kháng

Tạo mẫu đối kháng sử dụng WCGAN_

WCGAN là GAN cơ bản nhưng sử dụng hàm loss Wasserstein và Condi- tion (tạo có điều kiện)

Chương 3 PHƯƠNG PHÁP KHANG MAU DOI KHÁNG

Việc tao dữ liệu bang GAN cơ bản với nhiều nhãn lớp sẽ rat mat nhiều thời gian Vì thế việc kết hợp Condition vào Gan cơ bản nhằm tiết kiệm nhiều thới gian cho quá trình tạo cũng như cải thiện hiệu suất của dữ liệu Gan được tạo ra.

3.1.2.2 Wasserstein GAN Đào tạo model sử dụng GAN không dễ dàng bởi vì trong quá trình huấn luyện có thể dẫn đến không đạt được hội tụ đến điểm cân bằng Một trong những cách mà có thể áp dụng để khắc phục việc không hội tụ đó là thay đổi ham mat mát (loss function).

Wasserstein GAN (WGAN) là một biến thé của GAN được đề xuất bởi

Martin Arjovsky, Soumith Chintala và Léon Bottou vào năm 2017 WGAN tao ra chat lượng mẫu tốt hon so với các phiên ban GAN truyền thống nhờ vào tập trung thay đổi ham mat mát.

Sự khác biệt chính giữa WGAN và các GAN truyền thống nằm ở cách tiếp cận hàm mat mát Trong WGAN, thay vì sử dụng hàm mat mát nhị phân (binary cross-entropy) như trong GAN truyền thống, WGAN sử dụng hàm mất mát Wasserstein Hàm mat mát Wasserstein cho phép đo lường độ tương đồng giữa phân phối xấu và phân phối tốt hơn, đồng thời giúp tránh các van dé như "vanishing gradient" va "mode collapse” xảy ra trong các GAN truyền thống. Điều quan trọng trong WGAN là đảm bảo rằng mô hình sinh và mô hình phân biệt đều được hội tụ Để đạt được điều này, WGAN sử dụng kỹ thuật "gradient penalty" để giới hạn độ lớn của gradient Kỹ thuật này giúp

Chương 3 PHƯƠNG PHÁP KHANG MAU DOI KHÁNG cải thiện tính ổn định va đảm bảo rằng việc huan luyện mô hình không gặp van đề của việc gradient "exploding" hoặc "vanishing".

Wasserstein GAN đã được chứng minh là hiệu quả trong nhiều ứng dụng như tạo ảnh, tạo âm thanh và nhiều lĩnh vực khác, mang lại những kết quả tốt hơn và ổn định hơn so với GAN truyền thống.

Kiến trúc mô hình WCGAN được thể hiện trong Hình 3.1 Hình 3.2 tóm tắt về quá trình để đào tạo WGAN.

3.1.3 Tạo mẫu đối kháng sử dụng các mô hình chuyển giao

TL là một lĩnh vực nghiên cứu may móc và học sâu nhằm mục đích chuyển giao kiến thức từ một hoặc nhiều nhiệm vụ nguồn cho một hoặc nhiều nhiệm vu đích [18] Giả sử miền nguồn DS, một nhiệm vụ học tập TS, miền mục tiêu DT, và một nhiệm vụ học tập TT TL giúp cải thiện việc học hàm dự đoán mục tiêu f —T(.) trong DT sử dụng kiến thức trong DS và

TS, trong đóDS # DT,hoặcTS # TT [19].TL là tất cả về việc sử dung các tính năng đã học về một van dé và tận dụng chúng vào một van dé tương tự mới Như việc lay đặc điểm của một người đã học cách xác định mèo, nó có thể hữu ích trong việc tạo ra một mô hình xác định hổ [20] TL attack traffic | cel

HÌNH 3.1: Kiến trúc mô hình WCGAN.

Tạo mẫu đối kháng sử dung các mô hình chuyển giao 52

Algorithm 1 WGAN, our proposed algorithm All experiments in the paper used the default values a = 0.00005, e = 0.01, m = 64, neritic = 5.

Require: : a, the learning rate c, the clipping parameter m, the batch size.

Neritic, the number of iterations of the critic per generator iteration.

Require: : wp, initial critic parameters 49, initial generator’s parameters.

1: while ỉ has not converged do 2: for t = 0 Meritie do

3 Sample {a“)}TM, ~ P, a batch from the real data.

1 Sample {z“)}TM, ~ p(z) a batch of prior samples.

5: 9ứ C Vụ [im Diet fo(Êf)) — 5 Dies fo(96(29))]

9: Sample {z(}TM, ~ p(z) a batch of prior samples.

10: ga ô Va ơ ee 1 Fw(ge(zTM))

HINH 3.2: Thuật toán Wasserstein Generative Adversarial Net- works. là thường được thực hiện cho các tác vụ có một tập dữ liệu nhỏ để đào tao một mô hình quy mô day đủ từ dau trong tác giả thử nghiệm, diéu này liên quan đến việc cập nhật mô hình IDS hiện có với các hành vi tan công mới từ một quy mô nhỏ tập dữ liệu chứa các hành vi mới này và không cần xây dựng tập dữ liệu lớn mới và đào tao lại nó Có nhiều phương pháp khác nhau để rút ra quá trình học chuyển đổi trong bối cảnh học sâu, điều đó phụ thuộc vào về lượng đữ liệu tác giả có mẫu: nó có thể đóng băng tất cả các lớp và chỉ đào tạo lớp cuối cùng hoặc đóng băng hầu hết các lớp và đào tạo những lớp cuối cùng hoặc đào tạo tất cả các lớp bằng cách khởi tạo các trọng số trên lớp được đào tạo trước.

Tạo mô hình kháng mẫu đối kháng

Để đối phó với những thách thức trên, bai báo nay dé xuất một phương pháp phát hiện dựa trên một thuộc tính thiết yếu của mẫu đối kháng.

Thuộc tính thiết yếu là các mẫu đối kháng hiện tại thường được tạo cho một mô hình nhất định và ngay cả khi bị ảnh hưởng bởi khả năng chuyển giao, các mẫu đối kháng có khả năng thất bại trên một mô hình tương tự khác. Ý tưởng của tác giả là tim ra những mô hình làm mat hiệu quả các mẫu đối thủ Cách tiếp cận của tác giả sử dụng một tập hợp các mô hình biến dạng để loại bỏ các tác động của khả năng chuyển giao Sau đó, tác giả sử dụng dự đoán không nhất quán của từng mô hình để xác thực phương pháp của tác giả và nhận kết quả phát hiện.

Tạo nhóm mô hình phát hiện

Phương pháp pháthiện

Sau khi tạo nhóm mô hình phát hiện, bước tiếp theo là nhập tuần tự các mẫu thử nghiệm vào các mô hình đã tạo và ghi lại kết quả dự đoán của từng mô hình Sau đó, tác giả sẽ tính toán tỷ lệ đảo ngược dự đoán (PIR) của các mẫu dựa trên tat cả các kết quả du đoán và so sánh nó với PIR của các mẫu lành tính để xác định Nguyên tắc phát hiện bằng PIR được hiển thị trong Hình 3.4 Khi một mẫu lành tính đi vào mô hình ban đầu, dự đoán là lành tính (0), dự đoán ngược lại nếu mô hình trong nhóm mô hình phát hiện phân loại đầu vào là độc hại (1) Và sự thay đổi tương tự xảy ra khi đầu vào là một mẫu đối kháng.

Chúng ta có thể tính toán PIR từ số lượng mô hình đã đảo ngược và thay rang mau đối kháng nhạy cảm hơn với nhóm mô hình đột biến [25].

Do đó, trước tiên chúng ta phải đảm bảo rằng các mô hình được sử dụng để phát hiện trong nhóm mô hình có hiệu suất phát hiện tốt.

Thứ hai, chúng ta cần tính toán PIR của các mẫu lành tính Phương pháp tính PIR và phát hiện mẫu đối kháng được thể hiện ở Hình 3.5.

Algorithm 1: Detection model group generation

Input: Basic models B, Mutation operators O, Original model f- Output: Detection model group F.

1 Let stop =n; # Set the number of models

2 Let b= SVM; # b is the basic model for generating

5 #Taking SVM as an example, the Logistic Regression process is similar

6 Ifb==SVM Then a o=@O.SVM; § kernel = Random(o.kerne!);

9 C=C); # Cp is the C value of the original SVM model

15 # Taking Decision Tree as an example, the remaining three processes are similar

21 D= Training(max_depth, min_samples_leaf. max_leaf nodes)

22 # Leave other parameters of the decision tree as default

23 Compare(Testing(D), Testing(/)); # Non-strict comparison

HINH 3.3: Thuật toán tạo nhóm mô hình phát hiện.

Original Detection Original Detection model model model model

HINH 3.4: Nguyên tắc phát hiện bang PIR.

Input: Input example x, Original ƒ, Detection model group F, Adjustment factor m Output: Prediction p.

Let stop = F.Len(); # Set the number of detection model used Let p = 0; # Used to count prediction inversions

# The process is consistent, in practice need calculate first normal example PIR calculation();

If fi(x) = ơ f (x) Then p=ptl stop = stop -1

P(x) =|{fi| fi € F and fi(x) = ơ ƒ()}| /\F| PIR

HINH 3.5: Phuong pháp tinh PIR và phát hiện mẫu đối kháng.

Quá trình tạo một mô hình là một quá trình đào tạo mô hình và mô hình được đào tạo có một bài kiểm tra hiệu suất cho bộ kiểm tra Tác giả chọn những mô hình có hiệu suất tương tự như mô hình ban đầu để tạo thành nhóm mô hình cuối cùng F Điều này là do các đột biến có hiệu suất kém không phản ánh độ nhạy của mẫu đối kháng với ranh giới quyết định.

Trong phương pháp phát hiện như hình Hình 3.5, tác giả đặt đầu vào là mẫu đầu vào x, mô hình ban đầu f, nhóm mô hình phát hiện F và hệ sO điều chỉnh m Nếu mẫu đầu vào x được gắn nhãn, nó được coi là một mẫu bình thường về tính toán PIR trong giai đoạn đầu tiên Trong giai đoạn này, tác giả sẽ tiếp tục nhập các mẫu lành tính vào từng mô hình, tính PIR trung bình cuối cùng theo công thức và ghi lại là Pb Sau đó nhập mẫu cần kiểm tra, quan sát mô hình ban đầu và mô hình phát hiện xem kết quả dự đoán có bị đảo ngược hay không Cuối cùng, tính toán PIR và so sánh nó với ngưỡng Pb để có kết quả phát hiện.

Thiết kế hệ thống pháthiện

Hệ thống phát hiện được hình thành bằng cách kết hợp thêm mô hình phát hiện PIR-based vào sau mô hình phát hiện IDS ban dau Mô hình IDS ban đầu trong hệ thống được đào tạo bằng bộ dữ liệu có sẵn NF-CSE-CIC- IDS2018 Việc kết hợp thêm mô hình PIR-based sẽ phát hiện được các mẫu đối kháng mà mô hình IDS ban đầu không phát hiện được Nhưng vì mô hình phát hiện PIR-pased chỉ phát hiện các mẫu đối kháng mà mô hình lúc đầu chưa được học vì vậy nó sẽ không phát hiện duoc các mẫu tan công trong bộ huấn luyện điều này dẫn đến việc cần sử dụng mô hình IDS ban đầu có độ chính xác trong thực nghiệm cao và đạt được hiệu suất phát hiện tốt về thời gian phát hiện Đối với hệ thống PIR-pased trước tiên chúng ta cần đào tạo một mô hình ban dau với bộ dữ liệu NE-CSE-CIC-IDS2018 và đảm bảo hiệu suất đạt yêu cầu; sau đó tạo ra một loạt các mô hình để tính toán PIR dựa trên thuật toán tạo nhóm mô hình phát hiện Sau khi tất cả các mô hình được tạo, một mô-đun tính toán PIR sẽ được thiết lập, điều này rất quan trọng để phát hiện các mẫu đầu vào Cuối cùng, kết quả thu được từ mô-đun tính toán PIR sẽ được xuất ra Hệ thống sẽ xác định mẫu có PIR lớn hơn làm mẫu đối kháng theo ngưỡng, nghĩa là độc hai va chuyển nó vào mô-đun phân tích xác minh để thu thập.

HINH 3.6: Thiết kế tổng thé của hệ thống phát hiện

CHUONG 4 KET QUA THUC NGHIEM

Trong chương này, tác giả thực hiện tiền xử lý dir liệu cho các cuộc thử nghiệm Sau đó sẽ khảo sát, thu thập và đánh giá các kết quả thu được như tỷ lệ phát hiện, độ chính xác, để kiểm chứng khả năng của phương pháp và mô hình của tác giả.

Môi trường thựcnghiệm

Máy ảo InSecLab Virtual Lab: ¢ CPU: Intel® Xeon® E5-2660 v4 (8 cores — 2.0 Ghz) ® RAM: 32GB e Hệ điều hành: Windows 10 Pro ¢ Ổ cứng: HDD 100GB

Môi trường phát triển: s Trình soạn thảo: Google Colab, Visual Studio Code. ¢ Ngôn ngữ lập trình: Python3. © Nền tang Deep Learning: Keras Tensorflow. ¢ ỔNền tảng GNN: Pytorch. ¢ Thư viện sử dụng: numpy, pandas, mathplotlib, sklearn

Chương 4 KẾT QUA THUC NGHIEM

4.2 Dataset và Tien xử ly dữ liệu

Trong phan thực nghiệm, tác giả chon một trong bộ dữ liệu mới nhất dùng để huấn luyện các mô hình IDS học máy, có tên là NF-CSE-CIC-IDS2018.

Các tệp pcap ban đầu của tập dữ liệu CSE-CIC-IDS2018 được dùng để tạo tập dữ liệu dựa trên NetFlow có tên là NF-CSE-CIC-IDS2018 Tổng số mẫu là 8.392.401 trong đó 1.019.203 (12,14%) là các mẫu tấn công và

7.373.198 (87,86%) là lành tính Bao gồm: Benign, BruteForce, Bot, DoS,

Ty lệ phan trăm các loại attack va normal trước khi tiền xử ly bộ Dataset NF-CSE-CIC-IDS2018 được thể hiện ở biểu đồ như Hình 4.1.

HÌNH 4.1: Ty lệ (%) số lượng các cuộc tấn công trước khi tiền xử lý trong bộ Dataset NF-CSE-CIC-IDS2018.

4.2.2 Tien xử ly dir liệu

Tỷ lệ phan trăm các loại attack va normal được thể hiện dưới dang biểu dé tròn của bộ Miniature Dataset NF-CSE-CIC-IDS2018 sau khi drop 6.900.000 normal, 520000 Dos, 100000 Probe, 30000 R2L.

Biểu đỏ thể hiện tỷ lệ (%) số lượng các cuộc tấn công trước khi tiền xử lý trong bộ Dataset NF-CSE-CIC-IDS2018 như Hình 4.2.

4.2.2.1 Đối với các mô hình AE, RNN, Machine Learning

Bất kỳ bộ dataset nào khi được truyền vào model để training thì cũng phải trải qua giai đoạn tiền xử lý dir liệu hay còn gọi là data preprocessing, với mục tiêu là làm cho dữ liệu trở nên phù hợp với model khi training từ đó đạt được kết quả như mong muốn.

Pie chart distribution of multi-class labels

HÌNH 4.2: Biểu dé tỷ lệ (%) số lượng các cuộc tấn công sau khi tiền xử lý trong bộ Dataset NF-CSE-CIC-IDS2018.

Chương 4 KET QUA THỤC NGHIEM

Về phương pháp xử ly dữ liệu, tác giả sẽ chia dữ liệu trong bộ dữ liệu thành 2 loại là dữ liệu dạng chữ và dữ liệu dạng số Mục tiêu của tác giả là đưa toàn bộ dữ liệu về dạng số, tuy nhiên như vậy không có nghĩa là dữ liệu dạng số ban đầu sẽ không được xử lý. ¢ Dư liệu chư: Sử dụng phương pháp onehot-encoding, phương pháp này sẽ lấy ra toàn bộ giá trị đặc trưng của mỗi thuộc tính, sau đó thực hiện tổ hợp với tên thuộc tính để sinh ra cột mới chi chứa dữ liệu số. ¢ Dữ liệu số: Dù đã ở dang số nhưng các dữ liệu dạng số này đang có sự phân bố rời rac với nhau (xét riêng ở từng thuộc tính), do vậy tác giả cần đưa các dữ liệu này về đạng các số với độ chênh lệch của nó nằm trong một khoảng xác định không quá lớn, bước này còn được gọi là chuẩn hóa dữ liệu Có 2 kỹ thuật để thực hiện là MinMaxScaler và StandardScaler, trong dé tài này sử dụng MinMaxScaler bởi phương pháp này sẽ không ảnh hưởng đến kích thước (shape) của bộ dữ liệu mà vẫn đảm bảo phạm vi của các giá trị trong mỗi thuộc tính sẽ nằm trong khoảng từ 0 đến 1. © Dữ liệu dạng khác: Với 2 bộ dataset tác giả sử dụng có xuất hiện thuộc tính về IP chứa dir liệu kiểu object, thuộc tính này sẽ được đưa về dạng số integer và xử lý như dạng dữ liệu số.

Lưu ý: Dữ liệu khi xử lý phải được chia làm hai trước khi được xử lý, tránh nhầm lẫn là đưa dữ liệu dạng chữ sang số rồi lại xử lý nó theo dạng sỐ tiếp.

Dữ liệu khi đã được xử lý xong sẽ được được chia thành 2 bộ nhỏ là bộ train và test với tỷ lệ lần lượt là 75% và 25% N goài ra 25% bộ test cũng được dùng để đào tạo các mô hình tạo mẫu đối kháng.

4.2.2.2 Đối với các mô hình CNN Đối với các mô hình sử dụng dữ liệu đầu vào là ảnh như CNN, VGG16, VGG19, Xception, Resnet-50, Inception-V3, InceptionResnet-V2, tác giả đề xuất sử dung một phương pháp chuyển đổi dữ liệu bảng thành dữ liệu ảnh, dữ liệu được chuyển đổi là dữ liệu đã được tiền xử lý tương tự cho các mô hình AE, RNN, Machine Learning Các mẫu normal và các mẫu tấn công trong bộ dữ liệu NE-CSE-CIC-IDS2018 sau tiền xử lý sẽ được chuyển thành dt liệu ảnh như trong Hình 4.3.

Quá trình chuyển đổi dữ liệu bắt đầu với việc chuẩn hóa dữ liệu Do giá trị pixel của hình ảnh nằm trong khoảng từ 0 đến 255, nên dữ liệu mạng cũng phải được chuẩn hóa theo khoảng 0-255 Trong số các kỹ thuật chuẩn hóa, chuẩn hóa cực đại tối thiểu và chuẩn hóa lượng tử là hai phương pháp thường được sử dụng có thể chuyển đổi các giá trị dữ liệu thành cùng một phạm vi Vì quá trình chuẩn hóa có thể không xử lý tốt các ngoại lệ và trên các mẫu tân công trong khối dữ liệu Nếu tất cả các mẫu trong một đoạn/ hình ảnh là các mẫu bình thường, thì hình ảnh này được gắn nhãn “bình

Tất cả các dữ liệu bình thường và tấn công được chia thành các hình ảnh với 27 dòng dữ liệu, mỗi dòng có kích thước 12x9x3 pixel Nếu một đoạn văn bản hoặc hình ảnh không chứa các kiểu tấn công, thì hình ảnh này được gắn nhãn là "bình

Sau các quy trình tiền xử lý dữ liệu ở trên, bộ ảnh cuối cùng được dùng làm đầu vào của các mô hình CNN Mẫu normal và các mẫu tân công trong bộ dữ liệu NF-CSE-CIC-ID$2018 sau tiền xử lý thành di liệu ảnh được thé hiện ở Hình 4.5 Có thể thấy sự khác biệt lớn giữa các mẫu bình thường và các loại mẫu tân công Các mẫu đặc trưng của hình ảnh tấn công có màu khác hon so với hình ảnh của các mẫu normal [26].

Tương tự đối với các dữ liệu đối kháng được tác giả tạo từ WC-GAN,

AE, CNN, LSTM, CNN-LSTM, Stacked-LSTM, MLP, XGBoost, có thể thây từ các hình Hình 4.6, Hình 4.7, Hình 4.8, Hình 4.9, Hình 4.10, Hình 4.11,

Hình 4.12 rằng cũng có sự khác biệt lớn giữa hình ảnh mẫu đặc trưng bình thường và hình ảnh các loại mẫu đặc trưng tân công.

Tuy nhiên các dữ liệu đối kháng được tạo từ các mô hình chuyển giao

VGG16-GAN, VGG19-GAN vì dữ liệu đào tao cho các mô hình VGG16 và

VGG19 là dữ liệu ảnh nên việc tao ra các hình ảnh đổi kháng đã bi mờ hơn các mẫu tấn công ban đầu như Hình 4.14, Hình 4.15.

4.3 Ham loss, các thông số đánh giá hiệu suất và tỷ lệ tan công thành công

Hàm mất mát, hay còn gọi là hàm mat mát, là một phép đo thể hiện sự khác biệt giữa kết quả dự đoán của mô hình và giá trị thực tế Tùy vào từng loại mô hình mà hàm mất mát được xây dựng theo các công thức tính toán khác nhau Mục đích chung của hàm mất mát là để tác giả tối ưu mô hình, giá trị của hàm mất mát càng thấp càng tốt.

HÌNH 4.5: Mau normal và các mẫu tan công trong bộ dữ liệu

NF-CSE-CIC-IDS2018 sau tiền xử lý thành dé liệu ảnh.

HÌNH 4.6: Các mẫu tân công tạo từ WC-GAN xử N xử lý th thành dữ liệu ảnh.

HÌNH 4.9: Các mẫu tấn công tạo từ CNN-LSTM xử lý thành ảnh.

HINH 4.10: Các mẫu tan công tạo từ Stacked-LSTM xử lý thành đữ liệu ảnh. về 0 thì cho thay độ chênh lệch giữa kết quả dự đoán của model và thực tế không chênh lệch nhiều nên model sẽ học tốt hơn.

Cả 4 chỉ số accuracy, precision, recall, f1-score déu biéu dién hiéu suat của mô hình.

HINH 4.12: Các mẫu tan công tao từ MLP xử ly thành dữ liệu ảnh.

Độ chính xác của một mô hình tấn công mạng biểu thị tỷ lệ các trường hợp được mô hình xác định đúng (là tấn công hay bình thường) so với tổng số trường hợp.

(TP: true positive, TN: true negative, FP: false positive, FN: false negative)

HINH 4.14: Các mẫu tan công tao từ VGG16-GAN xử ly thành đữ liệu anh.

Dataset 2 2.0 0c Q Q Q Q Q Q ee eee 63

Trong phan thực nghiệm, tác giả chon một trong bộ dữ liệu mới nhất dùng để huấn luyện các mô hình IDS học máy, có tên là NF-CSE-CIC-IDS2018.

Các tệp pcap ban đầu của tập dữ liệu CSE-CIC-IDS2018 được dùng để tạo tập dữ liệu dựa trên NetFlow có tên là NF-CSE-CIC-IDS2018 Tổng số mẫu là 8.392.401 trong đó 1.019.203 (12,14%) là các mẫu tấn công và

7.373.198 (87,86%) là lành tính Bao gồm: Benign, BruteForce, Bot, DoS,

Ty lệ phan trăm các loại attack va normal trước khi tiền xử ly bộ Dataset NF-CSE-CIC-IDS2018 được thể hiện ở biểu đồ như Hình 4.1.

HÌNH 4.1: Ty lệ (%) số lượng các cuộc tấn công trước khi tiền xử lý trong bộ Dataset NF-CSE-CIC-IDS2018.

Tiền xử lý dữ liệu

Đối với các mô hình AE, RNN,Machine Learn- ING ee 64

Bất kỳ bộ dataset nào khi được truyền vào model để training thì cũng phải trải qua giai đoạn tiền xử lý dir liệu hay còn gọi là data preprocessing, với mục tiêu là làm cho dữ liệu trở nên phù hợp với model khi training từ đó đạt được kết quả như mong muốn.

Pie chart distribution of multi-class labels

HÌNH 4.2: Biểu dé tỷ lệ (%) số lượng các cuộc tấn công sau khi tiền xử lý trong bộ Dataset NF-CSE-CIC-IDS2018.

Để xử lý dữ liệu, tác giả chia dữ liệu thành dạng chữ và số, chuyển toàn bộ dữ liệu về dạng số Dữ liệu dạng chữ được mã hóa onehot-encoding, tạo cột mới chứa dữ liệu số Dữ liệu dạng số đang phân bố rời rạc, cần chuẩn hóa để chênh lệch giữa các giá trị không quá lớn Tác giả sử dụng MinMaxScaler để chuẩn hóa, giữ nguyên kích thước dữ liệu và đảm bảo phạm vi giá trị từ 0 đến 1 Dữ liệu dạng khác như thuộc tính IP được chuyển về dạng số integer để xử lý như dữ liệu số.

Lưu ý: Dữ liệu khi xử lý phải được chia làm hai trước khi được xử lý, tránh nhầm lẫn là đưa dữ liệu dạng chữ sang số rồi lại xử lý nó theo dạng sỐ tiếp.

Dữ liệu khi đã được xử lý xong sẽ được được chia thành 2 bộ nhỏ là bộ train và test với tỷ lệ lần lượt là 75% và 25% N goài ra 25% bộ test cũng được dùng để đào tạo các mô hình tạo mẫu đối kháng.

Đối với các mô hìnhCNN

Đối với các mô hình sử dụng dữ liệu đầu vào là ảnh như CNN, VGG16, VGG19, Xception, Resnet-50, Inception-V3, InceptionResnet-V2, tác giả đề xuất sử dung một phương pháp chuyển đổi dữ liệu bảng thành dữ liệu ảnh, dữ liệu được chuyển đổi là dữ liệu đã được tiền xử lý tương tự cho các mô hình AE, RNN, Machine Learning Các mẫu normal và các mẫu tấn công trong bộ dữ liệu NE-CSE-CIC-IDS2018 sau tiền xử lý sẽ được chuyển thành dt liệu ảnh như trong Hình 4.3.

Quá trình chuyển đổi dữ liệu bắt đầu với việc chuẩn hóa dữ liệu Do giá trị pixel của hình ảnh nằm trong khoảng từ 0 đến 255, nên dữ liệu mạng cũng phải được chuẩn hóa theo khoảng 0-255 Trong số các kỹ thuật chuẩn hóa, chuẩn hóa cực đại tối thiểu và chuẩn hóa lượng tử là hai phương pháp thường được sử dụng có thể chuyển đổi các giá trị dữ liệu thành cùng một phạm vi Vì quá trình chuẩn hóa có thể không xử lý tốt các ngoại lệ và trên các mẫu tân công trong khối dữ liệu Nếu tất cả các mẫu trong một đoạn/ hình ảnh là các mẫu bình thường, thì hình ảnh này được gắn nhãn “bình

Chương 4 KẾT QUA THUC NGHIEM thường” Mặt khác, néu một doan/hinh ảnh chứa các mẫu tan công, thì hình ảnh này được gắn nhãn là kiểu tấn công xuất hiện nhiều nhất trong đoạn đó Ví dụ: nếu một cuộc tan công DoS xảy ra nhiều lần trong đoạn thì hình ảnh tương ứng sẽ được gắn nhãn “tấn công DoS”.Tất cả các dữ liệu normal và tấn công được chia theo từng loại thành ảnh với 27 dòng thành một hình có kích thước 12x9x3 như Hình 4.4