.3 Kịch bản phân chia tập dữ liệu thử nghiệm- 123docz.net

Kich bản Tập huấn luyệnLoại Số lượng LoạiTập kiểm thửSố lượng

1 Bashlite 2786 Mirai 1510 Mã độc IoT Botnet khác 727 Lành tính (ngẫu

nhiên) 3088 Lành tính (ngẫunhiên) 800 2

Bashlite 2786 Mã độc IoT

Botnet khác 727

Mirai 1389

Lành tính (ngẫu

nhiên) 3088 Lành tính (ngẫunhiên) 800 3 Mirai 1510 Bashlite 2786 Mã độc IoT Botnet khác 727 Lành tính (ngẫu

nhiên) 3088 Lành tính (ngẫunhiên) 800

3.4.3. Các chỉ số đánh giá

Trong phần này, luận án sử dụng 4 chỉ số đánh giá hiệu quả mơ hình gồm: Accuracy (ACC), True Positive Rate (TPR), False Positive Rate (FPR) và Area Under the Curve (AUC). Nghiên cứu sinh sử dụng TPR và FPR để đánh giá mơ hình chính xác hơn với bộ dữ liệu cĩ sự mất cân bằng giữa nhĩm mã độc và nhĩm lành tính. Các chỉ số này được xác định và tính tốn bằng các cơng thức tiêu chuẩn sau:

+ ACC = (TP + TN) / (TP + TN + FP + FN); (3.1) + TPR = TP / (TP + FN); (3.2)

+ FPR = FP / (FP + TN); (3.3)

+ AUC = Diện tích nằm dưới đường cong ROC; (3.4) Trong đĩ:

+ TP (True Positive): cho biết rằng các mẫu mã độc được dự đốn chính xác. + TN (True Negative): cho biết các mẫu lành tính được dự đốn chính xác. + FP (False Positive): cho biết rằng các mẫu lành tính được dự đốn là mã độc. + FN (False Negative): cho biết rằng mẫu mã độc được dự đốn là lành tính.

3.4.4. Kết quả thử nghiệm và đánh giá

Kết quả thử nghiệm được mơ tả thơng qua các giá trị của các chỉ số đánh giá được trình bày trong Bảng 3.4, trong đĩ mơ tả giá trị đánh giá đối với bộ phân lớp học máy cho kết quả tốt nhất. Tại các hình 3.7-3.9 mơ tả đường ROC (cùng với giá trị AUC) của các bộ phân lớp Decision Tree, SVM, KNN, Random Forest với đầu vào là vector đặc trưng được trích xuất từ các thuật tốn nhúng đồ thị Graph2vec (a), Feather (b) và LDP (c) tương ứng 3 kịch bản huấn luyện/kiểm thử đã trình bày. Số chiều vector đặc trưng được trích xuất từ đồ thị DSCG với thuật tốn Graph2vec là 128, Feather – 250 và LDP – 160.

Từ kết quả thử nghiệm trên đã cho thấy, các đặc trưng được trích xuất từ đồ thị DSCG đạt được hiệu quả tốt đối với bài tốn phát hiện mã độc IoT Botnet

(ACC≈96.89%, TPR≈94.97%, FPR≈1.4%, AUC≈0.989). Đặc trưng này hoạt động tốt

với các bộ phân loại học máy đơn giản và phở biến như KNN, SVM, Decision Tree, Random Forest. Trong phạm vi bài tốn phát hiện mã độc IoT Botnet với dataset đã được xây dựng, thuật tốn Random Forest cho thấy ưu thế khi sử dụng kết hợp với đặc trưng DSCG được đề xuất. Trong các kịch bản thử nghiệm đã tiến hành, cĩ 6/9 trường hợp sử dụng thuật tốn Random Forest cho kết quả vượt trội hơn các thuật tốn phở biến khác. Ưu thế của đặc trưng được đề xuất là số chiều của vector đặc trưng được trích xuất từ đồ thị cũng ít hơn so với các nghiên cứu đã cơng bố, gĩp phần làm giảm độ phức tạp tính tốn khi áp dụng vào các mơ hình phát hiện, phân lớp mã độc IoT Botnet. So sánh cụ thể đối với các nghiên cứu liên quan được trình bày cụ thể tại Bảng 3.5.

Bảng 3.4 Giá trị các chỉ số đánh giá mơ hình đề xuất Kich bản Tập huấn luyện Tập kiểm thử Thuật tốn nhúng đờ thi ACC TPR FPR AUC Bộ phân lớp cho kết quả tốt nhất 1 Bashlite + Mã độc khác + Lành tính Mirai + Lành tính Graph2vec 0.9649 0.9474 0.0087 0.9895 SVM Feather 0.9627 0.9453 0.0109 0.9923 RF LDP 0.9757 0.9669 0.0109 0.9792 DT 2 Bashlite + Mirai + Lành tính Mã độc khác + Lành tính Graph2vec 0.9809 0.9944 0.0294 0.9971 RF Feather 0.9355 0.863 0.0087 0.9932 RF LDP 0.933 0.8573 0.0087 0.9632 KNN 3 Mã độc khác + Mirai Bashlite + Lành tính Graph2vec 0.9854 0.9896 0.0272 0.9961 RF Feather 0.99 0.9906 0.012 0.9972 RF LDP 0.9919 0.9924 0.0098 0.9981 RF (a) (b) (c)

(a) (b)

(c)

Hình 3.8 Đồ thị ROC đối với kịch bản thứ hai

(a) (b)

(c)

Bảng 3.5 So sánh mơ hình đề xuất và các nghiên cứu liên quan

Tác giả tượng nghiênDataset/Đối cứu Kỹ thuật tiền xử lý dữ liệu Số chiều vector đặc trưng được trích xuất Thuật tốn phân loại áp dụng ACC (%) FPR(%) TPR (%) AUC Alhaidari [70] NSL-KDD, IoTPOT[40], UNSW NB15/IoT Botnet Feature pruning method 31 HMM 94.67 1.88 47.86 - Alhanahnah [71] Kaspersky, IoTPOT [40], tự thu thập thêm/ IoT Malware (chủ yếu là Botnet) N-gram string

features 400 ClusteringK-means 85.20 - - -

Karanja [72] IoTPOT [40]/IoT Botnet Haralick image texture features 20 RF 95.38 - - 0.97 Meidan

[58] [40]/IoT BotnetIoTPOT

Extracting traffic statistics 115 Deep autoencoder - 1.7 - - Shobana

[73] [40]/IoT BotnetIoTPOT N-gram,TFIDF 184 RNN 98.31 - - -

Nguyen [74] IoTPOT [40], Virustotal [96], VirusShare [106]/IoT Botnet Subgraph2Vec 140 RF 97.00 - - 0.96 Mơ hình đề xuất IoTPOT [40], Virustotal [96], VirusShare [106]/IoT Botnet DSCG 128 SVM, Decision Tree, Random Forest, KNN 96,89* 1.4* 94.97* 0.989*

*Giá trị trung bình dựa trên 3 kịch bản thử nghiệm

3.5. Kết luận Chương 3

Trong chương này, nghiên cứu sinh đề xuất đặc trưng đồ thị lời gọi hệ thống cĩ hướng DSCG để cấu trúc hố một cách tuần tự các lời gọi hệ thống thu được. Phương pháp tiền xử lý dữ liệu lời gọi hệ thống được đề xuất cĩ độ phức tạp thấp, dễ áp dụng với những thuật tốn học máy đơn giản.

Ý tưởng và kết quả thực nghiệm của phương pháp đề xuất trong chương này đã được trình bày, cơng bố trên các Tạp chí, Kỷ yếu Hội thảo uy tín trong và ngồi nước. Cụ thể là:

- “Iot Botnet Detection Using System Call Graphs and One-Class CNN Classification”, International Journal of Innovative Technology and Exploring

Engineering (IJITEE), vol. 8, no. 10, pp. 937–942, Aug. 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019.

- “Đề xuất phương pháp phát hiện IoT Botnet hiệu quả dựa trên lời gọi hệ

thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc của Cơng nghệ

CHƯƠNG 4. MƠ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET

4.1. Phát biểu bài tốn

4.1.1. Vấn đề phát hiện sớm mã độc IoT Botnet

Để cĩ thể đưa các kết quả phân tích động ứng dụng vào thực tế, nghiên cứu sinh thấy rằng việc phát hiện sớm đĩng vai trị then chốt để hạn chế lây lan và phát tán của mã độc. Mặc dù đặc trưng DSCG mang lại các kết quả khả quan nhưng việc sử dụng tồn bộ dữ liệu về quá trình hoạt động của các tập tin thực thi chưa cho phép giải quyết vấn đề phát hiện sớm mã độc IoT Botnet. Phát hiện sớm được chia làm hai nhĩm chính gồm: (1) phát hiện sớm dựa trên việc rút ngắn thời gian giám sát và (2) phát hiện sớm dựa trên việc thu thập mức tối thiểu các dữ liệu cần thiết cho phép phát hiện mã độc. Cách tiếp cận (1) bộc lộ nhiều hạn chế khi mà mã độc IoT Botnet cĩ thể ở trạng thái chờ lệnh từ C&C server trong một khoảng thời gian dài. Cách tiếp cận (2) cĩ thể khơng rõ nét trong việc phát hiện sớm về mặt thời gian cụ thể nhưng đảm bảo rằng lượng dữ liệu thu thập được cho phép phát hiện các tập tin mã độc với tỉ lệ âm tính giả thấp. Với cách tiếp cận này, nghiên cứu sinh đề xuất một mơ hình học máy cộng tác phát hiện sớm mã độc IoT Botnet. Trong mơ hình này, các dữ liệu đặc trưng động thu thập từ V- Sandbox bao gồm dữ liệu luồng mạng, lời gọi hệ thống, thơng tin sử dụng tài nguyên thiết bị,… sẽ được kết hợp với nhau trong việc xây dựng mơ hình phát hiện mã độc hợp nhất với số lượng dữ liệu thu thập là tối thiểu.

Trong phạm vi của luận án này, nghiên cứu sinh đưa ra khái niệm phát hiện sớm được sử dụng trong luận án này như sau:

Khái niệm 4.1. Phát hiện sớm là khả năng xác định được tệp thực thi là lành tính hoặc là mã độc dựa trên việc thu thập mức tối thiểu các dữ liệu cần thiết thu thập bởi q trình phân tích động.

Với hướng nghiên cứu phát hiện sớm mã độc, nhiều nhà nghiên cứu đã cơng bố các giải pháp của mình. Các mơ hình phát hiện mã độc tự động thường sử dụng các đặc trưng dựa trên mã nguồn (phân tích tĩnh) hoặc hành vi tương tác với mục tiêu (phân tích động) để phân biệt các mẫu mã độc và lành tính. Mỗi cách tiếp cận này đều cĩ những lợi ích và hạn chế của nĩ. Dựa trên khả năng thu thập nhiều loại dữ liệu hành vi tương

tác của mã độc IoT Botnet bằng V-Sandbox [105], nghiên cứu sinh lựa chọn sử dụng phương pháp phân tích động kết hợp nhiều loại nguồn dữ liệu đặc trưng hành vi để cĩ thể phát hiện sớm mã độc IoT Botnet.

4.1.2. Mơ hình học máy cộng tác trong phát hiện sớm mã độc

Với các nghiên cứu ở trên đã trình bày các phương pháp tiếp cận chủ yếu dựa vào một loại đặc trưng hoặc dữ liệu đã giám sát (như luồng mạng, lời gọi hệ thống,…) để phát hiện và phân loại mã độc. Tuy nhiên, phát hiện mã độc là một vấn đề nghiên cứu cĩ đặc điểm là đa phương thức vì nĩ bao gồm nhiều phương thức xử lý dữ liệu thu thập được từ mã độc. Học cộng tác (Collaborative Learning) là lĩnh vực nghiên cứu cách thức cĩ thể kết hợp các tín hiệu đa phương thức đĩ cùng nhau. Mặc dù việc kết hợp các phương thức hoặc loại thơng tin khác nhau để cải thiện hiệu suất cĩ vẻ là một nhiệm vụ hiệu quả về mặt trực giác, nhưng khĩ để giảm các mức độ nhiễu và xung đột khác nhau giữa các phương thức xử lý dữ liệu. Các phương pháp tiếp cận học cộng tác cĩ thể được phân loại thành ba nhĩm dựa trên cách kết hợp các phương thức xử lý dữ liệu, cụ thể:

- Mức đầu vào dữ liệu học (input-level) hoặc hợp nhất sớm (early fusion): Các phương pháp hợp nhất mức đầu vào dữ liệu học (hợp nhất sớm) tạo ra một đại diện chung của các đặc trưng đơn phương thức được tách riêng từ nhiều phương thức. Cách đơn giản nhất để kết hợp các vectơ đặc trưng đơn phương thức này là nối chúng để cĩ được một biểu diễn hợp nhất (như Hình 4.1). Tiếp theo, một mơ hình học máy duy nhất được huấn luyện để tìm hiểu mối tương quan và tương tác giữa các đặc trưng của mỗi phương thức. Kết quả cuối cùng của mơ hình cĩ thể được viết là p = h ([v1, v2, …, vm]) với h biểu thị cho mơ hình học máy duy nhất, [v1, v2, …, vm] biểu diễn sự ghép nối của các vectơ đặc trưng và m là số vectơ đặc trưng đơn phương thức riêng biệt.

- Mức quyết định (decision-level) hoặc hợp nhất muộn (late fusion): Trái ngược với phương pháp hợp nhất sớm, các phương pháp hợp nhất muộn huấn luyện một mơ hình học máy riêng biệt cho mỗi tập đặc trưng đầu vào và kết hợp các giá trị quyết định (dự đốn) đã học được với cơ chế hợp nhất như lấy trung bình (average), bỏ phiếu (vote),… (như trong Hình 4.2). Ưu điểm chính của hợp nhất muộn là cho phép sử dụng các mơ hình học máy khác nhau trên các tập đặc trưng dữ liệu khác nhau, do đĩ linh hoạt hơn trong xử lý dữ liệu đặc trưng đầu vào. Giả sử rằng mơ hình hi là giá trị quyết

định của mơ hình huấn luyện trên tập đặc trưng vi, thì kết quả cuối cùng của mơ hình hợp nhất muộn là p = F (h1(v1),h2(v2),…,hm(vm)) với F biểu thị cho loại phương thức hợp nhất kết quả quyết định đơn lẻ của h.

Hình 4.2 Phương pháp hợp nhất muộn

- Hợp nhất trung gian (Intermediate fusion): Các phương pháp hợp nhất trung gian xây dựng một biểu diễn dùng chung bằng cách hợp nhất các đặc trưng trung gian thu được bằng các mơ hình học máy riêng biệt. Sau đĩ, các đặc trưng trung gian này được nối với nhau và sau đĩ một mơ hình học máy được đào tạo để nắm bắt các tương tác giữa các đặc trưng này (như trong Hình 4.3).

Mỗi phương pháp học máy cộng tác đều cĩ những ưu và nhược điểm riêng. Tuy nhiên, với mục đích phát hiện sớm mã độc IoT Botnet, mơ hình hợp nhất muộn (late fusion) phù hợp cho việc kết hợp các đặc trưng đầu vào khác nhau của mã độc và tối ưu hĩa thời gian phát hiện. Thơng qua nghiên cứu lý thuyết và thực nghiệm, nghiên cứu sinh đã chứng minh được nhận định trên.

4.1.3. Khảo sát và đánh giá các nghiên cứu liên quan

4.1.3.1. Mơ hình học máy cộng tác trong phát hiện mã độc

Tác giả Ahmadi [114] đã đề xuất một mơ hình sử dụng các đặc trưng khác nhau của mã độc để phân loại các mẫu mã độc theo họ tương ứng của chúng. Đối với mỗi mẫu mã độc, chúng trích xuất một tập hợp các đặc trưng thống kê và nội dung phản ánh cấu trúc của tệp PE. Sau đĩ, các đặc trưng này được kết hợp bằng cách xếp chồng các danh mục đối tượng vào một vectơ đối tượng duy nhất bằng cách sử dụng một biến thể của kỹ thuật lựa chọn từng bước một (the forward step-wise selection technique). Thay vì tăng dần tập hợp đặc trưng bằng cách thêm các đặc trưng vào mơ hình, từng tập đặc trưng một, Ahmadi coi tất cả tập hợp con các đặc trưng thuộc về cùng một danh mục. Thuật tốn phân loại mà Ahmadi lựa chọn là sự triển khai song song của bộ phân loại như Gradient Boosting Tree, XGBoost. Ngồi ra, tác giả đã sử dụng giải thuật Baggy để tăng cường độ ởn định và độ chính xác của bộ phân loại.

Kolosnjaji [115] đã đề xuất một kiến trúc mạng nơron bao gồm các mạng con tích chập (convolutional) và chuyển tiếp (feed-forward). Mạng con tích chập học các đặc trưng từ chuỗi các mã nhị phân độc hại đã được dịch ngược. Ngược lại, mạng chuyển tiếp nhận làm đầu vào là một tập hợp các đặc trưng được trích xuất từ siêu dữ liệu (metadata) cĩ trong PE Header và danh sách các chức năng đã nhập và các tệp DLL của chúng. Sau đĩ, bộ phân loại dựa trên mạng nơ-ron cuối cùng kết hợp các kiến trúc mạng nơ-ron tích chập và chuyển tiếp cùng với các đặc trưng tương ứng của chúng thành một mạng duy nhất. Mạng này tạo ra kết quả phân loại cuối cùng sau khi tởng hợp các đặc trưng được học bởi cả hai mạng con.

Bayer [116] đã xây dựng thuộc tính hành vi của mã độc dựa trên các lời gọi hệ thống, sự phụ thuộc của chúng và các hoạt động mạng. Biểu diễn tởng quát này đĩng vai trị là đầu vào cho thuật tốn phân cụm nhằm nhĩm các mẫu mã độc cĩ hành vi tương tự. Phân nhĩm mã độc là một quá trình gồm nhiều bước. Bước đầu tiên là phân tích tự động các tệp thi

hành được thực hiện bởi phiên bản mở rộng của ANUBIS. Bước thứ hai là trích xuất thuộc tính hành vi. Cuối cùng, trong bước thứ ba, các mẫu biểu hiện hành vi tương tự được nhĩm lại trong cùng một cụm bằng cách sử dụng phương pháp gần đúng (approximate), xác suất dựa trên giá trị băm địa phương nhạy cảm (localitysensitive hashing) [117].

Mohaisen và Alrawi [118] đã đề xuất một cách tiếp cận dựa trên hành vi để xác định mã độc Zeus. Trojan nhằm vào ngân hàng Zeus là một dạng mã độc nhắm vào hệ điều hành Windows và thường được sử dụng để lấy cắp tiền và thơng tin đăng nhập tài khoản ngân hàng từ nạn nhân bị lây nhiễm. Với mục đích phân loại, một tập hợp 65 đặc trưng từ các dữ liệu khác nhau được trích xuất bao gồm các tệp được tạo, sửa đởi hoặc xĩa, khĩa registry được tạo, sửa đởi hoặc xĩa, địa chỉ IP đích, cởng, kết nối TCP và UDP, yêu cầu, bản ghi DNS, v.v. Sau đĩ, vectơ đặc trưng kết quả được sử dụng để đánh giá hiệu suất của các thuật tốn học máy khác nhau như SVM, LR, DT và KNN.

Dhammi và Singh [119] đã đề xuất một mơ hình phát hiện mã độc dựa trên phân tích động bằng cách sử dụng Sandbox Cuckoo. Cách tiếp cận này trích xuất các đặc trưng khác nhau từ việc thực thi mã độc như chi tiết hành vi xử lý tệp tin (tạo, mở, xĩa, thay đởi), chữ ký mã độc, máy chủ giao tiếp liên quan, tệp bị ảnh hưởng, khĩa registry đăng ký, chi tiết phiên làm việc, chuỗi ký tự. Tất cả các đặc trưng thu được từ Sandbox Cuckoo được ánh xạ thành tệp Định dạng quan hệ thuộc tính (ARFF) và sau đĩ, tệp ARRF kết quả được đưa vào WEKA để phân loại.

.3 Kịch bản phân chia tập dữ liệu thử nghiệm

Khái niệm mã độc IoT Botnet

Thu thập dữ liệu