.5 Các mơ hình học máy sau khi tối ưu trên Dataset

Một phần của tài liệu Nghiên cứu xây dựng hệ thống v sandbox trong phân tích và phát hiện mã độc iot botnet (Trang 121)

Đưa các mơ hình sau khi huấn luyện xong vào chạy thực tế thì để đảm bảo khả năng đồng bộ dữ liệu giữa các nguồn dữ liệu đầu vào là lời gọi hệ thống, luồng mạng và hành vi sử dụng tài nguyên hệ thống; nghiên cứu sinh lựa chọn thời gian thu thập dữ liệu

Model ACC ROC

AUC FPR

Malware Benign

Precision Recall F1 Precision Recall F1

Network (k-NN) 0.8978 0.8901 0.1270 0.9500 0.9071 0.9280 0.7795 0.8730 0.8236 Performance (Random Forest) 0.9904 0.9846 0.0282 0.9895 0.9973 0.9934 0.9928 0.9718 0.9822 System-Call (k-NN) 0.9822 0.9715 0.0370 0.9860 0.9801 0.9830 0.9479 0.9630 0.9554 Mơ hình cộng tác 0.9937 0.9896 0.0194 0.9927 0.9987 0.9957 0.9964 0.9806 0.9884 Thuật tốn

Độ chính xác phân loại dữ liệu của mơ hình (ACC - %)

Dữ liệu luờng mạng

Dữ liệu sử dụng tài nguyên thiết bị

Dữ liệu lời gọi hệ thống SVM 89.44 97.83 98.26 KNN 89.78 98.70 97.54 Decision Tree 89.97 98.22 95.66 Random Forest 90.07 99.04 98.02

theo thời gian thực là 03 giây (đảm bảo để cĩ thể thu được 300 lời gọi hệ thống, 20 hành vi yêu cầu tài nguyên thiết bị và 50 gĩi tin luồng mạng) cho quá trình thực thi tệp đầu vào và đưa ra kết quả dự đốn phân loại tệp tin. Kết quả chạy thực tế được minh họa như trong các Hình 3.14-3.16.

Hình 4.13 Kết quả phát hiện mã độc 1 pha phân tích

Hình 4.15 Kết quả phân tích tệp lành tính

Bảng 4.6 Kết quả thử nghiệm với các mẫu nằm ngồi Dataset

ID Mã HASH của tệp tin đầu vào

Nhãn dự đốn của mơ hình học máy

(tỉ lệ dự đốn là mã độc) VirustotalNhãn do

cung cấp

Network Performance Syscall Đề xuất

1 0a982a3fb71dd70c248c107fcf33574f Malware (1) Malware (1) Malware (1) Malware (1) Malware (Bashlite) 2 4a832bd4fbb625cd095e9f56d695b047 Malware (1) Malware (1) Malware (1) Malware (1) Malware (Mirai) 3 8b269f0eab1e09040c62ce78dff05c01 Benign (0.21) Benign (0) Benign (0) Benign (0.07) Benign 4 9505af2cafb5b2bb8d10949543c5c416 Malware (1) Benign (0.23) Malware (1) Malware (0.74) Malware (Bashlite) 5 1c7c1763888e0a0b67732db1e8e176ba Malware (1) Malware (1) Malware (1) Malware (1) Malware (Bashlite) 6 f70640f966d77234405df7d715f6e494 Malware (1) Malware (1) Malware (1) Malware (1) Malware (Bashlite) 7 79b62cfd1975f09e24ce131181c1008a Malware (0.83) Malware (1) Malware (1) Malware (0.94) Malware (Mirai) 8 2bb57df01bd06453775472df2098eff1 Malware (1) Malware (1) Malware (1) Malware (1) Malware (Others) 9 a7192c394957ba17878e3c1f57aca67b Malware (1) Malware (0.63) Malware (1) Malware (0.88) Malware (Mirai) 10 571d93ccba8ee531627311fdb0b54c95 Malware (0.83) Benign (0) Benign (0) Benign (0.28) Benign 11 147af70b815093d9247e22f688f25104 Benign (0.21) Benign (0.33) Benign (0) Benign (0.16) Benign 12 89772d4f8d63117a5af7abd11ef66c5c Malware (1) Malware (1) Malware (1) Malware (1) Malware (Bashlite) 13 cf04a95a254a9aada0440281f82d6e9c Benign (0.21) Benign (0) Benign (0) Benign (0.07) Benign

4.3.4. Đánh giá kết quả thử nghiệm

Từ kết quả đánh giá trên Dataset cho thấy mơ hình học máy cộng tác đề xuất cho kết quả cĩ độ chính xác cao với ACC = 99.37%, AUC = 0.9896. Thời gian để mơ hình đưa ra dự đốn là xấp xỉ 6 giây, nhanh hơn so với các nghiên cứu đã cơng bố về phát hiện sớm mã độc trên các thiết bị IoT. So sánh với các nghiên cứu hiện cĩ được thể hiện trong Bảng 4.7. Kết quả so sánh này cho thấy hiệu quả của việc sử dụng mơ hình học máy cộng tác cho 3 loại dữ liệu đặc trưng (lời gọi hệ thống, luồng mạng, sử dụng tài nguyên thiết bị) trong phát hiện mã độc IoT Botnet. Sử dụng phương pháp Wrapper để trích chọn đặc trưng, lựa chọn các thuật tốn học máy đơn lẻ phù hợp cho từng loại tập đặc trưng và cách kết hợp các thuật tốn học máy đơn lẻ này với nhau trong một mơ hình cộng tác đã gĩp phần làm tăng hiệu quả của mơ hình đề xuất. Mơ hình được đề xuất cĩ độ chính xác (ACC) và giá trị AUC vượt trội hơn so với các mơ hình hiện cĩ. Ngồi ra, mơ hình được đề xuất chỉ sử dụng một phần nhỏ dữ liệu hành vi thực thi của mã độc đã cĩ thể tạo ra phát hiện chính xác mà khơng cần đợi mã độc này thực hiện đầy đủ hành vi. Đây là đĩng gĩp nởi bật của mơ hình này. Mơ hình đã chạy thành cơng và đưa ra dự đốn chính xác với các mẫu mới khơng cĩ trong Dataset. Tuy nhiên, việc khởi động máy ảo và khởi chạy V-Sandbox để thu thập dữ liệu của một mẫu (bao gồm một vịng lặp để thu thập thêm dữ liệu sau mỗi lần chạy) dẫn đến việc tăng tởng thời gian thu thập xử lý một mẫu lên khoảng 3 phút. Đây là một hạn chế của khung phát hiện Botnet IoT của nghiên cứu sinh. Vấn đề này sẽ được nghiên cứu sinh tiếp tục nghiên cứu và hồn thiện để rút ngắn tởng thời gian chạy.

Bảng 4.7 So sánh với các nghiên cứu liên quan

Tác giả Tập dữ liệu thử nghiệm (mã độc/ lành tính) Dữ liệu đặc trưng sử dụng

Thời gian thu thập dữ liệu hành vi

động/mẫu

ACC (%) /AUC

Tobiyama

[128] 81/69 Thơng tin tiến trìnhhệ thống 5 phút -/0.96 Firdausi

[129] 220/250 Lời gọi hệ thống

Ngầm định chờ thực

thi đầy đủ 96.8/-

Ahmed [130] 416/100 Lời gọi hàm API Ngầm định chờ thực

thi đầy đủ 96.6/- Damodaran [126] 745/40 Lời gọi hệ thống, Opcode 5–10 phút -/0.98 Pascanu [134] 25000/ 25000 Lời gọi hệ thống Ít nhất 15 bước – thời gian chính xác khơng được báo cáo

4.4. Kết luận Chương 4

Trong chương này, nghiên cứu sinh đã đề xuất mơ hình học máy cộng tác mới (CMED) để phát hiện sớm hiệu quả IoT Botnet dựa trên việc thu thập mức tối thiểu các dữ liệu động cần thiết. Khung thử nghiệm phát hiện IoT Botnet của nghiên cứu sinh đã được xây dựng dựa trên mơ hình học máy cộng tác này và mơi trường ảo hĩa V-Sandbox. Hiệu quả của mơ hình đề xuất đã được chứng minh thơng qua các kết quả thử nghiệm trên bộ dữ liệu với 8911 mẫu. Ý tưởng và kết quả thực nghiệm của phương pháp đề xuất trong chương này đã được trình bày, cơng bố trên Tạp chí khoa học quốc tế. Cụ thể là:

- “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct. 2021 (SCIE index, Q1), ISSN: 0045-7906.

Tác giả Tập dữ liệu thử nghiệm (mã độc/ lành tính) Dữ liệu đặc trưng sử dụng

Thời gian thu thập dữ liệu hành vi

động/mẫu

ACC (%) /AUC

Hansen [135] 5000/837 Lời gọi hệ thống 200 giây 98.13/0.97 Mơ hình đề

xuất 5023/3888

Lời gọi hệ thống, luồng mạng, yêu cầu tài nguyên thiết bị

Khơng yêu cầu thực thi đầy đủ, tối đa 180 giây

KẾT LUẬN

Sự phát triển khơng ngừng của thiết bị IoT cả về số lượng và chủng loại đã làm thay đởi nhiều khía cạnh của xã hội con người. Thiết bị IoT ngày càng xâm nhập sâu vào sinh hoạt hàng ngày của chúng ta, tác động thay đởi cách thức con người giao tiếp với thiết bị, máy mĩc. Các thiết bị này đã đơn giản hĩa, cung cấp sự tiện dụng, phản hồi nhanh chĩng trong giao tiếp giữa người dùng và máy mĩc. Bên cạnh những ưu điểm, thiết bị IoT cũng tồn tại những vấn đề về bảo mật, an ninh thơng tin đáng lo ngại. Đặc biệt là khả năng bị lây lan mã độc IoT Botnet dễ dàng. Do đĩ, trong luận án này, nghiên cứu sinh tập trung tìm hiểu các đặc điểm khác biệt của mã độc IoT Botnet với các loại mã độc truyền thống, từ đĩ làm cơ sở trong nghiên cứu, xây dựng mơ hình học máy nhằm nâng cao độ chính xác và giảm độ phức tạp trong phát hiện mã độc IoT Botnet trên các thiết bị IoT hạn chế tài nguyên theo phương pháp phân tích động.

Theo đĩ, nội dung luận án đã tập trung nghiên cứu các phương pháp phát hiện mã độc IoT Botnet, đánh giá ưu và nhược điểm các phương pháp đã cĩ. Từ đĩ, luận án đưa ra giải pháp xây dựng mơ hình học máy cĩ độ chính xác cao và độ phức tạp thấp trong phát hiện mã độc IoT Botnet. Cụ thể, luận án đã đạt được các kết quả nghiên cứu chính như sau:

Đĩng gĩp 1: Luận án xây dựng được một mơi trường V-Sandbox đảm bảo các

điều kiện để cĩ thể thu thập đầy đủ dữ liệu hành vi của mã độc IoT Botnet. Mơi trường sandbox được xây dựng hoạt động hồn tồn tự động, mã nguồn mở và cài đặt dễ dàng, cĩ tính thực tiễn.

Đĩng gĩp 2: Luận án đề xuất được một phương pháp mới, gọi là đồ thị lời gọi hệ

thống cĩ hướng DSCG (Directed System Call Graph) cĩ thể trích xuất được đặc trưng hiệu quả cho phát hiện mã độc IoT Botnet. Phương pháp đề xuất cĩ độ phức tạp thấp nhưng vẫn đảm bảo độ chính xác cao trong phát hiện IoT Botnet, đặc biệt với những dịng mã độc IoT Botnet mới xuất hiện.

Đĩng gĩp 3: Luận án đề xuất được một mơ hình phát hiện mã độc IoT Botnet

mới, cĩ khả năng kết hợp nhiều nguồn dữ liệu đặc trưng khác nhau để cĩ thể phát hiện sớm mã độc IoT Botnet. Mơ hình đề xuất sử dụng mức tối thiểu các dữ liệu động cần thiết mà vẫn cĩ thể đưa ra dự báo cĩ độ chính xác cao, gĩp phần giảm thiểu thời gian phát hiện mã độc IoT Botnet.

Phương pháp đề xuất của luận án cĩ tính thực tiễn khi cĩ thể triển khai mơ hình ứng dụng như hình (i), trong đĩ các tác tử được tích hợp vào thiết bị IoT hạn chế tài nguyên để thu thập và gửi thơng tin hành vi hoạt động của thiết bị về phân hệ tiền xử lý trung tâm làm đầu vào cho phân hệ phân tích, phát hiện, cảnh báo mã độc IoT Botnet. Tại đây, phương pháp trích xuất đặc trưng đồ thị DSCG và mơ hình học máy cộng tác phát hiện sớm mã độc IoT Botnet của nghiên cứu sinh đề xuất được áp dụng để phân loại tệp lành tính và mã độc. Đây là một trong những nội dung trong khuơn khở đề tài nghiên cứu ứng dụng và phát triển cơng nghệ cấp quốc gia “Nghiên cứu xây dựng hệ

thống tự động phát hiện, cảnh báo và ngăn chặn tấn cơng mạng nhằm vào các thiết bị IoT cỡ nhỏ sử dụng mạng lưới tác tử thơng minh” (cĩ mã số KC-4.0-05/19-25) mà

nghiên cứu sinh là thành viên chính tham gia.

Hình (i) Mơ hình ứng dụng thực tế của phương pháp phát hiện IoT Botnet sử dụng tác tử thơng minh

Tuy nhiên, theo xu hướng phát triển chung của mã độc nĩi chung, mã độc trên thiết bị IoT sẽ ngày càng phát triển nhanh cả về số lượng và chủng loại. Vì vậy, vấn đề phát hiện mã độc trên các thiết bị này sẽ được các nhà nghiên cứu trong và ngồi nước tiếp tục quan tâm trong thời gian sắp tới. Mặc dù đã đạt được các kết quả nghiên cứu quan trọng về lý luận khoa học và thực tiễn trong phát hiện mã độc IoT Botnet nhưng luận án vẫn cịn một số vấn đề cần nghiên cứu, cải tiến trong tương lai gồm:

1. Phương pháp đề xuất của luận án hiện đang thử nghiệm với bộ dữ liệu chủ yếu chứa mã độc IoT Botnet, chưa bao gồm các loại mã độc khác. Trong thời gian gần đây, một số biến thể mới của các loại mã độc như Ransomware, Trojan, Spyware,… đang được phát triển để cĩ thể lây lan trên thiết bị IoT hạn chế tài nguyên. Đây cũng là một nguy cơ đe dọa an ninh, an tồn thơng tin tiềm tàng cần phải nghiên cứu, phát hiện. Do đĩ, cần phải thử nghiệm và cải tiến phương pháp đề xuất trong luận án với những loại mã độc mới này trong thời gian tới.

2. Tởng thời gian khởi tạo, thực thi, giám sát và tạo báo cáo hành vi của các mẫu đầu vào mơi trường V-Sandbox cịn dài, dẫn tới hạn chế về mặt thời gian trong giải pháp phát hiện sớm mã độc IoT Botnet. Ngoải ra, tỉ lệ chạy thành cơng các mẫu trong tập dữ liệu đối với V-Sandbox đang ở mức 80.5%. Cần phải nghiên cứu, cải tiến để tăng tỉ lệ thực thi thành cơng các mẫu cịn lại trong tập dữ liệu đã thu thập. Trong tương lai, nghiên cứu sinh sẽ tiếp tục hồn thiện để tối ưu V-Sandbox để khắc phục những nhược điểm này.

3. Việc sử dụng phân tích động như trong phương pháp đề xuất đã đạt hiệu quả cao trong thực nghiệm phát hiện mã độc IoT Botnet về mặt lý thuyết khoa học. Tuy nhiên, trong thực tiễn thì sử dụng các mẫu chữ ký (signature-based) trong phát hiện mã độc đơn giản và tiết kiệm tài nguyên hệ thống triển khai thực tế. Vì vậy, nghiên cứu giải pháp tự động chuyển đởi linh hoạt kết quả phát hiện của mơ hình đề xuất thành các mẫu chữ ký cho IDS cũng là một nội dung nghiên cứu mang tính ứng dụng trong tương lai mà nghiên cứu sinh hướng tới.

DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ

Tất cả các nội dung, kết quả nghiên cứu trình bày trong luận án này đều đã được cơng bố trên các tạp chí, hội thảo uy tín ngành cơng nghệ thơng tin trong nước và quốc tế. Cụ thể như sau:

Bài báo đăng trên Tạp chí khoa học

1) “Xây dựng hệ thống phát hiện mã độc trong thiết bị định tuyến dựa trên mơ

phỏng”, Tạp chí “Nghiên cứu Khoa học và Cơng nghệ trong lĩnh vực An tồn thơng tin”

(Journal of Science and Technology on Information security) – Ban cơ yếu chính phủ (1.CS (05) 2017), 2017.

2) “V-Sandbox for Dynamic Analysis IoT Botnet,” IEEE Access, vol. 8, pp.

145768–145786, 2020, (SCIE index, Q1), ISSN: 2169-3536, DOI: 10.1109/ACCESS.2020.3014891

3) “Iot Botnet Detection Using System Call Graphs and One-Class CNN

Classification”, International Journal of Innovative Technology and Exploring

Engineering (IJITEE), vol. 8, no. 10, pp. 937–942, Aug. 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019.

4) “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct. 2021 (SCIE index, Q1), ISSN: 0045-7906.

Bài báo đăng trên Kỷ yếu Hội thảo khoa học chuyên ngành

1) “Xây dựng mơ hình phát hiện mã độc trên thiết bị định tuyến bằng tác tử”, Kỷ yếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc của Cơng nghệ thơng tin và truyền thơng, 2017.

2) “Xây dựng mơ hình thu thập, phát hiện tấn cơng mạng sử dụng thiết bị IoT”, Kỷ yếu hội thảo quốc gia lần thứ 2: Một số vấn đề chọn lọc về an tồn an ninh thơng tin (SoIS), 2017.

3)“Xây dựng hệ thống phát hiện xâm nhập mạng các thiết bị IoT dân sự trong

nhà thơng minh”, Kỷ yếu hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc của Cơng

4) “Kết hợp CNN và LSTM trong nâng cao hiệu năng phát hiện tấn cơng mạng

của HIDS với bộ dữ liệu ADFA”, Hội thảo quốc gia lần thứ 3: Một số vấn đề chọn lọc

về an tồn an ninh thơng tin, 2018. In tại Tạp chí Thơng tin và Truyền thơng (số tháng 12/2018, ISSN 1859-3550)

5) “Đề xuất phương pháp phát hiện IoT Botnet hiệu quả dựa trên lời gọi hệ

thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc của Cơng nghệ

TÀI LIỆU THAM KHẢO

[1] D. Evans, ‘The internet of things: How the next evolution of the internet is changing everything’, CISCO White Pap., vol. 1, no. 2011, pp. 1–11, 2011. [2] K. Angrishi, ‘Turning internet of things (iot) into internet of vulnerabilities

(iov): Iot botnets’, ArXiv Prepr. ArXiv170203681, 2017.

[3] I. Andrea, C. Chrysostomou, and G. Hadjichristofi, ‘Internet of Things: Security vulnerabilities and challenges’, 2015, pp. 180–187.

[4] Kaspersky Lab report, ‘Honeypots and the Internet of Things’, Securelist -

Kaspersky Lab’s cyberthreat research and reports, 2017.

https://securelist.com/honeypots-and-the-internet-of-things/78751/ (accessed May 11, 2018).

[5] K. Moskvitch, ‘Securing IoT: In your smart home and your connected enterprise’, Eng. Technol., vol. 12, no. 3, pp. 40–42, 2017.

[6] V. Woods and R. Van der Meulen, ‘Gartner Says Worldwide loT Security Spending to Reach $348 Million in 2016’, in Gartner, Stamford, 2016. [7] BKAV company, ‘PETHOLE.’ [Online]. Available: http://pethole.net/

[8] C. Kolias, G. Kambourakis, A. Stavrou, and J. Voas, ‘DDoS in the IoT: Mirai and Other Botnets’, Computer, vol. 50, no. 7, pp. 80–84, 2017, doi:

10.1109/MC.2017.201.

[9] C. Lévy-Bencheton, E. Darra, G. Tétu, G. Dufay, and M. Alattar, ‘Security and resilience of smart home environments good practices and recommendations’,

Eur. Union Agency Netw. Inf. Secur. ENISA Heraklion Greece, 2015.

[10] Kaspersky Lab report, ‘IoT: a malware story’, Securelist - Kaspersky Lab’s

cyberthreat research and reports. https://securelist.com/iot-a-malware-

story/94451/ (accessed Dec. 19, 2019).

[11] K. Ashton, ‘That “internet of things” thing’, RFID J., vol. 22, no. 7, pp. 97– 114, 2009.

[12] S. Madakam, V. Lake, V. Lake, and V. Lake, ‘Internet of Things (IoT): A literature review’, J. Comput. Commun., vol. 3, no. 05, p. 164, 2015. [13] ‘Overview of Internet of Things’. ITU-T Y.2060, Jun. 2012.

[14] ‘State of the IoT 2018: Number of IoT devices now at 7B – Market

accelerating’. https://iot-analytics.com/state-of-the-iot-update-q1-q2-2018- number-of-iot-devices-now-7b/ (accessed Jan. 06, 2021).

[15] K. Chen et al., ‘Internet-of-Things security and vulnerabilities: Taxonomy,

Một phần của tài liệu Nghiên cứu xây dựng hệ thống v sandbox trong phân tích và phát hiện mã độc iot botnet (Trang 121)

Tải bản đầy đủ (DOCX)

(139 trang)
w