Phân lớp cây quyết định

- Sử dụng cây quyết định như một bộ phân lớp đa lớp:

Kết quả thực nghiệm sử dụng phƣơng pháp đánh giá chéo 10 lần và phân thành 4 lớp cĩ kết quả về độ chính xác nhƣ sau:

Bảng 3.1. Bảng kết quả độ chính xác cây quyết định bộ phân lớp đa lớp

Benign Virus Worm Trojan

Mức độ đúng(%) 89,6 78,2 68,7 81,2

- Sử dụng cây quyết định như một bộ phân lớp nhị phân:

Mặc dù cây quyết định cĩ thể thực hiện nhƣ bộ phân lớp đa lớp. Tuy nhiên để tìm ra mơ hình phân lớp tốt hơn, cũng nhƣ so sánh với thuật tốn phân lớp nhị phân SVM, phần này sẽ xây dựng ra các bộ phân lớp nhị phân dựa trên thuật tốn C4.5.Kết quả thực nghiệm sử dụng phƣơng pháp đánh giá chéo 10 lần và phân thành 3 lớp cĩ kết quả về độ chính xác nhƣ sau:

Bảng 3.2 Bảng kết quả độ chính xác cây quyết định bộ phân lớp nhị phân

Thời gian học Mức độ đúng(%) Benign 0,12 90,3 Virus 0,16 96,4 Worm 0,14 97,8 Trojan 0,13 94,9 3.2.2. Phân lớp SVM

Thuật tốn SVM là thuật tốn phân lớp nhị phân, vì vậy luận văn đã tiến hành xây dựng 3 thực nghiệm trên 3 tập dữ liệu Trojan, Virus và Worm riêng, mỗi thực nghiệm xây dựng ra một bộ phân lớp để dự đốn một loại mã độc cụ thể cụ thể. Kết quả tiến hành thực nghiệm đƣợc trình bày trong bảng dƣới đây:

Bảng 3.3.Bảng kết quả xây dựng bộ phân lớp SVM: Thời gian học Mức độ đúng(%) Benign 0,20 91,3 Virus 0,18 99,4 Worm 0,26 97,8 Trojan 0,24 96,6 3.3 Phân tích và bình luận.

So sánh mức độ chính xác của các bộ phân lớp đa lớp và các bộ phân lớp nhị phân khi sử dụng cây quyết định C4.5 cĩ thể nhận thấy các bộ phân lớp nhị phân cho kết quả tơt hơn. Vì vậy trong đoạn này chỉ so các sánh phân lớp nhị phân với nhau trong cả hai tiêu chí về độ chính xác cũng nhƣ thời gian kiểm thử. Kết quả so sánh độ chính xác đƣợc thể hiện thơng qua biểu đồ 1, kết quả so sánh thời gian đƣợc thể hiện thơng qua các biểu đồ 2

Quan sát các biểu đồ 1 cĩ thể thấy thuật tốn SVM cho độ chính xác tốt hơn cho các lớp virus, troijan chỉ cĩ lớp worm là bằng nhau .

Quan sát biểu đồ 2 ta thấy thời gian huấn luyện của cây quyết định là tốt hơn rất nhiều so với SVM,vì vậy việc sử dụng bộ phân lớp cây quyết định cho các hệ thống phát hiện mã độc sẽ làm tăng hiệu năng của hệ thống lên đáng kể

84 86 88 90 92 94 96 98 100

Benign Virus Worm Trojan

DC SVM

Benign Virus Worm Trojan

DC 90,3 96,4 97,8 94,9

SVM 91,3 99,4 97,8 96,6

Hình3.4 Biểu đồ so sánh độ chính xác (%) của hai thuật tốn

Benign Virus Worm Trojan DC 0,12 0,16 0,14 0,13

SVM 0,20 0,18 0,26 0,24

KẾT LUẬN

Qua quá trình nghiên cứu luận văn đã thu đƣợc một số kết quả sau: Về mặt lý :

- Trình bày đƣợc tổng quan về các loại mã độc hại và các kỹ thuật để phát hiện. - Trình bày đƣợc các khái niệm, kỹ thuật khai phá dữ liệu cơ bản, hiểu và trình bày đƣợc chi tiết kỹ thuật phân loại dựa trên máy hỗ trợ vector SVM.

Về mặt thực nghiệm:

- Luận văn đã định nghĩa đƣợc bài tốn phát hiện mã độc dựa trên kỹ thuật phân lớp sử dụng tập dữ liệu thực nghiệm và trình bày đƣợc mơ hình của bài tốn.

- Luận văn đã trình bày đƣợc các thực nghiệm để đánh giá độ chính xác và thời gian của các thuật tốn phân lớp dựa trên các tập dữ liệu thực nghiệm.

Trong tƣơng lai, bản thân sẽ tiếp tục phát triển luận văn theo hƣớng triển khai xây dựng các sản phẩm về phát hiện mã độc.

TÀI LIỆU THAM KHẢO

1. M. Chandrasekaran, S. Vidyaraman and S. Upadhyaya, SpyCon: Emulating User Activities to Detect Evasive Spyware, Performance,

Computing, and Communications Conference, 2007.

2. McAfee, Potentially Unwanted Programs: Spyware and Adware, 2005. http://www.mcafee.com/us/local_content/white_papers/

3. M. Boldt, B. Carlsson, Privacy-Invasive Software and Preventive Mechanisms, Systems and Networks Communications, 2006. ICSNC '06. International Conference, pp 21, Oct. 2006.

4. Richard H. Stern, FTC cracks down on Spyware and PC hijacking, but not true lies, IEEE Computer Society, 2005. Spyware. www.us- cert.gov/reading_room/

5. Q. Hu, T. Dinev, Is Spyware an Internet Nuisance or Public Menace, Communications of the ACM. New York, Vol. 48, No. 8, pp. 61-66, August 2005.

6. Veeramani R Nitin Rai, Windows API based Malware Detection and Framework Analysis International Journal of Scientific & Engineering Research Volume 3, Issue 3, 2012.

7. Alazab, M., Venkatraman, S. & Watters, P., “Malware Detection Based on Structural and Behavioural Features of API Calls”, 1st International Cyber Resilience Conference, Edith Cowan University, Perth Western Australia, 23rd August 2010.

8. D. Krishna Sandeep Reddy, Arun K. Pujari, “ N-gram analysis for computer virus detection”, Journal in Computer Virology, 231-239, Volume 2, Number 1, August 2006.

10. Idapython, http:// code.google.com/p/idapython/, 2009. 11. Zynamics BinNavi, http://www.zynamics.com/binnavi. 12. Windows API Functions, MSDN,

13. http://msdn.microsoft.com/enus/library/aa383749%28VS.85%29.aspx., January 2010.

14. D. Krishna Sandeep Reddy, Arun K. Pujari, “ N-gram analysis for computer virus detection”, Journal in Computer Virology, 231-239, Volume 2, Number 1, August 2006.

Tiến trình khai phá dữ liệu

Bộ phân lớp Nạve Bayes