Bài viết đề xuất một phương pháp phân lớp mã độc hiệu quả dựa trên sự kết hợp giữa kĩ thuật phân lớp dữ liệu với giải thuật di truyền. Quá trình thực nghiệm và phân tích trên cùng một tập dữ liệu huấn luyện đã chỉ ra rằng phương pháp đã đề xuất cho kết quả phân lớp chính xác hơn phương pháp phân lớp khi chưa kết hợp với giải thuật di truyền.
JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 189-195 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0066 MƠ HÌNH KẾT HỢP GIỮA HỌC MÁY VÀ GIẢI THUẬT DI TRUYỀN TRONG PHÁT HIỆN MÃ ĐỘC Lương Thế Dũng Khoa An tồn Thơng tin, Học viện Kỹ thuật Mật mã Tóm tắt Bài báo đề xuất phương pháp phân lớp mã độc hiệu dựa kết hợp kĩ thuật phân lớp liệu với giải thuật di truyền Quá trình thực nghiệm phân tích tập liệu huấn luyện phương pháp đề xuất cho kết phân lớp xác phương pháp phân lớp chưa kết hợp với giải thuật di truyền Từ khóa: Mã độc, phát mã độc, học máy, giải thuật di truyền, định Mở đầu Mã độc hiểm họa lớn hệ thống thông tin thời kì Cùng với phát triển mạnh mẽ tinh vi loại mã độc, phát mã độc trở thành vấn đề quan trọng lĩnh vực An toàn thông tin Các phương pháp phát mã độc truyền thống thường sử dụng kĩ thuật đối sánh mẫu, việc phát dựa sở liệu mẫu mã độc định nghĩa trước, có độ xác cao đưa cảnh bảo nhầm Tuy nhiên, với bùng nổ mạnh mẽ mã độc, sở liệu mẫu mã độc ngày có kích thước lớn hơn, nên việc sử dụng phương pháp có hạn chế làm giảm hiệu hệ thống phát mã độc chưa định nghĩa sở liệu mã độc đa hình, siêu đa hình Để khắc phục hạn chế trên, nhiều phương pháp phát mã độc đề xuất, đặc biệt phương pháp dựa mơ hình học máy khai phá liệu như: Phương pháp dựa Mạng Bayes [10], Máy Vecto hỗ trợ [12] Cây định [13] Tuy nhiên phương pháp gặp phải số hạn chế định việc phân loại xác mã độc mã độc lai ghép, có sử dụng giải thuật thơng minh, vấn đề nhiều tác giả đề cập [1,15] Ngoài biến đổi kĩ thuật thiết kế mã độc làm rối mã, sử dụng mã hóa mã nguồn hay nén mã nguồn làm cho đặc tính mã độc khó bị phát mã nguồn Do đó, kĩ thuật khai phá liệu thơng thường khơng hiệu việc xác định loại mã độc dựa tập đặc tính dấu hiệu đại diện nhất, dẫn đến việc phân tích xử lí mã độc trở nên khó khăn [1] Bài báo đưa kĩ thuật phân loại mã độc mới, hiệu Ngày nhận bài: 8/7/2015 Ngày nhận đăng: 15/11/2015 Liên hệ: Lương Thế Dũng, e-mail: ltdung@bcy.gov.vn 189 Lương Thế Dũng dựa việc kết hợp kĩ thuật phân lớp quyêt đinh giải thuật di truyền, áp dụng liệu gọi hàm API chương trinh mã độc Nội dung báo trình bày gồm phần: Phần2 - trình bày việc phân tích trích rút liệu hàm API; Phần - trình bày phương pháp kết hợp giưa kĩ thuật phân lớp giải thuật di truyền việc phát mã độc; Phần - trình bày kết thử nghiệm đánh giá phương pháp; Phầm kiếm dựa việc mơ q trình chọn lọc tiến hóa tự nhiên Thuật tốn di truyền chuẩn biểu diễn phép lai ghép đột biến chuỗi nhị phân Thuật tốn di truyền giúp cho việc tìm kiếm phương án giảm thiểu so với việc duyệt qua tất tập ràng buộc liệu, thường sử dụng để tiếp cận giải tốn tìm kiếm số, chẳng hạn sinh phương án tối ưu cho tốn tìm kiếm [19] Trong giải thuật di truyền, dãy chuỗi mã hóa thành phương án chấp nhận đươc cho toán tối ưu tiến hóa theo hướng ngày tốt Ta mơ tả giải thuật di truyền sơ sau: Sinh phương án khởi đầu G(0); Đánh giá độ thích nghi G(0); t := 0; Bước lặp t := t + 1; Sinh G(t) từ G(t − 1); Đánh giá độ thích nghi G(t); Cho đến tìm phương án cần tìm Với tập liệu hàm API chương trình ứng dụng thu thập tiền xử lí, thuật tốn di truyền sử dụng báo nhằm cải tiến việc phân loại mã độc chúng sử dụng kĩ thuật che dấu Bằng việc kết hợp thuật toán di truyền với kĩ thuật học máy cho phép phát xác mã độc chưa có sở liệu mẫu, bao gồm dạng mã độc lai loại khác nhau, ví dụ: Những mã độc hoạt động giống Logic bomb Trojan Bằng cách mô lai ghép loại mã độc toán tử lai hoán vị thuật tốn di truyền [20] Kĩ thuật tiên đoán xuất mã độc, phát mã độc sử dụng kĩ thuật che dấu phức tạp Các mã độc phân tích trích rút thành dãy hàm API, tiền xử lí thu dãy nhị phân Ở ta coi dãy nhị phân đại diện cho dãy hàm API nhiễm sắc thể mã độc Để thực thuật toán di truyền, ta sinh phương án khởi đầu cách chọn mẫu liệu mẫu, tiến hành lai ghép đoạn mẫu Sau trình lai ghép ta thu hệ con, hệ cần phải đánh giá giá trị thích nghi Ở ta định nghĩa hàm thích nghi cá thể sau: 191 Lương Thế Dũng Thuật tốn Tốc độ Độ xác Hàng xóm K-gần Chậm Trung bình Máy vector hỗ trợ Nhanh Cao Naăve Bayes Rt nhanh Cao Nhanh, d hn vi liệu bền vững Cao Dễ hiểu, dễ sinh luật giảm thiểu độ phức tạp tính tốn Cây định Rất nhanh Ưu điểm iệu biến độc lập có nhiều hai giá trị tập liệu lớn Các kết có tính hồi quy dày, hiệu tốt phân lớp văn bản, đoạn mẫu Nhược điểm Độ phức tạp tính tốn cao Chi phí thời gian huấn luyện dài Nhạy cảm với thuộc tính có tương quan Xảy sai lầm mức cao kết sai mức Trong chuỗi nhị phân đại diện cho xuất hàm API, hàm API ta gán giá trị trọng số wij, trọng số đại diện cho giá trị xác suất xuất hàm API thứ j loại mã độc thứ i : i = 1(V irus), i = 2(T rojan), i = 3(W orm), i = 4(Backdoor) i = (Normal - phần mềm không độc hại) Tổng trọng số cho hàm API mấu trích xuất Khi ta định nghĩa hàm thích nghi cá thể X là: F (X) = max wij số vị trí có giá trị Sắp xếp cá thể X vào lớp i, cá thể kết luận phần mềm thông thường không tiếp tục sinh sản nữa, cá thể thuộc lớp mã độc tiếp tục lai ghép phát sinh hệ Sau trình trên, ta thu tập liệu mẫu phân loại di truyền Tập mẫu sau sử dụng để để học phân lớp dựa thuật toán học định để sử dụng cho trình phân loại mẫu chưa biết Quá trình phân tích thực nghiệm cho thây thuật tốn định C4.5 cho hiệu cao thuật toán định khác 2.3 Thử nghiệm Để thử nghiệm mơ hình đề xuất, báo sử dụng liệu học bao gồm 1000 mẫu, 600 mẫu tệp chứa mã độc lấy từ kho mã độc vxheaven.com 200 mẫu tệp chương trình không nhiễm mã độc lấy từ windows system Dữ liệu kiểm thư bao gồm 200 mẫu hỗn hợp, có 50 mẫu tệp khơng nhiễm mã độc 150 mẫu tệp nhiễm mã độc Thực thực nghiệm với thay đổi với số lượng mẫu khác tập huấn luyện lấy từ tập xây dựng cho thấy kết xác phương pháp bảng đây: 192 Mơ hình kết hợp học máy giải thuật di truyền phát mã độc Số mẫu 400 480 560 640 720 Độ xác mơ hình 93.8% 94.1% 95.6% 97.3% 97.5% Dưới biểu đồ so sánh kết việc phân lớp sau kết hợp định giải thuật di truyền với việc sử dụng định: Kết cho thấy kích thước tập liệu lớn độ xác phương pháp đề xuất báo đưa kết tốt phương pháp sử dụng thuật tốn định cho q trình học Kết luận Bài báo đề xuất phương pháp tốt cho việc phát phân loại mã độc dựa kết hợp kĩ thuật định giải thuật di truyền Kết thử nghiệm cho thấy độ xác cao sử dụng giải thuật định Phương pháp đề xuất áp dụng cho việc phát phân lớp mã độc mã độc lai ghép dựa liệu gọi hàm API chương trình mã độc TÀI LIỆU THAM KHẢO [1] OECD Ministerial Meeting Report, Malicious Software (Malware): A Security Threat to the Internet Economy, Korean Communication Commision, Final draft, May 2007, http://itlaw.wikia.com/wiki/OECD 193 Lương Thế Dũng [2] Vinod, P Laxmi, V and M S Gaur 2009, Survey on Malware Detection Methods, In Proceedings of the Hacker 2009, pp 74-79 [3] Zhu Kenan, Yin Baolin, 2012, Malware Behavior Classification Approach Based on Naive Bayes, Journal of Convergence Information Technology (JCIT) Volume7, pp 218-315 [4] Gavrilut, D., Cimpoesu, M.; Anton, D.; Ciortuz, L 2009, Malware Detection Using Perceptrons and Support Vector Machines, Future Computing, Service Computation, Cognitive, Adaptive, Content, Patterns [5] Konrad Rieck, Philipp Trinius, Carsten Willems, and Thorsten Holz, 2011, Automatic Analysis of Malware Behaviorusing Machine Learning, Journal of Computer Security (JCS), 19 (4), 639–668, IOSPress [6] Manoun Alazab, Robert Layton, Sitalakshmi Venkataraman, Paul Watters, 2013, Malware Detection Based on Structural and Behavioural Features of API Calls, In ternational Journal of Electronic Security and Digital Forensics Volume Issue 2, p 90-109 [7] Veeramani R, Nitin Rai, 2012, Windows API based Malware Detection and Framework Analysis, International Journal of Scientific & Engineering Research Volume 3, Issue [8] Mamoun Alazab, Sitalakshmi Venkatraman, Paul Watters, Moutaz Alazab, 2011, Zero-day Malware Detection based on Supervised Learning Algorithms of API call Signatures, Proceedings of the 9-th Australasian Data Mining Conference (AusDM’11), Ballarat, Australia, pp 171-182 [9] Wang C, Pang J, Zhao R, Fu., Liu X, 2009, Malware Detection Based on Suspicious Behavior Identification; First International Workshop on Education [10] Technology and Computer Science, pp 198-202 Wuhan, Hubei: IEEE [11] Dewan Md Farid, Nouria Harbi, Mohammad Zahidur Rahman., 2010, Combining Naive Bayes and Decision Tree for adaptive Intrusion Detection Vol 2, No 2, pp 12–25 [12] Mezghani, D., Boujelbene, S., Ellouze, N., 2010, Evaluation of SVM Kernels and Conventional Machine Learning Algorithms for Speaker Identification, International Journal of Hybrid Information Technology, Vol 3, No 3, pp 23-34 [13] Komashinskiy, D., Kotenko, I., 2010, Malware Detection by Data Mining Techniques Based on Positionally Dependent Features, InternationalConference on Parallel, Distributed and Network-Based Processing, pp 617-623 Pisa [14] Hall, P., Park, B., Samworth, R., 2008, Choice of neighbor order in nearest-neighbor classification, An Official Journal of the Institute of Mathematical Statistics, Vol 36, No 5, pp 2135–2152 [15] Mohd Najwadi Yusoff, Aman Jantan, 2011, Optimizing Decision Tree in Malware Classification System by using Genetic Algorithm, International Journal on New Computer Architectures and Their Applications (IJNCAA) 1(3): 694-713 [16] Shrenik Shah, DNA Computation and Algorithm Design, Harvard University ’09 Cambridge, 194 Mơ hình kết hợp học máy giải thuật di truyền phát mã độc MA 02138 [17] Noreen, S., Murtaza, S., Shafiq, M., Farooq, M 2009, Evolvable Malware; 11th Annual Conference on Genetic and Evolutionary Computation pp 1569–1576 Montreal, Quebec, Canada: ACM [18] Preda, M., Christodorescu, M., Jha, S., Debray, S.; 2008, A Semantics-Based Approach to Malware Detection; Transactions on Programming Languages and Systems, Vol 30, No 5, pp 25-54 [19] D Krishna Sandeep Reddy, Arun K Pujari, 2006, N-gram analysis for computer virus detection, Journal in Computer Virology, 231-239, Volume 2, Number 1, pp 231-239 [20] Mehdi, S., Tanwani, A., Farooq, M.; 2009, IMAD:In-Execution Malware Analysis and Detection; 11th Annual Conference on Genetic and Evolutionary Computation New York, USA: ACM, pp 1553-1560 [21] Mohamad Fadli Zolkipli, Aman Jantan.; 2010, Malware Behavior Analysis: Learning and Understanding Current Malware Threats; Second International Conference on Network Applications, Protocols and Services pp 218–221 Kedah, Malaysia: IEEE ABSTRACT Combining machine learning and generic algorithms for malware detection In this paper the author proposes a novel method of classifying malwares that combines data classification techniques and genetic algorithms Experiments done show that classification using the proposed method is better than the classification obtained when genetic algorithms are not used Keywords: Malware, Malware detection, Machine learning, Genetic algorithm, Decision tree 195 ...o việc phát phân loại mã độc dựa kết hợp kĩ thuật định giải thuật di truyền Kết thử nghiệm cho thấy độ xác cao sử dụng giải thuật định Phương pháp đề xuất áp dụng cho việc phát phân lớp mã độc m...n xử lí, thuật tốn di truyền sử dụng báo nhằm cải tiến việc phân loại mã độc chúng sử dụng kĩ thuật che dấu Bằng việc kết hợp thuật toán di truyền với kĩ thuật học máy cho phép phát xác mã độc chư...o thấy kết xác phương pháp bảng đây: 192 Mơ hình kết hợp học máy giải thuật di truyền phát mã độc Số mẫu 400 480 560 640 720 Độ xác mơ hình 93.8% 94.1% 95.6% 97.3% 97.5% Dưới biểu đồ so sánh kế