Phát hiện mã độc dựa trên phân tích mẫu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẬU ĐỨC SIÊU PHÁT HIỆN MÃ ĐỘC DỰA TRÊN PHÂN TÍCH MẪU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2021 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẬU ĐỨC SIÊU PHÁT HIỆN MÃ ĐỘC DỰA TRÊN PHÂN TÍCH MẪU CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SỸ KỸ THUẬT (HỆ THỐNG THÔNG TIN) NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM HOÀNG DUY HÀ NỘI – 2021 LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Phát mã độc dựa phân tích mẫu.” cơng trình nghiên cứu cá nhân tơi thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràn Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thông tin sử dụng luận văn Hà Nội, tháng năm 2021 HỌC VIÊN ĐẬU ĐỨC SIÊU LỜI CẢM ƠN Trước tiên, em xin chân thành cảm ơn thầy cô Khoa Công Nghệ Thông Tin tồn thể cán Học viện Cơng nghệ Bưu Viễn thơng quan tâm tạo điều kiện thuận lợi cho em trình thực đồ án Em xin gửi lời biết ơn sâu sắc tới Thầy giáo TS Phạm Hoàng Duy tận tình bảo, định hướng cho em suốt trình học tập thực đồ án này, đồng thời giúp em có tiếp cận với phương pháp tư nghiên cứu khoa học Cuối cùng, em xin cảm ơn gia đình em, bạn bè em, người bên cạnh, quan tâm, giúp đỡ, động viên em để em hồn thành đồ án Em xin chân thành cảm ơn! Hà Nội, tháng năm 2021 HỌC VIÊN ĐẬU ĐỨC SIÊU MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH SÁCH THUẬT NGỮ, CHỮ CÁI VIẾT TẮT DANH SÁCH BẢNG BIỂU DANH SÁCH HÌNH VẼ MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ MÃ ĐỘC VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN 1.1 Tổng quan mã độc 1.2 Các phương pháp phát mã độc 15 1.3 Các nghiên cứu liên quan 17 1.4 Kết luận chương 19 CHƯƠNG II: MƠ HÌNH PHÁT HIỆN MÃ ĐỘC 20 2.1 Tổng quan học máy 20 2.2 Một số kỹ thuật học máy phổ biến 24 2.3 Một số phương pháp trích chọn đặc trưng phổ biến với toán phát mã độc 31 2.4 Phương pháp phát mã độc dựa phân tích mẫu 33 2.5 Kết luận chương 39 CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ 40 3.1 Thu thập liệu tiền xử lý liệu 40 3.2 Cài đặt thử nghiệm 42 3.3 Kết đánh giá 45 3.4 Nhận xét 52 3.5 Kết luận chương 53 KẾT LUẬN 54 Kết đạt được: 54 Hướng phát triển tương lai: 54 TÀI LIỆU THAM KHẢO 55 DANH SÁCH THUẬT NGỮ, CHỮ CÁI VIẾT TẮT Ký hiệu PAYL PIS Tên Tiếng Anh Payload-based signatures Privacy-Invasive Software Ý nghĩa Tiếng Việt Chữ ký dựa tải DLL PE MBR Dynamic Link Library Portable Executable Master Boot Record Thư viện liên kết động Có thể thực thi Bản ghi khởi động Phần mềm xâm phạm quyền riêng tư DANH SÁCH BẢNG BIỂU Bảng II-1: Dữ liệu chơi tennis 30 Bảng II-2: Thống kê phân bố loại mã lệnh phổ biến loại chương trình 36 Bảng III-1: Phân bố tập liệu huấn luyện thử nghiệm 45 Bảng III-2: Kết thực nghiệm thuật toán Naive Bayes 48 Bảng III-3: Kết thực nghiệm thuật toán SVM 52 Bảng III-4: Kết thực nghiệm thuật toán Decision Tree 54 Bảng III-5: Kết thực nghiệm thuật tốn Random Forest 56 DANH SÁCH HÌNH VẼ Hình II-1: Ví dụ SVM tốn phân loại lớp (nguồn: machinelearningcoban.com) Hình II-2: Ví dụ Decision Tree cho tốn chơi tennis Hình II-3: Sơ đồ thuật tốn Random Forest Hình II-4: Ví dụ cấu trúc đoạn mã Assembly Hình II-5: Ví dụ mã Assembly đọc cơng cụ Objdump Hình II-6: Sơ đồ phương pháp phát mã độc dựa phân tích mẫu Hình III-1: File liệu đặc trưng liệu mã độc thu thập Hình III-2: Ma trận nhầm lẫn thuật tốn Naive Bayes Hình III-3: Ma trận nhầm lẫn bình thường hóa thuật tốn Naive Bayes Hình III-6: Ma trận nhầm lẫn thuật tốn SVM Hình III-7: Ma trận nhầm lẫn bình thường hóa thuật tốn SVM Hình III-8: Ma trận nhầm lẫn thuật tốn Decision Tree Hình III-9: Ma trận nhầm lẫn bình thường hóa thuật tốn Decision Tree Hình III-10: Ma trận nhầm lẫn thuật tốn Random Forest Hình III-11: Ma trận nhầm lẫn bình thường hóa thuật tốn Random Forest Hình III-12: Tổng kết kết thuật toán 28 31 33 34 38 39 44 49 50 53 54 55 55 56 57 57 MỞ ĐẦU Phần mềm độc hại mối đe dọa lớn bảo mật thời đại kỹ thuật số ngày Người dùng máy tính, cơng ty phủ chịu cơng sử dụng phần mềm độc hại gia tăng theo cấp số nhân: Năm 2008, tổng công khoảng 25 triệu, đến năm 2014, thiệt hại số tăng gấp lần, lên tới 325 triệu đến 2017 gần 600 triệu [1] Phân tích phần mềm độc hại trở thành thành phần quan trọng chế bảo vệ Phương pháp phân tích tĩnh mã độc cổ điển đem lại hiệu cao nhiên nhiều phần mềm độc hại gần sử dụng kỹ thuật đa hình, biến hình kỹ thuật lẩn tránh khác để thay đổi hành vi phần mềm độc hại cách nhanh chóng tạo số lượng lớn phần mềm độc hại Trong thập kỷ qua, nhiều nghiên cứu thực hiện, sử dụng phương pháp khai phá liệu phân tích tĩnh động Một dạng phần mềm độc hại gọi phần mềm độc hại có mục tiêu, chưa có nhiều nghiên cứu Phần mềm độc hại có mục tiêu, tập hợp Mối đe dọa liên tục nâng cao (APT), phát triển số lượng độ phức tạp năm gần Tấn cơng mạng có mục tiêu (thông qua phần mềm độc hại nhắm mục tiêu) ngày đóng vai trị độc hại việc phá vỡ hệ thống tài xã hội trực tuyến APT thiết kế để ăn cắp bí mật công ty / quốc gia / gây tổn hại đến lợi ích quốc gia / cơng ty Rất khó để nhận phần mềm độc hại có mục tiêu công cụ chống vi-rút, Hệ thống phát xâm nhập(Intrusion Detection System - IDS), Hệ thống phòng chống xâm nhập IPS công cụ phát phần mềm độc hại tùy chỉnh Những kẻ công tận dụng kỹ thuật công xã hội (Social Engineering) với nhiều lỗ hổng chưa phát để thực triển khai phương thức cơng Cùng với đó, đời gần Mã hóa khóa Ransomware(phần mềm sau lây nhiễm vào máy tính, mã hóa chặn truy cập liệu) đặt mối đe dọa nghiêm trọng tổ chức/quốc gia cá nhân đây: Hình III-1: File liệu đặc trưng liệu mã độc thu thập 3.2 Cài đặt thử nghiệm 3.2.1 Cài đặt môi trường thực nghiệm a) Môi trường thực nghiệm Để thực trình thực nghiệm, luận văn sử dụng máy tính có cấu hình tiêu chuẩn sau để thực trình huấn luyện giải thuật: ● Vi xử lý: Intel i5 ● Dung lượng Ram: 4GB ● Hệ điều hành: Ubuntu Desktop 18.04 phiên x64 (64 bits) Ngồi ra, luận văn sử dụng ngơn ngữ lập trình Python thư viện Numpy, Pandas scikit-learn để cài đặt huấn luyện môi Trong đó: ● Numpy thư viện lõi phục vụ cho khoa học máy tính Python, hỗ trợ cho việc tính tốn mảng nhiều chiều, có kích thước lớn với hàm tối ưu áp dụng lên mảng nhiều chiều Numpy đặc biệt hữu ích thực hàm liên quan tới Đại Số Tuyến Tính 42 ● Pandas thư viện mã nguồn mở, hỗ trợ đắc lực thao tác liệu Đây cơng cụ phân tích xử lý liệu mạnh mẽ ngôn ngữ lập trình python Thư viện sử dụng rộng rãi nghiên cứu lẫn phát triển ứng dụng khoa học liệu Thư viện sử dụng cấu trúc liệu riêng Dataframe Pandas cung cấp nhiều chức xử lý làm việc cấu trúc liệu ● Scikit-learn thư viện mã nguồn mở ngành machine learning, mạnh mẽ thông dụng với cộng đồng Python, thiết kế NumPy SciPy Scikit-learn cung cấp gần toàn thuật tuán học máy, ngồi cung cấp sẵn cơng cụ tiền xử lý liệu đánh giá độ xác mơ hình b) Cài đặt thực nghiệm Với tồn liệu thu thập trích xuất đặc trưng trên, luận văn chia liệu thành tập là: tập liệu huấn luyện tập liệu thử nghiệm cho mục đích huấn luyện đánh giá mơ hình theo tỉ lệ tương ứng 80% 20% Cụ thể liệu hai tập phân bố bảng sau: Dữ liệu Mã độc Bình thường Tổng Huấn luyện 1382 806 2188 Thử nghiệm 356 192 548 Bảng III-1: Phân bố tập liệu huấn luyện thử nghiệm Để tăng tốc độ huấn luyện độ xác mơ hình, luận văn sử dụng phương pháp Chính quy hóa (standardisation) trình bày chương để chuẩn hoá liệu Luận văn sử dụng nhiều thuật toán khác cho toán phát mã độc như: Navie-Baye, SVM, Decision Tree, Random Forest Với thuật tốn, cho kết khác Do đó, mơ hình chạy thực nghiệm với tồn thuật toán, đánh giá lựa chọn thuật toán có độ xác cao phù hợp với toán phát mã độc 3.2.2 Phương pháp đánh giá Để đánh giá độ xác thuật tốn học máy, luận văn sử dụng phương pháp sau: 43 a) Accuracy Accuracy cách đánh giá đơn giản hay sử dụng Phương pháp đánh giá dựa công thức đơn giản tỉ lệ số mẫu dự đoán so với tổng số mẫu có tập liệu thử nghiệm Cơng thức cụ thể sau: Phương pháp không quan tâm đến độ xác nhãn mà quan tâm số mẫu dự đoán nhãn Các phương pháp đánh giá chi tiết dựa kết dự đoán nhãn b) Precision Recall Với cách xác định lớp positive, Precision định nghĩa tỉ lệ số điểm true positive số điểm phân loại positive (TP + FP) Recall định nghĩa tỉ lệ số điểm true positive số điểm thực positive (TP + FN) Một cách toán học, Precision Recall hai phân số có tử số mẫu số khác nhau: Trong đó: ● TP: số lượng ghi gán nhãn “bình thường” phân loại ● TN: số lượng ghi gán nhãn “mã độc” phân loại ● FP: số lượng ghi gán nhãn “mã độc” bị phân loại sai thành “bình thường” ● FN: số lượng ghi gán nhãn “bình thường” bị phân loại sai thành “mã độc” Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực positive thấp c) F1 score F1 Score trung bình điều hịa precision recall Do đại diện việc đánh giá độ xác đồng thời precision recall Cơng thức tính: 44 Hay: F1 – score có giá trị nằm nửa khoảng (0; 1] F1 cao, phân lớp tốt d) Ma trận nhầm lẫn Ma trận nhầm lẫn ma trận thể có điểm liệu thực thuộc vào lớp, dự đoán rơi vào lớp Ma trận có kích thước chiều số lượng lớp liệu Giá trị hàng thứ i, cột thứ j số lượng điểm lẽ thuộc vào class i lại dự đoán thuộc vào lớp j Tổng phần tử tồn ma trận số điểm tập kiểm thử Các phần tử đường chéo ma trận số điểm phân loại lớp liệu Một ma trận nhầm lẫn gồm số sau lớp phân loại: Để phù hợp, ta sử dụng lại toán phát mã độc để giải thích số Trong tốn ta có lớp: lớp mã độc đoán Positive lớp bình thường đốn Negative:  TP (True Positive): dự đốn file bình thường  TN (True Negative): dựa đoán file mã độc  FP (False Positive): Dự đoán mã độc thực tế bình thường  FN (False Negative): Dự đốn bình thường thực tế mã độc 3.3 Kết đánh giá 3.3.1 Naive Bayes Thuật toán Naive Bayes cho kết phân loại mã độc mức thấp, đạt 58,76% Kết chi tiết sau: Precision Recall F1 score Accuracy 98,96% 45,89% 62,71% 58,76% Bảng III-2: Kết thực nghiệm thuật tốn Naive Bayes 45 Hình III-2: Ma trận nhầm lẫn thuật toán Naive Bayes 46 Hình III-3: Ma trận nhầm lẫn bình thường hóa thuật tốn Naive Bayes Nhìn vào thơng tin ma trận nhầm lẫn, thấy với nhãn liệu bình thường, thuật toán cho kết nhận diện tốt nhận đến 190 chương trình chương trình bình thường Tuy nhiên, với nhãn mã độc, thuật tốn lại nhận nhầm tới 60% chương trình mã độc thành chương trình bình thường có 132 chương trình nhận Điều lý giải thuật toán Naive Bayes, kết dự đoán từ xác suất xuất độc lập đặc trưng, điều nhiều trường hợp khơng có nhiều đặc trưng, phân bố liệu bình thường liệu mã độc gần giống 3.3.2 Support Vector Machine Đối với thuật tốn SVM, kết thu khơng cao tương đối tốt với độ xác 94,89% Precision Recall F1 score Accuracy 47 97,92% 88,68% 93,07% 94,89% Bảng III-3: Kết thực nghiệm thuật toán SVM Khi nhìn vào ma trận nhầm lẫn thuật tốn hình đây, thấy thuật tốn nhận nhầm khoảng 6% chương trình mã độc thành chương trình bình thường Cịn chiều ngược lại, thuật tốn nhầm lẫn chương trình bình thường thành chương trình mã độc Hình III-6: Ma trận nhầm lẫn thuật tốn SVM 48 Hình III-7: Ma trận nhầm lẫn bình thường hóa thuật tốn SVM 3.3.3 Decision Tree Kết thu sử dụng thuật toán Decision Tree đạt kết xấp xỉ 98% Kết cụ thể bảng đây: Precision Recall F1 score Accuracy 98,44% 95,94% 97,17% 97,99% Bảng III-4: Kết thực nghiệm thuật tốn Decision Tree 49 Hình III-8: Ma trận nhầm lẫn thuật tốn Decision Tree Hình III-9: Ma trận nhầm lẫn bình thường hóa thuật toán Decision Tree 50 Cụ thể hơn, thuật toán nhận xác 189 chương trình bình thường 348 chương trình mã độc Số chương trình bị nhận nhầm chiếm khoảng 1-2% nhãn 3.3.4 Random Forest Thuật toán Random Forest cho kết thực nghiệm cao với độ xác lên đến 99,64% cao thuật toán Decision Tree Precision Recall F1 score Accuracy 98,96% 100% 99,48% 99,64% Bảng III-5: Kết thực nghiệm thuật tốn Random Forest Hình III-10: Ma trận nhầm lẫn thuật tốn Random Forest 51 Hình III-11:Ma trận nhầm lẫn bình thường hóa thuật tốn Random Forest Có thể thấy, thuật tốn khơng nhận nhầm chương trình mã độc thành chương trình bình thường Ngược lại, có chương trình bình thường bị nhận nhầm thành chương trình mã độc Điều hồn tồn dễ hiểu Random Forest coi thuật toán nâng cấp thuật toán Decision Tree, thuật toán Decision Tree cho kết cao 3.4 Nhận xét Phương pháp Naive Bayes SVM F1 score Accuracy 62,71% 58,76% 93,07% 94,89% Decision Tree 97,17% 97,99% Random Forest 99,48% 99,64% Hình III-12: Tổng kết kết thuật toán Qua tất thực nghiệm đưa số nhận xét sau: ● Thuật toán Naive Bayes cho kết tệ nhất, có q nửa chương trình độc 52 hại bị nhận nhầm thành chương trình bình thường Điều hồn tồn khơng thể chấp nhận phương pháp phát mã độc Vì khơng thể áp dụng phương pháp vào tồn phát mã độc ● Thuật toán SVM cho kết tốt với độ xác xấp xỉ 95% Tuy nhiên so với phương pháp khác, độ xác chưa đạt kỳ vọng phát mã độc cịn nhiều chương trình độc hại bị nhận nhầm thành chương trình bình thường Thêm vào thuật tốn SVM có thời gian chạy lâu phương pháp khác ● Thuật tốn Decision Tree cho độ xác vào khoảng 98%, số lượng chương trình mã độc bị nhận nhầm thành chương trình bình thường khoảng 1-2% ● Được coi thuật toán nâng cấp Decision Tree, Random Forest thể ưu điểm cho kết tốt với 99% Với thuật toán này, thực nghiệm khơng có chương trình độc hại bị nhận nhầm thành chương trình bình thường Chỉ có khống 1% chương trình bình thường bị nhận nhầm thành chương trình mã độc, điều chấp nhận Đây thuật tốn luận văn khuyến nghị xử dụng toán phát mã độc 3.5 Kết luận chương Như vậy, chương III trình bày trình thử nghiệm, bao gồm bước thực hiện, kết thực nghiệm, đánh giá nhận xét kỹ thuật học máy sử dụng phát mã độc Luận văn dừng lại việc thực với file thực thi Trong thuật toán đề cập trên, luận văn kiến nghị sử dụng Random Forest vào toán phát mã độc thực tế, với độ xác 99.64% 53 KẾT LUẬN Kết đạt được: Luận văn nghiên cứu phương pháp phát mã độc dựa phân tích mẫu đạt số kết sau: Trình bày kiến thức khái quát mã độc khái niệm, dạng mã độc, lịch sử phát triển mã độc Ngoài ra, đồ án giới thiệu số kỹ thuật phát mã độc dưa chữ kí dựa hành vi Đưa khái niệm học máy, phương pháp học máy số kỹ thuật học máy phổ biến Navie Bayes, Support Vector Machine, Decision Tree Random Forest Cũng với giới thiệu số phương pháp trích chọn đặc trưng cho tốn phát mã độc Trình bày kỹ thuật trích xuất phân tích mã lệnh mã độc Từ xây dựng mơ hình phát mã độc dựa phân tích mẫu · Thu thập liệu xây dựng môi trường thực nghiệm, đánh giá kết phương pháp phát mã đọc dựa phân tích mẫu Hướng phát triển tương lai: Trên sở kiến thức tìm hiểu kinh nghiệm kết trình thử nghiệm, luận văn cải thiện nâng cao theo hướng: · Dữ liệu thu cho trình thực nghiệm cịn nhỏ Luận văn thu thập thêm liệu với kích thước lớn hơn, đa dạng loại mã độc định dạng file chạy nhiều môi trường khác · Chuyển từ mô hình phân loại lớp cho tốn phát mã độc sang mơ hình nhận nhiện nhiều nhãn mã độc khác Thử nghiệm số mơ hình học sâu để đạt kết cao · Nghiên cứu phương pháp trích chọn đặc trưng dựa mã lệnh mã độc 54 TÀI LIỆU THAM KHẢO [1] Amit Sahu Prachi Parwar Deepak Agrawal An Analysis to Detect Malware using Machine Learning [2] Aditya Mathur - A_survey_of_malware_detection_techniques [3] M Boldt and B Carlsson Analysing privacy-invasive software using computer forensic methods http: // www e-evidence info/ b html , January 2006 K Wang and S J Stolfo Anomalous payload-based network intrusion detection In Proceedings of the 7th International Symposium on (RAID), pages 201–222, September 2004 https://www.researchgate.net/publication/49285561_Malware_Detection_Based_ on_Structural_and_Behavioural_Features_of_API_Calls https://www.researchgate.net/figure/PE-Miner-programs-mainGUI_fig2_255787076 https://www.researchgate.net/publication/224093090_Malware_Detection_Using _Perceptrons_and_Support_Vector_Machines https://www.researchgate.net/publication/224951943_Malware_Detection_Modul e_using_Machine_Learning_Algorithms_to_Assist_inCentralized_Security_in_E nterprise_Networks V Shijoa, A Salim, International Conference on Information and Communication Technologies (ICICT 2014) W Li, K Wang, S Stolfo, and B Herzog Fileprints: Identifying file types by ngram analysis 6th IEEE Information Assurance Workshop, June 2005 Alazab, Mamoun, Sitalakshmi Venkatraman, Paul Watters, and Moutaz Alazab (2011) Zero-day Malware Detection based on Supervised Learning Algorithms of API call Signatures Proceedings of the 9-th Australasian Data Mining Conference, 171-181 Baldangombo Usukhbayar, Nyamjav Jambaljav, Shi-Jinn Horng (2013) A Static Malware Detection System Using Data Mining Methods Cornell University Gavrilut, Dragos, Mihai Cimpoesu, Dan Anton, Liviu Ciortuz (2009) Malware Detection Using Machine Learning The International Multiconference on Computer Science and Information Technology Priyank Singhal, Nataasha Raul (2015) Malware Detection Module using Machine Learning Algorithms to Assist in Centralized Security in Enterprise Networks Badr Hssina, Abdelkarim MERBOUHA, Hanane Ezzikouri, Mohammed Erritali , A comparative study of decision tree ID3 and C4.5., 2014, (IJACSA) International Journal of Advanced Computer Science and Applications, Special Issue on Advances in Vehicular Ad Hoc Networking and Applications [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] 55 56 ... nhu cầu phát triển phân tích mã độc trên, luận văn tập trung nghiên cứu phương pháp phát mã độc dựa phân tích mẫu với nội dung trình bày sau: Chương 1: Mã độc số phương pháp phân tích mã độc Giới... pháp phát mã độc 1.2.1 Các kỹ thuật phân tích mã độc Để phát chương trình có phải mã độc khơng cần phải thực q trình phân tích mã chương trình Có hai phương pháp để thực phân tích mã độc gồm: Phân. .. mã độc Kỹ thuật phân tích mã độc bước đầu q trình phát mã độc Chính lý mà phương pháp phát mã độc chia thành hai nhóm dựa kỹ thuật phân tích mã độc phổ biến Các phương pháp gồm: Phương pháp phát

Định dạng
Số trang	59
Dung lượng	919,83 KB