Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,55 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - lu an n va ĐẬU ĐỨC SIÊU p ie gh tn to d oa nl w PHÁT HIỆN MÃ ĐỘC DỰA TRÊN PHÂN TÍCH MẪU va an lu LUẬN VĂN THẠC SĨ KỸ THUẬT nf oi lm ul (Theo định hƣớng ứng dụng) z at nh z m co l gm @ H NỘI – 2021 an Lu n va ac th si HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THÔNG - lu an ĐẬU ĐỨC SIÊU n va p ie gh tn to PHÁT HIỆN MÃ ĐỘC DỰA TRÊN PHÂN TÍCH MẪU nl w CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN d oa MÃ SỐ: 8.48.01.04 lu oi lm ul nf va an LUẬN VĂN THẠC SỸ KỸ THUẬT (HỆ THỐNG THÔNG TIN) NGƢỜI HƢỚNG DẪN KHOA HỌC z at nh TS PHẠM HO NG DUY z m co l gm @ an Lu H NỘI – 2021 n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Phát mã độc dựa phân tích mẫu.” cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràn Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng luận văn lu an Hà Nội, tháng năm 2021 n va HỌC VIÊN ie gh tn to p ĐẬU ĐỨC SIÊU d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Trước tiên, em xin chân thành cảm ơn thầy cô Khoa Cơng Nghệ Thơng Tin tồn thể cán Học viện Cơng nghệ Bưu Viễn thơng quan tâm tạo điều kiện thuận lợi cho em trình thực đồ án Em xin gửi lời biết ơn sâu sắc tới Thầy giáo TS Phạm Hồng Duy tận tình bảo, định hướng cho em suốt trình học tập thực đồ án này, đồng thời giúp em có tiếp cận với phương pháp tư nghiên cứu khoa học Cuối cùng, em xin cảm ơn gia đình em, bạn bè em, người bên cạnh, quan tâm, giúp đỡ, động viên em để em hoàn thành đồ án lu an Em xin chân thành cảm ơn! va n Hà Nội, tháng năm 2021 to p ie gh tn HỌC VIÊN w d oa nl ĐẬU ĐỨC SIÊU oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH SÁCH THUẬT NGỮ, CHỮ CÁI VIẾT TẮT DANH SÁCH BẢNG BIỂU DANH SÁCH HÌNH VẼ MỞ ĐẦU CHƢƠNG I: TỔNG QUAN VỀ MÃ ĐỘC VÀ CÁC PHƢƠNG PHÁP PHÁT HIỆN lu an n va Tổng quan mã độc 1.2 Các phương pháp phát mã độc 15 1.3 Các nghiên cứu liên quan 17 Kết luận chương 19 to 1.1 tn 1.4 CHƢƠNG II: MƠ HÌNH PHÁT HIỆN MÃ ĐỘC 20 2.2 Một số kỹ thuật học máy phổ biến 24 2.3 Một số phương pháp trích chọn đặc trưng phổ biến với tốn phát mã độc 31 2.4 Phương pháp phát mã độc dựa phân tích mẫu 33 2.5 Kết luận chương 39 p 2.1 ie Tổng quan học máy oa gh 20 nl w d lu an CHƢƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ 40 va Thu thập liệu tiền xử lý liệu 40 3.2 Cài đặt thử nghiệm 42 3.3 Kết đánh giá 3.4 Nhận xét 3.5 Kết luận chương 53 54 54 gm @ 54 l TÀI LIỆU THAM KHẢO 52 z Hướng phát triển tương lai: 45 z at nh Kết đạt được: oi lm KẾT LUẬN ul nf 3.1 55 m co an Lu n va ac th si DANH SÁCH THUẬT NGỮ, CHỮ CÁI VIẾT TẮT Ký hiệu PAYL PIS Tên Tiếng Anh Payload-based signatures Privacy-Invasive Software Ý nghĩa Tiếng Việt Chữ ký dựa tải DLL PE MBR Dynamic Link Library Portable Executable Master Boot Record Thư viện liên kết động Phần mềm xâm phạm quyền riêng tư Có thể thực thi Bản ghi khởi động lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si DANH SÁCH BẢNG BIỂU Bảng II-1: Dữ liệu chơi tennis 30 Bảng II-2: Thống kê phân bố loại mã lệnh phổ biến loại chương trình 36 Bảng III-1: Phân bố tập liệu huấn luyện thử nghiệm 45 Bảng III-2: Kết thực nghiệm thuật toán Naive Bayes 48 Bảng III-3: Kết thực nghiệm thuật toán SVM 52 Bảng III-4: Kết thực nghiệm thuật toán Decision Tree 54 Bảng III-5: Kết thực nghiệm thuật toán Random Forest 56 lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si DANH SÁCH HÌNH VẼ lu an n va Hình II-1: Ví dụ SVM tốn phân loại lớp (nguồn: machinelearningcoban.com) Hình II-2: Ví dụ Decision Tree cho tốn chơi tennis Hình II-3: Sơ đồ thuật tốn Random Forest Hình II-4: Ví dụ cấu trúc đoạn mã Assembly Hình II-5: Ví dụ mã Assembly đọc cơng cụ Objdump Hình II-6: Sơ đồ phương pháp phát mã độc dựa phân tích mẫu Hình III-1: File liệu đặc trưng liệu mã độc thu thập Hình III-2: Ma trận nhầm lẫn thuật tốn Naive Bayes Hình III-3: Ma trận nhầm lẫn bình thường hóa thuật tốn Naive Bayes Hình III-6: Ma trận nhầm lẫn thuật tốn SVM Hình III-7: Ma trận nhầm lẫn bình thường hóa thuật tốn SVM Hình III-8: Ma trận nhầm lẫn thuật tốn Decision Tree Hình III-9: Ma trận nhầm lẫn bình thường hóa thuật tốn Decision Tree Hình III-10: Ma trận nhầm lẫn thuật tốn Random Forest Hình III-11: Ma trận nhầm lẫn bình thường hóa thuật tốn Random Forest Hình III-12: Tổng kết kết thuật toán p ie gh tn to 28 31 33 34 38 39 44 49 50 53 54 55 55 56 57 57 d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Phần mềm độc hại mối đe dọa lớn bảo mật thời đại kỹ thuật số ngày Người dùng máy tính, cơng ty phủ chịu công sử dụng phần mềm độc hại gia tăng theo cấp số nhân: Năm 2008, tổng công khoảng 25 triệu, đến năm 2014, thiệt hại số tăng gấp lần, lên tới 325 triệu đến 2017 gần 600 triệu [1] Phân tích phần mềm độc hại trở thành thành phần quan trọng chế bảo vệ Phương pháp phân tích tĩnh mã độc cổ điển đem lại hiệu cao nhiên nhiều phần lu an mềm độc hại gần sử dụng kỹ thuật đa hình, biến hình kỹ thuật lẩn n va tránh khác để thay đổi hành vi phần mềm độc hại cách nhanh chóng tạo Trong thập kỷ qua, nhiều nghiên cứu thực hiện, sử dụng gh tn to số lượng lớn phần mềm độc hại p ie phương pháp khai phá liệu phân tích tĩnh động Một dạng w phần mềm độc hại gọi phần mềm độc hại có mục tiêu, chưa có oa nl nhiều nghiên cứu Phần mềm độc hại có mục tiêu, tập hợp Mối đe d dọa liên tục nâng cao (APT), phát triển số lượng độ phức tạp an lu năm gần Tấn cơng mạng có mục tiêu (thông qua phần mềm độc hại nf va nhắm mục tiêu) ngày đóng vai trị độc hại việc phá vỡ hệ oi lm ul thống tài xã hội trực tuyến APT thiết kế để ăn cắp bí mật cơng ty / quốc gia / gây tổn hại đến lợi ích quốc gia / cơng ty Rất khó để nhận z at nh phần mềm độc hại có mục tiêu công cụ chống vi-rút, Hệ thống phát xâm nhập(Intrusion Detection System - IDS), Hệ thống phòng chống xâm nhập IPS z công cụ phát phần mềm độc hại tùy chỉnh Những kẻ công tận dụng @ gm kỹ thuật công xã hội (Social Engineering) với nhiều lỗ hổng l chưa phát để thực triển khai phương thức công Cùng với m co đó, đời gần Mã hóa khóa Ransomware(phần mềm sau lây nghiêm trọng tổ chức/quốc gia cá nhân an Lu nhiễm vào máy tính, mã hóa chặn truy cập liệu) đặt mối đe dọa n va ac th si Từ nhu cầu phát triển phân tích mã độc trên, luận văn tập trung nghiên cứu phương pháp phát mã độc dựa phân tích mẫu với nội dung trình bày sau: Chƣơng 1: Mã độc số phƣơng pháp phân tích mã độc Giới thiệu chương khái niệm mã độc phân tích mã độc số phương pháp, công cụ xác định mã độc hành Chƣơng 2: Mơ hình phát mã độc Giới thiệu chương: Chương đưa mơ hình chung cho việc xử lý lu liệu độc hại, giới thiệu cách thức để trích xuất liệu sang dạng phân tích được, an n va cuối khai phá mẫu để tìm ngưỡng phù hợp để xác định mã Chƣơng 3: Thử nghiệm đánh giá gh tn to độc phân tích xem liệu có phải độc hại hay không ie Giới thiệu chương: Chương giới thiệu tập liệu, cách thức thực p triển khai mơ hình phân tích mã độc nl w Nội dung chương giới thiệu trình thu thập liệu thử nghiệm, xử lý oi lm ul nf va an lu nhận xét đánh giá d oa trích chọn đặc trưng, huấn luyện mơ hình thuật tốn học máy, đưa kết z at nh z m co l gm @ an Lu n va ac th si đây: lu an n va p ie gh tn to Hình III-1: File liệu đặc trƣng liệu mã độc thu thập đƣợc nl w 3.2 Cài đặt thử nghiệm d oa 3.2.1 Cài đặt môi trường thực nghiệm Môi trƣờng thực nghiệm an lu a) va Để thực trình thực nghiệm, luận văn sử dụng máy tính có cấu hình tiêu ul nf chuẩn sau để thực trình huấn luyện giải thuật: Vi xử lý: Intel i5 ● Dung lượng Ram: 4GB ● Hệ điều hành: Ubuntu Desktop 18.04 phiên x64 (64 bits) oi lm ● z at nh z Ngồi ra, luận văn sử dụng ngơn ngữ lập trình Python thư viện Numpy, @ Numpy thư viện lõi phục vụ cho khoa học máy tính Python, hỗ l ● gm Pandas scikit-learn để cài đặt huấn luyện mơi Trong đó: m co trợ cho việc tính tốn mảng nhiều chiều, có kích thước lớn với hàm tối ưu áp dụng lên mảng nhiều chiều Numpy đặc biệt hữu ích thực hàm Pandas thư viện mã nguồn mở, hỗ trợ đắc lực thao tác liệu n va ● an Lu liên quan tới Đại Số Tuyến Tính ac th 42 si Đây cơng cụ phân tích xử lý liệu mạnh mẽ ngơn ngữ lập trình python Thư viện sử dụng rộng rãi nghiên cứu lẫn phát triển ứng dụng khoa học liệu Thư viện sử dụng cấu trúc liệu riêng Dataframe Pandas cung cấp nhiều chức xử lý làm việc cấu trúc liệu Scikit-learn thư viện mã nguồn mở ngành machine learning, ● mạnh mẽ thông dụng với cộng đồng Python, thiết kế NumPy SciPy Scikit-learn cung cấp gần toàn thuật tuán học máy, cung cấp sẵn công cụ tiền xử lý liệu đánh giá độ xác mơ hình lu Cài đặt thực nghiệm an b) thành tập là: tập liệu huấn luyện tập liệu thử nghiệm cho mục đích huấn n va Với tồn liệu thu thập trích xuất đặc trưng trên, luận văn chia liệu to gh tn luyện đánh giá mơ hình theo tỉ lệ tương ứng 80% 20% Cụ thể liệu hai p ie tập phân bố bảng sau: oa nl w Bình Mã độc d Dữ liệu 1382 806 2188 356 192 548 ul nf va Thử nghiệm an lu Huấn luyện Tổng thƣờng oi lm Bảng III-1: Phân bố tập liệu huấn luyện thử nghiệm Để tăng tốc độ huấn luyện độ xác mơ hình, luận văn sử dụng phương z at nh pháp Chính quy hóa (standardisation) trình bày chương để chuẩn hố liệu z Luận văn sử dụng nhiều thuật toán khác cho toán phát mã độc gm @ như: Navie-Baye, SVM, Decision Tree, Random Forest Với thuật toán, cho l kết khác Do đó, mơ hình chạy thực nghiệm với toàn thuật phát mã độc an Lu 3.2.2 Phương pháp đánh giá m co toán, đánh giá lựa chọn thuật tốn có độ xác cao phù hợp với toán n va Để đánh giá độ xác thuật tốn học máy, luận văn sử dụng ac th 43 si phương pháp sau: a) Accuracy Accuracy cách đánh giá đơn giản hay sử dụng Phương pháp đánh giá dựa công thức đơn giản tỉ lệ số mẫu dự đoán so với tổng số mẫu có tập liệu thử nghiệm Công thức cụ thể sau: Phương pháp khơng quan tâm đến độ xác nhãn mà quan lu tâm số mẫu dự đoán nhãn Các phương pháp đánh giá chi tiết an b) n va dựa kết dự đoán nhãn Precision Recall tn to Với cách xác định lớp positive, Precision định nghĩa tỉ lệ số ie gh điểm true positive số điểm phân loại positive (TP + FP) Recall p định nghĩa tỉ lệ số điểm true positive số điểm thực positive (TP + mẫu số khác nhau: d oa nl w FN) Một cách toán học, Precision Recall hai phân số có tử số oi lm ul nf va an lu Trong đó: TP: số lượng ghi gán nhãn “bình thường” phân loại ● TN: số lượng ghi gán nhãn “mã độc” phân loại ● FP: số lượng ghi gán nhãn “mã độc” bị phân loại sai thành “bình z at nh ● z gm FN: số lượng ghi gán nhãn “bình thường” bị phân loại sai thành m co “mã độc” l ● @ thường” Precision cao đồng nghĩa với việc độ xác điểm tìm cao an Lu Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực n va positive thấp ac th 44 si c) F1 score F1 Score trung bình điều hịa precision recall Do đại diện việc đánh giá độ xác đồng thời precision recall Cơng thức tính: Hay: lu F1 – score có giá trị nằm nửa khoảng (0; 1] F1 cao, phân lớp an n va tốt Ma trận nhầm lẫn Ma trận nhầm lẫn ma trận thể có điểm liệu thực thuộc gh tn to d) ie vào lớp, dự đốn rơi vào lớp Ma trận có kích thước chiều p số lượng lớp liệu Giá trị hàng thứ i, cột thứ j số lượng điểm lẽ thuộc vào class nl w i lại dự đoán thuộc vào lớp j Tổng phần tử toàn ma trận d oa số điểm tập kiểm thử Các phần tử đường chéo ma trận số điểm an lu phân loại lớp liệu va Một ma trận nhầm lẫn gồm số sau lớp phân loại: ul nf Để phù hợp, ta sử dụng lại tốn phát mã độc để giải thích số oi lm Trong toán ta có lớp: lớp mã độc đốn Positive lớp bình thường đốn Negative: z at nh TP (True Positive): dự đốn file bình thường TN (True Negative): dựa đoán file mã độc FP (False Positive): Dự đoán mã độc thực tế bình thường FN (False Negative): Dự đốn bình thường thực tế mã độc z an Lu 3.3.1 Naive Bayes m co l gm @ 3.3 Kết đánh giá n va Thuật toán Naive Bayes cho kết phân loại mã độc mức thấp, đạt ac th 45 si 58,76% Kết chi tiết sau: Precision Recall F1 score Accuracy 98,96% 45,89% 62,71% 58,76% Bảng III-2: Kết thực nghiệm thuật toán Naive Bayes lu an n va p ie gh tn to d oa nl w nf va an lu oi lm ul Hình III-2: Ma trận nhầm lẫn thuật toán Naive Bayes z at nh z m co l gm @ an Lu n va ac th 46 si lu an n va p ie gh tn to nl w d oa Hình III-3: Ma trận nhầm lẫn bình thƣờng hóa thuật tốn Naive Bayes an lu Nhìn vào thơng tin ma trận nhầm lẫn, thấy với nhãn liệu bình thường, va thuật tốn cho kết nhận diện tốt nhận đến 190 chương trình chương ul nf trình bình thường Tuy nhiên, với nhãn mã độc, thuật toán lại nhận nhầm tới 60% nhận oi lm chương trình mã độc thành chương trình bình thường có 132 chương trình z at nh Điều lý giải thuật toán Naive Bayes, kết dự đoán từ xác suất xuất độc lập đặc trưng, điều nhiều trường hợp z gần giống m co l 3.3.2 Support Vector Machine gm @ khơng có nhiều đặc trưng, phân bố liệu bình thường liệu mã độc Đối với thuật toán SVM, kết thu không cao tương đối tốt an Lu với độ xác 94,89% n va ac th 47 si Precision Recall F1 score Accuracy 97,92% 88,68% 93,07% 94,89% Bảng III-3: Kết thực nghiệm thuật tốn SVM Khi nhìn vào ma trận nhầm lẫn thuật tốn hình đây, thấy thuật toán nhận nhầm khoảng 6% chương trình mã độc thành chương trình bình thường Cịn chiều ngược lại, thuật toán nhầm lẫn chương trình bình thường thành chương trình mã độc lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh Hình III-6: Ma trận nhầm lẫn thuật toán SVM z m co l gm @ an Lu n va ac th 48 si lu an n va p ie gh tn to Hình III-7: Ma trận nhầm lẫn bình thƣờng hóa thuật tốn SVM 3.3.3 Decision Tree w oa nl Kết thu sử dụng thuật toán Decision Tree đạt kết xấp xỉ d 98% Kết cụ thể bảng đây: Recall F1 score Accuracy 95,94% 97,17% 97,99% nf va an 98,44% lu Precision oi lm ul Bảng III-4: Kết thực nghiệm thuật toán Decision Tree z at nh z m co l gm @ an Lu n va ac th 49 si lu an n va p ie gh tn to d oa nl w Hình III-8: Ma trận nhầm lẫn thuật toán Decision Tree oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va Hình III-9: Ma trận nhầm lẫn bình thƣờng hóa thuật tốn Decision Tree ac th 50 si Cụ thể hơn, thuật tốn nhận xác 189 chương trình bình thường 348 chương trình mã độc Số chương trình bị nhận nhầm chiếm khoảng 1-2% nhãn 3.3.4 Random Forest Thuật toán Random Forest cho kết thực nghiệm cao với độ xác lên đến 99,64% cao thuật toán Decision Tree Precision Recall F1 score Accuracy 98,96% 100% 99,48% 99,64% Bảng III-5: Kết thực nghiệm thuật toán Random Forest lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z Hình III-10: Ma trận nhầm lẫn thuật toán Random Forest m co l gm @ an Lu n va ac th 51 si lu an n va p ie gh tn to Hình III-11:Ma trận nhầm lẫn bình thƣờng hóa thuật tốn Random Forest nl w Có thể thấy, thuật tốn khơng nhận nhầm chương trình mã độc d oa thành chương trình bình thường Ngược lại, có chương trình bình thường bị nhận an lu nhầm thành chương trình mã độc Điều hồn tồn dễ hiểu Random Forest va coi thuật toán nâng cấp thuật toán Decision Tree, thuật toán Nhận xét Phƣơng pháp Accuracy 62,71% 58,76% 93,07% 94,89% z SVM F1 score z at nh Naive Bayes oi lm 3.4 ul nf Decision Tree cho kết cao 97,17% @ 97,99% Random Forest 99,48% 99,64% l gm Decision Tree m co Hình III-12: Tổng kết kết thuật toán an Lu Qua tất thực nghiệm đưa số nhận xét sau: Thuật toán Naive Bayes cho kết tệ nhất, có q nửa chương trình độc n va ● ac th 52 si hại bị nhận nhầm thành chương trình bình thường Điều hồn tồn khơng thể chấp nhận phương pháp phát mã độc Vì khơng thể áp dụng phương pháp vào tồn phát mã độc Thuật tốn SVM cho kết tốt với độ xác xấp xỉ 95% Tuy ● nhiên so với phương pháp khác, độ xác chưa đạt kỳ vọng phát mã độc cịn nhiều chương trình độc hại bị nhận nhầm thành chương trình bình thường Thêm vào thuật tốn SVM có thời gian chạy lâu phương pháp khác Thuật toán Decision Tree cho độ xác vào khoảng 98%, số lượng ● lu chương trình mã độc bị nhận nhầm thành chương trình bình thường khoảng an n va 1-2% Được coi thuật toán nâng cấp Decision Tree, Random Forest to ● gh tn thể ưu điểm cho kết tốt với 99% Với thuật p ie tốn này, thực nghiệm khơng có chương trình độc hại bị nhận nhầm thành chương trình bình thường Chỉ có khống 1% chương trình bình thường bị nhận nhầm nl w thành chương trình mã độc, điều chấp nhận Đây thuật Kết luận chƣơng an lu 3.5 d oa toán luận văn khuyến nghị xử dụng toán phát mã độc va Như vậy, chương III trình bày trình thử nghiệm, bao gồm bước thực ul nf hiện, kết thực nghiệm, đánh giá nhận xét kỹ thuật học máy sử dụng oi lm phát mã độc Luận văn dừng lại việc thực với file thực thi Trong thuật toán đề cập trên, luận văn kiến nghị sử dụng Random Forest vào toán phát z at nh mã độc thực tế, với độ xác 99.64% z m co l gm @ an Lu n va ac th 53 si KẾT LUẬN Kết đạt đƣợc: Luận văn nghiên cứu phương pháp phát mã độc dựa phân tích mẫu đạt số kết sau: Trình bày kiến thức khái quát mã độc khái niệm, dạng mã độc, lịch sử phát triển mã độc Ngoài ra, đồ án giới thiệu số kỹ thuật phát mã độc dưa chữ kí dựa hành vi Đưa khái niệm học máy, phương pháp học máy số kỹ lu thuật học máy phổ biến Navie Bayes, Support Vector Machine, Decision Tree an Random Forest Cũng với giới thiệu số phương pháp trích chọn đặc trưng n va cho toán phát mã độc tn to Trình bày kỹ thuật trích xuất phân tích mã lệnh mã độc Từ xây dựng · p ie gh mơ hình phát mã độc dựa phân tích mẫu Thu thập liệu xây dựng môi trường thực nghiệm, đánh giá kết oa nl w phương pháp phát mã đọc dựa phân tích mẫu d Hƣớng phát triển tƣơng lai: lu va an Trên sở kiến thức tìm hiểu kinh nghiệm kết Dữ liệu thu cho q trình thực nghiệm cịn nhỏ Luận văn oi lm ul · nf trình thử nghiệm, luận văn cải thiện nâng cao theo hướng: thu thập thêm liệu với kích thước lớn hơn, đa dạng loại mã độc định dạng · z at nh file chạy nhiều môi trường khác Chuyển từ mơ hình phân loại lớp cho tốn phát mã độc sang mơ z hình nhận nhiện nhiều nhãn mã độc khác Thử nghiệm số mơ hình học sâu để Nghiên cứu phương pháp trích chọn đặc trưng dựa mã lệnh mã m co l độc gm · @ đạt kết cao an Lu n va ac th 54 si T I LIỆU THAM KHẢO [1] Amit Sahu Prachi Parwar Deepak Agrawal An Analysis to Detect Malware using Machine Learning [2] Aditya Mathur - A_survey_of_malware_detection_techniques [3] M Boldt and B Carlsson Analysing privacy-invasive software using computer forensic methods http: // www e-evidence info/ b html , January 2006 K Wang and S J Stolfo Anomalous payload-based network intrusion detection In Proceedings of the 7th International Symposium on (RAID), pages 201–222, September 2004 https://www.researchgate.net/publication/49285561_Malware_Detection_Based_ on_Structural_and_Behavioural_Features_of_API_Calls https://www.researchgate.net/figure/PE-Miner-programs-mainGUI_fig2_255787076 https://www.researchgate.net/publication/224093090_Malware_Detection_Using _Perceptrons_and_Support_Vector_Machines https://www.researchgate.net/publication/224951943_Malware_Detection_Modul e_using_Machine_Learning_Algorithms_to_Assist_inCentralized_Security_in_E nterprise_Networks V Shijoa, A Salim, International Conference on Information and Communication Technologies (ICICT 2014) W Li, K Wang, S Stolfo, and B Herzog Fileprints: Identifying file types by ngram analysis 6th IEEE Information Assurance Workshop, June 2005 Alazab, Mamoun, Sitalakshmi Venkatraman, Paul Watters, and Moutaz Alazab (2011) Zero-day Malware Detection based on Supervised Learning Algorithms of API call Signatures Proceedings of the 9-th Australasian Data Mining Conference, 171-181 Baldangombo Usukhbayar, Nyamjav Jambaljav, Shi-Jinn Horng (2013) A Static Malware Detection System Using Data Mining Methods Cornell University Gavrilut, Dragos, Mihai Cimpoesu, Dan Anton, Liviu Ciortuz (2009) Malware Detection Using Machine Learning The International Multiconference on Computer Science and Information Technology Priyank Singhal, Nataasha Raul (2015) Malware Detection Module using Machine Learning Algorithms to Assist in Centralized Security in Enterprise Networks Badr Hssina, Abdelkarim MERBOUHA, Hanane Ezzikouri, Mohammed Erritali , A comparative study of decision tree ID3 and C4.5., 2014, (IJACSA) International Journal of Advanced Computer Science and Applications, Special Issue on Advances in Vehicular Ad Hoc Networking and Applications [4] lu [5] an n va [6] tn to [7] p ie gh [8] d oa nl [11] w [10] [9] [13] z at nh [14] oi lm ul nf va an lu [12] z m co l gm @ [15] an Lu n va ac th 55 si lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th 56 si