(Luận Văn Thạc Sĩ) Ứng Dụng Mô Hình Học Máy Trong Phát Hiện Nguy Cơ Mã Độc Trên Nền Tảng Android.pdf

55 5 0
(Luận Văn Thạc Sĩ) Ứng Dụng Mô Hình Học Máy Trong Phát Hiện Nguy Cơ Mã Độc Trên Nền Tảng Android.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled i LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu trong luận văn này là sản phẩm của cá nhân tôi dưới sự hướng dẫn của thầy giáo PGS TS Phạm Thanh Giang Các số liệu, kết quả được công bố[.]

i LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu luận văn sản phẩm cá nhân hướng dẫn thầy giáo PGS TS Phạm Thanh Giang Các số liệu, kết cơng bố hồn tồn trung thực Những nội dung trình bày luận văn nghiên cứu, tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng, trích dẫn đầy đủ, hợp pháp Tơi xin hồn tồn chịu trách nhiệm trước lời cam đoan Hà Nội, ngày tháng năm 2020 Người cam đoan Trần Đức Kiên ii LỜI CẢM ƠN Lời đầu tiên, xin gửi lời biết ơn sâu sắc tới thầy giáo PGS TS Phạm Thanh Giang, Trưởng phịng Tin học viễn thơng, Viện Cơng nghệ thơng tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam người thầy ln khuyến khích, tận tình bảo, hướng dẫn hỗ trợ suốt trình nghiên cứu Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Viện Công nghệ thơng tin tận tình đào tạo, cung cấp cho kiến thức vô giá, tạo điều kiện tốt cho tơi q trình học tập, nghiên cứu Tôi xin gửi lời cảm ơn tất người thân u gia đình tơi tồn thể bạn bè, đặc biệt bạn Nguyễn Việt Đức, cán Phịng Tin học viễn thơng, Viện Cơng nghệ thơng tin giúp đỡ, động viên khó khăn, trở ngại Cuối cùng, tơi xin gửi lời cảm ơn tới đồng nghiệp Bộ Tư lệnh Cảnh vệ, Bộ Công an giúp đỡ, tạo điều kiện thuận lợi cho học tập nghiên cứu chương trình thạc sĩ Viện Cơng nghệ thơng tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU v DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi MỞ ĐẦU CHƯƠNG TỔNG QUAN 1.1 NGHIÊN CỨU LIÊN QUAN 1.2 GIỚI THIỆU VỀ NỀN TẢNG ANDROID 1.2.1 Lịch sử hình thành phát triển 1.2.2 Một số phương pháp lây nhiễn mã độc tảng Android 1.3 PHÂN TÍCH MÃ ĐỘC 1.3.1 Các phương pháp phân tích mã độc Android 10 1.3.2 Ưu Nhược điểm phân tích tĩnh phân tích động 16 1.4 GIỚI THIỆU VỀ HỌC MÁY 17 1.4.1 Phân loại thuật toán học máy 19 1.4.2 Giới thiệu số thuật toán học máy hiệu với toán 20 CHƯƠNG ỨNG DỤNG MƠ HÌNH HỌC MÁY TRONG PHÁT HIỆN NGUY CƠ MÃ ĐỘC TRÊN NỀN TẢNG ANDROID 25 2.1 PHƯƠNG PHÁP THU THẬP DỮ LIỆU THÔ 25 2.1.1 Thu thập liệu 25 2.1.2 Giải thích cấu tạo file APK 25 2.1.3 Thực dịch ngược file APK để lấy thuộc tính với apktool 28 2.1.4 Trích xuất feature từ liệu thô dịch ngược từ apktool 30 2.2 PHƯƠNG PHÁP CHUẨN HĨA TẬP THUỘC TÍNH 31 2.2.1 Tập thuộc tính 31 2.2.2 Chuyển liệu sang không gian vector 34 CHƯƠNG ĐỀ XUẤT MƠ HÌNH, ĐÁNH GIÁ 37 CHƯƠNG KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 iv DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Ý NGHĨA KÝ HIỆU OS APK Operating system – Hệ điều hành Android Package Kit FN False Negative FP False Positive TN True Negative TP True Positive FNR False Negative Rate FPR False Positive Rate TNR True Negative Rate TPR True Positive Rate LR Logistic Regression – Hồi quy Logistic SVM Support Vector Machine v DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Ưu nhược điểm phân tích tĩnh, phân tích động 16 Bảng 3.1 Precision Recall S1 đến S8 40 Bảng 3.2 Precision Recall nhóm thuộc tính 42 vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Sơ đồ quy trình học máy 18 Hình 2.2 Mơ hình phân lớp nhị phân SVM 21 Hình 3.1 Cách đóng gói file APK 28 Hình 3.2 Thư mục chứa liệu giải nén từ file APK 29 Hình 3.3 Biểu đồ F1 – Score thuộc tính S1 đến S8 39 Hình 3.4 Biểu đồ Accuracy thuộc tính S1 đến S8 39 Hình 3.5 F1-score nhóm thuộc tính 44 MỞ ĐẦU Ngày với phát triển mạnh mẽ công nghệ thông tin phát triển Internet toàn cầu nguy an toàn thơng tin trở nên nguy hiểm khó lường hơn, mã độc hại (malware) mối hiểm họa nghiêm trọng Internet Mã độc ngày tiến hóa với biến thể đa dạng từ virus máy tính, worm, botnet…với hình thức xâm nhập, che dấu ngày tinh vi Số lượng hình thái đa dạng mã độc ngày tăng, phần mềm phịng chống mã độc khơng thể phát hiện, ngăn chặn hết dẫn đến hàng triệu máy tính bị nhiễm mã độc Ở Việt Nam, theo số liệu thống kê BKAV năm 2017 có đến 15 triệu máy tính Việt Nam bị nhiễm mã độc tương ứng thiệt hại khoảng 12.300 tỷ đồng Ngoài ra, ngày để phát triển mã độc không yêu cầu nhiều kỹ cao tính sẵn có cơng cụ cơng internet Tính sẵn sàng cao kỹ thuật chống phát khả mua phần mềm độc hại thị trường chợ đen dẫn đến hội trở thành kẻ công cho ai, không phụ thuộc vào cấp độ kỹ trình độ chun mơn Do đó, bảo vệ hệ thống máy tính khỏi phần mềm độc hại Intenet nhiệm vụ quan trọng an ninh mạng cho người dùng, doanh nghiệp Một công đơn lẻ dẫn đến liệu bị xâm phạm gây hậu to lớn Sự mát lớn công thường xuyên đặt yêu cầu cần thiết phải có phương pháp phát xác kịp thời Android tảng hệ điều hành phổ biến thiết bị di động ngày Cùng với hàng trăm nghìn ứng dụng kênh lưu trữ trực tuyến, tảng Android đáp ứng hầu hết nhu cầu đa dạng người sử dụng Do phổ biến, tính mở, tính tùy biến linh hoạt nên vấn đề an tồn, bảo mật nói chung mã độc nói riêng hệ thống Android ln chủ đề nóng Phát mã độc bước quan trọng để ngăn chặn tiêu diệt hoàn toàn mã độc khỏi thiết bị hệ thống mạng; khôi phục lại trạng thiết bị, hệ thống mạng; truy tìm nguồn gốc cơng Hầu hết mã độc dạng chương trình, dịch vụ đọc thông thường Các cách phát mã độc là: sử dụng cơng cụ kĩ thuật phân tích Có hai kĩ thuật phân tích Phân tích tĩnh (khơng cần chạy mã độc hệ thống) Phân tích động (thực mã độc chạy hệ thống) Học máy lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Ứng dụng học máy phát mã độc chủ đề thu hút nhiều quan tâm thời gian qua; khắc phục nhược điểm phương pháp so sánh mẫu dựa sở liệu mã độc xây dựng định nghĩa từ trước khơng có khả phát mẫu mã độc mới, số lượng liệu mã độc ngày gia tăng làm cho sở liệu mẫu trở nên ngày lớn Hơn nữa, ngày số lượng mã độc ngày tăng cao dẫn đến số lương mẫu ngày nhiểu địi hỏi phải có phương pháp phù hợp để phát mã độc Do hướng nghiên cứu dựa vào mơ hình học máy để phát phân loại mã độc tỏ phương pháp tìm hiệu số lượng mẫu mã độc lớn biến thể mã độc ngày đa dạng Tuy nhiên vấn đề quan tâm làm để xây dựng mơ hình học máy hiệu mang lại kết xác cao Trong có yếu tố quan trọng ảnh hưởng đến mơ hình hiệu qủa thuật tốn học máy lựa chọn đặc trưng phương pháp trích chọn đặc trưng phù hợp Trong luận văn, tác giả đề xuất phương pháp thu thập tiêu chí mở rộng gồm thơng tin đa dạng thu thập từ ứng dụng Android sau phân tích đánh giá mức độ an tồn ứng dụng Dữ liệu đánh giá dựa tập mẫu bao gồm 82.682 mẫu với 545.167 feature Với tập mẫu vậy, phương pháp hứa hẹn đạt hiệu việc dự đoán phát loại mã độc khác nhau, nhiên nghiên cứu đảm bảo hiệu cao CHƯƠNG TỔNG QUAN 1.1 NGHIÊN CỨU LIÊN QUAN Hiện nay, nhằm thay phương pháp đối chiếu chữ ký số cũ với hạn chế việc xử lý mẫu mã độc mới, nghiên cứu thường tập trung phân tích sâu vào tập tin apk để tìm đặc điểm riêng Hai chế chế phân tích tĩnh chế phân tích động Trong đó, chế thứ phương pháp trích xuất đặc trưng từ mã nguồn tập tin cài đặt Cơ chế cịn lại thu thập luồng thơng tin nhập xuất thời gian thực thi ứng dụng Các đặc trưng rút từ hai phương pháp thuộc tính đầu vào phương pháp học máy[1] Crowdroid, AMDA MADAM nằm số công trình nghiên cứu thực phát phần mềm độc hại android thơng qua chế phân tích động Trình theo dõi Crowdroid ghi lại tất gọi hệ thống sử dụng kỹ thuật phân cụm để xây dựng mơ hình phân loại AMDA tập trung theo dõi hành vi lành tính qua15 lệnh gọi hệ thống để nhận biết mã độc MADAM đề xuất khung phát kết hợp tính cấp lõi cấp ứng dụng MADAM nhận thấy có 11 lệnh gọi hệ thống cấp độ kernel mơ tả tốt hành vi thiết bị Tuy nhiên, đặc trưng rút từ phân tích động thường tốn thiếu tính khái quát Đối với thuộc tính tĩnh, Ignacio Martín cộng khai thác thông tin cửa hàng ứng dụng ngày đưa lên, số lượt tải, số lượt bình chọn hay tên nhà phát triển để thuộc tính Sau đó, họ thử thuộc tính với thuật toán định, máy vec-tơ hỗ trợ hồi quy logistic.Chen công sự[2] kết hợp thuật tốn PCA với thuộc tính bao gồm: quyền ứng dụng, thành phần ứng dụng hàm chức Tuy nhiên, số lượng mẫu có hạn với 387 mẫu nên số lượng thuộc tính

Ngày đăng: 31/03/2023, 15:19

Tài liệu cùng người dùng

Tài liệu liên quan