DỰ BÁO NHIỄM MALWARE TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU

51 388 0
DỰ BÁO NHIỄM MALWARE TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Anh Vũ DỰ BÁO NHIỄM MALWARE TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Anh Vũ DỰ BÁO NHIỄM MALWARE TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2014 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Anh Vu FORECASTING MALWARE INFECTION IN MOBILE DEVICES BY DATA MINING Major: Information Technology Supervisor: Assoc Prof Ha Quang Thuy HÀ NỘI - 2014 Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy tận tình hướng dẫn bảo suốt trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy cô, anh chị, bạn phòng thí nghiệm KT-Lab hỗ trợ nhiều kiến thức chuyên môn trình thực khóa luận Tôi xin cảm ơn bạn lớp K55CLC ủng hộ khuyến khích suốt suốt trình học tập trường Cuối cùng, xin gửi cám ơn vô hạn tới gia đình bạn bè, người bên cạnh, giúp động viên trình học tập suốt trình thực khóa luận Tôi xin chân thành cảm ơn! Hà Nội, ngày 13 tháng 05 năm 2014 Sinh viên Nguyễn Anh Vũ i DỰ BÁO MALWARE TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU Khóa QH-2010-I/CQ, ngành công nghệ thông tin Tóm tắt khóa luận: Trong năm gần đây, số lượng malware tỉ lệ nhiễm mã độc tăng lên đáng kể, đặc biệt tảng di động Các phần mềm quét malware bỏ sót không nhận dạng mã độc công cụ dựa vào danh sách malware xác định trước theo thống kê cập nhật Do vậy, khóa luận xin đề xuất mô hình dự báo khả nhiễm malware theo hướng tiếp cận khai phá liệu, cụ thể sử dụng luật kết hợp Khóa luận tập trung vào phương pháp vận dụng luật kết hợp vào toán dự báo malware Dựa dấu hiệu trùng hợp malware đặc trưng thiết bị nhiễm malware, khóa luận đề nghị mô hình dự báo dựa tập luật biểu diễn theo đặc trưng thiết bị Khóa luận xây dựng phần mềm thi hành mô hình dự báo đề xuất Kết thực nghiệm tập liệu tổ chức chuyên nghiệp cung cấp (tập liệu Carat tập liệu malware) cho 225 luật dự báo thuộc diện luật (độ hỗ trợ thấp độ tin cậy cao) Từ khóa: dự báo nhiễm malware, luật kết hợp ii FORECASTING MALWARE INFECTION IN MOBILE DEVICES Nguyen Anh Vu QH-2010-I/CQ course, information technology faculty Abstract thesis: In recent yeas, the number of malware and rate of being infected by malicious scripts were increased significantly, especially in mobile framework Malware scanning tools sometimes omit or can not identify malicious scripts because these tools is based on the list of malwares given statistically and updated daily Therefore, the thesis suggest a model forecasting malware infection by the approach of data mining, specifically using association rule Content of the thesis focus on presenting properties of association rule and methods of applying them on problem of forecasting malware infection on mobile devices Keyword: forecasting malware infection, association rule iii Lời cam đoan Tôi xin cam đoan phương pháp dự báo nhiễm malware thiết bị di động khai phá liệu trình bày khóa luận thực hướng dẫn PGS.TS Hà Quang Thụy Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 13 tháng 05 năm 2014 Sinh viên Nguyễn Anh Vũ iv MỤC LỤC Lời cảm ơn i Tóm tắt khóa luận ii Lời cam đoan iv Mục lục v Danh sách bảng .vii Danh sách hình vẽ viii Danh sách từ viết tắt ix Lời mở đầu Chương Giới thiệu chung dự báo malware thiết bị di động 1.1 Khái niệm malware 1.2 Giới thiệu Android 1.2.1 Gói ứng dụng Ảndroid 1.2.2 Gói ứng dụng Carat 1.3 Malware thiết bị di động 1.3.1 Mục tiêu hoạt động malware 1.3.2 Tỉ lệ nhiễm malware thiết bị di động 1.3.3 Các nhận định khác malware 1.3.4 Sự phụ thuộc vào vùng miền địa lý 1.4 Bài toán dự báo malware thiết bị di động Chương Hướng tiếp cận khai phá liệu dự báo nhiễm malware 2.1 Luật kết hợp 2.1.1 Bài toán phát luật kết hợp 2.1.2 Quy trình phát luật kết hợp 10 2.2 Luật kết hợp lớp Error! Bookmark not defined 2.3 Thuật toán Top-k Error! Bookmark not defined 2.3.1 Phát luật thỏa mãn ràng buộc Error! Bookmark not defined 2.3.2 Phát luật k-tối ưu Error! Bookmark not defined 2.4 Thuật toán tìm kiếm luật OPUS Error! Bookmark not defined v Chương Mô hình dựbaáo nhiễm malware khai phá liệuError! Bookmark not defined 3.1 Mô hình đề xuất Error! Bookmark not defined 3.2 Phát trùng khớp malware 20 3.3 Xây dựng dấu hiệu báo 23 3.3.1 Tìm đặc trưng thiết bị nhiễm malware 23 3.3.2 Tìm tập luật dự báo 24 Chương Thực nghiệm đánh giá 25 4.3 Môi trường thực nghiệm 25 4.3.1 Cấu hình phần cứng 25 4.3.2 Công cụ thực nghiệm 25 4.2 Dữ liệu thực nghiệm 26 4.3 Các bước thực nghiệm 28 4.4 Kết thực nghiệm đánh giá 29 Kết luận định hướng nghiên cứu 35 TÀI LIỆU THAM KHẢO 36 vi Danh sách bảng Bảng 1.1 Một số malware phổ biến Bảng 1.2 Cận số thiết bị nhiễm mã độc số vùng Bảng 4.1 Cấu hình phần cứng 25 Bảng 4.2 Tổng quan tập liệu Carat 27 Bảng 4.3 Tổng quan tập liệu Malware 28 Bảng 4.4 Thiết lập để tìm tập mục cho đặc trưng 30 Bang 4.5 Thiết lập để tìm tập luật 33 vii SI:C,P,V.add(c.ID); } } NC,P,V:=|SC,P,V| ;NI:C,P,V=|SI:C,P,V|; } Từ đây, phân loại thiết bị nhiễm malware, thiết bị “sạch”.Tập liệu người dùng làm gọn đưa dạng tập giao dịch với item ứng dụng (chọn số nguyên làm đại diện cho ứng dụng này) Nghĩa hàng danh sách số nguyên mà số đại diện cho ứng dụng mà thiết bị sử dụng Ví dụ: 37 132 205 587 779 780 1183 1767 2486 2848 3082 3945 4506 5082 6133 11540 13783 16629 22110 25783 46603 112625 112626 Tương tự danh sách malware đánh số đại diện Mỗi malware biểu diễn số nguyên 3.3 Phát dấu hiệu dự báo 3.3.1 Tìm đặc trưng thiết bị nhiễm malware Việc nhiễm malware có ảnh hưởng đến trạng thái hoạt động thiết bị Có thể tìm vài đặc điểm thường thấy thiết bị nhiễm malware, chẳng hạn thời lượng pin, lượng tài nguyên nhớ, ứng dụng cài đặt,… Trong phạm vi nghiên cứu khóa luận này, đặc trưng thiết bị nhiễm malware tập ứng dụng thường cài đặt thiết bị Tức mục tiêu tìm tập ứng dụng có lượng tần suất xuất đủ nhiều để coi dấu hiệu ban đầu việc dự báo Phương pháp áp dụng khai phá luật kết hợp Cụ thể, coi thiết bị nhiễm malware giao dịch sở liệu giao dịch, ứng dụng thiết bị tập mục Tứ đó, tìm tập mục phổ biến, tập ứng dụng xuất nhiều Để làm trên, trước hết cần lọc từ tập liệu D ban đâu thiết bị có nhãn I (nhiễm malware) Tập thiết bị nhiễm malware sau loại bỏ nhãn I, gọi D1 Tiến hành tìm tập mục phổ biến D1 theo thuật toán Top-K với độ phủ tối thiểu minCov cho trước, coi số lần xuất hiển tối thiểu mà tập ứng dụng phải đạt Một độ đo tần suất f đề xuất sau: f=covD1/covD 25 đó: covD1 số lần xuất tập mục D1 covD số lần xuất tập mục D Ý nghĩa độ đo f khả nhiễm mã độc đặc trưng so với thiết bị khác có tập ứng dụng Nói cách khác, ta xét số lần xuất tập ứng dụng cụ thể xác định xem số đó, thiết bị nhiễm malware chiếm tỉ lệ Ví dụ: Xét tập mục phổ biến X = {101 132 145} tương ứng ứng dụng có ID 101, 132, 145 Tập mục X xuất D1 50 lần, xuất D 1000 lần Nói cách khác, có 1000 thiết bị sử dụng đồng thời ứng dụng 101, 132, 145 có đến 50 thiết bị nhiễm malware Vậy ta có: CovD1= 50; covD=1000 => f = 50 /1000 = 5%; 3.3.2 Tìm tập luật Như phần trước đề xuất, mục tiêu tập luật cần tìm tập tất luật kết hợp có dạng {ai} → I , vế trái tập mục, vế phải nhãn L với L = {C, I} Tuy nhiên, đồng nhãn lớp thành mục tập mục gọi ({ai}, L) Từ áp dụng kĩ thuật khai phá luật kết hợp top-K để tìm k luật tốt tìm luật theo thuật toán tìm kiếm OPUS Cụ thể bước tiến hành sau: - Kết hợp nhãn lớp thiết bị thành tập mục có dạng ({ai}, L ) {ai} tập gồm i mục tương ứng với i ứng dụng thiết bị, L nhãn nhận giá trị C (clean – thể thiết bị sạch) I (infected – thể thiết bị nhiễm mã độc) - Áp dụng thuật toán top-K để sinh tập gồm k luật kết hợp tốt - Thiết lập ràng buộc để tìm luật thỏa mãn yêu cầu Các ràng buộc bao gồm:  Vế phải luật cố định trước mục “I” nhất, tìm luật kết hợp nhãn lớp  Các luật xếp theo độ mạnh (hay độ tin cậy) giảm dần, lọc luật tốt 26 Chương Thực nghiệm đánh giá Trong chương này, khóa luận trình bày thực nghiệm mô hình đề xuất chương ba Tôi tiến hành thực nghiệm 55,000 thiết bị di động chạy Android thu thập Carat Dựa vào kết thực nghiệm, tiến hành đánh giá, nhận xét đưa định hướng 4.3 Môi trường thực nghiệm 4.3.1 Cấu hình phần cứng Bộ xử lý Intel® Core™ i7-2630QM CPU @ 2.00 GHz RAM 6.00 GB Hệ điều hành Microsoft Windows Professional Bảng 4.1 Cấu hình phần cứng 4.3.2 Công cụ thực nghiệm Trong khóa luận có sử dụng phần mềm Magnum Opus5 để tiến hành khai phá tập mục luật kết hợp Ngoài để xử lý tính toán độ đo cần thiết, sử dụng công cụ Eclipse để lập trình Hình 4.1 Giao diện công cụ Magnum Opus http://giwebb.com/ 27 Hình 4.2 Chương trình xây dựng Eclipse 4.2 Dữ liệu thực nghiệm 4.2.1 Tập liệu Carat Khóa luận sử dụng chỉnh sửa ứng dụng Carat phiên mã nguồn mở để ghi lại ID nhà phát triển, dc Các đội phát triển Carat công bố chỉnh sửa vào 11/4/2014 cung cấp liệu thu thập từ ngày đến 15/10/2013 Có 55,278 thiết bị Android nâng cấp lên phiên suốt trình thu thập ghi lại thông tin nhận diện gói Mỗi thiết bị chạy Carat nhận dạng số hiệu Carat ID Các số hiệu tính toán việc áp dụng hàm băm SHA-1 cho mã nhận dạng sẵn có thiết bị (như IMEI, địa Wifi MAC) thời gian cài đặt Carat Khi Carat lấy mẫu, duyệt danh sách tiến trình sinh ghi cho ứng dụng chạy Thông tin gói trích xuất trực tiếp thiết bị từ PackageInfo Bên cạnh Carat ID mã nhận dạng gói, Carat ghi lại tên phiên dịch gói (là chuỗi kí tự mà người đọc hiểu), phân quyền gói nhãn thời gian gói ghi lại Carat Các thông tin bổ sung sử dụng cho phân tích khác Bảng 4.1 thể thống kê tổng quan tập liệu Carat 28 Loại Số lượng Các thiết bị phân biệt 55,278 Các tên gói 64,916 Các devcert (dc) 41,809 Các 83,226 Các 192,080 Tổng số ghi 5,358,819 Bảng 4.2 Tổng quan tập liệu Carat Các tác giả Carat cung cấp chi tiết kĩ thuật bảo vệ quyền riêng tư sử dụng Carat [1] Việc Carat thu thập liệu thuộc tiến trình IRB UC Berkeley Vì nguyên nhân riêng tư, Carat không thu thập thông tin nhận dạng mang tính cá nhân người dùng thiết bị (như địa chỉ, số điện thoại,…) Người dùng Carat thông báo quyền thu thập liệu thiết bị họ Những thay đổi làm với Carat để thu thập giá trị dc gói, bên cạnh tên gói (giá trị p) mà thu thập Bởi giá trị dc không mang thông tin bổ sung người dùng, nên kĩ thuật thu thập liệu không ảnh hưởng tới quyền riêng tư người dùng Tôi định hướng cho tập liệu Carat mà giới thiệu báo cáo sẵn có việc nghiên cứu Để bảo vệ quyền riêng tư người dùng, có thay đổi nội dung sau đây: - Tính toán tên riêng thiết bị công khai việc sử dụng hàm băm SHA-1 Việc ngăn chặn địch thủ việc tương quan tên thiết bị - Chuyển tên gói (p) việc tính toán hàm băm SHA-1 Việc làm ẩn tên gói không công khai 29 4.2.2 Tập liệu Malware Tôi sử dụng liệu malware từ nguồn khác nhau: tập liệu Malware Genome cung cấp Zhou cộng [16], tập liệu Mobile Sandbox cung cấp Spreitzenbarth cộng [12], tập liệu McAfee cung cấp McAfee Nguồn tập liệu sử dụng tiêu chuẩn chúng để xác định xem liệu có chứa gói Android tập liệu hay không McAfee sử dụng kĩ thuật phân lớp độc quyền Khi sử dụng giao diện web Mobile Sandbox, đưa gói tới Mobile Sandbox để xem xét Mobile Sandbox bao gồm gói tập liệu số 40 công cụ anti-virus mà họ sử dụng để gắn cờ gói malware Malware Genome tập cố định mẫu malware biết mà thu thập suốt khoảng thời gian từ tháng 8/2010 đến 10/2011 Mỗi gói Android (.apk file) tập liệu, trích xuất nhận diện gói theo dạng Vì vậy, tập liệu malware bảng ghi Bảng nêu tổng quan tập liệu malware Loại Mobile Sandbox McAfee Malware Genome Union Các devcert (dc) 3,879 1,456 136 4,809 Các 13,080 2,979 756 15,804 Các 16,743 3,182 1,039 19,094 Các file apk 96,500 5,935 1,260 103,695 Bảng 4.3 Tổng quan tập liệu malware 4.4 Các bước thực nghiệm Để thực nghiệm chương trình, tiến hành bước sau - Bước 1: Gán nhãn “C” “I” cho thiết bị - Bước 2: Tìm đặc trưng thiết bị nhiễm malware  Bước 2a: Cô lập thiết bị có nhãn I vào sở liệu D1 30  Bước 2b: Trích xuất tập mục phổ biến D1, đồng thời tính toán số lần xuất (Độ phủ cov) tập mục  Bước 2c: Lọc tập mục có độ phủ lớn ngưỡng minCov cho trước  Bước 2d: Tính toán tỉ lệ số lần xuất D1 D (độ đo f)  Bước 2e: Lọc tập mục có độ f lớn ngưỡng minf cho trước - Bước 3: Tìm luật kết hợp có nhãn “I”  Bước 3a: Cố định ràng buộc cho giá trị nằm bên phải luật  Bước 3b: Trích xuất luật kết hợp công cụ theo tiêu chí tìm kiếm khác  Bước 3c: Thử lại với tiêu chí tìm kiếm khác đối chiếu chất lượng tập luật 4.5 Kết thực nghiệm - Lọc xử lý liệu: ứng dụng đánh mã số gán nhãn “I” (nhiễm mã độc) “C” (sạch) Hình 4.3 Kết gán nhãn cho thiết bị, dòng tương ứng với thiết bị 31 - Sau tiến hành lọc phân tích, ghi nhận 285 thiết bị có nhiễm malware, tổng số 55,000 thiết bị Tiến hành cô lập thiết bị có nhiễm malware, sử dụng công cụ Magnum Opus để phát tập mục phổ biến Các độ đo thiết lập sau: Tùy chỉnh Giá trị thiết lập Search for Itemset Search by Coverage Filter out Redundant Minimum coverage (count) 36 Maximum no 500,000 Maximum size 10 Bảng 4.4 Các thiết lập để tìm tập mục cho đặc trưng Kết thu khoảng gần 75,000 tập mục với độ phủ xếp giảm dần 32 Hình 4.4 Các tập mục phổ biến D1 33 Tiếp theo, tiến hành tính toán độ đo f hay tỉ lệ xuất tập mục tập D, lấy ngưỡng minf=0.01 , lọc lại 800 tập mục Mỗi tập mục tương ứng với dòng Ví dụ “10 5với f= 72/6998 0.010288653901114605” nghĩa tập mục {10, 5} xuất 72 lần D1 6998 lần D, với tỉ lệ vào khoảng 1% Theo thống kê, độ tin cậy cao thu vào khoảng 1,3% Hình 4.5 Các tập mục phổ biến D1 có độ tin cậy toàn tập D Nhân xét: Tôi nhận thấy độ f nhỏ tập mục phổ biến D1 xuất nhiều D 34 - Để tìm tập luật, áp dụng khai phá luật kết hợp Tìm luật ràng buộc vế trái I, luật xếp theo độ tin cậy giảm dần Các thông số cài đặt sau: Tùy chỉnh Giá trị thiết lập Search for Rules Search by Strength Filter out Insignificant Minimum coverage (count) Maximum no 1000 Maximum size Minimum strength 0.25 Bảng 4.5 Các thiết lập để tìm tập luật (độ mạnh tối thiểu 25%) Với kiểu lọc “Insingificant” để loại bỏ luật không quan trọng, kết thu gồm 225 luật có độ mạnh tối thiểu 25% 35 Hình 4.6 Các luật kết hợp ràng buộc vế trái “I” (nhiễm độc) Nhận xét: Với kết này, nhận thấy, luật thu có tần suất xuất độ mạnh luật cao (cao 100%) Về mặt ý nghĩa, thấy vế trái ứng dụng lạ, thiết bị cài đặt xuất thiết bị bị nhiễm mã độc Các ứng dụng đưa để đánh giá xem xét liên quan chúng malware 36 Kết luận định hướng nghiên cứu Qua trình tìm hiểu phương pháp tiếp cận khai phá liệu để áp dụng vào toán dự báo nhiễm malware thiết bị di động, khóa luận đề xuất mô hình dự báo dựa khai phá luật kết hợp Khóa luận đạt kết sau đây: - Giới thiệu malware trạng nhiễm malware Android năm gần - Trình bày phân tích hướng tiếp cận khai phá liệu toán dự báo nhiễm malware - Đề xuất triển khai mô hình dự báo dựa khai phá luật kết hợp - Thực nghiệm tập liệu gồm 55,000 thiết bị Android Kết tìm tập đặc trưng tập luật áp dụng việc dự báo Tuy nhiên, hạn chế mặt thời gian kiến thức nên khóa luận tồn mặt hạn chế như: đặc trưng thiết bị nhiễm malware xét theo hướng tập ứng dụng xuất đủ lớn, đặc trưng khác thời lượng pin, hay hiệu suất hoạt động chưa thể khai thác được; đặc trưng chưa mang tính phổ biến cao độ đo f thấp Trong thời gian tới, tiếp tục khai thác khía cạnh khác để trích xuất nhiều đặc trưng nhằm tăng khả dự báo Ngoài ra, tìm hướng tiếp cận khác khai phá liệu để tìm tập luật có độ xác cao 37 TÀI LIỆU THAM KHẢO [1] Adam J Oliner, Anand P Iyer, Ion Stoica, Eemil Lagerspetz, and Sasu Tarkoma Carat: Collaborative energy diagnosis for mobile devices SenSys 2013: 10 [2] Rakesh Agrawal, Tomasz Imielinski, Arun N Swami: Mining Association Rules between Sets of Items in Large Databases SIGMOD Conference 1993: 207-216 [3] Brian Krebs Mobile Malcoders Pay to (Google) Play, March 2013 http://krebsonsecurity.com/2013/03/mobile-malcoders-pay-to-google-play/ [4] Charles Lever, Antonakakis, Manos, Reeves, Brad, Traynor, Patrick, and Lee, Wenke The core of the matter: Analyzing malicious trac in cellular carriers In Proceedings of the 2013 Network and Distributed Systems Security Conference (NDSS 2013) Internet Society, 2013 [5] Rich Cannings ().Google An update on android market security Google Mobile Blog, Mar 2011 http://googlemobile.blogspot.com/2011/03/update-on-android-marketsecurity.html [6] Hien Thi Thu Truong, Eemil Lagerspetz, Petteri Nurmi, Adam J Oliner, Sasu Tarkoma, N Asokan, Sourav Bhattacharya (2013): The Company You Keep: Mobile Malware Infection Rates and Inexpensive Risk Indicators [7] Liu, B., Hsu, W Ma, Y.: Mining association rules with multiple minimum supports In: KDD 1999, New York, USA, pp 337–341 (1999) [8] Lookout Mobile Lookout tours the current world of mobile threats Lookout blog, June 2013 https://blog.lookout.com/blog/2013/06/05/world-current-of-mobilethreats/ [9] Lookout Mobile 2013 mobile threat predictions Lookout blog, Dec 2012 https://blog.lookout.com/blog/2012/12/13/2013-mobile-threat-predictions/ [10] Kari Kostiainen, Elena Reshetova, Jan-Erik Ekberg, and N Asokan Old, new, borrowed, blue -: aperspective on the evolution of mobile platform security 38 architectures In First ACM Conference on Data and Application Security and Privacy, pages 13-24 ACM, 2011 [11] M Chandramohan and Hee Beng Kuan Tan Detection of mobile malware in the wild Computer, 45(9):65-71, 2012 [12] Michael Spreitzenbarth, Florian Echtler, Thomas Schrek, Felix C Freiling, and Johannes Homan MobileSandbox: looking deeper into android applications In Proceedings of the 28th International ACM Symposium on Applied Computing (SAC), Coimbra, Portugal, 2013 [13] Nathaniel Husted and Steven Myers Why mobile-to-mobile wireless malware won't cause a storm In Proceedings of the 4th USENIX conference on Largescale exploits and emergent threats (LEET'11), Boston, 2011 USENIX Association [14] NQMobile Mobile malware up 163% in 2012, getting even smarter in 2013, according to NQ mobile PRNEwsWire, April 2013 http://ir.nq.com/phoenix.zhtml?c=243152&p=irol-newsArticle&id=1806588 [15] Robert McGarvey Threat of the week: Mobile malware, menace or myth? CreditUnion Times, April 2013 [16] Yajin Zhou and Xuxian Jiang Dissecting android malware: Characterization and evolution In 2012 IEEE Symposium on Security and Privacy (SP), pages 95{109, 2012 [17] Webb, G I and S Zhang (2005) k-Optimal-Rule-Discovery Data Mining and Knowledge Discovery 10 [18] Webb, G I (2000) Efficient Search for Association Rules In R Ramakrishnan and S Stolfo (Eds.), Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2000) Boston, 39 [...]... mẻ trong việc phát hiện malware trên thiết bị di động Nội dung chính của khóa luận được tổ chức thành bốn chương với nội dung cụ thế của các chương được giới thiệu như dưới đây Chương 1: Giới thiệu khái quát về bài toán dự báo nhiễm malware trên thiết bị di động Khóa luận giới thiệu khái niệm malware, nêu hiện trạng nhiễm malware trên thiết bị di động, phát biểu bài toán dự báo nhiễm malware Chương... danh sách malware định sẵn [xx] Do vậy, chúng có thể bỏ sót các phần mềm tiềm ẩn nguy cơ gây hại Bài toán dự báo nhiễm malware trên thiết bị di động được hình thành để giải quyết vấn đề này Dự báo nhiễm malware trên thiết bị di động là một bài toán mang tính thách thức lớn và khó khăn [xx] Khóa luận sẽ tham gia vào dòng các nghiên cứu giải quyết bài toán này dựa trên tiếp cận khai phá dữ liệu Đây là... thu thập dữ liệu trực tiếp từ hơn 55,000 thiết bị di động Android Nghiên cứu chỉ ra rằng tỉ lệ nhiễm trên các thiết bị Android ước lượng được khi sử dụng hai tập dữ liệu malware (tương ứng là 0.28% và 0.26%) [6] mặc dù nhỏ nhưng cao hơn các tính toán trước đây Với hai tập dữ liệu đó, nghiên cứu đã khảo sát các dấu hiệu cho biết các thiết bị nhiễm malware như thế nào Malware trên thiết bị di động đang... anti -malware được phát triển rất nhiều trên nền tảng di động, bao gồm cả quét và cảnh báo malware dựa theo một tập danh sách malware xác định trước Trong khóa luận này, tôi xin đề xuất một hướng tiếp cận bằng khai phá dữ liệu để giải quyết vấn đề này Cụ thể, khóa luận sẽ sử dụng luật kết hợp để tìm ra các dấu hiệu dự báo 10 Chương 2 Hướng tiếp cận bằng khai phá dữ liệu trong việc dự báo nhiễm malware. .. giải quyết bài toán dự báo nhiễm malware trên thiết bi di động bằng khai phá dữ liệu mà cụ thể là luật kết hợp Đầu tiên, khóa luận trình bày các khái niệm liên quan đến luật kết hợp, bài toán phát hiện luật kết hợp Sau đó, khóa luận giới thiệu các thuật toán phát hiện luật kết hợp mà phù hợp đối với bài toán được đặt ra Chương 3: Đề xuất ra mô hình dự báo nhiễm malware trên thiết bị di động Khóa luận sẽ... tảng di động đang là mục tiêu mới trong việc đánh cắp thông tin 1.3.2 Tỉ lệ nhiễm malware trên thiết bị di động Có rất ít nguồn thông tin, tài liệu công khai về tỉ lệ nhiễm malware trên các thiết bị di động [x] Trước đây, dựa theo phương pháp gián tiếp, tỉ lệ này được ước lượng khoảng 0.00009% [4] Theo phương pháp đó, Hien Thi Thu Truong và cộng sự đã chỉ ra những vấn đề liên quan đến tỉ lệ nhiễm malware. .. đề xuất ra mô hình dự báo nhiễm malware trên thiết bị di động sử dụng bằng khai phá dữ liệu Mô hình này sử dụng kĩ thuật phát hiện luật kết hợp và tập mục phổ biến bằng thuật toán top-k Tuy nhiên, mô hình đã cải tiến bằng việc đưa thêm phân tách các tập dữ liệu và các độ đo đặc trưng Bài toán được phát biểu như sau: Đầu vào: Tập các thiết bị của người dùng thu thập từ Carat, tập các malware Đầu ra: Các... bộ lặp 20 Chương 3 Mô hình dự báo nhiễm malware bằng khai phá dữ liệu Hiện nay, các công cụ anti -malware trên di động được sản suất và phát triển khá nhiều bởi các hãng như Mobile Sandbox3 hay McAfee4 Các công cụ này đều nhận dạng, phát hiện các mã độc dựa trên một danh sách các malware xác định trước Danh sách này được bổ sung theo định kỳ dựa trên đánh giá, xem xét của nhà phát triển Tuy nhiên việc... 13 thiết bị nhiễm mã độc ở Mỹ trong bảng) 8 Bảng 1.2 Cận dưới về số các thiết bị nhiễm mã độc ở một số vùng 9 1.4 Bài toán dự báo malware trong thiết bị di động Dựa vào các giả thuyết rằng một vài kho ứng dụng có mật độ lớn các ứng dụng độc hại hoặc chứa quảng cáo Trong khóa luận sẽ khảo sát liệu rằng các tập ứng dụng được sử dụng trên một thiết bị có thể được coi là dấu hiệu nhiễm mã độc cho thiết bị. .. các dữ liệu thu thập được tới các máy phân tích chạy trên các cụm máy chủ của Amazon dựa trên công nghệ đám mây 1.3 Malware trên thiết bị di động 1.3.1 Mục tiêu hoạt động của malware Trước đây, malware thường được tạo ra để gây hại cho các hệ thống máy tính hay các máy tính cá nhân Ngày nay, với sự phát triển ngày càng rõ rệt của thiết bị di động, các hệ điều hành dành cho các nền tảng này được xây dựng

Ngày đăng: 22/03/2016, 07:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan