Android có khả năng làm rò rỉ thông tin nhƣ trong hình bên dƣới, bao gồm sáu thành phần đƣợc giới thiệu tóm tắt nhƣ sau:
Hình 2. 4. Kiến trúc chung của mô hình SVM dùng để phát hiện các ứng dụng có khả năng làm rò rỉ thông tin riêng tƣ
Thành phần đầu tiên Reverse Engineering là một mô-đun để dịch
ngƣợc các tệp apk thành mã nguồn dƣới dạng các lớp AndroidManiFest.xml
và java.
Thành phần thứ hai Features Extraction là một mô-đun để phân tích
cú pháp ba nhóm đặc trƣng: quyền, BroadcastReceiver và API. Thành phần này gọi là quá trình trích xuất các đặc trƣng.
Mô-đun thứ ba là Profile Building xây tạo một danh sách các đặc trƣng
tƣơng tứng với mỗi điểm dữ liệu đầu vào. Với mỗi điểm dữ liệu đầu vào là một ứng dụng tƣơng ứng với các đặc trƣng đƣợc trích xuất ở thành phần thứ hai.
Thành phần thứ tư Binary Vector Generation là chuyển đổi các đặc
trƣng đƣợc trích xuất từ mỗi ứng dụng thành một vectơ nhị phân có thể đƣa vào cho các thuật toán học máy; mỗi ứng dụng đƣợc thể hiện dƣới dạng một phiên bản duy nhất với vectơ nhị phân của các đặc trƣng và nhãn lớp cho biết
ứng dụng đó là lành tính hay độc hại có khả năng làm rò rỉ thông tin riêng tƣ. Thành phần tiếp theo, Seletion Features là lựa chọn các đặc trƣng tốt
nhất trong số nhiều đặc trƣng của ứng dụng có đƣợc để chuẩn bị cho việc đƣa vào mô hình phân lớp. Nhằm rút ngắn quá trình tính toán trên những đặc trƣng không có nhiều ý nghĩa. Ở thành phần này, không phải tất cả các đặc trƣng của một ứng dụng đều đựơc sử dụng. Thành phần này chỉ lựa chọn các đặc trƣng tốt nhất để đƣa vào mô hình phân lớp.
Thành phần cuối cùng chính là lựa chọn mô hình học máy dùng để phân loại bằng cách sử dụng thuật toán máy học để huấn luyện và đƣa ra dự đoán đối với các điểm dữ liệu kiểm tra.
Các mô hình đã học đƣợc sử dụng để phát hiện một ứng dụng nhất định là độc hại hay lành tính. Các phần tiếp theo trình bày chi tiết việc triển khai bao gồm các bộ dữ liệu, các công cụ đƣợc sử dụng, các đặc trƣng quan tâm chính của luận văn và các thuật toán học máy SVM. Để áp dụng bất kỳ hạt nhân nào, trƣớc tiên chúng ta phải trích xuất các tính năng từ ứng dụng.
2.3.3. Ƣu điểm mô hình SVM trong việc phát hiện rò rỉ thông tin
SVM là một phƣơng pháp hiệu quả cho bài toán phân lớp dữ liệu. Nó là một công cụ đắc lực cho các bài toán về xử lý ảnh, phân loại văn bản hay mã code, phân tích để phát hiện rò rỉ trong các ứng dụng Android. Một yếu tố làm nên hiệu quả của SVM đó là việc sử dụng Kernel function khiến cho các phƣơng pháp chuyển không gian trở nên linh hoạt hơn.
Là một kĩ thuật phân lớp khá phổ biến, SVM thể hiện đƣợc nhiều ƣu điểm trong số đó có việc tính toán hiệu quả trên các tập dữ liệu lớn. Có thể kể thêm một số ƣu điểm của phƣơng pháp này nhƣ:
quả trong không gian chiều cao, trong đó đặc biệt áp dụng cho các bài toán phân loại văn bản và mã code và phân tích khả năng rò rỉ thông tin nơi chiều dữ liệu có thể cực kỳ lớn.
Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm đƣợc sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới đƣợc lƣu trữ trong bộ nhớ khi ra quyết dịnh
Tính linh hoạt - phân lớp thƣờng là phi tuyến tính. Khả năng áp dụng Kernel mới cho phép linh động giữa các phƣơng pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn.