GIỚI THIỆU PHÁT BIỂU BÀI TOÁN

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện khả năng rò rỉ thông tin riêng tư trong ứng dụng android (Trang 49)

3.1.1. Giới thiệu

Với sự xuất hiện gần đây của các nền tảng di động có khả năng thực thi phần mềm ngày càng phức tạp và sự gia tăng của việc sử dụng nền tảng di động trong các ứng dụng nhạy cảm nhƣ ngân hàng, nguy cơ gia tăng liên quan đến phần mềm độc hại nhắm vào thiết bị di động làm tăng khả năng rò rỉ thông tin riêng tƣ của ngƣời sử dụng.

Bài toán phát hiện phần mềm độc hại có khả năng làm rò rỉ dữ liệu nhƣ vậy đặt ra những thách thức do tài nguyên hạn chế có sẵn của thiết bị và các đặc quyền hạn chế đƣợc cấp cho ngƣời dùng. Chƣơng này trình bày một hệ thống dựa trên máy học SVM để phát hiện phần mềm độc hại có khả năng phát hiện rò rỉ thông tin trên thiết bị Android.

Nói cách khác, cho một tập dữ liệu có nhãn (học có giám sát), thuật toán SVM sẽ dựa trên dữ liệu học để xây dựng một siêu phẳng tối ƣu đƣợc sử dụng để phân loại dữ liệu mới.

3.1.2. Phát biểu bài toán

Bài toán của chúng tôi trích xuất một số đặc trƣng đã đƣợc giới thiệu ở Chƣơng 2 và huấn luyện trên mô hình học máy vectơ hỗ trợ (SVM) theo cách ngoại tuyến (ngoài thiết bị), để tận dụng sức mạnh tính toán cao hơn.

dụng Android đã đƣợc thu thập. Trên cơ sở đó, luận văn sử dụng các công cụ mã nguồn mở để giải mã các ứng dụng thành các tệp mã code của ứng dụng. Sau đó sử dụng các đặc trƣng đã đƣợc giới thiệu để đƣa vào mô hình học máy SVM để tiến hành huấn luyện. Sau cùng là sử dụng mô hình SVM để dự đoán khả năng rò rỉ dữ liệu của các điểm dữ liệu tức là các ứng dụng dùng để kiểm tra và phát hiện.

3.2. CÀI ĐẶT MÔ PHỎNG

3.2.1. Môi trƣờng và ngôn ngữ lập trình

Để tiến hành cài đặt mô phỏng, chúng tôi sử dụng hệ điều hành Windows 10, 64 bit và ngôn ngữ lập trình Python 3.7 chạy trên nền tảng Anacoda. Anaconda là một nền tảng phân phối miễn phí của ngôn ngữ lập trình Python và R cho tính toán khoa học (khoa học dữ liệu, machine learning, xử lý dữ liệu lớn, phân tích dự đoán, v.v.), nhằm mục đích đơn giản hóa việc quản lý và triển khai gói. Nó có trên cả Windows, MacOS và Linux.

3.2.2. Công cụ và thƣ viện

Luận văn sử dụng công cụ Androguard [5], Androguard là một công cụ python đầy đủ để làm việc với các tệp Android. Nó đƣợc thiết kế để chỉ hoạt động với Python 3.

Để tiến hành cài đặt mô hình SVM, luận văn sử dụng thƣ viện Scikit- learn (Sklearn). Nó là thƣ viện mạnh mẽ dành cho các thuật toán học máy đƣợc viết trên ngôn ngữ Python. Thƣ viện cung cấp một tập các công cụ xử lý các bài toán học máy.

3.2.3. Bộ dữ liệu

Trong phần cài đặt này chúng tôi sử dụng bộ dữ liệu phần mềm độc hại Android có tên là CIC-AndMal2017 đƣợc công bố và giới thiệu tại địa chỉ:

https://www.unb.ca/cic/datasets/andmal2017.html. Bộ dữ liệu này của Viện bảo mật mạng của Canada đƣợc các trƣờng đại học, các công ty tƣ nhân và các nhà nghiên cứu độc lập sử dụng trên khắp thế giới. Bộ dữ liệu CIC- AndMal2017 đƣợc cung cấp công khai cho các nhà nghiên cứu.

Bộ dữ liệu này chứa hơn 10.854 mẫu (4.354 phần mềm độc hại và 6.500 phần mềm không độc hại) từ một số nguồn. Đã đƣợc thu thập hơn sáu nghìn ứng dụng an toàn từ GooglePlay đƣợc tạo ra vào các năm 2015, 2016, 2017.

3.2.4. Trích xuất và lựa chọn đặc trƣng

Để áp dụng bất kỳ hạt nhân nào, trƣớc tiên chúng ta phải trích xuất các đặc trƣng từ ứng dụng. Các ứng dụng Android đƣợc đóng gói dƣới dạng tệp APK, tƣơng tự nhƣ tệp jar tiêu chuẩn của Java. Chúng tôi sử dụng dự án mã nguồn mở Androguard [5] để xử lý các tệp này và trích xuất các đặc trƣng. Androguard cung cấp một giao diện dễ sử dụng để phân tích và dịch ngƣợc các ứng dụng Android.

3.2.4.1. Đặc trƣng quyền truy cập

Hệ thống Android chạy các ứng dụng trong sandbox trên môi trƣờng ảo (Davik VM), nơi các ứng dụng đƣợc cách ly khỏi việc can thiệp trực tiếp vào tài nguyên của hệ thống và các ứng dụng khác.

Android quy định các ứng dụng truy cập vào tài nguyên của phần cứng, hệ điều hành và các ứng dụng đƣợc cài đặt khác thông qua mô hình quyền. Ứng dụng cần đƣợc cấp các quyền thích hợp để thực hiện bất kỳ loại quy trình đặc quyền nào trên hệ thống. Nhà phát triển ứng dụng cần khai báo các quyền cần thiết cho ứng dụng trong tệp AndroidManifest.xml; và ngƣời dùng cần cấp các quyền đƣợc yêu cầu tại thời điểm cài đặt để tiến hành cài đặt hoặc nếu không thì quá trình cài đặt sẽ bị chấm dứt.

Các ứng dụng APK phải bao gồm một tệp kê khai, trong số những thứ khác, yêu cầu quyền truy cập vào các phần tử bị hạn chế nhất định của hệ điều hành Android. Các yếu tố này bao gồm quyền truy cập vào các thiết bị phần cứng khác nhau (ví dụ: GPS, máy ảnh), các tính năng nhạy cảm của hệ điều hành (ví dụ: danh bạ) và quyền truy cập vào một số phần tiếp xúc của các ứng dụng khác. Ví dụ: quyền “android.permission.INTERNET‖ yêu cầu quyền truy cập Internet và “android.permission.READ CONTACTS” yêu cầu quyền truy cập vào cơ sở dữ liệu danh bạ điện thoại của ngƣời dùng.

Khi đã trích xuất danh sách các quyền đƣợc yêu cầu, chúng tôi chia chúng thành hai nhóm: quyền tích hợp tiêu chuẩn và quyền không chuẩn. Đối với các quyền tiêu chuẩn, chúng tôi tạo một vectơ nhị phân trong đó mỗi mục nhập tƣơng ứng với một quyền tích hợp đƣợc đặt thành 1 nếu ứng dụng yêu cầu quyền đó và 0 nếu không.

Đối với các quyền không chuẩn, chúng tôi chia các chuỗi thành ba phân đoạn: tiền tố (thƣờng là ―com‖ hoặc ―org”), tổ chức và phần sản phẩm và tên quyền. Chúng tôi bỏ qua bất kỳ sự xuất hiện của các từ android hoặc permission vì đó là những từ phổ biến.

3.2.4.2. Đặc trƣng đồ thị luồng điều khiển

Với mỗi phƣơng pháp trong một ứng dụng nhất định, chúng tôi trích xuất một đồ thị luồng điều khiển (CFG – Control Flow Graph) từ bytecode. Một CFG là một biểu diễn trừu tƣợng của một chƣơng trình, trong đó các đỉnh đại diện cho các khối nguyên tử của các lệnh không chứa lệnh nhảy và các cạnh biểu thị các đƣờng có thể có của dòng chƣơng trình. Mỗi đỉnh đƣợc gắn nhãn dựa trên lệnh cuối cùng trong khối, vì chính lệnh này quyết định cách dòng chƣơng trình rời khỏi khối. Ví dụ, một bƣớc nhảy không điều kiện đƣợc biểu diễn dƣới dạng một cạnh duy nhất; một bƣớc nhảy có điều kiện

đƣợc biểu diễn dƣới dạng sự cố hai cạnh trên cùng một nút bắt đầu.

Tuy nhiên, nhiều virus sử dụng kỹ thuật biến hình để tạo ra các bản sao sửa đổi với mã có cùng ngữ nghĩa, nhƣng với luồng điều khiển khác nhau. Để chống lại những đột biến này, chúng tôi áp dụng các quy tắc viết lại biểu đồ của:

• Hợp nhất các khối lệnh liên tiếp

• Hợp nhất các bƣớc nhảy vô điều kiện với khối lệnh mà chúng nhảy tới • Hợp nhất các bƣớc nhảy có điều kiện liên tiếp

Việc viết lại hoặc rút gọn này có thêm lợi ích là giảm kích thƣớc của đồ thị đƣợc trích xuất mà không phá hủy thông tin ngữ nghĩa quan trọng về luồng chƣơng trình. Khi chúng tôi đã trích xuất và xử lý các biểu đồ này, chúng tôi sẽ loại bỏ các biểu đồ có năm nút trở xuống, vì chỉ có tƣơng đối ít CFG có thể có từ năm nút trở xuống (và do đó chúng mã hóa ít thông tin ngữ nghĩa) và việc loại bỏ chúng cho phép tăng tốc độ đáng kể trong quá trình xử lý. Sau đó, chúng tôi kết hợp các đồ thị này thành một đồ thị lớn không kết nối.

3.2.5. Vector hóa đặc trƣng

Việc phát hiện phần mềm độc hại bằng cách sử dụng các kỹ thuật khai thác dữ liệu yêu cầu cung cấp các thuật toán máy học với tập dữ liệu về các phiên bản và biến để tìm hiểu các mẫu và xây dựng mô hình phân loại. Các đặc trƣng (Permissions, Broadcast Receivers, APIs) đƣợc phân tích cú pháp từ mã nguồn bởi một mô-đun python; các tính năng đƣợc trích xuất đƣợc sử dụng để tạo vectơ nhị phân cho mỗi ứng dụng trong mẫu. Nếu một đặc trƣng cụ thể, chẳng hạn nhƣ quyền READ PHONE STATE, đƣợc ứng dụng yêu cầu, nó đƣợc biểu thị bằng 1 trong vectơ nhị phân trong khi nó đƣợc biểu thị bằng 0 nếu nó không đƣợc yêu cầu. Các phần tiếp theo giải thích các đặc

3.3. KẾT QUẢ CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.3.1. Kết quả cài đặt 3.3.1. Kết quả cài đặt

Vì không bao giờ có đủ dữ liệu để đào tạo mô hình của bạn, nên việc

loại bỏ một phần của nó để xác thực sẽ đặt ra vấn đề bị thiếu. Bằng cách giảm dữ liệu đào tạo, chúng tôi có nguy cơ mất các mẫu / xu hướng quan trọng trong tập dữ liệu, do đó làm tăng lỗi do sai lệch gây ra. Vì vậy, những

gì chúng tôi yêu cầu là một phƣơng pháp cung cấp nhiều dữ liệu để đào tạo mô hình và cũng để lại nhiều dữ liệu để xác thực. K Fold chéo xác thực thực hiện chính xác điều đó.

Cách tính sử dụng độ chính xác (accuracy) nhƣ ở trên chỉ cho chúng ta biết đƣợc bao nhiêu phần trăm lƣợng dữ liệu đƣợc phân loại đúng mà không chỉ ra đƣợc cụ thể mỗi loại đƣợc phân loại nhƣ thế nào, lớp nào đƣợc phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thƣờng bị phân loại nhầm vào lớp khác.

Hình 3. 1. Kết quả dự đoán của mô hình sau khi cài đặt với bộ dữ liệu thu thập đƣợc.

Chúng tôi tiến hành sử dụng bộ dữ liệu thu thập đƣợc nhƣ đã giới thiệu kết hợp với các công cụ, thƣ viện mã nguồn mở để tiến hành cài đặt bằng ngôn ngữ lập trình Python trên môi trƣờng Anacoda 3.7. Kết quả thu đƣợc trên bộ dữ liệu thu thập đƣợc đƣợc cài đặt đánh giá độ chính xác theo phƣơng pháp đánh giá chéo trên tập dữ liệu thu thập đƣợc. Kết quả thu đƣợc sau quá trình cài đặt đƣợc thể hiện nhƣ trong hình 3.1.

3.3.2. Đánh giá kết quả của mô hình

Luận văn đã kiểm tra hệ thống dựa trên một tập hợp 2081 lành tính và 91 ứng dụng Android độc hại có khả năng làm rò rỉ thông tin riêng tƣ. Đối với mỗi điểm dữ liệu, chúng tôi chọn một tập hợp con ngẫu nhiên của các ứng dụng an toàn không rò rỉ và đánh giá chéo k lần. Luận văn đã làm điều này với k=4 cho mỗi điểm dữ liệu, và tính trung bình các kết quả. Kết quả dự đoán chính xác của mô hình trên bộ dữ liệu thu thập đƣợc theo phƣơng pháp đánh giá chéo vơi k =4 trên tập dữ liệu có đƣợc là 97.67%.

3.3.3. Nhật xét và kết quả cài đặt

Với độ chính xác của mô hình khá cao, chúng tôi có nhận xét rằng mô hình cho kết quả tốt trên bộ dữ liệu thu thập đƣợc một phần là do chất lƣợng của bộ dữ liệu thu thập đƣợc đáng tin cậy. Một lý do khác là các đặc trƣng đƣợc trích chọn để đƣa vào mô hình phân lớp cho thấy là các đặc trƣng đƣợc lựa chọn phù hợp với lý thuyết mà các tài liệu chúng tôi tham khảo ở trong Chƣơng 2. Ngoài ra, mô hình SVM cho thấy kết quả phân lớp lớp nhị phân (phân vào hai lớp) phần nào chƣa thể giải quyết đƣợc sự phức tạp và tiềm ẩn nhiều nguy cơ phân lớp nhầm của mô hình đối với các mẫu dữ liệu kiểm tra.

Bên cạnh đó, theo nhận xét của chúng tôi, bộ dữ liệu thu thập đƣợc đã qua tiền xử lý từ trƣớc nên kết quả dự đoán của mô hình khá tốt. So với thực tế những bộ dữ liệu thu thập bằng tay và tiền xử lý thủ công thì kết quả này chƣa phản ánh đúng.

3.4. TIỂU KẾT CHƢƠNG 3

Chƣơng này đã trình bày chi tiết các bƣớc chuẩn bị cũng nhƣ cài đặt để từ đó thực nghiệm và đánh giá kết quả của phƣơng pháp dựa trên chƣơng trình cài đặt với bộ dữ liệu thu thập đƣợc.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận

Luận văn đã nghiên cứu, tìm hiểu mô hình SVM và ứng dụng thành công vào bài toán phát hiện khả năng rò rỉ thông tin riêng tƣ trong các ứng dụng Android. Việc cài đặt đƣợc hiệu quả tốt với bộ dữ liệu thu thập đƣợc. Một số các kết quả chính mà luận văn đạt đƣợc nhƣ sau:

- Luận văn đã tìm hiểu, nghiên cứu và trình bày các kiến thức liên quan đến nền tảng Android, các cơ chế hoạt động cũng nhƣ các mức bảo mật của hệ thống Android.

- Luận văn đã xây dựng thành công mô hình SVM với hai đặc trƣng đã trình bày trong Chƣơng 3 cho bài toán phát hiện khả năng rò rỉ thông tin trong các ứng dụng Android.

- Luận văn sử dụng ngôn ngữ lập trình Python để cài đặt thực nghiệm ứng dụng mô hình SVM cho bài toán và đạt kết quả chính xác cao trên bộ dữ liệu thu thập đƣợc.

Hƣớng phát triển

Bên cạnh những kết quả đạt đƣợc, hạn chế lớn nhất là mới chỉ dừng lại ở mức thực nghiệm cho bài toán trên một bộ dữ liệu đã đƣợc thu thập sẵn, khá tốt, nên kết quả có độ chính xác cao. Trong tƣơng lai, chúng tôi sẽ tập trung giải quyết một số vấn đề:

- Nghiên cứu và sử dụng nhiều hơn 2 đặc trƣng cho mô hình SVM dự đoán;

- Tiếp thực nghiên cứu thêm các mô hình dự đoán khác để lựa chọn mô hình cho kết quả cao hơn SVM;

DANH MỤC TÀI LIỆU THAM KHẢO

[1]. Seo, S.-H., Gupta, A., Sallam, A. M., Bertino, E., and Yim, K. (2014). Detecting mobile malware threats to homeland security through static analysis. Journal of Network and Computer Applications, 38:43–53.

[2]. Application fundamentals — android developers.

http://developer.android.com/guide/components/fundamentals.html. Accessed April 19, 2015.

[3] Arp, D., Spreitzenbarth, M., H¨ubner, M., Gascon, H., Rieck, K., and Siemens, C. (2014). Drebin: Effective and explainable detection of android malware in your pocket. In Proc. of NDSS

[4].Anthony Desnos. androguard.( https://code.google.com/p/androguard/) [5]. Koli, J. D. (2018). RanDroid: Android malware detection using random

machine learning classifiers. In: International Conference on Technologies for Smart City Energy Security and Power (ICSESP) IEEE, Mar 2018.

[6]. Agrawal, P., & Trivedi, B. (2019). A survey on android malware and their detection techniques. In: Third International Conference on Electrical, Computer and Communication Technologies (ICECCT) IEEE, Feb 2019.

[7]. Agrawal, Prerna, & Trivedi, Bhushan. (2019). Analysis of android malware scanning tools. International Journal of Computer Sciences and Engineering, 7(3), 807–810.

[8]. Kumaran, M., & Li, W. (2016). Lightweight malware detection based on machine learning algorithms and the android manifest file. In: MIT

Undergraduate Research Technology Conference(URTC) IEEE, Nov 2016.

[9]. Leeds, M., & Atkison, T. (2016). Preliminary results of applying machine learning algorithms to android malware detection. In: International Conference on Computational Intelligence (ICCI) IEEE, Dec 2016. [10]. Dutt, S., Chanframouli, S., & Das, A. K. (2019). Machine Learning 1st

(Ed.), India: Pearson.

[11]. Aung, Z., & Zaw, W. (2013). Permission-based android malware detection. International Journal of Scientific and Technology Research, 2(3).

[12]. Ham, H. S., & Choi, M. J. (2013). Analysis of android malware detection performance using machine learning classifiers. In: International Conference on ICT Convergence (ICTC) IEEE, Oct 2013.

[13]. Chang, W. L., & Wu, W. (2016). An android behaviour-based malware detection method using machine learning. In: International Conference on Signal Processing, Communications, and Computing (ICSPCC) IEEE, Aug 2016.

[14]. Yu, W., & Zhang, H. (2013). On behaviour-based detection of malware on android platform. In: Communication and Information System Security Symposium (Globecom) IEEE, Dec 2013.

[15]. Wu, W. C., & Hung, S. H. (2014). DroidDolphin: A dynamic android malware detection using big data and machine learning. In: Research in Adaptive and Convergent Systems (RACS). ACM, Oct 2014.

[16]. Sahs, J., & Khan, L. (2012). A machine learning approach to android malware detection. In: European Intelligence and Security Informatics Conference (EISIC) IEEE, Aug 2012.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện khả năng rò rỉ thông tin riêng tư trong ứng dụng android (Trang 49)

Tải bản đầy đủ (PDF)

(60 trang)