TIỂU KẾT CHƢƠNG 1

Trong nội dung chƣơng đầu tiên này, luận văn đã phần nào trình bày, giới thiệu tổng quan kiến trúc Android. Đồng thời, luận văn cũng làm sáng tỏ cơ chế bảo mật của Android và trình bày các hƣớng tiếp cận trong việc phân tích để phát hiện khả năng rò rỉ thông tin riêng tƣ trong các ứng dụng Android, nêu ra những thách thức hạn chế mà các hƣớng tiếp cận gặp phải trong quá trình thực hiện.

Trong giới hạn phạm vi và mục tiêu nghiên cứu, luận văn nghiên cứu các phƣơng pháp có thể phát hiện các ứng dụng nhằm chiếm đoạt và lạm dụng lén

lút các tài nguyên nhạy cảm của Android. Cụ thể hơn, công việc này giả định một ứng dụng có thể lạm dụng tài nguyên và quyền của Android để truy cập vào dữ liệu nhạy cảm. Nói chung, luận văn coi rò rỉ quyền riêng tƣ là bất kỳ hoạt động nào chuyển dữ liệu cá nhân của ngƣời dùng (ví dụ: danh bạ, vị trí) hoặc bất kỳ thông tin nào giúp nhận dạng thiết bị, sẽ đƣợc trình bày cụ thể trong Chƣơng 2.

CHƢƠNG 2. PHÁT HIỆN KHẢ NĂNG RÒ RỈ THÔNG TIN RIÊNG TƢ TRONG ỨNG DỤNG ANDROID SỬ DỤNG SVM

2.1. GIỚI THIỆU

Kể từ năm 2010, các nghiên cứu về phân tích hành vi của ứng dụng Android đã gia tăng mạnh mẽ. Điều này có thể đƣợc giải thích bởi thực tế là Android phổ biến, có mã nguồn mở, giúp dễ dàng phân tích và sửa đổi hệ điều hành và hàng triệu ứng dụng có sẵn để phân tích. Một số đề xuất phân tích động và tĩnh hiện có tập trung vào việc phân tích các ứng dụng Android để phát hiện khả năng rò rỉ thông tin riêng tƣ trong các ứng dụng Android đƣợc tiếp cận theo hai hƣớng chính: phân tích tĩnh và phân tích động. Thông thƣờng, các đề xuất đƣợc tiếp cận thành 2 bƣớc: Bƣớc đầu tiên là phân tích các ứng dụng Android để tìm các rò rỉ nhạy cảm về quyền riêng tƣ, cơ chế nội bộ của ứng dụng. Bƣớc tiếp đến là phát hiện và báo cáo rò rỉ quyền riêng tƣ hoặc hành vi độc hại trong các ứng dụng Android.

Các mô hình theo phƣơng pháp học máy hoạt động bằng cách: đầu tiên học các mẫu hành vi phần mềm độc hại hiện có và sau đó sử dụng kiến thức này để tách hoặc xác định bất kỳ hành vi tƣơng tự nào nhƣ vậy khỏi các cuộc tấn công không xác định. Các nghiên cứu đã chỉ ra rằng phân tích phần mềm độc hại Android có thể đƣợc thực hiện theo ba cách khác nhau: Phƣơng pháp đầu tiên liên quan đến việc triển khai tĩnh và động. Các nghiên cứu gần đây đã chỉ ra rằng học máy hoặc phƣơng pháp tiếp cận “phát hiện bất thường”

hiện đã trở thành một cách tiếp cận hàng đầu và hiệu quả hơn để đánh bại phần mềm độc hại Android. Không giống nhƣ các kỹ thuật phân tích tĩnh liên quan đến việc kiểm tra thủ công tệp AndroidManifest.xml, tệp nguồn và mã byte Dalvik và phân tích động liên quan đến việc chạy một ứng dụng trong

môi trƣờng đƣợc kiểm soát để nghiên cứu hành vi của nó, phƣơng pháp học máy liên quan đến việc học các quy tắc và mẫu chung từ các mẫu ứng dụng

lành tính và độc hại, sau đó cho phép dự đoán các quyết định theo hƣớng dữ liệu, chẳng hạn nhƣ phân loại.

Phần mềm độc hại đã đƣợc sử dụng nhƣ một phƣơng tiện phạm tội, kẻ tấn công mạng có thể cài đặt phần mềm độc hại trên một số hệ thống có thể cài đặt hoặc xóa chƣơng trình, sửa đổi tệp, tải xuống thông tin nhạy cảm và sử dụng chúng để mạo danh ngƣời dùng thiết bị bị nhiễm độc, tải tệp lên, theo dõi hành động và thao tác nhấn phím của ngƣời dùng, chụp màn hình của ngƣời dùng, sử dụng máy ảnh và truy xuất ảnh hoặc video, sử dụng hệ thống bị nhiễm virus làm nguồn.

Thật khó để đối phó với phần mềm độc hại mới hiện nay trên nền tảng di động. Các kỹ thuật phát hiện phần mềm độc hại di động vẫn nhiều thách thức và là đối tƣợng của nghiên cứu đang đƣợc tiến hành. Các kỹ thuật phát hiện phần mềm độc hại cổ điển, dựa trên phát hiện chữ ký, không hiệu quả đối với phần mềm độc hại đƣợc mã hóa, biến hình, đa hình hoặc theo dõi hành vi của các ứng dụng độc hại, vốn không có hiệu quả đối với phần mềm độc hại có hành vi mới.

Các kỹ thuật phân tích phần mềm độc hại tĩnh có thể đƣợc sử dụng để giải quyết những vấn đề này. Tuy nhiên, chúng chủ yếu dựa vào phân tích thủ công của con ngƣời, điều này hạn chế tốc độ và khả năng mở rộng. Để tự động hóa quy trình phân tích tĩnh, việc chuyển đổi mã nguồn thành tính toán để giao tiếp các câu lệnh hệ thống và sử dụng các phƣơng pháp chính thức để kiểm tra hành vi phần mềm đã đƣợc đề xuất để ngăn chặn các cuộc tấn công cập nhật. Tuy nhiên, ngay cả cách tiếp cận này cũng yêu cầu ngƣời phân tích mô tả hành vi không mong muốn, điều này vẫn có thể tốn nhiều thời gian.

Các kỹ thuật máy học có thể đƣợc sử dụng để tự động hóa quy trình phân tích tĩnh phần mềm độc hại làm rò rỉ thông tin riêng tƣ. Những kỹ thuật

này cho phép máy móc sử dụng phƣơng pháp tiếp cận thông minh, học các kiểu tấn công thông thƣờng và cập nhật kiến thức của chúng nhƣ cách con ngƣời làm. Các ứng dụng của học máy trong an ninh mạng là tƣơng đối mới, ví dụ nhƣ phát hiện xâm nhập, phát hiện phần mềm độc hại, phát hiện rò rỉ dữ liệu, trong các nghiên cứu trƣớc đây đã cho kết quả đầy hứa hẹn.

Trong luận văn này, chúng tôi tập trung vào các loại phƣơng pháp tiếp cận phân tích tĩnh (phân tích tệp kê khai, phân tích mã) dựa trên máy học để phát hiện các ứng dụng Android độc hại có khả năng làm rò rỉ thông tin riêng tƣ của ngƣời dùng.

2.2. PHÁT HIỆN KHẢ NĂNG RÒ RỈ THÔNG TIN TRONG ỨNG DỤNG ANDROID THEO HƢỚNG HỌC MÁY

Máy tính và an ninh mạng là một lĩnh vực nghiên cứu ngày càng quan trọng vì thông tin đƣợc xử lý bởi các hệ thống này ngày càng có giá trị. Tình trạng nghiên cứu về các cuộc tấn công trực tiếp, chẳng hạn nhƣ khai thác lỗi an toàn bộ nhớ hoặc lỗi đầu vào shell đã đƣợc thiết lập tốt và một bộ công cụ kiểm tra phong phú có sẵn cho các loại tấn công này. Hệ thống phát hiện xâm nhập dựa trên máy học cũng có sẵn và thƣờng đƣợc triển khai trong môi trƣờng sản xuất. Tuy nhiên, điều còn thiếu là việc xem xét các luồng thông tin ngầm, hoặc các kênh phụ. Các nghiên cứu đã tiết lộ các kênh phụ đƣợc hình thành bởi mọi thứ từ các mẫu lƣu lƣợng mạng đƣợc mã hóa. Hơn nữa, không tồn tại phƣơng pháp di động nào để phân phối các trƣờng hợp thử nghiệm. Luận văn này trình bày một khuôn khổ mô hình học máy có thể học đƣợc từ các nguồn thông tin kênh phụ khác nhau. Khung hoạt động bằng cách giám sát hai luồng dữ liệu; luồng đầu tiên là luồng tín dữ liệu và luồng thứ hai là luồng hoạt động của hệ thống riêng. Các luồng này đƣợc sử dụng để đào tạo và đánh giá bộ phân loại học máy để xác định hiệu suất dự đoán hoạt động hệ thống riêng của nó.

Cơ sở toán học của mô hình SVM

Đặc trƣng quyền truy cập