CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET
3.5. Kết luận Chươn g3
4.1.3.1. Mơ hình học máy cộng tác trong phát hiện mã độc
Tác giả Ahmadi [114] đã đề xuất một mơ hình sử dụng các đặc trưng khác nhau của mã độc để phân loại các mẫu mã độc theo họ tương ứng của chúng. Đối với mỗi mẫu mã độc, chúng trích xuất một tập hợp các đặc trưng thống kê và nội dung phản ánh cấu trúc của tệp PE. Sau đĩ, các đặc trưng này được kết hợp bằng cách xếp chồng các danh mục đối tượng vào một vectơ đối tượng duy nhất bằng cách sử dụng một biến thể của kỹ thuật lựa chọn từng bước một (the forward step-wise selection technique). Thay vì tăng dần tập hợp đặc trưng bằng cách thêm các đặc trưng vào mơ hình, từng tập đặc trưng một, Ahmadi coi tất cả tập hợp con các đặc trưng thuộc về cùng một danh mục. Thuật tốn phân loại mà Ahmadi lựa chọn là sự triển khai song song của bộ phân loại như Gradient Boosting Tree, XGBoost. Ngồi ra, tác giả đã sử dụng giải thuật Baggy để tăng cường độ ởn định và độ chính xác của bộ phân loại.
Kolosnjaji [115] đã đề xuất một kiến trúc mạng nơron bao gồm các mạng con tích chập (convolutional) và chuyển tiếp (feed-forward). Mạng con tích chập học các đặc trưng từ chuỗi các mã nhị phân độc hại đã được dịch ngược. Ngược lại, mạng chuyển tiếp nhận làm đầu vào là một tập hợp các đặc trưng được trích xuất từ siêu dữ liệu (metadata) cĩ trong PE Header và danh sách các chức năng đã nhập và các tệp DLL của chúng. Sau đĩ, bộ phân loại dựa trên mạng nơ-ron cuối cùng kết hợp các kiến trúc mạng nơ-ron tích chập và chuyển tiếp cùng với các đặc trưng tương ứng của chúng thành một mạng duy nhất. Mạng này tạo ra kết quả phân loại cuối cùng sau khi tởng hợp các đặc trưng được học bởi cả hai mạng con.
Bayer [116] đã xây dựng thuộc tính hành vi của mã độc dựa trên các lời gọi hệ thống, sự phụ thuộc của chúng và các hoạt động mạng. Biểu diễn tởng quát này đĩng vai trò là đầu vào cho thuật tốn phân cụm nhằm nhĩm các mẫu mã độc cĩ hành vi tương tự. Phân nhĩm mã độc là một quá trình gồm nhiều bước. Bước đầu tiên là phân tích tự động các tệp thi
hành được thực hiện bởi phiên bản mở rộng của ANUBIS. Bước thứ hai là trích xuất thuộc tính hành vi. Cuối cùng, trong bước thứ ba, các mẫu biểu hiện hành vi tương tự được nhĩm lại trong cùng một cụm bằng cách sử dụng phương pháp gần đúng (approximate), xác suất dựa trên giá trị băm địa phương nhạy cảm (localitysensitive hashing) [117].
Mohaisen và Alrawi [118] đã đề xuất một cách tiếp cận dựa trên hành vi để xác định mã độc Zeus. Trojan nhằm vào ngân hàng Zeus là một dạng mã độc nhắm vào hệ điều hành Windows và thường được sử dụng để lấy cắp tiền và thơng tin đăng nhập tài khoản ngân hàng từ nạn nhân bị lây nhiễm. Với mục đích phân loại, một tập hợp 65 đặc trưng từ các dữ liệu khác nhau được trích xuất bao gồm các tệp được tạo, sửa đởi hoặc xĩa, khĩa registry được tạo, sửa đởi hoặc xĩa, địa chỉ IP đích, cởng, kết nối TCP và UDP, yêu cầu, bản ghi DNS, v.v. Sau đĩ, vectơ đặc trưng kết quả được sử dụng để đánh giá hiệu suất của các thuật tốn học máy khác nhau như SVM, LR, DT và KNN.
Dhammi và Singh [119] đã đề xuất một mơ hình phát hiện mã độc dựa trên phân tích động bằng cách sử dụng Sandbox Cuckoo. Cách tiếp cận này trích xuất các đặc trưng khác nhau từ việc thực thi mã độc như chi tiết hành vi xử lý tệp tin (tạo, mở, xĩa, thay đởi), chữ ký mã độc, máy chủ giao tiếp liên quan, tệp bị ảnh hưởng, khĩa registry đăng ký, chi tiết phiên làm việc, chuỗi ký tự. Tất cả các đặc trưng thu được từ Sandbox Cuckoo được ánh xạ thành tệp Định dạng quan hệ thuộc tính (ARFF) và sau đĩ, tệp ARRF kết quả được đưa vào WEKA để phân loại.
Pekta và Acarman [120] đã trình bày một hệ thống phân loại mã độc dựa trên hành vi theo thời gian chạy bằng cách áp dụng học máy trực tuyến (online machine learning). Hệ thống bao gồm ba giai đoạn. Giai đoạn đầu tiên bao gồm giám sát hành vi của tệp trong mơi trường Sandbox VirMon và Cuckoo. Trong giai đoạn thứ hai, trích xuất đối tượng được áp dụng để xây dựng vectơ đặc trưng bao gồm các đối tượng dựa trên hệ thống tệp, mạng và các hoạt động đăng ký registry và lời gọi API N-gram. Cuối cùng, giai đoạn thứ ba thực hiện phân loại bằng các thuật tốn học trực tuyến.
Mohaisen [121] đã đề xuất AMAL, một mơ hình phân tích mã độc dựa trên hành vi tự động cung cấp các cơng cụ để thu thập các đặc trưng hành vi dựa trên việc sử dụng hệ thống tệp, bộ nhớ, mạng và registry. Sau đĩ, vectơ đặc trưng kết quả được sử dụng để thực hiện phân loại với các thuật tốn học máy như SVM, Decision Tree, Logistic Regression, KNN.
Islam [122] đã trình bày một phương pháp tích hợp nhất các tính năng tĩnh và động vào một hệ thống phân loại duy nhất. Đối với mỗi tệp thực thi, thực hiện trích xuất và chuyển đởi thành biểu diễn vectơ cả tần số độ dài hàm và thơng tin chuỗi cĩ thể in được. Sau khi chạy các tệp thực thi và ghi nhật ký các lời gọi API Windows, Islam trích xuất các đặc trưng lời gọi API bao gồm tên và tham số hàm API. Sau đĩ, tất cả các vectơ đặc trưng được kết hợp thành một vectơ duy nhất cho mỗi tệp thực thi. Tiếp theo, vectơ kết quả được sử dụng làm đầu vào cho bốn bộ phân loại cơ sở: SVM, Random Forest, Decision Tree và Instance-based.
Han [123] đã xây dựng một khung phát hiện mã độc dựa trên sự tương quan và kết hợp của chuỗi lệnh gọi API tĩnh và động. Han đã khám phá sự khác biệt và mối quan hệ giữa chuỗi lệnh gọi API tĩnh và động bằng cách xác định một số loại hành vi độc hại. Sau khi tương quan và hợp nhất, một khơng gian vectơ đặc trưng lai được thiết lập để phát hiện và phân loại. Để đánh giá hiệu quả của cách tiếp cận của mình, họ đã đào tạo bốn bộ phân loại để phát hiện/phân loại mã độc bao gồm KNN, Decision Tree, Random Forest và Extreme Gradient Boosting.
Han [124] cũng đã trình bày MalInsight, một khung phát hiện mã độc dựa trên phân tích chương trình về cấu trúc mã nguồn, hành vi tương tác mức thấp và hành vi tương tác mức cao. Ba khía cạnh này phản ánh các đặc điểm cấu trúc; các hoạt động chính tương tác với hệ điều hành, tương tác với tệp tin, registry và luồng mạng. Bộ đặc trưng kết quả được sử dụng để huấn luyện các bộ phân loại học máy khác nhau như KNN, Decision Tree, Random Forests và Extreme Gradient Boosting. Các bộ phân loại này được đánh giá trên tập dữ liệu bao gồm 4250 mẫu thu được từ VirusShare và từ hệ điều hành Windows 7 Pro. Kết quả cho thấy độ chính xác ACC=97,21% trong việc phát hiện mã độc chưa cĩ trong tập mẫu.