Các mơ hình phát hiện sớm trong nghiên cứu mã độc

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 107 - 110)

CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET

3.5. Kết luận Chươn g3

4.1.3.2. Các mơ hình phát hiện sớm trong nghiên cứu mã độc

Saxe và Berlin [125] phân biệt tệp mã độc và tệp lành tính bằng cách sử dụng mạng học sâu chuyển tiếp (a deep feed-forward neural network) với tỷ lệ dương tính đúng (true-positive) là 95,2% bằng cách sử dụng các đặc trưng từ mã nguồn. Tuy nhiên, tỷ lệ này giảm xuống còn 67,7% khi mơ hình được đào tạo bằng cách sử dụng các tệp chỉ được nhìn thấy lần đầu tiên, cho thấy sự yếu kém của các phương pháp tĩnh trong việc phát hiện mã độc hồn tồn mới. Damodaran [126] đã thực hiện một nghiên cứu so

sánh về các mơ hình phát hiện tĩnh, hành vi và kết hợp để phát hiện mã độc và nhận thấy dữ liệu hành vi cho giá trị diện tích cao nhất dưới đường cong (AUC) là 0,98 và sử dụng mơ hình Markov ẩn với tập dữ liệu gồm 785 mẫu. Ngồi ra, Grosse [127] cho thấy rằng, trong trường hợp của phần mềm chạy trên nền tảng Android, dữ liệu tĩnh cĩ thể bị xáo trộn để khiến một bộ phân loại trước đây đạt độ chính xác 97% giảm xuống thấp nhất là 20% khi phân loại các mẫu bị xáo trộn.

Các phương pháp phân tích động giả định rằng mã độc phải thực hiện các hành vi cần thiết để đạt được mục đích của chúng. Thơng thường, các cách tiếp cận này nắm bắt các hành vi như lời gọi API/system-call đến nhân hệ điều hành. Tobiyama [128] đề xuất sử dụng mạng học sâu hồi quy (RNN) để trích xuất các đặc trưng của chuỗi nhật ký lời gọi API trong 5 phút đầu tiên, sau đĩ được đưa vào mạng học sâu tích chập (CNN) để đạt được được giá trị đánh giá mơ hình AUC = 0.96 với tập dữ liệu thử nghiệm gồm 170 mẫu. Firdausi [129] so sánh các thuật tốn học máy được huấn luyện với các đặc trưng từ lời gọi API và đạt được độ chính xác ACC = 96,8% bằng cách sử dụng trích chọn đặc trưng tương quan (correlation-based feature selection) và giải thuật cây quyết định J48. 250 mẫu lành tính được sử dụng cho thử nghiệm đều được thu thập từ thư mục System32 của WindowsXP, cĩ khả năng mang lại mức độ đồng nhất cao hơn so với phần mềm lành tính khác. Ahmed [130] phát hiện mã độc bằng cách sử dụng luồng lời gọi API và siêu dữ liệu liên quan (metadata) với bộ phân loại Naive Bayes, đạt được AUC = 0,988, với tập dữ liệu gồm 100 mẫu lành tính là tệp tin hệ thống của Windows XP 32-bit.

Shibahara [131] quyết định thời điểm dừng phân tích cho mỗi mẫu dựa trên những thay đởi trong giao tiếp mạng, giảm tởng thời gian thực hiện thu thập là 67% so với phương pháp “thơng thường” phân tích mẫu trong 15 phút mỗi mẫu. Neugschwandtner [132] đã sử dụng dữ liệu phân tích tĩnh để xác định sự khác biệt với các biến thể mã độc đã biết bằng cách sử dụng thuật tốn phân cụm. Nếu mẫu khơng giống bất kỳ mẫu nào đã thấy trước đây, thì tiến hành phân tích động. Cách tiếp cận này đã chứng minh sự cải thiện về độ chính xác phân loại bằng cách so sánh với việc chọn ngẫu nhiên tệp nào để phân tích động hoặc chọn dựa trên sự khác biệt của mẫu. Tương tự, Bayer [133] tạo hồ sơ hành vi để thử và xác định các biến thể đa hình của mã độc đã biết, giảm 25% số tệp cần trải qua phân tích động đầy đủ.

Kolosnjaji [103] đã tìm cách phát hiện các họ mã độc với mạng nơ-ron học sâu, bao gồm các mạng hồi quy, để phân loại mã độc thành các họ bằng cách sử dụng các chuỗi lệnh gọi API. Bằng cách kết hợp mạng học sâu tích chập (CNN) với giải thuật các ơ nhớ ngắn hạn (LSTM) dài hạn, các tác giả cĩ thể đạt được tỷ lệ Recall lại là 89,4%, nhưng khơng giải quyết được vấn đề phân loại nhị phân trong việc phân biệt mã độc với phần mềm lành tính. Pascanu và cộng sự. (2015) đã tiến hành thử nghiệm xem các tệp là độc hại hay lành tính bằng cách sử dụng RNN và Echo State Networks. Các tác giả nhận thấy rằng Echo State Networks hoạt động tốt hơn với độ chính xác khoảng 95% (tỷ lệ lỗi là 5%) nhưng khơng cố gắng dự đốn hành vi độc hại từ quá trình thực thi ban đầu.

Bảng 3.1 mơ tả kích thước tập dữ liệu và thời gian tối thiểu để phát hiện mã độc cho các mơ hình đã được đề xuất liên quan. Kích thước tập dữ liệu trung bình để phân loại nhị phân là 1300 mẫu. Nghiên cứu của Pascanu và đồng nghiệp [134] là những trường hợp ngoại lệ với bộ dữ liệu lớn hơn nhiều, cả hai đều thu được thơng qua quyền truy cập vào kho dữ liệu mẫu do các cơng ty của các tác giả nắm giữ riêng. Phần lớn các nghiên cứu khơng đề cập đến giới hạn thời gian thực thi tệp, trong những trường hợp này, chúng tơi cĩ thể cho rằng tệp được thực thi cho đến khi hoạt động dừng lại. Khung thời gian thu thập dữ liệu trung bình cho những mơ hình phát hiện sớm đã cơng bố là 5 phút (xem Bảng 4.1).

Bảng 4.1 Khảo sát các nghiên cứu về phát hiện sớm mã độc

Tác giả

Mơ tả Dataset

Dữ liệu đặc trưng sử dụng

Thời gian thu thập dữ liệu hành vi động/mẫu Số lượng mẫu mã độc Số lượng mẫu lành tính Tobiyama [128] 81 69

Thơng tin tiến

trình hệ thống 5 phút Firdausi [129] 220 250 Lời gọi hệ thống

Khơng cĩ giới hạn thời gian tối thiểu được đề cập – ngầm định chờ thực thi đầy đủ

Ahmed [130] 416 100 Lời gọi hàm API

Khơng cĩ giới hạn thời gian tối thiểu được đề cập – ngầm định chờ thực thi đầy đủ Damodaran [126] 745 40 Lời gọi hệ thống, Opcode Thời gian cố định là 5– 10 phút được đề cập nhưng giới hạn thời

Tác giả

Mơ tả Dataset

Dữ liệu đặc trưng sử dụng

Thời gian thu thập dữ liệu hành vi động/mẫu Số lượng mẫu mã độc Số lượng mẫu lành tính

gian tởng thể khơng nêu rõ ràng

Pascanu [134] 25000 25000 Lời gọi hệ thống

Ít nhất 15 bước – thời gian chính xác khơng được báo cáo

Hansen [135] 5000 837 Lời gọi hệ thống 200 giây

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 107 - 110)

Tải bản đầy đủ (PDF)

(139 trang)