Trích chọn đặc trưng từ payload gói tin

Một phần của tài liệu (Luận văn thạc sĩ) Nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy (Trang 41 - 42)

Từ file .pcap thu được, tôi đã lập trình để trích xuất ra payload của các gói tin tương tự như trong bài báo [4], trong phạm vi của nghiên cứu này tôi trích xuất payload của gói tin theo giao thức http. Thông tin nội dung file payload sau khi được lập trình để trích xuất ra nội dung file .text có dạng như sau:

Hình 3.6: nội dung payload được trích xuất từ file .pcap

Từ nội dung payload được trích xuất ra tôi đã lập trình để chuyển đổi nội dung trong payload theo phương pháp 2-gram và tính tần suất xuất hiện của các 2-gram để thu được tập hợp các vector. Vector gồm có hàng chứa thông tin về các 2-gram và cột chứa giá trị tần suất xuất hiện của các 2-gram. Thống tin về 2-gram và cách tính tần số xuất hiện như sau:

3.2.3.1. Khái niệm n-gram

Một n-gram là một dãy các byte liền nhau có độ dài bằng n. Ví dụ một dãy các byte liền nhau trong payload được trích xuất là “AB C0 EF 12” thì dãy các n-gram byte thu được là:

Hình 3.7: mô tả biểu diễn byte theo n-gram

Có thể thấy rằng với độ dài n càng cao thì kích thước đặc trưng càng lớn. Đối với mỗi byte có 8 bit thì không gian đặc trưng của 1-gram là 28 = 256 và 2-gram là 28. Trong phạm vi của luận văn này tôi tập trung vào 2-gram.

3.2.3.2 Tính tần số xuất hiện

Sau khi thu được các 2-gram, tôi thực hiện tính tần số xuất hiện của mỗi 2-gram khác nhau trên từng dữ liệu mẫu. Các kết quả này sẽ được lưu vào vector đặc trưng trước khi đưa vào mô hình học để chọn ra những đặc trưng tốt nhất. Công thức để tính tần số xuất hiên (turm frequency -TF) như sau:

TF(T,D) = 𝐅(𝐓,𝐃) ⅀{𝑭(𝑾,𝑫):𝑾 𝝐 𝑫}

Tần số xuất hiện của một mã 2-gram byte trong tập mẫu (file payload được trích xuất đưa về dạng text) được tính bằng thương của số lần xuất hiện 2-gram byte đó trong tập mẫu và số lần xuất hiện nhiều nhất của một 2-gram byte bất kỳ trong tập mẫu đó.

 𝐅(𝐓, 𝐃): số lần xuất hiện của 2-gram byte T trong tập mẫu D

 ⅀{𝑭(𝑾, 𝑫): 𝑾 𝝐 𝑫} : tổng số lần xuất hiện của các 2-gram trong tập mẫu

Kết quả sau khi lập trình tính tần suất xuất hiện của 2-gram byte tôi thu được vector đặc trưng có dạng như sau:

Hình 3.8: payload được trích xuất theo phương pháp 2-gram

Một phần của tài liệu (Luận văn thạc sĩ) Nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(50 trang)