Từ file .pcap thu được, tôi đã lập trình để trích xuất ra payload của các gói tin tương tự như trong bài báo [4], trong phạm vi của nghiên cứu này tôi trích xuất payload của gói tin theo giao thức http. Thông tin nội dung file payload sau khi được lập trình để trích xuất ra nội dung file .text có dạng như sau:
Hình 3.6: nội dung payload được trích xuất từ file .pcap
Từ nội dung payload được trích xuất ra tôi đã lập trình để chuyển đổi nội dung trong payload theo phương pháp 2-gram và tính tần suất xuất hiện của các 2-gram để thu được tập hợp các vector. Vector gồm có hàng chứa thông tin về các 2-gram và cột chứa giá trị tần suất xuất hiện của các 2-gram. Thống tin về 2-gram và cách tính tần số xuất hiện như sau:
3.2.3.1. Khái niệm n-gram
Một n-gram là một dãy các byte liền nhau có độ dài bằng n. Ví dụ một dãy các byte liền nhau trong payload được trích xuất là “AB C0 EF 12” thì dãy các n-gram byte thu được là:
Hình 3.7: mô tả biểu diễn byte theo n-gram
Có thể thấy rằng với độ dài n càng cao thì kích thước đặc trưng càng lớn. Đối với mỗi byte có 8 bit thì không gian đặc trưng của 1-gram là 28 = 256 và 2-gram là 28. Trong phạm vi của luận văn này tôi tập trung vào 2-gram.
3.2.3.2 Tính tần số xuất hiện
Sau khi thu được các 2-gram, tôi thực hiện tính tần số xuất hiện của mỗi 2-gram khác nhau trên từng dữ liệu mẫu. Các kết quả này sẽ được lưu vào vector đặc trưng trước khi đưa vào mô hình học để chọn ra những đặc trưng tốt nhất. Công thức để tính tần số xuất hiên (turm frequency -TF) như sau:
TF(T,D) = 𝐅(𝐓,𝐃) ⅀{𝑭(𝑾,𝑫):𝑾 𝝐 𝑫}
Tần số xuất hiện của một mã 2-gram byte trong tập mẫu (file payload được trích xuất đưa về dạng text) được tính bằng thương của số lần xuất hiện 2-gram byte đó trong tập mẫu và số lần xuất hiện nhiều nhất của một 2-gram byte bất kỳ trong tập mẫu đó.
𝐅(𝐓, 𝐃): số lần xuất hiện của 2-gram byte T trong tập mẫu D
⅀{𝑭(𝑾, 𝑫): 𝑾 𝝐 𝑫} : tổng số lần xuất hiện của các 2-gram trong tập mẫu
Kết quả sau khi lập trình tính tần suất xuất hiện của 2-gram byte tôi thu được vector đặc trưng có dạng như sau:
Hình 3.8: payload được trích xuất theo phương pháp 2-gram