3.1. Một số khái niệm liên quan
3.1.1. Giới thiệu về học máy
Học máy được coi là một phần của trí tuệ nhân tạo, mục tiêu xây dựng mô hình hoặc hệ thống có thé "hoc" từ những thông tin cho trước. Các bộ dữ liệu cần thiết dé xây dựng mô hình, gọi là tập dữ liệu huấn luyện. Đề việc “học” đạt hiệu suất tốt hơn, chúng ta cần áp dụng các thuật toán học máy, giúp mô hình dự đoán mà không cần lập trình chỉ tiết [14][25].
Gần đây, học máy giúp phát hiện xâm nhập và tấn công mạng hiệu quả hơn, đặc biệt trong phát hiện botnet. Rất nhiều bài toán bảo mật trong thực tế được giải quyết [8].
3.1.2. Phân loại nhị phân
Bài toán phân loại là dạng cơ bản và phô biến trong lĩnh vực học máy. Có hai kiểu phân loại là nhi phân và đa lớp. Trong phạm vi ứng dụng, chúng tôi tập trung vào phân loại nhị phân, áp dụng cho mô hình phân loại tên miền là bình thường hay
tạo bởi thuật toán.
Mục tiêu của phân loại nhị phân là phân loại các phần tử trong một tập hợp thành hai nhóm dựa trên một số thuộc tính được xác định, được gọi là đặc trưng.
Đây là một dang bài toán thường xuất hiện trong các van dé an ninh mạng như phát hiện mã độc, phát hiện truy cập bat hợp pháp...
3.1.3. Học máy có giám sát
Học máy có giám sát là kỹ thuật học máy mà việc phát triển mô hình dựa trên tập dữ liệu huấn luyện có đầy đủ các mối quan hệ giữa các thông tin đầu vào và đầu
ra, được ghép theo từng cặp. Trong các kỹ thuật học máy, đây là nhóm thông dụng
nhất [25]. Tiêu biểu trong nhóm này là bài toán phân loại và hồi quy.
21
Theo định nghĩa toán học, thuật toán học máy có giám sát khi kết quả dự đoán
b, trong mối quan hệ với đầu vào a, được xây dựng dựa theo các cặp đầu vào, đầu ra:
{(ai› bạ), (az, b;);.... (Ay, bạ))}. Từ bộ dữ liệu này, một hàm f được xây dựng sao
cho với mọi ỉ = 1, 2,..., n, f(a;) và b; gần nhất có thé. Tương tự, khi có một dữ liệu đầu vào a nào đó nằm ngoài tập dữ liệu huấn luyện thì đầu ra dự đoán tương ứng cũng gan với đầu ra thực tế f(a) ~ b, thé hiện ngắn gon qua công thức sau:
b¡ =f(a;), Va, i=1,2,...n
Hình dưới đây mô tả cụ thể các bước trong huấn luyện mô hình sử dụng học
may có giám sát:
š Đảnh giả
HUAN LUYEN nổ Ti
| Ma trận đặc trưng | |
Dữ liệu huấn luyện Trích xuất Thuật toán Mô hình
(Dữ liệu thô) đặt trưng học may
==, |
[ Nhãn
See
KIEM THU’
` od Ee) ip
ee ae Trich xuat N
Dữ liêu mới | _——————\ peru -—><" Dudoan >
: dat trưng = a
ằ
Hình 3.1: Quy trình huấn luyện mô hình sử dụng học máy có giám sát
3.1.4. Hồi quy Logistic
Hồi quy logistic là kỹ thuật học máy có giám sát đang rất phô biến trong việc giải quyết các bài toán phân loại. Hồi quy logistic được sử dụng trong dự đoán phân loại dựa trên biến phụ thuộc, độc lập nhất định. Các giá trị phân loại thông thường là
22
0 hoặc 1. Các giá trị xác suất được tạo ra bởi thuật toán này nằm ở giữa khoảng từ 0
đến 1. Có thé thay đổi giá trị ngưỡng với nhiều mức khác nhau dé tối ưu hiểu quả dự
đoán [25].
Hồi quy logistic sử dụng một hàm logistic hình chữ “S”, nằm giữa giá trị 0 và
1. Đường cong chữ “S” cho biết xác suất xảy ra một khả năng mà chúng ta dang nghiên cứu. Hàm toán học dùng trong hồi quy logistic là:
f(x) =
1+e*
Hồi quy logistic là thuật toán giúp mô hình học tập hiệu quả với phan loại nhị
phân.
AN
; Đưởng cong S
Hình 3.2: Minh họa hàm hồi quy logistic
23
3.1.5. Các chỉ số đánh giá
PPY: tỷ lệ giữa số mẫu DGA được phân loại đúng, so với tong số mẫu đã được
phân loại là DGA. Giá trị này được gọi là độ chính xác (precision) hoặc giá trị dự đoán dương tính.
TP