Phân loại đối tượng

Mục tiêu của giai đoạn này là phân tích các đặc trưng giống nhau của x với các phần tử trong tập Sđể gán chúng vào một trong các lớp. Khi tất cả các điểm dữ liệu đã được gán nhãn, dữ liệu sạch (không thuộc các lớp có nguy cơ) được loại khỏi không gian quan sát trước khi chuyển hệ sang các giai đoạn tiếp theo.

Hình 4.12:Chiến lược phân loại dữ liệu chẩn đoán

+ + + + + + + - - - - - - - - + + + + + + + - - Truy vấn luật phân nhóm Phân lớp Không gian quan sát

Cơ sở dữ liệu Mẫu virus 1 Mẫu virus 2 Mẫu virus j (…) (…) Mẫu virus k Mẫu virus K Cluster 1 Cluster 2 (…) Cluster i (…) Cluster N Cluster n Tập luật phân bố nhóm

Không gian truy vấn Không gian quan sát

- 80 -

MAV sử dụng phương pháp phân loại láng giềng gần nhất (Nearest Neighbor) để phân loại đối tượng chẩn đoán, dạng tổng quát như sau:

fs(x) = yi’ với ||xi’- x||χ = minxi∈S ||xi-x||χ, yi = {-1,1} Tập huấn luyện S gồm n cặp (x1, y1), (x2, y2),…,(xn, yn), trong đó:

- xi là các vector mẫu đặc trưng của các lớp dữ liệu có nguy cơ nhiễm virus. - yi∈{1..C} là nhãn của vector xi.

Yêu cầu đặt ra là xác định x thuộc lớp nào trong các lớp đã biết (xác định nhãn y’ cho vector đối tượng x). Dựa vào nguyên tắc học thể hiện (instance-based learning), ý tưởng của phương pháp 1-NN như sau:

- Tìm các thể hiện (mẫu) tương tự với x trong tập huấn luyện.

- Chọn nhãn cho x từ các nhãn của các mẫu tương tự trong tập huấn luyện, là nhãn của láng giềng gần nhất tìm được.

Vấn đề cơ bản trong luật NN là tính toán khoảng cách từđiểm dữ liệu x chưa được phân lớp đến mỗi điểm xi thuộc lớp thứ nhất và xj thuộc lớp thứ hai trong tập luyện (vector đối tượng x được biểu diễn dưới dạng 〈a1(x), a2(x), …, an(x)〉). Trong bài toán 1-NN, độđo khoảng cách Euclideđược tính bằng công thức:

d(xi,xj) = 2 1 )) ( ) ( ( r i r j n r x a x a − ∑ =

Trong đó ar(x) là giá trị của thuộc tính thứr của x. Thuật toán K-láng giềng gần nhất được mô tả như sau:

- Thuật toán huấn luyện: Với mỗi mẫu luyện 〈x, f(x)〉

Bổ sung mẫu 〈x, f(x)〉 vào tập mẫu luyện

- Thuật toán phân lớp:

Cho mẫu truy vấn xq cần phân lớp

Gọi x1, x2,…, xk là k mẫu trong kho mẫu huấn luyện gần xq nhất Xác định nhãn f(xq) của mẫu xq từ nhãn f(x1), f(x2),…, f(xk)

Phương pháp học dựa vào thể hiện nói chung, phân lớp theo k-láng giềng nói riêng, là các tiếp cận xấp xỉ hàm mục tiêu có giá trị rời rạc hoặc liên tục. Việc học trong những thuật toán này chỉđơn giản là lưu trữ dữ liệu huấn luyện. Khi cần phân loại đối tượng mới, một tập các đối tượng “gần giống” hay “tương tự” sẽđược chọn ra từ kho dữ liệu huấn luyện có sẵn và sử dụng để phân loại đối tượng mới. Thuận lợi rõ nét nhất của phương pháp này là khi hàm mục tiêu thật sự phức tạp nhưng vẫn có thểđược mô tả bằng một tập các hàm xấp xỉ cục bộ ít phức tạp hơn. Do đó mô hình này tỏ ra rất phù hợp với bài toán phân loại đối tượng có nguy cơ nhiễm virus.

Tuy nhiên phương pháp này cũng có một số hạn chế. Thứ nhất, chi phí cho việc phân lớp đối tượng có thể tốn kém do gần như toàn bộ việc tính toán diễn ra trong giai đoạn phân loại dữ liệu chẩn đoán chứ không phải lúc huấn luyện. Do đó cần đưa thêm các kỹ thuật lập chỉ mục hiệu quảđể rút ngắn thời gian tính toán lúc phân loại đối tượng mới. Thứ hai, nếu đặc trưng để phân loại đối tượng chỉ phụ thuộc vào một số ít trong số nhiều thuộc tính sẵn có của các đối tượng thì những đối tượng thật sự “tương tự” nhất có thể cách nhau rất xa [49].

Có nhiều phương pháp khắc phục hạn chế của phương pháp k-láng giềng gần nhất. NNSRM - Nearest Neighbor Rule-based Structural Risk Minimization [40] là phương pháp đơn giản sử dụng kỹ thuật sắp xếp các cặp khoảng cách trong giai đoạn khởi tạo. Trong MAV, NNSRMđược áp dụng như sau:

• Giai đoạn khởi tạo:

- Tính toán các cặp khoảng cách ||xi –xj||χ cho các xi và xj

- Sắp xếp các khoảng cách tăng dần d(0), d(1),…

• Giai đoạn phân lớp:

- Khởi đầu u=1 và S={xi, xj} với ||xi –xj||χ = d(0)

- Đối với mỗi điểm x thuộc không gian quan sát:

- Tìm xi trong lớp 1 và xj trong lớp 2 sao cho ||xi –xj||χ = d(u) - Cập nhật S ← S ∪ {xi, xj}

- 82 -

Khi tất cả các điểm dữ liệu được gán nhãn, lớp thứ hai (không có nguy cơ nhiễm virus) sẽ được loại bỏ để giảm kích thước không gian quan sát. Thuật toán đảm bảo cho kết quả do tập tham khảo được tổ chức gồm tất cả các mẫu thuộc lớp có nguy cơ nhiễm virus, do đó các hàm phân lớp sẽ có sai số luyện bằng 0 [42].

Khảo sát virus máy tính

Các hệ phòng chống virus máy tính