Mục tiêu của giai đoạn này là phân tích các đặc trưng giống nhau của x với các phần tử trong tập Sđể gán chúng vào một trong các lớp. Khi tất cả các điểm dữ liệu đã được gán nhãn, dữ liệu sạch (khơng thuộc các lớp cĩ nguy cơ) được loại khỏi khơng gian quan sát trước khi chuyển hệ sang các giai đoạn tiếp theo.
Hình 4.12:Chiến lược phân loại dữ liệu chẩn đốn
+ + + + + + + - - - - - - - - + + + + + + + - - Truy vấn luật phân nhĩm Phân lớp Khơng gian quan sát
Cơ sở dữ liệu Mẫu virus 1 Mẫu virus 2 Mẫu virus j (…) (…) Mẫu virus k Mẫu virus K Cluster 1 Cluster 2 (…) Cluster i (…) Cluster N Cluster n Tập luật phân bố nhĩm
Khơng gian truy vấn Khơng gian quan sát
- 80 -
MAV sử dụng phương pháp phân loại láng giềng gần nhất (Nearest Neighbor) để phân loại đối tượng chẩn đốn, dạng tổng quát như sau:
fs(x) = yi’ với ||xi’- x||χ = minxi∈S ||xi-x||χ, yi = {-1,1} Tập huấn luyện S gồm n cặp (x1, y1), (x2, y2),…,(xn, yn), trong đĩ:
- xi là các vector mẫu đặc trưng của các lớp dữ liệu cĩ nguy cơ nhiễm virus. - yi∈{1..C} là nhãn của vector xi.
Yêu cầu đặt ra là xác định x thuộc lớp nào trong các lớp đã biết (xác định nhãn y’ cho vector đối tượng x). Dựa vào nguyên tắc học thể hiện (instance-based learning), ý tưởng của phương pháp 1-NN như sau:
- Tìm các thể hiện (mẫu) tương tự với x trong tập huấn luyện.
- Chọn nhãn cho x từ các nhãn của các mẫu tương tự trong tập huấn luyện, là nhãn của láng giềng gần nhất tìm được.
Vấn đề cơ bản trong luật NN là tính tốn khoảng cách từđiểm dữ liệu x chưa được phân lớp đến mỗi điểm xi thuộc lớp thứ nhất và xj thuộc lớp thứ hai trong tập luyện (vector đối tượng x được biểu diễn dưới dạng 〈a1(x), a2(x), …, an(x)〉). Trong bài tốn 1-NN, độđo khoảng cách Euclideđược tính bằng cơng thức:
d(xi,xj) = 2 1 )) ( ) ( ( r i r j n r x a x a − ∑ =
Trong đĩ ar(x) là giá trị của thuộc tính thứr của x. Thuật tốn K-láng giềng gần nhất được mơ tả như sau:
- Thuật tốn huấn luyện: Với mỗi mẫu luyện 〈x, f(x)〉
Bổ sung mẫu 〈x, f(x)〉 vào tập mẫu luyện
- Thuật tốn phân lớp:
Cho mẫu truy vấn xq cần phân lớp
Gọi x1, x2,…, xk là k mẫu trong kho mẫu huấn luyện gần xq nhất Xác định nhãn f(xq) của mẫu xq từ nhãn f(x1), f(x2),…, f(xk)
Phương pháp học dựa vào thể hiện nĩi chung, phân lớp theo k-láng giềng nĩi riêng, là các tiếp cận xấp xỉ hàm mục tiêu cĩ giá trị rời rạc hoặc liên tục. Việc học trong những thuật tốn này chỉđơn giản là lưu trữ dữ liệu huấn luyện. Khi cần phân loại đối tượng mới, một tập các đối tượng “gần giống” hay “tương tự” sẽđược chọn ra từ kho dữ liệu huấn luyện cĩ sẵn và sử dụng để phân loại đối tượng mới. Thuận lợi rõ nét nhất của phương pháp này là khi hàm mục tiêu thật sự phức tạp nhưng vẫn cĩ thểđược mơ tả bằng một tập các hàm xấp xỉ cục bộ ít phức tạp hơn. Do đĩ mơ hình này tỏ ra rất phù hợp với bài tốn phân loại đối tượng cĩ nguy cơ nhiễm virus.
Tuy nhiên phương pháp này cũng cĩ một số hạn chế. Thứ nhất, chi phí cho việc phân lớp đối tượng cĩ thể tốn kém do gần như tồn bộ việc tính tốn diễn ra trong giai đoạn phân loại dữ liệu chẩn đốn chứ khơng phải lúc huấn luyện. Do đĩ cần đưa thêm các kỹ thuật lập chỉ mục hiệu quảđể rút ngắn thời gian tính tốn lúc phân loại đối tượng mới. Thứ hai, nếu đặc trưng để phân loại đối tượng chỉ phụ thuộc vào một số ít trong số nhiều thuộc tính sẵn cĩ của các đối tượng thì những đối tượng thật sự “tương tự” nhất cĩ thể cách nhau rất xa [49].
Cĩ nhiều phương pháp khắc phục hạn chế của phương pháp k-láng giềng gần nhất. NNSRM - Nearest Neighbor Rule-based Structural Risk Minimization [40] là phương pháp đơn giản sử dụng kỹ thuật sắp xếp các cặp khoảng cách trong giai đoạn khởi tạo. Trong MAV, NNSRMđược áp dụng như sau:
• Giai đoạn khởi tạo:
- Tính tốn các cặp khoảng cách ||xi –xj||χ cho các xi và xj
- Sắp xếp các khoảng cách tăng dần d(0), d(1),…
• Giai đoạn phân lớp:
- Khởi đầu u=1 và S={xi, xj} với ||xi –xj||χ = d(0)
- Đối với mỗi điểm x thuộc khơng gian quan sát:
- Tìm xi trong lớp 1 và xj trong lớp 2 sao cho ||xi –xj||χ = d(u) - Cập nhật S ← S ∪ {xi, xj}
- 82 -
Khi tất cả các điểm dữ liệu được gán nhãn, lớp thứ hai (khơng cĩ nguy cơ nhiễm virus) sẽ được loại bỏ để giảm kích thước khơng gian quan sát. Thuật tốn đảm bảo cho kết quả do tập tham khảo được tổ chức gồm tất cả các mẫu thuộc lớp cĩ nguy cơ nhiễm virus, do đĩ các hàm phân lớp sẽ cĩ sai số luyện bằng 0 [42].