L ời cam đ oan iii
2.2.2. Thuật tố nK người láng giềng gần nhất (kNN) 18
Bộ phân lớp dựa trên thuật tốn K người láng giềng gần nhất là một bộ phânlớp dựa trên bộ nhớ, đơn giản vì nĩ khơng phải thực hiện quá trình học mơ hình, thay thếđiều đĩ, phương pháp cần sử dụng tất cả các đốitượng trong tập huấn luyện khi phân lớp cho một đối tượng dữ liệu mới.
Để phân lớp cho một điểm dữ liệu mới x, trước hết bộphân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấnluyện. Qua đĩ tìm được tập
N(x, D, k) gồm kđiểm dữ liệu mẫu cĩ khoảng cách đến x là gần nhất. Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi khơng gian vector thì chúng ta cĩ thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định được tập
N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật tốn K người láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế. Cũng như SVM, k-NN được xếp vào 10 thuật tốn khai phá dữ liệu điển hình nhất [24].
Để áp dụng thuật tốn k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng số cho mỗi lớp theo biểu thức (2.1). Trong đĩ NC(x, D, k)là tập con chỉ chứa các đối tượng thuộc lớp c của tập N(x, D, k). ' ' ( , , ) ( | ) os( , ) c x N x D k Score c x c x x ∈ = ∑ (2.1)
19 Khi đĩ tài liệu x sẽđược phân vào lớp c0nếu:
0
( | ) ax{ ( | ), }
score c x =M score c x c C∈ (2.2)
Hình 6: Ví dụ về thuật tốn kNN
Một ví dụđơn giản về thuật tốn kNN được minh họa trong hình 6. Trong đĩ, các nút trịn màu đỏ thể hiện lớp A, các nút tam giác màu xanh nước biển thể hiện lớp B và nút trịn màu xanh lá cây là nút chưa được gán nhãn. Với tham số k = 4, thuật tốn sẽ tính khoảng cách từ nút xanh lá cây đến 4 nút gần nĩ nhất. Nút xanh lá cây cĩ khoảng cách gần nhất đến 3 nút màu đỏ và 1 nút màu xanh biển.Từ hình cĩ thể dễ dàng nhận thấy, nút xanh lá cây sẽ thuộc vào lớp A.
Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật tốn cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật tốn càng ổn định và sai sĩt càng thấp.