k-NN dựa trờn phương phỏp học mỏy được biểt đến như một giải thuật hiệu quả trong nhiều lĩnh vực đặc biệt là trong bài toỏn phõn loại văn bản. Tư tưởng chớnh của giải thuật này là tớnh toỏn độ phự hợp của văn bản đang xột với từng nhúm chủ đề dựa trờn k văn bản mẫu cú độ tương tự gần nhất. Giải thuật này cũn
được sử dụng trong bài toỏn tỡm kiếm văn bản và bài toỏn túm tắt văn bản.
Nhúm 1 Nhúm 2
Hỡnh 3.3: Minh hoạ giải thuật KNN lỏng giềng gần nhất với K = 5.
Hỡnh trờn biểu diễn việc khoanh vựng k văn bản gần nhất (k = 5) với văn bản cần phõn loại. Từk văn bản tỡm được cần đưa ra giải phỏp để tỡm nhúm văn bản phự hợp nhất với văn bản này.
Vấn đề được quan tõm ởđõy là sau khi tỡm được k văn bản gần nhất rồi, làm thế nào để tỡm ra nhúm văn bản phự hợp nhất với văn bản đú. Khỏi niệm gần ởđõy
được hiểu là độ tương tự giữa cỏc văn bản. Cụng thức tớnh độ tương tự giữa 2 văn bản cú thể là Cosine, Dice, hoặc Jaccard. Vậy ta cần tớnh độ phự hợp của chủđề khi
đĩ tỡm ra được k văn bản gần nhất. Cú nhiều cỏch phõn loại dựa trờn độ tuơng tự
giữa cỏc văn bản, trong đú cú 3 cỏch thường được sử dụng sau đõy:
a. Gỏn nhĩn dựa theo văn bản gần nhất
Theo phương phỏp này, văn bản đang xột được gỏn nhĩn theo chủđề của văn bản cú độ tương tự cao nhất. Giải phỏp này tương đối đơn giản và hiờu quả, song nú khụng được đỏnh giỏ cao vỡ sẽ dẫn đến kết quả sai khi tập mẫu cú nhiễu. Một nhược
điểm nữa của phương phỏp này là kết quảđưa ra khụng mang tớnh tổng hợp.
b. Gỏn nhĩn theo sốđụng Để dễ hiểu ta xột vớ dụ sau: giả sử văn bản cần phõn loại d cú 7 văn bản gần nhất với nú và cú độ tương tự như sau: Văn bản d1 d2 d3 d4 d5 d6 d7 Độ tương tự 0.75 0.70 0.65 0.62 0.31 0.22 0.19 Nhúm 1 2 2 1 2 2 1 Bảng 3.1: Vớ dụ phõn loại theo sốđụng. Nếu phõn loại theo sốđụng thỡ dễ thấy văn bản d sẽđược phõn loại về nhúm 2 vỡ cú tới 4 văn bản thuộc nhúm này (> 3 so với nhúm 1). Trường hợp phõn loại theo văn bản gần nhất thỡ cú thể gặp sai sút vỡ khả năng cú nhiễu hoặc tập mẫu chứa sai sút.
Như vậy cỏch đỏnh giỏ này đĩ khắc phục được lỗi trong tập mẫu, tuy nhiờn nú vẫn cú nhược điểm, cụ thể xột tỡnh huống dưới đõy:
Văn bản d1 d2 d3 d4 d5 d6 d7
Độ tương tự 0.90 0.85 0.30 0.27 0.26 0.17 0.14
Nhúm 1 1 2 2 2 2 2
Bảng 3.2: Vớ dụ lỗi khi phõn loại theo sốđụng.
Về mặt trực quan nờn phõn loại văn bản d vào nhúm 1 trong trường hợp này, nhưng nếu sử dụng phương phỏp phõn loại theo sốđụng thỡ ta phõn loại văn bản vào
nhúm 2.
c. Phõn loại theo độ phự hợp của chủđề
Ta thực hiện tớnh độ tương tự giữa văn bản cần phõn loại d với mỗi nhúm ci.
Độ tương tự giữa văn bản d và nhúm ci cú thểđược tớnh theo cụng thức sau[9]:
sim(d,Ci) = ∑ ∈ i j C d j d d sim( , )
Sau khi tớnh độ tương tựđối với từng nhúm C = {C1, C2, …, C|C|}, tiến hành tỡm ra giỏ trị max({S(d,c1), S(d,c2), …, S(d,c|C|)}). Cuối cựng, ta sẽ phõn văn bản d
vào nhúm cú độ tương tựS(d,ci) lớn nhất. Với dữ liệu trong bảng trờn ta cú:
sim(d,c1) = 0.9 + 0.85 = 1.75
sim(d,c2) = 0.30 + 0.27 + 0.26 + 0.17 + 0.14 = 1.14 < 1.75 Theo cỏch này thỡ dđược gỏn nhĩn cho chủđềc1.