3. Bố cục và cấu trúc của luận văn
3.2. Phƣơng pháp k-Nearest Neighbour
kNN hay k – láng giềng gần nhất là phƣơng pháp phân loại văn bản truyền thống khá nổi tiếng theo hƣớng tiếp cận thống kê đã đƣợc nghiên cứu trong nhiều năm qua. kNN đƣợc đánh giá là một trong những phƣơng pháp phân loại văn bản tốt nhất đƣợc sử dụng từ thời kỳ đầu trong những nghiên cứu về phân loại văn bản.
Ý tƣởng của phƣơng pháp này là khi cần phân loại một văn bản mới, thuật toán sẽ xác định khoảng cách (ở đây có thể áp dụng các công thức về khoảng cách nhƣ Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản cần phân loại để tìm ra k văn bản gần nhất, gọi là k- Nearest Neighbour (k láng giềng gần nhất), sau đó dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề. Khi đó, trọng số của một chủ đề chính là
tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0. Sau đó, các chủ đề sẽ đƣợc sắp xếp theo giá trị trọng số giảm dần và các chủ đề có trọng số cao sẽ đƣợc chọn làm chủ đề của văn bản cần phân loại.
Trọng số của chủ đề cj đối với văn bản x đƣợc tính nhƣ (3-2):
{ } ( , ) ( , ). ( , ) i i i j j j d kNN W x c sim x d y d c b (3-2) Trong đó: - y d c( i, j) {0.1}
- y= 0 khi văn bản di không thuộc chủ đề cj
- y=1 khi văn bản di thuộc chủ đề cj
- sim( x, di): là độ giống nhau giữa văn bản cần phân loại x và văn bản
di
Chúng ta có thể sử dụng độ đo cosine để tính khoảng cách sim(x, di) theo