3. Bố cục và cấu trúc của luận văn
3.2. Phƣơng pháp k-Nearest Neighbour
kNN hay k – láng giềng gần nhất là phƣơng pháp phân loại văn bản truyền thống khá nổi tiếng theo hƣớng tiếp cận thống kê đã đƣợc nghiên cứu trong nhiều năm qua. kNN đƣợc đánh giá là một trong những phƣơng pháp phân loại văn bản tốt nhất đƣợc sử dụng từ thời kỳ đầu trong những nghiên cứu về phân loại văn bản.
Ý tƣởng của phƣơng pháp này là khi cần phân loại một văn bản mới, thuật tốn sẽ xác định khoảng cách (ở đây cĩ thể áp dụng các cơng thức về khoảng cách nhƣ Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản cần phân loại để tìm ra k văn bản gần nhất, gọi là k- Nearest Neighbour (k láng giềng gần nhất), sau đĩ dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề. Khi đĩ, trọng số của một chủ đề chính là
tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giềng sẽ cĩ trọng số bằng 0. Sau đĩ, các chủ đề sẽ đƣợc sắp xếp theo giá trị trọng số giảm dần và các chủ đề cĩ trọng số cao sẽ đƣợc chọn làm chủ đề của văn bản cần phân loại.
Trọng số của chủ đề cj đối với văn bản x đƣợc tính nhƣ (3-2):
{ } ( , ) ( , ). ( , ) i i i j j j d kNN W x c sim x d y d c b (3-2) Trong đĩ: - y d c( i, j) {0.1}
- y= 0 khi văn bản di khơng thuộc chủ đề cj
- y=1 khi văn bản di thuộc chủ đề cj
- sim( x, di): là độ giống nhau giữa văn bản cần phân loại x và văn bản
di
Chúng ta cĩ thể sử dụng độ đo cosine để tính khoảng cách sim(x, di) theo