kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thốngkêđãđượcnghiêncứutrongnhậndạngmẫuhơnbốnthậpkỷqua[Dasarathy, 1991]. kNN được đánh giá là mộttrong những phương pháp tốtnhất (áp dụng trên tập dữ liệuReuters phiên bản 21450), được sử dụng từnhững thờikỳ đầu củaviệc phânloạivănbản[Marsandetal,1992][Yang,1994][Iwayama,Tokunaga,1995].
2.2.3.1. Ýtưởng
Khicầnphânloạimộtvănbảnmới,thuậttoánsẽtínhkhoảngcách(khoảngcách Euclide, Cosine ...) củatất cảcác văn bảntrong tậphuấn luyện đếnvăn bảnnày để tìmra kvănbản gầnnhất(gọilà k“lánggiềng”),sau đódùngcác khoảngcáchnày đánh trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất cả khoảng cách ởtrên củacác văn bản trongk láng giềng cócùng chủ đề, chủ đềnào
12
khôngxuấthiệntrongklánggiềngsẽcótrọngsốbằng0.Sauđócácchủđềsẽđược sắpxếp theomứcđộ trọngsố giảmdầnvà cácchủđề cótrọngsố caosẽđược chọn làchủđềcủavănbảncầnphânloại.
2.2.3.2. Côngthứcchính
Trọngsốcủachủđề c
j đốivớivănbản x :
W(x,c j )= di∈∑{kNN } sim(x,d i ).y(di ,cj )− b j Trongđó
y (di,cj ) ∈ {0,1},với y=0:vănbản d i khôngthuộcvềchủđềc j y=1:vănbản d i thuộcvềchủđềc j
sim( ): độ giống nhau giữa văn bản cần phân loạix và văn bản di. Có
x,d i
sim
(
) =c os(x,
di)=
thểsửdụngđộđocosineđểtính sim( )
x.d i
x . di
b
j là ngưỡngphânloại của chủ đề c
j được tựđộng họcsử dụng một tậpvă
n
bảnhợplệđượcchọnratừtậphuấnluyện
Đểchọnđượcthamsốktốtnhấtchoviệcphânloại,thuậttoánphảiđượcchạy thửnghiệmtrênnhiềugiátrịkkhácnhau,giátrịkcànglớnthìthuậttoáncàngổn địnhvàsaisótcàngthấp[Yang,1997].Giátrịtốtnhấtđượcsửdụngtươngứngtrên haibộdữliệuReutervàOshumedlàk=45[Joachims,1997].