K–Nearest Neighbor (kNN)

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 32 - 34)

kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thốngkêđãđượcnghiêncứutrongnhậndạngmẫuhơnbốnthậpkỷqua[Dasarathy, 1991]. kNN được đánh giá là mộttrong những phương pháp tốtnhất (áp dụng trên tập dữ liệuReuters phiên bản 21450), được sử dụng từnhững thờikỳ đầu củaviệc phânloạivănbản[Marsandetal,1992][Yang,1994][Iwayama,Tokunaga,1995].

2.2.3.1. Ýtưởng

Khicầnphânloạimộtvănbảnmới,thuậttoánsẽtínhkhoảngcách(khoảngcách Euclide, Cosine ...) củatất cảcác văn bảntrong tậphuấn luyện đếnvăn bảnnày để tìmra kvănbản gầnnhất(gọilà k“lánggiềng”),sau đódùngcác khoảngcáchnày đánh trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất cả khoảng cách ởtrên củacác văn bản trongk láng giềng cócùng chủ đề, chủ đềnào

12

khôngxuấthiệntrongklánggiềngsẽcótrọngsốbằng0.Sauđócácchủđềsẽđược sắpxếp theomứcđộ trọngsố giảmdầnvà cácchủđề cótrọngsố caosẽđược chọn làchủđềcủavănbảncầnphânloại.

2.2.3.2. Côngthứcchính

Trọngsốcủachủđề c

j đốivớivănbản x :

W(x,c j )= di∈∑{kNN } sim(x,d i ).y(di ,cj )− b j Trongđó

y (di,cj ) ∈ {0,1},với y=0:vănbản d i khôngthuộcvềchủđềc j y=1:vănbản d i thuộcvềchủđềc j

sim( ): độ giống nhau giữa văn bản cần phân loạix và văn bản di. Có

x,d i

sim

(

) =c os(x,

di)=

thểsửdụngđộđocosineđểtính sim( )

x.d i

x . di

b

j là ngưỡngphânloại của chủ đề c

j được tựđộng họcsử dụng một tậpvă

n

bảnhợplệđượcchọnratừtậphuấnluyện

Đểchọnđượcthamsốktốtnhấtchoviệcphânloại,thuậttoánphảiđượcchạy thửnghiệmtrênnhiềugiátrịkkhácnhau,giátrịkcànglớnthìthuậttoáncàngổn địnhvàsaisótcàngthấp[Yang,1997].Giátrịtốtnhấtđượcsửdụngtươngứngtrên haibộdữliệuReutervàOshumedlàk=45[Joachims,1997].

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 32 - 34)