Phân lớp vănbản - Phương pháp biểu diễn văn bản sử- 123docz.net

P h â n lớ p v ã n bản đ ư ợ c c á c n h à n g h iê n cứ u đ ịn h n g h ĩa th ố n g n h ất n h ư là v iệ c gán c á c c h ủ đ ể đ ã đ ư ợ c x á c đ ịn h trước v à o c á c văn bản lex t d ự a trôn n ộ i d u n g c ủ a I1Ó 1311 14-1115II 1 6 | | 2 4 | | 2 7 | . PliAn lớ p văn ban là c ô n g v iệ c d ư ự c s ử d ụ n g d ổ liỏ Irự tron g q u á trìn h tìm k iế m v ãn b ả n , c h iế t lọ c !h ô n g tin (In íb r m a tio n E x tr a c lio n ), lọ c vãn b ản h o ặ c tự đ ộ n g d ẫn đ ư ờ n g c h o c á c văn bản tới n h ữ n g c h ủ đ ể đ ư ợ c x á c đ ịn h trước.

Đ ể p h ân lớ p đ ư ợ c v ăn b ả n , n g ư ờ i ta phải s ử d ụ n g kỹ thuật h ọ c m á y c ó g iá m sát (s u p e r v is e d le a r n in g ). T ậ p d ữ liệ u đ ư ợ c c h ia ra làm hai tập là tập h u ấ n lu y ệ n (tr a in in g s e t ) và tậ p k iể m tra (te s t s e t ) , trước hết phải x â y d ự n g m ô h ìn h th ô n g q u a c á c m ẫ u h ọ c b ằ n g c á c tập h u ấn lu y ệ n , sa u đ ó k iể m tra s ự c h ín h x á c b ằ n g tập d ữ liệ u k iể m tra.

T r o n g lu ậ n v ă n n à y , c h ú n g tô i s ử d ụ n g p h ư ơ n g pháp h ọ c c â y q u y ế t đ ịn h c h o phân lớ p văn b ả n . V i ệ c p h ân tíc h th u ật to á n và n h ữ n g ưu n h ư ợ c đ iể m c ủ a p h ư ơ n g pháp h ọ c c â y q u y ế t đ ịn h s ẽ đ ư ợ c trình b à y d ư ớ i đ ã y .

3 .1 .1 . T h u ậ t to á n h ọ c cAy q u y ế l d ịn li

P h ư ơ n g p h á p h ọ c c â y q u y ế t clịnh là m ộ t tr o n g n h ữ n g p h ư ơ n g p h á p đ ư ợ c sử d ụ n g r ộ n g rãi n h ấ t c h o v iệ c h ọ c q u y n ạp từ m ộ t tâp m ẫ u lớ n . Đ â y là p h ư ơ n g p h áp h ọ c x ấ p x ỉ c á c h à m m ụ c tiê u c ó g iá trị rời rạc. M ặt k h á c , c â y q u y ế t đ ịn h c ò n c ó th ể

c h u y ể n s a n g d ạ n g b iể u d iễ n tư ơ n g d ư ơ n g d ư ớ i d ạ n g c ơ s ờ tri th ứ c là c á c lu ậ t N ếu - Thì ( ỉ f - Then).

V í d ụ vổ c â y q u y ô t đ ịn h .

Hình 9: Một ví dụ vé cây quyết định cho phan lớp AI..

H ìn h 9 là m ộ t v í d ụ v ề c â y q u y ế t đ ịn h p h â n lớ p A I c á c m ẫ u đ ư a ra tr o n g b ả n g 5 . M ỏ i m ộ t nút c ủ a c ố y b iể u d iỗ n I11ÔI th u ộ c lín h tr o n g c á c m ẫ u (d ô i k hi c ò n đ ư ợ c g ọ i là v í dụ m in h h o ạ h o ặ c d ữ liộ u h u â n lu y ệ n , h o ặ c m ă u h u ấ n lu y ệ n ) , m ỗ i m ộ t n h á n h tớ i nút tư ơ n g ứ n g vớ i m ộ t tr o n g n h ữ n g g iá trị c ó thổ c h o th u ộ c tín h n à y . Đ ể đ ơ n g iả n , c h ú n g tô i b iể u d iễ n c á c th u ộ c tín h d ư ớ i d ạ n g n h ị p h ù n , tứ c là c h ỉ lấ y c á c g iá trị 0 và 1.

D ữ liệ u h u ấ n lu y ệ n g ổ in 10 v ă n b ản (tr o n g th ự c t ế thì s ố lư ợ n g n à y c ó th ể lên đ ế n h à n g n g h ìn ) . M õ i v ã n b àn ilư ự c b iể u d iỗ n b ở i 8 k h á i n iộ m (h a y là c á c th u ộ c tín h ) n h ị p h â n . Đ ó là c á c th u ộ c lín h a i, tim e t a b le , s y s t e m , p a r a lle l, r e la tio n , d a ta b a s e , p r o c e s s , g r a p h ic s . T h u ộ c tín h c u ố i c ù n g Iron g d ữ liộ u h u ấ n lu y ệ n là A I , d ó là h à m m ụ c tiôu c ủ a c h ú n g ta, h à m n à y nhẠn g iá trị I tứ c là v ă n b ản d ó th u ộ c lớ p A I , c ò n g iá trị 0 là v ă n b ản đ ó k h ô n g t h u ộ c lớ p A I.

M ặt k h á c , từ c â y q u y ế t đ ịn h ờ trên c h ú n g ta c ó th ể rút ra c ơ s ờ tri th ứ c c h o tậ p h u ấ n lu y ệ n g ồ m c á c luật sa u đ â y . N ếu ( S y s t e m = I) và ( T im e t a b le = I ) Thì c la s s A I = Y c s . N ếu ( S y s t e m = 0 ) và ( P r o c c s s = I ) 777/ c la s s A I = N o . N ếu ( S y s t e m = I) v à ( T im e t a b le = 0 ) 77// c la s s A I = N o . N ếu ( S y s t e m = 0 ) và ( P r o c e s s = 0 ) TIÙ c la s s A I = Y e s .

Doc ai timetable system parallel relation database process graphics class AI

D I 1 1 0 0 0 0 0 0 1 D 2 1 0 0 0 0 0 0 0 1 D 3 0 1 0 0 1 1 1 1 1 D 4 1 0 0 0 0 0 0 1 1 D 5 1 1 1 1 1 0 0 1 1 D6 0 0 I 1 0 0 0 0 0 D 7 0 0 1 0 0 0 0 1 0 D8 0 0 1 0 1 1 0 0 0 D 9 1 0 1 1 0 1 0 0 0 D 1 0 1 1 0 0 1 1 1 0 0 Bảng 5: C á c v í d ụ h u ấ n lu y ệ n d ù n g tr o n g c a y q u y ế t đ ịn h .

C h ẳ n g h ạ n văn b ả n 3 đ ư ợ c b iể u d iễ n n h ư tr o n g c h ư ơ n g 2 , k h i đ ư a v à o c â y q u y ế t đ ịn h s ẽ p h â n lớ p n h ư s a u 1 AI 1 System 0 Os 0 Database 0 Parallel 0 Relation 0 Process 1 Timetable Class AI = YES

Những b à i toán nên sử dụ n g việc h ọ c c ả y q u y ế t ơịnh

T r o n g 11 8 ], M itc h e l đ ã c h ỉ ra r ằ n g v iệ c sỉr d ụ n g cA y q u y ế t đ ịn h là p h ù hợ p nh ất đ ể g iả i q u y ế t c á c b ài to á n c ó n h ữ n g đ ặ c trư n g sau:

- G í c m ẫ u h u ấn lu y ệ n đ ư ợ c b iể u d iễ n th àn h n h ữ n g c ặ p g iá trị - t h u ộ c tín h , và c á c th u ộ c tín h là m ộ t tậ p cô' đ ịn h . G iá trị c ủ a th u ộ c tín h d ơ n g iả n n h ấ t là c á c g iá

trị rời n h a u . T u y n h iê n tr o n g c á c ih u â t to á n h ọ c cA y q u y ế t đ ịn h c ả i tiế n sa u n à y n h ư C 4 .5 , n g ư ờ i ta c ó th ể c h o p h é p g iá trị c ủ a c á c th u ộ c tín h là c á c g iá trị th ự c .

I là m m ụ c liổ u c ó c á c g iá Il ị lùíi rạc: C h ẳ n g h ạ n n h ư Ir o n g cA y q u y ế t đ ịn h ở (rên , h à m m ụ c tiôu c h ỉ c ó h ai g iá trị là Y c s h o ặ c N o (T r ư ờ n g h ợ p n à y đ ư ợ c sử d ụ n g p h ổ b iế n n h ấ t). C â y q u y ế t đ ịn h c ó th ể d ễ d à n g m ờ r ộ n g h à m m ụ c tiê u thành n h iề u g iá trị đ ầ u ra.

T im eta b le

- T r ư ờ n g h ợ p b à i to á n c ầ n b iể u d iễ n k ế t q u ả thu đ ư ợ c d ư ớ i d ạ n g c á c m ô tả: C h ả n g h ạn n h ư b ài to á n c ầ n b iể u d iễ n th à n h n h ữ n g luật thì c ấ u trú c c â y q u y ế t đ ịn h c ó (h ể c h u y ể n s a n g m ộ t c á c h lự n h iê n .

- T ậ p d ữ liộ u huấn lu y ộ n c ó llìổ c h ứ a lỏ i: Plurưng p h á p học cAy q u y ế t đ ịn h

CÓ th ê th ự c h iệ n tốt trôn c á c lộ p d ữ liệ u c h ứ a lỏ i, c ả trên c á c lỏ i tr o n g p h â n lớ p v í dụ h u ấ n lu y ệ n c ũ n g n h ư lỏ i trên c á c g iá trị th u ộ c tín h tr o n g c á c v í d ụ n à y .

- T ậ p d ữ liệ u h u ấ n lu y ệ n c ó th ể c ó n h ữ n g g iá trị bị th iế u : P h ư ơ n g p h á p c â y q u y ế t đ ịn h c ó th ể đ ư ợ c s ử d ụ n g tr o n g trư ờ n g h ợ p c á c v í d ụ h u ấ n lu y ệ n c ó n h ữ n g g iá trị c h ư a b iế t.

Thuật toún ID 3

C á c th u ât to á n h ọ c c â y q u y ế t đ ịn h n g à y c à n g đ ư ợ c phát triển v à c ả i tiế n . N h ư n g h ầu h ế t c á c th u ậ t to á n d ó đ ề u d ự a v à o c á c h tiế p c ậ n từ trôn x u ố n g và c h iế n lư ợ c tìm k iế m th a m ãn ( g r e e d y ) tr o n g k h ô n g g ia n tìm k iế m c ù a cfty q u y ế t đ ịn h ...

T r o n g c á c thuẠt to á n h ọ c cAy q u y ế t đ ịn h thì th u ật to á n I D 3 v à th u ậ t to á n c ủ a tiế n c ủ a I1Ó là C 4 .5 là p h ổ b iế n n h ấ t. T h u ậ t to á n h ọ c c â y q u y ế t đ ịn h I D 3 lầ n đ ầu tiên đ ư ợ c Ọ u in la n g iớ i th iệ u n ă m 1 9 7 5 tr o n g tạp c h í M achine Learning, Voí.ỉ, No. ỉ.

T r o n g p h án n à y c h ú n g tô i trìn h b à y th u ậ t to á n 1 D 3 , th u ật to á n đ ư ợ c m ô p h ỏ n g n h ư s a u [ 1 8 ] .

I D 3 ( E x a m p lc s , T a r g c l a ttr ib u lc , A ttr ib u te s )

E xam ples ờ dAy ià tập c á c v í d ụ h u ấ n lu y ệ n . T urget_am ibute là n h ữ n g th u ộ c tín h đ ầ u ra c h o cAy q u y ế t d ịn h d ự đ o á n . A ttrib u te s là m ộ t d a n h s á c h c á c th u ộ c tín h k h á c th a m g ia tr o n g q u á trìn h h ọ c c ủ a c â y q u y ế t đ ịn h . K ết q u ả thủ tụ c trả v ề c â y q u y ế t đ ịn h p h â n lớ p đ ú n g c á c m â u v í d ụ d ư a ra.

• T ạ o m ộ t nút g ố c R o o t c h o cA y q u y ế t (.lịnh.

• N ê u to à n b ộ E xam ples d ề n là c á c v í d ụ d ư ư iig . T rả lạ i cA y R o o t m ộ t nút đ ơ n , v ớ i n h ã n + .

• N ế u to à n b ộ E xam plesđều là c á c v í d ụ â m . T rả lại c â y R o o t m ộ t nút d ơ n , v ớ i n h ã n

• N ế u A ttrib u te s là r ỗ n g thì trả lại cAy R o o t m ộ t nút đ ơ n với n h ãn g á n b ằ n g g iá trị p h ổ b iế n n h ất c ủ a T arget_alln bu íe tr o n g Exainples.

• N g ư ợ e lại B c g in

*A <— T h u ộ c tín h từ tẠp A ttrib u tes m à p h ân lớ p tốt n h ất tập E xum ples.

* T h u ộ c tín h q u y ế t đ ịn h c h o R o o t <— A

* F o r m ỗ i g iá trị c ó th ể Vị c ủ a A ,

- C ộ n g th ê m m ộ t n h á n h c â y c o n ờ d ư ớ i R o o t, phù h ợ p v ớ i b iể u th ứ c k iể m tra A - Vị.

- Đ ặ t E x a m p lesy là m ộ t tập c o n c ủ a tâ p c á c v í d ụ c ó g iá trị Vj

c h o A

- N ế u E x a m p ỉess rỗ n g

-T h ì d ư ớ i m ỏ i n h á n h m ớ i th ê m m ộ t nút lá v ớ i n h ã n = g iá trị p h ổ b iế n nhất c ủ a Target_ uttribute tr o n g tâp

E xam pỉes. -N g ư ợ c lại thì d ư ớ i n h á n h m ớ i n à y th ê m m ộ t c â y c o n l D 3 ( E x a m p l e s v , T a r g e t_ a ttr ib u te , A ttr ib u te - { A I ) . • E n d • R etu rn Roof. * T h u ộ c tín h tố l nhất là th u ộ c tín h c ó d ô d o t h ô n g tin (I n fo r m a tio n g a in ) lớ n nhất. Chọn ỉựii thuộc tính ¡ốt nhất.

V ấ n đ ề t r u n g tâ m c ủ a thuật t o á n ID 3 là c h ọ n lựa th u ộ c tín h t ố t n h ấ t đ ể đư a v à o m ỗ i n ú t c ủ a cA y. Đ ể g i ả q u y ê ì v ấ n đ ề n à y , n g ư ờ i ta sử d ụ n g c á c k ế t q u à c ủ a lý th u y ế t th ô n g t i n ià c á c đ ộ đ o I n f o r m a t i o n g a i n và e n tr o p y .

Entropy

Entropy là đại lưựng do tính dồng nhất hay tính lliuần nhất của các mẫu, entropy là dại lượng hết sức quan trọng trong lý lliuyết lliông tin. Già sử dưa ra mội tập s có chứa các mẫu ví dụ dương (positive) và mẫu ví dụ ủm (negative), như vây chúng ta có hai lớp phân biột. Khi đó enlropy của tạp s được dịnh nghĩa như sau:

Entropy(S) s -pe log2p® - p©log2pQ.

trong đó Pe là phân bô' của các ví dụ dương trong s và p@ là phân bố của các ví dụ âm trong s, chúng ta định nghĩa 01og0=0.

Để dễ hình dung, giả sử s là một tập hợp gồm 10 mẫu ví dụ (5 ví dụ âm và 5

ví dụ dương), kí hiệu là [5+, 5-J. Khi dó, đại lượng entropy s liên quan tới việc phan bố của hai lớp dương và am trong tập s là:

Entropy([5+, 5-]) = -(5/10)ỉog2(5/10) - (5/10)log2(5/10) = = 1.0

Chúng ta đã xét trường hợp dặc biệt đối với tập có số lượng phân bố mỗi lớp là như nhau. Đại lượng entropy trong trường hợp hai lớp nằm trong khoảng 0 và 1.

Các giá trị của entropy phụ thuộc vào phân bô' của một lớp dược mô tả trong hình 10.

Chú ý rằng entropy là 0 nếu tất cả các phán tử của s thuộc vào cùng một lớp. Chẳng hạn, nếu tất cả phần tử là dương (p©=l), khi đó p©=0 và Entropy(S)=-1.0.log2( 1) — 0.log20 = -1.0 —0.log20 = 0. Entropy là I khi tập hợp chứa số mẫu ílưưng bằng số mảu âm.

ở trên chúng ta xét trường hợp phân lớp thành hai lớp, đối với trường hợp tổng quát thì dại

Đ o à n Sơn - L u ận văn Thạc s ĩ - K h o a C ôn g n gh ệ, Đ H Ọ G H à N ộ i 2 0 0 2

H ình 10. M ối liên hộ giữa entropy và phAn bố

lư ợ n g e n tr o p y đ ư ợ c x á c đ ịn h n h ư sau :

E n tr o p y (S ) = Pi l°g2Pi i«l

tr o n g đ ó Pi là p h â n b ố c ủ a s th u ộ c v à o lớ p i. C hú ý là đ ại lư ợ n g lo g a r ith m vẫn là c ơ sô' 2 b ờ i e n tr o p y là đ ạ i lư ợ n g (r o n g lý th u y ế t th ô n g tin dự a v à o v iệ c m ã h o á trên c á c bit. L ú c n à y , e n tr o p y c ó th ể lớ n h ơ n 1.

Inform ation Gain

E n tr o p y là đ ạ i lư ợ n g đ o đ ộ k h ô n g d ồ n g nhất tr o n g m ộ t tập c á c m ẫ u , n gư ờ i ta đ ư a ra m ộ t đ ộ đ o x á c đ ịn h ản h h ư ờ n g c ủ a m ộ t th u ộ c tín h (ro n g m ẫ u đ ó tro n g v iê c ph an lớ p , đ ạ i lư ợ n g đ ó là in fo r m a tio n g a in , tạm d ịc h là đ ộ lấ y th ô n g tin , ph ần tiế p th e o c h ú n g tô i v ẫ n g iữ n g u y ê n tên tiế n g A n h n h ư ban đ ầ u .

In fo r m a tio n G a in c ủ a m ộ t th u ộ c tín h A tron g tập h ợ p s, k í h iệu là G a in (S , A ) đ ư ợ c x á c đ ịn h n h ư sau : _ |s I G a in (S , A ) = E n tr o p y (S ) - £ — ■- E n tr o p y (S v). V« Values* A ) |S| tr o n g đ ó V a l u e s ( A ) là tập c á c g iá trị c ó thể c ủ a th u ộ c tính A , c ò n S v là tạp c o n c ủ a S m à A c ó g iá trị V (tứ c là S v= { s e S I A ( s ) = v | ) .

B iể u thứ c đ ầu E n tr o p y (S ) là đ ạ i lư ợ n g en tr o p y n g u y ô n th u ỷ c ủ a tập s, b iểu thứ c sa u là g iá trị kì v ọ n g c ủ a e n tr o p y sa u k h i s đ ư ợ c c h ia th e o th u ộ c tín h A . G iá trị kì v ọ n g c ủ a e n tr o p y tr o n g b iể u th ứ c thứ h ai đ ơ n g iả n c h ỉ là tổ n g c á c g iá trị e n tr o p y

Ịs ị

c ủ a c á c S v, n h â n vớ i tỉ sô' c á c v í d ụ - j - y m à th u ộ c v à o S v. G a in (S , A ) d o đ ó là d ộ

g iả m kì v ọ n g ( e x p e c t e d e n tr o p y ) tr o n g e n tr o p y khi b iết g iá trị c á c th u ộ c tín h A . N ó i c á c h k h á c , G a in (S , A ) là th ô n g tin c u n g c ấ p vổ g iá trị h à m m ụ c liô u khi b iết c á c giií trị c ủ a th u ộ c tín h A . G iá trị c ủ a G a in (S , A ) là s ô c á c b ii d ư ự c lưu khi in ã hoú c á c g iá trị m ụ c tiê u c ủ a m ộ t th à n h p h ẩ n c ủ a s, k h i b iế t c á c g iá trị c ủ a th u ộ c tín h A .

C h ẳ n g h ạ n , g iả s ử s là tậ p h ợ p c á c v í dụ n g a y h u ấn lu y ệ n d ư ợ c m ô tả c ó th u ộ c tín h A I , th u ộ c tín h n à y c ó h a i g iá trị là T ru e (h a y I ) và F a ls e (h a y 0 ) , tro n g v í

d ụ ta th ấ y s là m ộ t tẠp g ồ m 10 v í d ụ , [ 5 + , 5 - |. T r o n g 10 VI dụ n à y thì c ó 4 v í dụ d ư ơ n g và 2 ví dụ âm d ố i v ớ i A I = 1, và 1 v í d ụ d ư ơ n g và 3 ví d ụ â m d ố i vớ i A I = 0 . K h i đ ó ta c ó : V a lu c s ( A I ) = F a ls e , T ru e. S = [5 + , 5-J ^Trac (4+. 2-] Spnlsc < - [ ! + » 3 -] E n tro p y (S rrilc) = - ( 4 / 6 ) l o g2( 4 /6 ) - ( 2 / 6 ) l o g2( 2 / 6 ) = 0 .9 1 8 E n tr o p y (S Falsc) = - ( l / 4 ) I o g2( I / 4 ) - ( 3 / 4 ) l o g2( 3 /4 ) = 0 .8 1 2 G a in (S , A I ) = E n tr o p y (S ) - £ L J E n tr o p y (S v)= ve(;W eak,Suong}; 1^1 = E n tr o p y ( S )-(4 /1 0 ) E n tr o p y (S rillc) - ( 6 /1 0 )E n tr o p y (S Pa|SC) = 1.0 — ( 4 / 1 0 ) 0 .9 1 8 — ( 6 / 1 0 ) 0 . 8 12 = = 0 .1 2 4 4

Đ ạ i lư ợ ng In fo r m a tio n G a in tro n g th u ật to á n ID 3 đ ư ợ c d ù n g đ ể lựa c h ọ n th u ộ c tín h tốt nhất tại m ỗ i b ư ớ c tro n g x â y d ự n g c â y q u y ế t đ ịn h . V í d ụ m in h h o ạ đ ư ợ c th ể h iê n tr o n g h ìn h 11, tro n g đ ó ta c h ọ n th u ộ c tín h S y ste m vì n ó c h o g iá trị c ủ a in fo r m a tio n g a in lớ n h ơ n g iá trị c ủ a A I.

S:|5+. 5-Ị Ea 1.0 11+.3-1 E = 0.812 E =0.91814+. 2-1 S |S + . 5-1 E = 1.0 |4+. 1-1 E = 0.722 11+.4-1 E = 0.722

Gain(S, A l)= Gain(S, Sysiem) =

» 1.0-(4/10)0.812-(6/10)0.918=0.1244 = 1.0 (5/IO)0.722-(5/IO)0.722=0.278

Hình ìỉ. Trong hai thuộc tính thì System cho độ đo information gain lớn hơn so với AI. Information Gain của System là 0.278, còn của A I IÌI 0.1244, do dó la chọn thuộc tính System cho việc phát triển các nhánh tiếp theo của cAy lỊiiyỏl định.

H iện tượng vượt ngưỡng

M ộ i tr o n g n h ữ n g đ ặ c đ iể m q u a n tr ọ n g tr o n g h ọ c c ó g iá m sát là h iệ n tư ợ n g o v c r íit , c h ú n g tô i tạm d ịc h là vưựl n g ư ỡ n g . T r o n g n h iề u trư ờ n g h ợ p c á c m ẫ u huấn lu y ệ n c ó n h iễ u h o ặ c s ố lư ợ n g c á c m ẫ u h u ấ n lu y ệ n q u á n h ỏ n ôn k h ô n g d ặ c trư n g c h o tập c ầ n h u ấ n lu y ệ n , khi đ ó x ả y ra h iệ n tư ợ n g vượt n g ư ỡ n g d ư ợ c M itc h e l đ ịn h n g h ĩa n h ư sa u tr o n g Ị 18].

C h o m ộ t k h ỏ n g g ia n g ià lliu y ế l II, m ộ t g iả th u y ế t l i e l l chrợc g ọ i là vượt n g ư ỡ n g n ế u tr o n g tẠp h u ấ n lu y ộ n c ó (ổ n lạ i m ộ l g iả th u y ế l k h á c h ’ e l l s a o c h o h c ó lỗ i n h ỏ h ơ n h ’ trôn to à n b ộ tẠp h u ấ n lu y ệ n , n h ư n g h ’ lại c ó lỗ i n h ỏ h ơ n h trôn toàn b ộ c á c m ẫ u v í dụ m in h h o ạ .

Như Milchell đã chỉ ra trong 118|, hiộn tượng vượt ngưỡng là một vấn đẻ đáng chú ý trong pliương pháp học củy quyết định và trong các phương pháp học máy khác. Trong phương pháp học cây lịiiyèl định, thòng thường nếu sô' mẫu huấn luyện càng lớn thì về mặt lý Ihuyết độ chính xác càng cao nhưng trong nhiều Ihỉr nghiộm, ban díìu d ồ chính xác có tăng nhưng sau d ó lại giảm đi, hiện tượng VƯỢ1

ngưỡng làm giảm từ 10-12% độ chính xác của hẩư hết các bài toán trong học cíiy quyết định.

Trong luận văn này chúng tôi không tập trung nhiều đến việc giải quyết hiện tượng này, nhưng có hai hướng tiếp cận để giải quyết hiện tượng vượt ngưỡng là:

Ngừng viộc sinh cây quyết định sớm, trước khi nó đạt tới điểm mà phân chia chính xác dữ liộu huấn luyện.

Cho phép quá trình hình thành cây quyết định xảy ra hiện tượng vượt ngưỡng, sau dó cắt nhánh cây.

3.1.2. Phân lớp văn bản sử dụng cây quyết định

Trôn cơ sờ phương pháp học cAy quyết định, chúng tôi áp dụng vào việc phân lớp vãn bản. Hình 10 là một khung cho việc pliAn lớp văn bản do Moulinier đề xuất trong [19], trong đó bao gồm ba công đoạn chính : Công đoạn thứ nhất là biểu diễn