P h â n lớ p v ã n bản đ ư ợ c c á c n h à n g h iê n cứ u đ ịn h n g h ĩa th ố n g n h ất n h ư là v iệ c gán c á c c h ủ đ ể đ ã đ ư ợ c x á c đ ịn h trước v à o c á c văn bản lex t d ự a trôn n ộ i d u n g c ủ a I1Ó 1311 14-1115II 1 6 | | 2 4 | | 2 7 | . PliAn lớ p văn ban là c ô n g v iệ c d ư ự c s ử d ụ n g d ổ liỏ Irự tron g q u á trìn h tìm k iế m v ãn b ả n , c h iế t lọ c !h ô n g tin (In íb r m a tio n E x tr a c lio n ), lọ c vãn b ản h o ặ c tự đ ộ n g d ẫn đ ư ờ n g c h o c á c văn bản tới n h ữ n g c h ủ đ ể đ ư ợ c x á c đ ịn h trước.
Đ ể p h ân lớ p đ ư ợ c v ăn b ả n , n g ư ờ i ta phải s ử d ụ n g kỹ thuật h ọ c m á y c ó g iá m sát (s u p e r v is e d le a r n in g ). T ậ p d ữ liệ u đ ư ợ c c h ia ra làm hai tập là tập h u ấ n lu y ệ n (tr a in in g s e t ) và tậ p k iể m tra (te s t s e t ) , trước hết phải x â y d ự n g m ô h ìn h th ô n g q u a c á c m ẫ u h ọ c b ằ n g c á c tập h u ấn lu y ệ n , sa u đ ó k iể m tra s ự c h ín h x á c b ằ n g tập d ữ liệ u k iể m tra.
T r o n g lu ậ n v ă n n à y , c h ú n g tô i s ử d ụ n g p h ư ơ n g pháp h ọ c c â y q u y ế t đ ịn h c h o phân lớ p văn b ả n . V i ệ c p h ân tíc h th u ật to á n và n h ữ n g ưu n h ư ợ c đ iể m c ủ a p h ư ơ n g pháp h ọ c c â y q u y ế t đ ịn h s ẽ đ ư ợ c trình b à y d ư ớ i đ ã y .
3 .1 .1 . T h u ậ t to á n h ọ c cAy q u y ế l d ịn li
P h ư ơ n g p h á p h ọ c c â y q u y ế t clịnh là m ộ t tr o n g n h ữ n g p h ư ơ n g p h á p đ ư ợ c sử d ụ n g r ộ n g rãi n h ấ t c h o v iệ c h ọ c q u y n ạp từ m ộ t tâp m ẫ u lớ n . Đ â y là p h ư ơ n g p h áp h ọ c x ấ p x ỉ c á c h à m m ụ c tiê u c ó g iá trị rời rạc. M ặt k h á c , c â y q u y ế t đ ịn h c ò n c ó th ể
c h u y ể n s a n g d ạ n g b iể u d iễ n tư ơ n g d ư ơ n g d ư ớ i d ạ n g c ơ s ờ tri th ứ c là c á c lu ậ t
N ếu -
Thì ( ỉ f - Then).
V í d ụ vổ c â y q u y ô t đ ịn h .
Hình 9:
Một ví dụ vé cây quyết định cho phan lớp AI..H ìn h 9 là m ộ t v í d ụ v ề c â y q u y ế t đ ịn h p h â n lớ p A I c á c m ẫ u đ ư a ra tr o n g b ả n g 5 . M ỏ i m ộ t nút c ủ a c ố y b iể u d iỗ n I11ÔI th u ộ c lín h tr o n g c á c m ẫ u (d ô i k hi c ò n đ ư ợ c g ọ i là v í dụ m in h h o ạ h o ặ c d ữ liộ u h u â n lu y ệ n , h o ặ c m ă u h u ấ n lu y ệ n ) , m ỗ i m ộ t n h á n h tớ i nút tư ơ n g ứ n g vớ i m ộ t tr o n g n h ữ n g g iá trị c ó thổ c h o th u ộ c tín h n à y . Đ ể đ ơ n g iả n , c h ú n g tô i b iể u d iễ n c á c th u ộ c tín h d ư ớ i d ạ n g n h ị p h ù n , tứ c là c h ỉ lấ y c á c g iá trị 0 và 1.
D ữ liệ u h u ấ n lu y ệ n g ổ in 10 v ă n b ản (tr o n g th ự c t ế thì s ố lư ợ n g n à y c ó th ể lên đ ế n h à n g n g h ìn ) . M õ i v ã n b àn ilư ự c b iể u d iỗ n b ở i 8 k h á i n iộ m (h a y là c á c th u ộ c tín h ) n h ị p h â n . Đ ó là c á c th u ộ c lín h a i, tim e t a b le , s y s t e m , p a r a lle l, r e la tio n , d a ta b a s e , p r o c e s s , g r a p h ic s . T h u ộ c tín h c u ố i c ù n g Iron g d ữ liộ u h u ấ n lu y ệ n là A I , d ó là h à m m ụ c tiôu c ủ a c h ú n g ta, h à m n à y nhẠn g iá trị I tứ c là v ă n b ản d ó th u ộ c lớ p A I , c ò n g iá trị 0 là v ă n b ản đ ó k h ô n g t h u ộ c lớ p A I.
M ặt k h á c , từ c â y q u y ế t đ ịn h ờ trên c h ú n g ta c ó th ể rút ra c ơ s ờ tri th ứ c c h o tậ p h u ấ n lu y ệ n g ồ m c á c luật sa u đ â y .
N ếu
( S y s t e m = I) và ( T im e t a b le = I )Thì
c la s s A I = Y c s .N ếu
( S y s t e m = 0 ) và ( P r o c c s s = I ) 777/ c la s s A I = N o .N ếu
( S y s t e m = I) v à ( T im e t a b le = 0 ) 77// c la s s A I = N o .N ếu
( S y s t e m = 0 ) và ( P r o c e s s = 0 )TIÙ
c la s s A I = Y e s .Doc ai timetable system parallel relation database process graphics class AI
D I 1 1 0 0 0 0 0 0 1 D 2 1 0 0 0 0 0 0 0 1 D 3 0 1 0 0 1 1 1 1 1 D 4 1 0 0 0 0 0 0 1 1 D 5 1 1 1 1 1 0 0 1 1 D6 0 0 I 1 0 0 0 0 0 D 7 0 0 1 0 0 0 0 1 0 D8 0 0 1 0 1 1 0 0 0 D 9 1 0 1 1 0 1 0 0 0 D 1 0 1 1 0 0 1 1 1 0 0
Bảng 5:
C á c v í d ụ h u ấ n lu y ệ n d ù n g tr o n g c a y q u y ế t đ ịn h .C h ẳ n g h ạ n văn b ả n 3 đ ư ợ c b iể u d iễ n n h ư tr o n g c h ư ơ n g 2 , k h i đ ư a v à o c â y q u y ế t đ ịn h s ẽ p h â n lớ p n h ư s a u 1 AI 1 System 0 Os 0 Database 0 Parallel 0 Relation 0 Process 1 Timetable
Class AI = YES
Những b à i toán nên sử dụ n g việc h ọ c c ả y q u y ế t ơịnh
T r o n g 11 8 ], M itc h e l đ ã c h ỉ ra r ằ n g v iệ c sỉr d ụ n g cA y q u y ế t đ ịn h là p h ù hợ p nh ất đ ể g iả i q u y ế t c á c b ài to á n c ó n h ữ n g đ ặ c trư n g sau:
- G í c m ẫ u h u ấn lu y ệ n đ ư ợ c b iể u d iễ n th àn h n h ữ n g c ặ p g iá trị - t h u ộ c tín h , và c á c th u ộ c tín h là m ộ t tậ p cô' đ ịn h . G iá trị c ủ a th u ộ c tín h d ơ n g iả n n h ấ t là c á c g iá
trị rời n h a u . T u y n h iê n tr o n g c á c ih u â t to á n h ọ c cA y q u y ế t đ ịn h c ả i tiế n sa u n à y n h ư C 4 .5 , n g ư ờ i ta c ó th ể c h o p h é p g iá trị c ủ a c á c th u ộ c tín h là c á c g iá trị th ự c .
I là m m ụ c liổ u c ó c á c g iá Il ị lùíi rạc: C h ẳ n g h ạ n n h ư Ir o n g cA y q u y ế t đ ịn h ở (rên , h à m m ụ c tiôu c h ỉ c ó h ai g iá trị là Y c s h o ặ c N o (T r ư ờ n g h ợ p n à y đ ư ợ c sử d ụ n g p h ổ b iế n n h ấ t). C â y q u y ế t đ ịn h c ó th ể d ễ d à n g m ờ r ộ n g h à m m ụ c tiê u thành n h iề u g iá trị đ ầ u ra.
T im eta b le
- T r ư ờ n g h ợ p b à i to á n c ầ n b iể u d iễ n k ế t q u ả thu đ ư ợ c d ư ớ i d ạ n g c á c m ô tả: C h ả n g h ạn n h ư b ài to á n c ầ n b iể u d iễ n th à n h n h ữ n g luật thì c ấ u trú c c â y q u y ế t đ ịn h c ó (h ể c h u y ể n s a n g m ộ t c á c h lự n h iê n .
- T ậ p d ữ liộ u
huấn
lu y ộ n c ó llìổ c h ứ a lỏ i: Plurưng p h á phọc
cAy q u y ế t đ ịn hCÓ th ê th ự c h iệ n tốt trôn c á c lộ p d ữ liệ u c h ứ a lỏ i, c ả trên c á c lỏ i tr o n g p h â n lớ p v í dụ h u ấ n lu y ệ n c ũ n g n h ư lỏ i trên c á c g iá trị th u ộ c tín h tr o n g c á c v í d ụ n à y .
- T ậ p d ữ liệ u h u ấ n lu y ệ n c ó th ể c ó n h ữ n g g iá trị bị th iế u : P h ư ơ n g p h á p c â y q u y ế t đ ịn h c ó th ể đ ư ợ c s ử d ụ n g tr o n g trư ờ n g h ợ p c á c v í d ụ h u ấ n lu y ệ n c ó n h ữ n g g iá trị c h ư a b iế t.
Thuật toún ID 3
C á c th u ât to á n h ọ c c â y q u y ế t đ ịn h n g à y c à n g đ ư ợ c phát triển v à c ả i tiế n . N h ư n g h ầu h ế t c á c th u ậ t to á n d ó đ ề u d ự a v à o c á c h tiế p c ậ n từ trôn x u ố n g và c h iế n lư ợ c tìm k iế m th a m ãn ( g r e e d y ) tr o n g k h ô n g g ia n tìm k iế m c ù a cfty q u y ế t đ ịn h ...
T r o n g c á c thuẠt to á n h ọ c cAy q u y ế t đ ịn h thì th u ật to á n I D 3 v à th u ậ t to á n c ủ a tiế n c ủ a I
1
Ó là C 4 .5 là p h ổ b iế n n h ấ t. T h u ậ t to á n h ọ c c â y q u y ế t đ ịn h I D 3 lầ n đ ầu tiên đ ư ợ c Ọ u in la n g iớ i th iệ u n ă m 1 9 7 5 tr o n g tạp c h íM achine Learning, Voí.ỉ, No. ỉ.
T r o n g p h án n à y c h ú n g tô i trìn h b à y th u ậ t to á n 1 D 3 , th u ật to á n đ ư ợ c m ô p h ỏ n g n h ư s a u [ 1 8 ] .
I D 3 ( E x a m p lc s , T a r g c l a ttr ib u lc , A ttr ib u te s )
E xam ples ờ
dAy ià tập c á c v í d ụ h u ấ n lu y ệ n .T urget_am ibute
là n h ữ n g th u ộ c tín h đ ầ u ra c h o cAy q u y ế t d ịn h d ự đ o á n .A ttrib u te s
là m ộ t d a n h s á c h c á c th u ộ c tín h k h á c th a m g ia tr o n g q u á trìn h h ọ c c ủ a c â y q u y ế t đ ịn h . K ết q u ả thủ tụ c trả v ề c â y q u y ế t đ ịn h p h â n lớ p đ ú n g c á c m â u v í d ụ d ư a ra.• T ạ o m ộ t nút g ố c
R o o t
c h o cA y q u y ế t (.lịnh.• N ê u to à n b ộ
E xam ples
d ề n là c á c v í d ụ d ư ư iig . T rả lạ i cA yR o o t
m ộ t nút đ ơ n , v ớ i n h ã n + .• N ế u to à n b ộ
E xam plesđều
là c á c v í d ụ â m . T rả lại c â yR o o t
m ộ t nút d ơ n , v ớ i n h ã n• N ế u
A ttrib u te s
là r ỗ n g thì trả lại cAyR o o t
m ộ t nút đ ơ n với n h ãn g á n b ằ n g g iá trị p h ổ b iế n n h ất c ủ aT arget_alln bu íe
tr o n gExainples.
• N g ư ợ e lại B c g in
*A <—
T h u ộ c tín h từ tẠpA ttrib u tes
m à p h ân lớ p tốt n h ất tậpE xum ples.
* T h u ộ c tín h q u y ế t đ ịn h c h o
R o o t <— A
* F o r m ỗ i g iá trị c ó th ể
Vị
c ủ aA ,
- C ộ n g th ê m m ộ t n h á n h c â y c o n ờ d ư ớ i
R o o t
, phù h ợ p v ớ i b iể u th ứ c k iể m traA -
Vị.- Đ ặ t
E x a m p lesy
là m ộ t tập c o n c ủ a tâ p c á c v í d ụ c ó g iá trị Vjc h o
A
- N ế u
E x a m p ỉess
rỗ n g-T h ì d ư ớ i m ỏ i n h á n h m ớ i th ê m m ộ t nút lá v ớ i n h ã n = g iá trị p h ổ b iế n nhất c ủ a
Target_ uttribute
tr o n g tâpE xam pỉes.
-N g ư ợ c lại thì d ư ớ i n h á n h m ớ i n à y th ê m m ộ t c â y c o n l D 3 ( E x a m p l e s v , T a r g e t_ a ttr ib u te , A ttr ib u te - { A I ) . • E n d • R etu rnRoof.
*
T h u ộ c tín h tố l nhất là th u ộ c tín h c ó d ô d o t h ô n g tin (I n fo r m a tio n g a in ) lớ n nhất.Chọn ỉựii thuộc tính ¡ốt nhất.
V ấ n đ ề t r u n g tâ m c ủ a thuật t o á n ID 3 là c h ọ n lựa th u ộ c tín h t ố t n h ấ t đ ể đư a v à o m ỗ i n ú t c ủ a cA y. Đ ể g i ả q u y ê ì v ấ n đ ề n à y , n g ư ờ i ta sử d ụ n g c á c k ế t q u à c ủ a lý th u y ế t th ô n g t i n ià c á c đ ộ đ o I n f o r m a t i o n g a i n và e n tr o p y .
Entropy
Entropy là đại lưựng do tính dồng nhất hay tính lliuần nhất của các mẫu,
entropy là dại lượng hết sức quan trọng trong lý lliuyết lliông tin. Già sử dưa ra mội
tập s có chứa các mẫu ví dụ dương (positive) và mẫu ví dụ ủm (negative), như vây
chúng ta có hai lớp phân biột. Khi đó enlropy của tạp s được dịnh nghĩa như sau:
Entropy(S) s -pe log2p® - p©log2pQ.
trong đó Pe là phân bô' của các ví dụ dương trong s và p@ là phân bố của các
ví dụ âm trong s, chúng ta định nghĩa 01og0=0.
Để dễ hình dung, giả sử s là một tập hợp gồm 10 mẫu ví dụ (5 ví dụ âm và 5
ví dụ dương), kí hiệu là [5+, 5-J. Khi dó, đại lượng entropy s liên quan tới việc phan
bố của hai lớp dương và am trong tập s là:
Entropy([5+, 5-]) = -(5/10)ỉog2(5/10) - (5/10)log2(5/10) =
= 1.0
Chúng ta đã xét trường hợp dặc biệt đối với tập có số lượng phân bố mỗi lớp
là như nhau. Đại lượng entropy trong trường hợp hai lớp nằm trong khoảng 0 và 1.
Các giá trị của entropy phụ thuộc vào phân bô' của một lớp dược mô tả trong
hình 10.
Chú ý rằng entropy là 0
nếu tất cả các phán tử của s thuộc
vào cùng một lớp. Chẳng hạn,
nếu tất cả phần tử là dương
(p©=l), khi đó p©=0 và
Entropy(S)=-1.0.log2( 1) —
0.log20 = -1.0 —0.log20 = 0.
Entropy là I khi tập hợp chứa số
mẫu ílưưng bằng số mảu âm.
ở trên chúng ta xét trường
hợp phân lớp thành hai lớp, đối
với trường hợp tổng quát thì dại
Đ o à n Sơn - L u ận văn Thạc s ĩ - K h o a C ôn g n gh ệ, Đ H Ọ G H à N ộ i 2 0 0 2
H ình 10.
M ối liên hộ giữa entropy và phAn bốlư ợ n g e n tr o p y đ ư ợ c x á c đ ịn h n h ư sau :
E n tr o p y (S )
= Pi l°g2Pi
i«l
tr o n g
đ ó Pi
là p h â n b ố c ủ as
th u ộ c v à o lớ p i. C húý
là đ ại lư ợ n g lo g a r ith m vẫn là c ơ sô' 2 b ờ i e n tr o p y là đ ạ i lư ợ n g (r o n g lý th u y ế t th ô n g tin dự a v à o v iệ c m ã h o á trên c á cbit.
L ú c n à y , e n tr o p yc ó
th ể lớ n h ơ n 1.Inform ation Gain
E n tr o p y là đ ạ i lư ợ n g đ o đ ộ k h ô n g d ồ n g nhất tr o n g m ộ t tập c á c m ẫ u , n gư ờ i ta đ ư a ra m ộ t đ ộ đ o x á c đ ịn h ản h h ư ờ n g c ủ a m ộ t th u ộ c tín h (ro n g m ẫ u đ ó tro n g v iê c ph an lớ p , đ ạ i lư ợ n g đ ó là in fo r m a tio n g a in , tạm d ịc h là đ ộ lấ y th ô n g tin , ph ần tiế p th e o c h ú n g tô i v ẫ n g iữ n g u y ê n tên tiế n g A n h n h ư ban đ ầ u .
In fo r m a tio n G a in c ủ a m ộ t th u ộ c tín h A tron g tập h ợ p
s,
k í h iệu là G a in (S , A ) đ ư ợ c x á c đ ịn h n h ư sau :_ |s I
G a in (S , A ) = E n tr o p y (S ) - £ — ■- E n tr o p y (S v). V« Values* A ) |S| tr o n g đ ó V a l u e s ( A ) là tập c á c g iá trị c ó thể c ủ a th u ộ c tính A , c ò n S v là tạp c o n c ủ a S m à A c ó g iá trịV (tứ c là S v= { s e S I A ( s ) = v | ) .
B iể u thứ c đ ầu E n tr o p y (S ) là đ ạ i lư ợ n g en tr o p y n g u y ô n th u ỷ c ủ a tập
s,
b iểu thứ c sa u là g iá trị kì v ọ n g c ủ a e n tr o p y sa u k h is
đ ư ợ c c h ia th e o th u ộ c tín h A . G iá trị kì v ọ n g c ủ a e n tr o p y tr o n g b iể u th ứ c thứ h ai đ ơ n g iả n c h ỉ là tổ n g c á c g iá trị e n tr o p yỊs ị
c ủ a c á c S v, n h â n vớ i tỉ sô' c á c v í d ụ - j - y m à th u ộ c v à o S v. G a in (S , A ) d o đ ó là d ộ
g iả m kì v ọ n g ( e x p e c t e d e n tr o p y ) tr o n g e n tr o p y khi b iết g iá trị c á c th u ộ c tín h A . N ó i c á c h k h á c , G a in (S , A ) là th ô n g tin c u n g c ấ p vổ g iá trị h à m m ụ c liô u khi b iết c á c giií trị c ủ a th u ộ c tín h A . G iá trị c ủ a G a in (S , A ) là s ô c á c b ii d ư ự c lưu khi in ã hoú c á c g iá trị m ụ c tiê u c ủ a m ộ t th à n h p h ẩ n c ủ a
s,
k h i b iế t c á c g iá trị c ủ a th u ộ c tín h A .C h ẳ n g h ạ n , g iả s ử
s
là tậ p h ợ p c á c v í dụ n g a y h u ấn lu y ệ n d ư ợ c m ô tả c ó th u ộ c tín h A I , th u ộ c tín h n à y c ó h a i g iá trị là T ru e (h a y I ) và F a ls e (h a y 0 ) , tro n g v íd ụ ta th ấ y s là m ộ t tẠp g ồ m 10 v í d ụ , [ 5 + , 5 - |. T r o n g 10 VI dụ n à y thì c ó 4 v í dụ d ư ơ n g và 2 ví dụ âm d ố i v ớ i A I = 1, và 1 v í d ụ d ư ơ n g và 3 ví d ụ â m d ố i vớ i A I = 0 . K h i đ ó ta c ó : V a lu c s ( A I ) = F a ls e , T ru e. S = [5 + , 5-J
^Trac (4+. 2-]
Spnlsc < - [ ! + » 3 -] E n tro p y (S rrilc) = - ( 4 / 6 ) l o g2( 4 /6 ) - ( 2 / 6 ) l o g2( 2 / 6 ) = 0 .9 1 8 E n tr o p y (S Falsc) = - ( l / 4 ) I o g2( I / 4 ) - ( 3 / 4 ) l o g2( 3 /4 ) = 0 .8 1 2 G a in (S , A I ) = E n tr o p y (S ) - £ L J E n tr o p y (S v)= ve(;W eak,Suong}; 1^1 = E n tr o p y ( S )-(4 /1 0 ) E n tr o p y (S rillc) - ( 6 /1 0 )E n tr o p y (S Pa|SC) = 1.0 — ( 4 / 1 0 ) 0 .9 1 8 — ( 6 / 1 0 ) 0 . 8 12 = = 0 .1 2 4 4Đ ạ i lư ợ ng In fo r m a tio n G a in tro n g th u ật to á n ID 3 đ ư ợ c d ù n g đ ể lựa c h ọ n th u ộ c tín h tốt nhất tại m ỗ i b ư ớ c tro n g x â y d ự n g c â y q u y ế t đ ịn h . V í d ụ m in h h o ạ đ ư ợ c th ể h iê n tr o n g h ìn h 11, tro n g đ ó ta c h ọ n th u ộ c tín h S y ste m vì n ó c h o g iá trị c ủ a in fo r m a tio n g a in lớ n h ơ n g iá trị c ủ a A I.
S:|5+. 5-Ị
Ea 1.0
11+.3-1
E = 0.812
E =0.91814+. 2-1
S |S + . 5-1 E = 1.0|
4+.
1-1 E = 0.722 11+.4-1 E = 0.722Gain(S, A l)= Gain(S, Sysiem) =
» 1.0-(4/10)0.812-(6/10)0.918=0.1244 = 1.0 (5/IO)0.722-(5/IO)0.722=0.278
Hình ìỉ.
Trong hai thuộc tính thì System cho độ đo information gain lớn hơn so với AI. Information Gain của System là 0.278, còn của A I IÌI 0.1244, do dó la chọn thuộc tính System cho việc phát triển các nhánh tiếp theo của cAy lỊiiyỏl định.H iện tượng vượt ngưỡng
M ộ i tr o n g n h ữ n g đ ặ c đ iể m q u a n tr ọ n g tr o n g h ọ c c ó g iá m sát là h iệ n tư ợ n g o v c r íit , c h ú n g tô i tạm d ịc h là vưựl n g ư ỡ n g . T r o n g n h iề u trư ờ n g h ợ p c á c m ẫ u huấn lu y ệ n c ó n h iễ u h o ặ c s ố lư ợ n g c á c m ẫ u h u ấ n lu y ệ n q u á n h ỏ n ôn k h ô n g d ặ c trư n g c h o tập c ầ n h u ấ n lu y ệ n , khi đ ó x ả y ra h iệ n tư ợ n g vượt n g ư ỡ n g d ư ợ c M itc h e l đ ịn h n g h ĩa n h ư sa u tr o n g Ị 18].
C h o m ộ t k h ỏ n g g ia n g ià lliu y ế l II, m ộ t g iả th u y ế t l i e l l chrợc g ọ i là vượt n g ư ỡ n g n ế u tr o n g tẠp h u ấ n lu y ộ n c ó (ổ n lạ i m ộ l g iả th u y ế l k h á c h ’ e l l s a o c h o h c ó lỗ i n h ỏ h ơ n h ’ trôn to à n b ộ tẠp h u ấ n lu y ệ n , n h ư n g h ’ lại c ó lỗ i n h ỏ h ơ n h trôn toàn b ộ c á c m ẫ u v í dụ m in h h o ạ .