K t l un ch ng 1
2.3. N GD NG KPDL TRON GD BÁO
a.Khái ni m cây quy t nh
Cây quy t nh là m t c u trúc bi u di n d i d ng cây. Trong ĩ, m i nút trong bi u di n m t thu c tính, m i nhánh bi u di n giá tr cĩ th cĩ c a thu c tính, m i lá bi u di n các l p quy t nh và nh trên cùng c a cây g i là g c.
Hình 2.2. Bi u di n cây quy t nh c b n
Trong l nh v c h c máy, cây quy t nh là m t ki u mơ hình d báo, ngh a là m t ánh x t các quan sát v m t s v t/hi n t ng t i các k t lu n v giá tr m c tiêu c a s v t/hi n t ng. M i nút trong t ng ng v i m t bi n, ng n i gi a nĩ v i nút con c a nĩ th hi n giá tr c th cho bi n ĩ. M i nút lá i di n cho giá tr d ốn c a bi n m c tiêu, cho tr c các giá tr d ốn c a các bi n c bi u di n b i ng i t nút g c t i nút lá ĩ. K thu t h c máy dùng trong cây quy t nh c g i là h c b ng cây quy t
nh, hay ch g i v i cái tên ng n g n là cây quy t nh. G c
Nút trong Nút lá
Ví d 2.1: M t ng i cĩ ch i tennis hay khơng?
Hình 2.3. Cây quy t nh cho vi c ch i Tennis
Cây quy t nh là m t cây phân c p cĩ c u trúc c dùng phân l p
các i t ng d a vào dãy các lu t. Các thu c tính c a i t ng (ngo i tr
thu c tính phân l p) cĩ th thu c các ki u d li u khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi ĩ thu c tính phân l p ph i cĩ ki u d li u là Binary ho c Ordinal.
Tĩm l i, cho d li u v các i t ng g m các thu c tính cùng v i l p c a nĩ, cây quy t nh s sinh ra các lu t d ốn l p c a các i t ng ch a bi t.
So v i các ph ng pháp KPDL khác, cây quy t nh là m t trong nh ng hình th c mơ t d li u t ng i n gi n, tr c quan, d hi u i v i ng i dùng nh ng l i hi u qu nên c s d ng nhi u. Trong nh ng n m qua,
nhi u mơ hình phân l p d li u ã c các nhà khoa h c trong nhi u l nh
v c khác nhau xu t nh m ng notron, mơ hình th ng kê tuy n tính /b c 2, cây quy t nh, mơ hình di truy n... Trong s nh ng mơ hình ĩ, cây quy t
nh c ánh giá là m t cơng c m nh, ph bi n, t bi t là thích h p cho
Cĩ r t nhi u gi i thu t ã c cài t s n nh : CART (Breiman), C4.5 (Quinlan)
b. Thu t tốn ID3
Thu t tốn ID3 (Interative Dichotomizer 3) c ra b i Quinlan và
nh ng d ng bi u di n c a nĩ c s d ng r ng rãi trong thu t tốn cây quy t nh.
ây c ng c g i là thu t tốn tham lam (greedy algorithm) vì thu t tốn ID3 tìm ki m nh ng mơ hình "tham lam" mà trong ĩ các thu c tính t c t i a l ng thơng tin cho vi c xác nh nhãn l p c a các m u trong t p
hu n luy n. K t qu là ta thu c m t Cây quy t nh mà gán nhãn úng cho
m i m u trong t p hu n luy n.
Thu t tốn xây d ng cây ID3 s d ng Entropy làm c s o ng nh t c a t p d li u. Trên c s Entropy, thu t tốn tính t ng thơng tin nh m c t ng ng nh t, t ây xác nh thu c tính t t nh t t i m i nút.
u vào: M t t p các m u. M i m u bao g m các thu c tính r i r c, mơ t m t tình hu ng, hay m t i t ng nào ĩ, và m t giá tr phân lo i c a nĩ.
S là t p hu n luy n
c1, c2, , cm là các nhãn l p phân lo i
S1, S2, , Sm là t p con c a S thu c các l p c1, , cm t ng ng
S = U Si và Si Sj = i j
Các o:
pi:xác su t m t ph n t b t k trong S thu c v l p ci
Entropy c a t p d li u S
H(S)= - ) = -
H(S) t giá tr c c i là log2(m) khi các nhãn c1, c2, , cm cĩ xác
su t nh nhau và giá tr nh nh t c a H(S) là 0 khi t t c các i t ng cĩ chung m t nhãn.
t ng thơng tin (Information Gain, ký hi u IG) là ch s ánh giá t t c a thu c tính trong vi c phân chia t p d li u thành nh ng t p con ng nh t. IG c tính trên t ng thơng tin theo cơng th c sau:
IG(S,A) = H(S)
Trong ĩ:
-S là t p d li u nút hi n t i.
-A là thu c tính c s d ng ánh giá t t phân chia.
-Values(A) là t p các giá tr c a A.
-Sv là t p m u con c a S cĩ các giá tr thu c tính A b ng v.
-|S| và |Sv| là s ph n t c a các t p |S|, |Sv| t ng ng.
Thu t tốn ID3 s d ng t ng thơng tin l a ch n thu c tính t t nh t t i m i nút, thu c tính c l a ch n là thu c tính mang l i t ng thơng tin l n nh t.
c. Thu t tốn C4.5
C4.5 là thu t tốn dùng xây d ng cây quy t nh c xu t b i
Quinlan n m 1993, là m r ng c a ID3. c i m c a C4.5:
-Cho phép d li u u vào các thu c tính là liên t c.
-Cho phép thao tác v i các thu c tính cĩ d li u khơng xác nh (do b m t mát d li u).
- a ra ph ng pháp c t t a cây và gi n l c các lu t phù h p v i
-C4.5 s d ng c ch l u tr d li u th ng trú trong b nh , chính c i m này làm C4.5 thích h p v i nh ng c s d li u nh , và c ch s p x p l i d li u t i m i nút trong quá trình phát tri n cây quy t nh.
-C4.5 cịn ch a k thu t cho phép bi u di n l i cây quy t nh d i d ng m t danh sách s p th t các lu t if-then (m t d ng quy t c phân l p d hi u). K thu t này cho phép làm gi m b t kích th c t p lu t và n gi n hĩa các
lu t mà chính xác so v i nhanh t ng ng cây quy t nh là t ng ng.
- C4.5 cĩ c ch sinh cây quy t nh hi u qu và ch t ch b ng vi c s d ng o l a ch n thu c tính t t nh t là Information Gain. Các c ch x lý v i giá tr l i, thi u và tránh quá phù h p c a d li u c a C4.5 cùng v i c ch c t t a cây ã t o nên s c m nh c a C4.5. Thêm vào ĩ, mơ hình phân l p
C4.5 cịn cĩ ph n chuy n i t cây quy t nh sang lu t d ng if-then, làm
t ng chính xác và tính d hi u c a k t qu phân l p. ây là ti n ích r t cĩ ý ngh a i v i ng i s d ng.
o GainRatio c s d ng trong thu t tốn C4.5 là c i ti n c a
thu t tốn ID3 và c xây d ng b i Quinlan là th c o c i ti n c a ch
s Information Gain.
o này gi i quy t v n thu c tính cĩ nhi u giá tr : Trong t p m u hu n luy n bài tốn ch i Tennis trên, n u s d ng thêm thu c tính ngày thì thu c tính này cĩ 14 giá tr khác nhau và thu c tính này cĩ IG cao nh t, và
khi ĩ Ngày c ch n làm g c v i 14 nhánh và khơng phân lo i c các
ngày ti p theo. Do ĩ c n tránh thu c tính cĩ nhi u giá tr . Thành ph n thơng tin chia (Split Information-SI) c b sung ph t các thu c tính cĩ nhi u giá tr :
SI(S,A) = - )
G(S,A)=
V i thơng tin ti m n ng (Potential information):
P(S,A)= - 2.3.2. Phân l p Nạve Bayes
nh lý Bayes cho phép tính xác su t x y ra c a m t s ki n ng u nhiên A khi bi t s ki n liên quan B ã x y ra. Xác su t này c ký hi u là P(A|B), và c là "xác su t c a A n u cĩ B". i l ng này c g i xác su t cĩ i u ki n vì nĩ c rút ra t giá tr c cho c a B ho c ph thu c vào giá tr ĩ.
Theo nh lí Bayes, xác su t x y ra A khi bi t B s ph thu c vào 3 y u t :
-Xác su t x y ra A c a riêng nĩ, khơng quan tâm n B, kí hi u là P(A)
và c là xác su t c a A. ây c g i là xác su t biên duyên hay xác su t
tiên nghi m (prior), nĩ là "tiên nghi m" theo ngh a r ng nĩ khơng quan tâm n b t k thơng tin nào v B.
-Xác su t x y ra B c a riêng nĩ, khơng quan tâm n A, kí hi u là P(B) và c là "xác su t c a B". i l ng này cịn g i là h ng s chu n hĩa, vì nĩ luơn gi ng nhau, khơng ph thu c vào s ki n A ang mu n bi t.
-Xác su t x y ra B khi bi t A x y ra, kí hi u là P(B|A) và c là "xác su t c a B n u cĩ A". i l ng này g i là kh n ng (likelihood) x y ra B khi bi t A ã x y ra. Chú ý khơng nh m l n gi a kh n ng x y ra A khi bi t B và xác su t x y ra A khi bi t B.
Khi bi t ba i l ng trên, xác su t c a A khi bi t B cho b i cơng th c:
T ĩ d n t i:
P =
Khi cĩ n gi thuy t:
P
Ph ng pháp Nạve Bayes phù h p các bài tốn cĩ yêu c u v chi phí xu t hi n c a các giá tr thu c tính.
-Thi t k h th ng phân l p th ng d dàng h n so v i các ph ng pháp khác.
-Các thu c tính trong t p m u h c ph i c l p v i i u ki n.
- chính xác thu t tốn phân l p ph thu c nhi u vào t p d li u h c
ban u.
2.3.3. M ng n ron nhân t o
N ron nhân t o là s mơ ph ng n gi n c a n ron sinh h c. M i n ron nhân t o th c hi n hai ch c n ng: ch c n ng t ng h p u vào và ch c n ng t o u ra. M i n ron cĩ m t giá tr ng ng, ch c n ng u vào chính là t ng cĩ tr ng s các tín hi u vào k t h p v i ng ng t o ra tín hi u u
vào. Ch c n ng t o u ra c th c hi n b ng hàm truy n t. Hàm này s
nh n tín hi u u vào và t o tín hi u u ra c a n ron.
M ng n ron là m t h th ng g m nhi u ph n t x lý ho t ng song
song. Ch c n ng c a nĩ c xác nh b i c u trúc m ng, l n c a các liên
k t và quá trình x lý t i m i nút ho c n v tính tốn.
M ng n ron s d ng m ng a t ng bao g m ba l p t bào th n kinh. Các l p này là m t l p u vào, m t l p n và m t l p u ra. Trong m t
m ng n ron, m i n ron nh n c m t ho c nhi u u vào và s n xu t m t
ho c nhi u k t qu u ra. M i u ra là m t hàm phi tuy n n gi n c a t ng các u vào cho các n ron.
Hình 2.4. Mơ hình m ng n ron nhi u l p
Cĩ ba lo i n ron trong m t m ng n ron c t o ra v i thu t tốn m ng n ron:
N ron u vào: N ron u vào cung c p các giá tr thu c tính u vào cho các mơ hình khai thác d li u. i v i thu c tính u vào r i r c, m t n ron u vào th ng i di n cho m t tr ng thái n nh t t các thu c tính u vào. M t thu c tính u vào liên t c t o ra hai n ron u vào: m t n ron cho m t tr ng thái b thi u, m t n ron cho giá tr c a chính thu c tính liên t c ĩ. N ron u vào cung c p u vào cho m t ho c nhi u n ron n.
N ron n: n ron n nh n u vào t các n ron u vào và cung c p u ra cho các n ron u ra.
N ron u ra: N ron u ra i di n cho các giá tr c a thu c tính d
ốn c a mơ hình KPDL. i v i các thu c tính u ra là r i r c, m t n ron
u ra i di n duy nh t cho m t tr ng thái d ốn c a thu c tính d ốn, bao g m c giá tr thi u. N u các thu c tính d ốn liên t c t o ra hai n ron
Output 1 Output 2 Output 3 Output Hidden layer Input
u ra: m t n ron cho m t tr ng thái b thi u, m t n ron cho chính các giá tr c a thu c tính liên t c ĩ.
M i u vào cĩ m t giá tr c gán cho nĩ cĩ tr ng s là w, mơ t s
liên quan gi a u vào n các n ron n ho c các n ron u ra.
M ng n ron xây d ng l i c u trúc b não cĩ kh n ng nh n bi t d li u thơng qua ti n trình h c, v i các thơng s t do c a m ng cĩ th thay i liên t c b i nh ng thay i c a mơi tr ng và m ng n ron ghi nh giá tr ĩ.
Hình 2.5. Ti n trình h c
Trong quá trình h c, giá tr u vào c a vào m ng và theo dịng
ch y trong m ng t o thành giá tr u ra.
Ti p n là quá trình so sánh giá tr t o ra b i m ng n ron v i giá tr ra mong mu n. N u hai giá tr này gi ng nhau thì khơng thay i gì c . Tuy nhiên, n u cĩ m t sai l ch gi a hai giá tr này v t quá giá tr sai s mong mu n thì i ng c m ng t u ra v u vào thay i m t s k t n i.
ây là m t quá trình l p liên t c và cĩ th khơng d ng khi khơng tìm các giá tr w sao cho u ra t o b i m ng n ron b ng úng u ra mong mu n.
Output Teach/use Neuron Teaching input W1 W2 Wn X2 X1 X3 Inputs
Do ĩ trong th c t ng i ta ph i thi t l p tiêu chu n d a trên m t giá tr sai s nào ĩ c a hai giá tr này, hay d a trên m t s l n l p xác nh.
2.3.4. Lu t k t h p
Khai phá lu t k t h p: Là tìm các m u ph bi n, s k t h p, s t ng quan, hay các c u trúc nhân qu gi a các t p i t ng trong các c s d li u giao tác, c s d li u quan h và nh ng kho thơng tin khác.
Các ng d ng: Lu t k t h p cĩ ng d ng trong nhi u l nh v c khác nhau c a i s ng nh : khoa h c, ho t ng kinh doanh, ti p th , th ng m i, phân tích th tr ng ch ng khốn, tài chính và u t ,...
Ví d v lu t k t h p:
Bia => L c (0,5%; 60%)
Lu t này cĩ ngh a: N u mua bia thì mua l c trong 60% tr ng h p. Bia
và l c c mua chung trong 0.5% t ng giao d ch.
Thu nh p= 60.000.000_max => Tài kho n ti t ki m= yes (20% ; 100%)
Lu t này cĩ ngh a: N u thu nh p l n h n ho c b ng 60 tri u m t n m
thìkhách hàng cĩ tài kho n ti t ki m v i tin c y là 100%.
T các lu t k t h p c trích rút t chính các c s d li u giao d ch, c s d li u khách hàng mà các siêu th , các ngân hàng s cĩ chi n l c kinh doanh (s p x p các m t hàng, s l ng các m t hàng,..), chi n l c ti p th , qu ng cáo, t ĩ thúc y ho t ng kinh doanh c a mình.
M t s nh ngh a, khái ni m c b n:
Cho I = {i1, i2, i3, ,in} là t p bao g m n m c (Item cịn g i là thu c tính - attribute). X I c g i là t p m c (itemset).