N GD NG KPDL TRON GD BÁO

Một phần của tài liệu XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020 (Trang 30)

K t l un ch ng 1

2.3. N GD NG KPDL TRON GD BÁO

a.Khái ni m cây quy t nh

Cây quy t nh là m t c u trúc bi u di n d i d ng cây. Trong ĩ, m i nút trong bi u di n m t thu c tính, m i nhánh bi u di n giá tr cĩ th cĩ c a thu c tính, m i lá bi u di n các l p quy t nh và nh trên cùng c a cây g i là g c.

Hình 2.2. Bi u di n cây quy t nh c b n

Trong l nh v c h c máy, cây quy t nh là m t ki u mơ hình d báo, ngh a là m t ánh x t các quan sát v m t s v t/hi n t ng t i các k t lu n v giá tr m c tiêu c a s v t/hi n t ng. M i nút trong t ng ng v i m t bi n, ng n i gi a nĩ v i nút con c a nĩ th hi n giá tr c th cho bi n ĩ. M i nút lá i di n cho giá tr d ốn c a bi n m c tiêu, cho tr c các giá tr d ốn c a các bi n c bi u di n b i ng i t nút g c t i nút lá ĩ. K thu t h c máy dùng trong cây quy t nh c g i là h c b ng cây quy t

nh, hay ch g i v i cái tên ng n g n là cây quy t nh. G c

Nút trong Nút lá

Ví d 2.1: M t ng i cĩ ch i tennis hay khơng?

Hình 2.3. Cây quy t nh cho vi c ch i Tennis

Cây quy t nh là m t cây phân c p cĩ c u trúc c dùng phân l p

các i t ng d a vào dãy các lu t. Các thu c tính c a i t ng (ngo i tr

thu c tính phân l p) cĩ th thu c các ki u d li u khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi ĩ thu c tính phân l p ph i cĩ ki u d li u là Binary ho c Ordinal.

Tĩm l i, cho d li u v các i t ng g m các thu c tính cùng v i l p c a nĩ, cây quy t nh s sinh ra các lu t d ốn l p c a các i t ng ch a bi t.

So v i các ph ng pháp KPDL khác, cây quy t nh là m t trong nh ng hình th c mơ t d li u t ng i n gi n, tr c quan, d hi u i v i ng i dùng nh ng l i hi u qu nên c s d ng nhi u. Trong nh ng n m qua,

nhi u mơ hình phân l p d li u ã c các nhà khoa h c trong nhi u l nh

v c khác nhau xu t nh m ng notron, mơ hình th ng kê tuy n tính /b c 2, cây quy t nh, mơ hình di truy n... Trong s nh ng mơ hình ĩ, cây quy t

nh c ánh giá là m t cơng c m nh, ph bi n, t bi t là thích h p cho

Cĩ r t nhi u gi i thu t ã c cài t s n nh : CART (Breiman), C4.5 (Quinlan)

b. Thu t tốn ID3

Thu t tốn ID3 (Interative Dichotomizer 3) c ra b i Quinlan và

nh ng d ng bi u di n c a nĩ c s d ng r ng rãi trong thu t tốn cây quy t nh.

ây c ng c g i là thu t tốn tham lam (greedy algorithm) vì thu t tốn ID3 tìm ki m nh ng mơ hình "tham lam" mà trong ĩ các thu c tính t c t i a l ng thơng tin cho vi c xác nh nhãn l p c a các m u trong t p

hu n luy n. K t qu là ta thu c m t Cây quy t nh mà gán nhãn úng cho

m i m u trong t p hu n luy n.

Thu t tốn xây d ng cây ID3 s d ng Entropy làm c s o ng nh t c a t p d li u. Trên c s Entropy, thu t tốn tính t ng thơng tin nh m c t ng ng nh t, t ây xác nh thu c tính t t nh t t i m i nút.

u vào: M t t p các m u. M i m u bao g m các thu c tính r i r c, mơ t m t tình hu ng, hay m t i t ng nào ĩ, và m t giá tr phân lo i c a nĩ.

S là t p hu n luy n

c1, c2, , cm là các nhãn l p phân lo i

S1, S2, , Sm là t p con c a S thu c các l p c1, , cm t ng ng

S = U Si và Si Sj = i j

Các o:

pi:xác su t m t ph n t b t k trong S thu c v l p ci

Entropy c a t p d li u S

H(S)= - ) = -

H(S) t giá tr c c i là log2(m) khi các nhãn c1, c2, , cm cĩ xác

su t nh nhau và giá tr nh nh t c a H(S) là 0 khi t t c các i t ng cĩ chung m t nhãn.

t ng thơng tin (Information Gain, ký hi u IG) là ch s ánh giá t t c a thu c tính trong vi c phân chia t p d li u thành nh ng t p con ng nh t. IG c tính trên t ng thơng tin theo cơng th c sau:

IG(S,A) = H(S)

Trong ĩ:

-S là t p d li u nút hi n t i.

-A là thu c tính c s d ng ánh giá t t phân chia.

-Values(A) là t p các giá tr c a A.

-Sv là t p m u con c a S cĩ các giá tr thu c tính A b ng v.

-|S| và |Sv| là s ph n t c a các t p |S|, |Sv| t ng ng.

Thu t tốn ID3 s d ng t ng thơng tin l a ch n thu c tính t t nh t t i m i nút, thu c tính c l a ch n là thu c tính mang l i t ng thơng tin l n nh t.

c. Thu t tốn C4.5

C4.5 là thu t tốn dùng xây d ng cây quy t nh c xu t b i

Quinlan n m 1993, là m r ng c a ID3. c i m c a C4.5:

-Cho phép d li u u vào các thu c tính là liên t c.

-Cho phép thao tác v i các thu c tính cĩ d li u khơng xác nh (do b m t mát d li u).

- a ra ph ng pháp c t t a cây và gi n l c các lu t phù h p v i

-C4.5 s d ng c ch l u tr d li u th ng trú trong b nh , chính c i m này làm C4.5 thích h p v i nh ng c s d li u nh , và c ch s p x p l i d li u t i m i nút trong quá trình phát tri n cây quy t nh.

-C4.5 cịn ch a k thu t cho phép bi u di n l i cây quy t nh d i d ng m t danh sách s p th t các lu t if-then (m t d ng quy t c phân l p d hi u). K thu t này cho phép làm gi m b t kích th c t p lu t và n gi n hĩa các

lu t mà chính xác so v i nhanh t ng ng cây quy t nh là t ng ng.

- C4.5 cĩ c ch sinh cây quy t nh hi u qu và ch t ch b ng vi c s d ng o l a ch n thu c tính t t nh t là Information Gain. Các c ch x lý v i giá tr l i, thi u và tránh quá phù h p c a d li u c a C4.5 cùng v i c ch c t t a cây ã t o nên s c m nh c a C4.5. Thêm vào ĩ, mơ hình phân l p

C4.5 cịn cĩ ph n chuy n i t cây quy t nh sang lu t d ng if-then, làm

t ng chính xác và tính d hi u c a k t qu phân l p. ây là ti n ích r t cĩ ý ngh a i v i ng i s d ng.

o GainRatio c s d ng trong thu t tốn C4.5 là c i ti n c a

thu t tốn ID3 và c xây d ng b i Quinlan là th c o c i ti n c a ch

s Information Gain.

o này gi i quy t v n thu c tính cĩ nhi u giá tr : Trong t p m u hu n luy n bài tốn ch i Tennis trên, n u s d ng thêm thu c tính ngày thì thu c tính này cĩ 14 giá tr khác nhau và thu c tính này cĩ IG cao nh t, và

khi ĩ Ngày c ch n làm g c v i 14 nhánh và khơng phân lo i c các

ngày ti p theo. Do ĩ c n tránh thu c tính cĩ nhi u giá tr . Thành ph n thơng tin chia (Split Information-SI) c b sung ph t các thu c tính cĩ nhi u giá tr :

SI(S,A) = - )

G(S,A)=

V i thơng tin ti m n ng (Potential information):

P(S,A)= - 2.3.2. Phân l p Nạve Bayes

nh lý Bayes cho phép tính xác su t x y ra c a m t s ki n ng u nhiên A khi bi t s ki n liên quan B ã x y ra. Xác su t này c ký hi u là P(A|B), và c là "xác su t c a A n u cĩ B". i l ng này c g i xác su t cĩ i u ki n vì nĩ c rút ra t giá tr c cho c a B ho c ph thu c vào giá tr ĩ.

Theo nh lí Bayes, xác su t x y ra A khi bi t B s ph thu c vào 3 y u t :

-Xác su t x y ra A c a riêng nĩ, khơng quan tâm n B, kí hi u là P(A)

và c là xác su t c a A. ây c g i là xác su t biên duyên hay xác su t

tiên nghi m (prior), nĩ là "tiên nghi m" theo ngh a r ng nĩ khơng quan tâm n b t k thơng tin nào v B.

-Xác su t x y ra B c a riêng nĩ, khơng quan tâm n A, kí hi u là P(B) và c là "xác su t c a B". i l ng này cịn g i là h ng s chu n hĩa, vì nĩ luơn gi ng nhau, khơng ph thu c vào s ki n A ang mu n bi t.

-Xác su t x y ra B khi bi t A x y ra, kí hi u là P(B|A) và c là "xác su t c a B n u cĩ A". i l ng này g i là kh n ng (likelihood) x y ra B khi bi t A ã x y ra. Chú ý khơng nh m l n gi a kh n ng x y ra A khi bi t B và xác su t x y ra A khi bi t B.

Khi bi t ba i l ng trên, xác su t c a A khi bi t B cho b i cơng th c:

T ĩ d n t i:

P =

Khi cĩ n gi thuy t:

P

Ph ng pháp Nạve Bayes phù h p các bài tốn cĩ yêu c u v chi phí xu t hi n c a các giá tr thu c tính.

-Thi t k h th ng phân l p th ng d dàng h n so v i các ph ng pháp khác.

-Các thu c tính trong t p m u h c ph i c l p v i i u ki n.

- chính xác thu t tốn phân l p ph thu c nhi u vào t p d li u h c

ban u.

2.3.3. M ng n ron nhân t o

N ron nhân t o là s mơ ph ng n gi n c a n ron sinh h c. M i n ron nhân t o th c hi n hai ch c n ng: ch c n ng t ng h p u vào và ch c n ng t o u ra. M i n ron cĩ m t giá tr ng ng, ch c n ng u vào chính là t ng cĩ tr ng s các tín hi u vào k t h p v i ng ng t o ra tín hi u u

vào. Ch c n ng t o u ra c th c hi n b ng hàm truy n t. Hàm này s

nh n tín hi u u vào và t o tín hi u u ra c a n ron.

M ng n ron là m t h th ng g m nhi u ph n t x lý ho t ng song

song. Ch c n ng c a nĩ c xác nh b i c u trúc m ng, l n c a các liên

k t và quá trình x lý t i m i nút ho c n v tính tốn.

M ng n ron s d ng m ng a t ng bao g m ba l p t bào th n kinh. Các l p này là m t l p u vào, m t l p n và m t l p u ra. Trong m t

m ng n ron, m i n ron nh n c m t ho c nhi u u vào và s n xu t m t

ho c nhi u k t qu u ra. M i u ra là m t hàm phi tuy n n gi n c a t ng các u vào cho các n ron.

Hình 2.4. Mơ hình m ng n ron nhi u l p

Cĩ ba lo i n ron trong m t m ng n ron c t o ra v i thu t tốn m ng n ron:

N ron u vào: N ron u vào cung c p các giá tr thu c tính u vào cho các mơ hình khai thác d li u. i v i thu c tính u vào r i r c, m t n ron u vào th ng i di n cho m t tr ng thái n nh t t các thu c tính u vào. M t thu c tính u vào liên t c t o ra hai n ron u vào: m t n ron cho m t tr ng thái b thi u, m t n ron cho giá tr c a chính thu c tính liên t c ĩ. N ron u vào cung c p u vào cho m t ho c nhi u n ron n.

N ron n: n ron n nh n u vào t các n ron u vào và cung c p u ra cho các n ron u ra.

N ron u ra: N ron u ra i di n cho các giá tr c a thu c tính d

ốn c a mơ hình KPDL. i v i các thu c tính u ra là r i r c, m t n ron

u ra i di n duy nh t cho m t tr ng thái d ốn c a thu c tính d ốn, bao g m c giá tr thi u. N u các thu c tính d ốn liên t c t o ra hai n ron

Output 1 Output 2 Output 3 Output Hidden layer Input

u ra: m t n ron cho m t tr ng thái b thi u, m t n ron cho chính các giá tr c a thu c tính liên t c ĩ.

M i u vào cĩ m t giá tr c gán cho nĩ cĩ tr ng s là w, mơ t s

liên quan gi a u vào n các n ron n ho c các n ron u ra.

M ng n ron xây d ng l i c u trúc b não cĩ kh n ng nh n bi t d li u thơng qua ti n trình h c, v i các thơng s t do c a m ng cĩ th thay i liên t c b i nh ng thay i c a mơi tr ng và m ng n ron ghi nh giá tr ĩ.

Hình 2.5. Ti n trình h c

Trong quá trình h c, giá tr u vào c a vào m ng và theo dịng

ch y trong m ng t o thành giá tr u ra.

Ti p n là quá trình so sánh giá tr t o ra b i m ng n ron v i giá tr ra mong mu n. N u hai giá tr này gi ng nhau thì khơng thay i gì c . Tuy nhiên, n u cĩ m t sai l ch gi a hai giá tr này v t quá giá tr sai s mong mu n thì i ng c m ng t u ra v u vào thay i m t s k t n i.

ây là m t quá trình l p liên t c và cĩ th khơng d ng khi khơng tìm các giá tr w sao cho u ra t o b i m ng n ron b ng úng u ra mong mu n.

Output Teach/use Neuron Teaching input W1 W2 Wn X2 X1 X3 Inputs

Do ĩ trong th c t ng i ta ph i thi t l p tiêu chu n d a trên m t giá tr sai s nào ĩ c a hai giá tr này, hay d a trên m t s l n l p xác nh.

2.3.4. Lu t k t h p

Khai phá lu t k t h p: Là tìm các m u ph bi n, s k t h p, s t ng quan, hay các c u trúc nhân qu gi a các t p i t ng trong các c s d li u giao tác, c s d li u quan h và nh ng kho thơng tin khác.

Các ng d ng: Lu t k t h p cĩ ng d ng trong nhi u l nh v c khác nhau c a i s ng nh : khoa h c, ho t ng kinh doanh, ti p th , th ng m i, phân tích th tr ng ch ng khốn, tài chính và u t ,...

Ví d v lu t k t h p:

Bia => L c (0,5%; 60%)

Lu t này cĩ ngh a: N u mua bia thì mua l c trong 60% tr ng h p. Bia

và l c c mua chung trong 0.5% t ng giao d ch.

Thu nh p= 60.000.000_max => Tài kho n ti t ki m= yes (20% ; 100%)

Lu t này cĩ ngh a: N u thu nh p l n h n ho c b ng 60 tri u m t n m

thìkhách hàng cĩ tài kho n ti t ki m v i tin c y là 100%.

T các lu t k t h p c trích rút t chính các c s d li u giao d ch, c s d li u khách hàng mà các siêu th , các ngân hàng s cĩ chi n l c kinh doanh (s p x p các m t hàng, s l ng các m t hàng,..), chi n l c ti p th , qu ng cáo, t ĩ thúc y ho t ng kinh doanh c a mình.

M t s nh ngh a, khái ni m c b n:

Cho I = {i1, i2, i3, ,in} là t p bao g m n m c (Item cịn g i là thu c tính - attribute). X I c g i là t p m c (itemset).

Một phần của tài liệu XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020 (Trang 30)

Tải bản đầy đủ (PDF)

(76 trang)