Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,42 MB
Nội dung
I HC THI NGUYấN I HC THI NGUYấN KHOA CễNG NGH THễNG TIN KHOA CễNG NGH THễNG TIN Nguyn Trung Sn Nguyn Trung Sn PHNG PHP PHN CM V NG DNG PHNG PHP PHN CM V NG DNG Chuyờn ngnh : Mó s : KHOA HC MY TNH 60.48.01 Chuyờn ngnh : Mó s : KHOA HC MY TNH 60.48.01 LUN VN THC S KHOA HC MY TNH LUN VN THC S KHOA HC MY TNH NGI HNG DN KHOA HC PGS TS V C THI NGI HNG DN KHOA HC PGS TS V C THI Thỏi Nguyờn 2009 Thỏi Nguyờn 2009 S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn http://www.lrc-tnu.edu.vn S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn http://www.lrc-tnu.edu.vn -2- -3- MC LC Thut toỏn phõn cm d liu m 35 TRANG 2.1 Thut toỏn FCM 36 LI CM N 2.2 Thut toỏn FCM 37 LI M U Thut toỏn phõn cm d liu da vo cm trung tõm 37 CHNG I : TNG QUAN THUYT V PHN CM D LIU 3.1 Thut toỏn K MEANS 37 Phõn cm d liu 3.2 Thut toỏn PAM 41 1.1 nh ngha v phõn cm d liu 3.3 Thut toỏn CLARA 42 1.2 Mt s vớ d v phõn cm d liu 3.4 Thut toỏn CLARANS 44 Mt s kiu d liu 10 Thut toỏn phõn cm d liu da vo tỡm kim 46 2.1 D liu Categorical 10 4.1 Thut toỏn di truyn (GAS) 46 2.2 D liu nh phõn 13 4.2 J- Means 48 2.3 D liu giao dch 14 Thut toỏn phõn cm d liu da vo li 49 2.4 D liu Symbolic 15 5.1 STING 49 2.5 Chui thi gian(Time Series) 16 5.2 Thut toỏn CLIQUE 51 Phộp Bin i v Chun húa d liu 16 5.3 Thut toỏn WaveCluster 52 3.1 Phộp chun húa d liu 17 Thut toỏn phõn cm d liu da vo mt 53 3.2 Bin i d liu 21 6.1 Thut toỏn DBSCAN 53 3.2.1 Phõn tớch thnh phn chớnh 21 6.2 Thut toỏn OPTICS 57 3.2.2 SVD 23 6.3 Thut toỏn DENCLUDE 58 3.2.3 Phộp bin i Karhunen-Loốve 24 Thut toỏn phõn cm d liu da trờn mu 60 CHNG II CC THUT TON PHN CM D LIU 28 7.1 Thut toỏn EM 60 Thut toỏn phõn cm d liu da vo phõn cm phõn cp 28 7.2 Thut toỏn COBWEB 61 1.1 Thut toỏn BIRCH 28 CHNG III :NG DNG CA PHN CM D LIU 62 1.2 Thut toỏn CURE 30 Phõn on nh 62 1.3 Thut toỏn ANGNES 32 1.1 nh ngha Phõn on nh 63 1.4 Thut toỏn DIANA 33 1.2 Phõn on nh da vo phõn cm d liu 65 1.5 Thut toỏn ROCK 33 Nhn dng i tng v ký t 71 1.6 Thut toỏn Chameleon 34 2.1 Nhn dng i tng 71 -4- -5- 2.2 Nhn dng ký t 75 Truy hi thụng tin 76 3.1 Biu din mu 78 3.2 Phộp o tng t 79 3.3 Mt gii thut cho phõn cm d liu sỏch 80 Khai phỏ d liu 81 4.1 Khai phỏ d liu bng Phng phỏp tip cn 82 4.2 Khai phỏ d liu cú cu trỳc ln 83 4.3 Khai phỏ d liu C s d liu a cht 84 4.4 Túm tt 86 KT LUN ,HNG PHT TRIN CA TI 90 PH LC 91 TI LIU THAM KHO 99 LI CM N Em xin chõn thnh cm n PGS TS V c Thi ó tn tỡnh hng dn khoa hc, giỳp em hon thnh tt lun tt nghip ny Em cng xin gi li cm n ti cỏc thy, cụ giỏo ó dy d, v truyn t kin thc cho em sut quỏ trỡnh hc v nghiờn cu HC VIấN NGUYN TRUNG SN -6LI M U Trong nhng nm gn õy, s phỏt trin mnh m ca CNTT ó lm cho kh nng thu thp v lu tr thụng tin ca cỏc h thng thụng tin tng nhanh mt cỏch chúng mt Bờn cnh ú, vic tin hc húa mt cỏch t v nhanh chúng cỏc hot ng sn xut, kinh doanh cng nh nhiu lnh vc hot ng khỏc ó to cho chỳng ta mt lng d liu lu tr khng l -7- CHNG I : TNG QUAN Lí THUYT V PHN CM D LIU Phõn cm d liu 1.1 nh ngha v phõn cm d liu Phõn cm d liu(Data Clustering) hay phõn cm, cng cú th gi l phõn tớch cm, phõn tớch phõn on, phõn tớch phõn loi, l quỏ trỡnh nhúm Hng triu CSDL ó c s dng cỏc hot ng sn xut, kinh doanh, qun lý , ú cú nhiu CSDL cc ln c Gigabyte, thm l Terabyte S bựng n ny ó dn ti mt yờu cu cp thit l cn cú nhng k thut v cụng c mi t ng chuyn i lng d liu khng l thnh mt cỏc i tng thc th hay tru tng thnh lp cỏc i tng tng cỏc tri thc cú ớch T ú, cỏc k thut khai phỏ d liu ó tr thnh mt lnh nhiu ng dng vc thi s ca nn CNTT th gii hin núi chung v Vit Nam núi riờng Khai phỏ d liu ang c ỏp dng mt cỏch rng rói nhiu lnh vc 1.2 Mt s vớ d v phõn cm d liu kinh doanh v i sng khỏc nhau: marketing, ti chớnh, ngõn hng v bo him, khoa hc, y t, an ninh, internet Rt nhiu t chc v cụng ty ln trờn th gii ó ỏp dng k thut khai phỏ d liu vo cỏc hot ng sn xut kinh doanh ca mỡnh v thu c nhng li ớch to ln Cỏc k thut khai phỏ d liu thng c chia thnh nhúm chớnh: - K thut khai phỏ d liu mụ t: cú nhim v mụ t v cỏc tớnh cht hoc cỏc c tớnh chung ca d liu CSDL hin cú - K thut khai phỏ d liu d oỏn: cú nhim v a cỏc d oỏn da vo cỏc suy din trờn d liu hin thi Bn lun ny trỡnh by mt s v Phõn cm d liu, mt nhng k thut c bn Khai phỏ d liu õy l hng nghiờn cu cú trin vng ch nhng s lc vic hiu v khai thỏc CSDL khng l, khỏm phỏ thụng tin hu ớch n d liu; hiu c ý ngha thc t ca d liu Lun c trỡnh by chng v phn ph lc : Chng : Trỡnh by tng quan lý thuyt v Phõn cm d liu, cỏc kiu d liu, Phộp bin i v chun húa d liu Chng : Gii thiu, phõn tớch, ỏnh giỏ cỏc thut toỏn dựng phõn cm d liu Chng : Trỡnh by mt s ng dng tiờu biu ca phõn cm d liu Kt lun : Túm tt cỏc c tỡm hiu lun v cỏc liờn quan lun vn, a phng hng nghiờn cu tip theo t Mt cm l mt hp cỏc i tng d liu m cỏc phn t ca nú tng t cựng mt cm v phi tng t vi cỏc i tng cỏc cm khỏc Mt cm cỏc i tng d liu cú th xem nh l mt nhúm 1.2.1 Phõn cm d liu phc v cho biu din d liu gene Phõn cm l mt nhng phõn tớch c s dng thng xuyờn nht biu din d liu gene (Yeung et al., 2003; Eisen at al., 1998) D liu biu din gene l mt tõp hp cỏc phộp o c ly t DNA microarray (cũn gi l DNA chip hay gene chip) l mt tm thy tinh hoc nha trờn ú cú gn cỏc on DNA thnh cỏc hng siờu nh Cỏc nh nghiờn cu s dng cỏc chip nh vy sng lc cỏc mu sinh hc nhm kim tra s cú mt hng lot trỡnh t cựng mt lỳc Cỏc on DNA gn trờn chip c gi l probe (mu dũ) Trờn mi im ca chip cú hng ngn phõn t probe vi trỡnh t ging Mt hp d liu biu din gene cú th c biu din thnh mt ma trn giỏ tr thc : x11 x D 21 x n1 x12 x1d x 22 x d , x n x nd Trong ú : - n l s lng cỏc gen - d l s lng mu hay iu kin th - xij l thc o biu din mc gen i mu j -8- -9- Bi vỡ cỏc biu ma trn gc cha nhiu, giỏ tr sai lch, h thng bin th, ú tin x lý l ũi hi cn thit trc thc hin phõn cm iu kin nhng ngi cú nguy c nghốo 1.2.3 Phõn cm d liu i vi hot ụng nghiờn cu th trng Trong nghiờn cu th trng, phõn cm d liu c s dng phõn on th trng v xỏc nh mc tiờu th trng (Chrisoppher, 1969; Saunders, 1980, Frank and Green, 1968) Trong phõn on th trng, phõn Khai phỏ d liu Khai phỏ d liu trc tip Khai phỏ d liu giỏn tip c s dng xỏc nh cỏc nhúm dõn c b ri ro phỏt trin y t v cỏc Phõn loi c lng D oỏn Phõn cm Lut kt hp Din gii v trc quan húa cm d liu thng c dựng phõn chia th trng thnh nhng cm mang ý ngha, chng han nh chia i tng nam gii t 21-30 tui v nam gii ngoi 51 tui, i tng nam gii ngoi 51 tui thng khụng cú khuynh hng mua cỏc sn phm mi 1.2.4 Phõn cm d liu i vi hot ng Phõn on nh Phõn on nh l vic phõn tớch mc xỏm hay mu ca nh thnh cỏc lỏt ng nht (Comaniciu and Meer, 2002) Trong phõn on nh, phõn cm d liu thng c s dng phỏt hin biờn ca i tng nh Phõn cm d liu l mt cụng c thit yu ca khai phỏ d liu, khai phỏ d liu l quỏ trỡnh khỏm phỏ v phõn tớch mt lng ln d liu Hỡnh Tỏc v ca Khai phỏ d liu ly c cỏc thụng tin hu ớch (Berry and Linoff, 2000) Phõn cm d liu cng l mt c bn nhn dng mu (pattern recognition) Hỡnh D liu biu din gen cú th c phõn cm theo hai cỏch Cỏch th nht l nhúm cỏc cỏc mu gen ging nhau, vớ d nh gom cỏc dũng ca ma trn D Cỏch khỏc l nhúm cỏc mu khỏc trờn cỏc h s tng ng, vớ d nh 1.1 a mt danh sỏch gin lc cỏc tỏc v a dng ca khai phỏ d liu v gom cỏc ct ca ma trn D lng ln d liu thụng qua phng tin t ng hay bỏn t ng (Berry and 1.2.2 Phõn cm d liu phc sc khe tõm lý Phõn cm d liu ỏp dng nhiu lnh vc sc khe tõm lý, bao gm c vic thỳc y v trỡ sc khe, ci thin cho h thng chm súc sc khe, v cụng tỏc phũng chng bnh tt v ngi khuyt tt (Clatworthy et Linoff, 2000) Trong khai phỏ d liu giỏn tip, khụng cú bin no c chn nh mt bin ớch, v mc tiờu l khỏm phỏ mt vi mi quan h gia tt c cỏc bin Trong ú i vi khai phỏ d liu giỏn tip mt vi bin li c chn nh cỏc bin ớch Phõn cm d liu l khai phỏ d liu al., 2005) Trong s phỏt trin h thng chm súc sc khe, phõn cm d liu c s dng xỏc nh cỏc nhúm ca ngi dõn m cú th c hng li giỏn tip, bi vỡ khai phỏ d liu, ta khụng m bo chc chn chớnh xỏc cm d liu m chỳng ta ang tỡm kim, úng vai trũ gỡ vic hỡnh thnh cỏc cm d liu ú, v nú lm nh th no Vn phõn cm d liu ó c quan tõm mt cỏch rng rói, mc dự t cỏc dch v c th (Hodges v Wotring, 2000) Trong thỳc y y t, nhúm phõn tớch c s dng la chn nhm mc tiờu vo nhúm s cú kh nng em li li ớch cho sc khe c th t cỏc chin dch qung bỏ v to iu kin thun li cho s phỏt trin ca qung cỏo Ngoi ra, phõn cm d liu chng t vai trũ ca phõn cm d liu khai phỏ d liu Nhỡn chung, Thụng tin hu dng cú th c khỏm phỏ t mt cha cú nh ngha ng b v phõn cm d liu v cú th s khụng bao gi l mt v i n thng nht.(Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998) Núi mt cỏch i khỏi l : Phõn cm d liu, cú ngha l ta -10- -11- Kiu d liu cho mt d liu v mt phng phỏp tng t, chỳng ta nhúm d liu li chng hn nh im d liu cựng mt nhúm ging v im d liu Ri rc cỏc nhúm khỏc v s khụng ng dng Rừ rng l ny c bt gp nhiu ng dng, chng hn nh khai phỏ bn, biu din gen, phõn loi khỏch hng, x lý nh Liờn tc Danh ngha Nh phõn Mt s kiu d liu Thut toỏn phõn cm d liu cú nht rt nhiu liờn kt vi cỏc loi d liu Vỡ vy, s hiu bit v quy mụ, bỡnh thng hoỏ, v gn l rt quan trng vic gii thớch cỏc kt qu ca thut toỏn phõn cm d liu Kiu d liu núi n mc lng t húa d liu (Jain v Dubes, 1988; i xng Bt i xng Hỡnh Biu cỏc dng d liu Anderberg, 1973) - mt thuc tớnh nht cú th c gừ nh nh phõn, ri Quy mụ d liu rc, hoc liờn tc thuc tớnh nh phõn cú chớnh xỏc hai giỏ tr, nh l ỳng hoc sai Thuc tớnh ri rc cú mt s hu hn cỏc giỏ tr cú th, vỡ th cỏc loi nh phõn l mt trng hp c bit ca cỏc loi ri rc (xem hỡnh 2) D liu quy mụ, m ch tm quan trng tng i ca cỏc s, cng l mt quan trng phõn cm d liu Vy liu cú th c chia thnh quy mụ nh lng v quy mụ nh tớnh quy mụ nh lng bao gm quy mụ danh ngha v quy mụ gii hn; quy mụ nh tớnh bao gm quy nh lng Danh ngha Gii hn mụ khong v quy mụ khong t l (hỡnh 3) cỏc kiu d liu s c xem xột phn ny 2.1 D liu Categorical Thuc tớnh Categorical cng c gi l thuc tớnh danh ngha, thuc tớnh ny n gin l s dng nh tờn, chng hn nh cỏc thng hiu xe v nh tớnh T l Hỡnh Biu quy mụ d liu Trong phn ny, chỳng ta s gii thiu cỏc bng biu tng v bng tn s v ký hiu mt s b d liu Categorical Bng Mu vớ d ca d liu Categorical tờn ca cỏc chi nhỏnh ngõn hng Chỳng ta xem xột cỏc d liu hp vi Bn ghi mt s hu hn cỏc im d liu, mt thuc tớnh trờn danh ngha ca cỏc im x1 (A, A, A, A, B, B) d liu d liu cú th ch cú mt s hu hn cỏc giỏ tr; nh vy, cỏc x2 (A, A, A, A, C, D) x3 (A, A, A, A, D, C) x4 (B, B, C, C, D, C) x5 (B, B, D, D, C, D) loi danh ngha cng l mt trng hp c bit ca kiu ri rc Khong Giỏ tr Cho D x1 , x , x n l mt d liu tuyt i vi khong cỏch n, c mụ t bi d thuc tớnh Categorical v1, v2,vd t DOM(vj) thuc -12- -13- thuc tớnh vj Trong d liu Categorical ó cho bng 2.1, vớ d Ni xj l giỏ tr b phn j ca x ca v1 v v4 l DOM(v1) = {A, B} v DOM(v4) ={A, C, D}, tỏch bit i vi mt bng biu tng cho trc ca b d liu, bng tn s ca Cho mt d liu Categorical D, gi s rng DOM v j A j1 , A j , , A jn j vi j = 1, 2, ,d Gi Ajl l n j l trng thỏi thuc tớnh Categorical vj ó cho d liu D Mt bng Ts ca d liu c nh ngha Ts = (s1, s2, , sd), (2.1) Ni sj (1 l d ) l vecto nh ngha l s j A j1 , A j ,, A jn j T Vỡ cú nhiu trng thỏi cú th l cỏc giỏ tr (hoc) cho mt bin, mt bng biu tng ca mt d liu thng l khụng nht Vớ d, i vi mi cm l nht lờn n rng bng biu tng Vớ d, i vi b d liu bng 2.1, cho C c mt cm, ú C = (x1, x2, x3) Sau ú, nu s dng cỏc biu tng trỡnh by bng bng tn s tng ng cho cỏc nhúm C c cho bng 2.4 Nhng nu s dng bng biu tng trỡnh by Bng 2.3, sau ú l bng tn s cho cỏc nhúm C c cho bng 2.5 cú c b d liu Categorical D, chỳng ta thy rng Tf(D) l mt bng tớnh toỏn tn s trờn c s d liu ton b thit lp Gi s D l phõn vựng khụng chng chộo vo k cm C1, C2, , Ck Sau ú chỳng ta cú b d liu bng 1, c hai bng v Bng l bng biu tng ca nú Bng tn s c tớnh theo mt bng biu tng v nú ó chớnh xỏc cựng kớch thc nh bng biu tng t C l mt cm Sau ú, bng tn s Tf (C) ca cỏc cm C c nh ngha l Tf C f1 C , f C , , f d C , T i (2.5) Vi tt c r = 1, 2, , nj v j = 1, 2, d (2.2) 2.2 D liu nh phõn Mt thuc tớnh nh phõn l mt thuc tớnh cú hai giỏ tr chớnh xỏc nht (2.3) cú th, chng hn nh "ỳng" hay "Sai" Lu ý rng cỏc bin nh phõn cú th c chia thnh hai loi: bin nh phõn i xng v cỏc bin nh phõn bt i Ni f j C l mt vecto c nh ngha T f C f j1 C , f j C ,, f jn j C , k f jr D f jr Ci Bng Mt nhng bng biu tng ca b d liu bng AA A A B B BBC C C C D D D D xng Trong mt bin nh phõn i xng, hai giỏ tr cú quan trng khụng kộm Mt vớ d l "nam-n" Bin nh phõn i xng l mt bin danh ngha Trong mt bin khụng i xng, mt nhng giỏ tr ca nú mang tm quan trng hn bin khỏc Vớ d, "cú" l vit tt ca s hin din ca mt thuc tớnh nht nh v "khụng" ngha l s vng mt ca mt thuc tớnh nht nh Mt vecto nh phõn x vi kớch thc d c nh ngha l (x1, x2,, Bng : Bng biu tng ca b d liu bng AB D A B C B AC C C B A D D D xd)(Zhang and Srihari 2003), ni xi 0,11 i d l giỏ tr thnh phn j ca x Ni fjr(C) (1 j d ,1 r n j ) l s im d liu cm C m giỏ tr Xột hai vecto nh phõn x v y khụng gian d, v cho S ij x, y Vecto nh phõn I ca kớch thc d l mt vecto nh phõn vi mi giỏ tr nhp vo bng Vic b xung mt vecto nh phõn x c nh ngha l xI x Ajr ti mng th j, v.v f jr C x C : x j A jr , (2.4) , ni I l mt n v vecto nh phõn cú cựng kớch thc nh x i, j 0,1 biu th s ln xut hin ca i x v j y tng ng, vớ d Sij x, y k : xk i v yk j , k 1,2,, d (2.6) -14- -15- Sau ú, rừ rng chỳng ta cú ng thc sau : mt trng hp c bit ca d liu nh phõn Vớ d ph bin nht ca d liu giao dch l th trng d liu gi hng Trong mt th trng d S11 x, y x y xi yi , i _ _ (2.7a) thit lp d liu gi hng, giao dch cú cha mt hp ca (2.7b) tng s mt hng m cú th c mua Vớ d, sau õy l hai giao dch: (tỏo, bỏnh), (tỏo, mún n, trng, cỏ,) Núi chung, nhiu giao dch c thc hin cỏc mc tha tht phõn phi Vớ d, mt khỏch hng ch cú th mua mt s d S00 x, y x y xi yi , i d _ S01 x, y x y xi yi , mt hng t mt ca hng vi hng nghỡn mt hng Nh ó ch bi Wang et al (1999a), cho cỏc giao dch c thc hin cỏc mc tha tht phõn phi, cp tng t l khụng cn thit, cng khụng ỏnh giỏ xem mt cm giao dch l tng t (2.7c) i _ d S10 x, y x y xi yi , i (2.7d) Ta cng cú : d S 00 x, y S 01 x, y S10 x, y S11 x, y (2.8) Bng 4: Bng tớnh toỏn tn s t bng biu tng bng 3 311 0 0 1 011 Bng5: Bng tớnh toỏn tn s t bng biu tng bng 0 311 011 011 2.3 D liu giao dch Cho mt hp cỏc phn t I = (I1, I2, , Im), mt giao dch l mt hp ca I (Yang et al, 2002b.; Wang et al, 1999a.; Xiao v Dunham, 2001) Mt d liu giao dch l mt hp cỏc giao dch, vớ d D t i : t i I , i 1,2, n Giao dch cú th c i din bi vector nh phõn, ú mi mc biu th cỏc cú hay khụng cú mc tng ng Vớ d, chỳng ta cú th i din cho mt giao dch ti vộc t nh phõn (bi1, bi2, , bim.), ni bij = nu IJ ti v bij = nu Ij ti T im ny, cỏc d liu giao dch l 2.4 D liu Symbolic D liu Categorical v d liu nh phõn l loi d liu c in, v d liu symbolic l mt phn m rng ca cỏc kiu d liu c in Trong b d liu thụng thng, cỏc i tng ang c coi l cỏ nhõn (ln u cỏc i tng t) (Malerba et al, 2001.), ú ti d liu symbolic , cỏc i tng l nhiu hn "thng nht" cú ngha l cỏc mi quan h Nh vy, cỏc d liu symbolic c nhiu hn hoc ớt hn ng nht hoc cỏc nhúm ca cỏc cỏ nhõn (th hai i tng t) (Malerba et al, 2001.) Malerba et al (2001) c xỏc nh mt d liu symbolic c thit lp mt lp hoc nhúm ca cỏc cỏ nhõn mụ t bi mt s thit lp giỏ tr hoc bin phng thc Bin A c gi l giỏ tr thit lp nu nú úng vai trũ giỏ tr ca nú thit lp ca nú Mt bin phng thc l mt thit lp giỏ tr bin vi mt bin phỏp hoc phõn phi mt (tn s, xỏc sut, hoc trng lng) kt hp vi mi i tng Gowda v Diday (1992) túm tt s khỏc bit gia d liu symbolic v d liu thụng thng nh sau: Tt c cỏc i tng mt d liu symbolic cú th khụng c nh ngha v cỏc bin tng t Mi bin cú th mt nhiu hn mt giỏ tr hoc thm khong mt giỏ tr Cỏc bin mt d liu symbolic phc cú th mt giỏ tr bao gm mt hoc nhiu i tng c bn -16- -17 thun tin hóy cho D* x1* , x2* ,, xn* biu th d liu thụ d-chiu Cỏc mụ t ca mt i tng tng trng cú th ph thuc vo mi quan h hin ti gia cỏc i tng khỏc T ú ma trn d liu l mt ma trõn n x d c cho bi Cỏc giỏ tr cỏc bin mt cú th cho thy tn sut xut hin, kh nng tng i, mc quan trng ca cỏc giỏ tr, vv D liu Symbolic cú th c tng hp t cỏc d liu khỏc thng vỡ lý ú l riờng t Trong s liu iu tra dõn s, vớ d, cỏc d liu c to sn dng tng hp m bo rng cỏc nh phõn tớch d liu khụng th xỏc nh mt cỏ nhõn hay mt doanh nghip nht thnh lp 2.5 Chui thi gian(Time Series) Chui thi gian l nhng hỡnh thc n gin nht ca d liu tm thi Chớnh xỏc, mt chui thi gian l mt chui ca s thc i din cho cỏc phộp o ca mt bin thc t ti cỏc khong thi gian bng (Gunopulos v Das, 2000) Vớ d, giỏ c phiu cỏc phong tro, nhit ti mt im no ú, v lng bỏn hng theo thi gian tt c o l cỏc chui thi gian Mt chui thi gian l ri rc nu bin c xỏc nh trờn mt hu hn cỏc im thi gian Nhiu nht ca chui thi gian gp phi phõn tớch cm l thi gian ri rc Khi mt bin c nh ngha tt c cỏc im thi gian, sau ú l chui thi gian l liờn tc Núi chung, mt chui thi gian cú th c coi l mt hn hp ca bn thnh phn sau (Kendall v Ord, 1990): Mt xu hng, vớ d., cỏc phong tro lõu di; Bin ng v xu hng u n hn hoc ớt hn; Mt thnh phn theo mựa; Mt hiu ng d hoc ngu nhiờn Phộp bin i v chun húa d liu Trong nhiu ng dng ca phõn cm d liu, d liu thụ, hoc o c thc t, khụng c s dng trc tip, tr mt mụ hỡnh xỏc sut cho cỏc th h khuụn mu cú sn (Jain v Dubes, 1988) Vic chun b cho vic phõn cm d liu yờu cu mt s loi chuyn i, chng hn nh bin i v chun húa d liu Mt s phng phỏp bin i d liu thng c s dng phõn cm d liu s c tho lun phn Mt s phng phỏp chun hoỏ d liu c trỡnh by Phn 4.1 x , x ,, x * * T n * x11* * x 21 x* n1 x12* * x22 xn* x1*d x2*d * xnd (4.1) 3.1 Phộp chun húa d liu Chun hoỏ lm cho d liu gim kớch thc i Nú cú ớch xỏc nh tiờu chun hoỏ ch s Sau chun húa, tt c cỏc kin thc v v trớ v quy mụ ca cỏc d liu gc cú th b mt Nú l cn thit chun húa cỏc bin trng hp cỏc bin phỏp khụng giụng nhau, chng hn nh khong cỏch Euclide, l nhy cm vi nhng khỏc bit ln hoc quy mụ ca cỏc bin u vo (Milligan v Cooper, 1988) Cỏc phng phỏp tip cn cỏc chun hoỏ ca cỏc bin bn cht ca hai loi: Chun húa ton cc v chun hoỏ cm Chun húa húa ton cc lm chun cỏc bin trờn tt c cỏc yu t cỏc d liu Trong vũng-cm tiờu chun hoỏ dựng ch tiờu chun húa xy cỏc cm bin mi ngy Mt s hỡnh thc tiờu chun hoỏ cú th c s dng cỏc chun húa ton cc v chun húa phm vi rt tt, nhng mt s hỡnh thc chun hoỏ ch cú th c s dng chun hoỏ ton cc Khụng th trc tip chun húa cỏc bin cỏc cm phõn cm, bi vỡ cỏc cm khụng c bit trc chun húa khc phc khú khn ny, khỏc phng phỏp phi c thc hin Tng th v Klett (1972) xut mt cỏch tip cn lp rng cỏc cm thu c u tiờn da trờn s c lng tng th v sau ú s dng cỏc cm giỳp xỏc nh cỏc bin bờn nhúm chờnh lch i vi chun hoỏ mt phõn cm th hai chun húa d liu thụ c a phng trỡnh (4,1), ta cú th tr mt thc o v trớ v phõn chia mt bin phỏp quy mụ cho mi bin ú l, xij xij* L j Mj (4.2) -18- -19- ni xij biu th giỏ tr ó c chun húa, L j l v trớ o, v M j l quy mụ o Chỳng tụi cú th cú c phng phỏp tiờu chun hoỏ khỏc bng s c c nhúm cho mt cluster iu ny to mt kt qu phõn nhúm rt gõy hiu nhm cỏch chn khỏc LJ v MJ phng trỡnh (4,2) Mt s phng phỏp Bng 4.1 Mt vi phộp chun húa d liu, ni x *j , R *j v *j c nh ngha chun hoỏ ni ting trung bỡnh, tiờu chun lch, phm vi, Huber ca d biu thc 4.3 toỏn, d toỏn biweight Tukey's, v Andrew c tớnh ca súng Tờn Lj Lj z-score x *j *j USTD *j Maxium max xij* Mean x *j Bng 4,1 cho mt s hỡnh thc tiờu chun hoỏ, ni x *j , R *j v *j , cú ngha l, phm vi, v lch chun ca bin th j, tng ng, ngha l x *j n xij* n i R*j max xij* xij* , 1i n 1i n n * ( xij x *j )2 n i *j (4.3a) Median (4.3b) (4.3c) Bõy gi chỳng ta tho lun v mt s chi tit cỏc hỡnh thc chung ca tiờu chun hoỏ v thuc tớnh z-score l mt hỡnh thc ca tiờu chun hoỏ c s dng chuyn bin th bỡnh thng to im chun Cho mt hp cỏc d liu thụ D*, cỏc Z-score cụng thc chun c nh ngha l xij Z1 xij* (4.4) Ni x , cú ngha l cỏc mu v lch chun ca cỏc thuc tớnh th * j nu n l l * xn x*n nu n l chn j j x Sum n * ij i xij* Range 1i n R *j Chun húa USTD ( lch chun cỏc trng khụng chớnh xỏc) cng tng t nh chun hoỏ im z-score v c nh ngha l xij* x *j *j x * n j i n * j j, tng ng Bin i s cú mt ý ngha ca v phng sai mt s V trớ quy mụ v thụng tin ca bin gc ó b mt Chuyn i ny cng l trỡnh by (Jain v Dubes, 1988, trang 24) Mt iu quan trng hn ch ca chun húa Z1 l nú phi c ỏp dng tiờu chun ton cu v khụng phm vi-cm tiờu chun hoỏ (Milligan v Cooper, 1988) Trong thc t, hóy xem xột trng hp hai cm tỏch cng tn ti cỏc d liu Nu mt mu cú v trớ mi hai cm trung tõm, sau ú vũng-cm chun s chun húa cỏc mu nm ti cm trung tõm v khụng vect Bt k thut toỏn clustering s nhúm hai s khụng vect vi nhau, cú ngha l hai nguyờn mu xij Z xij* xij* *j (4.5) Ni *j c nh ngha biu thc (4.3c) Bin i bi Z2 s cú mt phng sai ca K t cú im s khụng c trung tõm bng cỏch tr i cú ngha l, cỏc thụng tin v trớ gia cỏc im cũn Nh vy, chun húa Z2 s khụng phi chu nhng ca s mt thụng tin v cỏc Cm centroids Phng phỏp chun hoỏ th ba trỡnh by Milligan v Cooper (1988) l s dng im ti a v bin: xij Z xij* xij* max xij* 1i n (4.6) -70- -71- (a) (a) (b) Hỡnh 28 Kt qu ca kt cu phõn on nh (a): kt cu khm lp (b): bn nhúm gii phỏp thc hin bi gii thut CLUSTER vi ta im nh bao gm cỏc tớnh nng thit lp (b) Hỡnh 29 Phõn on nh y t a quang ph (a)Kờnh nht ca nh u vo (b) cm phõn on nh Phõn cm d liu cú th c s dng nh l mt giai on tin x lý xỏc nh cỏc lp hc mu phõn loi giỏm sỏt tip theo Taxt v Lundervold [1994] v Lundervold et al [1996] mụ t mt thut toỏn clustering partitional v mt k thut ghi nhón hng dn s dng xỏc nh cỏc lp vt liu (vớ d, nóo ty cht lng, cht trng, bp Khi, u) cỏc hỡnh nh c ng ký ca mt ngi cú c u nm kờnh khỏc hỡnh nh cng hng t (yielding mt nm chiu tớnh nng vector ti mi im nh) Mt s phõn cm ó thu c v kt hp vi kin thc tờn (nhõn lc chuyờn mụn) xỏc nh cỏc lp khỏc Quyt nh quy nh phõn loi giỏm sỏt c da trờn nhng lp ny c ly Hỡnh 29 (mt) cho thy mt nhng kờnh ca mt u vo-a quang ph hỡnh nh; phn b cho thy 9-cm kt qu Thut toỏn K-means l ó c ỏp dng cho cỏc phõn khỳc ca LANDSAT hỡnh nh Solberg et al [1996] Cỏc trung tõm cm ban u c chn tng tỏc ca mt nh iu hnh o to, v tng ng vi cỏc lp hc s dng t nh khu vc ụ th, t (thc vt phớ) cỏc khu vc, rng, ng c, v nc Hỡnh 30 (mt) cho thy nhng hỡnh nh u vo hon tr nh mu xỏm; phn b cho thy kt qu ca th tc phõn cm d liu (a) (b) Hỡnh 30: Phõn on nh LANDSAT (a) Bn gc hỡnh nh ESA / EURIMAGE / Sattelitbild) (b): Cnh ó c phõn cm 2.Nhn dng i tng v ký t 2.1 Nhn dng i tng Vic s dng cỏc phõn nhúm xem nhúm i tng 3D cho mc ớch cụng nhn i tng phm vi d liu ó c mụ t Dorai v Jain [1995] Cỏc thut ng dựng ch xem mt hỡnh nh phm vi ca mt i tng thu c t bt c quan im tựy ý H thng xem xột, lm vic theo mt quan im ph thuc (hoc xem trung tõm) cỏch tip cn i vi cụng nhn i tng; mi i tng c cụng nhn l i din iu khon ca mt th vin hỡnh nh lot cỏc i tng ú -72- -73- Cú rt nhiu ý cú th cú ca mt i tng 3D v mc tiờu mt nhng cụng vic m l trỏnh kt hp mt u vo xem khụng rừ i vi tng hỡnh nh ca tng i tng Mt ch ph bin hc cụng nhn i tng c lp ch mc, ú xem cha bit c s dng chn mt hp ca im ca mt hp ca cỏc i tng c s d liu so sỏnh hn na, v t chi tt c cỏc im khỏc ca i tng Mt nhng cỏch tip cn ỏnh ch s dng cỏc khỏi nim ca cỏc tng lp xem; mt lp hc xem l hp cỏc im cht lng tng t ca mt i tng Trong tỏc phm ú, cỏc lp hc xem ó c xỏc nh bi phõn cm d liu; phn cũn li ca tiu mc ny vch cỏc k thut Xem i tng ó c nhúm li vo cỏc lp hc da trờn hỡnh dng ging ca cỏc tớnh nng ph Mi hỡnh nh u vo ca mt i tng xem sn lng cụ lp mt vector tớnh nng m nú mụ t Cỏc tớnh nng vector cha mi phỳt u tiờn trung tõm ca mt hỡnh bỡnh thng m1 (h) H (h) hoỏ quang ph phõn phi, H (h) , ca mt i tng xem l h thu c t d liu phm vi ca nú bng cỏch xõy dng mt biu ca cỏc giỏ tr ch s hỡnh dng (cú liờn quan n cỏc giỏ tr b mt cong) v tớch ly tt c cỏc i tng im nh m ri vo mi thựng Bi bỡnh thng húa quang ph i vi din tớch tng s i tng, quy mụ (size) khỏc m cú th tn ti gia cỏc i tng khỏc c g b Ti thi im u tiờn i c s d liu MD cnh th i ca j i tng, O j c s d liu i i i i c biu th bng L j , R j , ni L j l i tng nhón v R j l vecto c tớnh i i i i Cho mt i tng i din Ri = L1 , R1 , L1 , R1 m mụ t m cnh ca i i tng, mc tiờu l ly mt phn ca cnh i i i Pi = C1 , C2 , , Cki Mi cm Pi cha nhng cnh ca i tng th i m i tng ú ó c cp tng t da trờn s khụng giụng gia cỏc thi im tng ng vi cỏc tớnh nng ca hỡnh quang ph ca cỏc cnh i i Cỏc bin phỏp ca khụng giụng gia R j v Rk c nh ngha : R D R j , Rk i i 10 l i jl Rkli (3) Phõn cm d liu Cnh(Views) Mt c s d liu cha khong 3,200 nh ca 10 i tng iờu khc khỏc vi 320 cnh c s dng [Dorai and Jain 1995] Cỏc hỡnh nh dao ng t 320 quan im cú th (xỏc nh bi li t ong ca xem-mt cu bng cỏch s dng 20 mt ) ca cỏc i tng ó c tng hp Hỡnh 31 cho thy mt hp ca hp cỏc im ca Rn h mang c s dng th nghim Hỡnh dng ph ca tng xem l tớnh vộc t c tớnh v sau ú tớnh nng ca nú c xỏc nh Cnh ca tng m1 tớnh toỏn m cú ý ngha H (h) : i tng ang t tp, da trờn D o khụng giụng gia vect thi im m1 (h) H (h) (1) h Vi momen trung tõm khỏc, mp, p 10 c nh ngha l : _ m p h m1 H h (2) p h ca h bng cỏch s dng cỏc kt ni ỏn clustering th bc [Jain v Dubes 1988] Cỏc nhúm th bc thu c vi 320 cnh ca i tng Rn h mang c hin th hỡnh 32 Cnh ca nhúm phõn cp chớn i tng khỏc cng tng t nh cỏc dendrogram hỡnh 32 Dendrogram ny c ct Do ú cỏc vecto c tớnh c biu th bng R m1 , m2 , , m10 , nm mc khụng giụng l 0,1 hoc ớt hn cú c nh gn v cng Trong khong [-1,1] quan im ca tng i tng ri vo mt vi cm khỏc bit rừ rt Cỏc trng n Ti O = O , O , , O l mt la chn ca n i tng 3D vi cnh nm cỏch cm Cỏc clusterings thu c theo cỏch ny chng minh rng tõm ca mi cm ny ó c xỏc nh bi mỏy tớnh trung bỡnh ca vect thi im ca lt xem ri vo mt cm -74- -75- Hỡnh 32 : Cu trỳc ca mt nhúm gm 320 cnh ca mt tỏc phm iờu khc rn h mang 2.2 Nhn dng ký t K thut nhn dng ký da vo phõn cm d liu c phỏt trin bi Hỡnh 31 Mt cỏc cnh ca nh Rn h mang c chn t 320 cnh Dorai v Jain [1995] chng minh rng phõn nhúm ny da trờn xem Connell v Jain [1998] nhn bit lexemes bn vit tay cho cỏc mc ớch ca nh vit tay cụng nhn c lp S thnh cụng ca mt h thng nhn dng ch vit l cc k ph thuc vo chp nhn bi ngi s dng tim nng Nh ph thuc h thng cung cp mt mc cao hn tng c nhúm thnh cỏc cm xem nh gn v ng nht, nh vy chng s cụng nhn chớnh xỏc hn so vi cỏc h thng nh c lp, nhng ũi hi mt lng ln d liu o to Mt nh c lp h thng, mt khỏc, phi cú kh nng nhn nhiu phong cỏch bn nhm ỏp ng mt ngi dựng cỏ nhõn Khi cỏc bin thiờn ca phong cỏch bn phi c bt gi t sc mnh ca cluster da trờn s t chc xem v phự hp vi i tng bi mt h thng tng, nú cng tr nờn khú khn phõn bit i x gia cỏc cú hiu qu lp khỏc s lng chng chộo khụng gian tớnh nng ny Mt nhng gii phỏp cho ny l tỏch cỏc d liu t nhng nhúm i tng phự hp vi th tc to iu kin v tớnh chớnh xỏc phõn loi v s lng phự hp cn thit cho vic phõn loi ỳng ca xem th Xem i -76- -77- phong cỏch vit khỏc cho mi lp hc vo lp khỏc nhau, c gi hc, v bo m cht lng phõn lp c phõn cụng toỏn hc Nhón QA76 l lexemes Nhng lexemes i din cho cỏc phn ca d liu c d dng ti QA76.8 c s dng phõn loi sỏch liờn quan n mỏy tớnh v cỏc lnh hn tỏch t cỏc d liu ca cỏc tng lp khỏc hn m lexeme thuc vc khỏc ca khoa hc mỏy tớnh Trong h thng ny, ch vit l b bt bi s hoỏ cỏc ta (x, y) v v trớ ca cỏc cõy bỳt v v tr t im bỳt (lờn hoc xung) vi t l ly mu khụng i Sau mt s ly li mu, bỡnh thng hoỏ, v lm mn, mi nột bỳt Cú mt s liờn quan n vic phõn loi cỏc sỏch bng cỏch s dng s LCC Mt s s ny c lit kờ di õy: (1) Khi mt ngi s dng ang tỡm kim mt cun sỏch th vin l i din nh l mt chui di bin-im Mt s liu da trờn n hi mu lp trỡnh phự hp v nng ng, c xỏc nh cho phộp khong cỏch gia hai nột c tớnh toỏn S dng cỏc khong cỏch tớnh bng cỏch ny, mt ma trn gn m vi mt ch quan tõm, s LCC mt mỡnh cú th khụng th ly tt c cỏc sỏch cú liờn quan iu ny l s lng phõn loi c ch nh cho nhng cun sỏch hay cỏc loi ch thng c nhp vo c s d liu khụng cú thụng tin liờn quan n tt c cỏc ch c bo him c xõy dng ca tng loi ch s (tc l, thụng qua 9) Mi bin phỏp ma mt cun sỏch minh im ny, chỳng ta hóy xem xột cun sỏch trn khong cỏch lp cho mt lp ch s c th Ch s mt lp c bit l nhúm mt thc nghim tỡm mt s lng nh cỏc nguyờn Cỏc thut toỏn cho phõn cm d liu ca Jain v Dubes [1988] S LCC ca nú l 'QA 278.J35' Trong s ny LCC, QA 278 tng ng vi ch 'phõn mu Phõn cm c thc hin bng cỏch s dng chng trỡnh CLUSTER tớch cm', J tng ng vi tờn tỏc gi u tiờn v 35 l s serial phõn cụng ca mụ t trờn [Jain v Dubes 1988], ú vộc t tớnh nng cho mt ch s ca nú l N lõn cn n s ca cựng mt lp CLUSTER phõn nhúm tt Th vin Quc hi Cỏc loi ch cho cun sỏch ny c cung cp bi nh xut bn (m thng c nhp vo c s d liu to iu kin tỡm nht cho mi giỏ tr ca K trờn mt s phm vi, ú K l s cm vo ú d liu ny l c phõn vựng Theo d oỏn, cú ngha l li bỡnh phng kim) l nhúm phõn tớch, x lý d liu v thut toỏn Cú mt chng sỏch ny [Jain v Dubes 1988] rng vi tm nhỡn mỏy tớnh, x lý hỡnh nh, (MSE) gim n iu nh l mt chc nng ca K Cỏc "ti u" giỏ tr ca K v phõn khỳc hỡnh nh Vỡ vy, mt ngi s dng tỡm kim cho hc trờn c chn bng cỏch xỏc nh mt u gi biu ca MSE vs K Khi i din cho mt cm ch s ca mt mu th nghim nht, tt nht mỏy vi tớnh v tm nhỡn, c bit, hỡnh nh phõn khỳc s khụng th truy cp cun sỏch ny bng cỏch tỡm kim c s d liu vi s giỳp ca mt nhn din on-line kt qu c cụng nhn ó thu c bng cỏch s dng cỏc hai s LCC hoc cỏc loi i tng c cung cp c s d liu S ch s ú l gn nht ti trung tõm cm's S dng s ny, mt t l nhn din chớnh xỏc l 99,33% Truy hi thụng tin Thụng tin hi thụng tin (Information Retrieval) cú liờn quan vi lu tr LCC cho sỏch tm nhỡn mỏy tớnh c TA 1632 [LC Classification 1990] ú l rt khỏc vi QA s 278.J35 c ng ký cho cun sỏch ny 2) Cú mt c hu giao LCC s sỏch mt khu vc phỏt trin nhanh Vớ d, chỳng ta hóy xem xột cỏc khu vc ca cỏc mng thn kinh t ng v ly cỏc ti liu [Rasmussen 1992] Nhiu th vin cỏc trng i hc s dng h thng IR cung cp truy cp vo cỏc cun sỏch, chớ, v cỏc ti liu khỏc Cỏc th vin ú s dng ỏn Li-brary of Congress Classification (LCC) (Phõn loi Th vin Quc hi M), ỏn ny hiu qu Ban u, th loi 'QP' LCC ỏn ó c s dng nhón sỏch v th tc t tng ti hi ngh khu vc ny Vớ d, Proceedings of the Joint International Conference on Neural Networks [IJCNN'91] c giao QP ca s 363,3 ' Tuy nhiờn, hu ht cỏc cun sỏch gn õy trờn cỏc mng thn kinh cho vic lu tr v truy tỡm sỏch ỏn LCC bao gm cỏc lp cú nhón A n c cho mt s cỏch s dng cỏc nhón th loi 'QA'; Proceedings of Z [LC Classification Outline 1990] c s dng ký t húa sỏch thuc cỏc i tng khỏc Vớ d, nhón Q tng ng vi sỏch lnh vc khoa IJCNN'92 cỏc [IJCNN'92] c phõn cụng bo m cht lng ca s 76,87 ' Nhiu nhón cho sỏch i phú vi cựng mt ch s buc h c t trờn -78- -79- ngn xp khỏc mt th vin Do ú, cú mt cn phi cp nht cỏc (2b) I532 (similarity measures), and nhón phõn loi theo thi gian mt k lut mi ni (3c) I515 (statistical) (3) vic giao mt s cho mt cun sỏch mi l mt khú khn Da trờn nhng phõn tớch trờn, Chng ca Jain v Dubes [1988] cú Mt cun sỏch cú th i phú vi cỏc ch tng ng vi hai hoc nhiu s LCC, v ú, ch nh mt s nht cho cun sỏch nh vy l rt khú khn Murty v Jain [1995] mụ t mt kin thc da trờn lc phõn nhúm th c c trng bi s phõn ly trng ((I522 I532 I515) (1,4)) Cỏc i din nhúm cỏc cun sỏch, ú thu c bng cỏch s dng CR ACM (Hi mỏy tớnh Mỏy vi tớnh Xem li) phõn loi cõy [ACM CR Classifications 1994] Cõy ny c s dng bi cỏc tỏc gi gúp phn ACM n phm khỏc cung cp cỏc t khúa cỏc hỡnh thc th loi ACM th s dng mt hoc nhiu dõy I522, I532, I515 v i din cho Chng nhón CR Cõy ny bao gm 11 nỳt cp u tiờn Cỏc nỳt l cú nhón A quan i din chng, c cho bi (((I522 I532 I515) (1,4) ((I515 n K Mi nỳt cõy ny cú mt nhón ú l mt chui ca mt hay nhiu ký hiu Nhng biu tng ny c ký t ch-s Vớ d, I515 l nhón ca I531) (2,4)) ((I541 I46 I434) (1,4))) mt nỳt cp th t cõy 3.1 Biu din mu Mi cun sỏch c th hin nh mt danh sỏch tng quỏt [Sangal 1991] ca nhng dõy bng cỏch s dng phõn loi cõy ACM CR Vỡ mc ớch ngn gn i din, cỏc cp, cỏc nỳt th t cõy phõn loi ACM CR c gn nhón bng cỏch s dng ch s 1-9 v ký t A n Z Vớ d, cỏc nỳt ca I.5.1 (mụ hỡnh) c dỏn nhón I.5.1 0,1 n I.5.1.6 õy, I.5.1.1 tng ng vi cỏc nỳt cú nhón xỏc nh, v I.5.1.6 l vit tt ca nỳt cú nhón structural.Ina thi trang tng t, tt c cỏc cp, cỏc nỳt th t cõy cú th c gn nhón l cn thit T bõy gi, cỏc du chm gia biu tng k tip s c b qua n gin húa cỏc i din Vớ d, I.5.1.1 s c ký hiu l I511 Minh cho quỏ trỡnh ny i din vi s giỳp ca cỏc cun sỏch ca Jain v Dubes [1988] Cú nm chap-ters cun sỏch ny n gin ch bin, ch xem xột cú cỏc thụng tin cỏc ni dung chng Cú mt mc nht bng ni dung cho cỏc chng 1, 'Gii thiu', v vỡ vy khụng ly bt k t khoỏ t ny Chng 2, cú nhón ' D liu i din,' ó mc tng ng vi cỏc nhón ca cỏc nỳt cõy phõn loi ACM CR [ACM CR Classifications 1994] c a di õy: (1a) I522 (feature evaluation and selection), trng lng (1,4) biu th rng nú l mt bn chng, ú cú vai trũ cỏc i din ca cun sỏch Cn c vo bng ni dung, chỳng tụi cú Tng t nh vy, chỳng tụi cú th i din cho chng khỏc cun sỏch ny nh cỏc phộp tuyn trng da trờn cỏc bng ni dung v phõn loi cõy ACM CR Cỏc i din ca ton b cun sỏch, s kt hp ca tt c cỏc c Hin nay, cỏc i din c to bng tay bng cỏch quột cỏc bng ni dung ca sỏch lnh vc khoa hc mỏy tớnh nh ACM cõy phõn loi CR cung cp kin thc v cun sỏch khoa hc mỏy tớnh Cỏc chi tit ca b su ca cun sỏch c s dng nghiờn cu ny cú sn Murty v Jain [1995] 3.2 Phộp o tng t S ging gia hai cun sỏch da trờn s ging gia cỏc chui tng ng Hai s cỏc chc nng ni ting, khong cỏch gia mt cp dõy c [Baeza-Yates 1992] khong cỏch Hamming v sa khong cỏch Khụng phi ca cỏc chc nng ny khong cỏch hai cú th c s dng cỏc ng dng cú ý ngha ny Vớ d sau minh ho im Hóy xem xột ba dõy I242, I233, v H242 Nhng chui l cỏc nhón (predicate logic i din cho kin thc, lp trỡnh logic, v cỏc h thng c s d liu phõn tỏn) ba cp th t, cỏc nỳt cõy phõn loi ACM CR Cỏc nỳt I242 v I233 l chỏu ca cỏc nỳt cú nhón I2 (trớ tu nhõn to) v H242 l mt chỏu ca cỏc nỳt cú nhón H2 (c s d liu qun lý) Vỡ vy, khong cỏch gia I242 v I233 phi nh hn m gia I242 v H242 Tuy nhiờn, khong cỏch Hamming v sa khong cỏch [Baeza-Yates 1992] c hai u cú mt giỏ tr gia I242 v I233 v giỏ tr ca gia I242 v H242 Hn ch ny thỳc y nh ngha ca mt bin phỏp tng t mi m bt ỳng s ging gia cỏc chui trờn S ging gia hai chui c nh ngha l t l chiu di ca tin -80- -81- t ph bin nht [Murty v Jain 1995] gia hai dõy vi chiu di ca chui Nhng cm sỏch v mụ t cluster tng ng cú th c s dng nh u tiờn Vớ d, s ging gia chui I522 v I51 l 0,5 Cỏc bin phỏp sau: Nu mt ngi s dng ang tỡm kim sỏch, núi, v hỡnh nh phõn khỳc tng t c xut l khụng i xng, vỡ s ging gia I51 v I522 (I46), sau ú chỳng ta chn cm C1 vỡ i din ca mỡnh cú cha I46 chui l 0,67 Cỏc giỏ tr ti thiu v ti a l bin phỏp tng t ny l 0,0 v 1,0, tng ng Cỏc kin thc v cỏc mi quan h gia cỏc nỳt cõy phõn loi ACM CR l b bt bi cỏc i din cỏc hỡnh thc dõy Vớ d, nỳt cú Sỏch B2 (Neurocomputing) v B18 (Neural Networks: Lateral Inhibition) l c hai thnh viờn ca nhúm C1 mc dự s LCC ca h khỏ khỏc (B2 l QA76.5.H4442, B18 l QP363.3.N33) nhón cụng nhn l mu i din l I5 chui, I53 chui tng ng vi cỏc nỳt cú nhón clustering S ging gia hai nỳt (I5 v I53) l 1,0 Mt bin phỏp i xng ca tng [Murty v Jain 1995] c s dng xõy dng mt ma trn tng t cú kớch thc 100 x 100 tng ng vi 100 cun Bn sỏch b sung cú nhón B101, B102, B103, B104 v ó c s dng nghiờn cu cỏc ca vic phõn cụng phõn loi s sỏch mi Nhng s LCC ca nhng cun sỏch ny l: (B101) Q335.T39, (B102) QA76.73.P356C57, (B103) QA76.5.B76C.2, v (B104) QA76.9D5W44 sỏch c s dng cỏc thớ nghim Nhng quyn sỏch ny c giao cho cỏc cm da trờn phõn loi hng xúm Vn phõn nhúm cú th c nờu nh sau Cho mt b su B ca gn nht Nhng hng xúm gn nht ca B101, mt cun sỏch v nhõn to tỡnh bỏo, l B23 v vỡ vy B101 c phõn cụng cm C1 Nú c quan sỏt cun sỏch, chỳng ta cn cú c mt C thit lp cỏc cm Mt gn thy s phõn cụng ca bn sỏch cỏc cm tng ng l cú ý ngha, chng t dendrogram(cõy cỏc cm) [Jain v Dubes 1988], s dng Thut toỏn phõn cm kt ni kt t hon tonhon thu thp 100 cun sỏch c th hin rng kin thc da trờn phõn cm d liu rt hu ớch vic gii quyt cỏc liờn quan n ly ti liu hỡnh 33 By cm thu c bng cỏch chn mt ngng cú giỏ tr Khai phỏ d liu Trong nhng nm gn õy chỳng ta ó thy bao gi tng lng d 3.3 Mt gii thut cho phõn cm d liu sỏch 0,12 Nú ni ting m cỏc giỏ tr khỏc cho cú th cung cp cho clusterings khỏc Ngng giỏ tr ny c chn bi vỡ " khong cỏch " dendrogram gia cỏc cp m sỏu v by cm c hỡnh thnh l ln nht Xột nghim cỏc lnh vc ch ca cun sỏch [Murty v Jain 1995] cỏc cm tit l rng cỏc cm thu c l thc s cú ý ngha Mi cm c i din bng cỏch s dng mt danh sỏch cỏc chui s v cp sf tn s, ni sf l s sỏch cỏc cm, ú s l hin ti Vớ d, cm c1 cha 43 cun sỏch thuc v nhn din mụ hỡnh, cỏc mng thn kinh, trớ tu nhõn to v tm nhỡn mỏy tớnh; mt phn ca R(C1) i din ca nú c a di õy W(C1) = ((B718,1), (C12,1), (D0,2), (D311,1), (D312,2), (D321,1), (D322,1), (D329,1), (I46,3), (I461,2), (I462,1), (I463, 3), (J26,1), (J6,1), (J61,7), (J71,1)) liu thu thp ca tt c cỏc loi Vi rt nhiu d liu cú sn, nú l cn thit phỏt trin cỏc thut toỏn m cú th ly thụng tin t cỏc ca hng cú ý ngha rng ln Tỡm kim nuggets hu ớch ca thụng tin gia cỏc s lng rt ln ca cỏc d liu ó c bit n nh l cỏc lnh vc khai phỏ d liu Khai phỏ d liu cú th c ỏp dng cho quan h, giao dch, v c s d liu khụng gian, cng nh cỏc ca hng ln d liu cú cu trỳc nh World Wide Web Cú nhiu d liu h thng khai thỏc s dng ngy nay, v cỏc ng dng bao gm Cc Ngõn kh Hoa K phỏt hin tin, Hip hi Búng r Quc gia hun luyn viờn phỏt hin xu hng v mụ hỡnh ca cỏc cu th chi cho cỏ nhõn v cỏc i, v phõn loi cỏc mụ hỡnh ca tr em h thng chm súc nuụi dng [Hedberg 1996] Mt s gn õy ó cú nhng c bit v khai phỏ d liu [1996 Cohen, Cross 1996, Wah 1996] -82- -83- 4.1 Khai phỏ d liu bng Phng phỏp tip cn Khai phỏ d liu, ging nh phõn cm d liu, l mt hot ng thm h tr cỏc nh phõn tớch ca ngi vic xỏc nh cỏc nhúm v nhúm dũ, ú, phng phỏp phõn cm d liu ang rt thớch hp khai phỏ d thỏc d liu trc quan, ú cú ngun gc cm cú th c xut khu nh liu Phõn cm d liu thng l mt bc u quan trng ca mt s quỏ trỡnh khai phỏ d liu [Fayyad 1996] Mt s phng phỏp khai phỏ d liu s dng phng phỏp phõn cm d liu c c s d liu phõn cỏc thuc tớnh mi m sau ú cú th c c trng bi h thng Vớ d, ng cc n sỏng c nhúm theo calo, m, cht bộo, natri, cht x, carbohydrate, ng, kali, vitamin v cỏc ni dung trờn phc v Khi thy cỏc cm kt qu, khỳc, mu tiờn oỏn, v trc quan húa c s d liu ln Phõn on Phng phỏp phõn cm d liu c s dng khai phỏ d liu vo c s d liu phõn khỳc thnh cỏc nhúm ng nht iu ny cú th phc v mc ớch ca nộn d liu (lm vic vi cỏc cm hn l cỏc cỏ ngi s dng cú th xut cỏc cm Win-Viz l thuc tớnh H thng ny cho thy rng mt nhng cm c c trng bi ni dung kali cao, v cỏc nh phõn tớch ca ngi nhn cỏc cỏ nhõn nhúm nh l thuc cỏm "gia ỡnh ng cc", dn n mt khỏi quỏt rng "ng cc, cỏm nhiu cht nhõn), hoc nhn bit cỏc c im ca dõn s ph thuc m cú th c kali." cú c im tng t WinViz [Lee v Ong 1996] l mt cụng c khai nhm mc tiờu cho cỏc mc ớch c th (vớ d, tip th nhm vo ngi gi) Thut toỏn phõn cm d liu K-means [Faber 1994] ó c s dng 4.2 Khai phỏ d liu cú cu trỳc ln Khai thỏc d liu thng c thc hin trờn c s d liu quan h phõn cm im nh hỡnh nh Landsat [Faber et al 1994] Mi im giao dch v cng ó xỏc nh cỏc lnh vc m cú th c s dng nh l cỏc nh ban u cú giỏ tr t cỏc ban nhc v tinh khỏc nhau, bao gm hng ngoi Nhng giỏ tr l khú khn cho ngi ng húa v phõn tớch tớnh nng, nhng ó c nghiờn cu gn õy v c s d liu cú cu trỳc ln nh World Wide Web [Etzioni 1996] m khụng cn s tr giỳp Cỏc im nh vi cỏc giỏ tr tớnh nng c nhúm thnh 256 nhúm, sau ú mi im nh c gỏn giỏ tr ca cm trung Vớ d v cỏc n lc gn õy phõn loi cỏc bn web bng cỏch s dng t ng hoc cỏc chc nng ca cỏc t nh tớnh nng bao gm Maarek v tõm Hỡnh nh ny sau ú cú th c hin th vi nhng thụng tin khụng gian Shaul [1996] v Chekuri et al [1999] Tuy nhiờn, b tng i nh cỏc mu cũn nguyờn Con ngi ngi xem cú th nhỡn vo mt hỡnh nh n v xỏc nh mt khu vc quan tõm (vớ d, ng cao tc hoc rng) v nhón nú o to cú nhón v chiu hn ch rt ln s thnh cụng cui cựng ca t ng phõn loi ti liu web da trờn nhng t nh tớnh nng nh l mt khỏi nim H thng ny sau ú xỏc nh im nh khỏc Ch khụng phi l nhúm ti liu mt khụng gian tớnh t, cựng mt nhúm nh l mt vớ d ca khỏi nim ú oỏn trc mu Thng kờ phng phỏp phõn tớch d liu thng liờn quan n th nghim mt mụ hỡnh gi thuyt ca cỏc nh phõn tớch ó cú tõm trớ Khai thỏc d liu cú th giỳp ngi dựng phỏt hin gi thuyt Wulfekuhler v Punch [1997] cm t t mt b su nh ca World Wide Web ti liu khụng gian bn Cỏc d liu mu thit lp bao gm 85 ti liu t cỏc sn xut ngi dựng khỏc 4-xỏc nh loi (lao ng, lut phỏp, chớnh ph, v thit k) 85 ti liu cha 5.190 thõn cõy khỏc tim nng trc s dng cỏc cụng c thng kờ oỏn trc mụ hỡnh s dng phõn nhúm cỏc nhúm, sau ú infers quy tc characterize cỏc nhúm v xut cỏc mụ hỡnh Vớ d, ngi ng ký cú th c nhúm da trờn mt s yu t (tui tỏc, gii tớnh, thu nhp, vv), sau ú cỏc nhúm kt qu bit t sau cỏc t thụng dng (cỏc, v, trong) ó c g b K t t c chc chn khụng phi khụng tng quan, h s ri vo ni cm t c s dng mt cỏch thng nht trờn ton b ti liu cú giỏ tr tng t nh ca tn s mi ti liu c trng mt n lc tỡm mt mụ hỡnh m s phõn bit cỏc thuờ bao Phng phỏp phõn cm bng K-means cú ngha l phõn nhúm ó c ny s gia hn ng ký ca h t nhng ngi m s khụng [Simoudis 1996] Hỡnh nh Cm c s d liu ln cú th c s dng hỡnh dung, s dng nhúm cỏc t 5.190 thnh 10 nhúm Mt kt qu ỏng ngc nhiờn l trung bỡnh 92% cỏc t ri vo mt cm nht, m sau ú cú th -84- -85- c loi b khai thỏc d liu mc ớch Cỏc cm nh nht cú iu khon V cht lng, tr lng tt phc hi cú bóo hũa hydrocarbon cao ang ú vo mt ngi cú v ng ngha liờn quan Cỏc cm nh nht t mt mc kt bi trm tớch rt xp (cha porosity) v bao quanh bi s lng ln hot ng tiờu biu c th hin hỡnh 34 cỏc loi ỏ cng cú ngn chn s rũ r du khớ t xa Mt lng ln cỏc iu khon c s dng ng cnh bỡnh thng, hoc iu kin nht m khụng xy thng xuyờn trờn ton b ti liu o to s cú xu hng cm thnh nhúm thnh viờn ln 4000 iu ny s chm súc cỏc li trm tớch xp l rt quan trng tỡm d tr phc hi tt, ú phỏt trin ỏng tin cy v chớnh xỏc cỏc phng phỏp cho d toỏn ca porosities trm tớch t cỏc d liu thu thp l chỡa khúa c tớnh tim nng du khớ Cỏc chớnh t, tờn riờng m khụng thng xuyờn, v cỏc iu khon c s dng theo cỏch tng t sut t ton b ti liu iu khon s dng bi cnh c th (nh tin bi cnh np n sỏng ch, hn l mt tin mỏy tớnh) s xut hin cỏc ti liu phự hp vi iu kin thớch hp quy tc chung ca cỏc chuyờn gia ngún cỏi s dng cho tớnh toỏn xp, rng l nú l mt chc nng lut s m ca chiu sõu: khỏc cho rng bng sỏng ch (bi cnh ú, phỏt minh ra) v ú s cú xu thụng s ca F chc nng bi ri mi quan h ny iu ny ũi nh ngha ca ng cnh thớch hp, ú c gng khỏm phỏ cụng thc o xp Bi cnh a cht c th hin iu khon ca hin tng a cht, nh hng cm li vi Trong s cỏc nhúm t, ng cnh c bit ni bt so vi ỏm ụng Sau discarding cluster ln nht, cỏc thit lp nh hn cỏc tớnh nng cú th c s dng xõy dng cỏc truy tỡm cỏc ti liu khỏc cú liờn quan trờn Web tiờu chun s dng cụng c tỡm kim web (vớ d, Lycos, Alta Vista, m bn) Tỡm kim trờn Web vi cỏc iu khon ly t cm t cho phộp phỏt hin cỏc ch ht mn (vớ d, gia ỡnh y t li) vũng loi c nh ngha rng rói (vớ d, lao ng) 4.3 Khai phỏ d liu C s d liu a cht Khai phỏ c s d liu l mt ngun lc quan trng vic thm dũ du m v sn xut Nú c ph bin kin thc ngnh cụng nghip du m chi phớ in hỡnh ca mt khoan mi nc ngoi cng l khong $ 3-40, nhng c hi ca trang web ú l mt thnh cụng kinh t l 10 Thờm thụng tin v cú h thng khoan quyt nh mt cỏch ỏng k cú th lm gim chi phớ sn xut chung Tin b cụng ngh khoan v cỏc phng phỏp thu thp d liu cú dn n cỏc cụng ty du m v ancillaries ca h thu thp mt lng ln a vt lý / d liu a cht t ging sn xut v cỏc trang web thm dũ, v sau ú t chc chỳng thnh cỏc c s d liu ln K thut khai thỏc d liu gn õy ó c s dng ly c chớnh xỏc phõn tớch mi quan h gia cỏc hin tng quan sỏt v cỏc thụng s Nhng mi quan h sau ú cú th c s dng nh lng du v khớ t xp = K.e F x1 , x2 ,, xm Depth (4) Mt s yu t nh cỏc loi ỏ, cu trỳc, v xõy bng xi mng nh cỏc l hỡnh hc, lithology, nộn cht, v lỳn, liờn kt vi khu vc Nú ni ting rng nhng thay i bi cnh a cht t lu vc lu vc (cỏc khu vc a lý khỏc trờn th gii) v cng t khu vc ti khu vc mt lu vc [Allen v Allen 1990; Biswas 1995] Hn na, tớnh nng tim n bi cnh cú th khỏc rt nhiu Mụ hỡnh kt hp cỏc k thut n gin, m lm vic lnh vc k thut m l hn ch bi hnh vi ca ngi gõy h thng v cng thnh lp lut ca vt lý, khụng th ỏp dng lnh vc thm dũ du khớ n a ch ny, phõn nhúm d liu ó c s dng xỏc nh ng cnh cú liờn quan, v sau ú phỏt hin phng trỡnh c thc hin bi cnh mi Mc ớch l ly cỏc x1, x2, , xm t mt ln cỏc tớnh nng a cht, v F mi quan h chc nng nht nh chc nng o rng, xp khu vc Cỏc phng phỏp tng th minh ho Hỡnh 35, bao gm hai bc chớnh: (i) Bi cnh nh ngha bng cỏch s dng cỏc k thut Phõn cm khụng giỏm sỏt, v (ii) phỏt hin bng cỏch phõn tớch Phng trỡnh hi quy [Li v Biswas 1995] Bt thm dũ d liu thu thp t mt vựng lu vc Alaska c phõn tớch bng cỏch s dng phng phỏp phỏt trin Cỏc i tng d liu (mu) c mụ t v 37 c im a cht, nh xp, tớnh thm, mt kớch thc ht, v phõn loi, s lng cỏc mnh khoỏng sn khỏc (vớ d, thch anh, Chert, fenspat) hin nay, tớnh cht ca cỏc mnh -86- -87- ỏ , l chõn lụng c im, v xõy bng xi mng Tt c nhng tớnh nng cỏc Trong bi ny, chỳng ta ó kim tra cỏc bc khỏc phõn giỏ tr c o bng s c thc hin trờn mu c ly t cỏc bn ghi tt nhúm: (1) mụ hỡnh i din, (2) tớnh toỏn tng t, (3) nhúm quy trỡnh, v (4) quỏ trỡnh khoan thm dũ Thut toỏn phõn cm d liu K-means ó c s dng xỏc nh mt cỏc ng nht cu trỳc a cht nguyờn thy i din cm Ngoi ra, cng cp nn thng kờ, m, thn kinh, tin húa, (g1, g2, , gm) Nhng nguyờn thy ny sau ú ó c ỏnh x vo mó n v v kin thc da trờn phng phỏp tip cn phõn cm d liu Chỳng ta cú bn mụ t cỏc ng dng ca phõn nhúm: (1) Phõn on nh, (2) nhn din i tng, (3) truy hi ti liu, v (4) khai phỏ d liu so vi bn n v a tng hc Hỡnh 36 mụ t mt bn mt phn cho mt hp cỏc ging v bn cu trỳc nguyờn thy Bc tip theo quỏ trỡnh phỏt hin c xỏc nh phn ca khu vc ging c to thnh t cựng mt trỡnh t ca a cht nguyờn thy Mi trỡnh t quy nh mt Ci ng cnh T mt phn ca bn Hỡnh 36, bi cnh C1 = g2 g1 g2 g3 ó c xỏc nh ti hai khu vc tt (ca 300 v 600 series) Sau bi cnh ó c xỏc nh, d liu im thuc bi cnh tng c nhúm li vi cho derivation phng trỡnh Th tc dn xut derivation lm vic phõn tớch hi qui [Sen v Srivastava 1990] Phng phỏp ny c ỏp dng cho mt d liu ca khong 2.600 i tng tng ng vi mu o thu thp t ging l cỏc lu vc Alaska K-means ó nhúm d liu ny t thnh by nhúm Nh minh ho, Chỳng ta chn mt b 138 i tng i din cho mt bi cnh phõn tớch Cỏc tớnh nng nht nh ngha cm ny ó c la chn, v cỏc chuyờn gia surmised rng bi cnh i din cho mt vựng xp rng thp, c mụ Hỡnh 36 Mó vựng so vi bn n v a tng mt phn ca khu vc hỡnh bng cỏch s dng cỏc th tc hi qui nghiờn cu 4.4 Túm tt Cú rt nhiu ng dng, ni quyt nh v phõn tớch mu thm dũ ó c thc hin trờn d liu ln t Vớ d, ly ti liu, mt hp cỏc ti liu cú liờn quan cú th tỡm thy mt vi s hng triu ti liu ca Phõn cm d liu l mt quỏ trỡnh ca cỏc nhúm d liu da trờn mt thc o tng t Phõn cm d liu l mt quỏ trỡnh ch quan; cựng mt b cỏc d liu thng xuyờn cn phi c phõn vựng khỏc cho cỏc ng dng khỏc Ch quan ny lm cho quỏ trỡnh phõn nhúm khú khn iu cỏc chiu ca hn 1000 Cú th x lý nhng ny rt hu ớch nu mt s tru tng ca d liu c thu c v c s dng vic quyt nh, hn l trc tip bng cỏch s dng d liu ton b thit lp Bi tru tng húa d liu, chỳng tụi cú ngha l mt i din n gin v gn nh ca ny l mt thut toỏn n hoc phng phỏp tip cn l khụng gii quyt mi phõn cm d liu Mt gii phỏp cú th nm ch quan ny phn ỏnh cỏc hỡnh thc kin thc Kin thc ny c s dng hoc ngm hoc rừ rng mt hoc nhiu giai on ca Phõn cm d liu d liu n gin ny giỳp mỏy ch bin cú hiu qu hay mt ngi Kin thc da trờn thut toỏn phõn nhúm s dng kin thc mt cỏch rừ rng comprehending cu trỳc d liu mt cỏch d dng Thut toỏn phõn cm d liu rt lý tng cho vic t c cỏc d liu tru tng Bc khú khn nht phõn nhúm l tớnh nng khai thỏc hoc mu i din Cỏc nh nghiờn cu mu nhn din cụng nhn thun tin trỏnh bc -88- -89- ny bng cỏch gi s rng cỏc i din c khuụn mu cú sn nh l u vo nowrron(ANN) c trin khai thn kinh ca cỏc thut toỏn phõn nhúm, v ca thut toỏn phõn cm d liu Kớch thc nh, hp d liu, i din mụ h chia s cỏc ti sn khụng mong mun ca cỏc thut toỏn Tuy nhiờn, ANNs hỡnh cú th thu c da trờn kinh nghim trc õy ca ngi dựng vi cú kh nng t ng bỡnh thng húa d liu v trớch xut cỏc tớnh nng Mt ny Tuy nhiờn, trng hp cỏc b d liu ln, ú l khú khn cho ngi s dng theo dừi s quan trng ca mi tớnh nng phõn cm d li Mt gii phỏp l lm cho cỏc phộp o nh nhiu trờn cỏc mu cng tt quan sỏt quan trng l c mt ỏn cú th tỡm thy gii phỏp ti u cho phõn vựng bỡnh phng li, nú cú th thu ngn ca cỏc yờu cu vỡ khụng th-ng hng bn cht ca cỏc cm v s dng chỳng khuụn mu i din Nhng nú khụng th s dng mt b su ln cỏc phộp o trc tip phõn cm d liu vỡ chi phớ tớnh toỏn Vỡ vy, mt s tớnh nng khai thỏc / la chn phng phỏp tip cn ó c thit k cú c kt hp tuyn tớnh hoc phi tuyn ca cỏc phộp Trong mt s ng dng, vớ d truy hi ti liu, nú cú th hu ớch cú mt phõn nhúm ú khụng phi l mt phõn vựng iu ny cú ngha l cỏc cm chng chộo Phõn cm d liu m Fuzzy l chc nng rt lý tng cho mc ớch ny Ngoi ra, cỏc thut toỏn phõn nhúm m cú th x lý d o cú th c dựng i din cho cỏc mu Hu ht cỏc ỏn ngh cho liu hn hp cỏc loi Tuy nhiờn, mt ln vi phõn cm d liu m l khai thỏc tớnh nng / la chn thng c lp li t nhiờn v khụng th c s dng trờn cỏc d liu ln chi phớ tớnh toỏn nú rt khú cú c cỏc giỏ tr thnh viờn Mt cỏch tip cn tng hp cú th khụng lm vic vỡ bn cht ch quan ca phõn cm d liu Nú l cn thit Bc th hai phõn nhúm l ging tớnh toỏn Mt lot cỏc i din cho cỏc cm thu c mt hỡnh thc thớch hp giỳp nh ỏn ó c s dng tớnh toỏn ging gia hai mụ hỡnh H s dng kin thc hoc ngm hoc rừ rng Hu ht cỏc kin thc da trờn thut toỏn sn xut quyt nh Kin thc da trờn phõn nhúm ỏn to cỏc mụ t bng trc giỏc hp dn ca cỏc cm H cú th c s dng c cỏc phõn nhúm s dng kin thc rừ rng tớnh toỏn tng t Tuy nhiờn, nu khụng phi l i din cho cỏc mu bng cỏch s dng cỏc tớnh nng phự hp, mụ hỡnh c i din bng cỏch s dng mt s kt hp cỏc c tớnh v nh lng, l kin thc liờn kt mt khỏi nim v cỏc tớnh nng hn hp cú sau ú nú khụng phi l cú th lm cho mt phõn vựng cú ý ngha khụng phõn sn Tuy nhiờn, vic trin khai cỏc ỏn v khỏi nim phõn cm d liu cú bit cht lng v s lng kin thc c s dng tớnh toỏn tng t Khụng cú ỏn ph chp nhn c i vi mỏy tớnh ging gia cỏc c tớnh rt t tin v khụng phự hp cho nhúm hp d liu ln Thut toỏn K-means v gii thut da trờn mng nowrron thn kinh ca , li Kohonen, l thnh cụng nht c s dng trờn b d liu ln iu ny l l thut toỏn K-means n gin thc hin v c tớnh hp dn vỡ thi gian tuyn tớnh phc ca nú Tuy nhiờn, nú khụng kh thi s dng c thut toỏn ny thi gian tuyn tớnh trờn d liu ln t Thut toỏn gia tng nh lónh o v thc hin thn kinh ca nú, mng Art, cú th c s dng cm d liu ln Nhng h cú xu hng t ph thuc Phõn chia v chinh phc l mt heuristic m ó c khai thỏc theo ỳng thit k thut toỏn mỏy tớnh gim chi phớ tớnh toỏn Tuy nhiờn, cn khụn ngoan s dng cỏc phõn nhúm t c kt qu cú ý ngha Túm li, Phõn cm d liu l mt thỳ v, hu ớch, v y thỏch thc Nú cú tim nng ln cỏc ng dng nh nhn in i tng, phõn on hỡnh nh, v cỏc chn lc v truy hi thụng tin Tuy nhiờn cn cn thn thit k mt vi la chn cú th khai thỏc tim nng ny mu i din bng cỏch s dng mt hn hp ca c hai tớnh nng nh lng Khụng giụng gia mt cp mu c i din bng cỏch s dng mt thc o khong cỏch ú cú th hoc khụng th cú mt s liu Bc tip theo phõn nhúm l nhúm cỏc bc li vi Cú hai nhúm ỏn rng rói: ỏn theo k tha v phõn vựng Cỏc ỏn cú nhiu th bc linh hot, v cỏc ỏn phõn vựng ớt tn kộm Cỏc thut toỏn phõn vựng nhm ti a húa kh nng lụi tiờu bỡnh phng Thỳc y bi s tht bi ca cỏc li bỡnh phng thut toỏn phõn cm d liu phõn vựng vic tỡm kim cỏc gii phỏp ti u cho ny, mt b su ln cỏc phng phỏp ó c xut v c s dng cú c mt gii phỏp ton cu ti u cho ny Tuy nhiờn, cỏc ỏn c gii hn cho phộp v mt tớnh toỏn trờn d liu ln t ỏn phõn cm d liu da trờn mng -90- -91- KT LUN PH LC : Cỏc c tỡm hiu lun Tng hp, nghiờn cu nhng nột c bn lý thuyt v ng dng thc tin ca Phõn cm d liu Vi s phỏt trin ngy cng ln nh v bóo ca Cụng XY DNG CHNG TRèNH PHN CM D LIU VI ngh thụng tin v s to v C s d liu thụng tin Do ú yờu cu v nghiờn cu hon thin, ỏp dng phng phỏp, k thut Phõn cm d liu l rt cn thit v cú ý ngha to ln Trong chng 1, lun trỡnh by tng quan, lý thuyt v phõn cm d liu, v mt s lý thuyt liờn quan trc tip n khai phỏ d liu Chng 2, gii thiu tng quỏt cỏc thut toỏn phõn cm d liu, thut toỏn phõn cm d liu l rt nhiu, Lun ch cp mt s thut toỏn ph bin, thụng dng Chng l núi v mt s ng dng tiờu biu ca phõn cm d liu nh Phõn on nh, Nhn din ký t v i tng, Truy hi thụng tin, v Khai phỏ d liu HNG PHT TRIN CA TI Phõn cm d liu v ng dng ca Phõn cm d liu l hng nghiờn cu cn thit, quan trng, Tuy nhiờn õy cng l mng rt rng, bao hm nhiu phng phỏp, k thut, v hỡnh thnh nhiu nhúm khỏc Trong quỏ trỡnh nghiờn cu, thc hin lun mc dự ó c gng trung nghiờn cu v tham kho nhiu ti liu, bi bỏo, khoa hc v ngoi nc, nhng trỡnh cũn cú nhiu gii hn khụng th trỏnh thiu sút v hn ch Em rt mong c s ch bo úng gúp nhiu hn na ca cỏc thy, cụ giỏo, cỏc nh khoa hc HNG NGHIấN CU PHT TRIN - Tip tc nghiờn cu thờm v lý thuyt v phõn cm d liu - Xõy dng, phỏt trin thờm cỏc k thut, ng dng ca Phõn cm d liu THUN TON K-MEANS BNG NGễN NG VISUAL BASIC 6.0 Giao din chng trỡnh : -92- -93- * Ngi s dng chn s lng cm d liu, sau ú click ngu nhiờn vo khung( nhp d liu X, Y) Chng trỡnh to cm trờn c s ti gin bỡnh phng khong cỏch gia d liu v cm trng tõm tng ng, mi im biu th cho mt i tng v ta (X, Y) mụ t hai thuc tớnh ca i tng Mu sc ca im v s nhón biu th cho cm d liu * Thut toỏn phõn cm K-Means lm vic nh sau : Nu s lng d liu nh hn s cm thỡ ta gỏn mi d liu l mt trng tõm ca cm Mi trng tõm s cú mt s cm Nu s lng ln d liu ln hn s cm, vi mi d liu, ta tớnh toỏn khong cỏch ti tt c cỏc trng tõm v ly khong cỏch ti thiu D liu ny c núi l thuc v cm cú khong cỏch ti thiu ti d liu ny Khi chỳng ta khụng chc chn v v tr ca trng tõm, ta cn iu chnh v trớ trng tõm da vo d liu ó cp nht hin ti Sau ú, ta gỏn tt c d liu ti trng tõm mi ny Quỏ trỡnh ny c lp li cho ti khụng cũn d liu di chuyn sang cm khỏc V mt toỏn hc, vũng lp ny cú th chng minh l hi t Vớ d sau chy chng trỡnh vi s cm = -94- -95- Mó ngun chng trỡnh Option Explicit Erase Data totalData = Private Data() ' Row = cluster, =X, 2= Y; Số l-ợng liệu cột Private Centroid() As Single ' cụm trung tâm (X Y) cụm; Số l-ợng cụm = Số l-ợng cột Private totalData As Integer ' Tổng số liệu (tổng số cột) Private numCluster As Integer ' Tổng số cụm For i = To numCluster - lblCentroid(i).Visible = False ' Không nhãn Next i ############################################################## ' Các form điều khiển ' + Form_Load ' + cmdReset_Click ' + txtNumCluster_Change ' + Picture1_MouseDown ' + Picture1_MouseMove ' ############################################################## Private Sub Form_Load() Dim i As Integer Picture1.BackColor = &HFFFFFF ' đặt mầu = trắng Picture1.DrawWidth = 10 ' Độ lớn điểm Picture1.ScaleMode = ' pixels 'Đ-a số l-ợng cụm numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) For i = To numCluster - 'Tạo nhãn If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False Next i End Sub Private Sub cmdReset_Click() ' refress lại liệu Dim i As Integer Picture1.Cls ' Làm ảnh ' Xóa liệu 'Cho phép thay đổi số l-ợng cụm txtNumCluster.Enabled = True End Sub Private Sub txtNumCluster_Change() 'Thay đổi số l-ợng cụm reset lại liệu Dim i As Integer For i = To numCluster - Unload lblCentroid(i) Next i numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) 'Gọi kiện cmdReset_Click For i = To numCluster - If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False Next i End Sub Private Sub Picture1_MouseDown(Button As Integer, Shift As Integer, X As Single, Y As Single) 'Thu thập liệu trình diễn kết Dim colorCluster As Integer Dim i As Integer 'Vô hiệu khả thay đổi số l-ợng cụm txtNumCluster.Enabled = False ' Tạo liệu chức totalData = totalData + ReDim Preserve Data(0 To 2, To totalData) ' Chú ý : Bắt đầu với cho dòng Data(1, totalData) = X Data(2, totalData) = Y -96- 'Thực k-mean clustering Call kMeanCluster(Data, numCluster) 'Trình diễn kết Picture1.Cls For i = To totalData colorCluster = Data(0, i) - If colorCluster = Then colorCluster = 12 ' Nếu mầu trắng (Nếu giống mầu thay đổi thành màu khác) X = Data(1, i) Y = Data(2, i) Picture1.PSet (X, Y), QBColor(colorCluster) Next i 'Hiện thị cụm trung tâm For i = To min2(numCluster, totalData) lblCentroid(i - 1).Left = Centroid(1, i) lblCentroid(i - 1).Top = Centroid(2, i) lblCentroid(i - 1).Visible = True Next i End Sub Private Sub Picture1_MouseMove(Button As Integer, Shift As Integer, X As Single, Y As Single) lblXYValue.Caption = X & "," & Y End Sub ' ############################################################## ' FUNCTIONS ' + kMeanCluster: ' + dist: Khoảng cách tính toán ' + min2: Trở lại giá trị nhỏ hai số ' ############################################################## Sub kMeanCluster(Data() As Variant, numCluster As Integer) ' Hàm để phân cụm liệu thành k cụm ' input: + Ma trận liệu (0 tới 2, tới TotalData); Row = cluster, =X, 2= Y; Dữ liệu cột ' + numCluster: Số l-ợng cụm ng-ời dùng muốn liệu đ-ợc phân cụm ' + Các biến địa ph-ơng: Centroid, TotalData ' ouput: o) Cụm trung tâm đ-ợc cập nhật ' o) Gán số l-ợng cụm vào liệu (= row of Data) Dim i As Integer -97- Dim j As Integer Dim X As Single Dim Y As Single Dim As Single Dim cluster As Integer Dim d As Single Dim sumXY() Dim isStillMoving As Boolean isStillMoving = True If totalData