1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

luận văn thạc sĩ Phương pháp phân cụm và ứng dụng

100 161 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 1,5 MB

Nội dung

Header Page of 123 I HC THI NGUYấN KHOA CễNG NGH THễNG TIN Nguyn Trung Sn PHNG PHP PHN CM V NG DNG Chuyờn ngnh : Mó s : KHOA HC MY TNH 60.48.01 LUN VN THC S KHOA HC MY TNH NGI HNG DN KHOA HC PGS TS V C THI Thỏi Nguyờn 2009 S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn Footer Page of 123 http://www.lrc-tnu.edu.vn Header Page of 123 I HC THI NGUYấN KHOA CễNG NGH THễNG TIN Nguyn Trung Sn PHNG PHP PHN CM V NG DNG Chuyờn ngnh : Mó s : KHOA HC MY TNH 60.48.01 LUN VN THC S KHOA HC MY TNH NGI HNG DN KHOA HC PGS TS V C THI Thỏi Nguyờn 2009 S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn Footer Page of 123 http://www.lrc-tnu.edu.vn Header Page of 123 -2- MC LC TRANG LI CM N LI M U CHNG I : TNG QUAN THUYT V PHN CM D LIU Phõn cm d liu 1.1 nh ngha v phõn cm d liu 1.2 Mt s vớ d v phõn cm d liu Mt s kiu d liu 10 2.1 D liu Categorical 10 2.2 D liu nh phõn 13 2.3 D liu giao dch 14 2.4 D liu Symbolic 15 2.5 Chui thi gian(Time Series) 16 Phộp Bin i v Chun húa d liu 16 3.1 Phộp chun húa d liu 17 3.2 Bin i d liu 21 3.2.1 Phõn tớch thnh phn chớnh 21 3.2.2 SVD 23 3.2.3 Phộp bin i Karhunen-Loốve 24 CHNG II CC THUT TON PHN CM D LIU 28 Thut toỏn phõn cm d liu da vo phõn cm phõn cp 28 1.1 Thut toỏn BIRCH 28 1.2 Thut toỏn CURE 30 1.3 Thut toỏn ANGNES 32 1.4 Thut toỏn DIANA 33 1.5 Thut toỏn ROCK 33 1.6 Thut toỏn Chameleon 34 Footer Page of 123 Header Page of 123 -3- Thut toỏn phõn cm d liu m 35 2.1 Thut toỏn FCM 36 2.2 Thut toỏn FCM 37 Thut toỏn phõn cm d liu da vo cm trung tõm 37 3.1 Thut toỏn K MEANS 37 3.2 Thut toỏn PAM 41 3.3 Thut toỏn CLARA 42 3.4 Thut toỏn CLARANS 44 Thut toỏn phõn cm d liu da vo tỡm kim 46 4.1 Thut toỏn di truyn (GAS) 46 4.2 J- Means 48 Thut toỏn phõn cm d liu da vo li 49 5.1 STING 49 5.2 Thut toỏn CLIQUE 51 5.3 Thut toỏn WaveCluster 52 Thut toỏn phõn cm d liu da vo mt 53 6.1 Thut toỏn DBSCAN 53 6.2 Thut toỏn OPTICS 57 6.3 Thut toỏn DENCLUDE 58 Thut toỏn phõn cm d liu da trờn mu 60 7.1 Thut toỏn EM 60 7.2 Thut toỏn COBWEB 61 CHNG III :NG DNG CA PHN CM D LIU 62 Phõn on nh 62 1.1 nh ngha Phõn on nh 63 1.2 Phõn on nh da vo phõn cm d liu 65 Nhn dng i tng v ký t 71 2.1 Nhn dng i tng 71 Footer Page of 123 Header Page of 123 -4- 2.2 Nhn dng ký t 75 Truy hi thụng tin 76 3.1 Biu din mu 78 3.2 Phộp o tng t 79 3.3 Mt gii thut cho phõn cm d liu sỏch 80 Khai phỏ d liu 81 4.1 Khai phỏ d liu bng Phng phỏp tip cn 82 4.2 Khai phỏ d liu cú cu trỳc ln 83 4.3 Khai phỏ d liu C s d liu a cht 84 4.4 Túm tt 86 KT LUN ,HNG PHT TRIN CA TI 90 PH LC 91 TI LIU THAM KHO 99 Footer Page of 123 Header Page of 123 -5LI CM N Em xin chõn thnh cm n PGS TS V c Thi ó tn tỡnh hng dn khoa hc, giỳp em hon thnh tt lun tt nghip ny Em cng xin gi li cm n ti cỏc thy, cụ giỏo ó dy d, v truyn t kin thc cho em sut quỏ trỡnh hc v nghiờn cu HC VIấN NGUYN TRUNG SN Footer Page of 123 Header Page of 123 -6- LI M U Trong nhng nm gn õy, s phỏt trin mnh m ca CNTT ó lm cho kh nng thu thp v lu tr thụng tin ca cỏc h thng thụng tin tng nhanh mt cỏch chúng mt Bờn cnh ú, vic tin hc húa mt cỏch t v nhanh chúng cỏc hot ng sn xut, kinh doanh cng nh nhiu lnh vc hot ng khỏc ó to cho chỳng ta mt lng d liu lu tr khng l Hng triu CSDL ó c s dng cỏc hot ng sn xut, kinh doanh, qun lý , ú cú nhiu CSDL cc ln c Gigabyte, thm l Terabyte S bựng n ny ó dn ti mt yờu cu cp thit l cn cú nhng k thut v cụng c mi t ng chuyn i lng d liu khng l thnh cỏc tri thc cú ớch T ú, cỏc k thut khai phỏ d liu ó tr thnh mt lnh vc thi s ca nn CNTT th gii hin núi chung v Vit Nam núi riờng Khai phỏ d liu ang c ỏp dng mt cỏch rng rói nhiu lnh vc kinh doanh v i sng khỏc nhau: marketing, ti chớnh, ngõn hng v bo him, khoa hc, y t, an ninh, internet Rt nhiu t chc v cụng ty ln trờn th gii ó ỏp dng k thut khai phỏ d liu vo cỏc hot ng sn xut kinh doanh ca mỡnh v thu c nhng li ớch to ln Cỏc k thut khai phỏ d liu thng c chia thnh nhúm chớnh: - K thut khai phỏ d liu mụ t: cú nhim v mụ t v cỏc tớnh cht hoc cỏc c tớnh chung ca d liu CSDL hin cú - K thut khai phỏ d liu d oỏn: cú nhim v a cỏc d oỏn da vo cỏc suy din trờn d liu hin thi Bn lun ny trỡnh by mt s v Phõn cm d liu, mt nhng k thut c bn Khai phỏ d liu õy l hng nghiờn cu cú trin vng ch nhng s lc vic hiu v khai thỏc CSDL khng l, khỏm phỏ thụng tin hu ớch n d liu; hiu c ý ngha thc t ca d liu Lun c trỡnh by chng v phn ph lc : Chng : Trỡnh by tng quan lý thuyt v Phõn cm d liu, cỏc kiu d liu, Phộp bin i v chun húa d liu Chng : Gii thiu, phõn tớch, ỏnh giỏ cỏc thut toỏn dựng phõn cm d liu Chng : Trỡnh by mt s ng dng tiờu biu ca phõn cm d liu Kt lun : Túm tt cỏc c tỡm hiu lun v cỏc liờn quan lun vn, a phng hng nghiờn cu tip theo Footer Page of 123 Header Page of 123 -7- CHNG I : TNG QUAN Lí THUYT V PHN CM D LIU Phõn cm d liu 1.1 nh ngha v phõn cm d liu Phõn cm d liu(Data Clustering) hay phõn cm, cng cú th gi l phõn tớch cm, phõn tớch phõn on, phõn tớch phõn loi, l quỏ trỡnh nhúm mt cỏc i tng thc th hay tru tng thnh lp cỏc i tng tng t Mt cm l mt hp cỏc i tng d liu m cỏc phn t ca nú tng t cựng mt cm v phi tng t vi cỏc i tng cỏc cm khỏc Mt cm cỏc i tng d liu cú th xem nh l mt nhúm nhiu ng dng 1.2 Mt s vớ d v phõn cm d liu 1.2.1 Phõn cm d liu phc v cho biu din d liu gene Phõn cm l mt nhng phõn tớch c s dng thng xuyờn nht biu din d liu gene (Yeung et al., 2003; Eisen at al., 1998) D liu biu din gene l mt tõp hp cỏc phộp o c ly t DNA microarray (cũn gi l DNA chip hay gene chip) l mt tm thy tinh hoc nha trờn ú cú gn cỏc on DNA thnh cỏc hng siờu nh Cỏc nh nghiờn cu s dng cỏc chip nh vy sng lc cỏc mu sinh hc nhm kim tra s cú mt hng lot trỡnh t cựng mt lỳc Cỏc on DNA gn trờn chip c gi l probe (mu dũ) Trờn mi im ca chip cú hng ngn phõn t probe vi trỡnh t ging Mt hp d liu biu din gene cú th c biu din thnh mt ma trn giỏ tr thc : x11 x 21 D x n1 x12 x1d x 22 x d , x n x nd Trong ú : - n l s lng cỏc gen - d l s lng mu hay iu kin th - xij l thc o biu din mc gen i mu j Footer Page of 123 Header Page of 123 -8- Bi vỡ cỏc biu ma trn gc cha nhiu, giỏ tr sai lch, h thng bin th, ú tin x lý l ũi hi cn thit trc thc hin phõn cm Khai phỏ d liu Phõn loi c lng D oỏn Khai phỏ d liu trc tip Khai phỏ d liu giỏn tip Phõn cm Lut kt hp Din gii v trc quan húa Hỡnh Tỏc v ca Khai phỏ d liu D liu biu din gen cú th c phõn cm theo hai cỏch Cỏch th nht l nhúm cỏc cỏc mu gen ging nhau, vớ d nh gom cỏc dũng ca ma trn D Cỏch khỏc l nhúm cỏc mu khỏc trờn cỏc h s tng ng, vớ d nh gom cỏc ct ca ma trn D 1.2.2 Phõn cm d liu phc sc khe tõm lý Phõn cm d liu ỏp dng nhiu lnh vc sc khe tõm lý, bao gm c vic thỳc y v trỡ sc khe, ci thin cho h thng chm súc sc khe, v cụng tỏc phũng chng bnh tt v ngi khuyt tt (Clatworthy et al., 2005) Trong s phỏt trin h thng chm súc sc khe, phõn cm d liu c s dng xỏc nh cỏc nhúm ca ngi dõn m cú th c hng li t cỏc dch v c th (Hodges v Wotring, 2000) Trong thỳc y y t, nhúm phõn tớch c s dng la chn nhm mc tiờu vo nhúm s cú kh nng em li li ớch cho sc khe c th t cỏc chin dch qung bỏ v to iu kin thun li cho s phỏt trin ca qung cỏo Ngoi ra, phõn cm d liu Footer Page of 123 Header Page 10 of 123 -9- c s dng xỏc nh cỏc nhúm dõn c b ri ro phỏt trin y t v cỏc iu kin nhng ngi cú nguy c nghốo 1.2.3 Phõn cm d liu i vi hot ụng nghiờn cu th trng Trong nghiờn cu th trng, phõn cm d liu c s dng phõn on th trng v xỏc nh mc tiờu th trng (Chrisoppher, 1969; Saunders, 1980, Frank and Green, 1968) Trong phõn on th trng, phõn cm d liu thng c dựng phõn chia th trng thnh nhng cm mang ý ngha, chng han nh chia i tng nam gii t 21-30 tui v nam gii ngoi 51 tui, i tng nam gii ngoi 51 tui thng khụng cú khuynh hng mua cỏc sn phm mi 1.2.4 Phõn cm d liu i vi hot ng Phõn on nh Phõn on nh l vic phõn tớch mc xỏm hay mu ca nh thnh cỏc lỏt ng nht (Comaniciu and Meer, 2002) Trong phõn on nh, phõn cm d liu thng c s dng phỏt hin biờn ca i tng nh Phõn cm d liu l mt cụng c thit yu ca khai phỏ d liu, khai phỏ d liu l quỏ trỡnh khỏm phỏ v phõn tớch mt lng ln d liu ly c cỏc thụng tin hu ớch (Berry and Linoff, 2000) Phõn cm d liu cng l mt c bn nhn dng mu (pattern recognition) Hỡnh 1.1 a mt danh sỏch gin lc cỏc tỏc v a dng ca khai phỏ d liu v chng t vai trũ ca phõn cm d liu khai phỏ d liu Nhỡn chung, Thụng tin hu dng cú th c khỏm phỏ t mt lng ln d liu thụng qua phng tin t ng hay bỏn t ng (Berry and Linoff, 2000) Trong khai phỏ d liu giỏn tip, khụng cú bin no c chn nh mt bin ớch, v mc tiờu l khỏm phỏ mt vi mi quan h gia tt c cỏc bin Trong ú i vi khai phỏ d liu giỏn tip mt vi bin li c chn nh cỏc bin ớch Phõn cm d liu l khai phỏ d liu giỏn tip, bi vỡ khai phỏ d liu, ta khụng m bo chc chn chớnh xỏc cm d liu m chỳng ta ang tỡm kim, úng vai trũ gỡ vic hỡnh thnh cỏc cm d liu ú, v nú lm nh th no Vn phõn cm d liu ó c quan tõm mt cỏch rng rói, mc dự cha cú nh ngha ng b v phõn cm d liu v cú th s khụng bao gi l mt v i n thng nht.(Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998) Núi mt cỏch i khỏi l : Phõn cm d liu, cú ngha l ta Footer Page 10 of 123 Header Page 86 of 123 -85- V cht lng, tr lng tt phc hi cú bóo hũa hydrocarbon cao ang mc kt bi trm tớch rt xp (cha porosity) v bao quanh bi s lng ln cỏc loi ỏ cng cú ngn chn s rũ r du khớ t xa Mt lng ln cỏc trm tớch xp l rt quan trng tỡm d tr phc hi tt, ú phỏt trin ỏng tin cy v chớnh xỏc cỏc phng phỏp cho d toỏn ca porosities trm tớch t cỏc d liu thu thp l chỡa khúa c tớnh tim nng du khớ Cỏc quy tc chung ca cỏc chuyờn gia ngún cỏi s dng cho tớnh toỏn xp, rng l nú l mt chc nng lut s m ca chiu sõu: xp = K.e F x1 , x2 ,, xm Depth (4) Mt s yu t nh cỏc loi ỏ, cu trỳc, v xõy bng xi mng nh cỏc thụng s ca F chc nng bi ri mi quan h ny iu ny ũi nh ngha ca ng cnh thớch hp, ú c gng khỏm phỏ cụng thc o xp Bi cnh a cht c th hin iu khon ca hin tng a cht, nh l hỡnh hc, lithology, nộn cht, v lỳn, liờn kt vi khu vc Nú ni ting rng nhng thay i bi cnh a cht t lu vc lu vc (cỏc khu vc a lý khỏc trờn th gii) v cng t khu vc ti khu vc mt lu vc [Allen v Allen 1990; Biswas 1995] Hn na, tớnh nng tim n bi cnh cú th khỏc rt nhiu Mụ hỡnh kt hp cỏc k thut n gin, m lm vic lnh vc k thut m l hn ch bi hnh vi ca ngi gõy h thng v cng thnh lp lut ca vt lý, khụng th ỏp dng lnh vc thm dũ du khớ n a ch ny, phõn nhúm d liu ó c s dng xỏc nh ng cnh cú liờn quan, v sau ú phỏt hin phng trỡnh c thc hin bi cnh mi Mc ớch l ly cỏc x1, x2, , xm t mt ln cỏc tớnh nng a cht, v F mi quan h chc nng nht nh chc nng o rng, xp khu vc Cỏc phng phỏp tng th minh ho Hỡnh 35, bao gm hai bc chớnh: (i) Bi cnh nh ngha bng cỏch s dng cỏc k thut Phõn cm khụng giỏm sỏt, v (ii) phỏt hin bng cỏch phõn tớch Phng trỡnh hi quy [Li v Biswas 1995] Bt thm dũ d liu thu thp t mt vựng lu vc Alaska c phõn tớch bng cỏch s dng phng phỏp phỏt trin Cỏc i tng d liu (mu) c mụ t v 37 c im a cht, nh xp, tớnh thm, mt kớch thc ht, v phõn loi, s lng cỏc mnh khoỏng sn khỏc (vớ d, thch anh, Chert, fenspat) hin nay, tớnh cht ca cỏc mnh Footer Page 86 of 123 Header Page 87 of 123 -86- ỏ , l chõn lụng c im, v xõy bng xi mng Tt c nhng tớnh nng cỏc giỏ tr c o bng s c thc hin trờn mu c ly t cỏc bn ghi tt quỏ trỡnh khoan thm dũ Thut toỏn phõn cm d liu K-means ó c s dng xỏc nh mt cỏc ng nht cu trỳc a cht nguyờn thy (g1, g2, , gm) Nhng nguyờn thy ny sau ú ó c ỏnh x vo mó n v so vi bn n v a tng hc Hỡnh 36 mụ t mt bn mt phn cho mt hp cỏc ging v bn cu trỳc nguyờn thy Bc tip theo quỏ trỡnh phỏt hin c xỏc nh phn ca khu vc ging c to thnh t cựng mt trỡnh t ca a cht nguyờn thy Mi trỡnh t quy nh mt Ci ng cnh T mt phn ca bn Hỡnh 36, bi cnh C1 = g2 g1 g2 g3 ó c xỏc nh ti hai khu vc tt (ca 300 v 600 series) Sau bi cnh ó c xỏc nh, d liu im thuc bi cnh tng c nhúm li vi cho derivation phng trỡnh Th tc dn xut derivation lm vic phõn tớch hi qui [Sen v Srivastava 1990] Phng phỏp ny c ỏp dng cho mt d liu ca khong 2.600 i tng tng ng vi mu o thu thp t ging l cỏc lu vc Alaska K-means ó nhúm d liu ny t thnh by nhúm Nh minh ho, Chỳng ta chn mt b 138 i tng i din cho mt bi cnh phõn tớch Cỏc tớnh nng nht nh ngha cm ny ó c la chn, v cỏc chuyờn gia surmised rng bi cnh i din cho mt vựng xp rng thp, c mụ hỡnh bng cỏch s dng cỏc th tc hi qui 4.4 Túm tt Cú rt nhiu ng dng, ni quyt nh v phõn tớch mu thm dũ ó c thc hin trờn d liu ln t Vớ d, ly ti liu, mt hp cỏc ti liu cú liờn quan cú th tỡm thy mt vi s hng triu ti liu ca cỏc chiu ca hn 1000 Cú th x lý nhng ny rt hu ớch nu mt s tru tng ca d liu c thu c v c s dng vic quyt nh, hn l trc tip bng cỏch s dng d liu ton b thit lp Bi tru tng húa d liu, chỳng tụi cú ngha l mt i din n gin v gn nh ca d liu n gin ny giỳp mỏy ch bin cú hiu qu hay mt ngi comprehending cu trỳc d liu mt cỏch d dng Thut toỏn phõn cm d liu rt lý tng cho vic t c cỏc d liu tru tng Footer Page 87 of 123 Header Page 88 of 123 -87- Trong bi ny, chỳng ta ó kim tra cỏc bc khỏc phõn nhúm: (1) mụ hỡnh i din, (2) tớnh toỏn tng t, (3) nhúm quy trỡnh, v (4) i din cm Ngoi ra, cng cp nn thng kờ, m, thn kinh, tin húa, v kin thc da trờn phng phỏp tip cn phõn cm d liu Chỳng ta cú bn mụ t cỏc ng dng ca phõn nhúm: (1) Phõn on nh, (2) nhn din i tng, (3) truy hi ti liu, v (4) khai phỏ d liu Hỡnh 36 Mó vựng so vi bn n v a tng mt phn ca khu vc nghiờn cu Phõn cm d liu l mt quỏ trỡnh ca cỏc nhúm d liu da trờn mt thc o tng t Phõn cm d liu l mt quỏ trỡnh ch quan; cựng mt b cỏc d liu thng xuyờn cn phi c phõn vựng khỏc cho cỏc ng dng khỏc Ch quan ny lm cho quỏ trỡnh phõn nhúm khú khn iu ny l mt thut toỏn n hoc phng phỏp tip cn l khụng gii quyt mi phõn cm d liu Mt gii phỏp cú th nm ch quan ny phn ỏnh cỏc hỡnh thc kin thc Kin thc ny c s dng hoc ngm hoc rừ rng mt hoc nhiu giai on ca Phõn cm d liu Kin thc da trờn thut toỏn phõn nhúm s dng kin thc mt cỏch rừ rng Bc khú khn nht phõn nhúm l tớnh nng khai thỏc hoc mu i din Cỏc nh nghiờn cu mu nhn din cụng nhn thun tin trỏnh bc Footer Page 88 of 123 Header Page 89 of 123 -88- ny bng cỏch gi s rng cỏc i din c khuụn mu cú sn nh l u vo ca thut toỏn phõn cm d liu Kớch thc nh, hp d liu, i din mụ hỡnh cú th thu c da trờn kinh nghim trc õy ca ngi dựng vi ny Tuy nhiờn, trng hp cỏc b d liu ln, ú l khú khn cho ngi s dng theo dừi s quan trng ca mi tớnh nng phõn cm d li Mt gii phỏp l lm cho cỏc phộp o nh nhiu trờn cỏc mu cng tt v s dng chỳng khuụn mu i din Nhng nú khụng th s dng mt b su ln cỏc phộp o trc tip phõn cm d liu vỡ chi phớ tớnh toỏn Vỡ vy, mt s tớnh nng khai thỏc / la chn phng phỏp tip cn ó c thit k cú c kt hp tuyn tớnh hoc phi tuyn ca cỏc phộp o cú th c dựng i din cho cỏc mu Hu ht cỏc ỏn ngh cho khai thỏc tớnh nng / la chn thng c lp li t nhiờn v khụng th c s dng trờn cỏc d liu ln chi phớ tớnh toỏn Bc th hai phõn nhúm l ging tớnh toỏn Mt lot cỏc ỏn ó c s dng tớnh toỏn ging gia hai mụ hỡnh H s dng kin thc hoc ngm hoc rừ rng Hu ht cỏc kin thc da trờn thut toỏn phõn nhúm s dng kin thc rừ rng tớnh toỏn tng t Tuy nhiờn, nu khụng phi l i din cho cỏc mu bng cỏch s dng cỏc tớnh nng phự hp, sau ú nú khụng phi l cú th lm cho mt phõn vựng cú ý ngha khụng phõn bit cht lng v s lng kin thc c s dng tớnh toỏn tng t Khụng cú ỏn ph chp nhn c i vi mỏy tớnh ging gia cỏc mu i din bng cỏch s dng mt hn hp ca c hai tớnh nng nh lng Khụng giụng gia mt cp mu c i din bng cỏch s dng mt thc o khong cỏch ú cú th hoc khụng th cú mt s liu Bc tip theo phõn nhúm l nhúm cỏc bc li vi Cú hai nhúm ỏn rng rói: ỏn theo k tha v phõn vựng Cỏc ỏn cú nhiu th bc linh hot, v cỏc ỏn phõn vựng ớt tn kộm Cỏc thut toỏn phõn vựng nhm ti a húa kh nng lụi tiờu bỡnh phng Thỳc y bi s tht bi ca cỏc li bỡnh phng thut toỏn phõn cm d liu phõn vựng vic tỡm kim cỏc gii phỏp ti u cho ny, mt b su ln cỏc phng phỏp ó c xut v c s dng cú c mt gii phỏp ton cu ti u cho ny Tuy nhiờn, cỏc ỏn c gii hn cho phộp v mt tớnh toỏn trờn d liu ln t ỏn phõn cm d liu da trờn mng Footer Page 89 of 123 Header Page 90 of 123 -89- nowrron(ANN) c trin khai thn kinh ca cỏc thut toỏn phõn nhúm, v h chia s cỏc ti sn khụng mong mun ca cỏc thut toỏn Tuy nhiờn, ANNs cú kh nng t ng bỡnh thng húa d liu v trớch xut cỏc tớnh nng Mt quan sỏt quan trng l c mt ỏn cú th tỡm thy gii phỏp ti u cho phõn vựng bỡnh phng li, nú cú th thu ngn ca cỏc yờu cu vỡ khụng th-ng hng bn cht ca cỏc cm Trong mt s ng dng, vớ d truy hi ti liu, nú cú th hu ớch cú mt phõn nhúm ú khụng phi l mt phõn vựng iu ny cú ngha l cỏc cm chng chộo Phõn cm d liu m Fuzzy l chc nng rt lý tng cho mc ớch ny Ngoi ra, cỏc thut toỏn phõn nhúm m cú th x lý d liu hn hp cỏc loi Tuy nhiờn, mt ln vi phõn cm d liu m l nú rt khú cú c cỏc giỏ tr thnh viờn Mt cỏch tip cn tng hp cú th khụng lm vic vỡ bn cht ch quan ca phõn cm d liu Nú l cn thit i din cho cỏc cm thu c mt hỡnh thc thớch hp giỳp nh sn xut quyt nh Kin thc da trờn phõn nhúm ỏn to cỏc mụ t bng trc giỏc hp dn ca cỏc cm H cú th c s dng c cỏc mụ hỡnh c i din bng cỏch s dng mt s kt hp cỏc c tớnh v nh lng, l kin thc liờn kt mt khỏi nim v cỏc tớnh nng hn hp cú sn Tuy nhiờn, vic trin khai cỏc ỏn v khỏi nim phõn cm d liu cú c tớnh rt t tin v khụng phự hp cho nhúm hp d liu ln Thut toỏn K-means v gii thut da trờn mng nowrron thn kinh ca , li Kohonen, l thnh cụng nht c s dng trờn b d liu ln iu ny l l thut toỏn K-means n gin thc hin v c tớnh hp dn vỡ thi gian tuyn tớnh phc ca nú Tuy nhiờn, nú khụng kh thi s dng c thut toỏn ny thi gian tuyn tớnh trờn d liu ln t Thut toỏn gia tng nh lónh o v thc hin thn kinh ca nú, mng Art, cú th c s dng cm d liu ln Nhng h cú xu hng t ph thuc Phõn chia v chinh phc l mt heuristic m ó c khai thỏc theo ỳng thit k thut toỏn mỏy tớnh gim chi phớ tớnh toỏn Tuy nhiờn, cn khụn ngoan s dng cỏc phõn nhúm t c kt qu cú ý ngha Túm li, Phõn cm d liu l mt thỳ v, hu ớch, v y thỏch thc Nú cú tim nng ln cỏc ng dng nh nhn in i tng, phõn on hỡnh nh, v cỏc chn lc v truy hi thụng tin Tuy nhiờn cn cn thn thit k mt vi la chn cú th khai thỏc tim nng ny Footer Page 90 of 123 Header Page 91 of 123 -90- KT LUN Cỏc c tỡm hiu lun Tng hp, nghiờn cu nhng nột c bn lý thuyt v ng dng thc tin ca Phõn cm d liu Vi s phỏt trin ngy cng ln nh v bóo ca Cụng ngh thụng tin v s to v C s d liu thụng tin Do ú yờu cu v nghiờn cu hon thin, ỏp dng phng phỏp, k thut Phõn cm d liu l rt cn thit v cú ý ngha to ln Trong chng 1, lun trỡnh by tng quan, lý thuyt v phõn cm d liu, v mt s lý thuyt liờn quan trc tip n khai phỏ d liu Chng 2, gii thiu tng quỏt cỏc thut toỏn phõn cm d liu, thut toỏn phõn cm d liu l rt nhiu, Lun ch cp mt s thut toỏn ph bin, thụng dng Chng l núi v mt s ng dng tiờu biu ca phõn cm d liu nh Phõn on nh, Nhn din ký t v i tng, Truy hi thụng tin, v Khai phỏ d liu HNG PHT TRIN CA TI Phõn cm d liu v ng dng ca Phõn cm d liu l hng nghiờn cu cn thit, quan trng, Tuy nhiờn õy cng l mng rt rng, bao hm nhiu phng phỏp, k thut, v hỡnh thnh nhiu nhúm khỏc Trong quỏ trỡnh nghiờn cu, thc hin lun mc dự ó c gng trung nghiờn cu v tham kho nhiu ti liu, bi bỏo, khoa hc v ngoi nc, nhng trỡnh cũn cú nhiu gii hn khụng th trỏnh thiu sút v hn ch Em rt mong c s ch bo úng gúp nhiu hn na ca cỏc thy, cụ giỏo, cỏc nh khoa hc HNG NGHIấN CU PHT TRIN - Tip tc nghiờn cu thờm v lý thuyt v phõn cm d liu - Xõy dng, phỏt trin thờm cỏc k thut, ng dng ca Phõn cm d liu Footer Page 91 of 123 Header Page 92 of 123 -91- PH LC : XY DNG CHNG TRèNH PHN CM D LIU VI THUN TON K-MEANS BNG NGễN NG VISUAL BASIC 6.0 Giao din chng trỡnh : Footer Page 92 of 123 Header Page 93 of 123 -92- * Ngi s dng chn s lng cm d liu, sau ú click ngu nhiờn vo khung( nhp d liu X, Y) Chng trỡnh to cm trờn c s ti gin bỡnh phng khong cỏch gia d liu v cm trng tõm tng ng, mi im biu th cho mt i tng v ta (X, Y) mụ t hai thuc tớnh ca i tng Mu sc ca im v s nhón biu th cho cm d liu * Thut toỏn phõn cm K-Means lm vic nh sau : Nu s lng d liu nh hn s cm thỡ ta gỏn mi d liu l mt trng tõm ca cm Mi trng tõm s cú mt s cm Nu s lng ln d liu ln hn s cm, vi mi d liu, ta tớnh toỏn khong cỏch ti tt c cỏc trng tõm v ly khong cỏch ti thiu D liu ny c núi l thuc v cm cú khong cỏch ti thiu ti d liu ny Khi chỳng ta khụng chc chn v v tr ca trng tõm, ta cn iu chnh v trớ trng tõm da vo d liu ó cp nht hin ti Sau ú, ta gỏn tt c d liu ti trng tõm mi ny Quỏ trỡnh ny c lp li cho ti khụng cũn d liu di chuyn sang cm khỏc V mt toỏn hc, vũng lp ny cú th chng minh l hi t Footer Page 93 of 123 Header Page 94 of 123 -93- Vớ d sau chy chng trỡnh vi s cm = Footer Page 94 of 123 Header Page 95 of 123 -94- Mó ngun chng trỡnh Option Explicit Private Data() ' Row = cluster, =X, 2= Y; Số l-ợng liệu cột Private Centroid() As Single ' cụm trung tâm (X Y) cụm; Số l-ợng cụm = Số l-ợng cột Private totalData As Integer ' Tổng số liệu (tổng số cột) Private numCluster As Integer ' Tổng số cụm ############################################################## ' Các form điều khiển ' + Form_Load ' + cmdReset_Click ' + txtNumCluster_Change ' + Picture1_MouseDown ' + Picture1_MouseMove ' ############################################################## Private Sub Form_Load() Dim i As Integer Picture1.BackColor = &HFFFFFF ' đặt mầu = trắng Picture1.DrawWidth = 10 ' Độ lớn điểm Picture1.ScaleMode = ' pixels 'Đ-a số l-ợng cụm numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) For i = To numCluster - 'Tạo nhãn If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False Next i End Sub Private Sub cmdReset_Click() ' refress lại liệu Dim i As Integer Picture1.Cls Footer Page 95 of 123 ' Làm ảnh Header Page 96 of 123 Erase Data totalData = -95- ' Xóa liệu For i = To numCluster - lblCentroid(i).Visible = False ' Không nhãn Next i 'Cho phép thay đổi số l-ợng cụm txtNumCluster.Enabled = True End Sub Private Sub txtNumCluster_Change() 'Thay đổi số l-ợng cụm reset lại liệu Dim i As Integer For i = To numCluster - Unload lblCentroid(i) Next i numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) 'Gọi kiện cmdReset_Click For i = To numCluster - If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False Next i End Sub Private Sub Picture1_MouseDown(Button As Integer, Shift As Integer, X As Single, Y As Single) 'Thu thập liệu trình diễn kết Dim colorCluster As Integer Dim i As Integer 'Vô hiệu khả thay đổi số l-ợng cụm txtNumCluster.Enabled = False ' Tạo liệu chức totalData = totalData + ReDim Preserve Data(0 To 2, To totalData) ' Chú ý : Bắt đầu với cho dòng Data(1, totalData) = X Data(2, totalData) = Y Footer Page 96 of 123 Header Page 97 of 123 -96- 'Thực k-mean clustering Call kMeanCluster(Data, numCluster) 'Trình diễn kết Picture1.Cls For i = To totalData colorCluster = Data(0, i) - If colorCluster = Then colorCluster = 12 ' Nếu mầu trắng (Nếu giống mầu thay đổi thành màu khác) X = Data(1, i) Y = Data(2, i) Picture1.PSet (X, Y), QBColor(colorCluster) Next i 'Hiện thị cụm trung tâm For i = To min2(numCluster, totalData) lblCentroid(i - 1).Left = Centroid(1, i) lblCentroid(i - 1).Top = Centroid(2, i) lblCentroid(i - 1).Visible = True Next i End Sub Private Sub Picture1_MouseMove(Button As Integer, Shift As Integer, X As Single, Y As Single) lblXYValue.Caption = X & "," & Y End Sub ' ############################################################## ' FUNCTIONS ' + kMeanCluster: ' + dist: Khoảng cách tính toán ' + min2: Trở lại giá trị nhỏ hai số ' ############################################################## Sub kMeanCluster(Data() As Variant, numCluster As Integer) ' Hàm để phân cụm liệu thành k cụm ' input: + Ma trận liệu (0 tới 2, tới TotalData); Row = cluster, =X, 2= Y; Dữ liệu cột ' + numCluster: Số l-ợng cụm ng-ời dùng muốn liệu đ-ợc phân cụm ' + Các biến địa ph-ơng: Centroid, TotalData ' ouput: o) Cụm trung tâm đ-ợc cập nhật ' o) Gán số l-ợng cụm vào liệu (= row of Data) Dim i As Integer Footer Page 97 of 123 Header Page 98 of 123 -97- Dim j As Integer Dim X As Single Dim Y As Single Dim As Single Dim cluster As Integer Dim d As Single Dim sumXY() Dim isStillMoving As Boolean isStillMoving = True If totalData

Ngày đăng: 06/03/2017, 03:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[8] Maaten, L. J. P. van der, E. O. Postma, and H. J. van den Herik: Dimensionality reduction : A comparative review. 2007.http://www.cs.unimaas.nl/l.vandermaaten/dr/DR_draft.pdf Preprint published online Link
[1]. M.R Anderber, Cluster analysis of application , A cademic Press, New York, 1973 [2]. B.S. Everitt, Cluster Analysis , Edward Amold coblished by Haisted Press and imprint of john Wiley & Sons Inc., 3 rd edition, 1993 Khác
[3]. D.Fisher, Knowledged acquisition via incremental conceptual clustering, in Machine Learing Khác
[4] Zou, H., T. Hastie, and R. Tibshirani: Sparse principal component analysis. Journal of Computational and Graphical Statistics , 15(2):265{286, 2006 Khác
[5] Hall, P., H.G. Muller, and J.L. Wang: Properties of principal component methods for functional and longitudinal data analysis. Ann. Statist, 34(3):1493{1517, 2006 Khác
[6] Yao, F., H.G. Muller, A.J. Cli_ord, S.R. Dueker, J. Follett, Y. Lin, B.A. Buchholz, and J.S. Vogel: Shrinkage Estimation for Functional Principal Component Scores with Application to the Population Kinetics of Plasma Folate . Biometrics, 59:676{685, 2003 Khác
[7] Liang, K.Y. and S.L. Zeger: Longitudinal data analysis using generalized linear models . Biometrika, 73(1):13{22, 1986 Khác
[9] Fan, J. and I. Gijbels: Variable Bandwidth and Local Linear Regression Smoothers. The Annals of Statistics , 20(4):2008{2036, 1992 Khác
[10] Data Clustering Theory, Algorithms, and Applications. Guojun Gan, Chaoqun Ma, Jianhong Wu. 2007 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN