Phương pháp đồng huấn luyện và ứng dụng

36 220 0
Phương pháp đồng huấn luyện và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUC GIA H NI TRNG I HC CễNG NGH Hong Th Ngc Trang PHNG PHP NG HUN LUYN V NG DNG LUN VN THC S Ngnh: Cụng ngh Thụng tin Chuyờn ngnh: Khoa hc Mỏy tớnh Mó s: 60 48 01 NGI HNG DN KHOA HC PGS.TS Hong Xuõn Hun H NI 2009 MC LC Trang LI CAM OAN DANH MC CC BNG BIU DANH MC CC HèNH V BNG Kí HIU V CH VIT TT MC LC M U CHNG GII THIU V NHN DNG MU 1.1 Mu v cỏc bi toỏn nhn dng thng gp 1.1.1 Mu (pattern) 1.1.2 Nhn dng mu l gỡ? 1.1.3 Cỏc bi toỏn nhn dng mu thng gp 1.2 Vớ d v bi toỏn nhn dng mu 1.3 Cỏc lnh vc liờn quan 1.4 Cỏc h thng nhn dng mu 1.5 Chu trỡnh thit k b phõn lp 1.6 Kt lun 10 CHNG GII THIU V HC BN GIM ST V PHNG PHP NG HUN LUYN 12 2.1 Phng phỏp hc bỏn giỏm sỏt 12 2.1.1 Hc cú giỏm sỏt v hc khụng cú giỏm sỏt 12 2.1.2 ng lc thỳc y v hiu qu ca hc bỏn giỏm sỏt 13 2.1.3 Phm vi s dng hc bỏn giỏm sỏt 14 2.2 Phng phỏp t hun luyn 15 2.3 Phng phỏp ng hun luyn 16 2.3.1 Thit lp ng hun luyn16 2.3.2 S thit lp ng hun luyn 19 2.3.3 S hiu qu v tớnh ng dng ca co-training 21 2.4 So sỏnh hai phng phỏp ng hun luyn v t hun luyn 22 CHNG MT S LC NG DNG CO-TRAINING Error! Bookmark not defined 3.1 Co-training bi toỏn phõn lp vi vector h tr kt hp khụng gian tng thut (VSSVM) Error! Bookmark not defined 3.1.1 Bi toỏn phõn lp nh phõn Error! Bookmark not defined 3.1.2 Gii thiu v SVM Error! Bookmark not defined 3.1.3 Khụng gian tng thut Error! Bookmark not defined 3.1.4 Version Space Support Vector Machines (VSSVM) Error! Bookmark not defined 3.1.5 Co-training bi toỏn VSSVM Error! Bookmark not defined 3.1.6 Kt lun Error! Bookmark not defined 3.2 Co-training bi toỏn phõn lp bn Error! Bookmark not defined 3.2.1 Bi toỏn thc nghim phõn lp bn Error! Bookmark not defined 3.2.2 B d liu thc nghim phõn lp bn Error! Bookmark not defined 3.2.3 Quỏ trỡnh tin hnh thc nghim Error! Bookmark not defined 3.2.4 Kt qu phõn lp so vi phng phỏp Naùve Bayes Error! Bookmark not defined 3.2.5 Kt lun Error! Bookmark not defined 3.3 Mt tip cn co-training cho a b phõn lp bỏn giỏm sỏt (MCS) Error! Bookmark not defined 3.3.1 H thng a b phõn lp bỏn giỏm sỏt Error! Bookmark not defined 3.3.2 K thut co-training cho MCS Error! Bookmark not defined 3.3.3 D liu v th nghim Error! Bookmark not defined 3.3.4 Phõn tớch v ỏnh giỏ kt qu Error! Bookmark not defined 3.5 Kt lun Error! Bookmark not defined 3.4 Co-training bi toỏn hi quy na giỏm sỏt Error! Bookmark not defined 3.4.1 Gii thiu bi toỏn hi quy Error! Bookmark not defined 3.4.2 Co-training bi toỏn hi quy Error! Bookmark not defined 3.4.3 Thut toỏn COREG Error! Bookmark not defined 3.4.4 Phõn tớch Error! Bookmark not defined 3.4.5 Kt qu thc nghim COREG Error! Bookmark not defined CHNG NG DNG COTRAINING NNG CAO CHT LNG MNG NI SUY RBF Error! Bookmark not defined 4.1 Mng ni suy RBF Error! Bookmark not defined 4.1.1 Bi toỏn ni suy nhiu bin vi cỏch tip cn RBF Error! Bookmark not defined 4.1.2 K thut hm c s bỏn kớnh Error! Bookmark not defined 4.1.3 Kin trỳc mng RBF Error! Bookmark not defined 4.1.4 Hun luyn mng RBF Error! Bookmark not defined 4.2 ng dng co-training nõng cao cht lng mng RBF Error! Bookmark not defined 4.2.1 Cu hỡnh thc nghim thut toỏn COREG Error! Bookmark not defined 4.2.2 Kt qu thc nghim HDH vi COREG Error! Bookmark not defined 4.3 Nhn xột Error! Bookmark not defined KT LUN Error! Bookmark not defined TI LIU THAM KHO 26 M U S phỏt trn mnh m ca cụng ngh cao núi chung v khoa hc mỏy tớnh núi riờng ngy cng thu hỳt nhiu nh khoa hc v cụng ngh quan tõm nghiờn cu bi toỏn nhn dng mu Thot tiờn, bi toỏn nhn dng mu xut phỏt t nhu cu to nờn cỏc thnh phn mỏy cú kh nng quan sỏt mụi trng Cựng vi s phỏt trin ca cỏc ng dng cụng ngh thụng tin, c bit lnh vc hc mỏy, ngi ta phi i sõu phỏt trin cỏc h nhn dng mu cú kh nng tỡm cỏc mu mi cỏc c s d liu ln hay cũn gi l khỏm phỏ tri thc t d liu Phõn lp mu l bi toỏn thng gp nht nhn dng mu v phõn thnh hai loi cú giỏm sỏt v khụng cú giỏm sỏt Trong bi toỏn phõn lp cú giỏm sỏt, da trờn mt d liu ó c gỏn nhón, ngi ta xõy dng mt b phõn lp gỏn nhón cho cỏc d liu cha bit Cũn bi toỏn khụng giỏm sỏt, ngi ta phõn mt d liu cha c gỏn nhón thnh cỏc cỏc cho cỏc i tng d liu mi thỡ cú c tớnh ging hn so vi i tng cỏc khỏc Trong cỏc bi toỏn nhn dng mu, bi toỏn phõn lp cú giỏm sỏt l bi toỏn c ng dng rng rói nht Vic xõy dng b phõn lp bi toỏn ny c thc hin bi cỏc thut toỏn hc mỏy (hc cú giỏm sỏt) Vi hc cú giỏm sỏt truyn thng ngi thng phi b rt nhiu cụng sc gỏn nhón cho d liu o to nu mun cú mt b hc tt Nhng thc t li luụn tn ti sn mt ngun ti nguyờn phong phỳ ú l ngun d liu cha gỏn nhón Mt phng phỏp hc mi ó i nhm t c mc tiờu khai thỏc c ngun ti nguyờn phong phỳ ny, nú giỳp gim nhiu chi phớ v cụng sc vic gỏn nhón cho ngi Phng phỏp ny ó thu hỳt c rt nhiu s quan tõm ca cỏc nh khoa hc v c gi chung vi tờn phng phỏp hc bỏn giỏm sỏt (Semi-supervised learning: SSL) Phng phỏp ny u tiờn c gii thiu bi A Blum, T Mitchel vo nm 1998 [11] v Xiaojin Zhu (2006) ó a mt cỏi nhỡn tng i y v tng quỏt (chi tit xem [47]) Mc ớch ca hc bỏn giỏm sỏt l khai thỏc s liờn kt gia d liu ó gỏn nhón v d liu cha gỏn nhón hiu v thit k c thut toỏn cho cú th tn dng tt thụng tin t ngun d liu cha gỏn nhón Hc bỏn giỏm sỏt c quan tõm nhiu khai phỏ d liu bi nhng ngun d liu cha gỏn nhón thc s phong phỳ v sn cú Ngoi hc bỏn giỏm sỏt cũn a mt cụng c nh lng hiu c cỏch hc phõn loi ca ngi, phn ln d liu hc l d liu cha c gỏn nhón [48] Ban u hc bỏn giỏm sỏt c ỏp dng theo mụ hỡnh t hun luyn (selftraining), ú b phõn lp c xõy dng da trờn mt d liu o to nh ó c gỏn nhón sau ú m rng dn d liu ny o to tng cng bng cỏch b sung thờm cỏc d liu c b hc oỏn nhn vi tin cy cao Sau ú ý tng ny c ỏp dng cỏc phng phỏp hc cú tớnh tng thớch vi tờn gi chung l cỏc thut toỏn ng hun luyn (co-training) hay hc a khung nhỡn (multiview learning) Bờn cnh cỏc thut toỏn ng hun luyn ang ng dng rng rói cho cỏc bi toỏn phõn lp, Zhi hua Zhou v Ming Li (2007) cng xut mt thut toỏn ng hun luyn cho bi toỏn hi quy [49] Lun ny trỡnh by kho cu ca tỏc gi v cỏc thut toỏn ng hun luyn (co-training) cỏc lc thụng dng nht v th nghim ng dng phng phỏp hi quy ng hun luyn nõng cao cht lng ca mng nron RBF trng hp thiu d liu o to Ngoi phn kt lun, b cc ca lun c trỡnh by nh sau Chng Cii thiu chung v nhn dng mu bao gm cỏc bi toỏn c bn, cỏc h nhn dng mu, chu trỡnh thit k h nhn dng mu Chng Gii thiu v hc bỏn giỏm sỏt v hai thut toỏn hc bỏn giỏm sỏt chớnh l phng phỏp t hun luyn (self-training) v ng hun luyn (cotraining) Chng Trỡnh by cỏc lc ng dng chớnh ca gii thut ng hun luyn Chng ng dng co-training nõng cao cht lng mng ni suy RBF (Radial Basis Function) CHNG GII THIU V NHN DNG MU Nhn dng mu l lnh vc khoa hc vi mc ớch phõn loi v mụ t cỏc i tng Tựy thuc vo cỏc ng dng, cỏc i tng ny cú th l ch vit, nh, súng õm thanh, v.v Trong chng ny phn 1.1 dnh gii thiu túm tt khỏi nim nhn dng mu v cỏc bi toỏn c bn Phn 1.2 gii thiu mt vớ d v bi toỏn nhn dng mu Phn 1.3 gii thiu cỏc lnh vc liờn quan Cỏc h thng nhn dng mu c gii thiu phn 1.4 Chu trỡnh thit k b phõn lp c gii thiu phn 1.5 kt lun c trỡnh by phn 1.6 1.1 Mu v cỏc bi toỏn nhn dng thng gp 1.1.1 Mu (pattern) Cú th phõn lm hai hoi: mu tru tng v mu c th Cỏc ý tng, lp lun v khỏi nim l nhng vớ d v mu tru tng, nhn dng cỏc mu nh vy thuc v lnh vc nhn dng khỏi nim Cỏc mu c th bao gm cỏc i tng cú tớnh khụng gian, thi gian v hỡnh nh hoc cỏc i tng vt lý, ch ký, ch vit, ký hiu, nh, on súng õm thanh, in nóo hoc in tõm , hm s l nhng vớ d v mu c th 1.1.2 Nhn dng mu l gỡ? Khụng cú mt nh ngha thng nht no v nhn dng mu (Pattern recognition vit tt l PR) nhng iu ny cng khụng gõy tranh cói gỡ gii nghiờn cu Sau õy l mt s nh ngha theo ng cnh nghiờn cu: - Duda et al: Nhn dng mu l vic quy nhng i tng vt lớ hay s kin vo mt loi (nhúm) no ú ó xỏc nh t trc - Jỹrgen Schỹrmann: Nhn dng mu l vic gỏn nhón w cho mt quan sỏt x - Selim Aksoy: Nhn dng mu l vic nghiờn cu cỏch lm cho mt mỏy cú th thc hin: + Quan sỏt mụi trng + Hc cỏch phõn bit c cỏc mu cn quan tõm + a cỏc quyt nh ỳng n v loi (nhúm) ca cỏc mu Nh vy thay cho vic tỡm nh ngha chớnh xỏc cho khỏi nim nhn dng mu ta s lit kờ cỏc bi toỏn chớnh lnh vc ny 1.1.3 Cỏc bi toỏn nhn dng mu thng gp Cỏc bi toỏn nhn dng mu thng gp cú th quy v cỏc dng sau Phõn lp cú giỏm sỏt hay phõn loi (classify): Da trờn mt (tp o to) ó bit nhón, a mt cỏch gỏn nhón cho cỏc i tng mi phõn cỏc i tng thnh cỏc lp Vớ d: nhn dng ch vit tay nh cỏc ch ó bit Phõn lp khụng giỏm sỏt hay phõn cm (cluster): Chia i tng thnh nhúm cho cỏc i tng mi nhúm tng i ging cũn cỏc i tng khỏc nhúm thỡ khỏc Phõn tớch hi quy (regression) hay nhn dng hm: Xỏc nh mt bin (hm) qua cỏc bin khỏc Nhn thc (Identify): Xỏc nh i tng ó cho cú l i tng ang quan tõm hay khụng Chng hn nh nhn thc võn tay, nhn thc mt ngi Mụ t: Mụ t cỏc i tng di hỡnh thc d phõn tớch Chng hn mụ t in tõm di dng biu c trng hoc xõu mó hiu rừ hn quỏ trỡnh nhn dng mu, ta xột vớ d sau 1.2 Vớ d v bi toỏn nhn dng mu Gi s ta mun t ng húa quỏ trỡnh sp xp, hay phõn lp nhng cỏ c nhp vo trờn bng truyn da theo loi Vi d ỏn nh, chỳng ta cn phõn bit gia cỏ hi (salmon) v cỏ vc bin (sea bass) Ta thit lp mỏy ghi hỡnh (sensor: cm bin quang hc), ly mt s mu v bt u ghi chộp mt s c tớnh vt lý khỏc gia loi cỏ nh tớnh nhanh nhn, chiu rng, s lng v hỡnh dỏng ca võy, v trớ ca ming, v tip tc s dng cỏc c trng ny dựng vic phõn lp Chỳng ta cng phi chỳ ý n s bin i gia cỏc hỡnh nh s bin i v sỏng, v trớ ca cỏ trờn bng truyn hay c v trớ ca mỏy ghi hỡnh Chc chn l s lng cỏ hi v cỏ vc s khỏc nhau, chỳng ta xem chỳng nh mi mụ hỡnh khỏc cú th to c mụ hỡnh toỏn hc Vn bao quỏt phõn lp mu l a mt lp cỏc mụ hỡnh, x lý d liu loi b nhiu (khụng ph thuc vo mụ hỡnh), v vi mi mu chỳng ta chn mụ hỡnh thớch hp nht H thng nguyờn mu thc hin cụng vic rt c thự ny c mụ t nh hỡnh u tiờn mỏy ghi hỡnh thu nhn hỡnh nh ca cỏ Sau ú tớn hiu t mỏy ghi hỡnh c a vo cụng on tin x lý n gin húa cỏc thao tỏc sau ny m khụng lm mt thụng tin liờn quan c bit chỳng ta cú th s dng thao tỏc phõn on (segmentation) tỏch cỏc bc nh ca cỏc loi cỏ khỏc hay k c l nh nn Thụng tin t mi cỏ sau ú c a ti b trớch chn c trng vi mc ớch l rỳt gn d liu bng cỏch ỏnh giỏ cỏc c trng hay thuc tớnh no ú cú cn cho b phõn lp hay khụng Nhng c trng ny (hay chớnh xỏc hn l giỏ tr ca chỳng) sau ú c chuyn cho b phõn lp ỏnh giỏ cỏc du hiu v a quyt nh cui cựng v loi cỏ B tin x lý s t ng iu chnh sỏng trung bỡnh, hay loi b hỡnh nn ca bc nh Ti thi im ny chỳng ta hóy b qua bc phõn on m trung vo bc l trớch chn c trng v phõn lp Gi s rng cỏ vc thng di hn cỏ hi Nh vy hin nhiờn chiu di l mt c trng, v chỳng ta cú th phõn lp cỏ bng cỏch xem chiu di ca chỳng cú t di L hay khụng chn giỏ tr ca L chỳng ta xem mt vi cỏ mu, tớnh giỏ tr di v phõn tớch kt qu Gi s rng chỳng ta thc hin v thu c biu nh hỡnh Biu ny cho chỳng ta thy ỳng l chiu di trung bỡnh ca cỏ vc ln hn ca cỏ hi nhng li khụng cú cỏch gỡ chn c mt giỏ tr L kh d phõn bit chỳng bng chiu di Hỡnh Biu v c trng chiu di ca hai loi cỏ Tht khú khn, nhng chỳng ta s tip tc vi cỏc c trng khỏc nh sỏng trung bỡnh Bõy gi ta phi rt cn thn loi tr s bin thiờn ca ỏnh sỏng, bi vỡ nú cú th lm hng b phõn lp mi ca chỳng ta Kt qu v giỏ tr ti a x* c th hin trờn hỡnh ó tha hn Cỏc lp ó c phõn bit tt hn Hỡnh 3: Biu v c trng sỏng ca hai loi cỏ Vic chn yu t no quyt nh s ũi hi chi phớ liờn quan, v ta cn phi lm cho chi phớ ú mc thp nht õy l nhim v trung tõm ca lý thuyt quyt nh ú phõn lp mu l lnh vc quan trng nht Ngay c chỳng ta ó bit chi phớ ca cỏc quyt nh v chn c giỏ tr x* tt nht, chỳng ta cú th cha tha Chỳng ta mun tỡm cỏc c trng khỏc phõn lp Tuy nhiờn khụng cú c trng trc quan riờng l no tt hn l sỏng, vỡ vy tng hiu qu chỳng, ta phi s dng nhiu hn mt c trng nhn dng Khi tỡm cỏc c trng khỏc chỳng ta cú th thy l cỏ vc thng cú chiu rng ln hn cỏ hi Bõy gi chỳng ta cú c trng ỏnh giỏ 16 Self-training l k thut hc bỏn giỏm sỏt c s dng rt ph bin í tng l: mt b phõn lp (classifier) ban u c hun luyn bng mt s lng nh cỏc d liu ó gỏn nhón (tp d liu hun luyn mu) Sau ú, s dng b phõn lp ny gỏn nhón cỏc d liu cha gỏn nhón Cỏc d liu c gỏn nhón cú tin cy cao (vt trờn mt ngng no ú) v nhón tng ng ca chỳng c a vo hun luyn Tip ú, b phõn lp c hc li trờn hun luyn mi y v th tc lp tip tc Thut toỏn self-training s dng nu nú tho iu kin: Hoc s vũng lp t ti mt s ó c xỏc nh trc hoc l d liu cha gỏn nhón l rng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh t L : T p cỏc d li u ó c gỏn nhón U : Tp cỏc d liu cha gỏn nhón 1.1.1.1.1.1 Lp - Hun luyn b phõn lp h trờn L - S dng h phõn lp cỏc d liu U - Tỡm U ca U cú tin cy cao nht - L + U -> L 1.1.1.1.1.7 1.1.1.1.1.8 U U-> U 1.1.1.1.1.9 Hỡnh 9: S thut toỏn self-training Self-training ó c ng dng mt vi nhim v nh x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [18] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng ngoi self-training cng c ng dng phõn tớch cỳ phỏp v dch mỏy 2.3 Phng phỏp ng hun luyn 2.3.1 Thit lp ng hun luyn Thit lp ban u ca ng hun luyn (co-traning) l cựng lỳc hun luyn hai b hc trờn cựng mt b d liu nhng vi hai thut toỏn khỏc Vi hai thut toỏn riờng, mi cỏch hun luyn to nờn mt b hc c lp (independent) v y (sufficient) vi b cũn li s dng, tc l ch vi mt hai b hc ny ta cú th gii quyt c bi toỏn (vớ d vi bi toỏn phõn lp, mt b hc l phõn lp ỳng cỏc d liu) í tng ca cotraining l sau mi bc lp, s dng kt qu tt nht, vi tin cy cao nht ca b hc ny a sang dy cho b hc v ngc li n nm 1998 nghiờn cu, khai thỏc vic s dng thụng tin kt hp c d liu cú nhón v d liu cha cú nhón bi toỏn hc bỏn giỏm sỏt hai ụng A Blum v T Mitchell [11] ó a lc c th ca phng phỏp cotraining l da trờn hai c trng (set of features) c lp v y ca d liu xõy dng nờn hai b hc Hai c trng ny cũn c gi l hai 17 khung nhỡn (views) ca d liu Tớnh c lp v y m bo rng vi mi khung nhỡn ta cú th xõy dng c mt b hc ỳng cho bi toỏn Khi ó xõy dng c song song hai b hc thỡ kt qu tt mụic bc ca b hc ny c s dng hun luyn li b hc v ngc li Nm 2000 nghiờn cu, phõn tớch hiu qu v tớnh ng dng ca cotraining thỡ Nigam v Ghani [25,26] ó trung tr li cỏc cõu hi nh: ti nhng thut toỏn co-training li thnh cụng, co-training cú thc s khai thỏc c s phõn tỏch c lp ca cỏc c trng hay khụng, khụng cú s phõn tỏch t nhiờn (natural split) trờn cỏc c trng ca d liu thỡ co-training cú nờn c ỏp dng hay khụng.Hai ụng ó kt lun rng nu d liu tha iu kin cú s phõn tỏch c lp v y trờn hai khung nhỡn ca d liu thỡ co-training thc thi tt hn nhng thut toỏn hc bỏn giỏm sỏt khỏc nh phng phỏp cc i kỡ vng (Expectation Maximization- EM) hay phng phỏp t hun luyn self-training [25] Ngoi th vi d liu m khụng bit trc s phõn tỏch t nhiờn trờn cỏc c trng ca nú, Nigam v Ghani [26] cng ch rng nu ngi cú th to mt s phõn tỏch c lp trờn cỏc c trng ca d liu thỡ co-training cú th phỏt huy c hiu qu ca nú Vi bi toỏn c th gi thit cỏc c trng cú th c phõn chia thnh khung nhỡn c lp v y thỡ th tc hc co-training c tin hnh nh sau: o Hun luyn b phõn lp riờng r bng d liu ó c gỏn nhón trờn hai thuc tớnh tng ng (Lỳc u, õy l quỏ trỡnh hc cú giỏm sỏt trờn d liu hun luyn) o Mi b phõn lp sau ú c dựng phõn lp cỏc d liu mi cha c gỏn nhón (unlabel data) Cỏc d liu cha gỏn nhón + nhón d oỏn ca chỳng s c la chn nu chỳng cú tin cy cao da vo mt ngng no ú, cỏc d liu ny c dựng dy cho b phõn lp o Sau thờm mt s d liu mi vo mu hun luyn, tng b phõn lp c hun luyn li (retrain) v tin trỡnh lp bt u Nhng ý tng v s dng s d tha c trng ó c thi hnh mt vi nghiờn cu Yarowsky ó s dng co-training tỡm ngha cho t vng, vớ d quyt nh xem t plant mt ng cnh cho trc cú ngha l mt sinh vt sng hay l mt xớ nghip Yarrowsky [14] tin hnh tỡm ngha ca t bng cỏch xõy dng mt b phõn lp ngha (sense classifier) s dng ng cnh a phng ca t v mt b phõn lp ngha da trờn ngha ca nhng ln xut hin khỏc cựng mt bn; Riloff v Jones [16] phõn lp cm danh t ch v trớ a lý bng cỏch xem xột chớnh cm danh t ú v ng cnh ngụn ng m cm danh t ú xut hin; Collin v Singer [29] thc hin phõn lp tờn thc th nh danh s dng chớnh t ú v ng cnh m t ú xut hin; S 18 Kiritchenko v S.Matwin [42] ỏp dng co-training bi toỏn phõn lp th in t S co-training ó c s dng rt nhiu lnh vc nh phõn lp, phõn tớch thng kờ v xỏc nh cm danh t v.v Hỡnh 10 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training D liu cha cú nhón Gỏn nhón d liu cha cú nhón Gỏn nhón d liu cha cú nhón B hc B hc Khung nhỡn X1 Khung nhỡn X2 1.1.1.1.1.10 Hỡnh 10: S biu D liu ódin ctrc gỏnquan nhónthit lp co-training Blum v Mitchell [11] ó cụng thc hoỏ hai gi thit ca mụ hỡnh cotraining v chng minh tớnh ỳng n ca mụ hỡnh da trờn thit lp hc giỏm sỏt theo mụ hỡnh xp x ỳng xỏc sut Probably Approximately Correct (PAC) chun [43] Cho trc mt khụng gian: X X1 X , õy X v X tng ng vi hai khung nhỡn khỏc ca cựng mt mu (examples) Mi mu x vỡ vy cú th c biu din bi mt cp x1 , x2 Chỳng ta gi thit rng mi khung nhỡn l v phự hp phõn lp chớnh xỏc C th, nu D l mt phõn phi trờn X , v C1 , C2 l cỏc lp khỏi nim (concept classes) c nh ngha tng ng trờn X v X ; gi thit rng tt c cỏc nhón trờn cỏc mu vi xỏc sut ln hn khụng di phõn phi D l trựng khp vi mt hm ớch (target function) f1 C1 , v cng trựng khp vi hm ớch f C2 Núi cỏch khỏc, nu f biu din khỏi nim ớch kt hp trờn ton b mu, thỡ vi bt k mu x x1 x2 cú nhón l , ta cú f x f1 x1 f x2 l Ngha l D gỏn xỏc sut bng khụng cho mu x1 , x2 bt k m f1 x1 f2 x2 Gi thit th nht: Tớnh tng thớch (compatibility) Vi mt phõn phi D cho trc trờn X , ta núi rng hm ớch f f1 , f C1 C2 l tng thớch (compatible) vi D nu tho iu kin: D 19 gỏn xỏc sut bng khụng cho cỏc mu x1 , x2 m f1 x1 f2 x2 Núi cỏch khỏc, mc tng thớch ca mt hm ớch f f1 , f vi mt phõn phi D cú th c nh ngha bng mt s p : p PrD x1 , x2 : f1 x1 f2 x2 Gi thit th hai: c lp iu kin (conditional independence assumption) Ta núi rng hm ớch f1 , f v phõn phi D tho gi thit c lp iu kin nu vi bt k mt mu x1 , x2 X vi xỏc sut khỏc khụng thỡ ta cú: Pr x1 x1 x2 x2 Pr x1 x1 f x2 f x2 x1, x2 D x , x D v tng t, Pr x2 x2 x1 x1 Pr x2 x2 f1 x1 f1 x1 x1, x2 D x1, x2 D Hai ụng ó ch rng, cho trc mt gi thit c lp iu kin trờn phõn phi D, nu lp ớch cú th hc c t nhiu phõn lp ngu nhiờn theo mụ hỡnh PAC chun, thỡ bt k mt b d oỏn yu ban u no cng cú th c nõng lờn mt chớnh xỏc cao tu ý m ch s dng cỏc mu cha gỏn nhón bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ C1 , C2 cú th hc c theo mụ hỡnh cotraining ch t d liu cha gỏn nhón, cho trc mt b d oỏn yu nhng hu ớch ban u h x1 (chi tit hn na v cỏc b v chng minh thit lp co-training xin xem thờm [11]) 2.3.2 S thit lp ng hun luyn S thit lp co-training cho bi toỏn hai lp lỳc u c A Blum v T Mitchell [11] xõy dng nh hỡnh di: 20 Cho trc: + L l cỏc mu hun luyn ó gỏn nhón + U l cỏc mu cha gỏn nhón Lp k vũng hoc ti U rng: S dng L hun luyn b phõn lp h1 da trờn khung nhỡn x1 ca x S dng L hun luyn b phõn lp h2 da trờn khung nhỡn x1 ca x S dng h1 gỏn nhón U 1.1.1.1.1.11 S dng h2 gỏn nhón U L Thờm cỏc clp gỏn nhón cú tincho cybi caotoỏn vo 1.1.1.1.1.12 Hỡnh 11:mu S mi thit co-training gc hai lp uLỳc ra:u Cỏchai mu c s gỏndng nhóntp vd hailiu b phõn lpgỏn h1 v h2 L (hn ch b mi hc cựng ó c nhón vi s lng nh) xõy dng hai b hc h1 v h2 da trờn hai khung nhỡn d liu X1 v X2 Sau ú hai b hc ny c dựng gỏn nhón cỏc d liu cha gỏn nhón, kt qu tt nht c b sung vo L dy li cho hai b hc ú Quỏ trỡnh lp tip tc v dng t ti mt s hu hn bc no ú hoc khụng cũn d liu no cha gỏn nhón, U rng Sau ny phỏt hin rng, vi U ln thut toỏn s rt tn thi gian chy, nờn thc nghim phõn lp trang web, Blum v Mitchell ó ci tin co-training bng cỏch s dng U thay cho U, vi U l ly ngu nhiờn i din U Hỡnh 12 di õy biu din thit lp co-training ci tin cho bi toỏn hai lp Cho trc: + L l cỏc mu hun luyn ó gỏn nhón + U l cỏc mu cha gỏn nhón To mt U gm u mu c chn ngu nhiờn t U Lp k vũng S dng L hun luyn b phõn lp h1 da trờn khung nhỡn x1 ca x S dng L hun luyn b phõn lp h2 da trờn khung nhỡn x2 ca x Dựng h1 gỏn nhón U Dựng h2 gỏn nhón U Thờm cỏc mu mi c gỏn nhón cú tin cy cao vo L Chn ngu nhiờn u mu t U b sung vo U 1.1.1.1.1.13 1.1.1.1.1.14 1.1.1.1.1.15 Hỡnh 12: S thit lp co-training ci tin cho bi toỏn hai lp Trong s thit lp trờn, vic s dng U ' s to kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn U, u ra: Cỏc mu mi c gỏn nhón v hai b phõn lp h1, h2 21 ngoi vỡ U ch l ca U nờn thut toỏn s gim bt c thi gian chy 2.3.3 S hiu qu v tớnh ng dng ca co-training Co-training ó c nghiờn cu v ng dng nhiu lnh vc, cỏc kt qu th nghim t c cho thy õy l phng phỏp cú th khai thỏc trc tip s phõn tỏch c lp t nhiờn ca cỏc c trng v cho kt qu tt hn so vi cỏc thut toỏn khụng khai thỏc c im ny Vy, cũn d liu khụng cú s phõn tỏch t nhiờn thỡ th no? tr li cõu hi ny K Nigam v R Ghani [25] ó th nghim s dng co-training bi toỏn phõn lp cỏc trang web vi mc ớch l phõn loi cỏc trang ch ca cỏc khúa hc o to (trờn thc t thỡ s lng cỏc trang ny chim khong 22%) ỏnh giỏ hiu qu ca phng phỏp hc s dng cotraining, kt qu c cỏc tỏc gi so sỏnh vi kt qu ca phng phỏp hc giỏm sỏt Naùve Bayes v phng phỏp bỏn giỏm sỏt s dng cc i húa kỡ vng (Expectaion Maximization-EM) Lỳc u l kim th trờn d liu tha cú s phõn tỏch c lp trờn hai khung nhỡn d liu, sau ú hai ụng kim th trờn d liu bỏn nhõn to v cui cựng l th trờn d liu m tri thc v s phõn tỏch t nhiờn l khụng cú Vi trng hp u d liu l lý tng thỡ hai tỏc gi kt lun chc chn co-training cho kt qu tt hn phng phỏp bỏn giỏm sỏt EM, iu ny chng t hiu sut quan sỏt ca co-training tt hn ca EM, hay EM b gim hiu sut t vic b by cỏc cc tr a phng Vi trng hp th ba, cha cú thụng tin gỡ v s phõn tỏch t nhiờn trờn cỏc c trng ca d liu thỡ hai tỏc gi sut mt ý tng phõn tỏch c trng cho thụng tin chung cú iu kin gia cỏc c trng l bng khụng Gi s, vi d liu l bn ta cú th da trờn thụng tin chung liờn quan thu c thụng qua vic phõn tớch thụng tin chung cú iu kin gia cỏc cp t v t ú tớnh tng ca tng cp thụng tin chung ca nhng khỏc Quy trỡnh ny cú th túm tt gm cỏc bc sau: + Tớnh thụng tin chung cú iu kin gia mi cp t b t vng + Xõy dng mt th trng s vụ hng vi cỏc nh l cỏc t, trng s ca cỏc cnh l thụng tin chung gia cỏc nh tớnh c bc + Tỏch cõn bng hai nh trờn th cho tng cỏc trng s ca cỏc cnh l nh nht Hai nh thu c to thnh hai c trng c lp m co-training cú th s dng c Tuy bc ba ca quy trỡnh trờn l bi toỏn NP-khú nhng cú th thc hin c nh cỏc thut toỏn xp x hiu rừ hn v co-training, sau õy ta thc hin so sỏnh tng quỏt trờn hai thut toỏn ny co-training v self-training 22 2.4 So sỏnh hai phng phỏp ng hun luyn v t hun luyn Tuy self-training l mt phng phỏp n gin, d dựng v khai thỏc tt thụng tin t ngun d liu cha gỏn nhón, song nu bc ỏnh giỏ tin cy ca cỏc d liu ti mi vũng lp m khụng chớnh xỏc thỡ theo Cozman [20] vic thờm cỏc d liu mi ny vo d liu hun luyn ban u dn lm cho vic hc mt tớnh tng thớch v b hc tr nờn ti i Ngoi ra, vỡ ch cú mt b hc nờn nú li phi da v tin tng vo chớnh nú nờn ý tng v ng hun luyn hai b hc v dựng kt qu ca b hc ny dy b hc s giỳp tng cht lng hun luyn, phng phỏp ng hun luyn ny c bit ti vi tờn co-training Co-training v self-training l hai phng phỏp hc bỏn giỏm sỏt cú nhim v chớnh l m rng dn cỏc d liu gỏn nhón da vo hun luyn (ó gỏn nhón) ban u v khai thỏc, s dng thụng tin b tr t cỏc mu c gỏn nhón trung gian cú tin cy cao cú cỏi nhỡn tng quan v hai phng phỏp hc ny bng di a s so sỏnh gia hai thit lp self-training v cotraining S khỏc c bn gia thut toỏn self-training v co-training l ch: self-training ch s dng mt khung nhỡn d liu, ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca cỏc c trng thnh hai khung nhỡn c lp nh co-training Nú ch cn mt b phõn lp vi mt khung nhỡn nht ca d liu Vi iu kin lý tng v s c lp trờn cỏc khung nhỡn thỡ rừ rng cotraining l khú hn self-training vic ng dng vo thc t Tuy vy, vi nhng bi toỏn c th phự hp thỡ co-training s cho kt qu tt 23 Bng di õy cho ta mt cỏi nhỡn tng quỏt v s khỏc v ging gia hai phng phỏp ny Tiờu Self-training 1.1.1.1.1.15.1.1 Co-training 1.1.1.1.1.15.2 Khung khung nhỡn nhỡn khung nhỡn c lp 1.1.1.1.1.15.3 Tỡnh Khi b phõn lp c l khú chnh sa s dng Tho thit lp co-training 1.1.1.1.1.15.4 u im Nhc im Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trng hp cỏc features khụng th phõn chia thnh cỏc khung nhỡn c lp Cho kt qu tt nu cỏc gi thit c tho Vỡ hc trờn khung nhỡn d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho hn - Khú khn la chn ngng tin cy ca d oỏn ( lm gim nhiu d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Khú khn Gi thit c lp iu kin thng khụng ỳng thc t Nờn phi xột k bi toỏn trc dựng Bng Bng so sỏnh hai thit lp self-training v co-training Rừ rng, hiu qu ca c hai phng phỏp bỏn giỏm sỏt ny l ph thuc vo cht lng ca cỏc mu gỏn nhón c thờm vo mi vũng lp, v c o bi hai tiờu chớ: chớnh xỏc ca vic gỏn nhón cho cỏc mu c thờm vo ú Thụng tin hu ớch m cỏc d liu mang li cho b phõn lp Xem xột tiờu th nht ta thy, b phõn lp cha cng nhiu thụng tin thỡ tin cy cho cỏc d oỏn cng cao Phng phỏp co-training s dng hai khung nhỡn khỏc ca mt mu d liu vi gi thit l mi khung nhỡn l (sufficient) d oỏn nhón cho cỏc mu d liu mi Nu iu kin lý tng ny c tha thỡ co-training l phng phỏp cho hiu qu phõn lp cao Tuy nhiờn, thc t thng thỡ khú cú iu kin lý tng ny, bi tt c cỏc c trng ụi cũn cha phõn lp ỳng ch cha xột ti vic tỏch thnh c lp riờng r Chớnh vỡ lý ú m co-training s thc s hiu qu vi cỏc bi toỏn tha iu kin ny Vi tiờu th hai, ta bit rng thụng tin m mi mu d liu gỏn nhón mi em li thng l cỏc features mi Vỡ thut toỏn co-training hun luyn 24 trờn hai khung nhỡn khỏc nờn nú s hu ớch hn vic cung cp cỏc thụng tin mi cho 25 26 TI LIU THAM KHO Ting Vit [1] Nguyn Vit Cng (2005), Bi toỏn lc v phõn lp ni dung Web ting Vit theo hng tip cn entropy cc i Khúa lun tt nghip i hc, i hc Cụng ngh - i hc Quc gia H Ni [2] Hong Tin Dng (2006), Mng nron RBF v ng dng, Lun thc s, i hc Cụng ngh - H Quc Gia H ni [3] ng Thanh Hi (2004),Thut toỏn phõn lp bn Web v thc nghim mỏy tỡm kim VietSeek Khúa lun tt nghip i hc, i hc Cụng ngh - i hc Quc gia H Ni [4] Hong Xuõn Hun (2009), Bi ging nhn dng mu [5] Hong Xuõn Hun v ng Th Thu Hin (2005), Phng phỏp lp hun luyn mng ni suy RBF, k yu hi tho quc gia cỏc chn lc ca CNTT ln th VIII, Hi phũng, pp 314-323 [6] Hong Xuõn Hun (2004), Giỏo trỡnh cỏc phng phỏp s, NXB i hc quc gia H Ni [7] ng Th Thu Hin v Hong Xuõn Hun (2008), Thut toỏn mt pha hun luyn nhanh mng ni suy RBF vi mc cỏch u, k yu Hi tho quc gia cỏc chn lc ca CNTT ln th X, i Li 9/2007, pp 532-542 [8] ng Th Thu Hin (2009), Bi toỏn ni suy v mng nron RBF, Lun ỏn tin s Cụng ngh thụng tin (ban tho) [9] Lờ Tin Mi (2009), Mng neural RBF v ng dng nhn dng ch vit tay, Khoỏ lun tt nghip i hc, H Cụng ngh - H Quc Gia H ni Ting Anh [10] A McCallum, K Nigam (1998), A Comparison of Event Model for Naive Bayes Text Classification, Working Notes of the 1998 AAAI/ICML Workshop on Learning for Text Categorization 27 [11] A Blum and T Mitchell (1998), Combining labeled and unlabeled data with co-training In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98) [12] A P Dempster, N M Laird, and D B Rubin (1977), Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):138 [13] C.G Looney (1997) Pattern recognition using neural networks: Theory and algorithm for engineers and scientist, Oxford University press, New York [14] D Yarrowsky (1995), Unsupervised Word Sense Disambiguation Rivaling Supervised Methods, In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196 [15] D.S Broomhead, D Lowe (1988) Multivariable functional interpolation and adaptive networks Complex Systems, vol 2, 321-355 [16] E Riloff and R Jones (1999), Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping In Proceedings of the 16th National Conference on Artificial Intelligence [17] E Blanzieri (2003), Theoretical Interpretations and Applications of Radial Basis Function Networks, Technical Report DIT-03-023, Informatica Telecomunicazioni, University of Trento [18] E Rillof, J Wiebe, T Wilson (2003), Learning Subjective Nouns using Extraction Pattern Bootstrapping 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL [19] E.J Hartman, J.D Keeler and J.M Kowalski (1990) Layered neural networks with Gaussian hidden units as universal approximations, Neural Comput., vol 2,no 2, 210-215 [20] F G Cozman, and I Cohen (2002), Unlabeled data can degrade classification performance of generative classifiers, Intl Florida Artificial Intell Society Conf., 327-331 28 [21] F Cozman, I Cohen, & M Cirelo.(2003), Semi-supervised learning of mixture models ICML-03, 20th International Conference on Machine Learning [22] F Roli (2005), Semi-Supervised Multiple Classifier Systems: Background and Research Directions, Multiple Classifier Systems, Springer Verlag , vol 3541 [23] F Schwenker H.A Kesler, Gỹnther Palm (2001), Three learning phases for radial-basis-function networks, Neural networks, Vol.14, 439-458 [24] Hoang Xuan Huan, Dang Thi Thu Hien and Huu Tue Huynh (2007), A Novel Efficient Algorithm for Training Interpolation Radial Basis Function Networks, Signal Processing 87, 2708 - 2717 [25] K Nigam, R Ghani (2000), Analyzing the effectiveness and applicability of cotraining In Proceedings of Ninth International Conference on Information and Knowledge Management (CIKM-2000), 8693 [26] K Nigam, R Ghani (2000), Understanding the behavior of co-training In Proceedings of KDD-2000 Workshop on Text Mining [27] K Nigam, A McCallum, S Thrun, T Mitchell (2000) Text Classification from Labeled and Unlabeled Documents using EM Machine Learning, 39(2/3):103-134 [28] Le C A., Huynh V N., and A Shimazu(2005), Combining Classifiers with Multi-Representation of Context in Word Sense Disambiguation In Proc PAKDD, 262268 [29] M Collins and Y Singer, Unsupervised Model for Name Entity Recognition, In EMNLP [30] M Thelen and E Riloff (2002), A bootstrapping method for Learning Semantic Lexicons using Extraction Pattern Contexts 2002 Conf on Empirical Methods in Natural Language Processing, Philadelphia, PA, July 2002, 214221 29 [31] M Solyman, N.El Gayar (2006), A Co-Training Approach for SemiSupervised Multiple Classifiers Infos [32] M Seeger (2002), Learning with labeled and unlabeled data Technical Report, University of Edinburgh, Institute for Adaptive and Neural Computation, Dec 2002, pp 1-62 [33] M.J.D.Powell (1998) Radial basis function approximations to polynomials Numerical analysis 1987 Proceeding, 223-241, Dundee, UK [34] N El Gayar (2004), A Multi-classifier Approach to Selfsupervised Learning, Proc 1st International Computer Engineering Conference, Cairo, pp 197-201 [35] N El Gayar (2004) An Experimental Study of a Self-Supervised Classifier Ensemble, International Journal of Information Technology, Vol 1, No 1, ISSN:1305-239X [36] O Chapelle, A Zien, & B Schăolkopf (Eds.) (2006), Semi supervised learning MIT Press [37] R Jones, A McCallum, K Nigam, E Rillof (1999), Bootstrapping for text learning Tasks, IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications [38] R.O Duda; P.E Hart and D.G Stork (2001) , Pattern clasification , JoHn Wiley & Sons (2 nd edition) [39] S.Eyheramendy, D David Lewis, David Madigan (2003), On the Naive Bayes Model for Text Classification, to appear in Artificial Intelligence & Statistics [40] S Vanderlooy (2005), Co-Training of Version Space Support Vector Machines A thesis submitted in partial fulfillment of the requyrements for the degree of Master of Science [41] S Haykin (1999): A Comprehensive Foundation Prentice-Hall Inc, second edition 30 [42] T M Mitchell (1997), Machine learning, McGraw-Hill [43] T Joachims (2003), Transductive learning via spectral graph partitioning In Proceeding of The Twentieth International Conference on Machine Learning (ICML2003), 290-297 [44] T Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML) [45] W Wu, D Chen and J Yang (2005), Integrating Co-training and Recognition for text detection, IEEE International Conference on Multimedia & Expo, Amsterdam, The Netherlands, July 6-8 [46] X Zhu (2006), Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin Madison, February 22 [47] X Zhu , A B Goldberg (2009) , Introduction to Semi-Supervised Learning, Synthesis Lectures on Artificial Intelligence and Machine Learning, Series ISSN [48] Z H Zhou, M Li (2007), Semi- Supervised Regression with Co-training Style Algorithms, IEEE transactions on knowledge and data engineering, Vol X, No XX, Month [49] http://en.wikipedia.org/wiki/ http://www.scholarpedia.org/article

Ngày đăng: 22/11/2016, 15:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan