Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
305,98 KB
Nội dung
Chvong Me ÐAU 1.1 Юng co nghiên cúu World Wide Web (WWW) phát trien nhanh chóng vói nguon tài nguyên thông tin ngày phong phú, nhu cau khai thác nguon thơng tin cúa ngvòi sú dnng ngày tró nên cap thiet doi vói dòi song cúa ngvòi Vi¾c khai thác dvoc thnc hi¾n thông qua phvong thúc nhv truy hoi thông tin (Information Retrieval), tóm lvoc van bán (Text Summarization), rúttrích thơng tin (Information Extraction), M®t van de cot lõi cúa h¾ thong khai thác xác d%nh rúttrích xác cnm tù d¾c trvng ngunghia (CTÐTNN) (khái ni¾m CTÐTNN dvoc d%nh nghia ó chvong 2, tai d%nh nghia 2.1) cúa câu van bán Van de moi quan tâm cúa nhà ngôn ngu hoc, cung nhv nhà khoa hoc linh vnc xú lý ngôn ngu tn nhiên bang máy tính é Vi¾t Nam, mong muon cú dvoc mđt hắ thong rỳt trớch cỏc cnm tù d¾c trvng ngunghia cúa câu van bán tieng Vi¾t, nham dáp úng nhu cau dang b% bó ngó h¾ thong khai thác thơng tin Ðieu dã dòi hói thúc day vi¾c nghiên cúu phát trien mơhìnhrúttrích cnm tù d¾c trvng ngunghiatieng Vi¾t (Vietnamese Key Phrase Information Extraction Model - ViKE) Lu¾n án nghiên cúu rúttrích cnm tù d¾c trvng ngunghia (CTÐTNN) cúa câu don tieng Vi¾t Vói kháo sát tan so xuat hi¾n cúa cnm van bán tieng Vi¾t, lu¾n án dã t¾p trung nghiên cúu vi¾c xác d%nh rúttrích cnm danh tù d¾c trvng ngunghia (CDTÐTNN) cho câu don tieng Vi¾t 1.2 Mnc tiêu pham vi nghiên cúu Internet m®t noi lvu tru nguon thơng tin cúa nhân loai Nguon thông tin dvoc chia sé, phát trien mó r®ng khơng ngùng vói sn phát trien nhanh chóng cúa World Wide Wed (Web) Van de d¾t làm the de khai thác sú dnng nguon tài nguyên thông -1- tin ny mđt cỏch hiắu quỏ nhat Thụng tin trờn Web hau het deu the hi¾n dvói dang ngơn ngu tn nhiên, thơng qua trang Web, h¾ thong truy hoi thông tin (Information Retrieval) dvoc phát trien thành cụng nhat hiắn Đ l Google , Yahoo , v.v Tuy nhiên, mơhình deu sú dnng tù khóa de xú lý truy hoi tài li¾u Hi¾u suat truy hoi cúa chúng có nhung giói han nhat d%nh ngunghia cúa tài li¾u b% mat di nhieu van bán dvoc bieu dien dvúi dang mđt cỏc tự khúa Tvong tn, yờu cau cung cap thơng tin tù phía ngvòi sú dnng cung dvoc bieu dien bói tù khóa Sn bieu dien rõ ràng khơng có nang the hi¾n dvoc tron ven nhu cau thông tin nhv mong muon cúa ngvòi sú dnng Do dó, truy hoi thơng tin h¾ thong hi¾n nay, ngvòi sú dnng deu nh¾n dvoc thêm tài li¾u khơng liên quan tói thơng tin can tìm Ðe tien mơhình truy hoi thơng tin theo tù khóa, nhieu cơng trình nghiên cúu di khai thác tiem nang cúa ccm tù d¾c trvng h¾ thong nhv truy hoi thơng tin (Hulth, 2004), tóm lvoc van bán (Text Summarization) (Paice Black, 2003), rúttrích thơng tin (Information Extraction) (Medelyan Witten, 2006; Thuy Dung Nguyen, 2007), Trong h¾ thong này, khái ni¾m ccm tù d¾c trvng dvoc d%nh nghia nhv sau: Ð%nh nghia 1.1: Trong thv vi¾n khoa hoc thơng tin ccm tù d¾c trvng (cnm tù khóa – key phrase) dvoc d%nh nghia “ccm tùmơ tá ngan gon xác de hay khía canh cúa de mà dvoc tháo lu¾n van bán” (Feather P., 1996, 240) Theo quan diem cúa Cao Xuân Hao (1998): “câu don v% co bán cúa lòi nói, cúa ngơn tù, cúa van bán Nó don v% nhó nhat có the sú dcng vào vi¾c giao te Nói cách khác, câu ngôn bán (van bán) ngan nhat” Nhv v¾y, vói quan diem câu van bán ngan nhat de nhan manh trvòng hop ccm tù d¾c trvng dien dat de cúa van bán ngan nhat ‡ § www.google.com/ www yahoo.com/ -2- H®i ngh% Khoa hoc Quoc gia [12] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2005 Gán nhãn tù loai cho tieng Vi¾t dna van phong, ký yeu cúa h®i tháo khoa hoc quoc gia lan thú II, Nghiên cúu co bán Úng dcng cơng ngh¾ thơng tin-FAIR’05, 9-2005, pp.106-116 II NGHIÊN CÚU KHOA HOC [1] Úng dnng de tài diem cap nhà nvóc: Nghiên cúu phát trien ky thu¾t xây dnng khai thác thơng tin Web có ngunghia (Vietnamese Semantic Web) (KC.01.21), PGS.TS Cao Hồng Trn làm nhi¾m de tài, nghi¾m thu nam 2006 [2] Úng dnng de tài diem ÐHQG Tp.HCM: Xây dnng chvong trình tro giúp truy xuat thơng tin bang tieng Vi¾t (Vietnamese Information Retrieval) (B2005-20-01-TD), PGS.TS Phan Th% Tvoi làm nhi¾m de tài, nghi¾m thu nam 2007 (câu) pham vi nghiên cúu câu don, lu¾n án d%nh nghia ccm tù d¾c trvng ngunghia nhv d%nh nghia 2.1 (Chvong 2, trang 22) Ccm tù d¾c trvng ngunghia – dvoc viet tat CTÐTNN – có nang mơ tá de câu (hay van bán) Nói cách khác, CTÐTNN mang thơng tin ve n®i dung nong cot cúa m®t câu CTÐTNN rat huu dnng nhieu úng dnng Trong linh vnc truy hoi thơng tin, CTÐTNN khơng chí ho tro viắc xỏc d%nh nđi dung cỳa mđt van bán có thích hop vói u cau thơng tin cúa ngvòi sú dnng hay khơng, mà bieu th% n®i dung nong cot cúa câu truy van thông tin dđng co tỡm kiem (search engine) trờn Web the hắ thú ba h¾ thong hói-dáp (question-answering) (Qiao, 2010) Do CTÐTNN phán ánh dvoc n®i dung nong cot (chú de) cúa câu van bán, nên chúng dvoc sú dnng de phân loai van bán (text classification) (Jones Mahoui, 2000), tóm lvoc van bán (text summarization) (Barker Cornacchia, 2000) Mắc dự cỏc CTéTNN dvoc dựng rđng rói h¾ thong úng dnng khác nhau, nhvng th¾t sn vi¾c rúttrích CTÐTNN tvong úng cho tùng câu hay tùng van bán bang phvong pháp thú công ton rat nhieu thòi gian cơng súc Nhu cau d®ng lnc thúc day nghiên cúu rúttrích tn d®ng CTÐTNN Có the phân nghiên cúu ve CTÐTNN thành ba hvóng chính: Hvóng tiep cắn sỳ dcng tự dien (Dictionary approach): sỳ dnng mđt tù dien dvoc xây dnng bang phvong pháp thú công dùng de rúttrích CTÐTNN câu (hay van bán) Q trình rúttrích CTÐTNN dvoc thnc hi¾n bang phvong pháp so trùng CTÐTNN tù dien vói cnm tù tài li¾u Thu¾n loi cúa hvóng tiep c¾n nhanh thnc hi¾n don gián Hi¾n nhieu h¾ thong van dang sú dnng phvong pháp (Bian Chen, 1998; Li Xing, 1998; ) Tuy nhiên, phvong pháp b% han che tài li¾u có nhung tù mói khơng có tù dien Ðây m®t van de can dvoc nghiên cúu giái quyet Các nghiên cúu theo hvóng tiep c¾n sú dnng tù dien dã có nhieu chien lvoc de thi¾n -50- -3- q trình so trùng nhv: so trùng cnc dai (maximum-matching), so trùng cnc tieu (minimum-matching), so trùng tói (forwardmatching), so trùng lùi (backward-matching), so trùng theo cá hai hvóng (bi-directional- matching) phvong pháp giái quyet van de bang dánh giá kinh nghi¾m (heuristics) Tuy nhiên, hi¾u suat cúa hvóng tiep c¾n lai phù thu®c vào d® lón cúa tù dien Nó th¾t sn khơng hi¾u q giái quyet tốn nh¾n di¾n danh tù riêng nhv tên, v% trí, hay thu¾t ngu mói nhung pham vi chun bi¾t Hvóng tiep c¾n ngơn ngu hoc (Linguistic approach), hvóng ** dùng co só tri thúc ngunghiatù vnng (nhv WordNet , †† Wikipedia ,…), dùng phvong pháp dánh giá theo kinh nghi¾m, hay phvong pháp lu¾t de rúttrích cnm tù (Wu Tseng, 1995) Các nghiên cúu ve xú lý ngôn ngutieng Anh dã chúng tó hvóng tiep c¾n có the dat d® xác cao Tuy nhiên d® xác cúa phvong phỏp cũn phn thuđc vo viắc thiet ke tựng h¾ thong cn the (Brill, 1995; Church, 1988; Voutilainen, 1997) M¾c dù nhieu ket q nghiên cúu dã chúng tó hvóng tiep c¾n có nhieu tiem nang, nhiên van chva có m®t cơng trình nghiên cúu theo hvóng tiep c¾n cho ngơn ngutieng Vi¾t, hi¾n thnc theo hvóng tiep c¾n g¾p nhieu khú khan Khú khan chớnh l viắc xõy dnng mđt co só tri thúc ngunghiatù vnng tieng Vi¾t cho nhung mien (domain) chun bi¾t, có pham vi lón Vi¾c dòi hói rat nhieu thòi gian cơng súc Vói mnc tiêu giái quyet cho tốn rúttrích CTÐTNN cho câu don cúa tieng Vi¾t, lu¾n án t¾p trung xây dnng mơhình ViKEa (Vietnamese Key phrase Extraction for assignment approach) theo hvóng tiep c¾n ngơn ngu hoc dna Ontology khai thác tri thúc ngơn ngutieng Vi¾t de nâng cao hi¾u q cúa mơhình Vi¾c lu¾n án nghiên cúu khai thác Vi.Wikipedia nhv kho tri thúc tieng -4- and Web-based Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 1416 December 2009, Malaysia, ACM & ACS, pp 274-281 [6] Chau Q Nguyen, Tuoi T Phan, 2009 An Ontology–Based Approach for Key Phrase Extraction In Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-5, August - 7, 2009, Singapore, Companion Vol, pp.181-184 [7] Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009 A Support Vector Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of the 2009 IEEE-RIVF International Conference on Computing & Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress, pp.131-135 [8] Chau Q Nguyen, Tuoi T Phan, 2007 A Pattern-based Approach to Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th International IEEE Conference on Computer Sciences- RIVF’07, ISBN 2-912590-4-0, Studia Informatica Universalis, pp.41-46 [9] Chau Q Nguyen, Tuoi T Phan, 2006 A Hybrid Approach to Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - OCOCOSDA’06, 12/2006, Malaysia, pp.157-160 [10] Chau Q Nguyen, Thanh C Nguyen, Tuoi T Phan, 2006 Vietnamese Key Phrase Extraction for Information Retrieval, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172 [11] Chau Q Nguyen, Tuoi T Phan, Tru H Cao, 2006 Vietnamese Proper Noun Recognition, In Proceedings of The 4th International IEEE Conference on Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151 -49- ** †† www.wordnet.com/ www.wikipedia.org/ -4- -49- tù trang web (VIRs sán pham dã dvoc nghi¾m thu cúa de tài diem Ðai hoc quoc gia Tp Ho Chí Minh - B2005-20-01-TD) Ket cúa h¾ thong VIRs dã dvoc thi¾n so vói chva tích hop ViKEe Cuoi cùng, bên canh mơhình dvoc de xuat, phvong phỏp cỳa luắn ỏn khai thỏc Vi.Wiki nhv mđt ontology tieng Vi¾t khơng chí de phnc cho vi¾c xác d%nh cnm danh tù d¾c trvng ngunghia cho cõu tieng Viắt m cũn dva mđt hvúng giỏi quyet cho van de thieu kho ngu li¾u ho tro xú lý ngơn ngutieng Vi¾t DANH MUC CƠNG TRÌNH CUA TÁC GIà I BÁO CÁO KHOA HOC Tap chí Khoa hoc [1] Chau Q Nguyen, Tuoi T Phan, 2009 Hvóng tiep c¾n xác d%nh cnm tù d¾c trvng ngunghiatieng Vi¾t dna Wikipedia, Tap chí Cơng ngh¾ thơng tin & truyen thơng, ISSN 0866-7039, T¾p V-1, so 2(22): 30-37 [2] Nguyen Quang Châu, Phan Th% Tvoi, 2008 Nh¾n di¾n cnm tù d¾c trvng ngunghiaTieng Vi¾t, Tap chí Cơng ngh¾ thơng tin & truyen thông, ISSN 0866-17093, so 19: 64-73 [3] Nguyen Quang Châu, Hong Thanh Luắn, Phan Th% Tvoi, 2008 Mđt hvúng tiep c¾n hoc máy cho tốn rúttrích cnm tù d¾c trvng ngunghiatieng Vi¾t, Tap chí Khoa hoc & Cơng ngh¾ Vi¾t nam, ISBN 0866-708X, t¾p 46, so 1: 69-78 [4] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2006 Gán nhãn tù loai cho tieng Vi¾t dna van phong tính tốn xác suat, Tap chí Phát trien Khoa hoc & Cơng ngh¾, ISSN 18590128, 9, so 2:11-21 Hđi ngh% Khoa hoc Quoc te [5] Chau Q Nguyen, Tuoi T Phan, 2009 Key Phrase Extraction: A Hybrid Assignment and Extraction Approach In Proceedings of the 11th International Conference of Information Integration -48- Vi¾t dã giái quyet khó khan ve tài nguyên tri thúc tù vnng tieng Vi¾t xây dnng mơhình theo hvóng tiep c¾n Hvóng tiep c¾n bang phvong pháp thong kê (Statistical approach), thnc chat trình hoc giá tr% dã dvoc thong kê tù m®t kho ngu li¾u lón de rúttrích cnm tù (Su CS, 1996) Hvóng tiep c¾n tó hi¾u q cho vi¾c rúttrích cnm tù d¾c trvng ngunghia (Yang CS, 1998; Chien, 1997; Chien, 1998; Chen CS, 1997), liên quan m¾t thiet vói hvóng tiep c¾n n-gram vói n có giá tr% 2,3, hay Tuy nhiên, Chien (1997) dùng PAT-Tree (PATricia Tree) de rúttrích CTÐTNN van bán cúa tiengTrung Quoc, tác giá dã khơng giói han giá tr% cúa n M¾c dù có gia tang ve m¾t tính tốn, ky thu¾t khơng nhung khơng dòi hói nhieu cơng súc de tao tù dien hay co só tri thúc mà có nang lay dvoc thu¾t ngu có so cao kho ngu li¾u Tuy nhiên, m¾t han che cúa hvóng tiep c¾n có m®t so trvòng hop khơng the rúttrích cnm tù hop lý mà có tan suat thap Mắc dự hvúng tiep cắn bang thong kờ cú dđ xác (Precision) khơng tot, nhvng có d® day dú (Recall) cao so vói hvóng tiep c¾n ngơn ngu hoc Vì v¾y, vói mnc tiêu thi¾n toi da hi¾u q cúa h¾ thong ViKEa theo hvóng tiep c¾n ngơn ngu hoc vi¾c khai thác ngơn ngu van giói han, lu¾n án se xây dnng mơhìnhrúttrích CTÐTNN bang phvong pháp máy hoc có giám sát Các CTÐTNN dvoc gán nhãn tù loai ban dau làm t¾p huan luy¾n de xây dnng mơhìnhrúttrích Ðây co só cho mơhình xác d%nh dúng CTÐTNN cnm tù dn tuyen Mụ hỡnh rỳt trớch dựng mđt cỏc tớnh chat d¾c trvng de phân loai cnm tù Van de d¾t phái xác d%nh dvoc tính chat dắc trvng cỳa cỏc cnm tự, nham xỏc d%nh mđt cách xác CTÐTNN cnm tù dn tuyen Nhv v¾y, mnc tiêu cúa lu¾n án xây dnng m®t mơhình lai cho tốn rúttrích CTÐTNN câu don tieng Vi¾t Mơhình sn phoi hop cúa hai mơhình theo hvóng tiep c¾n ngơn ngu hoc phvong pháp xác suat thong kê Ðó sn phoi hop cúa hai mơ -5- hình theo hvóng tiep c¾n rúttrích xác d%nh CTÐTNN (dvoc trình -48- -5- bày Chvong 3) Trong hvóng tiep c¾n ngơn ngu hoc, lu¾n án sú dnng phvong pháp so trùng mau dna Ontology dvoc tao l¾p tù Wikipedia tieng Vi¾t Mơhình co só de lu¾n án de xuat bon tính chat d¾c trvng cho phvong pháp xác d%nh cnm tù d¾c trvng ngunghia dùng phvong pháp máy hoc vecto ho tro (Support Vector Machines-SVMs) nham nam bat dvoc v% trí lơ-gích d¾c tính hình thái cúa CTÐTNN, là: (1) v% trí tù câu, (2) nhãn tù loai, (3) cau trúc cnm tù, (4) tù quan h¾ giua cnm tùTù dây, tốn can dvoc giái quyet pham vi lu¾n án bao gom: Bài tốn - Xây dnng mơhình ViKEa Lu¾n án nghiên cúu khai thác nguon tài nguyên cúa Vi.wikipedia de xõy dnng mđt Ontology tieng Viắt ViO (Vietnamese Ontology) nham phnc u cau cúa tốn Lu¾n án de xuat mơhình xác d%nh CTÐTNN, dvoc goi ViKEa, dna tri thúc ngôn ngu tn nhiên (nhv h¾ thong lu¾t ViO) toán tien xú lý (nhv phân doan tù gán nhãn tù loai) Bài tốn - Xây dnng mơhìnhrúttrích cnm tù d¾c trvng ngu nghia, dvoc goi ViKEe ( Vietnamese Key phrase Extraction for extraction approach) Lu¾n án nghiên cúu phân tích mơhình hoc máy Tù dó de xuat mơhìnhrúttrích CTÐTNN dùng phvong pháp SVMs, nham thi¾n toi da hi¾u q cúa mơhình ViKEa nguon tài ngun tieng Vi¾t san có han che Bài tốn - Xây dnng mơhình ViKE (Vietnamese Key phrase Extraction) ViKE sn ket hop hai mơhình ViKEa ViKEe cho tốn rúttrích cnm tù d¾c trvng ngunghia câu don cúa tieng Vi¾t, vói mnc tiêu khai thác toi da d® xác cúa vi¾c rúttrích CTÐTNN cúa tùng mơhình tốn Nhv d%nh hvóng nêu trên, pham vi nghiên cúu cúa lu¾n van dvoc the hi¾n hình 1.1 Ðau tiên mơhình ViKEa, theo hvóng tiep c¾n ngơn ngu dna Ontology ViO (dvoc khai thác tù Vi.Wiki) vói ky thu¾t so trùng mau quan h¾ ngunghia giua the loai Ontology, cung nhv khâu tien xú lý phân doan tù gán nhãn tù loai Ket dat dvoc cúa mơhình ViKEa cao trvòng hop cnm danh tù cúa câu có tù quan h¾, ho¾c có khái ni¾m tvong úng ontology ViO Ngvoc lai, CDTÐTNN dvoc nh¾n dang sai deu thuđc vo trvũng hop khỏi niắm chva ton tai Ontology ViO Ðây m¾t han che cúa mơhình ViKEa v cung l dđng co nghiờn cỳu cỳa luắn án cho mơhình theo hvóng tiep c¾n hoc máy de xây dnng d® tvong tn ngunghia giua cnm danh tùTù vi¾c dánh giá so sánh ket q thu dvoc tùmơhình ViKEa, lu¾n án rút dvoc tính chat d¾c trvng ve ngơn ngu cúa CDTÐTNN Các tính chat d¾c trvng quyet d%nh cnm danh tù d¾c trvng ngunghia so vói cnm danh tù khác câu Ngồi ra, tính chat d¾c trvng tien de góp phan xác d%nh t¾p tính chat nh¾n di¾n CDTÐTNN mơhình ViKEe theo hvóng tiep c¾n rúttrích ky thu¾t hoc máy -6- -47- Tiep theo, lu¾n án dã de xuat mơhình ViKEe theo hvóng tiep c¾n hoc máy nham thi¾n toi da hi¾u suat cúa h¾ thong vi¾c khai thác tài nguyên ngơn ngu có giói han Hvóng tiep c¾n dna phvong pháp hoc máy, cn the phvong pháp SVMs ky thu¾t huan luy¾n SMO Lu¾n án hiắn thnc hvúng tiep cắn thnh mđt ỳng dnng riờng bi¾t goi mơhình ViKEe Úng dnng có the chay dđc lắp hoắc nhỳng vo cỏc ỳng dnng khác mơi trvòng Windows Ket q dat dvoc cúa mơhình ViKEe theo hvóng tiep c¾n rúttrích CDTÐTNN dat dvoc dã dáp úng dvoc mnc tiêu de cúa lu¾n án se góp phan thi¾n hi¾u suat cúa mơhình ket hop cúa ViKE trvòng hop CDTÐTNN khơng dvoc xác d%nh mơhình ViKEa theo hvóng xác d%nh dna Ontology ViO Ngồi ra, chúng tơi cung dã tích hop ViKEe nhv l mđt mụ-dun cỳa hắ thong truy xuat thụng tin xun ngơn ngu có ho tro tieng Vi¾t goi VIRs H¾ thong cho phép truy xuat thơng tin huu ích -6- -47- trien Dvói dây, chúng tơi trình bày m®t so hvóng phát trien chính: - Ve hvóng tiep cắn xỏc d%nh CTéTNN, mđt van de can mú rđng l khai thỏc cỏc moi quan hắ dong nghia thơng qua ontology ve ngơn ngu (ví dn nhv Wiktionary, WordNet, ) Ðong thòi khai thác moi quan h¾ (là quan h¾ dong nghia, quan h¾ phán nghia, hay quan h¾ thành phan, ) giua trang thơng tin thông qua liên ket cúa chúng Wikipedia Tự dú mú rđng cỏc khỏi niắm v cỏc quan h¾ cúa danh hi¾u Ontology ViO cung nhv tù dien ViDic, nham nâng cao hi¾u suat xác d%nh CTÐTNN cúa h¾ thong câu tieng Vi¾t Mơhình ViKE sn ket hop cúa hai mơhình theo hvóng tiep c¾n ngơn ngu hoc máy (mơ hình ViKEa ViKEe) - Ю tvong tn ngunghia cúa khái ni¾m thnc the có tên chva dvoc kháo sát lu¾n án Ðong thòi, vi¾c khai thác d® tvong tn giua thành phan cúa thnc the có tên nhv d® tvong tn ve tên, lóp, c¾p tên-lóp danh hi¾u cung chva dvoc khai thác Ðây m®t nhung hvóng phát trien quan cúa de tài - Ve hvóng van de rúttrích CDTÐTNN, m®t van de can khai thác giai doan huan luy¾n mau cho mơhình hoc máy can dvoc mó r®ng cho tùng lãnh vnc cn the, cung nhv c¾p nh¾t thêm kho ngu li¾u huan luy¾n nham nõng cao dđ chớnh xỏc cỳa hắ thong - Mđt hvóng phát trien khác cung rat quan vi¾c áp dnng mơhình cho ngơn ngu khác, mơhình dvoc phát trien, kháo sát, cung nhv thnc nghi¾m lu¾n án deu tieng Vi¾t Thơng qua vi¾c phát trien mơhình cho ngôn ngu khác (nhv tieng Anh) de so sánh dánh giá phvong pháp dvoc de xuat lu¾n án vói phvong pháp khác, cung nhv dánh giá trình toi vu chi phí mơhình ket hop ViKE 7.3 Ket lu¾n Lu¾n án dã trình bày hvóng tiep c¾n de giái quyet tốn rúttrích cnm danh tù d¾c trvng ngunghia cúa câu don tieng Vi¾t Tù phân tích dánh giá tùng hvúng tiep cắn, luắn ỏn dó de xuat mđt mụ hình ViKE cho tốn rúttrích CDTÐTNN -46- -7- - Vòng l¾p chon giá tr% a2 cho |E1-E2| có giá tr% lón nhat toi vu hóa hai h¾ so C¾p nh¾t SVMs theo giá tr% mói cúa hai h¾ so vùa tìm dvoc 5.2.5.4 Huan luy¾n mơhình SVMs Tù kho ngu li¾u dùng de huan luy¾n, moi tù vói thơng tin cúa thơng tin cúa ngu cánh xung quanh se dvoc vecto so hóa (m¾c d%nh chieu dài vecto tù) Nên moi mau huan luy¾n se m®t vecto so thnc Các vecto so thnc dau vào cúa q trình huan luy¾n bang giái thu¾t SMO Ket q cúa q trình huan luy¾n có m®t mơhình so Cn the chí can tính vecto so w phân loai mau bang công thúc (5.15): { l f xsignwxbsign| ) i yi [ i1 [ xi , x b | J Neu xét chi tiet hon, hàm huan luyắn tuyen tớnh l mđt trvũng hop dắc biắt cúa vi¾c úng dnng hàm kernel nham tìm moi liên h¾ giua mau thơng qua hàm kernel K(xi,x) tuyen tính nhv cơng thúc (5.30): N f x ) i j K xi , S x b Witten (2006) dùng quan h¾ dong nghia phán nghia de tính tốn d® tvong dong cúa CTÐT dn tuyen vói tính tốn thong kê de cỏi tien dđ chớnh xỏc cỳa viắc xỏc d%nh Tuy nhiên, m¾t khơng thu¾n loi cúa phvong pháp xác d%nh CTéT l nú dũi húi mđt kho ngu liắu có giái lón Trong cơng trình Hulth (2004), tác giỏ trỡnh by mđt ky thuắt hoc mỏy khỏc vúi ky thu¾t dã dùng cơng cn xú lý ngôn ngu tn nhiên Tác giá cung dã so sánh phvong pháp khác de dánh giá vi¾c rúttríchtù cnm tù dn tuyen nhv phvong pháp gom ccm danh tù (NP chunking), so trùng mau tù loai (POS), cuoi rúttrích n-gram M¾c dù khơng so sánh dánh giá phvong phỏp trờn cựng mđt ti liắu thnc nghiắm, nhvng ket dánh giá cúa Hulth lai cao hon dáng ke so vói cơng bo cúa KEA GenEx (theo hvóng tiep c¾n rút trích) Hulth mơ tá q trình thnc hi¾n giái thu¾t dã dvoc tien sau sú dnng ky thu¾t hvóng ngơn ngu cho khâu tuyen chon phân loai Ket nh¾n d%nh cúa Hulth m®t d®ng lnc thúc day de khai thác ky thu¾t xú lý ngơn ngu tn nhiên sâu hon cho tốn rúttrích xác d%nh CTÐT 3.3 Ket chvong i1 Vói xi : vecto ho tro ; b : d® dòi ban dau dã tìm dvoc Ðe mó r®ng phân loai cho nhieu doi tvong, q trình thnc hi¾n can sú dnng hàm gán nhãn cho tùng loai bang công thúc (5.31): thông tin cúa tùtrung tâm thông tin cúa tùngu cánh lân c¾n Tù t¾p tin mơhình so, cho moi vecto di qua b® phân loai g(x) = sign(f(x)) Sau huan luy¾n, du li¾u dvoc mơhình theo ba nhãn gom cnm nên tin mụ hỡnh so se chỳa bđ phân loai tvong úng vói lóp I, O B 5.2.5.5 Rúttrích cnm danh tù d¾c trvng ngunghia Ðau vào cúa vi¾c rúttrích cung t¾p vecto so thnc nhv giai doan huan luy¾n moi vecto dai diắn cho mđt tự cõu chỳa -36- -17- Vói kháo sát chvong này, cá hai hvóng tiep c¾n rúttrích xác d%nh CTÐT deu có vu diem cung nhv han che Lu¾n án dã dva m®t mơhình cho tốn rúttrích CTÐTNN câu tieng Vi¾t Mơhình sn phoi hop giua hai hvóng tiep c¾n rúttrích xác d%nh CTÐT nham phát huy vu diem cúa cá hai hvóng, dong thòi han che han che cúa chúng Ngồi chvong này, lu¾n án cung dã trình bày phvong pháp cho cơng doan co bán cúa cá hai hvóng tiep c¾n giai doan tien xú lý nhv toán phân doan tù toán gán nhãn tù loai, cung nhv phvong pháp dánh giá hi¾u suat cho mơhình de xuat Các chvong tiep theo, lu¾n án se trình bày lan lvot cơng doan lai cúa mơhình ViKE thơng qua hai mơhình tvong úng vói hai hvóng tiep c¾n xác d%nh rúttrích CTÐTNN -36- -18- Vói hvóng tiep c¾n xác d%nh CTÐTNN, vi¾c nghiên cúu phát trien m®t co só tri thúc (hay ontology) có tính khái qt, xác moi quan h¾ chúng de tang tính hi¾u q cho vi¾c xác d%nh CTÐTNN rat quan Ðong thòi, ky thu¾t so trùng mà lu¾n án de xuat mơhình xác d%nh CTÐTNN, cung nhv ket q cúa mơhình se dvoc phân tích dánh giá Còn hvóng tiep c¾n rúttrích CTÐTNN, vói mnc tiêu giái quyet trvòng hop cnm tù dn tuyen khơng có khái ni¾m tvong úng Ontology, lu¾n án dã de xuat mơhìnhrúttrích CTÐTNN tieng Vi¾t ViKEe Ðe xây dnng mơhình này, lu¾n án di theo hvóng tiep c¾n hoc máy có giám sát cn the phvong pháp SVMs de giái quyet tốn thieu kho ngu li¾u có giái lón q trình huan luy¾n Chvong MƠHÌNH XÁC éNH CUM T éắC TRUNGNGUNGHIATRONGTIENG VIẵT (ViKEa) PHUÐNG PHÁP SO TRÙNG MAU DUA TRÊN ONTOLOGY gom nhãn tù loai (pos), nhãn gom cnm IOB (chunk) tù Kho ngu li¾u XML có dang nhv sau: Vi¼t Nam bã tré thành thành viên cúa WTO . Trong dó: I: tù ó cnm tù; O: tù ó ngồi cnm tù; B: tù bat dau cúa cnm tù neu trvóc dó có cnm tù khác lien ke Kho ngu li¾u dvoc chia thành hai t¾p riêng bi¾t dùng de huan luy¾n (goi t¾p C2) thú nghi¾m (goi t¾p C1) vói tý l¾ tvong úng 60% 40% T¾p ngu li¾u C2 C1 Báng 5.1: Kho ngu li¾u So lvong tù So lvong câu 61.435 4.137 10.229 2.079 So cnm tù 12.785 3072 5.2.5.3 Xây dnng mơhình cho SVMs 4.1 Giói thi¾u Nhv dã tháo lu¾n chvong 3, m¾c dù CTÐTNN dvoc rúttrích tn d®ng theo hvóng xác d%nh CTÐTNN có d® xác cao nhv Hulth dã công bo (Hulth, 2004) Nhvng de dat dvoc ket quỏ dú, hvúng tiep cắn ny can mđt co só tri thúc hay Ontology có tính khái qt, xác có moi quan h¾ chúng de tang tính hi¾u q cho vi¾c xác d%nh CTÐTNN Nói mđt cỏch khỏc, viắc nghiờn cỳu v phỏt trien mđt co só tri thúc hay ontology tieng Vi¾t rat quan can thiet Trong chvong này, lu¾n án chí trình bày mơhìnhrúttrích cnm danh tù d¾c trvng ngunghia theo hvóng xác d%nh CTÐTNN dna có só tri thúc phvong pháp so trùng mau dvoc goi ViKEa (Hình 4.1) Phan lai cúa chvong dvoc to chúc thành ba phan: Phan 4.2 trình bày cơng doan rúttrích cnm danh tù dn tuyen bang phvong pháp so trùng mau dna t¾p mau nh¾n dang cnm danh tù co -18- Do vu diem cúa giái thu¾t SMO vi¾c huan luy¾n cho SVMs (Jones, 2001), nên lu¾n án áp dnng nú de huan luyắn du liắu tao mđt mơhình dùng q trình phân lóp Ý tvóng cúa giái thu¾t moi bvóc huan luy¾n lay diem mau t¾p huan luy¾n thóa dieu ki¾n chon cúa heuristic de tìm giá tr% a1, a2 tvong úng c¾p nh¾t vào vecto a cho thóa ràng bu®c tuyen tính xun suot q trình giái thu¾t: l ) y i 1 i i 0 Heuristic dùng de chon hai giá tr% a1, a2 tai moi bvóc l¾p, thnc hi¾n tiep c¾n vòng l¾p: vòng l¾p ngồi chon lna a1, vòng l¾p chon a2 - Vũng lắp ngoi xen ke giua mđt lan duyắt qua ton bđ du liắu v lắp lai nhieu lan trờn cỏc khụng thuđc biờn (0 < a1 < C) cho den ton bđ du liắu huan luy¾n thóa dieu ki¾n KKT ó (5.21) -35- - Ðoi vói tù quan h¾ giua cnm danh tù: dna vào t¾p tin relword.cn Vói hvóng giái quyet này, du li¾u dau vào cúa SVMs vecto so chí có hai giá tr% cúa tính chat tù nhãn tù loai thay bon tính chat, nên thòi gian huan luy¾n cung nhv thòi gian phân loai nhanh hon Ðong thòi hai tính chat cau trúc ccm danh tù, tù quan h¾ giua ccm danh tù dvoc tham gia trnc tiep bvóc xác d%nh nhãn gom cnm IOB q trình huan luy¾n cung nhv phân loai Do dó, thơng tin se chi tiet xác, sn phân bi¾t giua mau se rõ ràng hon 5.2.5.2 Xây dnng kho ngu li¾u Theo hvóng tiep c¾n bang phvong pháp thong kê thỡ dđ chớnh xỏc cỳa hắ thong hon ton phn thuđc vo kho ngu liắu Tuy nhiờn, hau het cỏc cơng trình nghiên cúu xú lý ngơn ngutieng Vi¾t deu chva cú mđt kho ngu liắu chuan nhv kho ngu li¾u tieng Anh (Penn Treebank) Ðe giái quyet van de cho mnc tiêu nghiên cúu cúa de tài, lu¾n án dã xây dnng thú cơng kho ngu li¾u qua cơng doan sau: - Các t¾p mau câu dvoc lay tù nguon TREC07(446 câu hói); TREC06 (492 câu hói); TREC02 (440 câu hói); www.lexxe.com, 2005-2010 (701 câu) Tong cđng mau thu dvoc gom 2079 cõu tieng Anh dvoc Hđi Nghiờn Cỳu D%ch Thuắt Tp Ho Chớ Minh d%ch sang t¾p mau câu tieng Vi¾t tvong úng, dvoc goi t¾p mau C1 - Ngồi ra, vói mnc dích da dang hóa de bang báo thuđc nhieu linh vnc khỏc nhau, luắn ỏn thu thắp tù website vnexpress.net 4137 câu tvòng thu¾t, dvoc goi t¾p mau C2 - Hai t¾p mau C1 C2 gom 6216 câu dvoc tien xú lý, phân doan tù gán nhãn tù loai (Chau Q Nguyen Tuoi T Phan, 2007) de tao thành kho ngu li¾u só; Phan 4.3 mơ tá cơng doan xác d%nh cnm danh tù d¾c trvng ngunghia (CDTÐTNN); Phan cuoi ket chvong Câu tieng Vi¾t T¾p lu¾t cau trúc cnm danh tù Ontology ViO Tien xú lý Phân doan tù CDTÐTNN Rúttrích cnm danh Xác tù d%nh CDTÐTNN Gán nhãn tù loai Hình 4.1 Mơhìnhrúttrích CDTÐTNN theo hvóng xác d%nh 4.2 Rúttrích cnm tù dn tuyen Trong phan này, lu¾n án trình bày hvóng giái quyet cho cơng doan rúttrích cnm danh tù co bán 4.2.1 Xây dnng co sõ tri thúc dang cau trúc cnm danh tù Theo nhv mô hỡnh (Hỡnh 4.1), viắc xõy dnng mđt co sú tri thúc cho mau cau trúc cnm danh tù de dna vào dó nh¾n di¾n dvoc cnm danh tù câu tieng Vi¾t Trvóc tiên can phái nghiên cúu ve cau trúc cung nhv d¾c tính ngu pháp cúa cnm danh tù Ð%nh nghia 4.1: Cnm danh tù loai to hop tù danh tù vói m®t so tùngu phn thu®c tao thành, có ý nghia day dú có cau tao phúc tap hon m®t danh tù, nhvng hoat d®ng câu có chúc nang cỳa mđt danh tự (Diắp Quang Ban, 2004; Nguyen Tài Can, 1996) - Cuoi kho ngu li¾u dvoc thnc hi¾n gán nhãn gom cnm tù (IOB) theo d%nh dang XML, moi tù nam m®t hàng theo thú tn Dang thú nhat: { Phan phn trvóc}{ Phan trung tâm }{ Phan phn sau} Ví dn: {Tat cá nhung}{ em hoc sinh}{ cham ngoan ay} Dang thú hai: { Phan phn trvóc}{ Phan trung tâm } Ví dn: {Tồn the các}{ giáng viên} Dang thú ba: { Phan trung tâm }{ Phan phn sau} -34- -19- Ví dn: { ngvòi chong}{ hanh phúc ay} Nhv v¾y dna khái ni¾m ve phan phn phan trung tâm cúa cnm danh tùtù loai có the cúa chúng, lu¾n án dã xây dnng dvoc t¾p lu¾t nh¾n di¾n cnm danh tù co só bao gom 434 mau có dang nhv sau: - Lu¾t 1: ((||) ( |) (|||) (||) (| )* (|)*) … Trong dó: | - ho¾c * - ho¾c nhieu 4.2.2 Bài tốn rúttrích cnm danh tù bang phvong pháp so trùng mau Ve phvong pháp, mơhìnhrúttrích cnm danh tù bang phvong pháp so trùng mau, dna vào t¾p mau cau trúc cnm danh tùtù có gán nhãn tù loai nh¾n dvoc tù cơng doan trvóc, de nh¾n di¾n cnm danh tù câu don tieng Vi¾t dang xét Ý tvóng cúa phvong pháp dna vào cau trúc van pham tieng Vi¾t de xõy dnng mđt cỏc mau, dvoc xỳ lý búi máy trang thái huu han Ket quá, lu¾n án dã xây dnng dvoc 434 mau nh¾n di¾n cnm danh tù bao gom cá mau nh¾n di¾n danh tù riêng T¾p mau dvoc hi¾n thnc bang Java Annotation Patterns Engine (JAPE) (Phn lnc B) B® phân tích co só máy trang thái huu han tao giái có tên ‘KNP’ vói thu®c tính giá tr% dvoc mã hóa (nhv ‘type’, ‘POS’, ‘string’,…) T¾p mau dùng ket q dau cúa cơng doan gán nhãn tù loai cung nhv thơng tin nh¾n di¾n tùtieng Vi¾t de nh¾n di¾n cnm danh tù câu don tieng Vi¾t dang xét Tv tvóng cúa giái thu¾t nh¾n di¾n cnm danh tù dvoc quy ve vi¾c so trùng mau có co só tri thúc Trong thnc te q trình so -20- 5.2.5.1 Lna chon tính chat d¾c trvng Vói phvong pháp SVMs, so tính chat d¾c trvng cúa mau nhieu thơng tin se chi tiet xác, sn phân bi¾t giua mau se rõ ràng hon Tuy nhiên, dó se dòi hói t¾p du li¾u huan luy¾n lón, thòi gian huan luy¾n cung nhv thòi gian phân loai se lâu hon Vì v¾y, lu¾n án sú dnng bon tính chat d¾c trvng vai trò cú pháp cúa tù nhãn tù loai nhv dã nêu (Nguyen Quang Châu, Hong Thanh Lu¾n, Phan Th% Tvoi, 2008) cau trúc cú pháp cúa cnm tùtù quan h¾ giua cnm tù de cân bang giua yeu to Ðoi vói phvong pháp hoc máy khác loai du li¾u dau vào dòi hói phái khác Do du li¾u dau vào cúa SVMs vecto so giá tr% nêu se dvoc vecto so hóa, cn the: - Ðoi vói tù: dna vào t¾p tin danh sách tù loai tieng Vi¾t vnlex60K.lst vnlex40K.lst (Chau Q.Nguyen, Tuoi T.Phan, 2007) vói khống 102.000 tù de tính v% trí cúa tù danh sách Tuy nhiên, so lvong tù loai tvong doi lón, se gây khó khan cho vi¾c tính tốn nên giá tr% se dvoc chia cho tong so lvong tù - Ðoi vói nhãn tù loai (POS): dna vào t¾p tin vnpos.lst (Chau Q.Nguyen, Tuoi T.Phan, 2006) vói 50 nhãn tù loai Ví dn: Câu “Vi¾t Nam tró thành thành viên cúa WTO nào?” Neu vecto so hóa tù “tró thành” vúi dđ di vecto mắc d%nh l tự thỡ có vecto so thnc vói dang nhv sau: 0.8041931 0.4 0.6351226 0.8 0.0 1.0 Trong dó: 0.8041931: giá tr% tù cúa “Vi¾t Nam” 0.4: giá tr% tù loai cúa “Vi¾t Nam” 0.6351226: giá tr% tù cúa “tró thành” 0.8: giá tr% tù loai cúa “tró thành” 0.0: giá tr% tù cúa “thành viên” 1.0: giá tr% tù loai cúa “thành viên” Riêng hai tính chat cau trúc ccm tùtù quan h¾ giua ccm danh tù dvoc tham gia trnc tiep bvóc xác d%nh nhãn gom cnm IOB, nhãn cho biet tù dó nam ho¾c ngồi cnm danh tù d¾c trvng ngunghia dong thòi tên lóp SVMs - Ðoi vói cau trúc cnm danh tù: dna vào t¾p tin knp.cn vói 434 mau nh¾n dang cau trúc cnm danh tù -33- - Mơ-dun rúttrích cnm danh tù d¾c trvng ngunghiatieng Vi¾t dvoc de ngh% se áp dnng phvong pháp hoc máy SVMs, cn the áp dnng giái thu¾t SMO de huan luy¾n mau Các mau tùtieng Vi¾t dã dvoc phân doan tù gán nhãn tù loai Dna vào t¾p tính chat cúa tùtrung tâm nhv giá tr% cúa v% trí tù, nhãn tù loai thơng tin ngu cánh (nhv giá tr% cúa v% trí tù, nhãn tù loai) cúa tù lân c¾n Tat cá thơng tin dvoc so hóa làm thơng tin dau vào cho cá hai giai doan huan luy¾n rúttrích CDTÐTNN Câu tieng Vi¾t ……… …… ……… Rúttrích cnm danh tù d¾c trvng ngunghia Huan luy¾n Mơhình dvoc huan luy¾n Tien xu lý Phân doan tù SVMs (Giái thu¾t huan luy¾n SMO) Kho ngu li¾u huan luy¾n Gán nhãn tù loai Rúttrích CDTÐTNN tieng Vi¾t Các CDTÐTNN Hình 5.6 Mơhìnhrúttrích CDTÐTNN-ViKEe 5.2.5 MƠ ÐUN RÚTTRÍCHCUMT٠оC TRUNGNGUNGHIATRONGTIENG VIẵT Ve giỏi thuắt, phvong phỏp SVMs dvoc dựng de rúttrích CDTÐTNN bao gom bvóc sau Lna chon tính chat d¾c trvng Xây dnng kho ngu li¾u Xây dnng mơhình cho SVMs Huan luy¾n mơhình Rúttrích cnm danh tù d¾c trvng ngunghia -32- trùng thu dvoc rat nhieu mau Ðây trvòng hop nh¾p nhang phvong ỏn giỏi quyet cỳa luắn ỏn l mau cú dđ dài cnc dai se dvoc chon, cn the dvoc trình bày giái thu¾t 4.1 4.3 Cơng doan xác d%nh cnm tù d¾c trvng dna ontology 4.3.1 Khai thác Wikipedia Co só tri thúc vói nen táng ontology ngày dvoc sú dnng r®ng rãi vói sn dòi phát trien cúa Web có ngunghia M®t ontology, theo (Swartout v CS, 1996) l mđt hop có cau trúc phân cap thu¾t ngu dùng de mơ tá m®t linh vnc dó có the dvoc dùng nhv m®t b® khung cho m®t co só tri thúc Nói m®t cách don gián, ontology m®t h¾ thong phân cap khái ni¾m, co só tri thúc bao gom nen táng m®t ontology c®ng vói thơng tin cn the cúa tùng khái ni¾m Các hvóng nghiên cúu t¾p trung xây dnng khai thác ‡‡ §§ *** Ontology hay co só tri thúc nhv KIM , OpenCyc , Wikipedia ,… Trong dó, Wikipedia nhv l mđt hiắn tvong búi tớnh da ngụn ngu (bao gom 253 ngôn ngu) kho giàu tri thúc nhat hi¾n (Zesch CS, 2008) ††† Trong Vi.wiki , dau vào co bán trang thông tin M®t trang thơng tin có the m®t viet bỡnh thvũng núi ve mđt khỏi niắm hay mđt thnc the M®t trang thơng tin cung có the m®t trang doi hvóng - trang dan ban den trang có tên khác (có the thơng dnng hon) nói ve m®t de tài M®t trang thơng tin cung có the m®t trang d%nh hvóng - m®t viet giái thích ve ý nghia bien nhat cúa thu¾t ngu, bên dvói li¾t kê liên ket den viet có tna de (tên viet) tvong tn ho¾c có khái ni¾m tvong tn, giúp d%nh hvóng cho ngvòi doc den dúng viet mà ho dang tìm Moi trang thơng tin dvoc d%nh danh bang danh hi¾u nhat, danh hiắu dvoc dắt phự hop vúi nđi dung mơ tá doi tvong dvoc de c¾p trang Trong moi trang, ngồi thơng tin mơ tá ve doi tvong chúa nhieu liên ket den trang liên quan khác Các ‡‡ www.ontotext.com/kim/ www.opencyc.org/ *** www.wikipedia.org/ §§ -21- ††† Tat cá du li¾u sú dnng phan dvoc lay tù nguon Vietnamese Wikipedia database dump 4/2/2009 -32- -21- trang liên quan có the mơ tá ve doi tvong có quan h¾ thành phan, dong nghia, hay phán nghia vói doi tvong mà trang chúa liên ket de c¾p H¾ thong trang doi hvóng có the dvoc xem nhv m®t tù dien ve cnm tù dong nghia, cnm tù bien the, hay cnm tùviet tat Ngoi ra, Vi.wiki cú mđt hắ thong phõn chia the loai cỏc doi tvong Hắ thong ny l mđt nguon thơng tin ngunghia rat huu ích, dvoc dùng de phân loai de cúa trang thơng tin H¾ thong phân loai cúa Vi.wiki khơng chí cung cap h¾ thong phân cap doi tvong the giói th¾t, mà có the bieu dien dvoc quan h¾ giua the loai cúa doi tvong nhv cỏc quan hắ thnh phan (thuđc quan hắ isa) v cỏc quan hắ dong nghia (thuđc quan hắ non-isa), Nhv v¾y, moi trang thơng tin dvoc liên ket vúi mđt hoắc nhieu the loai, cỏc the loai ny có the có tieu the loai vói quan h¾ thành phan quan h¾ dong nghia 4.3.2 Xây dnng Ontology tieng Vi¾t ViO tù dien ViDic Nghiên cúu ve nguon tài ngun cúa Vi.wiki, hvóng tiep c¾n cỳa luắn ỏn bao gom hai bvúc sau: Bvúc mđt: Rúttrích phân cap cúa Vi.wiki quan h¾ cúa chúng nhv quan h¾ thành phan, quan hắ khụng thnh phan, de tao mđt Ontology ViO phnc tốn rúttrích cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t Lu¾n án sú dnng Java-based Wikipedia Library (JWPL) (Zesch CS, 2007) (Phn lnc A) de rúttrích tài nguyên tù Wikipedia nhv trang thông tin, liên ket, the loai trang doi hvóng Ket dat dvoc Ontology ViO có 157.994 khái ni¾m (danh hi¾u) 322.631 the loai Bvóc hai: Rúttrích danh hi¾u cúa trang thơng tin vói danh hi¾u cúa trang doi hvóng vói chúng de tao m®t tù dien tieng Vi¾t (ViDic – Vietnamese Dictionary) Vì mnc tiêu xác d%nh cnm danh tù d¾c trvng ngunghia nên lu¾n án xem moi trang thơng tin Wikipedia m®t d%nh nghia cho doi tvong mà trang mơ tá danh hi¾u tvong úng cúa có cnm danh tù d¾c trvng ngunghia cho doi tvong Danh hi¾u cnm danh tù d¾c trvng ngunghia cúa -22- K f1vs1 xarg max ) x i K )V ij (5.31) i 1 j 1i j vói dieu ki¾n: Vij(x) = neu gij(x) = +1 hay x CDTÐTNN neu gij(x) = -1 hay x khơng phái CDTÐTNN qui vóc 1vs1 phân bi¾t loai ci vói loai cj Neu t¾p C gom cnm tù can phân loai có kích thvóc N: vói ý tvóng chon loai ci phân bi¾t vói loai lai dvoc ký hi¾u 1vsR (One vs Rest), ke tiep chon m®t ci’ phân bi¾t vói loai lai,…làm tvong tn cho den het Lúc dó hàm phân loai (5.33) tró thành: f1vsR xarg max f i (x) i (5.32) vói i = 1, …,N ó dây, fi(x) mơhình phân loai SVMs lóp thú i cúa N lóp phân loai SVMs 5.4 Mơhình ViKEe Mơhình dvoc tác giá de xuat (Hình 5.6) bao gom hai mơ-dun (a) mô-dun tien xú lý truy van nham phân doan gán nhãn tù loai, (b) mơ-dun rúttrích cnm danh tù d¾c trvng ngunghiatieng Vi¾t Co che rúttrích cnm danh tù d¾c trvng ngunghia thnc hi¾n dna phvong pháp hoc máy lan lvot dvoc trình bày qua tốn (Hình 5.6): -31- - Các mơ-dun tien xú lý dvoc phát trien mói cho tieng Vi¾t (dvoc trình bày phan 3.4.1 cúa Chvong 3) -22- -31- tốn rúttrích cnm danh tù d¾c trvng ngu nghia; Phan 5.4 trình bày mơhình de xuat cho tốn rúttrích cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t; Phan 5.5 trình bày ket thnc nghi¾m dánh giá; Phan 5.6 phan ket chvong 5.2 Phvong pháp Support Vector Machines Co só tốn hoc cúa phvong pháp phân loai SVMs dna nen táng lý thuyet hoc thong kê (statistical learning theory) lý thuyet không gian vecto (vector space) 5.3 Phát bieu tốn rúttrích cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t Ve m¾t hình thúc, tốn rúttrích cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t dvoc phát bieu nhv sau Neu d¾t C t¾p cnm danh tù dn tuyen K t¾p cnm danh tù d¾c trvng ngunghia câu quan h¾ giua hai cnm danh tù dvoc bieu dien bói hàm f: K x C ‹ { 0, 1} Vói c C, k K, {1 f(c,k) { neu c k có quan h¾, hay k CDTÐTNN [0 trvòng hop ngvoc lai Bán chat cúa SVMs phvong pháp phân loai nh% phân, t¾p du li¾u ban dau sau dvoc SVMs phân loai se chia thành hai t¾p phân bi¾t Nhvng thnc te, loai du li¾u dòi hói phái phân chia thành nhieu loai khác оc bi¾t áp dnng vào tốn xác d%nh cnm danh tù d¾c trvng ngunghia dna the hi¾n nhãn gom cnm IOB (trong dó nhãn I: cho biet tù ó cnm tù; nhãn O: cho biet tù ó ngồi cnm tù; nhãn B: cho biet tù bat dau cúa cnm tù neu trvóc dó có cnm tù khác lien ke) Vói d¾c tá tốn nhv trên, ý tvóng cúa phvong pháp SVMs de rúttrích cnm danh tù d¾c trvng ngunghiatieng Vi¾t dvoc mơ tá nhv sau m®t doi tvong dvoc d%nh nghia moi trang neu thóa mãn m®t tiờu sau: - Neu danh hiắu cỳa mđt trang thơng tin m®t câu trvòng hop CDTÐTNN tvong úng se CDTÐTNN cho câu - Neu danh hiắu l mđt cnm tự thỡ CDTéTNN tvong ỳng cnm tù dó Theo phvong pháp nhv trên, cau trỳc cỳa tự dien ViDic l mđt cỏc dau mnc, moi dau mnc bao gom: CDTÐTNN, danh hi¾u, cnm tù dong nghia có dvoc CDTÐTNN cúa trang doi hvóng Moi dau mnc tù dien dvoc ánh xa tói the loai ViO Ket dat dvoc tù dien ViDic có tong c®ng 152.450 dau mnc, moi dau mnc có cau trúc dvoc minh hoa nhv sau: < CDTÐTNN >< danh hi¾u cúa trang CDTÐTNN cúa trang doi hvóng> thơng tin>< Trong trvòng hop có nhieu trang mà ket q cúa q trình rúttrích danh hiắu cho cựng mđt CDTéTNN thỡ moi dau mnc tù dien ViDic có dang: < CDTÐTNN >< danh hi¾u cúa trang thơng tin 1>< CDTÐTNN cúa trang doi hvóng 1>,…,< danh hi¾u cúa trang thơng tin n>< CDTÐTNN cúa trang doi hvóng n> Trvòng hop m®t CDTÐTNN có nhieu danh hi¾u chí chiem tí l¾ 52 tong 152450 dau mnc tù dien ViDic Trong phvong pháp tiep c¾n này, m¾c dù lu¾n án sú dnng thơng tin tù Wikipedia de tao m®t tù dien ViDic, nhvng phvong pháp có the áp dnng cho Ontology hay co só tri thúc khác 4.3.3 Bài tốn rúttrích cnm danh tù d¾c trvng ngunghia g(x)ij = sign(f(x)ij) (5.30) Khi dó, m®t cnm tù x chva biet se dvoc phân loai nhv sau: -30- Ðe giái quyet khâu chon loc cnm danh tù d¾c trvng ngunghia cnm danh tù dn tuyen nh¾n dvoc, lu¾n án -23- sú dnng Ontology ViO nhv m®t phân cap cúa the loai cho tốn -30- -23- rúttrích cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t Mơhình cúa tốn dvoc trình bày Hình 4.1 Ðau vào cúa mơhình câu dã dvoc tien xú lý (nhv phân doan tù, gán nhãn tù loai) rúttrích cnm danh tù dn tuyen, cuoi giai doan xác d%nh CDTÐTNN Câu…… tieng Vi¾t (dã…dvoc tien xú lý rúttrích cnm tù dn tuyen) …… Ngồi ra, hvóng nghiên cúu khai thác Vi.Wiki nhv mđt ontology tieng Viắt khụng de phnc cho vi¾c xác d%nh cnm danh tù d¾c trvng ngunghia cho cõu tieng Viắt m cũn mú mđt hvóng giái quyet cho van de thieu kho ngu li¾u ho tro cơng trình nghiên cúu ve xú lý ngơn ngutieng Vi¾t bang máy tính hi¾n Chvong MƠHÌNHRÚTTRÍCHCUMT٠оC TRUNGNGUNGHIATRONGTIENG VIẵT THEO HUộNG TIEP CắN RT TRCH (ViKEe) – PHNG PHÁP HOC MÁY 5.1 Giói thi¾u Xác d%nh CDTÐTNN Dna vào tù quan h¾ (so trùng lu¾t) Ontology ViO Các CDTÐTNN …… …… …… Dva vào Ontology Hình 4.3 Mơhìnhrúttrích CDTÐTNN dna vào so trùng mau & Ontology Giai doan xác d%nh lan lvot dvoc thnc hiắn qua cỏc bvúc sau: Bvúc mđt: Dna vào thông tin ngu cánh tù, hay cnm tù quan h¾ de nh¾n di¾n CDTÐTNN Ý tvóng cúa phvong pháp di khai thác d¾c thù riêng cúa tieng Vi¾t de xây dnng mđt cỏc tự (hay cnm tự) m nú phỏn ánh moi quan h¾ ngunghia giua cnm danh tù Ví dn nhv câu “Máy tính có dung lvong RAM bao nhiêu?” Trong câu có hai cnm danh tù “Máy tính này” “dung lvong RAM”, tvong úng có hai doi tvong the giói thnc “Máy tính” “RAM” Bài tốn d¾t lna chon dvoc cnm danh tù mà d¾c trvng ngunghia cho câu Hvóng tiep c¾p cúa lu¾n án quan tâm den ý nghia cúa tù quan h¾ -24- Phvong pháp hoc máy mà lu¾n án trình bày phvong pháp Support Vector Machines (SVMs), phvong pháp phân loai du li¾u có giám sát dna nguyên lý cnc tieu hóa rúi ro cau trúc, dvoc Vapnik giói thi¾u lan dau tiên vào nam 1995 M¾c dù, SVMs chí phvong pháp phân loai nh% phân nhvng tính hi¾u q vvot trđi so vúi cỏc phvong phỏp phõn loai du liắu khác; nên SVMs dã dvoc phát trien de có the áp dnng cho toán da phân loai dvoc úng dnng rat hi¾u nhieu van de thnc te nhv: nh¾n dang chu viet tay, nh¾n dang giong nói, nh¾n dang khn m¾t, phân tích gen, phân loai ánh vien thám,… Quan diem cúa lu¾n án qui vi¾c rúttrích cnm danh tù d¾c trvng ngunghia ve tốn phân loai hay nh¾n di¾n mau dna vo mđt so cỏc tớnh chat dắc trvng cỳa mau.Vúi hiắu quỏ vvot trđi cỳa SVMs viắc phõn loai du li¾u (Mayer, 2002), áp dnng SVMs se dat dvoc nhieu ket rat quan, minh chúng the hi¾n qua cơng trình áp dnng SVMs (Cheng, 2002; Hearst, 1998; Joachims, 1998;…), so vói cơng trình áp dnng phvong pháp khác Ðó lý lu¾n án áp dnng phvong pháp SVMs de thnc hi¾n giai doan xác d%nh cnm danh tù d¾c trvng ngunghia câu tieng Vi¾t cho mơhình ViKEe Các phan lai cúa chvong dvoc bo cnc nhv sau: Phan 5.2 trình bày khái quát phvong pháp SVMs; Phan 5.3 phát bieu -29- Lu¾n án tien hành dánh giá t¾p mau câu tvòng thu¾t câu hói dvoc lay tù nguon du li¾u cúa TREC (http://trec.nist.gov/data/) (TREC, 2009) TREC07 (bao gom 446 câu hói), TREC06 (bao gom 492 câu hói), TREC02 (bao gom 440 câu hói); t¾p 701 câu tù website www.lexxe.com (Qiao, 2010) Sau dó t¾p mau thu dvoc gom 2079 cõu tieng Anh dvoc Hđi Nghiờn Cỳu D%ch Thuắt Tp Ho Chí Minh d%ch sang t¾p mau câu tieng Vi¾t tvong úng Ket q dat dvoc d® xác, d® day dú d® trung bình dieu hòa F dvoc trình bày Báng 4.4 giua cnm tù Nhv ví dn trên, tù “có ” tù chí moi quan h¾ só huu giua “Máy tính này” “dung lvong RAM” Ðieu xác d%nh dvoc “dung lvong RAM” cnm danh tù d¾c trvng ngunghia cho câu dang xét Dna vào tù quan h¾ giua cnm tù câu quan h¾ (Phn lnc – Phan E) cúa van pham tieng Vi¾t, lu¾n án dó xõy dnng mđt luắt de xỏc d%nh cnm tù d¾c trvng ngunghia cho cho câu tieng Vi¾t trvòng hop cnm tù có quan h¾ thành phan vói có dang nhv sau: Lu¾t 1: {Cnm danh tù A} “nào” {cnm danh tù B} ‹ {A CDTÐTNN} Lu¾t 2: {Cnm danh tù A} “gì” {cnm danh tù B} ‹ {A CDTÐTNN} Báng 4.4: Ket q rúttrích CDTÐTNN cúa mơhình ViKEa E A EfiA Precision Recall F 3236 3072 2293 74.6% 70.8% 72,65% Ket ban dau dat dvoc cao, nhiên theo kháo sát cúa lu¾n án hau het CDTÐTNN dvoc nh¾n dang sai tùmơhình ViKEa deu thuđc vo trvũng hop khỏi niắm chva ton tai ontology ViO, mà cn the tù dien ViDic Ðây m¾t han che cúa mơhình ViKEa cung mnc tiêu nghiên cúu hvóng tiep c¾n hoc máy de xây dnng d® tvong tn ngunghia giua cnm tù Hon nua, vói vi¾c dánh giá so sánh ket thu dvoc tùmôhình ViKEa, lu¾n án rút dvoc t¾p tính chat d¾c trvng ve m¾t ngơn ngu cúa cnm danh tù d¾c trvng ngunghia T¾p tính chat d¾c trvng quyet d%nh tính d¾c trvng ngunghia cúa cnm danh tù so vói cnm danh tù khác câu Ðây tien de góp phan xác d%nh t¾p tính chat d¾c trvng nh¾n di¾n CDTÐTNN mơhình ViKEe theo hvóng tiep c¾n rúttrích ky thu¾t hoc máy de giái quyet tốn rúttrích ccm danh tù d¾c trvng ngunghia cho câu don tieng Viắt Mắt khỏc, Wikipedia l mđt ti nguyờn múi ve ngunghiatù vnng cho hon 253 ngôn ngu khác Ðieu chúng tó phvong pháp mà lu¾n án de xuat có the áp dnng de xác d%nh cnm danh tù d¾c trvng ngunghia cho nhieu ngơn ngu khác -28- … Bvóc hai: Trong trvòng hop giua cnm danh tù dn tuyen khơng có tù, hay cnm tù quan h¾ q trình nh¾n di¾n CDTÐTNN se dvoc truy van dna Ontology ViO de rútngunghia cúa cnm danh tù dn tuyen Vói ngunghia thu dvoc sau truy van, CDTÐTNN se dvoc nh¾n di¾n dna tiêu chí l mỳc dđ chi tiet cỳa khỏi niắm, theo nghia ccm danh tù dn tuyen mô tá chi tiet hon se ccm danh tù d¾c trvng hon M®t cách cn the, dau tiên cnm danh tù dn tuyen dvoc so trùng vói CDTÐTNN tù dien ViDic Vi¾c so trùng dvoc tien vói chien lvoc so trùng cnc dai, so trùng cnc tieu, so trùng tói, so trùng lùi so trùng theo cá hai hvóng Mnc tiêu cúa q trình tien giái quyet van de nhung cnm danh tù mói khơng có tù dien nhvng chúng có nòng cot giong Neu vi¾c so trùng thành cơng, cung có nghia cnm danh tù dn tuyen ton tai co só tri thúc, q trình xác d%nh the loai cho cnm danh tù dn tuyen se dvoc thơng qua vi¾c truy van Ontology ViO nham xác d%nh múc d® chi tiet cúa the loai dvoc trình bày phan 4.3.3.1 -25- Neu so trùng không thành công tù dien ViDic, nghia cnm danh tù dn tuyen chva ton tai co só tri thúc, khái ni¾m -28- -26- gan vói cnm tù dn tuyen dó se dvoc tiep tnc so trùng dna vào cơng thúc d® tvong tn dvoc trình bày phan 4.3.3.2 cúa lu¾n án Ve ý tvóng, giái thu¾t xác d%nh cnm danh tù d¾c trvng ngunghia dna vào Ontology ViO dvoc trình bày ó giái thu¾t 4.2 Giãi thu¾t 4.2 Xác d%nh CDTÐTNN co só Ontology 4.3.3.1 Xác d%nh múc d® chi tiet cua the loai Xác d%nh CDTÐTNN thông qua viắc xỏc d%nh mỳc dđ chi tiet cỳa cỏc the loai Ontology ViO tvong úng vói cnm danh tù dn tuyen, q trình dvoc thnc hi¾n qua bvóc sau: Bvóc m®t: Neu the loai C1 C2 có quan h¾ dong nghia ViO CDTÐTNN cnm danh tù tvong úng cúa C1 C2 Trong trvòng hop the loai C1 có quan h¾ thành phan hay isa vói C2 CDTÐTNN cnm tù tvong úng cúa C1 Bvóc hai: Trong trvòng hop C1 C2 khơng có moi quan h¾ vói nhv Bvóc m®t, q trình phái di tìm the loai to tiên chung gan nhat C cúa the loai C1 C2 Goi h1 chieu dài dvòng di tù the loai C1 tói the loai C, h2 chieu dài dvòng di tù the loai C2 tói the loai C Lúc này, vi¾c xác d%nh CDTÐTNN dvoc dna vào sn so sánh giua hai chieu dài h1 h2 Neu chieu dài cúa the loai lón hon cnm danh tù tvong úng cúa the loai dó se CDTÐTNN, trvòng hop hai chieu dài bang CDTÐTNN se cnm danh tù tvong úng cúa C1 C2 Ý tvóng cúa q trình xác d%nh CDTÐTNN thơng qua múc d® chi tiet cúa the loai ontology ViO dvoc trình bày tong quát giái thu¾t sau: Giãi thu¾t 4.3 Tìm the loai chi tiet hon ViO 4.3.3.2 Xác d%nh d® tvong tn ve nghiaTrong thú tnc tìm khái ni¾m tvong tn ViO Nhi¾m xác d%nh d® tvong tn ve ngunghia cho cnm danh tù, xem xét ngu -26- nghia cúa chúng phù hop vói khái ni¾m ontology Nói cách khác, d® tvong tn ve nghia cúa chúng gan vói khái ni¾m ontology nhat Ngunghia cúa tù, cnm tự dvoc the hiắn mđt phan thụng qua ngu cánh tài li¾u dó chúng dvoc de c¾p den Theo nh¾n xét cúa (Harris, 1968), tù xuat hi¾n nhung ngu cánh giong có ngunghia tvong tn Nhieu d® tvong tn dã dvoc xây dnng de giái quyet van de này, nghiên cúu ve d® tvong tn ngunghia giua tù yeu t¾p trung vào hai hvóng: hvóng tiep c¾n dna ontology hvóng tiep c¾n hoc máy Hvóng tiep c¾n cúa lu¾n án sn ket hop giua hai hvóng Trong hvóng tiep c¾n hoc máy dna trờn kho ngu liắu huan luyắn, mđt cỏc tự thvòng xuat hi¾n dong thòi vói tù w dvoc xem nhv ngu cánh ngunghia cúa M®t cách tính d® tvong tn giua tù xây dnng m®t vecto ngu cánh úng vói t¾p tù dó (các thành phan tan suat cúa tù dó vói w) d® tvong tn cúa hai tù dvoc tính cosine cúa hai vecto ngu cánh cúa chúng Phvong pháp sú dnng lu¾n án tvong tn nhv phvong pháp dvoc de c¾p (Witschel, 2005) ViO dvoc dvoc duy¾t tù goc nhv quyet d%nh de tìm khái ni¾m phù hop vói tù, cnm tù can thích ngunghia Quá trình tìm kiem dùng chon dvoc nút thích hop nhat Giái thu¾t tìm khái ni¾m tvong tn ViO vói cnm danh tù W dvoc trình bày ó giái thu¾t 4.4 Giãi thu¾t 4.4 Tìm khái ni¾m ViO tvong tn vói W 4.4 Ket chvong Trong chvong ny, luắn ỏn dó trỡnh by mđt hvúng tiep c¾n de giái quyet tốn xác d%nh xác cnm danh tù d¾c trvng ngunghia cho câu don tieng Vi¾t Hvóng tiep c¾n dna co só tri thúc Ontology ViO tù dien ViDic dvoc khai thác tù Vi.Wiki vói phvong pháp so trùng mau khai thác quan h¾ ngunghia giua the loai Ontology -27- ... cuoi ket chvong 6.1 Mơ hình rút trích CTÐT tieng Vi¾t Mơ hình tong quát ViKE sn ket hop giua hai mô hình ViKEa ViKEe dvoc trình bày ó Hình 1.1 Trong mơ hình tong qt rút trích cnm danh tù d¾c trvng... xú lý Phân doan tù CDTÐTNN Rút trích cnm danh Xác tù d%nh CDTÐTNN Gán nhãn tù loai Hình 4.1 Mơ hình rút trích CDTÐTNN theo hvóng xác d%nh 4.2 Rút trích cnm tù dn tuyen Trong phan này, lu¾n án trình... li¾u huan luy¾n Gán nhãn tù loai Rút trích CDTÐTNN tieng Vi¾t Các CDTÐTNN Hình 5.6 Mơ hình rút trích CDTÐTNN-ViKEe 5.2.5 MƠ ÐUN RÚT TRÍCH CUM T٠оC TRUNG NGU NGHIA TRONG TIENG VIẵT Ve giỏi thuắt,