Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng Việt

37 185 0
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chvong Me ÐAU 1.1 Юng co nghiên cúu World Wide Web (WWW) phát trien nhanh chóng vói nguon tài nguyên thông tin ngày phong phú, nhu cau khai thác nguon thơng tin cúa ngvòi sú dnng ngày tró nên cap thiet doi vói dòi song cúa ngvòi Vi¾c khai thác dvoc thnc hi¾n thông qua phvong thúc nhv truy hoi thông tin (Information Retrieval), tóm lvoc van bán (Text Summarization), rút trích thơng tin (Information Extraction), M®t van de cot lõi cúa h¾ thong khai thác xác d%nh rút trích xác cnm d¾c trvng ngu nghia (CTÐTNN) (khái ni¾m CTÐTNN dvoc d%nh nghia ó chvong 2, tai d%nh nghia 2.1) cúa câu van bán Van de moi quan tâm cúa nhà ngôn ngu hoc, cung nhv nhà khoa hoc linh vnc xú lý ngôn ngu tn nhiên bang máy tính é Vi¾t Nam, mong muon cú dvoc mđt hắ thong rỳt trớch cỏc cnm d¾c trvng ngu nghia cúa câu van bán tieng Vi¾t, nham dáp úng nhu cau dang b% bó ngó h¾ thong khai thác thơng tin Ðieu dã dòi hói thúc day vi¾c nghiên cúu phát trien hình rút trích cnm d¾c trvng ngu nghia tieng Vi¾t (Vietnamese Key Phrase Information Extraction Model - ViKE) Lu¾n án nghiên cúu rút trích cnm d¾c trvng ngu nghia (CTÐTNN) cúa câu don tieng Vi¾t Vói kháo sát tan so xuat hi¾n cúa cnm van bán tieng Vi¾t, lu¾n án dã t¾p trung nghiên cúu vi¾c xác d%nh rút trích cnm danh d¾c trvng ngu nghia (CDTÐTNN) cho câu don tieng Vi¾t 1.2 Mnc tiêu pham vi nghiên cúu Internet m®t noi lvu tru nguon thơng tin cúa nhân loai Nguon thông tin dvoc chia sé, phát trien r®ng khơng ngùng vói sn phát trien nhanh chóng cúa World Wide Wed (Web) Van de d¾t làm the de khai thác sú dnng nguon tài nguyên thông -1- tin ny mđt cỏch hiắu quỏ nhat Thụng tin trờn Web hau het deu the hi¾n dvói dang ngơn ngu tn nhiên, thơng qua trang Web, h¾ thong truy hoi thông tin (Information Retrieval) dvoc phát trien thành cụng nhat hiắn Đ l Google , Yahoo , v.v Tuy nhiên, hình deu sú dnng khóa de xú lý truy hoi tài li¾u Hi¾u suat truy hoi cúa chúng có nhung giói han nhat d%nh ngu nghia cúa tài li¾u b% mat di nhieu van bán dvoc bieu dien dvúi dang mđt cỏc tự khúa Tvong tn, yờu cau cung cap thơng tin phía ngvòi sú dnng cung dvoc bieu dien bói khóa Sn bieu dien rõ ràng khơng có nang the hi¾n dvoc tron ven nhu cau thông tin nhv mong muon cúa ngvòi sú dnng Do dó, truy hoi thơng tin h¾ thong hi¾n nay, ngvòi sú dnng deu nh¾n dvoc thêm tài li¾u khơng liên quan tói thơng tin can tìm Ðe tien hình truy hoi thơng tin theo khóa, nhieu cơng trình nghiên cúu di khai thác tiem nang cúa ccm d¾c trvng h¾ thong nhv truy hoi thơng tin (Hulth, 2004), tóm lvoc van bán (Text Summarization) (Paice Black, 2003), rút trích thơng tin (Information Extraction) (Medelyan Witten, 2006; Thuy Dung Nguyen, 2007), Trong h¾ thong này, khái ni¾m ccm d¾c trvng dvoc d%nh nghia nhv sau: Ð%nh nghia 1.1: Trong thv vi¾n khoa hoc thơng tin ccm d¾c trvng (cnm khóa – key phrase) dvoc d%nh nghia “ccm tá ngan gon xác de hay khía canh cúa de mà dvoc tháo lu¾n van bán” (Feather P., 1996, 240) Theo quan diem cúa Cao Xuân Hao (1998): “câu don v% co bán cúa lòi nói, cúa ngơn tù, cúa van bán Nó don v% nhó nhat có the sú dcng vào vi¾c giao te Nói cách khác, câu ngôn bán (van bán) ngan nhat” Nhv v¾y, vói quan diem câu van bán ngan nhat de nhan manh trvòng hop ccm d¾c trvng dien dat de cúa van bán ngan nhat ‡ § www.google.com/ www yahoo.com/ -2- H®i ngh% Khoa hoc Quoc gia [12] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2005 Gán nhãn loai cho tieng Vi¾t dna van phong, ký yeu cúa h®i tháo khoa hoc quoc gia lan thú II, Nghiên cúu co bán Úng dcng cơng ngh¾ thơng tin-FAIR’05, 9-2005, pp.106-116 II NGHIÊN CÚU KHOA HOC [1] Úng dnng de tài diem cap nhà nvóc: Nghiên cúu phát trien ky thu¾t xây dnng khai thác thơng tin Web có ngu nghia (Vietnamese Semantic Web) (KC.01.21), PGS.TS Cao Hồng Trn làm nhi¾m de tài, nghi¾m thu nam 2006 [2] Úng dnng de tài diem ÐHQG Tp.HCM: Xây dnng chvong trình tro giúp truy xuat thơng tin bang tieng Vi¾t (Vietnamese Information Retrieval) (B2005-20-01-TD), PGS.TS Phan Th% Tvoi làm nhi¾m de tài, nghi¾m thu nam 2007 (câu) pham vi nghiên cúu câu don, lu¾n án d%nh nghia ccm d¾c trvng ngu nghia nhv d%nh nghia 2.1 (Chvong 2, trang 22) Ccm d¾c trvng ngu nghia – dvoc viet tat CTÐTNN – có nang tá de câu (hay van bán) Nói cách khác, CTÐTNN mang thơng tin ve n®i dung nong cot cúa m®t câu CTÐTNN rat huu dnng nhieu úng dnng Trong linh vnc truy hoi thơng tin, CTÐTNN khơng chí ho tro viắc xỏc d%nh nđi dung cỳa mđt van bán có thích hop vói u cau thơng tin cúa ngvòi sú dnng hay khơng, mà bieu th% n®i dung nong cot cúa câu truy van thông tin dđng co tỡm kiem (search engine) trờn Web the hắ thú ba h¾ thong hói-dáp (question-answering) (Qiao, 2010) Do CTÐTNN phán ánh dvoc n®i dung nong cot (chú de) cúa câu van bán, nên chúng dvoc sú dnng de phân loai van bán (text classification) (Jones Mahoui, 2000), tóm lvoc van bán (text summarization) (Barker Cornacchia, 2000) Mắc dự cỏc CTéTNN dvoc dựng rđng rói h¾ thong úng dnng khác nhau, nhvng th¾t sn vi¾c rút trích CTÐTNN tvong úng cho tùng câu hay tùng van bán bang phvong pháp thú công ton rat nhieu thòi gian cơng súc Nhu cau d®ng lnc thúc day nghiên cúu rút trích tn d®ng CTÐTNN Có the phân nghiên cúu ve CTÐTNN thành ba hvóng chính: Hvóng tiep cắn sỳ dcng tự dien (Dictionary approach): sỳ dnng mđt dien dvoc xây dnng bang phvong pháp thú công dùng de rút trích CTÐTNN câu (hay van bán) Q trình rút trích CTÐTNN dvoc thnc hi¾n bang phvong pháp so trùng CTÐTNN dien vói cnm tài li¾u Thu¾n loi cúa hvóng tiep c¾n nhanh thnc hi¾n don gián Hi¾n nhieu h¾ thong van dang sú dnng phvong pháp (Bian Chen, 1998; Li Xing, 1998; ) Tuy nhiên, phvong pháp b% han che tài li¾u có nhung mói khơng có dien Ðây m®t van de can dvoc nghiên cúu giái quyet Các nghiên cúu theo hvóng tiep c¾n sú dnng dien dã có nhieu chien lvoc de thi¾n -50- -3- q trình so trùng nhv: so trùng cnc dai (maximum-matching), so trùng cnc tieu (minimum-matching), so trùng tói (forwardmatching), so trùng lùi (backward-matching), so trùng theo cá hai hvóng (bi-directional- matching) phvong pháp giái quyet van de bang dánh giá kinh nghi¾m (heuristics) Tuy nhiên, hi¾u suat cúa hvóng tiep c¾n lai phù thu®c vào d® lón cúa dien Nó th¾t sn khơng hi¾u q giái quyet tốn nh¾n di¾n danh riêng nhv tên, v% trí, hay thu¾t ngu mói nhung pham vi chun bi¾t Hvóng tiep c¾n ngơn ngu hoc (Linguistic approach), hvóng ** dùng co só tri thúc ngu nghia vnng (nhv WordNet , †† Wikipedia ,…), dùng phvong pháp dánh giá theo kinh nghi¾m, hay phvong pháp lu¾t de rút trích cnm (Wu Tseng, 1995) Các nghiên cúu ve xú lý ngôn ngu tieng Anh dã chúng tó hvóng tiep c¾n có the dat d® xác cao Tuy nhiên d® xác cúa phvong phỏp cũn phn thuđc vo viắc thiet ke tựng h¾ thong cn the (Brill, 1995; Church, 1988; Voutilainen, 1997) M¾c dù nhieu ket q nghiên cúu dã chúng tó hvóng tiep c¾n có nhieu tiem nang, nhiên van chva có m®t cơng trình nghiên cúu theo hvóng tiep c¾n cho ngơn ngu tieng Vi¾t, hi¾n thnc theo hvóng tiep c¾n g¾p nhieu khú khan Khú khan chớnh l viắc xõy dnng mđt co só tri thúc ngu nghia vnng tieng Vi¾t cho nhung mien (domain) chun bi¾t, có pham vi lón Vi¾c dòi hói rat nhieu thòi gian cơng súc Vói mnc tiêu giái quyet cho tốn rút trích CTÐTNN cho câu don cúa tieng Vi¾t, lu¾n án t¾p trung xây dnng hình ViKEa (Vietnamese Key phrase Extraction for assignment approach) theo hvóng tiep c¾n ngơn ngu hoc dna Ontology khai thác tri thúc ngơn ngu tieng Vi¾t de nâng cao hi¾u q cúa hình Vi¾c lu¾n án nghiên cúu khai thác Vi.Wikipedia nhv kho tri thúc tieng -4- and Web-based Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 1416 December 2009, Malaysia, ACM & ACS, pp 274-281 [6] Chau Q Nguyen, Tuoi T Phan, 2009 An Ontology–Based Approach for Key Phrase Extraction In Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-47-5, August - 7, 2009, Singapore, Companion Vol, pp.181-184 [7] Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009 A Support Vector Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of the 2009 IEEE-RIVF International Conference on Computing & Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress, pp.131-135 [8] Chau Q Nguyen, Tuoi T Phan, 2007 A Pattern-based Approach to Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th International IEEE Conference on Computer Sciences- RIVF’07, ISBN 2-912590-4-0, Studia Informatica Universalis, pp.41-46 [9] Chau Q Nguyen, Tuoi T Phan, 2006 A Hybrid Approach to Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - OCOCOSDA’06, 12/2006, Malaysia, pp.157-160 [10] Chau Q Nguyen, Thanh C Nguyen, Tuoi T Phan, 2006 Vietnamese Key Phrase Extraction for Information Retrieval, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172 [11] Chau Q Nguyen, Tuoi T Phan, Tru H Cao, 2006 Vietnamese Proper Noun Recognition, In Proceedings of The 4th International IEEE Conference on Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151 -49- ** †† www.wordnet.com/ www.wikipedia.org/ -4- -49- trang web (VIRs sán pham dã dvoc nghi¾m thu cúa de tài diem Ðai hoc quoc gia Tp Ho Chí Minh - B2005-20-01-TD) Ket cúa h¾ thong VIRs dã dvoc thi¾n so vói chva tích hop ViKEe Cuoi cùng, bên canh hình dvoc de xuat, phvong phỏp cỳa luắn ỏn khai thỏc Vi.Wiki nhv mđt ontology tieng Vi¾t khơng chí de phnc cho vi¾c xác d%nh cnm danh d¾c trvng ngu nghia cho cõu tieng Viắt m cũn dva mđt hvúng giỏi quyet cho van de thieu kho ngu li¾u ho tro xú lý ngơn ngu tieng Vi¾t DANH MUC CƠNG TRÌNH CUA TÁC GIà I BÁO CÁO KHOA HOC Tap chí Khoa hoc [1] Chau Q Nguyen, Tuoi T Phan, 2009 Hvóng tiep c¾n xác d%nh cnm d¾c trvng ngu nghia tieng Vi¾t dna Wikipedia, Tap chí Cơng ngh¾ thơng tin & truyen thơng, ISSN 0866-7039, T¾p V-1, so 2(22): 30-37 [2] Nguyen Quang Châu, Phan Th% Tvoi, 2008 Nh¾n di¾n cnm d¾c trvng ngu nghia Tieng Vi¾t, Tap chí Cơng ngh¾ thơng tin & truyen thông, ISSN 0866-17093, so 19: 64-73 [3] Nguyen Quang Châu, Hong Thanh Luắn, Phan Th% Tvoi, 2008 Mđt hvúng tiep c¾n hoc máy cho tốn rút trích cnm d¾c trvng ngu nghia tieng Vi¾t, Tap chí Khoa hoc & Cơng ngh¾ Vi¾t nam, ISBN 0866-708X, t¾p 46, so 1: 69-78 [4] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2006 Gán nhãn loai cho tieng Vi¾t dna van phong tính tốn xác suat, Tap chí Phát trien Khoa hoc & Cơng ngh¾, ISSN 18590128, 9, so 2:11-21 Hđi ngh% Khoa hoc Quoc te [5] Chau Q Nguyen, Tuoi T Phan, 2009 Key Phrase Extraction: A Hybrid Assignment and Extraction Approach In Proceedings of the 11th International Conference of Information Integration -48- Vi¾t dã giái quyet khó khan ve tài nguyên tri thúc vnng tieng Vi¾t xây dnng hình theo hvóng tiep c¾n Hvóng tiep c¾n bang phvong pháp thong kê (Statistical approach), thnc chat trình hoc giá tr% dã dvoc thong kê m®t kho ngu li¾u lón de rút trích cnm (Su CS, 1996) Hvóng tiep c¾n tó hi¾u q cho vi¾c rút trích cnm d¾c trvng ngu nghia (Yang CS, 1998; Chien, 1997; Chien, 1998; Chen CS, 1997), liên quan m¾t thiet vói hvóng tiep c¾n n-gram vói n có giá tr% 2,3, hay Tuy nhiên, Chien (1997) dùng PAT-Tree (PATricia Tree) de rút trích CTÐTNN van bán cúa tieng Trung Quoc, tác giá dã khơng giói han giá tr% cúa n M¾c dù có gia tang ve m¾t tính tốn, ky thu¾t khơng nhung khơng dòi hói nhieu cơng súc de tao dien hay co só tri thúc mà có nang lay dvoc thu¾t ngu có so cao kho ngu li¾u Tuy nhiên, m¾t han che cúa hvóng tiep c¾n có m®t so trvòng hop khơng the rút trích cnm hop lý mà có tan suat thap Mắc dự hvúng tiep cắn bang thong kờ cú dđ xác (Precision) khơng tot, nhvng có d® day dú (Recall) cao so vói hvóng tiep c¾n ngơn ngu hoc Vì v¾y, vói mnc tiêu thi¾n toi da hi¾u q cúa h¾ thong ViKEa theo hvóng tiep c¾n ngơn ngu hoc vi¾c khai thác ngơn ngu van giói han, lu¾n án se xây dnng hình rút trích CTÐTNN bang phvong pháp máy hoc có giám sát Các CTÐTNN dvoc gán nhãn loai ban dau làm t¾p huan luy¾n de xây dnng hình rút trích Ðây co só cho hình xác d%nh dúng CTÐTNN cnm dn tuyen Mụ hỡnh rỳt trớch dựng mđt cỏc tớnh chat d¾c trvng de phân loai cnm Van de d¾t phái xác d%nh dvoc tính chat dắc trvng cỳa cỏc cnm tự, nham xỏc d%nh mđt cách xác CTÐTNN cnm dn tuyen Nhv v¾y, mnc tiêu cúa lu¾n án xây dnng m®t hình lai cho tốn rút trích CTÐTNN câu don tieng Vi¾t hình sn phoi hop cúa hai hình theo hvóng tiep c¾n ngơn ngu hoc phvong pháp xác suat thong kê Ðó sn phoi hop cúa hai -5- hình theo hvóng tiep c¾n rút trích xác d%nh CTÐTNN (dvoc trình -48- -5- bày Chvong 3) Trong hvóng tiep c¾n ngơn ngu hoc, lu¾n án sú dnng phvong pháp so trùng mau dna Ontology dvoc tao l¾p Wikipedia tieng Vi¾t hình co só de lu¾n án de xuat bon tính chat d¾c trvng cho phvong pháp xác d%nh cnm d¾c trvng ngu nghia dùng phvong pháp máy hoc vecto ho tro (Support Vector Machines-SVMs) nham nam bat dvoc v% trí lơ-gích d¾c tính hình thái cúa CTÐTNN, là: (1) v% trí câu, (2) nhãn loai, (3) cau trúc cnm tù, (4) quan h¾ giua cnm dây, tốn can dvoc giái quyet pham vi lu¾n án bao gom: Bài tốn - Xây dnng hình ViKEa Lu¾n án nghiên cúu khai thác nguon tài nguyên cúa Vi.wikipedia de xõy dnng mđt Ontology tieng Viắt ViO (Vietnamese Ontology) nham phnc u cau cúa tốn Lu¾n án de xuat hình xác d%nh CTÐTNN, dvoc goi ViKEa, dna tri thúc ngôn ngu tn nhiên (nhv h¾ thong lu¾t ViO) toán tien xú lý (nhv phân doan gán nhãn loai) Bài tốn - Xây dnng hình rút trích cnm d¾c trvng ngu nghia, dvoc goi ViKEe ( Vietnamese Key phrase Extraction for extraction approach) Lu¾n án nghiên cúu phân tích hình hoc máy dó de xuat hình rút trích CTÐTNN dùng phvong pháp SVMs, nham thi¾n toi da hi¾u q cúa hình ViKEa nguon tài ngun tieng Vi¾t san có han che Bài tốn - Xây dnng hình ViKE (Vietnamese Key phrase Extraction) ViKE sn ket hop hai hình ViKEa ViKEe cho tốn rút trích cnm d¾c trvng ngu nghia câu don cúa tieng Vi¾t, vói mnc tiêu khai thác toi da d® xác cúa vi¾c rút trích CTÐTNN cúa tùng hình tốn Nhv d%nh hvóng nêu trên, pham vi nghiên cúu cúa lu¾n van dvoc the hi¾n hình 1.1 Ðau tiên hình ViKEa, theo hvóng tiep c¾n ngơn ngu dna Ontology ViO (dvoc khai thác Vi.Wiki) vói ky thu¾t so trùng mau quan h¾ ngu nghia giua the loai Ontology, cung nhv khâu tien xú lý phân doan gán nhãn loai Ket dat dvoc cúa hình ViKEa cao trvòng hop cnm danh cúa câu có quan h¾, ho¾c có khái ni¾m tvong úng ontology ViO Ngvoc lai, CDTÐTNN dvoc nh¾n dang sai deu thuđc vo trvũng hop khỏi niắm chva ton tai Ontology ViO Ðây m¾t han che cúa hình ViKEa v cung l dđng co nghiờn cỳu cỳa luắn án cho hình theo hvóng tiep c¾n hoc máy de xây dnng d® tvong tn ngu nghia giua cnm danh vi¾c dánh giá so sánh ket q thu dvoc hình ViKEa, lu¾n án rút dvoc tính chat d¾c trvng ve ngơn ngu cúa CDTÐTNN Các tính chat d¾c trvng quyet d%nh cnm danh d¾c trvng ngu nghia so vói cnm danh khác câu Ngồi ra, tính chat d¾c trvng tien de góp phan xác d%nh t¾p tính chat nh¾n di¾n CDTÐTNN hình ViKEe theo hvóng tiep c¾n rút trích ky thu¾t hoc máy -6- -47- Tiep theo, lu¾n án dã de xuat hình ViKEe theo hvóng tiep c¾n hoc máy nham thi¾n toi da hi¾u suat cúa h¾ thong vi¾c khai thác tài nguyên ngơn ngu có giói han Hvóng tiep c¾n dna phvong pháp hoc máy, cn the phvong pháp SVMs ky thu¾t huan luy¾n SMO Lu¾n án hiắn thnc hvúng tiep cắn thnh mđt ỳng dnng riờng bi¾t goi hình ViKEe Úng dnng có the chay dđc lắp hoắc nhỳng vo cỏc ỳng dnng khác mơi trvòng Windows Ket q dat dvoc cúa hình ViKEe theo hvóng tiep c¾n rút trích CDTÐTNN dat dvoc dã dáp úng dvoc mnc tiêu de cúa lu¾n án se góp phan thi¾n hi¾u suat cúa hình ket hop cúa ViKE trvòng hop CDTÐTNN khơng dvoc xác d%nh hình ViKEa theo hvóng xác d%nh dna Ontology ViO Ngồi ra, chúng tơi cung dã tích hop ViKEe nhv l mđt mụ-dun cỳa hắ thong truy xuat thụng tin xun ngơn ngu có ho tro tieng Vi¾t goi VIRs H¾ thong cho phép truy xuat thơng tin huu ích -6- -47- trien Dvói dây, chúng tơi trình bày m®t so hvóng phát trien chính: - Ve hvóng tiep cắn xỏc d%nh CTéTNN, mđt van de can mú rđng l khai thỏc cỏc moi quan hắ dong nghia thơng qua ontology ve ngơn ngu (ví dn nhv Wiktionary, WordNet, ) Ðong thòi khai thác moi quan h¾ (là quan h¾ dong nghia, quan h¾ phán nghia, hay quan h¾ thành phan, ) giua trang thơng tin thông qua liên ket cúa chúng Wikipedia Tự dú mú rđng cỏc khỏi niắm v cỏc quan h¾ cúa danh hi¾u Ontology ViO cung nhv dien ViDic, nham nâng cao hi¾u suat xác d%nh CTÐTNN cúa h¾ thong câu tieng Vi¾t hình ViKE sn ket hop cúa hai hình theo hvóng tiep c¾n ngơn ngu hoc máy (mơ hình ViKEa ViKEe) - Ю tvong tn ngu nghia cúa khái ni¾m thnc the có tên chva dvoc kháo sát lu¾n án Ðong thòi, vi¾c khai thác d® tvong tn giua thành phan cúa thnc the có tên nhv d® tvong tn ve tên, lóp, c¾p tên-lóp danh hi¾u cung chva dvoc khai thác Ðây m®t nhung hvóng phát trien quan cúa de tài - Ve hvóng van de rút trích CDTÐTNN, m®t van de can khai thác giai doan huan luy¾n mau cho hình hoc máy can dvoc r®ng cho tùng lãnh vnc cn the, cung nhv c¾p nh¾t thêm kho ngu li¾u huan luy¾n nham nõng cao dđ chớnh xỏc cỳa hắ thong - Mđt hvóng phát trien khác cung rat quan vi¾c áp dnng hình cho ngơn ngu khác, hình dvoc phát trien, kháo sát, cung nhv thnc nghi¾m lu¾n án deu tieng Vi¾t Thơng qua vi¾c phát trien hình cho ngôn ngu khác (nhv tieng Anh) de so sánh dánh giá phvong pháp dvoc de xuat lu¾n án vói phvong pháp khác, cung nhv dánh giá trình toi vu chi phí hình ket hop ViKE 7.3 Ket lu¾n Lu¾n án dã trình bày hvóng tiep c¾n de giái quyet tốn rút trích cnm danh d¾c trvng ngu nghia cúa câu don tieng Vi¾t phân tích dánh giá tùng hvúng tiep cắn, luắn ỏn dó de xuat mđt mụ hình ViKE cho tốn rút trích CDTÐTNN -46- -7- - Vòng l¾p chon giá tr% a2 cho |E1-E2| có giá tr% lón nhat toi vu hóa hai h¾ so C¾p nh¾t SVMs theo giá tr% mói cúa hai h¾ so vùa tìm dvoc 5.2.5.4 Huan luy¾n hình SVMs kho ngu li¾u dùng de huan luy¾n, moi vói thơng tin cúa thơng tin cúa ngu cánh xung quanh se dvoc vecto so hóa (m¾c d%nh chieu dài vecto tù) Nên moi mau huan luy¾n se m®t vecto so thnc Các vecto so thnc dau vào cúa q trình huan luy¾n bang giái thu¾t SMO Ket q cúa q trình huan luy¾n có m®t hình so Cn the chí can tính vecto so w phân loai mau bang công thúc (5.15): { l f  xsignwxbsign| ) i yi [ i1 [ xi , x  b | J Neu xét chi tiet hon, hàm huan luyắn tuyen tớnh l mđt trvũng hop dắc biắt cúa vi¾c úng dnng hàm kernel nham tìm moi liên h¾ giua mau thơng qua hàm kernel K(xi,x) tuyen tính nhv cơng thúc (5.30): N f  x  ) i j K xi , S x  b Witten (2006) dùng quan h¾ dong nghia phán nghia de tính tốn d® tvong dong cúa CTÐT dn tuyen vói tính tốn thong kê de cỏi tien dđ chớnh xỏc cỳa viắc xỏc d%nh Tuy nhiên, m¾t khơng thu¾n loi cúa phvong pháp xác d%nh CTéT l nú dũi húi mđt kho ngu liắu có giái lón Trong cơng trình Hulth (2004), tác giỏ trỡnh by mđt ky thuắt hoc mỏy khỏc vúi ky thu¾t dã dùng cơng cn xú lý ngôn ngu tn nhiên Tác giá cung dã so sánh phvong pháp khác de dánh giá vi¾c rút trích cnm dn tuyen nhv phvong pháp gom ccm danh (NP chunking), so trùng mau loai (POS), cuoi rút trích n-gram M¾c dù khơng so sánh dánh giá phvong phỏp trờn cựng mđt ti liắu thnc nghiắm, nhvng ket dánh giá cúa Hulth lai cao hon dáng ke so vói cơng bo cúa KEA GenEx (theo hvóng tiep c¾n rút trích) Hulth tá q trình thnc hi¾n giái thu¾t dã dvoc tien sau sú dnng ky thu¾t hvóng ngơn ngu cho khâu tuyen chon phân loai Ket nh¾n d%nh cúa Hulth m®t d®ng lnc thúc day de khai thác ky thu¾t xú lý ngơn ngu tn nhiên sâu hon cho tốn rút trích xác d%nh CTÐT 3.3 Ket chvong i1 Vói xi : vecto ho tro ; b : d® dòi ban dau dã tìm dvoc Ðe r®ng phân loai cho nhieu doi tvong, q trình thnc hi¾n can sú dnng hàm gán nhãn cho tùng loai bang công thúc (5.31): thông tin cúa trung tâm thông tin cúa ngu cánh lân c¾n t¾p tin hình so, cho moi vecto di qua b® phân loai g(x) = sign(f(x)) Sau huan luy¾n, du li¾u dvoc hình theo ba nhãn gom cnm nên tin mụ hỡnh so se chỳa bđ phân loai tvong úng vói lóp I, O B 5.2.5.5 Rút trích cnm danh d¾c trvng ngu nghia Ðau vào cúa vi¾c rút trích cung t¾p vecto so thnc nhv giai doan huan luy¾n moi vecto dai diắn cho mđt tự cõu chỳa -36- -17- Vói kháo sát chvong này, cá hai hvóng tiep c¾n rút trích xác d%nh CTÐT deu có vu diem cung nhv han che Lu¾n án dã dva m®t hình cho tốn rút trích CTÐTNN câu tieng Vi¾t hình sn phoi hop giua hai hvóng tiep c¾n rút trích xác d%nh CTÐT nham phát huy vu diem cúa cá hai hvóng, dong thòi han che han che cúa chúng Ngồi chvong này, lu¾n án cung dã trình bày phvong pháp cho cơng doan co bán cúa cá hai hvóng tiep c¾n giai doan tien xú lý nhv toán phân doan toán gán nhãn loai, cung nhv phvong pháp dánh giá hi¾u suat cho hình de xuat Các chvong tiep theo, lu¾n án se trình bày lan lvot cơng doan lai cúa hình ViKE thơng qua hai hình tvong úng vói hai hvóng tiep c¾n xác d%nh rút trích CTÐTNN -36- -18- Vói hvóng tiep c¾n xác d%nh CTÐTNN, vi¾c nghiên cúu phát trien m®t co só tri thúc (hay ontology) có tính khái qt, xác moi quan h¾ chúng de tang tính hi¾u q cho vi¾c xác d%nh CTÐTNN rat quan Ðong thòi, ky thu¾t so trùng mà lu¾n án de xuat hình xác d%nh CTÐTNN, cung nhv ket q cúa hình se dvoc phân tích dánh giá Còn hvóng tiep c¾n rút trích CTÐTNN, vói mnc tiêu giái quyet trvòng hop cnm dn tuyen khơng có khái ni¾m tvong úng Ontology, lu¾n án dã de xuat hình rút trích CTÐTNN tieng Vi¾t ViKEe Ðe xây dnng hình này, lu¾n án di theo hvóng tiep c¾n hoc máy có giám sát cn the phvong pháp SVMs de giái quyet tốn thieu kho ngu li¾u có giái lón q trình huan luy¾n Chvong HÌNH XÁC éNH CUM T éắC TRUNG NGU NGHIA TRONG TIENG VIẵT (ViKEa) PHUÐNG PHÁP SO TRÙNG MAU DUA TRÊN ONTOLOGY gom nhãn loai (pos), nhãn gom cnm IOB (chunk) Kho ngu li¾u XML có dang nhv sau: Vi¼t Nam bã tré thành thành viên cúa WTO . Trong dó: I: ó cnm tù; O: ó ngồi cnm tù; B: bat dau cúa cnm neu trvóc dó có cnm khác lien ke Kho ngu li¾u dvoc chia thành hai t¾p riêng bi¾t dùng de huan luy¾n (goi t¾p C2) thú nghi¾m (goi t¾p C1) vói tý l¾ tvong úng 60% 40% T¾p ngu li¾u C2 C1 Báng 5.1: Kho ngu li¾u So lvong So lvong câu 61.435 4.137 10.229 2.079 So cnm 12.785 3072 5.2.5.3 Xây dnng hình cho SVMs 4.1 Giói thi¾u Nhv dã tháo lu¾n chvong 3, m¾c dù CTÐTNN dvoc rút trích tn d®ng theo hvóng xác d%nh CTÐTNN có d® xác cao nhv Hulth dã công bo (Hulth, 2004) Nhvng de dat dvoc ket quỏ dú, hvúng tiep cắn ny can mđt co só tri thúc hay Ontology có tính khái qt, xác có moi quan h¾ chúng de tang tính hi¾u q cho vi¾c xác d%nh CTÐTNN Nói mđt cỏch khỏc, viắc nghiờn cỳu v phỏt trien mđt co só tri thúc hay ontology tieng Vi¾t rat quan can thiet Trong chvong này, lu¾n án chí trình bày hình rút trích cnm danh d¾c trvng ngu nghia theo hvóng xác d%nh CTÐTNN dna có só tri thúc phvong pháp so trùng mau dvoc goi ViKEa (Hình 4.1) Phan lai cúa chvong dvoc to chúc thành ba phan: Phan 4.2 trình bày cơng doan rút trích cnm danh dn tuyen bang phvong pháp so trùng mau dna t¾p mau nh¾n dang cnm danh co -18- Do vu diem cúa giái thu¾t SMO vi¾c huan luy¾n cho SVMs (Jones, 2001), nên lu¾n án áp dnng nú de huan luyắn du liắu tao mđt hình dùng q trình phân lóp Ý tvóng cúa giái thu¾t moi bvóc huan luy¾n lay diem mau t¾p huan luy¾n thóa dieu ki¾n chon cúa heuristic de tìm giá tr% a1, a2 tvong úng c¾p nh¾t vào vecto a cho thóa ràng bu®c tuyen tính xun suot q trình giái thu¾t: l ) y i 1 i i 0 Heuristic dùng de chon hai giá tr% a1, a2 tai moi bvóc l¾p, thnc hi¾n tiep c¾n vòng l¾p: vòng l¾p ngồi chon lna a1, vòng l¾p chon a2 - Vũng lắp ngoi xen ke giua mđt lan duyắt qua ton bđ du liắu v lắp lai nhieu lan trờn cỏc khụng thuđc biờn (0 < a1 < C) cho den ton bđ du liắu huan luy¾n thóa dieu ki¾n KKT ó (5.21) -35- - Ðoi vói quan h¾ giua cnm danh tù: dna vào t¾p tin relword.cn Vói hvóng giái quyet này, du li¾u dau vào cúa SVMs vecto so chí có hai giá tr% cúa tính chat nhãn loai thay bon tính chat, nên thòi gian huan luy¾n cung nhv thòi gian phân loai nhanh hon Ðong thòi hai tính chat cau trúc ccm danh tù, quan h¾ giua ccm danh dvoc tham gia trnc tiep bvóc xác d%nh nhãn gom cnm IOB q trình huan luy¾n cung nhv phân loai Do dó, thơng tin se chi tiet xác, sn phân bi¾t giua mau se rõ ràng hon 5.2.5.2 Xây dnng kho ngu li¾u Theo hvóng tiep c¾n bang phvong pháp thong kê thỡ dđ chớnh xỏc cỳa hắ thong hon ton phn thuđc vo kho ngu liắu Tuy nhiờn, hau het cỏc cơng trình nghiên cúu xú lý ngơn ngu tieng Vi¾t deu chva cú mđt kho ngu liắu chuan nhv kho ngu li¾u tieng Anh (Penn Treebank) Ðe giái quyet van de cho mnc tiêu nghiên cúu cúa de tài, lu¾n án dã xây dnng thú cơng kho ngu li¾u qua cơng doan sau: - Các t¾p mau câu dvoc lay nguon TREC07(446 câu hói); TREC06 (492 câu hói); TREC02 (440 câu hói); www.lexxe.com, 2005-2010 (701 câu) Tong cđng mau thu dvoc gom 2079 cõu tieng Anh dvoc Hđi Nghiờn Cỳu D%ch Thuắt Tp Ho Chớ Minh d%ch sang t¾p mau câu tieng Vi¾t tvong úng, dvoc goi t¾p mau C1 - Ngồi ra, vói mnc dích da dang hóa de bang báo thuđc nhieu linh vnc khỏc nhau, luắn ỏn thu thắp website vnexpress.net 4137 câu tvòng thu¾t, dvoc goi t¾p mau C2 - Hai t¾p mau C1 C2 gom 6216 câu dvoc tien xú lý, phân doan gán nhãn loai (Chau Q Nguyen Tuoi T Phan, 2007) de tao thành kho ngu li¾u só; Phan 4.3 tá cơng doan xác d%nh cnm danh d¾c trvng ngu nghia (CDTÐTNN); Phan cuoi ket chvong Câu tieng Vi¾t T¾p lu¾t cau trúc cnm danh Ontology ViO Tien xú lý Phân doan CDTÐTNN Rút trích cnm danh Xác d%nh CDTÐTNN Gán nhãn loai Hình 4.1 hình rút trích CDTÐTNN theo hvóng xác d%nh 4.2 Rút trích cnm dn tuyen Trong phan này, lu¾n án trình bày hvóng giái quyet cho cơng doan rút trích cnm danh co bán 4.2.1 Xây dnng co sõ tri thúc dang cau trúc cnm danh Theo nhv hỡnh (Hỡnh 4.1), viắc xõy dnng mđt co sú tri thúc cho mau cau trúc cnm danh de dna vào dó nh¾n di¾n dvoc cnm danh câu tieng Vi¾t Trvóc tiên can phái nghiên cúu ve cau trúc cung nhv d¾c tính ngu pháp cúa cnm danh Ð%nh nghia 4.1: Cnm danh loai to hop danh vói m®t so ngu phn thu®c tao thành, có ý nghia day dú có cau tao phúc tap hon m®t danh tù, nhvng hoat d®ng câu có chúc nang cỳa mđt danh tự (Diắp Quang Ban, 2004; Nguyen Tài Can, 1996) - Cuoi kho ngu li¾u dvoc thnc hi¾n gán nhãn gom cnm (IOB) theo d%nh dang XML, moi nam m®t hàng theo thú tn Dang thú nhat: { Phan phn trvóc}{ Phan trung tâm }{ Phan phn sau} Ví dn: {Tat cá nhung}{ em hoc sinh}{ cham ngoan ay} Dang thú hai: { Phan phn trvóc}{ Phan trung tâm } Ví dn: {Tồn the các}{ giáng viên} Dang thú ba: { Phan trung tâm }{ Phan phn sau} -34- -19- Ví dn: { ngvòi chong}{ hanh phúc ay} Nhv v¾y dna khái ni¾m ve phan phn phan trung tâm cúa cnm danh loai có the cúa chúng, lu¾n án dã xây dnng dvoc t¾p lu¾t nh¾n di¾n cnm danh co só bao gom 434 mau có dang nhv sau: - Lu¾t 1:  ((||) ( |) (|||) (||) (| )* (|)*) … Trong dó: | - ho¾c * - ho¾c nhieu 4.2.2 Bài tốn rút trích cnm danh bang phvong pháp so trùng mau Ve phvong pháp, hình rút trích cnm danh bang phvong pháp so trùng mau, dna vào t¾p mau cau trúc cnm danh có gán nhãn loai nh¾n dvoc cơng doan trvóc, de nh¾n di¾n cnm danh câu don tieng Vi¾t dang xét Ý tvóng cúa phvong pháp dna vào cau trúc van pham tieng Vi¾t de xõy dnng mđt cỏc mau, dvoc xỳ lý búi máy trang thái huu han Ket quá, lu¾n án dã xây dnng dvoc 434 mau nh¾n di¾n cnm danh bao gom cá mau nh¾n di¾n danh riêng T¾p mau dvoc hi¾n thnc bang Java Annotation Patterns Engine (JAPE) (Phn lnc B) B® phân tích co só máy trang thái huu han tao giái có tên ‘KNP’ vói thu®c tính giá tr% dvoc mã hóa (nhv ‘type’, ‘POS’, ‘string’,…) T¾p mau dùng ket q dau cúa cơng doan gán nhãn loai cung nhv thơng tin nh¾n di¾n tieng Vi¾t de nh¾n di¾n cnm danh câu don tieng Vi¾t dang xét Tv tvóng cúa giái thu¾t nh¾n di¾n cnm danh dvoc quy ve vi¾c so trùng mau có co só tri thúc Trong thnc te q trình so -20- 5.2.5.1 Lna chon tính chat d¾c trvng Vói phvong pháp SVMs, so tính chat d¾c trvng cúa mau nhieu thơng tin se chi tiet xác, sn phân bi¾t giua mau se rõ ràng hon Tuy nhiên, dó se dòi hói t¾p du li¾u huan luy¾n lón, thòi gian huan luy¾n cung nhv thòi gian phân loai se lâu hon Vì v¾y, lu¾n án sú dnng bon tính chat d¾c trvng vai trò cú pháp cúa nhãn loai nhv dã nêu (Nguyen Quang Châu, Hong Thanh Lu¾n, Phan Th% Tvoi, 2008) cau trúc cú pháp cúa cnm quan h¾ giua cnm de cân bang giua yeu to Ðoi vói phvong pháp hoc máy khác loai du li¾u dau vào dòi hói phái khác Do du li¾u dau vào cúa SVMs vecto so giá tr% nêu se dvoc vecto so hóa, cn the: - Ðoi vói tù: dna vào t¾p tin danh sách loai tieng Vi¾t vnlex60K.lst vnlex40K.lst (Chau Q.Nguyen, Tuoi T.Phan, 2007) vói khống 102.000 de tính v% trí cúa danh sách Tuy nhiên, so lvong loai tvong doi lón, se gây khó khan cho vi¾c tính tốn nên giá tr% se dvoc chia cho tong so lvong - Ðoi vói nhãn loai (POS): dna vào t¾p tin vnpos.lst (Chau Q.Nguyen, Tuoi T.Phan, 2006) vói 50 nhãn loai Ví dn: Câu “Vi¾t Nam tró thành thành viên cúa WTO nào?” Neu vecto so hóa “tró thành” vúi dđ di vecto mắc d%nh l tự thỡ có vecto so thnc vói dang nhv sau: 0.8041931 0.4 0.6351226 0.8 0.0 1.0 Trong dó: 0.8041931: giá tr% cúa “Vi¾t Nam” 0.4: giá tr% loai cúa “Vi¾t Nam” 0.6351226: giá tr% cúa “tró thành” 0.8: giá tr% loai cúa “tró thành” 0.0: giá tr% cúa “thành viên” 1.0: giá tr% loai cúa “thành viên” Riêng hai tính chat cau trúc ccm quan h¾ giua ccm danh dvoc tham gia trnc tiep bvóc xác d%nh nhãn gom cnm IOB, nhãn cho biet dó nam ho¾c ngồi cnm danh d¾c trvng ngu nghia dong thòi tên lóp SVMs - Ðoi vói cau trúc cnm danh tù: dna vào t¾p tin knp.cn vói 434 mau nh¾n dang cau trúc cnm danh -33- - Mơ-dun rút trích cnm danh d¾c trvng ngu nghia tieng Vi¾t dvoc de ngh% se áp dnng phvong pháp hoc máy SVMs, cn the áp dnng giái thu¾t SMO de huan luy¾n mau Các mau tieng Vi¾t dã dvoc phân doan gán nhãn loai Dna vào t¾p tính chat cúa trung tâm nhv giá tr% cúa v% trí tù, nhãn loai thơng tin ngu cánh (nhv giá tr% cúa v% trí tù, nhãn loai) cúa lân c¾n Tat cá thơng tin dvoc so hóa làm thơng tin dau vào cho cá hai giai doan huan luy¾n rút trích CDTÐTNN Câu tieng Vi¾t ……… …… ……… Rút trích cnm danh d¾c trvng ngu nghia Huan luy¾n hình dvoc huan luy¾n Tien xu lý Phân doan SVMs (Giái thu¾t huan luy¾n SMO) Kho ngu li¾u huan luy¾n Gán nhãn loai Rút trích CDTÐTNN tieng Vi¾t Các CDTÐTNN Hình 5.6 hình rút trích CDTÐTNN-ViKEe 5.2.5 ÐUN RÚT TRÍCH CUM оC TRUNG NGU NGHIA TRONG TIENG VIẵT Ve giỏi thuắt, phvong phỏp SVMs dvoc dựng de rút trích CDTÐTNN bao gom bvóc sau  Lna chon tính chat d¾c trvng  Xây dnng kho ngu li¾u  Xây dnng hình cho SVMs  Huan luy¾n hìnhRút trích cnm danh d¾c trvng ngu nghia -32- trùng thu dvoc rat nhieu mau Ðây trvòng hop nh¾p nhang phvong ỏn giỏi quyet cỳa luắn ỏn l mau cú dđ dài cnc dai se dvoc chon, cn the dvoc trình bày giái thu¾t 4.1 4.3 Cơng doan xác d%nh cnm d¾c trvng dna ontology 4.3.1 Khai thác Wikipedia Co só tri thúc vói nen táng ontology ngày dvoc sú dnng r®ng rãi vói sn dòi phát trien cúa Web có ngu nghia M®t ontology, theo (Swartout v CS, 1996) l mđt hop có cau trúc phân cap thu¾t ngu dùng de tá m®t linh vnc dó có the dvoc dùng nhv m®t b® khung cho m®t co só tri thúc Nói m®t cách don gián, ontology m®t h¾ thong phân cap khái ni¾m, co só tri thúc bao gom nen táng m®t ontology c®ng vói thơng tin cn the cúa tùng khái ni¾m Các hvóng nghiên cúu t¾p trung xây dnng khai thác ‡‡ §§ *** Ontology hay co só tri thúc nhv KIM , OpenCyc , Wikipedia ,… Trong dó, Wikipedia nhv l mđt hiắn tvong búi tớnh da ngụn ngu (bao gom 253 ngôn ngu) kho giàu tri thúc nhat hi¾n (Zesch CS, 2008) ††† Trong Vi.wiki , dau vào co bán trang thông tin M®t trang thơng tin có the m®t viet bỡnh thvũng núi ve mđt khỏi niắm hay mđt thnc the M®t trang thơng tin cung có the m®t trang doi hvóng - trang dan ban den trang có tên khác (có the thơng dnng hon) nói ve m®t de tài M®t trang thơng tin cung có the m®t trang d%nh hvóng - m®t viet giái thích ve ý nghia bien nhat cúa thu¾t ngu, bên dvói li¾t kê liên ket den viet có tna de (tên viet) tvong tn ho¾c có khái ni¾m tvong tn, giúp d%nh hvóng cho ngvòi doc den dúng viet mà ho dang tìm Moi trang thơng tin dvoc d%nh danh bang danh hi¾u nhat, danh hiắu dvoc dắt phự hop vúi nđi dung tá doi tvong dvoc de c¾p trang Trong moi trang, ngồi thơng tin tá ve doi tvong chúa nhieu liên ket den trang liên quan khác Các ‡‡ www.ontotext.com/kim/ www.opencyc.org/ *** www.wikipedia.org/ §§ -21- ††† Tat cá du li¾u sú dnng phan dvoc lay nguon Vietnamese Wikipedia database dump 4/2/2009 -32- -21- trang liên quan có the tá ve doi tvong có quan h¾ thành phan, dong nghia, hay phán nghia vói doi tvong mà trang chúa liên ket de c¾p H¾ thong trang doi hvóng có the dvoc xem nhv m®t dien ve cnm dong nghia, cnm bien the, hay cnm viet tat Ngoi ra, Vi.wiki cú mđt hắ thong phõn chia the loai cỏc doi tvong Hắ thong ny l mđt nguon thơng tin ngu nghia rat huu ích, dvoc dùng de phân loai de cúa trang thơng tin H¾ thong phân loai cúa Vi.wiki khơng chí cung cap h¾ thong phân cap doi tvong the giói th¾t, mà có the bieu dien dvoc quan h¾ giua the loai cúa doi tvong nhv cỏc quan hắ thnh phan (thuđc quan hắ isa) v cỏc quan hắ dong nghia (thuđc quan hắ non-isa), Nhv v¾y, moi trang thơng tin dvoc liên ket vúi mđt hoắc nhieu the loai, cỏc the loai ny có the có tieu the loai vói quan h¾ thành phan quan h¾ dong nghia 4.3.2 Xây dnng Ontology tieng Vi¾t ViO dien ViDic Nghiên cúu ve nguon tài ngun cúa Vi.wiki, hvóng tiep c¾n cỳa luắn ỏn bao gom hai bvúc sau: Bvúc mđt: Rút trích phân cap cúa Vi.wiki quan h¾ cúa chúng nhv quan h¾ thành phan, quan hắ khụng thnh phan, de tao mđt Ontology ViO phnc tốn rút trích cnm danh d¾c trvng ngu nghia câu tieng Vi¾t Lu¾n án sú dnng Java-based Wikipedia Library (JWPL) (Zesch CS, 2007) (Phn lnc A) de rút trích tài nguyên Wikipedia nhv trang thông tin, liên ket, the loai trang doi hvóng Ket dat dvoc Ontology ViO có 157.994 khái ni¾m (danh hi¾u) 322.631 the loai Bvóc hai: Rút trích danh hi¾u cúa trang thơng tin vói danh hi¾u cúa trang doi hvóng vói chúng de tao m®t dien tieng Vi¾t (ViDic – Vietnamese Dictionary) Vì mnc tiêu xác d%nh cnm danh d¾c trvng ngu nghia nên lu¾n án xem moi trang thơng tin Wikipedia m®t d%nh nghia cho doi tvong mà trang tá danh hi¾u tvong úng cúa có cnm danh d¾c trvng ngu nghia cho doi tvong Danh hi¾u cnm danh d¾c trvng ngu nghia cúa -22- K f1vs1  xarg max )  x i K )V ij (5.31) i 1 j 1i j vói dieu ki¾n: Vij(x) = neu gij(x) = +1 hay x CDTÐTNN neu gij(x) = -1 hay x khơng phái CDTÐTNN qui vóc 1vs1 phân bi¾t loai ci vói loai cj Neu t¾p C gom cnm can phân loai có kích thvóc N: vói ý tvóng chon loai ci phân bi¾t vói loai lai dvoc ký hi¾u 1vsR (One vs Rest), ke tiep chon m®t ci’ phân bi¾t vói loai lai,…làm tvong tn cho den het Lúc dó hàm phân loai (5.33) tró thành: f1vsR  xarg max f i (x) i (5.32) vói i = 1, …,N ó dây, fi(x) hình phân loai SVMs lóp thú i cúa N lóp phân loai SVMs 5.4 hình ViKEe hình dvoc tác giá de xuat (Hình 5.6) bao gom hai mơ-dun (a) mô-dun tien xú lý truy van nham phân doan gán nhãn loai, (b) mơ-dun rút trích cnm danh d¾c trvng ngu nghia tieng Vi¾t Co che rút trích cnm danh d¾c trvng ngu nghia thnc hi¾n dna phvong pháp hoc máy lan lvot dvoc trình bày qua tốn (Hình 5.6): -31- - Các mơ-dun tien xú lý dvoc phát trien mói cho tieng Vi¾t (dvoc trình bày phan 3.4.1 cúa Chvong 3) -22- -31- tốn rút trích cnm danh d¾c trvng ngu nghia; Phan 5.4 trình bày hình de xuat cho tốn rút trích cnm danh d¾c trvng ngu nghia câu tieng Vi¾t; Phan 5.5 trình bày ket thnc nghi¾m dánh giá; Phan 5.6 phan ket chvong 5.2 Phvong pháp Support Vector Machines Co só tốn hoc cúa phvong pháp phân loai SVMs dna nen táng lý thuyet hoc thong kê (statistical learning theory) lý thuyet không gian vecto (vector space) 5.3 Phát bieu tốn rút trích cnm danh d¾c trvng ngu nghia câu tieng Vi¾t Ve m¾t hình thúc, tốn rút trích cnm danh d¾c trvng ngu nghia câu tieng Vi¾t dvoc phát bieu nhv sau Neu d¾t C t¾p cnm danh dn tuyen K t¾p cnm danh d¾c trvng ngu nghia câu quan h¾ giua hai cnm danh dvoc bieu dien bói hàm f: K x C ‹ { 0, 1} Vói c C, k K, {1 f(c,k) { neu c k có quan h¾, hay k CDTÐTNN [0 trvòng hop ngvoc lai Bán chat cúa SVMs phvong pháp phân loai nh% phân, t¾p du li¾u ban dau sau dvoc SVMs phân loai se chia thành hai t¾p phân bi¾t Nhvng thnc te, loai du li¾u dòi hói phái phân chia thành nhieu loai khác оc bi¾t áp dnng vào tốn xác d%nh cnm danh d¾c trvng ngu nghia dna the hi¾n nhãn gom cnm IOB (trong dó nhãn I: cho biet ó cnm tù; nhãn O: cho biet ó ngồi cnm tù; nhãn B: cho biet bat dau cúa cnm neu trvóc dó có cnm khác lien ke) Vói d¾c tá tốn nhv trên, ý tvóng cúa phvong pháp SVMs de rút trích cnm danh d¾c trvng ngu nghia tieng Vi¾t dvoc tá nhv sau m®t doi tvong dvoc d%nh nghia moi trang neu thóa mãn m®t tiờu sau: - Neu danh hiắu cỳa mđt trang thơng tin m®t câu trvòng hop CDTÐTNN tvong úng se CDTÐTNN cho câu - Neu danh hiắu l mđt cnm tự thỡ CDTéTNN tvong ỳng cnm dó Theo phvong pháp nhv trên, cau trỳc cỳa tự dien ViDic l mđt cỏc dau mnc, moi dau mnc bao gom: CDTÐTNN, danh hi¾u, cnm dong nghia có dvoc CDTÐTNN cúa trang doi hvóng Moi dau mnc dien dvoc ánh xa tói the loai ViO Ket dat dvoc dien ViDic có tong c®ng 152.450 dau mnc, moi dau mnc có cau trúc dvoc minh hoa nhv sau: < CDTÐTNN >< danh hi¾u cúa trang CDTÐTNN cúa trang doi hvóng> thơng tin>< Trong trvòng hop có nhieu trang mà ket q cúa q trình rút trích danh hiắu cho cựng mđt CDTéTNN thỡ moi dau mnc dien ViDic có dang: < CDTÐTNN >< danh hi¾u cúa trang thơng tin 1>< CDTÐTNN cúa trang doi hvóng 1>,…,< danh hi¾u cúa trang thơng tin n>< CDTÐTNN cúa trang doi hvóng n> Trvòng hop m®t CDTÐTNN có nhieu danh hi¾u chí chiem tí l¾ 52 tong 152450 dau mnc dien ViDic Trong phvong pháp tiep c¾n này, m¾c dù lu¾n án sú dnng thơng tin Wikipedia de tao m®t dien ViDic, nhvng phvong pháp có the áp dnng cho Ontology hay co só tri thúc khác 4.3.3 Bài tốn rút trích cnm danh d¾c trvng ngu nghia g(x)ij = sign(f(x)ij) (5.30) Khi dó, m®t cnm x chva biet se dvoc phân loai nhv sau: -30- Ðe giái quyet khâu chon loc cnm danh d¾c trvng ngu nghia cnm danh dn tuyen nh¾n dvoc, lu¾n án -23- sú dnng Ontology ViO nhv m®t phân cap cúa the loai cho tốn -30- -23- rút trích cnm danh d¾c trvng ngu nghia câu tieng Vi¾t hình cúa tốn dvoc trình bày Hình 4.1 Ðau vào cúa hình câu dã dvoc tien xú lý (nhv phân doan tù, gán nhãn loai) rút trích cnm danh dn tuyen, cuoi giai doan xác d%nh CDTÐTNN Câu…… tieng Vi¾t (dã…dvoc tien xú lý rút trích cnm dn tuyen) …… Ngồi ra, hvóng nghiên cúu khai thác Vi.Wiki nhv mđt ontology tieng Viắt khụng de phnc cho vi¾c xác d%nh cnm danh d¾c trvng ngu nghia cho cõu tieng Viắt m cũn mú mđt hvóng giái quyet cho van de thieu kho ngu li¾u ho tro cơng trình nghiên cúu ve xú lý ngơn ngu tieng Vi¾t bang máy tính hi¾n Chvong HÌNH RÚT TRÍCH CUM оC TRUNG NGU NGHIA TRONG TIENG VIẵT THEO HUộNG TIEP CắN RT TRCH (ViKEe) – PHNG PHÁP HOC MÁY 5.1 Giói thi¾u Xác d%nh CDTÐTNN Dna vào quan h¾ (so trùng lu¾t) Ontology ViO Các CDTÐTNN …… …… …… Dva vào Ontology Hình 4.3 hình rút trích CDTÐTNN dna vào so trùng mau & Ontology Giai doan xác d%nh lan lvot dvoc thnc hiắn qua cỏc bvúc sau: Bvúc mđt: Dna vào thông tin ngu cánh tù, hay cnm quan h¾ de nh¾n di¾n CDTÐTNN Ý tvóng cúa phvong pháp di khai thác d¾c thù riêng cúa tieng Vi¾t de xây dnng mđt cỏc tự (hay cnm tự) m nú phỏn ánh moi quan h¾ ngu nghia giua cnm danh Ví dn nhv câu “Máy tính có dung lvong RAM bao nhiêu?” Trong câu có hai cnm danh “Máy tính này” “dung lvong RAM”, tvong úng có hai doi tvong the giói thnc “Máy tính” “RAM” Bài tốn d¾t lna chon dvoc cnm danh mà d¾c trvng ngu nghia cho câu Hvóng tiep c¾p cúa lu¾n án quan tâm den ý nghia cúa quan h¾ -24- Phvong pháp hoc máy mà lu¾n án trình bày phvong pháp Support Vector Machines (SVMs), phvong pháp phân loai du li¾u có giám sát dna nguyên lý cnc tieu hóa rúi ro cau trúc, dvoc Vapnik giói thi¾u lan dau tiên vào nam 1995 M¾c dù, SVMs chí phvong pháp phân loai nh% phân nhvng tính hi¾u q vvot trđi so vúi cỏc phvong phỏp phõn loai du liắu khác; nên SVMs dã dvoc phát trien de có the áp dnng cho toán da phân loai dvoc úng dnng rat hi¾u nhieu van de thnc te nhv: nh¾n dang chu viet tay, nh¾n dang giong nói, nh¾n dang khn m¾t, phân tích gen, phân loai ánh vien thám,… Quan diem cúa lu¾n án qui vi¾c rút trích cnm danh d¾c trvng ngu nghia ve tốn phân loai hay nh¾n di¾n mau dna vo mđt so cỏc tớnh chat dắc trvng cỳa mau.Vúi hiắu quỏ vvot trđi cỳa SVMs viắc phõn loai du li¾u (Mayer, 2002), áp dnng SVMs se dat dvoc nhieu ket rat quan, minh chúng the hi¾n qua cơng trình áp dnng SVMs (Cheng, 2002; Hearst, 1998; Joachims, 1998;…), so vói cơng trình áp dnng phvong pháp khác Ðó lý lu¾n án áp dnng phvong pháp SVMs de thnc hi¾n giai doan xác d%nh cnm danh d¾c trvng ngu nghia câu tieng Vi¾t cho hình ViKEe Các phan lai cúa chvong dvoc bo cnc nhv sau: Phan 5.2 trình bày khái quát phvong pháp SVMs; Phan 5.3 phát bieu -29- Lu¾n án tien hành dánh giá t¾p mau câu tvòng thu¾t câu hói dvoc lay nguon du li¾u cúa TREC (http://trec.nist.gov/data/) (TREC, 2009) TREC07 (bao gom 446 câu hói), TREC06 (bao gom 492 câu hói), TREC02 (bao gom 440 câu hói); t¾p 701 câu website www.lexxe.com (Qiao, 2010) Sau dó t¾p mau thu dvoc gom 2079 cõu tieng Anh dvoc Hđi Nghiờn Cỳu D%ch Thuắt Tp Ho Chí Minh d%ch sang t¾p mau câu tieng Vi¾t tvong úng Ket q dat dvoc d® xác, d® day dú d® trung bình dieu hòa F dvoc trình bày Báng 4.4 giua cnm Nhv ví dn trên, “có ” chí moi quan h¾ só huu giua “Máy tính này” “dung lvong RAM” Ðieu xác d%nh dvoc “dung lvong RAM” cnm danh d¾c trvng ngu nghia cho câu dang xét Dna vào quan h¾ giua cnm câu quan h¾ (Phn lnc – Phan E) cúa van pham tieng Vi¾t, lu¾n án dó xõy dnng mđt luắt de xỏc d%nh cnm d¾c trvng ngu nghia cho cho câu tieng Vi¾t trvòng hop cnm có quan h¾ thành phan vói có dang nhv sau: Lu¾t 1: {Cnm danh A} “nào” {cnm danh B} ‹ {A CDTÐTNN} Lu¾t 2: {Cnm danh A} “gì” {cnm danh B} ‹ {A CDTÐTNN} Báng 4.4: Ket q rút trích CDTÐTNN cúa hình ViKEa E A EfiA Precision Recall F 3236 3072 2293 74.6% 70.8% 72,65% Ket ban dau dat dvoc cao, nhiên theo kháo sát cúa lu¾n án hau het CDTÐTNN dvoc nh¾n dang sai hình ViKEa deu thuđc vo trvũng hop khỏi niắm chva ton tai ontology ViO, mà cn the dien ViDic Ðây m¾t han che cúa hình ViKEa cung mnc tiêu nghiên cúu hvóng tiep c¾n hoc máy de xây dnng d® tvong tn ngu nghia giua cnm Hon nua, vói vi¾c dánh giá so sánh ket thu dvoc hình ViKEa, lu¾n án rút dvoc t¾p tính chat d¾c trvng ve m¾t ngơn ngu cúa cnm danh d¾c trvng ngu nghia T¾p tính chat d¾c trvng quyet d%nh tính d¾c trvng ngu nghia cúa cnm danh so vói cnm danh khác câu Ðây tien de góp phan xác d%nh t¾p tính chat d¾c trvng nh¾n di¾n CDTÐTNN hình ViKEe theo hvóng tiep c¾n rút trích ky thu¾t hoc máy de giái quyet tốn rút trích ccm danh d¾c trvng ngu nghia cho câu don tieng Viắt Mắt khỏc, Wikipedia l mđt ti nguyờn múi ve ngu nghia vnng cho hon 253 ngôn ngu khác Ðieu chúng tó phvong pháp mà lu¾n án de xuat có the áp dnng de xác d%nh cnm danh d¾c trvng ngu nghia cho nhieu ngơn ngu khác -28- … Bvóc hai: Trong trvòng hop giua cnm danh dn tuyen khơng có tù, hay cnm quan h¾ q trình nh¾n di¾n CDTÐTNN se dvoc truy van dna Ontology ViO de rút ngu nghia cúa cnm danh dn tuyen Vói ngu nghia thu dvoc sau truy van, CDTÐTNN se dvoc nh¾n di¾n dna tiêu chí l mỳc dđ chi tiet cỳa khỏi niắm, theo nghia ccm danh dn tuyen tá chi tiet hon se ccm danh d¾c trvng hon  M®t cách cn the, dau tiên cnm danh dn tuyen dvoc so trùng vói CDTÐTNN dien ViDic Vi¾c so trùng dvoc tien vói chien lvoc so trùng cnc dai, so trùng cnc tieu, so trùng tói, so trùng lùi so trùng theo cá hai hvóng Mnc tiêu cúa q trình tien giái quyet van de nhung cnm danh mói khơng có dien nhvng chúng có nòng cot giong  Neu vi¾c so trùng thành cơng, cung có nghia cnm danh dn tuyen ton tai co só tri thúc, q trình xác d%nh the loai cho cnm danh dn tuyen se dvoc thơng qua vi¾c truy van Ontology ViO nham xác d%nh múc d® chi tiet cúa the loai dvoc trình bày phan 4.3.3.1 -25-  Neu so trùng không thành công dien ViDic, nghia cnm danh dn tuyen chva ton tai co só tri thúc, khái ni¾m -28- -26- gan vói cnm dn tuyen dó se dvoc tiep tnc so trùng dna vào cơng thúc d® tvong tn dvoc trình bày phan 4.3.3.2 cúa lu¾n án  Ve ý tvóng, giái thu¾t xác d%nh cnm danh d¾c trvng ngu nghia dna vào Ontology ViO dvoc trình bày ó giái thu¾t 4.2 Giãi thu¾t 4.2 Xác d%nh CDTÐTNN co só Ontology 4.3.3.1 Xác d%nh múc d® chi tiet cua the loai Xác d%nh CDTÐTNN thông qua viắc xỏc d%nh mỳc dđ chi tiet cỳa cỏc the loai Ontology ViO tvong úng vói cnm danh dn tuyen, q trình dvoc thnc hi¾n qua bvóc sau: Bvóc m®t: Neu the loai C1 C2 có quan h¾ dong nghia ViO CDTÐTNN cnm danh tvong úng cúa C1 C2 Trong trvòng hop the loai C1 có quan h¾ thành phan hay isa vói C2 CDTÐTNN cnm tvong úng cúa C1 Bvóc hai: Trong trvòng hop C1 C2 khơng có moi quan h¾ vói nhv Bvóc m®t, q trình phái di tìm the loai to tiên chung gan nhat C cúa the loai C1 C2 Goi h1 chieu dài dvòng di the loai C1 tói the loai C, h2 chieu dài dvòng di the loai C2 tói the loai C Lúc này, vi¾c xác d%nh CDTÐTNN dvoc dna vào sn so sánh giua hai chieu dài h1 h2 Neu chieu dài cúa the loai lón hon cnm danh tvong úng cúa the loai dó se CDTÐTNN, trvòng hop hai chieu dài bang CDTÐTNN se cnm danh tvong úng cúa C1 C2 Ý tvóng cúa q trình xác d%nh CDTÐTNN thơng qua múc d® chi tiet cúa the loai ontology ViO dvoc trình bày tong quát giái thu¾t sau: Giãi thu¾t 4.3 Tìm the loai chi tiet hon ViO 4.3.3.2 Xác d%nh d® tvong tn ve nghia Trong thú tnc tìm khái ni¾m tvong tn ViO Nhi¾m xác d%nh d® tvong tn ve ngu nghia cho cnm danh tù, xem xét ngu -26- nghia cúa chúng phù hop vói khái ni¾m ontology Nói cách khác, d® tvong tn ve nghia cúa chúng gan vói khái ni¾m ontology nhat Ngu nghia cúa tù, cnm tự dvoc the hiắn mđt phan thụng qua ngu cánh tài li¾u dó chúng dvoc de c¾p den Theo nh¾n xét cúa (Harris, 1968), xuat hi¾n nhung ngu cánh giong có ngu nghia tvong tn Nhieu d® tvong tn dã dvoc xây dnng de giái quyet van de này, nghiên cúu ve d® tvong tn ngu nghia giua yeu t¾p trung vào hai hvóng: hvóng tiep c¾n dna ontology hvóng tiep c¾n hoc máy Hvóng tiep c¾n cúa lu¾n án sn ket hop giua hai hvóng Trong hvóng tiep c¾n hoc máy dna trờn kho ngu liắu huan luyắn, mđt cỏc tự thvòng xuat hi¾n dong thòi vói w dvoc xem nhv ngu cánh ngu nghia cúa M®t cách tính d® tvong tn giua xây dnng m®t vecto ngu cánh úng vói t¾p dó (các thành phan tan suat cúa dó vói w) d® tvong tn cúa hai dvoc tính cosine cúa hai vecto ngu cánh cúa chúng Phvong pháp sú dnng lu¾n án tvong tn nhv phvong pháp dvoc de c¾p (Witschel, 2005) ViO dvoc dvoc duy¾t goc nhv quyet d%nh de tìm khái ni¾m phù hop vói tù, cnm can thích ngu nghia Quá trình tìm kiem dùng chon dvoc nút thích hop nhat Giái thu¾t tìm khái ni¾m tvong tn ViO vói cnm danh W dvoc trình bày ó giái thu¾t 4.4 Giãi thu¾t 4.4 Tìm khái ni¾m ViO tvong tn vói W 4.4 Ket chvong Trong chvong ny, luắn ỏn dó trỡnh by mđt hvúng tiep c¾n de giái quyet tốn xác d%nh xác cnm danh d¾c trvng ngu nghia cho câu don tieng Vi¾t Hvóng tiep c¾n dna co só tri thúc Ontology ViO dien ViDic dvoc khai thác Vi.Wiki vói phvong pháp so trùng mau khai thác quan h¾ ngu nghia giua the loai Ontology -27- ... cuoi ket chvong 6.1 Mơ hình rút trích CTÐT tieng Vi¾t Mơ hình tong quát ViKE sn ket hop giua hai mô hình ViKEa ViKEe dvoc trình bày ó Hình 1.1 Trong mơ hình tong qt rút trích cnm danh tù d¾c trvng... xú lý Phân doan tù CDTÐTNN Rút trích cnm danh Xác tù d%nh CDTÐTNN Gán nhãn tù loai Hình 4.1 Mơ hình rút trích CDTÐTNN theo hvóng xác d%nh 4.2 Rút trích cnm tù dn tuyen Trong phan này, lu¾n án trình... li¾u huan luy¾n Gán nhãn tù loai Rút trích CDTÐTNN tieng Vi¾t Các CDTÐTNN Hình 5.6 Mơ hình rút trích CDTÐTNN-ViKEe 5.2.5 MƠ ÐUN RÚT TRÍCH CUM T٠оC TRUNG NGU NGHIA TRONG TIENG VIẵT Ve giỏi thuắt,

Ngày đăng: 20/01/2018, 21:52

Từ khóa liên quan

Mục lục

  • 1.2. Mnc tiêu và pham vi nghiên cúu

  • H®i ngh% Khoa hoc Quoc gia

  • DANH MUC CÔNG TRÌNH CUA TÁC GIÃ

  • Tap chí Khoa hoc

  • 7.3 Ket lu¾n

  • 1.3. Ðóng góp chính cua lu¾n van

  • 2.1 Giói thi¾u

  • 7.2 Hvóng phát trien

  • 2.2.2 Câu

  • 6.3 Ðánh giá hi¾u suat rút trích CDTÐTNN

  • 6.2 H¾ thong rút trích CDTÐTNN trong tieng Vi¾t

  • 2.3 Ket chvong

  • Chvong 3. TONG QUAN CÁC MÔ HÌNH RÚT TRÍCH CUM T٠оC TRUNG

  • 6.1 Mô hình rút trích CTÐT trong tieng Vi¾t

  • 5.6 Ket chvong

  • Chvong 6. MÔ HÌNH RÚT TRÍCH CUM T٠оC TRUNG NGU NGHIA TRONG TIENG VI½T (ViKE) - KET HeP HUéNG TIEP C¾N RÚT TRÍCH VÀ XÁC бNH CTÐT

  • 3.2 Các nghiên cúu liên quan

  • 3.2.1.1 Phvong pháp hoc máy

  • 5.2.5.4 Huan luy¾n mô hình SVMs

  • J

    • 3.3 Ket chvong

Tài liệu cùng người dùng

Tài liệu liên quan