Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
538,14 KB
Nội dung
Đ I H C QU C GIA TP HCM TRƯ NG Đ I H C BÁCH KHOA TP H CHÍ MINH NGUY N CHÁNH THÀNH XÂY D NG MƠ HÌNH M R NG TRUY V N TRONG TRUY XU T THÔNG TIN VĂN B N Chuyên ngành: Khoa h c Máy tính Mã s : 62.48.01.01 TĨM T T LU N ÁN TI N SĨ K THU T TP H CHÍ MINH – 2010 -1- Chương 1- M Đ U 1.1 Đ ng nghiên c u Đ ph c v cho nh ng nhu c u tìm ki m thông tin c a ngư i s d ng, h th ng truy xu t thơng tin (IR) ñư c nghiên c u phát tri n, thành cơng nh t m t s đ ng tìm ki m (search engine) n i ti ng Google–Yahoo–Alta Vista Bing th i gian g n Tuy nhiên, thơng qua h th ng đó, vi c tìm ki m thơng tin thư ng khơng nh n đư c đ y đ k t qu c n thi t mong mu n hi u su t c a chúng cịn có m t s gi i h n nh t đ nh T phân tích trên, nh n th y nguyên nhân h th ng tìm ki m thơng tin chưa đ m nh nên k t qu đưa khơng th h tr ngư i dùng mong ñ i Truy v n c a ngư i dùng chưa ph n ánh ñ y ñ ng nghĩa ñ h tr cho trình tìm ki m truy xu t thơng tin đư c t t Vì v y, vi c b sung ng nghĩa vào truy v n ban ñ u c a ngư i dùng yêu c u c n thi t T t m quan tr ng v tính hi u qu c a trình truy xu t thơng tin ti ng Anh (trên môi trư ng Web), v i hư ng gi i quy t ñ h th ng IR có th hi u nhi u thơng minh x lý truy v n ban ñ u c a ngư i dùng, yêu c u v m t h th ng truy xu t thông tin có kh t o nh ng truy v n ñ ng nghĩa ho c m c tiêu tốn quan tr ng Do đó, v n ñ m r ng truy v n toán quan tr ng mà lu n án nghiên c u ñ xu t phương pháp gi i quy t 1.2 M c tiêu ph m vi nghiên c u T ñ ng nghiên c u nêu trên, lu n án ñ xu t m t s phương pháp m r ng truy v n ban ñ u c a ngư i dùng Đây v n ñ c t lõi ñ ng th i m c tiêu nghiên c u c a lu n án Như ñ nh hư ng nêu trên, ph m vi nghiên c u c a lu n án ñư c th hi n hình 1.1 (trong khung đư ng g ch ñ t nét) -1- (A) (B) Nh p: Câu truy v n d ng c m danh t Xu t: B x lý m r ng truy v n s k th pv i ontology Các câu truy v n: - d ng c m danh t , - ñã ñư c m r ng có d ng truy v n hồn ch nh Đ ng tìm ki m thơng tin K t qu tr v (t p tài li u) (C) Hình 1.1 M i quan h gi a mơ hình c a lu n án h th ng truy xu t thơng tin(c) (A) Mơ hình x lý c a lu n án (ph m vi nghiên c u c a lu n án) (B) Đ ng tìm ki m thông tin (thu c h th ng truy xu t thơng tin) (C) K t qu tìm ki m thơng tin t yêu c u c a câu truy v n m r ng V i mơ hình đư c mơ t hình 1.1, m c (A), câu truy v n nh p (d ng c m danh t bao g m thành ph n tính t hay ch có danh t đơn) đư c x lý ñ tr v t p câu truy v n ñã ñư c m r ng (c m danh t có d ng truy v n hồn ch nhd) Trong ph m vi lu n án, d a gi i pháp rút trích t đ c trưng c t lõi cho m t câu ([8] [39]), câu truy v n ban ñ u c a ngư i dùng ñư c ti n x lý ñ lo i b thành ph n không quan tr ng nh m gi l i nh ng thành ph n th a u ki n truy v n hồn ch nh Đi u s giúp gi m ñư c ñ ph c t p hay d ng bi u di n ph c h p c a truy v n, đ ng th i cịn giúp đ m b o tính nh t c a t ng thành ph n truy v n th a ñi u ki n truy v n hoàn ch nh M c (B) c a hình g m đ ng tìm ki m thơng tin (search engine) Đây m t b ph n quan tr ng c a h th ng Truy xu t Thông tin (Information Retrieval) Đ ng tìm ki m thơng tin gi i c Trong tài li u này, ch s c a hình, b ng bi u tài li u tham kh o ñư c gi ñúng theo quy n lu n văn chính, khơng đánh s l i d Tham kh o ñ nh nghĩa 3.10-Truy v n hoàn ch nh, m c 3.2.6, chương -2- quy t ba v n đ c t lõi mơ hình bi u di n văn b n, thu t tốn tìm ki m so trùng t khóa - đ i sánh ng nghĩa tương ng v i truy v n ch l c k t qu truy xu t Hi n t i th gi i có nh ng đ ng tìm ki m thông tin n i ti ng Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên c u c a lu n án ch s d ng nh ng ñ ng m t công c h tr vi c tìm ki m thơng tin cho truy v n ñã m r ng b ng phương pháp x lý c a lu n án khơng đ t m c tiêu nghiên c u ba v n ñ nêu Vì v y lu n án khơng trình bày ba v n đ Mơ hình x lý c a lu n án (trong m c (A)) ch th c hi n vi c m r ng n i dung c a truy v n nh p nên hồn tồn khơng làm nh hư ng đ n ba khía c nh nêu q trình v n hành c a đ ng tìm ki m m c (B) Đi u cho th y ph m vi nghiên c u c a lu n án hư ng đ n tốn m r ng truy v n d a ontology hoàn toàn khác bi t so v i ba khía c nh nêu T nh ng trình bày trên, tốn c n gi i quy t ph m vi lu n án bao g m: Bài toán - Xây d ng ontology OOMP Nghiên c u phát tri n c u trúc ontology OOMP (Ontology of Object-Member-Property) ch hu n luy n d li u T t o d li u ban đ u d a t p tài li u ti ng Anh t ngu n TREC khai thác d li u t WordNet ñ cung c p ontology OOMP nh m ph c v yêu c u c a toán Bài toán - Xây d ng phương pháp hoàn ch nh m r ng truy v n D a ontology toán 1, nghiên c u xây d ng phương pháp ti p c n m i cho vi c m r ng truy v n nh m t o truy v n k t qu có d ng truy v n hồn ch nh (bi u di n d ng c m danh t v m t ngôn ng h c) xây d ng gi i thu t h tr ph m vi toán Conference on Principles and Practice of Knowledge Discovery in Databases Dubrovnik, Croatia 22 September 2003 [35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar Using Domain Ontologies for Efficient Information Retrieval 13th International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006 [36] Tru H Cao, Khanh C Le, Vuong M Ngo Exploring Combinations of Ontological Features and Keywords for Text Retrieval Lecture Notes In Artificial Intelligence; Vol 5351 The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613 Hanoi, Vietnam 2008 ISBN: 978-3-540-891963 [37] Tru H Cao, Truong D Cao, Thang L Tran A Robust OntologyBased Method for Translating Natural Language Queries to Conceptual Graphs Lecture Notes In Computer Science; Vol 5367 The 3rd Asian Semantic Web Conference on The Semantic Web, pp.479 - 492 Bangkok, Thailand 2008 ISBN: 978-3-540-89703-3 [38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong English-Vietnamese Cross-Language Information Retrieval: An Experimental Study IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107-113 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 Trang web [39] KEA, http://www.kea.org [40] Lucene, http://apache.lucene.org [41] TREC, http://trec.nist.gov/data.html -3- 40 - - in Computing and Communications Technologies (RIVF'2008), pp.247254 July 13-17, 2008 HCM City, Vietnam [26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran Indexing with WordNet synsets can improve text retrieval Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal [27] Khanh Tran Dang Ensuring Correctness, Completeness and Freshness for Outsourced Tree-Indexed Data Information Resources Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol 21, Issue 1, pp.59-76 Jan-Mar 2008 [28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, Eytan Ruppin Placing search in context: the concept revisited ACM Transactions on Information Systems, volume 20, issue (January 2002), pp.116–131 2002 ISSN: 1046-8188 [29] Marti A Hearst Automatic acquisition of hyponyms from large text corpora International Conference On Computational Linguistics Proceedings of the 14th conference on Computational linguistics, Volume 2, pp.539–545.France 1992 [30] Phuc Do, Hung Xuan Mai Using SOM based graph clustering for extracting main ideas from documents IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp 209-214 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 [31] Phuc Do, Phung Nguyen Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum IEEE International Conference on Research, Innovation and Vision for the Future, pp.247-252 March 5-9, 2007 Hanoi, Vietnam ISBN: 1-42440694-3 [32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology In Semantic Web Applications and Tools for Life Sciences, SWAT4LS 2008 [33] Robert Krovetz, W Bruce Croft Lexical ambiguity and information retrieval ACM Transactions on Information Systems (TOIS), Volume 10, Issue (April 1992), pp.115–141 1992 ISSN: 1046-8188 [34] Roberto Navigli, Paola Velardi An analysis of ontology-based query expansion strategies Proceedings of the International Workshop on Adaptive Text Extraction and Mining held in conjunction with the 14th European Conference on Machine Learning and the 7th European - 39 - 1.3 Đóng góp c a lu n án Các v n ñ nghiên c u c a lu n án ñã có m t s đóng góp m i v m t khoa h c t phương pháp lu n ñ n gi i pháp th c hi n: * Đóng góp th nh t: đ xu t phương pháp xác ñ nh quan h c a khái ni m bao g m: − Quan h R m xác ñ nh thành ph n ñ c trưng (member) c a ñ i tư ng (object) − Quan h R p tính ch t đ c trưng (property) c a thành ph n − p m Các quan h xác ñ nh tính ch t tr i Rf Rf liên quan Các phương pháp mà lu n án ñ xu t khơng nh ng có th áp d ng ph m vi lu n án ñ gi i quy t Bài toán Bài toán nêu mà cịn có th áp d ng m t s lĩnh v c khác ñ t o ontology cho m t mi n khái ni m (trong lĩnh v c x lý ngơn ng t nhiên) Ngồi ra, t góc đ tốn h c, vi c xây d ng l p ñ ng d ng (liên quan ñ n nhóm ñ i tư ng, nhóm thành ph n đ c trưng nhóm tính ch t ñ c trưnge) t quan h nêu s giúp cho vi c phân lo i ñ i tư ng hi u qu Cơng trình [ii], [iv], [v] [ix]f ñã gi i thi u phương pháp xác ñ nh quan h ñ nh nghĩa c a nh ng khái ni m Ph n đóng góp s khơng th c s đ y đ n u khơng có đ nh + OB + OB + OB + OB nghĩa MQE − IR , MQE − IR + P , MQE + IR , MQE + IR + P khái ni m truy v n hồn ch nh, phân tích d ng ñ th ng nghĩa tác gi ñ xu t, liên quan ñ n vi c mô hình hóa tốn m r ng truy v n * Đóng góp th hai: đ xu t mơ hình ontology OOMP phương pháp hu n luy n d li u: − Phương pháp hu n luy n d a kho ng li u s n có (Corpus-Based Knowledge Base Training, CB-KBT) e f Tham kh o thêm hình 3.3, trang 64 v l p Tham kh o thêm ph n Các cơng trình khoa h c -4- − Phương pháp hu n luy n d a ontology WordNet s n có (WordNet-Based Knowledge Base Training, WB-KBT) − Phương pháp t hu n luy n d a n i dung s n có c a ontology t hai phương pháp CB-KBT WB-KBT WordNet (Auto Knowledge Base Training, A-KBT) Ontology OOMP không nh ng ñư c dùng ñ ph c v tốn m r ng truy v n mà cịn có th ñư c s d ng cho nh ng toán khác theo hư ng khai thác quan h khái ni m Ngồi ra, t góc đ ngơn ng h c, thành ph n c a ontology OOMP ñư c phân l p d a m t s d ng t lo i (như danh t , tính t ) nên c u trúc c a chúng ph thu c vào s khác c a ngơn ng t nhiên Do đó, vi c phát tri n ontology nh ng ngôn ng t nhiên khác (như ti ng Vi t hay Pháp …) tương ñ i thu n l i N i dung liên quan đ n đóng góp đư c cơng b [iv], [v] [ix] * Đóng góp th ba: đ xu t mơ hình x lý truy v n (truy v n ti ng Anh, d ng c m danh t ) ontology OOMP, g m gi i thu t: − Ki m tra tính hồn ch nh c a c m danh t (Complete Noun Phrase Verification, CNPV) − Hoàn ch nh c m danh t (Noun Phrase Completion, NPC) − M r ng c m danh t tương t (Similar Noun Phrase Expansion, SNPE) Mơ hình phương pháp x lý truy v n có th áp d ng Bài tốn 2, toán khác như: − Ki m tra tính hồn ch nh c a c m danh t ti ng Anh theo quan ñi m ngơn ng h c tính tốn ( ng d ng lĩnh v c x lý ngôn ng t nhiên: truy xu t thơng tin, rút trích thơng tin, tóm lư c n i dung văn b n) − Hoàn ch nh m r ng c m danh t tương ñương ( ng d ng lĩnh v c x lý ngôn ng t nhiên: truy xu t thông tin, rút trích thơng tin, tóm lư c n i dung văn b n) … Các phương pháp gi i thu t liên quan đ n đóng góp ñư c gi i thi u [ii], [v] [ix] -5- Intelligence - ICAI'09, vol 1, pp 137-141, Las Vegas, USA, July 13-16, 2009 ISBN: 1-60132-107-4, 1-60132-108-2 CSREA Press [18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Natural Language Interaction-Based Document Retrieval Proceedings of the 2nd IEEE International Conference on Computer Science and Information Technology 2009 (ICCSIT 2009), vol 4, pp 544-548 Beijing, China, August 8-11, 2009 ISBN: 978-1-4244-4520-2 [19] Dang Tuan Nguyen, Chinh Trong Nguyen Cross-lingual Information Retrieval Model for Vietnamese-English Web Sites Accepted paper, The 2nd International Conference on Computer Modeling and Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010 Editions IEEE [20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan A Semantic Model for Building the Vietnamese Language Query Processing Framework in e-Library Searching Application Accepted paper, The 2nd International Conference on Machine Learning and Computing (ICMLC 2010), Bangalore, India, February 9-11, 2010 Editions IEEE [21] Dat T Huynh, Tru H Cao, Hung Q Ta, Le H Nguyen VN-KIM KBM: A Distributed and Collective Tool for Managing Semantic Web Knowledge Bases The 1st Workshop on Human Factors and the Semantic Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction with ASWC'2008), pp.153-158 Thailand 2008 [22] Ellen M Voorhees Using Wordnet to disambiguate word senses for text retrieval Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.171–180 Pennsylvania, United States 1993 ISBN: 0-89791-605-0 [23] Ellen M Voorhees Query expansion using lexical-semantic relations Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.61 - 69 Dublin, Ireland 1994 ISBN: 0-387-19889-X [24] Franc A Grootjen, Theo P Van Der Weide Conceptual query expansion Data & Knowledge Engineering, Vvolume 56, Iissue (February 2006), pp.174–193 2006 ISSN: 0169-023X [25] Hien T Nguyen, Tru H Cao Named Entity Disambiguation on an Ontology Enriched by Wikipedia In Proceedings of the 6th IEEE International Conference on Research, Innovation and Vision for the Future - 38 - [10] Chinh Trong Nguyen, Dang Tuan Nguyen A New Model of English-Vietnamese Bilingual Information Retrieval System International Conference on Information Technology (ICIT 2009), Venice, Italy, October 28-30, 2009 [11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do Building a Vietnamese language query processing framework for e-library searching systems International Journal of Computer Science and Information Security (IJCSIS), pp 092-096, Vol 6, No 1, October 2009 ISSN: 1947-5500 [12] Dang Tuan Nguyen, Ha Quy-Tinh Luong Document searching System based on natural language query processing for Vietnam Open Courseware library International Journal of Computer Science Issues (IJCSI), pp.7-13,Vol 6, No 2, November 2009 ISSN (online): 1694-0784, ISSN (print): 1694-0814 [13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do e-Document Retrieval by Question Answering System International Conference on Communication Technology, February 25-27, 2009, Penang, Malaysia Proceedings of World Academy of Science, Engineering and Technology, vol 38, 2009, pp.395-398, ISBN: 2070-3740 [14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do Natural Language Question Answering Model Applied To Document Retrieval System International Conference on Computer Science and Technology, Hongkong, March 23-25, 2009 Proceedings of World Academy of Science, Engineering and Technology, vol 39, 2009, pp 36-39, ISBN: 2070-3740 [15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan A Document Retrieval Model Based-on Natural Language Queries Processing Proceedings of the International Conference on Artificial Intelligence and Pattern Recognition (AIPR), pp 216-220, Orlando, USA, July 13-16, 2009 ISBN: 978-1-60651-007-0 Editions ISRST [16] Dang Tuan Nguyen Interactive Document Retrieval System Based-on Natural Language Query Processing Proceedings of the Eighth International Conference on Machine Learning and Cybernetics, pp 22332237, Baoding, Hebei, China, July 12-15, 2009 ISBN: 978-1-4244-3703-0 Editions IEEE [17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Integrating Natural Language Query Processing and Database Search Engine Proceedings of the 2009 International Conference on Artificialal * Đóng góp th tư: Phương pháp xây d ng ch m c hư ng ng nghĩa (Semantic Index Creation, SIC) thông qua vi c m r ng c u trúc ch m c ñ lưu tr thêm thông tin liên quan ng nghĩa ñ n ontology xác ñ nh Đây c u n i giúp tri n khai nh ng nghiên c u lý thuy t vào ng d ng th c ti n lĩnh v c truy xu t thơng tin K t qu thu đư c t phương pháp t o ti n ñ cho nhi u nghiên c u ng d ng liên quan ñ n truy xu t thơng tin Phương pháp đư c trình cơng trình [iv] đư c phát tri n [iii] [viii] Nh ng k t qu ñ t ñư c ñ ng th i đư c áp d ng cho cơng trình [xii] d đ nh áp d ng cho cơng trình [xiii] -6- 37 - Tóm t t n i dung lu n án: TÀI LI U THAM KH O (LƯ C TRÍCH T LU N ÁN) Ti ng Vi t [1] Nguy n Chí Hi u Mơ hình khai thác đ c tính ngơn ng đích nh m xác đ nh c m danh t s tương ng Anh-Vi t Lu n án ti n sĩ Đ i h c Qu c gia Tp.H Chí Minh 2007 [2] Nguy n Chí Hi u, Phan Th Tươi, Nguy n Xuân Dũng, Nguy n Quang Châu S d ng k thu t Pruning vào tốn xác đ nh t lo i T p chí Phát tri n Khoa h c & Công ngh , t p 8, s 11, 14-23, 2005 [3] Nguy n Quang Châu, Phan Th Tươi Nh n di n c m t ñ c trưng ng nghĩa ti ng Vi t T p chí Bưu Vi n thơng Cơng ngh thơng tin, s 19, 2/2008 [4] Nguy n Quang Châu, Phan Th Tươi, Cao Hồng Tr T đ ng rút trích c m danh t Anh - Vi t t kho ng li u song ng K y u h i th o khoa h c Qu c gia l n II “Nghiên c u b n ng d ng công ngh thông tin”, Đ i h c Bách khoa Tp.HCM, Vi t nam, 23-24/9/2005 Ti ng Anh Hình 1.2 Tóm t t n i dung v n đ trình bày lu n án -7- [5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph Kiefer Ginseng, A Guided Input Natural Language Search Engine, for Querying Ontologies Jena User Conference Bristol UK 2005 [6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi Luong Towards a practical Framework for Vietnamese Natural Language Processing Proceeding of Second Vietnam-Japan Symposium on Fuzzy Systems and Applications, 12/2001, pp297-304 [7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie Conceptual indexing based on document content representation information context: nature, impact, and role In 5th International Conference on Conceptions of Library and Information Sciences No5, Glasgow, Volume 3507, pp.171-186, UK (04/06/2005) [8] Chau Q Nguyen, Tuoi T Phan An Ontology-Based Approach for Key Phrase Extraction Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP [9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao Vietnamese Proper Noun Recognition Proceedings of the 4th IEEE International Conference on Computer Science, Research, Innovation & Vision for the Future, February 12-16,2006 Ho Chi Minh City, Vietnam - 36 - 40, 2010 Springer-Verlag ISSN 1860-949X DOI 10.1007/978-3642-12090-9 H i ngh Khoa h c Qu c t ACM: Association for Computing Machinery ACS: Austrian Computer Society [vii] Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN Building Knowledge Base for Vietnamese Information Retrieval The 11th International Conference on Information Integration and Web-based Applications & Services, 2009, Malaysia, ACM & ACS ACM ISBN 978–1–60558–660–1 [viii] Thanh C.NGUYEN, Tuoi T.PHAN The effect of Semantic Index in Information Retrieval development The 10th International Conference on Information Integration and Web-based Applications & Services, 2008, Austria, ACM & ACS, pp.438–441 ACM ISBN 978–1–60558–349–5 [ix] Thanh C.NGUYEN, Tuoi T.PHAN An ontology-based approach of query expansion The 9th International Conference on Information Integration and Web Based Application & Service, 2007, Indonesia, ACS, pp.113–123 ISBN 978–3–85403–229–8 [x] Thanh C.NGUYEN, Tuoi T.PHAN A hybrid approach of noun phrase translation in Cross-Language Information Retrieval The 9th International Conference on Information Integration and Web Based Application & Service, 2007, Indonesia, ACS, pp.389–394 ISBN 978–3–85403–229–8 [xi] Thanh C Nguyen, Tuoi T.Phan Applying Key-Phrase in CrossLanguage Information Retrieval The Eighth International Conference on Information Integration and Web Based Application & Service, 2006, Indonesia, ACS, pp.451–460 ISSN 3–85403–214– 5, ISBN 978–3–85403–3–214–4 NGHIÊN C U KHOA H C [xii] Tham gia ñ tài nghiên c u khoa h c tr ng ñi m c p Đ i h c Qu c gia Tp.HCM “Xây d ng chương trình tr giúp truy xu t thơng tin b ng ti ng Vi t” (B2005-20-01-TD), 2005-2007 (đã hồn t t), PGS.TS Phan Th Tươi ch nhi m [xiii] Tham gia ñ tài nghiên c u khoa h c c p Nhà nư c “Nghiên c u, xây d ng m t s h th ng khai thác thơng tin đa phương ti n có h tr ti ng Vi t” (KC.01/06-10/02), thu c Chương trình Nghiên c u, phát tri n ng d ng Công ngh Thơng tin Truy n thơng, 2009-2010 (đang th c hi n), PGS.TS Phan Th Tươi - 35 - Chương 2- NGHIÊN C U LIÊN QUAN Vi t nam hi n có nhóm nghiên c u v i nhi u cơng trình cơng b ngồi nư c Tuy hư ng nghiên c u k t qu cơng b c a nh ng nhóm khơng hồn tồn liên quan đ n tốn m r ng truy v n c a lu n án, m i hư ng x lý (liên quan t ng ph n ñ n lu n án) v ontology, truy xu t rút trích thơng tin ng d ng x lý ngôn ng t nhiên, h ñã ñ t ñư c nh ng k t qu quan tr ng v i nhi u công trình khoa h c cơng b ngồi nư c [1] [2] [3] [4] [8] [9] năm 2007-2009 năm 2010 (nhóm TS.Phan Th Tươi), [36] [37] năm 20072009 (nhóm TS.Cao Hồng Tr -Qu n Thành Thơ) [27] (nhóm TS.Đ ng Tr n Khánh) thu c ĐH-BK.HCM, [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20], [30] [31] năm 2008-2009 (nhóm TS.Nguy n Tu n Đăng, nhóm TS.Đ Phúc, ĐHCNTT.HCM), [38] (nhóm TS.Đ ng Th Bích Th y-H B o Qu c, ĐH-KHTN.HCM), [6] c a Vi n Công ngh Thơng tin (nhóm TS.Lương Chi Mai, TS.B ch Hưng Khang, TS.H Tú B o) Vi c ng d ng ontology ñ tr giúp v n ñ m r ng truy v n ñư c nghiên c u t nh ng năm ñ u th p niên 1990 v i m t s thành côngg WordNet m t ontology t ng quát ph d ng ñư c dùng toán m r ng truy v n c a nhóm Gonzalo [26], Voorhees [22] [23], Hearst [29] Ngoài ra, vi c phát tri n m t ontology chuyên d ng ph c v nhu c u m r ng truy v n ñư c ti n hành b i nhóm Finkelstein [28], Navigli Velardi [34] hay Baziz [7], Grootjen V.D.Weide [24]… Đ c bi t, nhóm Abraham [5] phát tri n b n th h c v i thành ph n l p (class), ñ i tư ng th hi n (instance), thu c tính (property) tìm ki m, phát sinh t ñ ng nghĩa Sandhya [35] ñã xây d ng b n th h c d a khái ni m ñ i tư ng th hi n, thu c tính, khái ni m (concept) m t s quan h IS-A, r i r c (disjointness) tương đương g Ph n ch trình bày m t s cơng trình nghiên c u đ c trưng, cơng trình nghiên c u cịn l i khác đư c trình bày chi ti t Chương c a quy n Lu n án -8- (equivalence) m t gi i thu t x lý cho k t qu có đ xác 23% đ bao ph 34% [32] [33] ñ xu t m t mơ hình m i v m ng ng nghĩa d a m t s quan h trích d n t WordNet quan h thư ng danh (hypernymy), h danh (hyponymy), tồn th (meronymy), b ph n (holonymy), tính ch t (attribute), tương ñ ng (similarity), m t s quan h ñư c ñ nh nghĩa thêm gi i (gloss), ch ñ (topic) mi n (domain) [ Chương 3- XÂY D NG N N T NG H TH NG 3.1 Gi i thi u Chương trình bày nh ng khái ni m n n t ng c a mơ hình m r ng truy v n d a ontology Lý thuy t ñư c đ xu t v quan h hai ngơi m c 3.2 s s ñ xây d ng nh ng quan h ng nghĩa gi a ñ i tư ng th gi i th c m c 3.3, thơng qua đ nh nghĩa v mơ hình tốn m r ng truy v n, s cung c p m t lý thuy t giúp ñ m b o tính t ng quát tính ñúng c a v n ñ Ph n 3.4 hư ng ngư i ñ c ñ n v n ñ c u trúc c m danh t ti ng Anh, sau trình bày v đ xu t c a lu n án v m u xác ñ nh c m danh t ñ ph c v vi c hu n luy n ontology OOMP vi c phân tích truy v n Các m c l i c a chương gi i thi u phương pháp đánh giá k t qu , mơi trư ng, công c h tr d li u th c nghi m chương ti p theo M t ph n k t qu c a chương ñã cơng b cơng trình [ii], [iv], [v] [ix] 3.2 Bài toán Xây d ng ontology toán Hoàn ch nh m r ng truy v n T hai tốn xác đ nh chương 1, tác gi ñ xu t s lý thuy t v quan h ng nghĩa m r ng đóng vai trò n n t ng vi c phát tri n c u trúc ontology phương pháp m r ng truy v n hoàn thi n truy v n Gi s : − D={wi} t p danh m c t c a ngôn ng t nhiên − O={oi} t p danh m c t mô t ñ i tư ng (object) -9- hư ng nghiên c u tương lai ng d ng nh ng phương pháp ñư c ñ xu t lu n án vào x lý ngôn ng t nhiên ti ng Vi t m c tiêu lâu dài ñ ng th i hư ng nghiên c u phát tri n c a tác gi Nh ng ng d ng s đóng góp m t ph n hư ng nghiên c u lĩnh v c x lý ngôn ng t nhiên ti ng Vi t DANH M C CƠNG TRÌNH C A TÁC GI BÁO CÁO KHOA H C T p chí Khoa h c [i] Tuoi T.Phan, Thanh C.Nguyen Vietnamese knowledge base development and exploitation The International Journal of Business Intelligence and Data Mining (IJBIDM), 2010 ISSN (Online): 17438195, ISSN (Print): 1743-8187 (Đư c ch p nh n ñăng bài) [ii] Nguy n Chánh Thành, Phan Th Tươi Mơ hình m r ng truy v n truy xu t thơng tin T p chí Cơng Ngh Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u tri n khai Công ngh Thông tin Truy n thông, s (23) kỳ 3, Vi t nam, 2010 ISSN 0866–7039 [iii] Nguy n Chánh Thành, Phan Th Tươi Truy xu t thông tin v i ch m c hư ng đ n ng nghĩa T p chí Cơng Ngh Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u tri n khai Công ngh Thông tin Truy n thông, s 20, Vi t nam, 2008, tr 49–59 ISSN 0866–7039 [iv] Thanh C.Nguyen, Tuoi T.Phan A hybrid solution of ontologybased query expansion The International Journal of Web Information Systems, Volume Number 2, 2008, pp.215–227, 2008 ISSN 1744–0084 [v] Nguy n Chánh Thành, Phan Th Tươi Truy xu t thông tin: Gi i pháp b n th h c cho hoàn ch nh truy v n T p chí Cơng Ngh Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u tri n khai Công ngh Thông tin Truy n thông, s 19, Vi t nam, tr 84–92, 2008 ISSN 0866–7039 Chương sách [vi] Tuoi T.PHAN, Thanh C.NGUYEN, Thuy N.T.HUYNH Question Semantic Analysis in Vietnamese QA System The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29- 34 - * V n ñ 4: T i ưu chi phí v th i gian x lý c a phương pháp m r ng k t qu tìm ki m Đ nh hư ng c a phương pháp t i ưu minh h a hình 7.1 Hình 7.1 Phương pháp th c hi n c a v n đ Như trình bày hình 7.1, phương pháp gi i quy t trư ng h p hư ng ñ n vi c thu gi m th i gian th c hi n hai bư c x lý, u có th tác đ ng đ n s lư ng tài li u k t qu tìm đư c c a gi i thu t HS t l cách bi t v th i gian tìm ki m c a gi i thu t HS so v i phương pháp thơ s gi m thi u đáng k V n ñ c n ñư c xem xét ti n hành th c nghi m ñ ki m ch ng m c ñ t i ưu thu ñư c t phương pháp c i ti n Nhìn chung, v n đ t p h p nh ng tốn khơng q ph c t p c n ñư c xem xét nghiên c u tương lai, đ có th h tr cho vi c xây d ng m t h th ng truy xu t thông tin hư ng ng nghĩa cho ti ng Vi t Nh ng v n đ có t m quan tr ng đ n hư ng nghiên c u c a tác gi lĩnh v c truy xu t thơng tin, đ c bi t vi c h tr truy xu t thông tin ti ng Vi t 7.3 L i k t Tồn b n i dung trình bày lu n án cơng trình nghiên c u lâu dài và thành qu mà tác gi đ t đư c q trình nghiên c u Đây k t qu đ t đư c thu c lĩnh v c x lý ngôn ng t nhiên, truy xu t thông tin ontology Các đóng góp đư c trình bày ph n 7.1 nh ng k t qu ñ t ñư c v m t th c nghi m ñã nh n m nh ý nghĩa v lý thuy t th c ti n c a lu n án Nh ng v n đ đư c trình bày ph n 7.2 ñ ng l c giúp tác gi hồn thi n nh ng k t qu đ t ñư c lu n án ti p t c - 33 - − M={mj} t p danh m c t mơ t thành ph n c a đ i tư ng (member) − P={pk} t p danh m c t mơ t tính ch t c a thành ph n (property) Các ñ nh nghĩa ñư c ñ xu t: Đ nh nghĩa 3.1–Đ liên k t (Sim) tương quan gi a hai ñ i tư ng Đ nh nghĩa 3.2–Đ ph thu c (Dep) c a ñ i tư ng x vào ñ i tư ng y Đ nh nghĩa 3.3–Thành ph n c a ñ i tư ng (Mem) xác ñ nh thành ph n c a ñ i tư ng Đ nh nghĩa 3.4–Thu c tính c a thành ph n (Pro) xác đ nh thu c tính c a thành ph n Đ nh nghĩa 3.5–Quan h Thành ph n ñ c trưng c a m t đ i tư ng R m Ví d : R m (“dung lư ng”, “b nh ”) m Đ nh nghĩa 3.6–Quan h Tr i gi a thành ph n đ c trưng Rf m Ví d : Rf (“dung lư ng”, “ch ng lo i”) cho ñ i tư ng RAM Đ nh nghĩa 3.7–Quan h Tính ch t đ c trưng c a m t thành ph n Rp Ví d : R p (“l n nh t”, “dung lư ng”) “dung lư ng” thành ph n ñ c trưng c a ñ i tư ng “b nh ” p Đ nh nghĩa 3.8–Quan h Tr i gi a tính ch t đ c trưng Rf p Ví d : đ i tư ng “RAM”, Rf (“l n nh t”, “b n nh t”) Các quan h ng nghĩa ñã ñư c ñ nh nghĩa b ng bi u th c lu n lý sau: s ñư c xác ñ nh R m (m j , oi ) ⇔ ( Dep(m j , o i ) > ∨ Mem(m j , o i ) = 1) ∧ (Sim(m j , oi ) > 0) (3.8) m Rf (m j1 , m j ) ⇔ ( R m (m j1 , oi ) ∧ R m (m j ,o i )) ∧ (℘(m j1 ) > ℘(m j )) (3.9) R p (p k ,m j ) ⇔ (Dep(p k ,m j ) > ∨ Pr o(p k ,m j ) = 1) ∧ (Sim(p k ,m j ) > 0) (3.10) p Rf ( p k1 , p k ) ⇔ ( R p ( p k1 , m j ) ∧ R p (m k ,m j )) ∧ (℘( p k1 ) > ℘( p k )) (3.11) Đ nh nghĩa v quan h ng nghĩa nêu có th đư c áp d ng vào lĩnh v c x lý ngôn ng t nhiên lĩnh v c khác Trong ph m - 10 - vi xác ñ nh, quan h nêu ñư c áp d ng ñ t o ontology cho m t mi n khái ni m lĩnh v c Trí tu nhân t o, X lý ngôn ng t nhiên; ngồi có th đư c dùng đ ki m tra tính hồn ch nh c a c m danh t hay t o (m r ng) c m danh t tương ñương… lĩnh v c thu c X lý ngôn ng t nhiên D ch máy, Truy xu t thơng tin, Rút trích thơng tin, Tóm lư c văn b n … T góc đ tốn h c, vi c xây d ng l p tương ñương t quan h nêu ñ th c hi n phân lo i ñ i tư ng nh ng gi i pháp c n ñư c quan tâm Đ nh nghĩa 3.9 –Quan h gi a ñ i tư ng, thành ph n ñ c trưng tính ch t đ c trưng ROMP (minh h a Hình 3.1) Đ nh nghĩa 3.10 – Truy v n hoàn ch nh Đ nh nghĩa 3.11 – D ng bi u di n c a truy v n hoàn ch nh Đ nh nghĩa 3.12 – Cây phân tích c a truy v n hồn ch nh (minh h a Hình 3.1 3.2) Đ nh nghĩa 3.12 – Đ th ng nghĩa Đ nh nghĩa 3.14 – Tính ch t liên quan c a phân tích Đ nh nghĩa 3.15 – T p ng nghĩa c a truy v n : Rm : Rp key mem ber * V n ñ 2: Hi u ch nh m t s bư c ti n x lý cho phương pháp đ có th áp d ng cho ti ng Vi t ho c ngôn ng khác, c th : − (2a) Xây d ng kho tài li u ti ng Vi t ñã ñư c chu n hóa có s lư ng ch t lư ng phù h p (2b) H th ng ISE c n t o ñư c t p ch m c tài li u − (2c) C n th c hi n vi c ti n x lý nh m phân tích truy v n ke y p ro perty 12 key p rop erty n (a) * V n ñ 1: T i ưu ph n cài ñ t c a gi i thu t t n d ng tính ưu vi t c a m t s ph n m m chuyên d ng v t ch c qu n tr s d li u hư ng ñ i tư ng ñ có th ti t ki m nhi u v chi phí th i gian th c hi n gi i thu t c i ti n hi u su t c a phương pháp liên quan V n đ có tính th c ti n cao, nên c n ñư c ưu tiên xem xét ti ng Vi t ñ ng th i h tr tìm ki m truy v n ti ng Vi t ke y m e m ber … Hư ng phát tri n Các th c nghi m chương trư c ñã ñã th nghi m cho t t c gi i thu t mà lu n án ñ xu t v i ngu n d li u liên quan ñư c ch n l c, ñã thu ñư c nh ng k t qu kh quan Tuy nhiên, m t s v n ñ Tuy nhiên, m t s v n ñ c n ñư c nghiên c u giai ño n ti p theo − object key p rop er ty 1 7.2 ti ng Vi t (phân ño n t , gán nhãn t lo i) trư c trình th c thi … ke y p ro perty m2 com pu ter HDD m em or y gi i thu t ñã ñ xu t lu n án m ain -bo ard Đây v n ñ c n ñư c ưu tiên xem xét tương lai cap acity p rocessing unit bra nd tent size q uality p rice (b ) largest h ig hest we ll-k no wn sm allest stro ng est lo west Hình 3.1 Ví d v phân tích (b) ñư c xây d ng t quan h ROMP(a) - 11 - * V n ñ 3: Ti p t c phát tri n nghiên c u v ch m c hư ng ng nghĩa ng d ng liên quan Như v y, toán ch m c hư ng ng nghĩa có th đư c phân tích khai thác theo nhi u góc đ khác nh m h tr nghiên c u phát tri n h th ng web ng nghĩa V n ñ ñang ñư c quan tâm x lý có m t s k t qu đư c cơng b cơng trình [iii] [viii] - 32 - d li u gi i thu t CB-KBT Các k t qu th c nghi m ñã t o s n ñ nh cho th nghi m ti p theo − Nhóm gi i thu t x lý truy v n có nh ng th c nghi m ph c t p qua nhi u bư c đ xác đ nh tính kh thi tính hi u qu tương ng K t qu th c nghi m gi i thu t NPC, SNPE NPMR cho th y giá tr ñ xác tương ñ i cao ngu n d li u N6, N11 N12 liên quan ñ n ch ñ tin h c, giá tr ñ ph cao m c t ng quát T ñây, nh n th y đư c tính hi u qu c a gi i thu t nh ng mi n có liên quan m t thi t ñ n n i dung truy v n tài li u ngu n Các so sánh trình bày th c nghi m c a m i phương pháp cho th y nh ng ưu ñi m c a t ng phương pháp so v i cách tìm ki m thơ mà ngư i s d ng th c hi n ñ ng tìm ki m thơng tin hi n − K t qu t gi i thu t SIC nhóm gi i thu t x lý khai thác ch m c cho th y s lư ng liên k t m r ng ñ n ontology OOMP ñ t m c ñ tương ñ i cao ph thu c vào s lư ng ñ u m c m i t p ch m c tương ng m c ñ tương h p gi a nh ng ñ u m c ñó v i ph n t ontology OOMP Đi u nh hư ng ñ n k t qu th c nghi m c a gi i thu t HS nh ng trư ng h p tìm ki m m r ng ph m vi c c b toàn c c Các so sánh th c nghi m c a gi i thu t cho th y kh bao ph k t qu c a gi i thu t HS t t so v i nh ng gi i thu t v a nêu Nhìn chung, k t qu bư c ñ u c a nh ng th c nghi m chương th hi n tính kh thi c a hư ng nghiên c u c a lu n án ñ ng th i ph n ánh tính hi u qu c a gi i thu t Hư ng nghiên c u x lý truy v n nâng cao ch t lư ng thông tin truy xu t d a ontology mang l i nhi u k t qu kh quan Nh ng th c nghi m, nghiên c u vi c c i ti n gi i thu t c n thi t tương lai đ nâng cao tính hi u qu c a mơ hình mà lu n án đ xu t laptop disc computer HDD notebook memory Object capacity content main-board size Member quality largest highest Property : Rm processing unit brand : Rp price well-known smallest strongest lowest : synonymy/hypernymy (trong WordNet) Hình 3.2 Đ th ng nghĩa G có phân l p 3.3 Các mơ hình cho tốn m r ng truy v n Liên quan ñ n h th ng m r ng hoàn ch nh truy v n đ nh nghĩa v mơ hình ñ xu t sau ñây: − H th ng m r ng truy v n d a ontology ñ c l p v i h th ng truy xu t thông tin (Query Expansion Model with Ontology+ OB Based without Information Retrieval, QEM − IR ) − H th ng m r ng truy v n d a ontology k t h p xác su t ñ c l p v i h th ng truy xu t thông tin (Query Expansion Model with Ontology-Based and Probability without Information + OB Retrieval, QEM − IR + P ) − H th ng m r ng truy v n d a ontology k t h p h th ng truy xu t thông tin (Query Expansion Model with Ontology+ OB Based with Information Retrieval, QEM + IR ) − H th ng m r ng truy v n d a ontology k t h p xác su t tích h p h th ng truy xu t thông tin (Query Expansion Model with Ontology-Based and Probability with Information + OB Retrieval, QEM + IR + P ) Các mơ hình đư c t ch c theo tính k th a hình 3.4 - 31 - - 12 - + OB QEM − IR + OB QEM + IR QEM + OB QEM − IR + P + OB + P + IR Hình 3.4 T ch c phân c p mơ hình + OB Đ nh nghĩa 3.16 – Mơ hình QEM − IR (Mơ hình 1) + OB Đ nh nghĩa 3.17 – Mơ hình QEM − IR + P (Mơ hình 2) + OB Đ nh nghĩa 3.18 – Mơ hình QEM + IR (Mơ hình 3) + OB Đ nh nghĩa 3.19 – Mơ hình QEM + IR + P (Mơ hình 4) 3.4 M u nh n d ng c m danh t Đ nh nghĩa 3.20 – M u nh n d ng c m danh t thành ph n 3.5 Phương pháp th c nghi m ñánh giá Trong truy xu t thơng tin, đ đo đư c s d ng đ đánh giá đ xác P (precision), ñ bao ph R (recall) ñ trung bình ñi u hịa F Sau đ nh nghĩa liên quan ñ ño [103] Đ nh nghĩa 3.21 – Đ xác (P) Đ nh nghĩa 3.22 – Đ bao ph (R) Đ nh nghĩa 3.23 – Đ trung bình u hịa F Trong th c nghi m, gi i thu t ñ xu t lu n án ñư c cài ñ t b ng ngôn ng T-SQL th c hi n ph n m m qu n tr s d li u Microsoft SQL Server 2005 C u hình h th ng máy ch s d ng th c nghi m g m b x lý Intel(R) Core(TM) Duo T.7300 2.2GHz, b nh 2GB, b nh ngồi có ph n dung lư ng tr ng kh d ng 15GB Các công vi c h tr th c nghi m c n th c hi n bao g m: − Xây d ng m t kho ng li u tài li u ti ng Anh − Xây d ng m t đ ng tìm ki m thơng tin c c b (Internal Search Engine, ISE) d a công c Lucene [104] cho kho ng li u nêu ñ c l p v i ph n chương trình c a lu n án − T ch c khai thác kho d li u WordNet - 13 - V n d ng phương pháp phân tích c m danh t (trong lĩnh v c x lý ngơn ng t nhiên) đ nh n d ng thành ph n truy v n, t k t h p ontology OOMP đ h tr vi c hồn ch nh m r ng truy v n, góp ph n xây d ng m t mơ hình x lý truy v n x lý lu n án Mơ hình v i nh ng gi i thu t liên quan góp ph n gi i quy t Bài toán c a lu n án, ñ ng th i có th m r ng áp d ng cho toán khác lĩnh v c x lý ngôn ng t nhiên (truy xu t thơng tin, rút trích thơng tin, tóm lư c n i dung văn b n) Các phương pháp gi i thu t liên quan đ n đóng góp ñư c gi i thi u [ii], [v] [ix] * Đóng góp th tư: phương pháp xây d ng ch m c hư ng ng nghĩa: Phương pháp giúp phát tri n m t h th ng truy xu t thơng tin có th tìm ki m thơng tin t t cho ngư i dùng Nó t o s cho nghiên c u ng d ng liên quan đ n truy xu t thơng tin, qua xác đ nh hư ng nghiên c u chuyên bi t lĩnh v c truy xu t thông tin web ng nghĩa Phương pháp ñã ñư c trình [iv] ñư c phát tri n [iii] [viii] Nh ng k t qu ñ t ñư c c a lu n án đóng góp nêu t o s cho hư ng nghiên c u ti p theo c a tác gi góp ph n phát tri n ng d ng cho cơng trình [xii] Error! Reference source not found Ngoài ra, lu n án ñư c hi n th c th c nghi m cho nh ng gi i thu t ñã đư c trình bày chương, g m nhóm gi i thu t hu n luy n ontology CB-KBT, WB-KBT A-KBT; nhóm gi i thu t x lý truy v n CNPV, NPC, SNPE, NPMR, CNPG, RNPG, nhóm gi i thu t xây d ng khai thác ch m c hư ng ng nghĩa SIC, HS M t s k t qu đ t đư c có ý nghĩa v th c t sau: − K t qu th c nghi m c a gi i thu t hu n luy n ontology cho th y s lư ng ñáng k d li u rút trích đư c đ tin c y cao 80,41% cho d li u d ng Object, 97,09% cho d li u d ng Property gi i thu t WB-KBT, t i thi u 98,02% cho d ng - 30 - − Th nh t, nh ng ñ nh nghĩa v quan h ng nghĩa R m , p m R p , Rf Rf , khái ni m v truy v n hồn ch nh, phân tích d ng ñ th ng nghĩa (trình bày chương 3) t o ti n ñ + OB cho vi c ki n t o mơ hình m r ng truy v n MQE − IR , + OB + OB + OB MQE − IR + P , MQE + IR MQE + IR + P Nh ng mơ hình ph n ánh k t qu kh quan c a s v n d ng h p lý nghiên c u lĩnh v c x lý ngơn ng vào tốn m r ng truy v n web ng nghĩa Hơn n a, chúng khơng nh ng đư c áp d ng ph m vi lu n án ñ gi i quy t Bài tốn Bài tốn 2, mà cịn có th áp d ng m t s nghiên c u thu c lĩnh v c x lý ngôn ng t nhiên − Th hai, vi c xây d ng l p tương ñ ng t quan h nêu s giúp cho vi c phân lo i ñ i tư ng hi u qu hơn, t ñó có th áp d ng vào phương pháp phân tích truy v n CNPV c a lu n án có th m r ng cho tác v phân l p ng nghĩa ontology khác Công trình [ii], [iv], [v] [ix] gi i thi u phương pháp lu n ñ nh nghĩa c a nh ng khái ni m * Đóng góp th hai: mơ hình ontology OOMP đ xu t phương pháp hu n luy n d li u CB-KBT, WB-KBT A-KBT: Trong ph m vi lu n án, ontology OOMP ph c v toán m r ng truy v n nh ng toán khác theo hư ng khai thác quan h khái ni m T góc đ ngơn ng h c, nh ng thành ph n c a ontology ñư c phân l p d a d ng t lo i danh t , tính t nên c u trúc c a chúng ph thu c vào s khác c a ngôn ng t nhiên Đi u t o s thu n l i cho vi c phát tri n ontology ngôn ng t nhiên khác (như ti ng Vi t, Pháp …), t hư ng t i vi c xây d ng m t ontology h tr nhi u ngôn ng t nhiên khác N i dung liên quan đ n đóng góp đư c cơng b cơng trình [iv], [v] [ix] * Đóng góp th ba: mơ hình x lý truy v n (truy v n d ng c m danh t ) d a ontology OOMP v i nh ng gi i thu t CNPV, NPC, SNPE NPMR: - 29 - Ontology OOMP đóng vai trị quan tr ng th c nghi m c a gi i thu t vi c cung c p d li u ng nghĩa c n thi t cho gi i thu t ñ b sung thành ph n m khuy t Trong ti n trình th c nghi m, cơng c ISE khơng nh ng tìm ki m tài li u cho truy v n k t qu t nh ng gi i thu t ñ xu t chương 6, mà cịn h tr xác đ nh s li u (như t n su t xu t hi n, ñ ph thu c) c a nh ng ph n t ontology, t giúp nâng cao ch t lư ng c a ontology D a thư vi n mã ngu n m Lucene [40], tác gi phát tri n m t ñ ng tìm ki m thơng tin m t t p d li u c c b ñ h tr th c nghi m c a nh ng gi i thu t ñ xu t lu n án Đ ng ñư c ñ t tên “Đ ng tìm ki m thơng tin c c b ” (Internal Search Engine, ISE) Đ ng ñư c cài ñ t b ng ngôn ng C# n n Microsoft DotNet Framework 2.0, có h tr tìm ki m cho t khố đơn c m t , bao g m c ch tìm ki m g n hay xác 3.6 Ngu n d li u th c nghi m Ngu n d li u tham kh o t t ch c TREC [41] B ng 3.1 Th ng kê thành ph n d li u t TREC Ký hi u Ngu n d li u S lư ng (t p tin) N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Associated Press (AP) Congressional Record (CR) Department of Energy abstracts (DOE) Foreign Broadcast Information Service (FB) Federal Register (FR) Financial Times Limited (FT) Los Angeles Times (LA) U.S Patents (PATN) San Jose Mercury News (SJM) Wall Street Journal (WSJ) Ziff-Davis-part (ZF2) Ziff-Davis-part (ZF) - 14 - 1.044 222 178 492 828 593 730 235 301 572 427 354 Dung lư ng (MB) 272 91,6 72,1 149 244 197 169 249 294 159 424 353 D li u ph c v vi c hu n luy n ontology OOMP đư c lưu t p TRAINING_DATA có s lư ng 247.988 c m danh t thu c chín d ng m u D li u ph c v vi c th nghi m cho gi i thu t ñư c lưu t p d li u TEST_DATA g m 12.282 c m danh t ñư c ch n l c ñ ki m tra th nghi m gi i thu t khác c a lu n án B ng 3.2 Danh sách t p ch m Ngu n Dung lư ng t p d li u ch m c (MB) AP (N1) 552 CR (N2) 276 DOE (N3) 214 FB (N4) 198 FR (N5) 287 FT (N6) 663 c xây d ng cho h th ng ISE Ngu n Dung lư ng t p d li u ch m c (MB) LA (N7) 518 PATN (N8) 257 SJM (N9) 313 WSJ (N10) 307 ZF2 (N11) 417 ZF (N12) 511 B ng 3.3 Th ng kê c m danh t theo m u TEST_DATA M u S lư ng T l (%) M u S lư ng T l (%) M3 305 2,48 M149 201 1,64 M60 2.592 21,10 M150 159 1,29 M71 276 2,25 M178 542 4,41 M81 712 5,80 M184 592 4,82 M85 186 1,51 M186 1.027 8,36 M87 189 1,54 M192 331 2,70 M89 154 1,25 M195 192 1,56 M99 1.463 11,91 M196 211 1,72 M102 143 1,16 M203 165 1,34 M103 584 4,75 M204 155 1,26 M116 1048 8,53 M205 162 1,32 M125 431 3,51 M209 148 1,21 M142 314 2,56 Chương 4- XÂY D NG ONTOLOGY OOMP 4.1 Gi i thi u V i nh ng ưu ñi m l i ích ng d ng ontology vào vi c m r ng truy v n truy xu t thơng tin (trình bày ph n 2.2, chương 2), vi c phát tri n m t ontology nh m ph c v toán m - 15 - Chương 7- K T LU N T chương ñ n chương 6, lu n án ñã trình bày toàn b nghiên c u c a tác gi v m r ng truy v n d a s ontology Các chương ñ u l n lư t cung c p s lý thuy t làm s cho tồn b phương pháp phân tích, hồn ch nh m r ng truy v n ñư c trình bày chương ti p theo M i chương k ti p đ xu t mơ hình, phương pháp nh ng gi i thu t x lý phù h p d a s lý thuy t đư c trình bày chương trư c Nh ng n i dung đư c trình bày chương ñã bám sát m c tiêu ñ hai tốn ban đ u Đi u th hi n thông qua nh ng k t qu ñ t ñư c v m t lý thuy t th c ti n c a lu n án Các k t qu nghiên c u c a lu n án góp ph n xác đ nh nh ng v n ñ c n nghiên c u, phát tri n th i gian t i 7.1 K t qu ñ t ñư c T ý tư ng khai thác nét ñ c trưng c a truy v n d ng c m danh t , lu n án đ xu t mơ hình phương pháp lu n nghiên c u v m r ng truy v n s ontology lĩnh v c truy xu t thông tin T vi c m r ng truy v n lu n án th c hi n xây d ng c m danh t hoàn ch nh, d ng c m danh t v a th a mãn ch c ng pháp c a ngôn ng t nhiên, v a mang ng nghĩa c n thi t đ tìm ki m thơng tin cho có k t qu t t Tác gi ñã xây d ng s lý thuy t cho mơ hình m r ng truy v n gi i thu t th c hi n vi c ki m tra, hoàn thi n, m r ng truy v n M t hư ng phát tri n khác c a lu n án xây d ng h th ng ch m c hư ng ng nghĩa, nh m m r ng kh x lý m r ng truy v n cho m t h th ng truy xu t thông tin Nh ng k t qu ñã ñáp ng ñư c m c tiêu c a Bài toán Bài toán mà lu n án ñã ñưa K t qu nghiên c u c a lu n án có ý nghĩa v khoa h c th c ti n v i đóng góp m i sau * Đóng góp ñ u tiên: ñ xu t m t s phương pháp xác ñ nh quan h c a khái ni m ph c v vi c x lý tốn phương pháp đư c đ xu t lu n án: - 28 - STT B ng 6.2 So sánh k t qu th c nghi m S li u trung bình PP-Thơ PP-HS S k t qu tìm đư c 687 721 Th i gian th c thi 276,43 1.127,33 T l 1,05 4,08 K t qu ph n ánh t l t t (1,05 l n) ñ t ñư c v m t k t qu tìm đư c trung bình c a PP-HS so v i k t qu c a PP-Thơ Tuy nhiên, chi phí trung bình v th i gian tìm ki m c a gi i thu t HS cao (4,08 l n) so v i tìm ki m thơ Đây v n đ nh hư ng đ n tính hi u qu c a gi i thu t HS STT B ng 6.3 So sánh k t qu th c nghi m S li u trung bình PP-Thơ PP-HS S k t qu tìm đư c 354 354 Th i gian th c thi 837,17 1.936,43 T l 1,00 2,31 C hai phương pháp ñ u thu ñư c giá tr bình quân c a s tài li u tìm đư c ngang M t ngh ch lý x y liên quan ñ n th i gian th c thi trung bình c a c hai phương pháp C hai giá tr c a “PP-Thô” “PP-HS” ñ u cao so v i k t qu tương ng th c nghi m trư c ñó Tuy nhiên, t l cách bi t v th i gian th c thi gi a hai phương pháp ñư c thu gi m t 4,08 (trong th c nghi m 1) xu ng 2,31 K t qu ph n ánh m c c i thi n ñáng k v th i gian th c thi trung bình c a gi i thu t HS so v i k t qu c a tìm ki m thơ Đây m t bư c c i ti n khách quan nh hư ng đ n tính hi u qu c a gi i thu t HS STT B ng 6.4 So sánh k t qu th c nghi m S li u trung bình PP-Thơ PP-HS S k t qu tìm đư c 104 167 Th i gian th c thi 354,86 388,83 T l 1,61 1,10 K t qu ph n ánh t l t t cao (1,61 l n) ñ t đư c v m t k t qu tìm ñư c trung bình c a gi i thu t HS so v i k t qu c a tìm ki m thô Đ ng th i, cách bi t v chi phí trung bình v th i gian tìm ki m gi a gi i thu t HS tìm ki m thơ đư c thu gi m ñáng k (ch l i 1,10 l n so v i 2,31 l n th c nghi m 2) so v i tìm ki m thơ So v i k t qu tương ng th c nghi m 2, ñây c i ti n khách quan nh hư ng đ n tính hi u qu c a gi i thu t HS - 27 - r ng truy v n c a lu n án đóng vai trò quan tr ng Hơn n a, toán x lý lu n án liên quan ñ n khái ni m c m danh t hoàn ch nh nh ng quan h ng nghĩa ROMP, Rm Rp, nhiên WordNet chưa ñáp ng ñ y ñ yêu c u c n thi t ñ ng th i gi i pháp m r ng WordNet ñ b sung d ng quan h nêu địi h i nhi u th i gian, cơng s c khơng hồn tồn kh thi cho lu n án, nên vi c xây d ng riêng bi t ontology OOMP v n ñ c n thi t nh m ki n t o nhóm m ng ng nghĩa tương ng cho quan h D a s lý thuy t ñ xu t chương 3, chương v n đ l n lư t đư c trình bày liên quan ñ n vi c phát tri n ontology OOMP (Ontology of Object–Member–Property) xác ñ nh c u trúc t ch c, phương pháp hu n luy n, th c nghi m k t qu thu ñư c M t ph n k t qu c a chương cơng b cơng trình [v] [ix] 4.2 Xây d ng ontology OOMP So v i ontology khác, ñ c trưng n i b t nh t c a ontology OOMP t ch c phân c p khái ni m ng nghĩa d a theo quan h R OMP C u trúc ñư c th hi n chi ti t hình 4.1 v i thành ph n d li u tương ng cho t ng th c th , thơng qua có th hi n th c b ng m t mơ hình s d li u th c t Object oID oValue oType Rm oIDmI D Dep KeyMember mID mValue mType mPriority mProbability Rp mID pID Dep KeyProperty pID pValue pType pPriority pProbability Hình 4.1 C u trúc ontology OOMP v t ch c s d li u quan h Vi c hu n luy n ontoloy OOMP ñư c gi i quy t b ng m t hai cách ti p c n − Cách th nh t hư ng ñ n vi c khai thác thông tin kho ng li u cho trư c thông qua vi c s d ng m u (trong m c 3.4 chương 3) đ tìm thành ph n d n nh m xác ñ nh giá tr phù h p cho vi c lưu tr - 16 - − Cách th hai hư ng đ n vi c khai thác thơng tin ng nghĩa có s n WordNet 4.3 Phương pháp hu n luy n d a kho ng li u Gi i thu t 4.1 Hu n luy n ontology d a kho ng li u (CorpusBased Knowledge Base Training, CB-KBT) (ñ ph c t p O(n2)) Gi i thu t 6.2 T o ch m c hư ng ng nghĩa (Semantic Index Creation, SIC) (ñ ph c t p O(n2)) Gi i thu t 6.3 Tìm ki m k t h p (Hybrid Search, HS) (O(n)) K t qu th c nghi m: 3,866 3,966 3,248 6,393 95738 3,102 3,125 3,102 2,797 5,943 5,907 5,974 5,637 6,400 20632 6453 8463 N1 2857 N2 N3 N4 N5 N6 N7 M178 M184 M186 M192 M195 M196 M204 M209 B ng 4.1 D li u d n rút trích đư c gi i thu t CB-KBT T p d li u S lư ng S lư ng xác Đ tin c y (%) Object 11.396 11.378 99,84 Member 9.210 9.173 99,60 Property 16.515 16.188 98,02 Quan h Rm 85.687 85.428 99,70 Quan h Rp 104.001 70.110 67,41 4.4 Phương pháp hu n luy n d a WordNet Gi i thu t 4.2 Hu n luy n ontology d a WordNet (WordNetbased Knowledge Base Training, WB-KBT) (ñ ph c t p O(n2)) STT B ng 4.2 D li u ñư c rút trích gi i thu t WB-KBT Lo i S lư ng S lư ng xác Đ xác (%) Object 7.193 5.784 80,41 Member 11.221 3.618 32,24 Property 824 800 97,09 Quan h Rm 34.945 1.178 3,37 Quan h Rp 2.815 1.662 59,04 4.5 Cơ ch t hu n luy n c a ontology OOMP Gi i thu t 4.3 Hu n luy n ontology t ñ ng (Automatic Knowledge Base Training, A-KBT) (ñ ph c t p O(n2)) - 17 - N8 N9 N10 7,197 7,307 N11 N12 574 Hình 4.2 Phân b c m danh t t p TRAINING_DATA theo d ng m u STT 6,321 6,360 5,195 Liên k t ñ n ph n t d ng Object M3 2,727 1,224 5,004 4,543 5,179 4,660 5,015 2,756 5,100 4,677 5,145 5,300 2,240 46751 47710 18810 3,203 3,261 7,278 7,429 3,285 Liên k t ñ n ph n t d ng Member Liên k t ñ n ph n t d ng Property Hình 6.7 So sánh s liên k t t o thành theo ngu n d li u t SIC 10.48 8.8 8.93 8.41 8.47 8.3 8.25 8.41 8.34 7.87 8.15 7.4 8.44 7.59 8.17 N1 N2 N3 N4 N5 8.83 3.32 3.85 3.65 N6 7.26 11.91 N11 N12 8.84 8.88 7.39 8.94 10.38 11.73 7.58 10.75 10.17 8.68 8.9 8.31 7.62 8.38 8.64 N7 N8 N9 N10 Liên k t ñ n ph n t d ng Object (%) Liên k t ñ n ph n t d ng Member (%) Liên k t ñ n ph n t d ng Property (%) Hình 6.8 So sánh t l liên k t t o thành theo ngu n d li u t SIC Các liên k t đóng vai trị quan tr ng vi c m r ng k t qu tìm ki m ph n th c nghi m c a gi i thu t HS sau ñây Các bư c ti n hành th c nghi m c a gi i thu t HS sau: − Th c nghi m 1: tốn tìm ki m m r ng toàn c c ph m vi toàn c c − Th c nghi m 2: toán tìm ki m m r ng tồn c c ph m vi c c b − Th c nghi m 3: tốn tìm ki m m r ng c c b ph m vi c c b - 26 - f(A) Y STT f-1 f f-1(f(A)) B ng 4.3 D li u b sung t o b i gi i thu t A-KBT Lo i S lư ng S lư ng xác Đ xác Quan h Rm 3.953 1.611 40,75% Quan h Rp 2.807 1.074 38,26% A 4.6 Các ng d ng c a ontology quan h X Trong lĩnh v c này, m t s phương pháp có th ng d ng đ : − Ki m tra tính hoàn ch nh c a c m danh t (Complete Noun Phrase Verification, CNPV) − T o c m danh t hoàn ch nh (Complete Noun Phrase Generation, CNPG) − T o c m danh t rút g n (Reductive Noun Phrase Generation, RNPG) − Hoàn ch nh thành ph n c m danh t (ñ b sung m t hay nhi u tính ch t tr i) (Noun Phrase Completion, NPC) − M r ng c m danh t tương ñương (ñ b sung m t hay nhi u tính ch t đ c trưng cho m t đ i tư ng truy v n) (Similar Noun Phrase Expansion, SNPE) − Rút g n thành ph n c m danh t (ñ lo i b hay thay th m t s thành ph n c m danh t b ng m t hay nhi u thu c tính đ c trưng) (Noun Phrase Member Reduction, NPMR) Hình 6.3 Minh h a tính ch t (6.1) Phương pháp ti p c n c a h th ng d a tính ch t (6.1): (gi i thu t HS) (gi i thu t SIC) (t p k t qu m r ng) (t p k t qu thô) (tìm ki m thơ) Hình 6.4 ng d ng tính ch t (6.1) vào m r ng k t qu truy v n Mơ hình h th ng x lý m r ng th hi n hình 6.8 Chương 55.1 Hình 6.5 Mơ hình th ng m r ng truy v n k t h p h th ng truy xu t thơng tin có s n Index id1 id2 idi idi+1 idn-1 idn Object HOÀN CH NH VÀ RÚT G N TRUY V N Gi i thi u Chương l n lư t trình bày tác v liên quan đ n tốn hồn ch nh M i ph n c a chương l n lư t trình bày m c tiêu c a t ng tác v , gi i thu t hi n th c tác v , ví d minh h a th c nghi m v i ñ y ñ s li u th c nghi m th c t M t ph n k t qu c a chương cơng b cơng trình [v] Member Member Object Member Member Ontology Property 11 Property 12 Object Property n1 Property 11 Property m Property 12 Member Member Property n1 Property m 5.2 Hoàn ch nh rút g n truy v n Property 11 Property 12 Property n1 Object Property m Member Member Object Member Property 11 Member Property 12 Property n1 Property m Property n1 Property m Hình 6.6.Mơ hình t ch c ch m c h th ng truy xu t thơng tin - 25 - Ngồi ra, s lý thuy t + OB ph n 3.2 v mơ hình MQE− IR + P , Property 11 Property 12 vi c m r ng truy v n b sung c m t tương ñương cịn đư c h tr b i gi i thu t hoàn ch nh truy v n cho trư ng h p chưa rõ - 18 - nghĩa Trong m t s trư ng h p c th , truy v n có th đư c bi u di n d ng rút g n thông qua vi c lo i b m t s thành ph n không quan tr ng Mơ hình h th ng hồn ch nh rút g n truy v n ñư c mô t sau nh ng ng c nh nh t đ nh, t nh hư ng đ n ñ nh hư ng nghiên c u tương lai v v n ñ c i ti n phương pháp SNPE B ng 6.1 So sánh k t qu c a phương pháp tìm ki m thơ SNPE Giá tr bình qn theo truy v n PP-Thơ PP-SNPE T l (a) S lư t tài li u tìm đư c Gi i thu t 5.1 Ki m tra c m danh t hoàn ch nh (Complete Noun Phrase Verification, CNPV) (ñ ph c t p O(n)) K t qu th c nghi m: 2000 1800 1600 1400 1200 1000 4.983213 24.08883 4.833995 1.62542 0.363176 0.223435 (d) S lư t tài li u tìm đư c xác phân bi t 5.3 Ki m tra c m danh t hoàn ch nh 4.782865 (c) S lư t tài li u tìm đư c phân bi t Phương pháp x lý c a nh ng mơ-đun đư c trình bày thông qua gi i thu t NPC NPMR m c 5.6 5.7, s d ng h tr t nh ng gi i thu t gi i thi u m c 5.3, 5.4 5.5 sau ñây 37.90736 (b) S lư t tài li u tìm đư c xác Hình 5.1 Mơ hình h th ng hoàn ch nh rút g n truy v n 7.925659 0.37458 0.060854 0.162459 6.2 M r ng truy v n cho h th ng truy xu t thông tin có s n So v i mơ hình ph n 6.1, m t hư ng ti p c n khác liên k t ontology OOMP v i m t h th ng truy xu t thơng tin có s n b ng vi c t o s k t h p ontology OOMP v i t p ch m c c a h th ng Mơ hình ñ tri n khai vi c tìm ki m d li u đư c m r ng thơng qua gi i thu t tìm ki m k t h p (Hybrid Search, HS) Mơ hình lý + OB thuy t MQE + IR + P đóng vai trị n n t ng cho phương pháp N u f : X Y m t ánh x t t p h p X ñ n t p h p Y, A ⊆ X t p h p ph n t , y=f(x) nh c a ph n t x qua f, A∈X t p h p ph n t , f(A) nh c a t p h p A qua f, B∈Y t p h p ph n t , f-1(B)={x∈X / f(x)∈B} t o nh c a B qua ánh x f thì: A ⊆ f −1 ( f ( A)) ⊆ X (6.1) (minh h a hình 6.3) 800 600 400 200 M184 M192 M196 M209 M192 M205 M60 M85 M89 M125 M149 M178 M205 M60 M85 M89 M184 M203 M60 M81 M87 M102 M116 M142 M178 M3 M71 M85 M178 M203 M60 M85 M186 M209 M103 M149 M99 M142 M150 M192 M186 M195 M204 M102 M125 M149 M99 TH0 TH1 TH10 TH11 TH15 TH2 TH3 TH4 TH5TH6 TH7 TH9 Hình 5.2 Các trư ng h p x lý gi i thu t CNPV theo d ng l i & m u 5.4 T o c m danh t hoàn ch nh Gi i thu t 5.2 T o c m danh t hoàn ch nh (Complete Noun Phrase Generation, CNPG) (ñ ph c t p O(n)) - 19 - D a theo phân tích trên, phương pháp ti p c n c a gi i thu t s d ng ontology OOMP ñ m r ng h th ng ch m c m c ñ nh (đư c t o b i m t cơng c t o ch m c Lucene, Lemure …) nh m t o h th ng ch m c hư ng ng nghĩa Bư c x lý ñư c th hi n b i v i gi i thu t T o ch m c hư ng ng nghĩa (Semantic Index Creation, SIC), gi i thu t SIC đóng vai trị ánh x f th hi n hình 6.6 T đó, v i m t truy v n q ban ñ u, thơng qua vi c tham kh o (đư c th c hi n b i gi i thu t Tìm ki m k t h p (Hybrid Search, HS) ñ n h th ng ch m c m r ng này, vi c tìm ki m xác đ nh đư c t p m c t ch m c (đóng vai trị t p A) t p m r ng c a nh ng m c t liên k t (đóng vai trị f (f(A)) (minh h a hình 6.4) - 24 - Đi m đ c bi t c a mơ hình đ xu t s tương tác gi a h th ng m r ng truy v n ñ ng tìm ki m thơng tin ch di n m c d li u lu n lý thông qua k t qu d ng bi u di n trung gian g m t h p ñ nh d ng lu n lý c a c m danh t ñư c m r ng 5.5 T o c m danh t rút g n Gi i thu t 5.3 T o c m danh t rút g n (Reductive Noun Phrase Generation, RNPG) (ñ ph c t p O(n)) 5.6 Hồn ch nh c m danh t Hình 6.1 Mơ hình h th ng m r ng truy v n v i đ ng tìm ki m thơng tin Gi i thu t 5.4 Hoàn ch nh c m danh t (Noun Phrase Completion, NPC) (ñ ph c t p O(n2)) K t qu th c nghi m: 653 650 590 Gi i thu t 6.1 M r ng c m danh t tương ñương (Similar Noun Phrase Expansion, SNPE) (ñ ph c t p O(n2)) K t qu th c nghi m: 95.2% 99.3% 100.0% 100.0% 99.3% 100.0% 100.0% 93.8% 98.7% 304 178 99.0% 100.0% 100.0% 100.0% 75.9% 307 169 156 151 20 14 59.8% N1 N2 N3 42.9% 13 N4 N5 K t qu (s N6 tài li u) 16 N7 N8 N9 N10 N11 N12 K t qu xác (s tài li u) Hình 5.3 Th ng kê s lư ng k t qu th c nghi m theo ngu n d li u 16.6% 9.1% 8.6% 4.5% 0.4% 2.0% N1 295 86.2% 86.0% 75.3% 3.9% 354 133 92.1% 85.6% 425 354 201 92.9% 427 452 N2 N3 N4 3.8% 0.2% N5 N6 Đ xác 9.5% 1.0% 2.0% 1.9% N7 N8 5.0% N9 Đ bao ph N10 N11 N12 100.0% 95.2% Đ F 98.5% 100.0% 100.0% 99.8% 92.9% 100.0% 100.0% 98.1% 86.7% 85.0% 59.4% 724 42.7% 659 593 480 18.0% 450 427 354 301 220 13 20 N1 N2 178 134 194 177 N3 N4 N5 K t qu (s tài li u) N6 354 305 N8 N9 N2 N3 5.1% 0.7% N4 3.9% 0.3% N5 N6 10.3% 1.2% 2.3% 2.0% N7 N8 Đ bao ph 5.4% N9 N10 N11 N12 Đ F Hình 5.4 Th ng kê s li u ñ ño theo ngu n d li u N10 N11 N12 K t qu xác (s tài li u) Hình 6.2 Th ng kê s lư ng k t qu th c nghi m theo ngu n d li u So sánh cho th y phương pháp SNPE có k t qu tr i n i b t m t (a), (b) chưa th t s tr i m t (c) (d) Đi u ph n ánh ưu c ñi m c a phương pháp SNPE - 23 - 9.8% 2.1% Đ xác 15 N7 10.0% 4.2% N1 152 14 86.7% 76.6% 74.7% Hình 6.1 Th ng kê s li u ñ ño theo ngu n d li u 99.7% 99.5% 99.5% 99.5% 92.7% B ng 5.1 So sánh k t qu c a phương pháp tìm ki m thơ NPC Giá tr bình qn theo truy v n PP-Thơ PP-NPC T l (a) S lư t tài li u tìm đư c 52,7445 48,91685 0,92743 (b) S lư t tài li u tìm đư c xác 23,60186 28,07387 1,189477 (c) S lư t tài li u tìm đư c phân bi t 0,938901 1,607647 1,712264 (d) S lư t tài li u tìm đư c xác phân bi t 0,15493 0,289903 1,871195 - 20 - So sánh cho th y phương pháp NPC có k t qu t t m t (b), (c) (d) Đi u ch ng t phương pháp NPC có tác ñ ng tích c c ñ n vi c c i thi n ch t lư ng truy v n, nói cách khác t l đ xác c a k t qu thu ñư c tăng lên Chương 6- 5.7 Gi i thu t rút g n thành ph n c m danh t Gi i thu t 5.5 Rút g n thành ph n c m danh t (Noun Phrase Member Reduction, NPMR) (ñ ph c t p O(n2)) K t qu th c nghi m: 95.2% 85.7% 97.0% 100.0% 100.0% 98.2% 83.7% 100.0% 94.2% 85.1% 73.6% 100.0% 99.7% 92.7% 86.7% 99.8% N11 N12 75.0% 81.3% 57.1% 41.0% 3.4% 1.7% N1 16.6% 9.1% N2 8.4% 4.4% N3 3.8% 1.9% N4 N5 N6 Đ xác 1.8% 0.9% N7 0.4% 0.2% N8 Đ bao ph 8.2% 4.3% N9 N10 Đ F Hình 5.5 Th ng kê s li u ñ ño theo ngu n d li u 730 691 593 480 445 426 427 354 301 178 131 12 20 354 307 225 220 182 145 14 K t qu (s tài li u) 13 M R NG TRUY V N + OB + OB + OB Thơng qua mơ hình MQE− IR , MQE+ IR , MQE− IR + P , + OB MQE+ IR + P ñ xu t m c 3.2 chương 3, v n ñ m r ng truy v n ñư c ti p c n theo hai hư ng: − Hư ng toàn c c: th c hi n m r ng truy v n cho đ ng tìm ki m thơng tin Web, n i dung chi ti t ph n 6.1 − Hư ng c c b : th c hi n m r ng truy v n cho h th ng truy xu t thơng tin có s n dùng kho ng li u c c b k t h p vi c phát tri n h th ng ch m c hư ng ñ n ng nghĩa (t ñây ñư c g i h th ng truy xu t thơng tin có s n) n i dung chi ti t ph n 6.2 Trên s hai hư ng này, vi c phát tri n h th ng m r ng truy v n ñư c th c hi n d a vi c k t h p ontology OOMP m p ng d ng c a b quan h R m , Rf , R p , Rf ñ t ñó s xác ñ nh phương th c x lý c n thi t M i ph n c a chương s l n lư t trình bày m c tiêu, gi i thu t hi n th c ví d minh h a cho t ng phương pháp, th c nghi m liên quan s li u th c t M t ph n k t qu c a chương cơng b cơng trình [iv], [ix] m t s phát tri n ñư c gi i thi u [iii] [viii] 6.1 M r ng truy v n cho ñ ng tìm ki m Web 10 11 12 K t qu xác (s tài li u) Hình 5.6 Th ng kê s lư ng k t qu th c nghi m theo ngu n d li u B ng 5.2 So sánh k t qu c a phương pháp tìm ki m thơ NPMR Giá tr bình quân theo truy v n PP-Thô NPMR T l (a) S lư t tài li u tìm đư c 7.925659 197.0885 24.86714 (b) S lư t tài li u tìm ñư c xác 4.983213 74.40406 14.93094 (c) S lư t tài li u tìm đư c phân bi t 1.62542 2.137698 1.315167 (d) S lư t tài li u tìm đư c xác phân bi t 0.37458 0.352596 0.941309 - 21 - So sánh (a), (b) (c) cho th y s c i thi n ñáng k v ch t lư ng s lư ng c a phương pháp NPMR Đây m t k t qu khích l mà tốn rút g n truy v n đ t đư c Mơ hình h th ng đư c đ xu t hình 6.1 Trong mơ hình, h th ng m r ng truy v n đóng vai trị m t mơ-đun liên k t v i đ ng tìm ki m thông tin Trong h th ng này, ch c m r ng truy v n b ng gi i thu t SNPE ñư c th c hi n cho phép truy v n nh p d ng c m danh t ti ng Anh Gi i thu t b sung m t ho c nhi u tính ch t ñ c trưng cho m t ñ i tư ng truy v n Vi c b sung s thêm ph n t m i oi∈O, mj∈M, pk∈P, v y c m danh t m i s ñư c t o - 22 - ... Chánh Thành, Phan Th Tươi Mơ hình m r ng truy v n truy xu t thông tin T p chí Cơng Ngh Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u tri n khai Công ngh Thông tin Truy. .. a lu n án) (B) Đ ng tìm ki m thơng tin (thu c h th ng truy xu t thông tin) (C) K t qu tìm ki m thơng tin t u c u c a câu truy v n ñã m r ng V i mơ hình đư c mơ t hình 1.1, m c (A), câu truy v... có d ng truy v n hồn ch nh Đ ng tìm ki m thông tin K t qu tr v (t p tài li u) (C) Hình 1.1 M i quan h gi a mơ hình c a lu n án h th ng truy xu t thơng tin( c) (A) Mơ hình x lý c a lu n án (ph m