Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 200 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
200
Dung lượng
3,01 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN Đỗ Thị Thanh Tuyền MƠ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT DỰA TRÊN NGỮ NGHĨA LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – NĂM 2020 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Đỗ Thị Thanh Tuyền MƠ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT DỰA TRÊN NGỮ NGHĨA Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 PHẢN BIỆN: PGS TS Trần Văn Lăng PGS TS Quản Thành Thơ PGS TS Đỗ Thanh Nghị PHẢN BIỆN ĐỘC LẬP: PGS TS Đỗ Thanh Nghị TS Ngô Quốc Việt NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Tuấn Đăng PGS TS Vũ Đức Lung TP HỒ CHÍ MINH – NĂM 2020 LỜI CAM ĐOAN Tôi cam đoan nội dung luận án tơi trực tiếp thực chưa cơng bố khóa luận tốt nghiệp, luận văn thạc sĩ hay luận án tiến sĩ báo cáo hội nghị, báo tạp chí hay đề tài nghiên cứu khoa học phục vụ cho luận án Tác giả luận án Đỗ Thị Thanh Tuyền MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH ẢNH DANH MỤC TỪ VIẾT TẮT MỞ ĐẦU 1 Lý lựa chọn đề tài Mục đích luận án 3 Nội dung nghiên cứu 4 Đối tượng nghiên cứu Phạm vi nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Cấu trúc luận án CHƯƠNG 1.1 TỔNG QUAN TRUY XUẤT THÔNG TIN 1.1.1 Lịch sử nghiên cứu 1.1.2 Một số mơ hình truy xuất thơng tin 1.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 10 13 1.2.1 Chú giải ngữ nghĩa 14 1.2.2 Mở rộng câu truy vấn tự động 17 1.3 CÁC CƠ SỞ CHO TRUY XUẤT VĂN BẢN TIẾNG VIỆT 19 1.3.1 Phân tích hình thái 19 1.3.2 Phân tích cú pháp phụ thuộc 20 1.3.3 Phân tích ngữ nghĩa câu 23 1.4 VẤN ĐỀ NGỮ NGHĨA TRONG TRUY XUẤT VĂN BẢN TIẾNG VIỆT 24 1.4.1 Ngữ nghĩa từ 25 1.4.2 Ngữ nghĩa ngữ đoạn 26 1.4.3 Ngữ nghĩa văn 27 1.4.4 Truy xuất văn bản theo ngữ nghĩa 28 1.5 CÁC VẤN ĐỀ CẦN NGHIÊN CỨU CHƯƠNG 2.1 MƠ HÌNH TRUY XUẤT VĂN BẢN DỰA TRÊN NGỮ NGHĨA BIỂU DIỄN NGỮ NGHĨA 29 33 33 2.1.1 Ngôn ngữ biểu diễn ngữ nghĩa 33 2.1.2 Cấu trúc biểu diễn ngữ nghĩa cụm từ 44 2.1.3 Cấu trúc biểu diễn ngữ nghĩa văn 45 2.2 ĐỀ XUẤT MƠ HÌNH CHUNG 46 2.2.1 Các yếu tố ảnh hưởng đến độ xác độ phủ 47 2.2.2 Biểu diễn văn câu truy vấn 50 2.2.3 Tính tốn độ liên quan văn câu truy vấn 52 2.3 ĐỘ ĐO KHOẢNG CÁCH NGỮ NGHĨA 52 2.3.1 Khoảng cách Jaccard-Tanimoto 52 2.3.2 Độ đo khoảng cách ngữ nghĩa 53 2.3.3 Các trọng số 63 2.4 CHỈ MỤC NGỮ NGHĨA 69 2.4.1 Chỉ mục lớp nghĩa 70 2.4.2 Chỉ mục quan hệ nghĩa 72 2.5 TRUY XUẤT CHỈ MỤC NGỮ NGHĨA 74 2.5.1 Truy xuất mục lớp nghĩa 74 2.5.2 Truy xuất mục quan hệ nghĩa 75 2.5.3 Tính tốn khoảng cách ngữ nghĩa 75 2.5.4 Tính độ liên quan để xếp hạng 75 2.6 MƠ HÌNH HỆ THỐNG 76 2.6.1 Thành phần Phân tích tài liệu 76 2.6.2 Thành phần Lập mục 78 2.6.3 Thành phần Phân tích câu truy vấn 80 2.6.4 Thành phần Truy xuất mục 81 2.6.5 Thành phần Xếp hạng 82 2.7 CÁC THAM SỐ CỦA MƠ HÌNH 82 2.7.1 VLO 82 2.7.2 Mơ hình phân tích cú pháp phụ thuộc 82 2.7.3 Mơ hình gán nhãn nghĩa 83 2.7.4 Hệ số kết hợp kết so khớp 83 2.7.5 Hệ số điều chỉnh trọng số vị trí 83 CHƯƠNG 3.1 CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT ONTOLOGY LÀ GÌ? 84 86 3.2 NÉT NGHĨA LÀ GÌ? 87 3.3 CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT LÀ GÌ? 87 3.4 LÝ DO XÂY DỰNG VLO 90 3.4.1 Thể chi tiết nghĩa từ vựng 3.4.2 Thể chi tiết ràng buộc nghĩa từ vựng 101 3.4.3 Có khả suy diễn quan hệ phụ thuộc 102 3.5 CẤU TRÚC CỦA CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT 97 103 3.5.1 Các thành phần VLO 103 3.5.2 Các đặc điểm VLO 114 3.5.3 Xây dựng VLO 115 3.6 MỘT SỐ VẤN ĐỀ KHI XÂY DỰNG VLO 115 3.6.1 Tính khách quan 116 3.6.2 Chi phí xây dựng 119 3.6.3 Đánh giá VLO 120 3.7 KẾT CHƯƠNG CHƯƠNG 4.1 121 PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA CỤM TỪ TIẾNG VIỆT PHÂN TÍCH NGỮ NGHĨA CỦA CÂU 123 123 4.1.1 Bài toán 123 4.1.2 Hướng giải vấn đề 124 4.2 GÁN NHÃN NGHĨA CHO TỪ VỰNG 128 4.3 PHÂN TÍCH QUAN HỆ PHỤ THUỘC THEO NGỮ NGHĨA CÂU 129 4.3.1 Rút gọn quan hệ phụ thuộc 129 4.3.2 Áp dụng ràng buộc nghĩa mở rộng quan hệ nghĩa 131 4.3.3 Biểu diễn theo cấu trúc ngữ nghĩa 138 4.4 ĐÁNH GIÁ KẾT QUẢ PHÂN TÍCH NGỮ NGHĨA 138 4.4.1 Đánh giá kết gán nhãn nghĩa 139 4.4.2 Đánh giá kết phân tích ngữ nghĩa 140 4.4.3 Đánh giá tác dụng việc phân tích ngữ nghĩa 143 4.5 KẾT CHƯƠNG CHƯƠNG 5.1 144 THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC CHỈ SỐ ĐÁNH GIÁ 5.1.1 145 145 Độ xác, độ phủ độ F 145 5.1.2 Độ xác phận 146 5.1.3 Độ xác trung bình 147 5.2 BỘ DỮ LIỆU THỬ NGHIỆM 147 5.3 CÀI ĐẶT THỬ NGHIỆM 150 5.3.1 Chương trình TF.IDF 150 5.3.2 Chương trình BM25 151 5.3.3 Chương trình SEMDORE 152 5.3.4 Chương trình QRYEXP 152 5.3.5 Chương trình WE 153 5.3.6 Chương trình LDA 153 5.4 CÁC THỬ NGHIỆM 154 5.4.1 Thử nghiệm ảnh hưởng mơ hình 154 5.4.2 Thử nghiệm ảnh hưởng term 156 5.4.3 So sánh với phương pháp Automatic Query Expansion 160 5.4.4 So sánh với phương pháp sử dụng vector ngữ nghĩa 161 5.4.5 So sánh với phương pháp sử dụng LDA 162 5.4.6 So sánh hiệu mô hình đề xuất mơ hình liên quan 164 5.5 KẾT CHƯƠNG 165 KẾT LUẬN VÀ KIẾN NGHỊ 166 Kết luận 166 Kiến nghị 168 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 170 Danh mục Bài báo hội nghị 170 Danh mục Bài báo tạp chí 170 Danh mục Đề tài nghiên cứu khoa học 171 TÀI LIỆU THAM KHẢO Tiếng Việt Tiếng Anh PHỤ LỤC A A.1 Xác định hệ số điều khiển trọng số vị trí A.2 Truy hồi mục lớp nghĩa A.3 Truy hồi mục quan hệ nghĩa A.4 Tính tốn độ liên quan xếp hạng A.5 Tạo từ điển danh sách posting cho mục lớp nghĩa A.6 Tính trọng số mục lớp nghĩa A.7 Tạo từ điển danh sách postings cho mục quan hệ nghĩa A.8 Tính trọng số cho mục quan hệ nghĩa A.9 Tính trọng số truy vấn DANH MỤC BẢNG Bảng 1.1 Minh họa định dạng CoNLL câu "các phương trình dựa lý thuyết va chạm " 22 Bảng 3.1 Bảng từ vựng, giải nghĩa nét nghĩa tương ứng từ "máy bay", "máy ảnh", "máy bay phản lực", "máy bay trực thăng" "máy bay lên thẳng" 98 Bảng 3.2 Danh sách lớp nghĩa cấp VLO tương ứng với từ loại tiếng Việt theo dự án VLSP 105 Bảng 3.3 Danh sách quan hệ phụ thuộc Định nghĩa 2.1 quan hệ phụ thuộc tương ứng triển khai thực tế VLO 107 Bảng 3.4 Danh sách quan hệ phụ thuộc theo Định nghĩa 2.1 quan hệ phụ thuộc tương ứng Stanford De Marneffe đồng tác giả công bố 108 Bảng 3.5 Các trường hợp xác lập quan hệ phụ thuộc liên từ 112 Bảng 3.6 Danh sách quan hệ phụ thuộc triển khai VLO dùng dạng từ ghép 113 Bảng 4.1 Các trường hợp rút gọn quan hệ phụ thuộc 129 Bảng 4.2 Bảng trường hợp xử lý điều chỉnh từ ghép 132 Bảng 4.3 Bảng chuyển đổi quan hệ phụ thuộc cú pháp quan hệ nghĩa 136 Bảng 4.4 Mô tả liệu thử nghiệm xác định nghĩa từ vựng 139 Bảng 4.5 Kết huấn luyện dự đốn nhãn nghĩa mơ hình đề xuất mơ hình ME 140 Bảng 4.6 Mô tả tập câu S dùng để đánh giá kết phân tích ngữ nghĩa 140 Bảng 4.7 Mơ tả tập câu G phân tích ngữ nghĩa thủ công 140 Bảng 4.8 Kết phân tích ngữ nghĩa theo loại quan hệ 141 Bảng 4.9 Kết phân tích ngữ nghĩa trường hợp không phân biệt loại quan hệ bổ nghĩa 141 Bảng 4.10 Kết phân tích ngữ nghĩa sử dụng phương pháp phân tích cú pháp phụ thuộc trường hợp có phân biệt loại quan hệ bổ nghĩa 142 Bảng 4.11 Kết phân tích ngữ nghĩa sử dụng phương pháp phân tích cú pháp phụ thuộc trường hợp không phân biệt loại quan hệ bổ nghĩa 142 Bảng 4.12 So sánh kết phân tích ngữ nghĩa phương pháp đề xuất phương pháp phân tích cú pháp phụ thuộc 143 Bảng 4.13 So sánh kết truy xuất câu theo phương pháp 144 Bảng 5.1 Bộ liệu thử nghiệm truy xuất văn tiếng Việt VN-CRANFIELD-1 148 Bảng 5.2 S o sánh kết truy xuất văn liệu gốc liệu VN-CRANFIELD-1 149 Bảng 5.3 Thử nghiệm kết truy xuất theo mơ hình với liệu Cranfield 155 Bảng 5.4 So sánh kết thử nghiệm mơ hình truy xuất luận án với baseline hai mơ hình TF.IDF BM25 157 Bảng 5.5 So sánh kết thử nghiệm truy xuất văn tiếng Việt trường hợp sử dụng đặc trưng từ ghép, lớp nghĩa, quan hệ cú pháp quan hệ ngữ nghĩa .158 Bảng 5.6 Các nghĩa từ vựng bổ sung vào VLO 159 Bảng 5.7 So sánh kết thử nghiệm mơ hình truy xuất luận án trường hợp bổ sung liệu cho VLO với baseline mơ hình TF.IDF BM25 159 Bảng 5.8 Kết truy xuất văn mơ hình đề xuất mơ hình mở rộng câu truy vấn dùng từ đồng nghĩa từ có phần nghĩa chung 160 Bảng 5.9 So sánh kết truy xuất mơ hình truy xuất sử dụng vector ngữ nghĩa với mơ hình truy xuất luận án 161 Bảng 5.10 So sánh kết truy xuất mơ hình truy xuất sử dụng LDA với mơ hình truy xuất luận án .163 Bảng 5.11 Kết thử nghiệm truy xuất văn sử dụng mô hình LDA với tham số k, 163 Bảng 5.12 Kết truy xuất văn tiếng Việt mơ hình đề xuất mơ hình liên quan .164 [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] Castells Pablo, Fernadez Miriam, and Vallet David: "An adaptation of the vector-space model for ontology-based information retrieval", Transactions on Knowledge and Data Engineering, 2006, 19, (2), pp 261-272 Chomsky Noam: Syntax structures Mouton de Gruyter, 2002 Cleverdon Cyril: "The Cranfield tests on index language devices", Readings in information retrieval, 1997, pp 47-59 Collins Michael: "Head-driven statistical models for natural language parsing", Computational Linguistics, 2003, 29, (4), pp 589-637 Cooper Robin: "Frames in formal semantics" Proc International Conference on Natural Language Processing, 2010, pp 103-114 Covington Michael A: "A fundamental algorithm for dependency parsing" Proc Proceedings of the 39th annual ACM southeast conference, 2001, pp 95-102 Cummins Ronan, and O'Riordan Colm: "An axiomatic comparison of learned term-weighting schemes in information retrieval: clarifications and extensions", Artificial Intelligence Review, 2007, 28, (1), pp 51-68 Curran James R, and Clark Stephen: "Investigating GIS and Smoothing for Maximum Entropy Taggers" Proc 10th conference on European chapter of the Association for Computational Linguistics, 2003, pp 91-98 De Marneffe Marie-Catherine, and Manning Christopher D: "Stanford typed dependencies manual" Technical report, 2016 Deerwester Scott, Dumais Susan T, Furnas George W, Landauer Thomas K, and Harshman Richard: "Indexing by latent semantic analysis", Journal of the American society for information science, 1990, 41, (6), pp 391-407 Delmonte Rodolfo, Tonelli Sara, and Tripodi Rocco: "Semantic Processing for Text Entailment with VENSES" Proc Text analysis conference workshop on text entailment, 2009 Diaz Fernando, Mitra Bhaskar, and Craswell Nick: "Query Expansion with Locally-Trained Word Embeddings" Proc Annual Meeting of the Association for Computational Linguistics, 2016, pp 367 377 Do Tuyen Thi-Thanh, and Nguyen Dang Tuan: "Sentential Semantic Dependency Parsing for Vietnamese" Proc Future Data and Security Engineering, 2020, pp 429-447 Do Tuyen Thi-Thanh: "A Preliminary Study on Semi-automatic Construction of Sense Tagged Corpus with WordNet Senses Using Semantic Vector" Proc ICIST, 2017, pp 490-496 Do Tuyen Thi-Thanh, and Nguyen Dang Tuan: "VLO V1.1 – A Vietnamese Lexicon Ontology for Universal Dependency Parsing" Proc Advanced Computing and Applications, 2020, pp 94-100 Do Tuyen Thi-Thanh: "Building a Vietnamese Lexicon Ontology for Syntactic parsing and Document Annotation" Proc iiWAS, 2013, pp 619-623 [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] Do Tuyen Thi-Thanh, and Nguyen Dang Tuan: "A Framework for Vietnamese Text Document Retrieval System Based on Phrasal Semantic Analysis", International Journal of Simulation Systems, Science & Technology, 2014, 15, (4) Do Tuyen Thi-Thanh: "A concept identification method for Vietnamese concept-based information retrieval system" Proc iiWAS, 2012, pp 149-152 Do Tuyen Thi-Thanh, and Nguyen Dang Tuan: "A Computational Semantic Information Retrieval Model for Vietnamese Texts", International Journal of Computational Science and Engineering, 2020 (Accepted) Do Tuyen Thi-Thanh, and Nguyen Dang Tuan: "Phrasal Semantic Distance for Vietnamese Textual Document Retrieval", Tạp chí Tin học Điều khiển [Journal of Computer Science and Cybernetics], 2015, 32, (3), pp 185-202 Dozat Timothy, and Manning Christopher D.: "Deep Biaffine Attention for Neural Dependency Parsing" Proc International Conference on Learning Representations, 2017 Egozi Ofer, Markovitch Shaul, and Gabrilovich Evgeniy: "Concept-based information retrieval using explicit semantic analysis", Transactions on Information Systems, 2011, 29, (2), pp 1-38 Faruqui Manaal, Dodge Jesse, Jauhar Sujay Kumar, Dyer Chris, Hovy Eduard, and Smith Noah A.: "Retrofitting Word Vectors to Semantic Lexicons" Proc Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015, pp 16061615 Fernandez Miriam, Cantador Ivan, Lopez Vanesa, Vallet David, Castells Pablo, and Motta Enrico: "Semantically enhanced information retrieval: An ontology-based approach", Web semantics: Science, services and agents on the world wide web, 2011, 9, (4), pp 434-452 Fillmore Charles J: "Frame semantics", Cognitive linguistics: Basic readings, 2006, 34, pp 373-400 Fuhr Norbert: "Probabilistic models in information retrieval", The computer journal, 1992, 35, (3), pp 243-255 Gabrilovich Evgeniy, and Markovitch Shaul: "Computing semantic relatedness using wikipedia-based explicit semantic analysis" Proc International Joint conference on Artificial Intelligence, 2007, pp 1606-1611 Galke Lukas, Saleh Ahmed, and Scherp Ansgar: "Word embeddings for practical information retrieval", Lecture Notes in Informatics, 2017, pp 13 Giunchiglia Fausto, Kharkevich Uladzimir, and Zaihrayeu Ilya: "Concept Search: Semantics Enabled Syntactic Search" Proc Semantic Search 2008 workshop at 5th European Semantic Web Conference, 2008, pp 109-123 Gonzalo Julio, Verdejo Felisa, Chugur Irina, and Cigarr Juan M.: "Indexing with WordNet synsets can improve text retrieval" Proc Workshop on Usage of WordNet in Natural Language Processing Systems ACL/COLING, 1998 [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] Gonzalo Julio, Chugur Irina, and Verdejo Felisa: "Sense clusters for information retrieval: evidence from Semcor and the EuroWordNet InterLingual index" Proc ACL-2000 workshop on Word senses and multilinguality, 2000, pp 10-18 Hirst Graeme: ‘Ontology and the Lexicon’: ‘Handbook on ontologies’ (Springer, 2009), pp 269-292 Hliaoutakis Angelos, Varelas Giannis, Voutsakis Epimenidis, Petrakis Euripides GM, and Milios Evangelos: "Information retrieval by semantic similarity", International journal on semantic Web and information systems, 2006, 2, (3), pp 55-73 Hoang Vu Cong Duy, Dinh Dien, Le Nguyen Nguyen, and Ngo Hung Quoc: "A comparative study on vietnamese text classification methods" Proc International Conference on Research, Innovation and Vision for the Future, 2007, pp 267 273 Hofmann Thomas: "Probabilistic latent semantic analysis" Proc Fifteenth conference on Uncertainty in artificial intelligence, 1999, pp 289-296 Kamal Eslam, Rashwan Mohsen, and Alansary Sameh: "High quality Arabic lexical ontology based on MUHIT, WordNet, SUMO and DBpedia" Proc International Conference on Intelligent Text Processing and Computational Linguistics, 2015, pp 98-111 Kamp Hans, Van Genabith Josef, and Reyle Uwe: ‘Discourse Representation Theory’: ‘Handbook of philosophical logic’ (Springer, 2011), pp 125-394 Kara Soner, Alan Ozgur, Sabuncu Orkunt, Akpinar Samet, Cicekli Nihan K, and Alpaslan Ferda N: "An ontology-based retrieval system using semantic indexing", Information Systems, 2012, 37, (4), pp 294-305 Koopman Bevan, Zuccon Guido, Bruza Peter, Sitbon Laurianne, and Lawley Michael: "Information retrieval as semantic inference: A graph inference model applied to medical search", Information Retrieval, 2016, 19, (1-2), pp 6-37 Kuzi Saar, Shtok Anna, and Kurland Oren: "Query expansion using word embeddings" Proc ACM international on conference on information and knowledge management, 2016, pp 1929 1932 Landauer Thomas K, and Dumais Susan T: "A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge", Psychological review, 1997, 104, (2), pp 211-240 Le-Hong Phuong, Roussanaly Azim, Nguyen Huyen Thi Minh, and Rossignol Mathias: "An empirical study of maximum entropy approach for part-ofspeech tagging of Vietnamese texts" Proc Traitement Automatique des Langues Naturelles, 2010, pp 12 Levine Robert D, and Meurers Walt Detmar: "Head-Driven Phrase Structure Grammar: Linguistic approach, formal foundations, and computational [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] realization", Encyclopedia of language and linguistics, 2nd Edition, 2006, pp 237-252 Levy Omer, and Goldberg Yoav: "Dependency-based word embeddings" Proc Annual Meeting of the Association for Computational Linguistics, 2014, pp 302-308 Lipkus Alan H.: "A proof of the triangle inequality for the Tanimoto distance", Journal of Mathematical Chemistry, 1999, 26, pp 263-265 MacCartney Bill, and Manning Christopher D: "An extended model of natural logic" Proc International conference on Computational Semantics, 2009, pp 140-156 Manning Christopher, Raghavan Prabhakar, and Schutze Hinrich: Introduction to Information Retrieval Cambridge University Press, 2008 Marcus Mitchell, Santorini Beatrice, and Marcinkiewicz Mary Ann: "Building a large annotated corpus of English: The Penn Treebank" Technical Report, 1993 Matsumura Atsushi, Takasu Atsuhiro, and Adachi Jun: "The effect of information retrieval method using dependency relationship between words" Proc Computer-Assisted Information Retrieval (RIAO), 2000, pp 1043-1058 Mihalcea Rada, and Moldovan Dan: "Semantic indexing using WordNet senses" Proc ACL-2000 workshop on Recent advances in natural language processing and information retrieval, 2000, pp 35-45 Mikolov Tomas, Chen Kai, Corrado Greg, and Dean Jeffrey: "Efficient Estimation of Word Representations in Vector Space" Proc Workshop at International Conference on Learning Representations, 2013, pp 12 Mikolov Tomas, Sutskever Ilya, Chen Kai, Corrado Greg S, and Dean Jeff: "Distributed representations of words and phrases and their compositionality" Proc Advances in neural information processing systems, 2013, pp 31113119 Miller George A: "WordNet: A Lexical Database for English", Communications of the ACM, 1995, 38, (11), pp 39-41 Miller George A, Beckwith R, Fellbaum Christiane, Gross Derek, and Miller Katherine: "Introduction to WordNet: An On-line Lexical Database", 1991, Mooers Calvin N.: The theory of digital handling of non-numerical information and its implications to machine economics Zator Co., 1950 Moreda Paloma, Navarro Borja, and Palomar Manuel: "Corpus-based semantic role approach in information retrieval", Data & Knowledge Engineering, 2007, 61, (3), pp 467-483 Moss Lawrence S: "Natural logic and semantics" Proc Logic, Language and Meaning: 17th Amsterdam Colloquium, 2010, pp 84-93 Napoletano Toby: "Why Truth-Conditional Semantics in Generative Linguistics is Still the Better Bet", Erkenntnis, 2017, 82, (3), pp 673-692 [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] Ngo Vuong M, Cao Tru H, and Le Tuan: "WordNet-Based Information Retrieval Using Common Hypernyms and Combined Features", The Computing Research Repository, 2018, pp Nguyen Cam-Tu, Nguyen Trung-Kien, Phan Xuan-Hieu, Nguyen Le-Minh, and Ha Quang-Thuy: "Vietnamese Word Segmentation with CRFs and SVMs: An Investigation" Proc The 20th Pacific Asia Conference on Language, Information and Computation, 2006, pp 215-222 Nguyen Dat Quoc, Dras Mark, and Johnson Mark: "An empirical study for Vietnamese dependency parsing" Proc Australasian Language Technology Association Workshop, 2016, pp 143-149 Nguyen Dat Quoc, Nguyen Dai Quoc, Pham Son Bao, Nguyen Phuong-Thai, and Le Nguyen Minh: "From treebank conversion to automatic dependency parsing for Vietnamese" Proc International Conference on Applications of Natural Language to Data Bases - Information Systems, 2014, pp 196-207 Nivre Joakim: "Dependency grammar and dependency parsing" Technical Report MSI report 05133, 2005 Nivre Joakim, de Marneffe Marie-Catherine, Ginter Filip, Goldberg Yoav, Hajic Jan, Manning Christopher D., McDonald Ryan, Petrov Slav, Pyysalo Sampo, Silveira Natalia, Tsarfaty Reut, and Zeman Daniel: "Universal Dependencies v1: A Multilingual Treebank Collection" Proc Tenth International Conference on Language Resources and Evaluation, 2016, pp 1659-1666 Nivre Joakim, Hall Johan, Kubler Sandra, McDonald Ryan, Nilsson Jens, Riedel Sebastian, and Yuret Deniz: "The CoNLL 2007 shared task on dependency parsing" Proc Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007, pp 915-932 Oepen Stephan, Kuhlmann Marco, Miyao Yusuke, Zeman Daniel, Flickinger Dan, Hajic Jan, Ivanova Angelina, and Zhang Yi: "Semeval 2014 task 8: Broad-coverage semantic dependency parsing" Proc International Workshop on Semantic Evaluation, 2014, pp 63-72 Oepen Stephan, Kuhlmann Marco, Miyao Yusuke, Zeman Daniel, Cinkova Silvie, Flickinger Dan, Hajic Jan, and Uresova Zdenka: "SemEval 2015 Task 18: Broad-Coverage Semantic Dependency Parsing" Proc International Workshop on Semantic Evaluation, 2015, pp 915-926 Ozcan Rifat, Asl Y Alp, and Aslandogan Y Alp: "Concept-based information retrieval using ontologies and latent semantic analysis" Technical report CSE2004-8, 2004 Pado Sebastian, and Lapata Mirella: "Dependency-based construction of semantic space models", Computational Linguistics, 2007, 33, (2), pp 161199 [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] Penning Jeffrey, Socher Richard, and Manning Christopher: "GloVe: Global Vectors forWord Representation" Proc Conference on Empirical Methods in Natural Language Processing, 2014, pp 1532-1543 Perez-Rodriguez Roberto, Anido-Rifon Luis, Gomez-Carballa Miguel, and Mourino-Garcia Marcos: "Architecture of a concept-based information retrieval system for educational resources", Science of Computer Programming, 2016, 129, pp 72-91 Pollard Carl, and Sag Ivan A: Head-Driven Phrase Structure Grammar University of Chicago Press, 1994 Qi Peng, Dozat Timothy, Zhang Yuhao, and Manning Christopher D.: "Universal Dependency Parsing from Scratch" Proc The CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, 2018, pp 160-170 Raphael Bertram: SIR - A Computer Program for Semantic Information Retrieval PhD Dissertation, Massachusetts Institute of Technology, 1964 Rindflesch Thomas C, and Aronson Alan R: "Semantic processing in information retrieval" Proc Annual Symposium on Computer Application in Medical Care, 1993, pp 611-615 Robertson Stephen E, and Walker Steve: "Okapi/keenbow at TREC-8" Proc Text Retrieval and Evaluation Conference, 1999, pp 151-162 Roy Dwaipayan, Ganguly Debasis, Bhatia Sumit, Bedathur Srikanta, and Mitra Mandar: "Using Word Embeddings for Information Retrieval: How Collection and Term Normalization Choices Affect Performance" Proc International Conference on Information and Knowledge Management, 2018, pp 1835–1838 Ruppenhofer Josef, Ellsworth Michael, Schwarzer-Petruck Myriam, Johnson Christopher R, and Scheffczyk Jan: "FrameNet II: Extended theory and practice" Proc Conference Name2016 Ruppert Eugen, Jonas Klesy, Martin Riedl, and Chris Biemann: "Rule-based Dependency parse collapsing and propagation for German and English" Proc German society for Computational Linguistics and Language Technology, 2015, pp 58-66 Salton Gerard, Wong Anita, and Yang Chung-Shu: "A vector space model for automatic indexing", Communications of the ACM, 1975, 18, (11), pp 613620 Sanderson M., and Croft W B.: "The History of Information Retrieval Research", Proceedings of the IEEE, 2012, 100, (Special Centennial Issue), pp 1444-1451 Sanderson Mark, and Croft Bruce W: "The history of information retrieval research", Proceedings of the IEEE, 2012, 100, pp 1444-1451 Schuster Sebastian, and Manning Christopher D: "Enhanced english universal dependencies: An improved representation for natural language understanding [99] [100] [101] [102] [103] [104] [105] [106] tasks" Proc International Conference on Language Resources and Evaluation, 2016, pp 2371-2378 Schutze Hinrich, and Pederson Jan O.: "Information retrieval based on wordsense" Proc 4th Symposium on Document Analysis and Information Retrieval, 1995, pp 161-176 Szymanski Julian, and Duch Wlodzislaw: "Information retrieval with semantic memory model", Cognitive Systems Research, 2012, 14, (1), pp 84100 Teofili Tommasso, and Chhaya Niyati: "Affect Enriched Word Embeddings for News Information" Proc NewsIR’19 Workshop at SIGIR, 2019 Tomassen Stein L, and Strasunskas Darijus: "Measuring intrinsic quality of semantic search based on feature vectors", International Journal of Metadata Semantics and Ontologies, 2010, pp 120-133 Vallet David, Fernandez Miriam, and Castells Pablo: "An ontology-based information retrieval model" Proc European Semantic Web Conference, 2005, pp 455-470 Vu Xuan-Son, Song Hyun-Je, and Park Seong-Bae: "Building a Vietnamese SentiWordNet using Vietnamese electronic dictionary and string kernel" Proc Pacific Rim Knowledge Acquisition Workshop, 2014, pp 223-235 Wei Xing, and Croft W Bruce: "LDA-based document models for ad-hoc retrieval" Proc 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006, pp 178-185 Wolf Elisabeth, Bernhard Delphine, and Gurevych Iryna: "Combining Probabilistic and TranslationBased Models for Information Retrieval based on Word Sense Annotations Information Retrieval" Proc Workshop of the CrossLanguage Evaluation Forum for European Languages, 2009, pp 120-127 PHỤ LỤC A A.1 Xác định hệ số điều khiển trọng số vị trí - Bước 1: Chọn giá trị 𝜔 = 0, 𝜔𝑚𝑎𝑥 = 0, Fmax=0, F'max=0, 0.1 ≥ ∆> - Bước 2: Phân tích ngữ nghĩa tập văn D truy vấn tập Q theo trọng số 𝜔 - Bước 3: Lập mục cho tập văn D, thực truy hồi với tập truy vấn Q đánh giá kết F theo độ đo F1 - Bước 4: Nếu F>Fmax o 𝜔 ← 𝜔 + ∆, Fmax F o 𝜔𝑚𝑎𝑥 = 𝜔 o Quay lại Bước - Bước 5: Chọn giá trị 𝜔 = −∆ - Bước 6: Phân tích ngữ nghĩa tập văn D truy vấn tập Q theo trọng số 𝜔 - Bước 7: Lập mục cho tập văn D, thực truy hồi với tập truy vấn Q đánh giá kết F theo độ đo F1 - Bước 8: Nếu F>F'max tăng o 𝜔 ← 𝜔 − ∆, F'max F o Nếu F'max > Fmax 𝜔𝑚𝑎𝑥 = 𝜔 o Quay lại Bước A.2 Truy hồi mục lớp nghĩa Đầu vào: - SCI mục lớp nghĩa - C tập lớp nghĩa sem trọng số w tương ứng câu truy vấn Đầu ra: Relc danh sách tài liệu liên quan khoảng cách tương ứng đến truy vấn Thủ tục xử lý Relc SumC for i to |C| sumC sumC + C[i].w ci C[i].sem L findPostings(SCI, ci)//tìm postings list ci if L = null then Continue end if LTmp for j = to |L| d.id L[j].id d.dlt |C[i].w – L[j].w| d.sum C[i].w + L[j].w LTmp LTmp {d} end for mergeC(DTmp,LTmp,LRes) 10 11 12 13 14 15 16 17 18 19 20 21 Dtmp LRes end for for i to |DTmp| 22 sumDi findSumDoc(SCI,DTmp[i]) 23 d.id DTmp[i].id 24 d.w 2*(sumDi+sumC-DTmp[i].sum-DTmp[i].dlt) / (2*sumDi+2*sumC-DTmp[i].sum-DTmp[i].dlt) 25 26 27 28 d.ws DTmp[i].sum Relc Relc {d} end for Thủ tục xử lý mergeC(A,B,C) Đầu vào: - A danh sách ban đầu - B danh sách posting chứa từ khóa Đầu ra: C chứa kết trộn A B kết tính tốn trọng số theo cấu trúc mục lớp nghĩa A.3 Truy hồi mục quan hệ nghĩa Đầu vào: - SRI mục quan hệ nghĩa - R tập quan hệ nghĩa sem trọng số w tương ứng câu truy vấn Đầu ra: Relr danh sách tài liệu liên quan khoảng cách tương ứng đến truy vấn Thủ tục xử lý Relr SumR for i to |R| sumR sumR + R[i].w ri R[i].sem 10 11 12 13 14 15 16 17 L findPostings(SRI, ri) // tìm postings list ri if L = null then continue end if LTmp for j to |L| d.id L[j].id d.dlt |C[i].w – L[j].w| d.sum C[i].w + L[j].w LTmp LTmp {d} end for mergeR(Dtmp,LTmp,LRes) DTmp LRes 19 end for 18 20 21 for i to |DTmp| 22 23 24 25 26 27 sumDi = findSumSen(SRI,DTmp[i]) // lấy chiều dài câu dist 2*(sumDi+sumC-DTmp[i].sum+DTmp[i].dlt) / (2*sumDi+2*sumC-DTmp[i].sum+DTmp[i].dlt) dfindResult(Relr,DTmp[i]) // tìm theo số if d = null then d.id D[i].id.did d.w dist 28 Relr Relr {d} end if 29 if d.w < dist then 30 31 d.w dist end if 32 33 end for Thủ tục xử lý mergeR(A,B,C) Đầu vào: - A danh sách ban đầu - B danh sách posting chứa từ khóa Đầu ra: C chứa kết trộn A B tính toán trọng số theo cấu trúc mục quan hệ nghĩa A.4 Tính tốn độ liên quan xếp hạng Đầu vào: - Relc Danh sách tài liệu liên quan id chứa khoảng cách ngữ nghĩa theo lớp nghĩa w tới truy vấn tổng trọng số lớp nghĩa trùng tài liệu truy vấn - Relr Danh sách tài liệu liên quan id chứa khoảng cách ngữ nghĩa w theo quan hệ nghĩa tới truy vấn double hệ kết hợp khoảng cách theo lớp nghĩa khoảng cách theo quan hệ nghĩa, mặc định 0.5 Đầu ra: Rel danh sách tài liệu liên quan độ liên quan xếp hạng theo truy vấn - Thủ tục xử lý Rel Min(Relr[i].w) max Max(Relr[i].w) for i to |Relc| 13 d1 Relc[i].w 14 RfindResult(Relr,Relc[i].id) if R = NULL then 15 12 16 17 18 19 d2 max + Else d2 R.w end if 20 22 23 24 25 26 d *d1 + (2-)d2 + d1/Relc[i].ws DTmp.id Relc[i].id DTmp.rel d Rel Relr {DTmp} end for sort(D) // xếp theo thứ tự khoảng cách tăng dần A.5 Tạo từ điển danh sách posting cho mục lớp nghĩa Đầu vào: DC danh sách tập lớp nghĩa tương ứng với tài liệu Mỗi tập lớp nghĩa gồm phần tử chứa nhãn nghĩa sem trọng số tương ứng w Đầu ra: SCI cấu trúc mục lớp nghĩa SCI.Sum tmp for i to |DC| wlen sqrt(sumWeight(DC[i])) terms {dc[i].sem} size |terms| tmp tmp {(terms[j], i)} SCI.Sum SCI.Sum {(i, size/wlen)} end for sort(tmp) //sắp xếp thứ tự tăng dần theo lớp nghĩa dict createDictionary(tmp) for i to |dict.word| dict.word[i].postings 13 getPostingsList(dict.word[i], tmp) 14 SCI.dict dict 10 11 12 Thủ tục sort() thủ tục xử lý cần cài đặt từ thuật toán xếp ổn định (stable) A.6 Tính trọng số mục lớp nghĩa Đầu vào: - SCI mục chưa tính trọng số - nDoc tổng số tài liệu lập mục Đầu ra: SCI mục tính trọng số for i to |SCI.dict.word| entry SCI.dict.word[i] idf log(1 + entry.ndoc/(nDoc+1)) 5 10 11 12 13 14 15 16 17 entry.w idf for j to |entry.postings| entry.postings[j].w entry.postings[j].w*idf end for end for norm getDocumentNormalize(SCI.dict) for i to |SCI.dict.word| entry SCI.dict.word[i] for j to |entry.postings| p entry.postings[j] sum findSumDoc(SCI.Sum,p.id) p.w sum * p.w / norm[p.id] end for end for A.7 Tạo từ điển danh sách postings cho mục quan hệ nghĩa Đầu vào: DR danh sách tập quan hệ phụ thuộc tương ứng với tài liệu tập tài liệu Mỗi phần tử DR tương ứng với tài liệu chứa danh sách tập quan hệ phụ thuộc tương ứng với câu tài liệu Mỗi phần tử tập quan hệ phụ thuộc gồm quan hệ phụ thuộc sem số w tương ứng Đầu ra: SRI mục quan hệ nghĩa SRI.Sum for i to |DR| for j to |DR[i]| wlen sqrt(sumWeight(DR[i][j]) terms DR[i][j].sem size terms tmp tmp {(terms[k], i, j)} SRI.Sum SRI.Sum {((i, j), size/wlen)} end for end for sort(tmp)//sắp xếp thứ tự tăng dần theo quan hệ nghĩa dict createDictionary(tmp) for i to |dict.word| dict.word[i].postings 14 getPostingsList(dict.word[i], tmp) 15 end for 10 11 12 13 16 SCI.dict dict Thủ tục sort() thủ tục xử lý cần cài đặt từ thuật toán xếp ổn định A.8 Tính trọng số cho mục quan hệ nghĩa Đầu vào: - SRI mục chưa tính trọng số - nSen tổng số câu lập mục Đầu ra: SRI mục tính trọng số Thủ tục xử lý: 10 11 12 13 14 15 16 17 for i to |SRI.dict.word| entry SRI.dict.word[i] idf log( + dict.nsen/(nSen + 1)) entry.w = idf for j to |entry.postings| entry.postings[j].w entry.postings[j].w*idf end for end for norm getSentenceNormalize(SRI.dict) for i to |SRI.dict.word| entry SRI.dict.word[i] for j to |entry.postings| p entry.postings[i] sum findSumSen(SRI.Sum, p.id) //chiều dài câu p.w sum * p.w / norm[p.id] end for end for A.9 Tính trọng số truy vấn Đầu vào: - SCI mục lớp nghĩa - SRI mục quan hệ nghĩa - C' tập lớp nghĩa truy vấn - R' tập quan hệ phụ thuộc nghĩa truy vấn Đầu ra: - Cq tập lớp nghĩa truy vấn tính truy vấn - Rq tập quan hệ phụ thuộc nghĩa tính truy vấn Thủ tục xử lý: for i to |C'| idf findIdf(SCI.dict, C'[i].sem) C'[i].w C'[i].w * idf 13 end for 14 15 16 18 19 20 terms {(C'[i].sem, sumWeightBySem(C',C'[i].sem))} cwlen sumWeight(C') csum |terms|/sqrt(cwlen)) for i to |terms| temrs[i].w terms[i].w * csum / cwlen end for Cq = terms 21 24 for i to |R'| 26 idf findIdf(SRI.dict, R'[i].sem) 32 R'[i].w R'[i].w * idf 34 end for terms {(R'[i].sem, sumWeightBySem(R',R'[i].sem))} rwlen sumWeight(R') 35 rsum |terms|/sqrt(rwlen) 36 37 for i to |terms| 39 terms[i].w terms[i].w * rsum / rwlen 40 end for 41 Rq = Tmp ... luận án, đối tượng nghiên cứu xác định gồm: - Mô hình hệ thống truy xuất văn tiếng Việt dựa ngữ nghĩa - Ngữ nghĩa câu văn tiếng Việt - Khoảng cách ngữ nghĩa hai câu tiếng Việt câu văn tiếng Việt. .. thuật ngữ "truy xuất văn bản" theo ý nghĩa Tìm kiếm văn khơng thực tìm kiếm liệu web cơng cụ có sử dụng động tìm kiếm Đề tài luận án nghiên cứu mơ hình tìm kiếm văn tiếng Việt dựa ngữ nghĩa Vì... đề tài luận án vấn đề tìm kiếm văn tiếng Việt dựa ngữ nghĩa giải cách nghiên cứu mơ hình truy xuất văn tiếng Việt dựa ngữ nghĩa 1.1.1 Lịch sử nghiên cứu Việc tổ chức lưu trữ tìm kiếm tài liệu