XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

223 703 3
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN  TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tôi cam ñoan rằng nội dung của luận án này là kết quảnghiên cứu của bản thân.

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 LỜI CAM ĐOAN Tôi cam ñoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố trong bất kỳ công trình khoa học nào khác. Tác giả luận án Nguyễn Chánh Thành LỜI CẢM ƠN Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn cùng gia ñình thường xuyên ñộng viên khích lệ. Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp ñỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất. Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa; ñặc biệt PGS.TS. Cao Hoàng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ Phúc và TS. Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ tục hoàn thành luận án. Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành khóa học NCS. Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời ñộng viên khích lệ quý báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận án. Tác giả luận án Nguyễn Chánh Thành TÓM TẮT Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn, hoặc chất lượng thấp. Do ñó, mở rộng truy vấnvấn ñề cần thiết, ñể từ ñó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên quan, từ ñồng hiện hay hình tri thức như bản thể học (ontology). Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu từ ñầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet. Một số nhóm khác ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn. Những ñịnh hướng ñặc biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain). Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các hình mở rộng truy vấn dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án. i MỤC LỤC MỤC LỤC . i DANH MỤC CÁC BẢNG . iii DANH MỤC CÁC HÌNH v DANH MỤC CÁC GIẢI THUẬT . vii DANH MỤC CÁC TỪ VIẾT TẮT . viii Chương 1 GIỚI THIỆU 1 1.1 Động cơ nghiên cứu . 1 1.2 Mục tiêu và phạm vi nghiên cứu . 5 1.3 Đóng góp chính của luận án 8 1.4 Cấu trúc của luận án . 10 1.5 Các quy ước . 13 1.6 Tóm tắt nội dung luận án . 13 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu . 14 2.2 Các nghiên cứu liên quan trong nước 15 2.3 Các nghiên cứu về ontology 19 2.4 Các nghiên cứu về mở rộng truy vấn . 23 2.5 Khai thác dữ liệu từ WordNet 39 2.6 Tóm lược 44 Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG . 46 3.1 Giới thiệu . 46 3.2 Bài tốn Xây dựng ontology và bài tốn Hồn chỉnh mở rộng truy vấn . 46 3.3 Các hình cho bài tốn mở rộng truy vấn 60 3.4 Mẫu nhận dạng cụm danh từ 65 3.5 Phương pháp thực nghiệm và đánh giá 70 3.6 Nguồn dữ liệu thực nghiệm . 74 3.7 Tóm lược 88 Chương 4 XÂY DỰNG ONTOLOGY OOMP 90 4.1 Giới thiệu . 90 4.2 Xây dựng ontology OOMP 90 4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu 95 4.4 Phương pháp huấn luyện dựa trên WordNet . 100 4.5 Cơ chế tự huấn luyện của ontology OOMP . 107 4.6 Các ứng dụng của ontology và quan hệ . 109 4.7 Tóm lược 110 Chương 5 HỒN CHỈNH VÀ RÚT GỌN TRUY VẤN . 112 5.1 Giới thiệu . 112 ii 5.2 Hoàn chỉnh và rút gọn truy vấn . 113 5.3 Kiểm tra cụm danh từ hoàn chỉnh 114 5.4 Tạo cụm danh từ hoàn chỉnh 121 5.5 Tạo cụm danh từ rút gọn 122 5.6 Hoàn chỉnh cụm danh từ 123 5.7 Giải thuật rút gọn thành phần cụm danh từ 135 5.8 Tóm lược 140 Chương 6 MỞ RỘNG TRUY VẤN 142 6.1 Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web . 142 6.2 Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn 153 6.3 Tóm lược 165 Chương 7 KẾT LUẬN . 167 7.1 Các kết quả ñạt ñược 167 7.2 Hướng phát triển 171 7.3 Lời kết 172 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ . 174 TÀI LIỆU THAM KHẢO . 177 Phụ lục A. Tóm lược về WordNet . a Phụ lục B. Cấu trúc cụm danh từ tiếng Anh c Phụ lục C. Danh mục từ loại tiếng Anh g Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây dựng dựa trên TreeBank . i Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học . o Phụ lục F. Cấu trúc ñịnh dạng tài liệu TREC p Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án . s iii DANH MỤC CÁC BẢNG Bảng 3.1. Danh sách mã lỗi quy ước . 57 Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính )'|( qq℘ 63 Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính )'(q℘ 63 Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) 67 Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ . 68 Bảng 3.6. Thống kê thành phần dữ liệu từ TREC . 76 Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 . 78 Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu . 79 Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu . 81 Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm 83 Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh . 84 Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu . 98 Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99 Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99 Bảng 4.4. Các thống kê cho dữ liệu huấn luyện 100 Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet . 105 Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT . 106 Bảng 4.7. Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT 106 Bảng 4.8. Các thống kê cho dữ liệu huấn luyện 106 Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT 108 Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV 117 Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi 117 Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu . 118 Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian 120 Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC . 129 Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi . 130 Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu . 130 Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC 131 iv Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật NPC 131 Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC . 133 Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC 134 Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR 137 Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR 137 Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật NPMR 137 Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR . 139 Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR . 140 Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE . 148 Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi . 148 Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE 149 Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật SNPE 149 Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE . 151 Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thô và SNPE 153 Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC . 160 Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC 161 Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC 161 Bảng 6.10. So sánh kết quả thực nghiệm 1 163 Bảng 6.11. So sánh kết quả thực nghiệm 2 164 Bảng 6.12. So sánh kết quả thực nghiệm 3 165 v DANH MỤC CÁC HÌNH Hình 1.1. Mối quan hệ giữa hình của luận án và hệ thống truy xuất thông tin . 6 Hình 1.2. Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án . 13 Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) . 41 Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger . 43 Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris 43 Hình 3.1. Quan hệ kết hợp OMP . 55 Hình 3.2. Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ R OMP (hình a) 56 Hình 3.3. Đồ thị ngữ nghĩa G có phân lớp . 59 Hình 3.4. Tổ chức phân cấp các hình 61 Hình 3.5. Ví dụ về ñặc tả các mẫu trong JAPE . 70 Hình 3.6. Tỉ lệ phân bố các mục tài liệu 76 Hình 3.7. Cài ñặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML . 77 Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục 78 Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục . 79 Hình 3.10. Cài ñặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu . 80 Hình 3.11. Thống kê số lượng tài liệu liên quan xác ñịnh ñược 81 Hình 3.12. Tỉ lệ tài liệu liên quan xác ñịnh ñược 82 Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm 82 Hình 3.14. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ . 85 Hình 3.15. Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện . 85 Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu 86 Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu 86 Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu 87 Hình 4.1. Cấu trúc mức luận lý của ontology OOMP . 91 Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ . 91 Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP . 92 Hình 4.4. Các phương pháp huấn luyện ontology OOMP . 95 Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu 95 Hình 4.6. Quan hệ R m ñược xây dựng từ quan hệ holonymy trong WordNet . 101 [...]... thông tin K t qu tr v (t p tài li u) (C) Hình 1.1 M i quan h gi a hình c a lu n án và h th ng truy xu t thông tin (A) hình x lý c a lu n án (ph m vi nghiên c u c a lu n án) (B) Đ ng cơ tìm ki m thông tin (thu c h th ng truy xu t thông tin) (C) K t qu tìm ki m thông tin t yêu c u c a các câu truy v n ñã m r ng V i hình ñư c t hình 1.1, trong m c (A), câu truy v n nh p (d ng c m danh t bao g... m t trong nh ng ñ nh hư ng m i c a nhóm này Công trình [131] (năm 2008) kh o sát các hư ng nghiên c u khác nhau v m r ng hình không gian véc-tơ trong lĩnh v c truy xu t thông tin, t ñó ñ xu t m r ng cho hình này thông qua vi c k t h p v i ontology theo hư ng x lý thông tin v th c th có tên So sánh v i Lucene, hình này ñ t ñư c nhi u ưu ñi m hơn trong vi c truy xu t văn b n, bi u di n văn b...vi Hình 4.7 Quan h Rm ñư c xây d ng t quan h meronymy trong WordNet 101 Hình 4.8 Quan h Rp ñư c xây d ng t quan h attribute trong WordNet 101 Hình 4.9 Quan h Rm ñư c xây d ng t quan h similar trong WordNet 101 Hình 4.10 Quan h Rm và Rp ñư c xây d ng t quan h similar trong WordNet 102 Hình 4.11 Quan h Rp ñư c xây d ng t quan h similar trong WordNet 102 Hình 4.12 T ch c d... trích thông tin, phân lo i văn b n), Web ng nghĩa o Nhóm 2 - PGS.TS.Cao Hoàng Tr , TS Qu n Thành Thơ: Web ng nghĩa (semantic web), truy xu t– rút trích thông tin v th c th có tên (named-entity) o Nhóm 3 - TS.Đ ng Tr n Khánh: Khai thác và thông tin ng nghĩa và b o m t thông tin − Đ i h c Công ngh Thông tin Tp.HCM: o Nhóm 4 - PGS.TS.Đ Phúc: X lý ngôn ng t nhiên (d ch máy, tóm lư c văn b n, rút trích thông. .. cho truy v n sinh t gi i thu t SNPE 150 Hình 6.3 Th ng kê s lư ng k t qu th c nghi m theo ngu n d li u 152 Hình 6.4 Th ng kê s li u các ñ ño theo ngu n d li u 152 Hình 6.5 Minh h a tính ch t (6.1) 154 Hình 6.6 ng d ng tính ch t (6.1) vào m r ng k t qu tìm ki m 155 Hình 6.7 hình h th ng m r ng truy v n k t h p h th ng truy xu t thông tin d ng s n 155 Hình. .. u ki n truy v n hoàn ch nh Đi u ñó s giúp gi m ñư c ñ ph c t p hay d ng bi u di n ph c h p c a truy v n, ñ ng th i còn giúp ñ m b o tính duy nh t c a t ng thành ph n trong truy v n th a ñi u ki n truy v n hoàn ch nh M c (B) c a hình trên g m ñ ng cơ tìm ki m thông tin (search engine) Đây là m t b ph n quan tr ng c a h th ng Truy xu t Thông tin (Information Retrieval) Đ ng cơ tìm ki m thông tin gi i... Expansion, SNPE) hình cùng các phương pháp x lý truy v n này có th áp d ng trong Bài toán 2, cũng như trong các bài toán khác như: − Ki m tra tính hoàn ch nh c a c m danh t ti ng Anh theo quan ñi m ngôn ng h c tính toán ( ng d ng trong lĩnh v c x lý ngôn ng t nhiên: truy xu t thông tin, rút trích thông tin, tóm lư c n i dung văn b n) − Hoàn ch nh và m r ng c m danh t tương ñương ( ng d ng trong lĩnh v... hi n d ng văn b n bi u di n b i ngôn ng t nhiên, trong ñó ph n l n là thông qua các trang Web, thư ng ch phù h p v i kh năng ñ c hi u c a ngư i s d ng Đ ng th i v i s phát tri n c a Web là s gia tăng r t l n v nhu c u truy xu t thông tin c a ngư i s d ng, trong ñó vi c tìm ki m các thông tin th hi n trong ngôn ng ti ng Anh chi m t l ñáng k Đ c bi t trong nh ng năm g n ñây, nhu c u truy c p tin t c trên... tri n khai trong th c t ñ mang l i k t qu truy xu t thông tin t t hơn Như ñ nh hư ng nêu trên, ph m vi nghiên c u c a lu n án ñư c th hi n trong hình 1.1 (trong khung ñư ng g ch ñ t nét) (A) (B) Nh p: Câu truy v n d ng c m danh t Xu t: B x lý m r ng truy v n trên cơ s k th pv i ontology Các câu truy v n: - d ng c m danh t , - ñã ñư c m r ng có d ng truy v n hoàn ch nh Đ ng cơ tìm ki m thông tin K t qu... phiên b n 3.0 104 Hình 4.13 Th ng kê s lư ng các quan h trong WordNet 104 Hình 5.1 hình h th ng hoàn ch nh và rút g n truy v n 113 Hình 5.2 Các trư ng h p x lý trong gi i thu t CNPV theo d ng l i và m u 120 Hình 5.3 Th ng kê các trư ng h p x lý theo d ng l i m c chi ti t 129 Hình 5.4 Cài ñ t ch c năng tìm ki m cho truy v n sinh t gi i thu t NPC 132 Hình 5.5 Th ng kê s li

Ngày đăng: 26/04/2013, 16:57

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan