Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP.HỒ CHÍ MINH – 2010
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS PHAN THỊ TƯƠI
TP.HỒ CHÍ MINH – 2010
Trang 3thân Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án Những ñóng góp trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố trong bất kỳ công trình khoa học nào khác
Tác giả luận án
Nguyễn Chánh Thành
Trang 4ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè cùng gia ñình thường xuyên ñộng viên khích lệ
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp ñỡ quí báu của PGS.TS Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất
Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP Hồ Chí Minh ñã giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa; ñặc biệt PGS.TS Cao Hoàng Trụ, PGS.TS Dương Tuấn Anh, PGS.TS Đỗ Phúc và TS Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ tục hoàn thành luận án
Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành khóa học NCS
Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời ñộng viên khích lệ quý báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận án
Tác giả luận án Nguyễn Chánh Thành
Trang 5nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần tìm Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn, hoặc chất lượng thấp Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên
quan, từ ñồng hiện hay mô hình tri thức như bản thể học (ontology)
Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu từ ñầu thập niên 1990 với một số thành công Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet Một số nhóm khác ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn Những ñịnh hướng ñặc biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ
rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một mô
hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain)
Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể
học (ontology-based query expansion) Để thực hiện mục tiêu trên, luận án phải giải
quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất phương pháp hoàn thiện và mở rộng truy vấn Phần thực nghiệm của luận án ñược tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án
Trang 6MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH v
DANH MỤC CÁC GIẢI THUẬT vii
DANH MỤC CÁC TỪ VIẾT TẮT viii
Chương 1GIỚI THIỆU 1
1.1Động cơ nghiên cứu 1
1.2Mục tiêu và phạm vi nghiên cứu 5
1.3Đóng góp chính của luận án 8
1.4Cấu trúc của luận án 10
1.5Các quy ước 13
1.6Tóm tắt nội dung luận án 13
Chương 2CÁC NGHIÊN CỨU LIÊN QUAN 14
2.1Giới thiệu 14
2.2Các nghiên cứu liên quan trong nước 15
2.3Các nghiên cứu về ontology 19
2.4Các nghiên cứu về mở rộng truy vấn 23
2.5Khai thác dữ liệu từ WordNet 39
2.6Tóm lược 44
Chương 3XÂY DỰNG NỀN TẢNG HỆ THỐNG 46
3.1Giới thiệu 46
3.2Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn 46
3.3Các mô hình cho bài toán mở rộng truy vấn 60
3.4Mẫu nhận dạng cụm danh từ 65
3.5Phương pháp thực nghiệm và ñánh giá 70
3.6Nguồn dữ liệu thực nghiệm 74
3.7Tóm lược 88
Chương 4 XÂY DỰNG ONTOLOGY OOMP 90
4.1Giới thiệu 90
4.2 Xây dựng ontology OOMP 90
4.3Phương pháp huấn luyện dựa trên kho ngữ liệu 95
4.4Phương pháp huấn luyện dựa trên WordNet 100
4.5 Cơ chế tự huấn luyện của ontology OOMP 107
4.6Các ứng dụng của ontology và quan hệ 109
4.7Tóm lược 110
Chương 5HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN 112
5.1Giới thiệu 112
Trang 75.2Hoàn chỉnh và rút gọn truy vấn 113
5.3Kiểm tra cụm danh từ hoàn chỉnh 114
5.4Tạo cụm danh từ hoàn chỉnh 121
6.1Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web 142
6.2Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn 153
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ 174
TÀI LIỆU THAM KHẢO 177
Phụ lục A.Tóm lược về WordNet aPhụ lục B.Cấu trúc cụm danh từ tiếng Anh cPhụ lục C.Danh mục từ loại tiếng Anh gPhụ lục D.Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây dựng dựa trên TreeBank iPhụ lục E.Tính chất ảnh-tạo ảnh trong toán học oPhụ lục F.Cấu trúc ñịnh dạng tài liệu TREC pPhụ lục G.Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án s
Trang 8DANH MỤC CÁC BẢNG
Bảng 3.1 Danh sách mã lỗi quy ước 57
Bảng 3.2 Các trường hợp liên kết giữa q và q’ ñể tính ℘( qq| ') 63
Bảng 3.3 Các trường hợp liên kết giữa q và q’ ñể tính ℘(q)' 63
Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) 67
Bảng 3.5 Danh sách mẫu cơ bản ñặc tả cụm danh từ 68
Bảng 3.6 Thống kê thành phần dữ liệu từ TREC 76
Bảng 3.7 Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 78
Bảng 3.8 Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu 79
Bảng 3.9 Thống kê các tài liệu liên quan theo nguồn dữ liệu 81
Bảng 3.10 Danh sách mẫu sử dụng trong thực nghiệm 83
Bảng 3.11 Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh 84
Bảng 4.1 Thống kê số lượng cụm danh từ theo dạng mẫu 98
Bảng 4.2 Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99
Bảng 4.3 Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99
Bảng 4.4 Các thống kê cho dữ liệu huấn luyện 100
Bảng 4.5 Danh mục phân lớp từ vựng sử dụng trong WordNet 105
Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT 106
Bảng 4.7 Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT 106
Bảng 4.8 Các thống kê cho dữ liệu huấn luyện 106
Bảng 4.9 Dữ liệu bổ sung tạo bởi giải thuật A-KBT 108
Bảng 5.1 Thống kê về thời gian thực thi của giải thuật CNPV 117
Bảng 5.2 Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi 117
Bảng 5.3 Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu 118
Bảng 5.4 Số liệu thống kê các phần tử phân tích trung gian 120
Bảng 5.5 Thống kê về thời gian thực thi của giải thuật NPC 129
Bảng 5.6 Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi 130
Bảng 5.7 Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu 130
Bảng 5.8 Thống kê các phần tử phân tích trung gian của giải thuật NPC 131
Trang 9Bảng 5.9 Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
NPC 131
Bảng 5.10 Phân tích kết quả thực nghiệm của giải thuật NPC 133
Bảng 5.11 So sánh kết quả của phương pháp tìm kiếm thô và NPC 134
Bảng 5.12 Thống kê về thời gian thực thi của giải thuật NPMR 137
Bảng 5.13 Thống kê các phần tử phân tích trung gian của giải thuật NPMR 137
Bảng 5.14 Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật NPMR 137
Bảng 5.15 Phân tích kết quả thực nghiệm của giải thuật NPMR 139
Bảng 5.16 So sánh kết quả của phương pháp tìm kiếm thô và NPMR 140
Bảng 6.1 Thống kê về thời gian thực thi của giải thuật SNPE 148
Bảng 6.2 Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi 148
Bảng 6.3 Thống kê các phần tử phân tích trung gian của giải thuật SNPE 149
Bảng 6.4 Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật SNPE 149
Bảng 6.5 Phân tích kết quả thực nghiệm của giải thuật SNPE 151
Bảng 6.6 So sánh kết quả của phương pháp tìm kiếm thô và SNPE 153
Bảng 6.7 Thống kê số liệu thực nghiệm trong giải thuật SIC 160
Bảng 6.8 Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC 161
Bảng 6.9 Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC 161
Bảng 6.10 So sánh kết quả thực nghiệm 1 163
Bảng 6.11 So sánh kết quả thực nghiệm 2 164
Bảng 6.12 So sánh kết quả thực nghiệm 3 165
Trang 10DANH MỤC CÁC HÌNH
Hình 1.1 Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin 6
Hình 1.2 Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án 13
Hình 2.1 Tổ chức hệ thống WordNet phiên bản 3.0 (*) 41
Hình 2.2 Cấu trúc ontology về hình ảnh của S.Zinger 43
Hình 2.3 Đồ thị quan hệ ngữ nghĩa của Boris 43
Hình 3.1 Quan hệ kết hợp OMP 55
Hình 3.2 Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ ROMP (hình a) 56
Hình 3.3 Đồ thị ngữ nghĩa G có phân lớp 59
Hình 3.4 Tổ chức phân cấp các mô hình 61
Hình 3.5 Ví dụ về ñặc tả các mẫu trong JAPE 70
Hình 3.6 Tỉ lệ phân bố các mục tài liệu 76
Hình 3.7 Cài ñặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML 77
Hình 3.8 Tổ chức lưu trữ vật lý của các tập chỉ mục 78
Hình 3.9 Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục 79
Hình 3.10 Cài ñặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu 80
Hình 3.11 Thống kê số lượng tài liệu liên quan xác ñịnh ñược 81
Hình 3.12 Tỉ lệ tài liệu liên quan xác ñịnh ñược 82
Hình 3.13 Thống kê tập mẫu sử dụng trong thực nghiệm 82
Hình 3.14 Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ 85
Hình 3.15 Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện 85
Hình 3.16 Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu 86
Hình 3.17 Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu 86
Hình 3.18 Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu 87
Hình 4.1 Cấu trúc mức luận lý của ontology OOMP 91
Hình 4.2 Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ 91
Hình 4.3 Đặc tả luận lý cho cấu trúc ontology OOMP 92
Hình 4.4 Các phương pháp huấn luyện ontology OOMP 95
Hình 4.5 Phương pháp huấn luyện dựa trên kho ngữ liệu 95
Hình 4.6 Quan hệ Rm ñược xây dựng từ quan hệ holonymy trong WordNet 101
Trang 11Hình 4.7 Quan hệ Rm ñược xây dựng từ quan hệ meronymy trong WordNet 101
Hình 4.8 Quan hệ Rp ñược xây dựng từ quan hệ attribute trong WordNet 101
Hình 4.9 Quan hệ Rm ñược xây dựng từ quan hệ similar trong WordNet 101
Hình 4.10 Quan hệ Rm và Rp ñược xây dựng từ quan hệ similar trong WordNet 102
Hình 4.11 Quan hệ Rp ñược xây dựng từ quan hệ similar trong WordNet 102
Hình 4.12 Tổ chức dữ liệu của WordNet phiên bản 3.0 104
Hình 4.13 Thống kê số lượng các quan hệ trong WordNet 104
Hình 5.1 Mô hình hệ thống hoàn chỉnh và rút gọn truy vấn 113
Hình 5.2 Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu 120
Hình 5.3 Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết 129
Hình 5.4 Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPC 132
Hình 5.5 Thống kê số liệu các ñộ ño theo nguồn dữ liệu 132
Hình 5.6 Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu 133
Hình 5.7 Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPMR 138
Hình 5.8 Thống kê số liệu các ñộ ño theo nguồn dữ liệu 139
Hình 5.9 Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu 140
Hình 6.1 Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông tin 143
Hình 6.2 Cài ñặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật SNPE 150
Hình 6.3 Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu 152
Hình 6.4 Thống kê số liệu các ñộ ño theo nguồn dữ liệu 152
Hình 6.5 Minh họa tính chất (6.1) 154
Hình 6.6 Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm 155
Hình 6.7 Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng sẵn 155
Hình 6.8 Mô hình tổ chức chỉ mục hướng ngữ nghĩa 156
Hình 6.9 So sánh số liên kết tạo thành theo nguồn dữ liệu 162
Hình 6.10 So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu 162
Hình 7.1 Phương pháp thực hiện của vấn ñề 4 172
Trang 12DANH MỤC CÁC GIẢI THUẬT
Giải thuật 4.1 Huấn luyện ontology dựa trên kho ngữ liệu 96
Giải thuật 4.2 Huấn luyện ontology dựa trên WordNet 103
Giải thuật 4.3 Huấn luyện ontology tự ñộng 107
Giải thuật 5.1 Kiểm tra cụm danh từ hoàn chỉnh 114
Giải thuật 5.2 Tạo cụm danh từ hoàn chỉnh 121
Giải thuật 5.3 Tạo cụm danh từ rút gọn 122
Giải thuật 5.4 Hoàn chỉnh cụm danh từ 123
Giải thuật 5.5 Rút gọn thành phần cụm danh từ 135
Giải thuật 6.1 Mở rộng cụm danh từ tương ñương 144
Giải thuật 6.2 Tạo chỉ mục hướng ngữ nghĩa 157
Giải thuật 6.3 Tìm kiếm kết hợp 158
Trang 13DANH MỤC CÁC TỪ VIẾT TẮT
STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
1 A-KBT Auto Knowledge Base Training
Huấn luyện ontology tự ñộng
2 CB-KBT Corpus-Based Knowledge Base Training
Huấn luyện ontology dựa trên kho ngữ liệu
3 CL Concept Lattice Lưới khái niệm 4 CLIR Cross-Language
Information Retrieval
Truy xuất thông tin xuyên ngôn ngữ
5 CNPV Complete Noun Phrase Verification
Kiểm tra tính hoàn chỉnh của cụm danh từ
6 CREOLE Collection of REusable Object for Language Engineering
Tập ñối tượng khả tái sử dụng cho
ñộng cơ ngôn ngữ
7 DC Dice Coefficient Hệ số khối
8 EEM External Expansion Model Mô hình mở rộng ngoại vi 9 FCA Formal Concept Analysis Phân tích Khái niệm Chính quy 10 GATE General Architecture for
Tần suất nghịch ñảo tài liệu
13 IR Information Retrieval Truy xuất thông tin
14 ISE Internal Search Engine Động cơ tìm kiếm thông tin cục bộ
15 JAPE Java Annotation Patterns Engine
Động cơ mẫu chú giải Java
16 MAP Mean Average Precision Độ chính xác trung bình bình quân
17 NPC Noun Phrase Completion Hoàn chỉnh thành phần cụm danh từ 18 NPRM Noun Phrase Member
Reduction
Rút gọn thành phần cụm danh từ
19 OMP Object-Member-Property Đối tượng-Thành phần-Tính chất
20 OOMP Ontology of Member-Property
Object-Cơ sở tri thức của Đối tượng-Thành phần-Tính chất
21 QEM Query Expansion Model Mô hình mở rộng truy vấn 22 SIC Semantic Index Creation Tạo chỉ mục hướng ngữ nghĩa 23 SNPE Similar Noun Phrase
Expansion
Mở rộng cụm danh từ tương ñương
24 TREC Text REtrieval Conference Hội nghị về Truy xuất văn bản 25 WB-KBT WordNet-Based Knowledge
Base Training
Huấn luyện ontology dựa trên WordNet
Trang 14Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ thống truy xuất thông tin (IR) ñã ñược nghiên cứu và phát triển, trong ñó thành
công nhất là một số ñộng cơ tìm kiếm (search engine) nổi tiếng như Google [148] –
Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần ñây Tuy nhiên, thông qua các hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ
a internet còn ñược gọi là World Wide Web, viết gọn là WWW hay Web
Trang 15kết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới hạn nhất ñịnh
Nguyên nhân chủ yếu ảnh hưởng ñến vấn ñề này là:
− Ngữ nghĩa của tài liệu bị mất ñi do cách biểu diễn truy vấn dưới dạng một tập các từ khóa
− Yêu cầu thông tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài từ khóa cốt lõi, không thể hiện ñủ ngữ nghĩa cần thiết
− Người sử dụng không cung cấp ñủ thông tin truy vấn cần thiết cho ñộng cơ tìm kiếm
− Động cơ tìm kiếm thông tin hoạt ñộng dựa trên cơ chế so trùng từ khóa và chưa quan tâm ñúng mức ñến yếu tố ngữ nghĩa trong tương tác và hỗ trợ người dùng
− Các ñộng cơ tìm kiếm hiện có thường hỗ trợ chính cho tiếng Anh, nhưng thiếu công cụ trợ giúp cho ngôn ngữ khác …
thể tìm các thông tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt theo cơ chế so trùng từ khóa, mà còn có thể trả lời các câu hỏi của người sử dụng (trong phạm vi xác ñịnh cho tiếng Việt)
− Hệ thống chưa thực sự ñủ mạnh ñể nhận biết ngữ nghĩa của truy vấn
Trang 16Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không thể hỗ trợ người dùng như mong ñợi Truy vấn của người dùng cũng chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho các quá trình tìm kiếm và truy xuất thông tin ñược tốt hơn Vì vậy, việc
bổ sung ngữ nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết
Một bài toán kinh ñiển trong lĩnh vực Truy xuất thông tin là Mở rộng truy vấn Đó là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các
truy vấn mới tương ñồng ngữ nghĩa Bài toán này là vấn ñề ñược quan tâm vì nó có thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngôn ngữ tự nhiên, cũng như khắc phục những hạn chế của việc sử dụng từ khóa ñể thể hiện một khái niệm thông tin Krovetz và Croft [109] ñã quan sát thấy phần lớn các lợi ích thu ñược trong việc tìm kiếm thông tin có ñộ truy hồi cao phụ thuộc vào việc so trùng các từ khóa Đối với việc mở rộng truy vấn, hệ thống xác ñịnh ngữ nghĩa truy vấn ñược chính xác hơn, ñiều ñó cho phép kết quả truy vấn tốt hơn Thông qua kết quả truy vấn mở rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn ñể thu ñược các kết quả hữu ích
Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào ñó một số từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có thể bao phủ thông tin rộng hơn Như vậy, tài liệu mong ñợi ñể thu nhận sẽ nhiều hơn dẫn ñến tỉ lệ bao phủ thông tin tăng lên tương ứng Quá trình thêm những thuật ngữ này có thể thực hiện bằng tay, tự ñộng hoặc có người dùng trợ giúp Việc mở rộng truy vấn bằng tay dựa vào sự am hiểu và thành thạo của con người ñể ñưa ra quyết ñịnh, nhằm nhúng các thuật ngữ vào truy vấn mới Trong trường hợp mở rộng tự ñộng truy vấn, các trọng số ñược tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có trọng số cao nhất vào truy vấn ban ñầu Các hàm tính trọng số khác nhau ñưa ra những kết quả khác nhau, do ñó hiệu suất của việc truy vấn phụ thuộc vào cách thức tính các trọng số Với dạng mở rộng truy vấn có người dùng trợ giúp, hệ thống sẽ sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một số trong các thuật ngữ ñó ñể thêm vào
Trang 17Vấn ñề cốt lõi của bài toán mở rộng truy vấn là xác ñịnh các từ thích hợp ñể thêm vào truy vấn của người dùng Nhiều nghiên cứu ñược công bố về mở rộng truy vấn trong ñó hướng ñến việc sử dụng thông tin ngữ cảnh ñể xác ñịnh các từ cần thêm một cách hợp lý Thông tin theo ngữ cảnh có thể thu ñược từ các thông tin
phản hồi liên quan (relevance feedback), từ các từ ñồng hiện (co-occurrence term) và trong thời gian gần ñây là từ các mô hình tri thức như bản thể học (ontology)
Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn ñề ñang ñược các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin Theo Finkelstein [92] ngữ cảnh chưa có ñịnh nghĩa chuẩn xác, nhưng theo [124] thì có
hai ñịnh nghĩa về ngữ cảnh Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là các phần của bài luận bao quanh từ hay ñoạn văn và có thể làm sáng tỏ nghĩa của nó”b Định nghĩa thứ hai dựa trên tình huống “các ñiều kiện tương quan trong ñó một ñiều gì ñó tồn tại hay xảy ra”c Từ ñó, một nhận ñịnh chung là thông qua tương tác của người dùng lên hệ thống truy xuất thông tin, ngữ cảnh tương ứng sẽ bao gồm những thông tin liên quan ñến những hành ñộng, những quyết ñịnh của người dùng
Ngữ cảnh trong truy xuất thông tin bao gồm nhiều vấn ñề trong ñó có mở rộng truy vấn Một khó khăn là làm sao biểu diễn ñược nghĩa của truy vấn bằng các
thuật ngữ (term) một cách chính xác Do vậy, mở rộng truy vấn cho phép người
dùng thực hiện tìm kiếm thông tin bằng truy vấn mới có các thuật ngữ là sự biến ñổi hình thái của thuật ngữ ban ñầu và (hoặc) một số thuật ngữ mới ñược thêm vào truy vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban ñầu Nhiều phương pháp tiếp cận khác nhau ñược ñề xuất hướng ñến việc mở rộng truy vấn Trong ñó, có nhiều nghiên cứu hướng ñến việc sử dụng ontology ñể hỗ trợ suy luận ngữ cảnh cho các truy vấn nhập nhằng Các khái niệm trong ontology ñược dùng ñể khử nhập nhằng ngữ nghĩa của từ và hỗ trợ ñể mở rộng truy vấn Việc mở rộng truy vấn ñạt thành công ở một mức ñộ nhất ñịnh nhưng vẫn còn nhiều vấn ñề cần cải thiện về kỹ
b Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning”
c Nguyên văn: “the interrelated conditions in which something exists or occurs”
Trang 18thuật, giao diện hoặc giải thuật ñể xác ñịnh ngữ nghĩa một cách chính xác hơn từ ñó cải tiến kết quả truy vấn
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên
internet), cùng với hướng giải quyết làm sao ñể hệ thống IR có thể hiểu nhiều hơn và thông minh hơn khi xử lý truy vấn ban ñầu của người dùng, thì yêu cầu về một
hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn tương ñồng hoặc cùng mục tiêu là bài toán quan trọng Do ñó, thông qua những khảo sát phân tích nêu trên, vấn ñề mở rộng truy vấn là bài toán quan trọng mà luận án này nghiên cứu và ñề xuất phương pháp giải quyết
1.2 Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương pháp mở rộng truy vấn ban ñầu của người dùng Đây là vấn ñề cốt lõi và ñồng thời là mục tiêu nghiên cứu của luận án
Hiện nay trên thế giới nhiều phương pháp tiếp cận bài toán mở rộng truy vấn trên cơ sở sử dụng cơ sở tri thức ñã ñược công bố như:
− Mở rộng truy vấn sử dụng cơ sở tri thức có tương tác kho ngữ liệu (công trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] )
− Mở rộng truy vấn sử dụng các cơ sở tri thức không tương tác kho ngữ liệu (công trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …)
Mỗi phương pháp ñều có ưu, nhược ñiểm cùng với những công trình nghiên cứu và các thực nghiệm liên quan Từ việc khảo sát phân tích những phương pháp này (xem chương 2), dựa trên những giải pháp khả thi ñã ñược công bố trên thế giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức không tương tác kho ngữ liệu
Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết quả như mong muốn, tác giả ñã thực hiện:
Trang 19(a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới cho việc mở rộng truy vấn, trên cơ sở kết hợp với ontologyd
(b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn luyện tạo dữ liệu ban ñầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và có thể triển khai trong thực tế ñể mang lại kết quả truy xuất thông tin tốt hơn
Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể hiện
trong hình 1.1 (trong khung ñường gạch ñứt nét)
Hình 1.1 Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin
(A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)
(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng
Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ có danh từ ñơn) ñược xử lý
ñể trả về tập các câu truy vấn ñã ñược mở rộng (cụm danh từ có dạng truy vấn hoàn
chỉnhe) Trong phạm vi luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi
d Khái niệm ontology còn ñược diễn dịch là “cây phả hệ tri thức” hay “cơ sở tri thức”
e Tham khảo thêm ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3
Nhập: Câu truy vấn
dạng cụm danh từ
Bộ xử lý mở rộng truy vấn trên cơ sở kết hợp với
liệu)
Xuất: Các câu truy vấn:
- dạng cụm danh từ, - ñã ñược mở rộng có dạng
truy vấn hoàn chỉnh
(A)
(B)
(C)
Trang 20cho một câu ([23] [149]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý ñể loại bỏ các thành phần không quan trọng nhằm giữ lại những thành phần chính thỏa ñiều kiện truy vấn hoàn chỉnh Điều ñó sẽ giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp của truy vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của
từng thành phần trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh
Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search engine) Đây là một bộ phận quan trọng của hệ thống Truy xuất Thông tin (Information Retrieval) Động cơ tìm kiếm thông tin giải quyết ba vấn ñề cốt lõi là mô hình biểu
diễn văn bản, thuật toán tìm kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng với các truy vấn và cơ chế lọc kết quả truy xuất Hiện tại trên thế giới có những ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng cơ này như một công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn ñã mở rộng bằng phương pháp xử lý của luận án và không ñặt mục tiêu nghiên cứu ba vấn ñề nêu trên Vì vậy luận án ñã không trình bày ba vấn ñề này
Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội
dung của truy vấn nhập nên hoàn toàn không làm ảnh hưởng ñến ba khía cạnh nêu
trên trong quá trình vận hành của ñộng cơ tìm kiếm ở mục (B) Điều này còn cho thấy phạm vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn dựa trên
ontology và hoàn toàn khác biệt so với ba khía cạnh ñã nêu
Từ những trình bày trên, các bài toán chính cần giải quyết trong phạm vi luận án bao gồm:
Bài toán 1 - Xây dựng ontology OOMP
Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Member-Property) cùng cơ chế huấn luyện dữ liệu Dựa trên tập tài liệu tiếng Anhf
Object-từ nguồn TREC và khai thác dữ liệu Object-từ WordNet ñể huấn luyện dữ liệu ontology
OOMP nhằm phục vụ yêu cầu của bài toán 2 Nếu bài toán 1 ñược giải quyết thành
f Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm
Trang 21công, một ontology có chất lượng ñược tạo thành sẽ giúp cung cấp nhiều khả năng chọn lựa cho các thông tin hơn, ñể bổ sung vào từ khóa ban ñầu của người dùng, dẫn ñến việc nâng cao chất lượng của việc mở rộng truy vấn Việc giải quyết bài toán này ñược trình bày chi tiết trong chương 4 của luận án
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có dạng truy vấn hoàn chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngôn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài toán 2 Các chương 4, 5 và 6 sẽ lần lượt trình bày chi tiết từng phần của những phương pháp giải quyết bài toán này
Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên không nghiên cứu vấn ñề ngữ cảnh của câu truy vấn Và thực tế việc nghiên cứu về ngữ nghĩa của cụm từ và câu có ảnh hưởng của ngữ cảnh là vấn ñề rất khó và hiện nay cũng ñang ñược nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngoài phạm vi của luận án
1.3 Đóng góp chính của luận án
Các vấn ñề nghiên cứu của luận án ñã có một số ñóng góp mới về mặt khoa học từ phương pháp luận ñến giải pháp thực hiện:
* Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh các quan hệ của các
khái niệm bao gồm:
− Quan hệ Rm xác ñịnh thành phần ñặc trưng (member) của ñối tượng (object)
− Quan hệ Rp tính chất ñặc trưng (property) của thành phần
− Các quan hệ xác ñịnh tính chất trội Rfm và Rfp liên quan
Các phương pháp mà luận án ñề xuất không những có thể áp dụng trong phạm vi luận án ñể giải quyết Bài toán 1 và Bài toán 2 nêu trên mà còn có thể áp dụng trong một số lĩnh vực khác ñể tạo ontology cho một miền khái niệm (trong lĩnh vực xử lý ngôn ngữ tự nhiên) Ngoài ra, từ góc ñộ toán học, việc xây dựng các
lớp ñồng dạng (liên quan ñến nhóm các ñối tượng, nhóm các thành phần ñặc trưng
Trang 22và nhóm các tính chất ñặc trưngg) từ các quan hệ nêu trên sẽ giúp cho việc phân
loại ñối tượng hiệu quả hơn Công trình [ii], [iv], [v] và [ix]h ñã giới thiệu phương pháp xác ñịnh các quan hệ cùng ñịnh nghĩa của những khái niệm này
Phần ñóng góp này sẽ không thực sự ñầy ñủ nếu không có các ñịnh nghĩa
MQE−+ , MQE−+IROB+P, MQE++IROB, MQE++IROB+P cùng khái niệm truy vấn hoàn chỉnh, cây phân tích và dạng ñồ thị ngữ nghĩa do tác giả ñề xuất, liên quan ñến việc mô hình hóa bài toán mở rộng truy vấn
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng các phương
pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có (Corpus-Based Knowledge Base Training, CB-KBT)
− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có Based Knowledge Base Training, WB-KBT)
(WordNet-− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của ontology từ hai
phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base Training, A-KBT)
Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở rộng truy
vấn mà còn có thể ñược sử dụng cho những bài toán khác theo hướng khai thác các quan hệ khái niệm Ngoài ra, từ góc ñộ ngôn ngữ học, các thành phần của ontology
OOMP ñược phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên
cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên Do ñó, việc phát triển ontology trên những ngôn ngữ tự nhiên khác (như tiếng Việt hay Pháp …) tương ñối thuận lợi Nội dung liên quan ñến ñóng góp này ñược công bố
trong [iv], [v] và [ix]
* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng Anh,
dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:
g Tham khảo thêm hình 3.3, trang 59 về các lớp này
h Tham khảo thêm phần Các công trình khoa học
Trang 23− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase Verification, CNPV)
− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE)
Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng trong Bài toán 2, cũng như trong các bài toán khác như:
− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo quan ñiểm ngôn ngữ học tính toán (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản)
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản) …
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới thiệu
trong [ii], [v] và [ix]
* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa
(Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc chỉ mục ñể lưu trữ
thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh Đây chính là cầu nối giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuất thông tin Kết quả thu ñược từ phương pháp này tạo tiền ñề cho nhiều nghiên cứu ứng dụng liên quan ñến truy xuất thông tin Phương pháp này ñược trình
này trong công trình [iv] và ñược phát triển trong [iii] và [viii]
Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình [xii] và dự ñịnh áp dụng cho công trình [xiii]
1.4 Cấu trúc của luận án
Luận án ñược chia thành bảy chương và bảy phụ lục Chương 1 trình bày
mục tiêu, phạm vi và những ñóng góp chính của luận án; giới thiệu cấu trúc của luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng nước ngoài Trong mỗi chương tiếp theo, từ chương 2 ñến chương 6 ñều có phần giới thiệu và phần tóm lược Chương 7 là kết luận của luận án
Trang 24Chương 2 tổng thuật các nghiên cứu ở trong nước và ngoài nước liên quan
ñến luận án Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu về vấn ñề mở rộng truy vấn, ñặc biệt là hướng kết hợp ontology, những ưu nhược ñiểm của các phương pháp nghiên cứu hiện nay
Chương 3 trình bày cơ sở toán học ñể phát triển mô hình mở rộng truy vấn
cùng một số ñề xuất về lý thuyết liên quan ñến hướng nghiên cứu của luận án Những ñề xuất lý thuyết ñược trình bày theo từng khái niệm thông qua các ñịnh nghĩa, tính chất và ví dụ minh hoạ Phần khảo sát WordNet ñược trình bày trong chương này bao gồm cấu trúc tổ chức và các tính năng cũng như ưu khuyết ñiểm Việc vận dụng ngôn ngữ học tính toán vào ñề xuất mẫu nhận dạng cụm danh từ của tác giả ñược trình bày chi tiết ở cuối chương ñể làm nổi bật tập luật sinh của mẫu Kết quả những ñề xuất về các phương pháp ñã ñược công bố trong báo cáo khoa
học [ii], [iv], [v] và [ix] Các ñề xuất này góp phần tạo cơ sở cho những phương
pháp tiếp cận (trình bày ở các chương sau) ñể giải quyết Bài toán 1 Xây dựng ontology OOMP và Bài toán 2 Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn ñề ra trong Luận án Ngoài ra, chương này còn trình bày phương pháp ñánh giá
các thực nghiệm của luận án cùng những vấn ñề liên quan ñến thực nghiệm như xác ñịnh nguồn dữ liệu sử dụng, xây dựng tập dữ liệu huấn luyện, xây dựng tập dữ liệu thử nghiệm và các công cụ hỗ trợ thực nghiệm
Chương 4 trình bày mô hình ontology OOMP cùng các phương pháp huấn
luyện dữ liệu Chương này trình bày về thiết kế tổ chức của ontology dựa trên các
quan hệ ñã ñược ñề xuất ở chương 3 và phương pháp huấn luyện dữ liệu là CB-KBT thực hiện trên tập dữ liệu TREC cùng phương pháp WB-KBT ñể rút trích dữ liệu từ
WordNet Các giải thuật này thể hiện phương pháp tiếp cận giải quyết Bài toán 1
trong mục tiêu ñề ra của Luận án Nội dung chương này dựa trên [iv], [v] và [ix]
Chương 5 trình bày hai phần, trong ñó phần một giới thiệu các bài toán hỗ
trợ ñể xây dựng cụm danh từ hoàn chỉnh và rút gọn, tạo cơ sở ñể tiếp cận các phương pháp hoàn chỉnh và mở rộng truy vấn Phần hai trình bày các phương pháp hoàn chỉnh và rút gọn truy vấn Phương pháp hoàn chỉnh truy vấn ñóng vai trò quan
Trang 25trọng ảnh hưởng tích cực ñến vấn ñề làm ñầy ñủ thông tin hơn cho một truy vấn Còn phương pháp rút gọn truy vấn sẽ góp phần tạo nên một truy vấn cô ñọng nhưng vẫn ñầy ñủ thông tin hơn Những phương pháp này ñã góp phần giải quyết mục tiêu tạo truy vấn hoàn chỉnh của Bài toán 2 nêu trên, ñồng thời ñã ñược giới thiệu trong
[v] và [xii]
Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp
Trong ñó, phương pháp ñầu tiên quan tâm ñến việc kết hợp ontology OOMP, ñể bổ
sung các thông tin về ñối tượng, thành phần cùng thuộc tính ñặc trưng vào truy vấn ban ñầu Từ ñó, các truy vấn ñã ñược mở rộng có thể tương tác với các ñộng cơ tìm kiếm thông tin có sẵn ñể khai thác thông tin trên Web Phương pháp thứ hai thực
hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất
thông tin có sẵn ñể tạo chỉ mục hướng ngữ nghĩa từ ñó mở rộng tập dữ liệu truy xuất ñược Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài toán 2 ñược giải quyết bởi hai phương pháp này với những kết quả ban ñầu ñược giới thiệu
trong [iv] và [ix] Ngoài ra [iii] và [viii] trình bày các phát triển từ hướng tiếp cận chỉ mục hướng ngữ nghĩa ñể áp dụng cho công trình [xiii]
Chương 7 là phần tổng kết, trong ñó trình bày tóm lược kết quả luận án và
những ñề nghị hướng nghiên cứu trong tương lai, liên quan ñến luận án Ngoài
những kết quả nêu trong các chương trên ñã ñược trình bày trong công trình [xii],
những kết quả bước ñầu của hướng nghiên cứu tiếp theo cũng ñược giới thiệu trong
[i], [iii], [vii], [viii], [x], [xi] và dự ñịnh áp dụng cho công trình [xiii]
Phần cuối của luận án là các phụ lục Trong ñó, phụ lục A trình bày tóm lược về WordNet Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh Phần phụ lục C và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn phạm tiếng Anh dựa trên Penn TreeBank Phụ lục E tóm lược kiến thức về khái niệm ảnh và tạo ảnh của ánh xạ trong toán học Phụ lục F giới thiệu cấu trúc ñịnh dạng tài liệu trong nguồn tài liệu TREC Phần cuối là phụ lục G cung cấp sơ ñồ minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án
Trang 261.5 Các quy ước
Các khái niệm hay thuật ngữ ñược sử dụng trong luận án ñược ñồng thời ghi cả bằng tiếng Việt và tiếng Anh (hoặc ký hiệu viết tắt tương ứng nếu có) ở lần liệt kê ñầu tiên trong luận án, sau ñó chúng sẽ ñược dùng thống nhất theo một tên gọi tiếng Việt hay tiếng Anh
Bài toán 1: xây dựng ontology OOMP
Xây dựng chỉ mục hướng ngữ nghĩa
(Ch.6: gt.SIC)
Tìm kiếm mở rộng
(Ch.6: gt.HS)
Bài toán 2B: mở rộng truy vấn dựa trên
ontology OOMP (cục bộ)
Kho ngữ liệuTREC (c)
Truy vấn hoàn chỉnh [ từ (a) ]
hoặc truy vấn rút gọn [ từ (b) ]Động cơ tìm kiếm thông tin cục bộ (ISE) (Ch.3)
Tập chỉ mục
[ tạo từ (c) ]
Kết quả & ñánh giá
(thực nghiệm trong các chương 5, 6)
Tạo truy vấn hoàn chỉnh (a)
Chương 3 giới thiệu:
- Các ñịnh nghĩa lý thuyết về dạng quan hệ ngữ nghĩa, dạng mô hình mở rộng truy vấn
- Phương pháp ñánh giá thực nghiệm- Nguồn dữ liệu thực nghiệm và các hỗ trợ
Viết tắt: Ch=chương, gt=giải thuật
Một phần kết quả công bố trong [ii], [iv], [v] và [ix]
Một phần kết quả công bố trong [iv] và [ix]
Một phần kết quả công bố trong [iv], [ix]
Hình 1.2 Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án
Trang 27Trong chương này, phần 2.2 trình bày tóm lược về các nghiên cứu trong nước có liên quan ñến luận án Phần 2.3 giới thiệu một số nghiên cứu về ontology và những vấn ñề liên quan ñồng thời cung cấp các kiến thức tổng quan về ontology, ñể từ ñó làm cơ sở cho việc phát triển ontology của ñối tượng – thuộc tính – tính
chất ñặc trưng (Ontology of Object – Member – Property, OOMP) ñề xuất trong
chương 4 Phần 2.4 sẽ ñặt vấn ñề về bài toán mở rộng truy vấn theo một số cách tiếp cận khác nhau ñể làm rõ cơ sở lý thuyết của phương pháp mở rộng truy vấn dựa
trên ontology (ontology-based query expansion) cũng như sự ñóng góp của
ontology trong việc giải quyết bài toán mở rộng truy vấn Với cấu trúc và nội dung ñược trình bày như trên sẽ ñưa ñến phương pháp hoàn chỉnh mở rộng truy vấn mà luận án ñề xuất trong chương 5 và 6 Cuối cùng phần 2.5 trình bày các khảo sát tiếp theo về vấn ñề khai thác dữ liệu và quan hệ ngữ nghĩa trong WordNet ñể huấn luyện dữ liệu cho ontology chuyên dụng Thông qua phần này, tác giả sẽ làm sáng tỏ
phương pháp huấn luyện ontology OOMP của luận án trong chương 4
Trang 282.2 Các nghiên cứu liên quan trong nước
2.2.1 Tóm lc v nhng nghiên cu liên quan
Ở Việt nam hiện có các nhóm nghiên cứu với nhiều công trình công bố trong và ngoài nước Tuy hướng nghiên cứu và kết quả công bố của những nhóm này không hoàn toàn liên quan ñến các bài toán mở rộng truy vấn của luận án, nhưng trong mỗi hướng xử lý có liên quan ñến một số phần của luận án về ontology, truy xuất và rút trích thông tin cũng như ứng dụng xử lý ngôn ngữ tự nhiên Họ ñã ñạt ñược những kết quả quan trọng cùng với nhiều công trình khoa học công bố trong và ngoài nước, ñược tóm lược như sau:
− Đại học Bách khoa Tp.HCM:
o Nhóm 1- PGS.TS.Phan Thị Tươi: Xử lý ngôn ngữ tự nhiên (dịch máy,
truy xuất và rút trích thông tin, phân loại văn bản), Web ngữ nghĩa o Nhóm 2 - PGS.TS.Cao Hoàng Trụ, TS Quản Thành Thơ: Web ngữ
nghĩa (semantic web), truy xuất– rút trích thông tin về thực thể có tên (named-entity)
o Nhóm 3 - TS.Đặng Trần Khánh: Khai thác và thông tin ngữ nghĩa và
bảo mật thông tin
− Đại học Công nghệ Thông tin Tp.HCM:
o Nhóm 4 - PGS.TS.Đỗ Phúc: Xử lý ngôn ngữ tự nhiên (dịch máy, tóm lược văn bản, rút trích thông tin, khai khoáng dữ liệu (data mining))
o Nhóm 5 - TS.Nguyễn Tuấn Đăng: Xử lý ngôn ngữ tự nhiên (dịch máy, truy xuất thông tin, thư viện số (digital library))
− Đại học Khoa học Tự nhiên Tp.HCM
o Nhóm 6 - PGS.TS.Đinh Điền: Xử lý ngôn ngữ tự nhiên (dịch máy,
ngữ pháp tiếng Việt), WordNet
o Nhóm 7 - PGS.TS.Đồng Thị Bích Thủy, TS.Hồ Bảo Quốc: Truy xuất
thông tin, truy xuất thông tin xuyên ngôn ngữ − Viện Công nghệ Thông tin Việt nam:
Trang 29o Nhóm 8 - PGS.TS Lương Chi Mai: Xử lý ngôn ngữ tự nhiên (dịch
máy, ngữ pháp tiếng Việt), xử lý tiếng nói − Phân viện Cơ học và Tin học Ứng dụng Tp HCM:
o Nhóm 9 - TS Nguyễn Xuân Dũng: Xử lý ngôn ngữ tự nhiên (dịch
máy, ngữ pháp tiếng Việt) − Viện JAIST (Nhật bản):
o Nhóm 10 - GS.TS.Hồ Tú Bảo, TS Nguyễn Lê Minh: Xử lý ngôn ngữ
tự nhiên (dịch máy, tóm lược văn bản, rút trích thông tin)
− Một số nhóm nghiên cứu khác ở trong và ngoài nước với những nghiên cứu liên quan ñến tiếng Việt
Công trình [24] năm 2009 của Nhóm 1 là một nghiên cứu về việc ứng dụng kết hợp ontology và xử lý ngôn ngữ tự nhiên vào việc xác ñịnh các cụm từ ñặc trưng trong một câu văn bản Trong phương pháp xử lý, họ ñã khai thác Wikipedia tiếng Việt ñể phục vụ việc xây dựng một danh mục từ tiếng Việt ñồng thời hỗ trợ huấn luyện ontology ViO &ViDic Kết quả ñạt ñược của nhóm này tương ñối khả quan với ñộ chính xác 89.6% và ñộ bao phủ 87.8% trên tập dữ liệu thử nghiệm 2079 câu truy vấn trong ngôn ngữ tiếng Việt Một ñịnh hướng nghiên cứu mà nhóm này cần thực hiện trong tương lai là việc mở rộng khả năng xử lý cho câu truy vấn dài hay có dạng phức tạp Một số kết quả khác từ nhóm này gồm công trình [2] [3] [5] [6] [23] [24] (trong các năm 2007-2009) và [133] (năm 2009-2010) phản ánh hướng nghiên cứu nhiều triển vọng liên quan ñến ứng dụng xử lý ngôn ngữ tự nhiên trong các vấn ñề khai thác, phân tích và xử lý thông tin tiếng Việt
Các nghiên cứu tiếp theo của Nhóm 2 theo ñịnh hướng xây dựng và phát triển chuyên sâu về bài toán thực thể có tên và ontology VN-KIM, ñể từ ñó ñề xuất các dạng ứng dụng truy xuất thông tin liên kết với ontology ñó Công trình [42] (năm 2008) của nhóm này giới thiệu tổng thể về việc xây dựng, huấn luyện và quản trị ontology VN-KIM KBM dựa trên cơ sở lý thuyết về các nghiên cứu và thực thể có tên cùng những quan hệ ngữ nghĩa tương ứng cùng nền tảng Sesame cùng cơ chế phòng chống lỗi khác hiệu quả Từ cơ sở này, kết quả từ [63] ñã phát triển theo một
Trang 30ñịnh hướng mới dựa trên việc tiếp cận khai thác dữ liệu từ Wikipedia nhằm phục vụ bài toán khử nhập nhằng tự ñộng cho thực thể có tên Đây là một trong những ñịnh hướng mới của nhóm này Công trình [131] (năm 2008) khảo sát các hướng nghiên cứu khác nhau về mở rộng mô hình không gian véc-tơ trong lĩnh vực truy xuất thông tin, từ ñó ñề xuất mở rộng cho mô hình này thông qua việc kết hợp với ontology theo hướng xử lý thông tin về thực thể có tên So sánh với Lucene, mô hình này ñạt ñược nhiều ưu ñiểm hơn trong việc truy xuất văn bản, biểu diễn văn bản và truy vấn Một nghiên cứu khác của nhóm này là [132] (năm 2008) ñề xuất một phương pháp chuyển ñổi truy vấn dạng ngôn ngữ tự nhiên sang dạng biểu diễn ñồ thị ý niệm, ñể từ ñó tìm kiếm thông tin trong ontology nhằm phục vụ việc tìm kiếm hướng ngữ nghĩa Việc thực nghiệm cho phương pháp này bước ñầu ñược tiến hành trên tập dữ liệu TREC 2002 cùng TREC 2007 và ñang ñược mở rộng
Nghiên cứu [85] của Nhóm 3 quan tâm xử lý bảo mật cho cây chỉ mục dữ liệu thông qua việc cải tiến hệ thống dựa trên các tính chất dữ liệu Qua ñó cho thấy vai trò quan trọng của hệ thống chỉ mục cùng những khả năng cải tạo và tái cấu trúc hệ thống chỉ mục trong một hệ thống thông tin
Trong năm 2008 và 2009, Nhóm 4 có nghiên cứu [26] [32] [33] [34] [35] [36] [37] [38] [39] [40] và [41] theo hướng ứng dụng xử lý ngôn ngữ tự nhiên vào việc phát triển hệ thống truy xuất thông tin (xuyên ngôn ngữ) và hệ thống hỏi ñáp hỗ trợ tiếng Việt Các kết quả ñạt ñược của nhóm này cho thấy một triển vọng rất lớn trong việc ứng dụng xử lý ngôn ngữ tự nhiên vào các lĩnh vực khác nhau
Công trình [128] của nhóm Thành Trần tập trung theo hướng thư viện số với một hướng tiếp cận ñề xuất về truy vấn thông tin chuyên biệt dựa trên ontology ñể xử lý truy vấn ở dạng tự nhiên dựa trên ñồ thị ý niệm Kết quả thực nghiệm cho thấy ñây là phương pháp có nhiều triển vọng trong việc mang lại kết quả tìm kiếm tốt hơn cho người sử dụng
Một nghiên cứu khác, [47], của nhóm Dung Tran về hướng rút trích thông tin trong lĩnh vực chăm sóc sức khỏe Nghiên cứu này sử dụng ontology ñể phục vụ
giải thuật “Semantic Elements Extracting” và “New Semantic Elements Learning”,
Trang 31qua đĩ rút trích các thơng tin về khái niệm, mơ tả khái niệm, liên kết giữa khái niệm và mơ tả, tên bệnh từ các trang web Thực nghiệm của họ trên dữ liệu tiếng Việt cho thấy phương pháp tối ưu với việc khai thác thơng tin và làm giàu ontology cĩ độ chính xác cao
Các nghiên cứu gần đây của nhĩm 4 đều tập trung xử lý những bài tốn con trong lĩnh vực xử lý ngơn ngữ tự nhiên như rút trích thơng tin và phân loại văn bản Cơng trình [104] đề xuất một hệ thống gom nhĩm đồ thị dựa trên phương pháp gom nhĩm tài liệu tương tự và từ đĩ rút trích các ý tưởng chính Đây là một hướng nghiên cứu khá mới về rút trích thơng tin thơng qua việc sử dụng đồ thị để biểu diễn các tài liệu và quan hệ ngữ nghĩa nhằm khắc phục các nhược điểm của những giải pháp truyền thống như vị trí từ, quan hệ nghĩa giữa các từ … Từ đĩ, họ đề xuất
dùng một bảng đồ tự tổ chức (Self Organizing Map, SOM) với tầng dữ liệu xuất hai
chiều để phục vụ việc gom nhĩm đồ thị Dựa trên SOM, họ triển khai các tính tốn
về khoảng cách đồ thị (graph distance) dựa trên các đồ thị con chung cực đại cùng đồ thị ngữ nghĩa trọng số (weighted means graphs) cùng giải thuật Gen để giải
quyết vấn đề rút trích thơng tin chính yếu của tài liệu Nghiên cứu [105] quan tâm đến vấn đề phân loại văn bản Dựa trên các kỹ thuật và cơng cụ trong lĩnh vực xử lý ngơn ngữ tự nhiên, hướng tiếp cận của họ quan tâm đến việc biểu diễn mơ hình xác suất Nạve Bayes dựa trên các danh từ và cụm danh từ rút trích từ những mẫu tin Qua đĩ, cùng với các quan hệ ngữ nghĩa giữa các khai thác được, họ đã cải thiện đáng kể được chất lượng của việc phân loại văn bản
Một nghiên cứu của nhĩm 7 là [134] (năm 2008) trong lĩnh vực truy xuất
thơng tin xuyên ngơn ngữ (Cross-Language Information Retrieval) hướng đến việc
chuyển ngữ các thành phần của truy vấn trong hệ thống truy xuất thơng tin xuyên ngơn ngữ Anh-Việt Ngồi từ điển song ngữ, nhĩm này cịn xây dựng kho ngữ liệu song ngữ Anh-Việt (dựa trên cơ sở khai khống dữ liệu web) Từ đĩ, ba phương pháp đề xuất liên quan đến việc chỉ sử dụng từ điển, hay chỉ sử dụng kho ngữ liệu song ngữ, hoặc kết hợp kho ngữ liệu song ngữ để khử nhập nhằng trong bước chuyển ngữ dựa trên từ điển Kết quả thử nghiệm của cơng trình này cho thấy
Trang 32phương pháp ñề xuất rất khả thi và ảnh hưởng tích cực ñến việc phát triển hệ thống lĩnh vực truy xuất thông tin xuyên ngôn ngữ Anh-Việt
Nghiên cứu [64] của nhóm Hoàng Hữu Hạnh ở Đại học Huế về khung ứng
dụng ngữ nghĩa quản lý thông tin cục bộ (SemaDesk) theo hướng ứng dụng các kết
quả nghiên cứu về Web ngữ nghĩa Hướng tiếp cận của họ bao gồm thực hiện phân tích và chú giải cho truy vấn của người dùng, từ ñó kết hợp tìm kiếm mở rộng kết quả dựa trên ontology và kết hợp với ñộng cơ tìm kiếm thông tin cục bộ của Google (Google Desktop Search [148]) Nghiên cứu này ñược cài ñặt và thử nghiệm chỉ trên dữ liệu cá nhân tiếng Anh trong máy tính cá nhân của người sử dụng
Cuối cùng là các nghiên cứu [3] và [16] của nhóm 8, nhóm 9 và nhóm 10 về hướng ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt Kết quả từ các nghiên cứu này ñã góp phần vào ñặt nền móng cho các hướng nghiên cứu liên quan tiếng Việt
2.2.2 Mt s vn ñ ca nhng nghiên cu trong nc có liên quan ñ n phơng pháp nghiên cu ca lun án
Những hướng nghiên cứu nêu trên tuy không hoàn toàn liên quan ñến vấn ñề mở rộng truy vấn của luận án, nhưng kết quả của một số phần của các nghiên cứu trên về ontology, truy xuất và rút trích thông tin cũng như ứng dụng xử lý ngôn ngữ tự nhiên (ñặc biệt cho tiếng Việt) ñã ñược luận án tham khảo, áp dụng, cụ thể trong việc phân ñoạn từ, gán nhãn từ loại và rút trích thông tin từ văn bản, từ ñó phục vụ
phương pháp CB-KBT huấn luyện ontology OOMP trong chương 4 của luận án
2.3 Các nghiên cứu về ontology
Phần này trình bày các khái niệm về ontology và những nghiên cứu liên quan nhằm làm rõ hơn các ưu ñiểm và hạn chế của ontology và khả năng áp dụng chúng vào luận án
2.3.1 Khái nim v ontology
Khái niệm ontology ñược nhiều nhóm nghiên cứu ñịnh nghĩa Năm 2002, Bates ñề xuất rằng một ontology sẽ ñược mô tả một cách chính xác hơn (như) là
Trang 33“một sự phân loại, các từ ñiển chuyên ngành hay là tập các nhóm khái niệm”i Một
ñịnh nghĩa khác của ontology là sự phân loại, các danh mục của các thuật ngữ chỉ
mục, hay các cụm thuật ngữ khái niệmj (trích từ nguồn [30]) Một ontology là một mô hình của thực tế, nhưng tự nó không là thực tế Bates (trong công bố [93] năm
2002) cũng ñề nghị dùng một khái niệm mới thay ontology Theo ñó, hệ thống nên ñược gán một nhãn mô tả chính xác hơn – một sự phân loại, các từ ñiển chuyên
ngành hay là tập các cụm khái niệm (trong công trình [31] của Soegel, năm 1999)
Theo [10] (2001) của Leger và cộng sự, các ontology cải thiện ñộ chính xác trong tìm kiếm thông tin mờ và thuận tiện hoá việc ñối thoại ñơn-ña ngôn ngữ người-máy bởi diễn giải truy vấn của người dùng thông qua các sự nhận dạng ngữ cảnh và khử nhập nhằng Năm 2003, Guber [130] ñịnh nghĩa một ontology là một ñặc tả của khái niệm, và giải thích rằng các ontology ñược sử dụng trước tiên trong triết học rồi ñến trí tuệ nhân tạo Trong ngôn ngữ tự nhiên, một từ có thể có nhiều nghĩa phụ thuộc trên ngữ cảnh thích hợp Ontology là một tổ chức chặt chẽ và toàn diện về một hoặc vài miền tri thức, bao gồm các thực thể tương ứng trong miền ñó và các mối quan hệ giữa chúng
Trong ngành khoa học máy tính, ontology là một kho dữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng ñể mô tả, ñịnh nghĩa các tính chất của miền
(domain) Ontology cung cấp những từ vựng và cách biểu diễn thông tin cần thiết,
phù hợp cho việc giao tiếp tường minh trong một miền tri thức
Ontology cải tiến tính chính xác trong tìm kiếm thông tin mờ và làm cho việc ñối thoại giữa người và máy dễ dàng hơn bằng cách chú giải câu truy vấn của người dùng thông qua việc xử lý nhập nhằng và xác ñịnh ngữ cảnh Trong ngôn ngữ tự nhiên, một từ có thể có nhiều nghĩa phụ thuộc vào ngữ cảnh Theo ñó, ontology có thể cung cấp ngữ cảnh liên quan ñể hỗ trợ xác ñịnh nghĩa phù hợp cho từ Trong một hệ thống máy tính, ngữ cảnh có thể ñược biểu diễn hay ràng buộc bởi một
i Nguyên văn: “a classification, thesaurus or a set of concept clusters”
j Nguyên văn: “classification, lists of indexing terms, or concept term clusters”
Trang 34ontology, vì thế mô hình ontology hiệu quả trong việc xử lý nhập nhằng về nghĩa của từ trong một câu bất kỳ
2.3.2 Tính cht và các vn ñ liên quan ñ n ontology
Các ontology có dạng tổng quát (general ontology) hoặc dạng chuyên biệt (specific ontology) WordNet, EuroWordNet và Cyc là các ví dụ của ontology tổng
quát Nhiều ontology chuyên biệt ñã ñược xây dựng, ví dụ như ontology về y khoa và luật pháp Trong [99], năm 2003 Buckland phân biệt ba kiểu ontology là:
− Ontology tiên ñề: chứa các khái niệm trừu tượng ñược hợp lý hoá từ các biện giải (reasoning);
− Ontology thuật ngữ: bao gồm cấu trúc của các khái niệm từ vựng (lexicalised concepts)
− Ontology về lĩnh vực (domain ontology): thể hiện hệ thống tổ chức tri thức
dùng cho các mục ñích cung cấp tài liệu cho một vấn ñề, như là hệ thống
Dewey Decimal Classification (DDC) sử dụng chú thích dạng số ñể biểu thị
số lượng không giới hạn các chủ ñề với chỉ mục ngôn ngữ tiếng Anh cho các số phân loại
Cũng theo Buckland, các kiểu phân biệt nêu trên dẫn ñến các phân loại ontology gồm:
− Axiomatic: chứa các khái niệm trừu tượng
− Terminological: gồm cấu trúc của những khái niệm ñược từ vựng hóa
− Domain: biểu diễn những hệ thống tổ chức tri thức dùng cho mục ñích lưu
Trang 35Ưu ñiểm của ontology là tính sẵn sàng, nhiều công cụ phần mềm có sẵn, hỗ trợ hoặc tạo mới ontology Ngoài ra, những ưu ñiểm hứa hẹn khác như:
− Có khả năng sẵn sàng cho việc truy cập (theo Bateman [74], năm 2005) − Có khả năng chứa số lượng lớn các danh từ riêng, tên cá nhân nơi chốn − Có nhiều phần mềm trợ giúp tạo tự ñộng và hỗ trợ phát triển của ontology − Hầu hết các ontology ñược biểu diễn trong một ngôn ngữ khả chuyển như là
XML [164] hoặc các ngôn ngữ phát triển trên nền tảng XML như RDF [159], OWL [155] Nhờ ñó, các tính năng của XML có thể ñược dùng ñể thực hiện sự thay ñổi trong việc phát triển các ontology
Tuy nhiên, như ñã nêu trong phần trên, ontology cũng có một số hạn chế sau: − Từ vựng không phù hợp giữa từ khóa trong truy vấn và ngữ cảnh, cần một
quá trình ánh xạ ñể xử lý cho trường hợp này
− Sự không tương thích giữa các thuật ngữ (của) truy vấn và các khái niệm trong ontology Giải pháp xử lý là cần có một quy trình liên kết nhằm giải quyết vấn ñề này
− Nếu một ontology cho một miền cụ thể chưa tồn tại thì phải hao tốn rất nhiều công sức cần thiết cho việc xây dựng ontology từ ñầu không chỉ từ quan ñiểm kỹ thuật mà còn từ quy trình rút trích tri thức từ các chuyên gia và sự ñồng thuận trong cách nhìn nhận
Ontology cũng ñược sử dụng cho các nghiên cứu về truy xuất thông tin như
tóm lược theo chủ ñề (thematic summarisation), khử nhập nhằng nghĩa của từ (word sense disambiguation), lập chỉ mục, phân loại văn bản, truy vấn hình ảnh, truy xuất
thông tin xuyên ngôn ngữ, và mở rộng truy vấn Mô tả chi tiết cho mở rộng truy vấn sẽ ñược trình bày trong các mục tiếp theo
2.3.3 Ontology và phơng pháp ti p cn ca lun án
Với những phân tích nêu trên về các ưu nhược ñiểm của ontology ñã giúp
xác ñịnh những tiêu chí ñể xây dựng ontology OOMP trong Bài toán 1 của luận án,
cụ thể như sau:
Trang 36− Khả năng xây dựng, phát triển tự ñộng và bán tự ñộng; − Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng;
− Khả năng ñáp ứng nguồn tri thức phong phú với ñộ tin cậy cao;
− Đồng thời giảm thiểu các chi phí và công sức cho việc huấn luyện, làm giàu nội dung cho ontology
Những tiêu chí này có ý nghĩa quan trọng ñến hướng giải quyết Bài toán 1 của luận án (trình bày ở chương 4) trong việc tổ chức cấu trúc của ontology và ñề xuất những phương pháp huấn luyện CB-KBT, WB-KBT và A-KBT
Ngoài ra, phương pháp tìm kiếm chuyên sâu là một tham khảo phù hợp cho cách tiếp cận mở rộng truy vấn theo hướng gián tiếp (thông qua giải thuật HSk trong chương 6) của luận án, vì chúng dựa trên việc ñịnh vị các thông tin ñặc biệt Tuy nhiên, một giải pháp kết hợp (trình bày trong giải thuật SIC ở chương 6) về việc ñịnh vị các mục thông tin (trong kho tài liệu) kết hợp với ontology sẽ có thể giúp việc tìm kiếm chuyên sâu thu thập ñược nhiều thông tin hữu ích hơn và ảnh hưởng tích cực ñến chất lượng của quá trình tìm kiếm thông tin của người dùng
2.4 Các nghiên cứu về mở rộng truy vấn
Nhiều nghiên cứu trên thế giới ñề xuất các nhóm giải pháp và hướng tiếp cận khác nhau cho bài toán mở rộng truy vấn Mỗi nhóm phương pháp có ưu nhược ñiểm riêng Từ nghiên cứu [67], phần 2.4.1, 2.4.2 và 2.4.3 trình bày những phương pháp và các phân tích về mở rộng truy vấn Tiếp theo, phần 2.4.4 sẽ nhấn mạnh các yếu tố ảnh hưởng ñến sự thành công của những phương pháp mở rộng truy vấn dựa trên ontology Cuối cùng, mục 2.4.5 tóm lược những phương pháp ñược luận án áp dụng và phát triển
2.4.1 Nhóm phơng pháp m rng truy vn s dng mô hình tri thc ph thuc kho ng liu
Những phương pháp mở rộng truy vấn trong nhóm này ñược trình bày trong phần 2.4.1.1 và 2.4.1.2 Việc mở rộng truy vấn theo hướng sử dụng mô hình tri thức
k HS là tên viết tắt của cụm từ “Hybrid Search”
Trang 37phụ thuộc kho ngữ liệu sẽ phù hợp hơn cho nhóm tài liệu tĩnh Với các nhóm tài liệu web trên internet, các mô hình này phải ñược tái-tạo và cập nhật thường xuyên vì tập tài liệu luôn biến ñổi linh ñộng trong tự nhiên Nếu các cụm từ ñề xuất có tính
chọn lọc nhiều hơn do giá trị IDF (inverse-document frequency) cao hơn, thì phạm
vi của mở rộng truy vấn dựa trên cụm từ có thể ñược nghiên cứu sâu hơn
rộng truy vấn
Từ ñồng hiện tham chiếu ñến hai hay nhiều từ ñược xuất hiện cạnh nhau hay gần các từ khác trong tài liệu nguồn Nghiên cứu [11] (năm1983) về mở rộng truy vấn của Smeaton và Van Rijsbergen chỉ thu ñược mức cải thiện rất ít khi dùng các
từ mới ñược tạo từ những cây mở rộng cực ñại (maximum spanning trees) Công
trình [61] (1991) của Peat và Willett cho thấy rằng khi các từ có tần xuất cao không phân biệt giữa tài liệu liên quan và không liên quan, thì việc thêm vào những từ này cho việc mở rộng truy vấn là không hiệu quả
Năm [22] (1996), Schatz và cộng sự sử dụng hai ñề xuất bổ sung là:
− Từ ñiển chuyên ñề chủ ñề (subject thesauri): ñược tạo bởi các chuyên gia
dựa trên kiến thức chủ ñề ñể quyết ñịnh vị trí một từ trong phân cấp chỉ mục − Danh mục ñồng hiện (co-occurence list): ñược máy tính tạo ra trong ñó các
từ ñược ñặt theo thứ tự tần xuất ñồng hiện
Kết luận của họ là trong từ ñiển chuyên ñề càng có nhiều khái niệm do các chuyên gia lập chỉ mục xây dựng thì kết quả tìm kiếm càng có chất lượng tốt hơn Năm 1999, Mandala [106] ñề nghị nên sử dụng tích hợp các kỹ thuật mở rộng truy vấn sẽ tốt hơn thay vì sử dụng các kỹ thuật một cách riêng lẻ Tương tự, công bố [141] của nhóm Huang năm 2005 cho ra các kết quả thực nghiệm dựa trên sự kết hợp phương pháp tạo chỉ mục cho từ khoá và cho khái niệm
Nghiên cứu [137] (2000) của Chu giới thiệu một kỹ thuật mở rộng truy vấn dựa trên tri thức ñể cải tiến hiệu quả truy vấn tài liệu, theo ñó các thuật ngữ có khái niệm tổng quát trong một truy vấn lại ñược thay thế bằng một tập các thuật ngữ có
khái niệm cụ thể (detail concept term) của kho ngữ liệu các từ ñồng xuất hiện với
Trang 38ngữ cảnh truy vấn cụ thể Thực nghiệm của phương pháp này cho thấy sự hiệu quả của mở rộng truy vấn, nhưng cũng chỉ ra rằng ñộ truy hồi bị suy giảm trong trường
hợp truy vấn có các từ ñặc biệt Phương pháp này chỉ thích hợp cho các trường hợp khi ñộ chính xác quan trọng hơn ñộ truy hồi
Năm 2003, Vechtomova [102] giới thiệu hướng tiếp cận mới cho mở rộng
truy vấn với việc gom nhóm từ thông dụng (long-span collocates) theo phương pháp toàn cục và cục bộ, khi các từ ñồng hiện với mức ñáng kể trong các cửa sổ chủ ñề (topic-size windows) với các từ trong truy vấn Thực nghiệm của họ cho thấy
rằng kết quả truy hồi ñược từ những truy vấn ñã mở rộng của phương pháp toàn cục thể hiện chất lượng kém hơn và phương pháp cục bộ cho kết quả tốt hơn Tuy nhiên
nếu các tài liệu thuộc nhóm trên không ñủ phong phú và phù hợp thì phương pháp này có thể vẫn loại bỏ những tài liệu thực sự có liên quan ñến truy vấn
Một vấn ñề có ảnh hưởng ñến ñộ phức tạp của giải thuật mở rộng truy vấn là
cụm từ tổ hợp (compositional) hay không tổ hợp Với cụm từ tổ hợp, mỗi từ trong
cụm có thể ñược mở rộng bằng từ thay thế mà cụm mở rộng sau cùng sẽ giữ ñược nghĩa Nhóm của Cui [78] (2003) nhận biết các cụm từ bằng việc sử dụng n-gram
trong danh mục lưu trữ truy vấn (query log) Các tìm kiếm tổng quát cho thấy các cụm ngắn sẽ thể hiện chính xác hơn thông tin ñược yêu cầu, và có hệ số tần xuất nghịch ñảo tài liệu (IDF) cao hơn Trong [86] (2005), Eguchi nêu rõ mở rộng truy vấn bằng các cụm từ cùng với thông tin phản hồi giả lập (pseudo relevance feedback) sẽ tốt hơn dùng các cụm từ ñứng ñơn lẻ
Một trường hợp ñặc biệt trong mở rộng truy vấn là sử dụng cụm từ thành ngữ
(idiomatic phrase) Đây là dạng cụm từ diễn ñạt nghĩa cho toàn bộ cụm nghĩa cụm
từ mà không ñược tạo bởi nghĩa của từng từ trong cụm Lin ñịnh nghĩa (trong [45],
1999) cụm từ thành ngữ là cụm mà thông tin chung của nó khác một cách rõ nét với thông tin chung của các cụm thu ñược bằng việc thay thế một từ trong cụm bởi từ khác tương tự Ví dụ, cụm red tape có thể ñược dùng ñể tham khảo ñến nghĩa công việc bàn giấy Nếu thay màu ñỏ (red) bởi màu khác, ví dụ yellow tape thì cụm này
sẽ không có nghĩa như nghĩa ban ñầu
Trang 392.4.1.2 Phương pháp sử dụng các cấu trúc nút khái niệm trong mở
rộng truy vấn
Mạng từ vựng (lexical network) là một nguồn ngữ liệu quan trọng cho việc rút trích nghĩa của từ Chúng chứa các tập từ vựng của miền ñặc trưng (domain-specific vocabulary) và các quan hệ, ñược tự ñộng rút trích từ các tập tài liệu Các
công cụ phân tích văn bản có thể ñược dùng ñể rút trích thông tin từ các kho ngữ liệu nhằm phát triển tập từ vựng cho mạng từ vựng Các mạng từ vựng ñóng vai trò quan trọng ñịnh hướng quá trình mở rộng truy vấn Các quan hệ giữa các từ ñược tận dụng nhằm ñề xuất các từ cần thêm vào truy vấn ban ñầu
Trong những năm ñầu thập niên 60 thế kỷ trước, ngữ cảnh từ ñược xếp vào phần từ vựng Tuy nhiên ñến những năm ñầu thập niên 90, các nhà nghiên cứu nhận ra rằng nguồn tri thức từ vựng ñầy ñủ ñược ñến từ chính các văn bản Coates-Stephens ([113], 1991) thiết lập một giải thuật rút trích nghĩa của các danh từ riêng trong văn bản Trong [69] (1995) nhóm Pustejovsky ñề xuất việc dùng tập từ vựng
khả sinh (generative lexicon) ñể khử nhập nhằng nghĩa của từ
Trong nghiên cứu [68] (1992) của Callan ñã trình bày hệ thống truy vấn “INQUERY” cung cấp các hỗ trợ truy vấn phức tạp Hệ thống này dựa trên dạng
mô hình truy vấn xác suất gọi là mạng suy diễn (inference net) có thành phần cho
nhóm tài liệu và cho mỗi truy vấn Phương pháp mở rộng truy vấn của hệ thống này
là kết hợp xử lý hình thái (morphological) và khả năng vận dụng các cụm từ
Các phân cấp khái niệm có thể ñược dùng ñể thực hiện các kỹ thuật mở rộng truy vấn (như [95] của Sanderson, năm 2004) Với kỹ thuật này, thay cho việc tìm kiếm trên cơ sở chuỗi từ, việc tìm kiếm trên cơ sở khái niệm ñược tiến hành ñể tạo tự ñộng ra nhiều kết quả tốt hơn những giải pháp trước ñó (như [80] của Jarvelin năm 2001, [96] của Sanderson & Lawrie năm 2000, Alta Vista)
2.4.2 Nhóm phơng pháp m rng truy vn s dng các mô hình tri thc ñc lp kho ng liu
Các nghiên cứu trong nhóm phương pháp này ñược phân loại như sau
Trang 402.4.2.1 Phương pháp mở rộng truy vấn thông qua xây dựng các ontology chuyên biệt ñộc lập với WordNet
Việc thiết kế và xây dựng ontology miền chuyên biệt ñòi hỏi nhiều công sức và thời gian, như trình bày [136] của Kashyap năm 2001 Vì thế, Kashyap ñề xuất một phương thức tạo ontology với sự tham gia của các chuyên gia ở mức ñộ tối thiểu bằng việc tái sử dụng các thông tin sẵn có một cách dễ dàng như các giản ñồ, các truy vấn, các từ ñiển dữ liệu và từ ñiển chuyên ñề Việc hiện thực giải pháp này của Kashyap dựa trên lược ñồ biểu diễn cơ sở dữ liệu thông thường, ñiều này có thể
bị ảnh hưởng bởi tính chất rời rạc của nhóm dữ liệu trong tổ chức cơ sở dữ liệu quan hệ, ñiều này tác ñộng ñến tính hiệu quả của ontology
Trong [29] (1999), Hwang ñề xuất một phương pháp sinh tự ñộng ontology
dựa trên các từ hạt giống của các chuyên gia và áp dụng cho các tài liệu liên quan trên Web Nhược ñiểm của phương pháp này là phụ thuộc hoàn toàn vào từ hạt giống do chuyên gia cung cấp
Lame ([59], 2003) giới thiệu một phương pháp ñể xác ñịnh thành phần của
ontology là dựa vào phân tích văn bản ñể rút trích các khái niệm và quan hệ giữa
các khái niệm này và áp dụng ñể xây dựng một ontology chuyên dụng trong lĩnh vực luật pháp cho truy xuất thông tin Tuy nhiên hướng nghiên cứu tiếp theo mà
nhóm tác giả này ñề xuất phần nào cho thấy ontology kết quả cần hoàn thiện hơn về dạng quan hệ ngữ nghĩa
Giải pháp của nhóm Saias ([76], 2002) là xây dựng tập luật suy diễn dựa trên phân tích các cụm ñộng từ và những thành phần liên quan trong tài liệu Phương pháp ñề xuất trong [52] là một phần trong quá trình nghiên cứu ñang hiện thực Nó
cần hoàn thiện hơn về các khái niệm ngữ nghĩa và việc chuẩn hóa chúng cũng như tương tác WordNet (bản tiếng Anh), và ngoài ra cũng cần có giao diện thân thiện
với ngôn ngữ tự nhiên hơn
Nhóm nghiên cứu của Fu giới thiệu (trong [56] năm 2005) kỹ thuật mở rộng truy vấn dựa trên một ontology ñịa lý và lĩnh vực liên quan Trong nghiên cứu của họ, một truy vấn ñược mở rộng dựa trên việc thu dấu vết ñịa lý Thực nghiệm cho thấy phương pháp này cho kết quả tốt trong tìm kiếm thông tin Ưu ñiểm của
... cho truy vấn Phương pháp mở rộng truy vấn hệ thốnglà kết hợp xử lý hình thái (morphological) khả vận dụng cụm từ
Các phân cấp khái niệm dùng để thực kỹ thuật mở rộng truy vấn. .. phân loại văn bản, truy vấn hình ảnh, truy xuất
thơng tin xun ngơn ngữ, mở rộng truy vấn Mô tả chi tiết cho mở rộng truy vấn trình bày mục
2.3.3 Ontology phơng pháp... cứu truy xuất thơng tin
tóm lược theo chủ ñề (thematic summarisation), khử nhập nhằng nghĩa từ (word sense disambiguation), lập mục, phân loại văn bản, truy vấn hình ảnh, truy xuất