Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
814,91 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH -o0o LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC VN-KIM SEARCH TIẾNG ANH VỚI TRUY VẤN CĨ LIÊN TỪ LUẬN LÝ, TÍNH TỪ VÀ LƯỢNG TỪ Hội Đồng: Khoa Học Máy Tính GVHD : Pgs.Ts Cao Hoàng Trụ GVPB : Ks Châu Kim Cường -o0o - SVTH : Nguyễn Trần Đăng Khoa (50601130) SVTH : Tạ Tất Tài (50602084) TP Hồ Chí Minh, tháng 12 – 2010 i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn đại học bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Chúng cam đoan ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn chúng tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường đại học khác Ngày Tháng Năm Ký tên ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước hết, xin gởi lời cảm ơn chân thành sâu sắc đến Pgs.Ts Cao Hoàng Trụ, kỹ sư Châu Kim Cường, người trực tiếp hướng dẫn chúng tơi q trình làm luận văn Sự hướng dẫn chu đáo, tận tình, với tài liệu lời khuyên quý giá thầy anh tháng qua nhân tố thiếu để chúng tơi hồn thành nhiệm vụ Chúng tơi xin gửi lời cảm ơn đến gia đình bạn bè, người sát cánh, động viên, tạo điều kiện tốt để học tập hồn tất luận văn tốt nghiệp Chúng chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa Luận văn khó tránh khỏi cịn thiếu sót tầm nhìn chúng tơi cịn hạn hẹp, mong nhận góp ý q thầy bạn iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT Luận văn xây dựng hệ thống tìm kiếm dựa ngữ nghĩa Hệ thống “hiểu” câu truy vấn đầu vào tiếng Anh Câu truy vấn không chứa thực thể từ quan hệ, mà cịn chứa tính từ, lượng từ, liên từ luận lý Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn dựa tảng web ngữ nghĩa, kết hợp với phương pháp dịch phụ thuộc vào cú pháp nhóm VN-KIM Để thể nội dung biên dịch được, luận văn biểu diễn đồ thị ý niệm Cuối cùng, câu truy vấn SeRQL dùng để tìm kiếm kết Hướng tiếp cận giúp đề tài xây dựng hệ thống trực quan với người sử dụng, tráng kiện với lỗi cú pháp Hiệu hệ thống đánh giá tập câu truy vấn mẫu “TREC 2002” Tỉ lệ số câu hệ thống biên dịch thành công 85.91% iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC HÌNH viii DANH MỤC BẢNG ix CHƯƠNG TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu phạm vi 1.3 Kết đạt 1.4 Cấu trúc luận văn CHƯƠNG KIẾN THỨC NỀN TẢNG 2.1 Chú thích ngữ nghĩa tìm kiếm ngữ nghĩa 2.1.1 Các khái niệm 2.1.2 Các phần mềm, công cụ sử dụng 2.2 Đồ thị ý niệm 10 2.2.1 Sơ lược đồ thị ý niệm 10 2.2.2 Đồ thị ý niệm mở rộng 12 2.3 Tìm kiếm thực thể tài liệu 13 2.3.1 Câu truy vấn SeRQL [8] 13 2.3.2 Semantic Lucene 14 CHƯƠNG PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT 16 3.1 Phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 16 3.2 Xử lý câu truy vấn thông thường 17 3.3 Xử lý câu truy vấn có từ để hỏi “How many” 19 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4 Xử lý câu truy vấn có liên từ luận lý 21 3.5 Xử lý câu truy vấn có tính từ 22 3.6 Xử lý câu truy vấn có tính từ so sánh 24 3.7 Xử lý câu truy vấn có tính từ định lượng so sánh 25 CHƯƠNG THIẾT KẾ 27 4.1 Kiến trúc toàn hệ thống 27 4.2 Chi tiết bước giải thuật 29 4.2.1 Nhận biết thành phần câu truy vấn 29 4.2.2 Phân tách câu truy vấn 30 4.2.3 Xác định lớp thực thể 30 4.2.4 Gom thực thể 31 4.2.5 Xác định quan hệ ẩn 31 4.2.6 Xác định loại quan hệ thực thể 32 4.2.7 Xoá bỏ quan hệ không phù hợp 35 4.2.8 Xác định quan hệ tính từ thực thể 36 4.2.9 Xây dựng đồ thị ý niệm 39 4.2.10 Xây dựng câu truy vấn SeRQL 39 CHƯƠNG HIỆN THỰC 40 5.1 Các khối xử lý giao diện lớp quan trọng 40 5.1.1 Ứng dụng web phía Client 40 5.1.2 Hệ thống xử lý server 40 5.2 Hệ thống luật 44 5.2.1 Cấu trúc hệ thống luật 45 5.2.2 Cấu trúc thành phần điều kiện luật 45 5.2.3 Cấu trúc thành phần hành động luật 46 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.4 Xây dựng số luật đặc biệt 47 5.3 Lưu trữ hiển thị đồ thị 47 5.4 Xây dựng câu truy vấn SeRQL 49 CHƯƠNG THỬ NGHIỆM 53 6.1 Môi trường thử nghiệm 53 6.2 Kết thực nghiệm 54 CHƯƠNG KẾT LUẬN 57 7.1 Kết đạt 57 7.2 Các vấn đề tồn 58 7.3 Hướng phát triển 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 60 vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH Hình 1-1 Đồ thị có đề xuất quan hệ khơng tồn sở tri thức Hình 2-1 Ba module Proton [5] Hình 2-2 Cơ sở tri thức KIM (30/09/2006) [6] 10 Hình 2-3 Đồ thị ý niệm ví dụ 11 Hình 2-4 Đồ thị ý niệm có đỉnh truy vấn 12 Hình 3-1 Đồ thị ý niệm cho ba 18 Hình 3-2 Đỉnh truy vấn 19 Hình 3-3 Đồ thị ý niệm cho câu truy vấn có "how many" 20 Hình 3-4 Đồ thị ý niệm ví dụ cho câu truy vấn có "how many" [3] 20 Hình 3-5 Đồ thị ý niệm ví dụ cho câu truy vấn có "how many" [3] 20 Hình 3-6 Đồ thị ý niệm cho câu truy vấn có liên từ luận lý 22 Hình 3-7 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ so sánh 24 Hình 3-8 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định tính so sánh 24 Hình 3-9 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định lượng so sánh 25 Hình 4-1 Kiến trúc tổng quan 27 Hình 4-2 Các bước xử lý 28 Hình 4-3 Lược đồ ánh xạ kiểu quan hệ ba truy vấn [3] 33 Hình 4-4 Xác định loại quan hệ hai thực thể ei ej [2] 34 Hình 4-5 Lược đồ ánh xạ kiểu quan hệ tính từ thực thể [3] 37 Hình 4-6 Xác định loại quan hệ tính từ adj thực thể [3] 38 Hình 5-1 Cấu trúc tập phần tử TransformRules rule 45 Hình 5-2 Cấu trúc phần tử điều kiện luật 46 Hình 5-3 Cấu trúc phần tử hành động 46 Hình 5-4 Một luật hồn chỉnh 47 Hình 5-5 Cấu trúc liệu lưu trữ đồ thị ý niệm 47 Hình 5-6 Dạng tổng quát đồ thị ý niệm 48 Hình 5-7 Tên hình 49 viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG Bảng 5-1 Giao diện dịch vụ 40 Bảng 5-2 Bản tóm tắt phương thức lớp ENSearch 41 Bảng 5-3 Bản tóm tắt phương thức lớp QuerytoCG 41 Bảng 5-4 Bản tóm tắt phương thức lớp QuerytoCG (2) 42 Bảng 5-5 Bản tóm tắt phương thức lớp Processing XML 42 Bảng 5-6 Bản tóm tắt phương thức lớp ProcessingQuery 43 Bảng 5-7 Bản tóm tắt phương thức lớp ProcessingQuery (2) 43 Bảng 5-8 Bản tóm tắt phương thức lớp QueryOutput 43 Bảng 5-9 Bản tóm tắt phương thức lớp SeRQLMapping 44 Bảng 5-10 Các thuộc tính phần tử điều kiện 46 Bảng 6-1 Kết thực nghiệm TREC 2002 trước làm giàu Ontology 54 Bảng 6-2 Kết thực nghiệm TREC 2002 sau làm giàu Ontology 55 Bảng 6-3 Kết thực nghiệm TREC 2002 sau làm giàu Ontology phân theo dạng câu 55 ix LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generalize the query CG For each relation in the generalized query CG { Get all neighbour concepts of the current relation //process each concept sequentially For each concept { if the concept is new //i.e not processed before { if the concept referent is “?” or “*” { if the concept referent is “?” { Assign to it a variable starting with “x” //e.g x1, x2, x3, Assign to it a label variable starting with “z” //e.g z1, z2, z3, Append these variables to the SELECT clause Append the “rdfs:label” statement for this concept to the FROM clause } if the concept referent is “*” { Assign to it a variable starting with “y” //e.g y1, y2, y3, } Append the “rdf:type” statement for this concept to the FROM clause Append the constrained property statements for this concept to the FROM clause Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3, Append the property constraints to the WHERE clause } //end of “?” or “*” if the concept referent is specific, assign to it its identifier as a dummy variable Remember this concept having been processed } }//end of if new Assign to the current relation its URI Append the statement for the current relation with its neighbour concepts to the FROM clause } //process the disconnected concept nodes For each concepts that has not been visited yet, process it as above Giải thuật đề tài thêm vào để xử lý tính từ nhận kết giải thuật làm đầu vào, thêm phận cần thiết: Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất thực thể phù hợp trả theo trật tự: 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com //Function: append ORDER BY clause for normal adjective to the input SeRQL Initialize new ORDER BY clause For each semantic relation generated from normal adjective { Append the its object’ variable to SELECT clause Identify the way of ordering //i.e DESC or ASC Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered } Giải thuật cho tính từ so sánh nhất: //Function: append WHERE clause for superlative adjective to the input SeRQL Initialize the WHERE, nested SELECT and nested FROM clause //select the value of all other entities which are also qualified, then use “>= ALL” or “= ALL” or “” or “