Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
782,98 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH -o0o LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC VN-KIM SEARCH TIẾNG ANH VỚI TRUY VẤN CÓ LIÊN TỪ LUẬN LÝ, TÍNH TỪ VÀ LƯỢNG TỪ Hội Đồng: Khoa Học Máy Tính GVHD : Pgs.Ts Cao Hoàng Trụ GVPB : Ks Châu Kim Cường -o0o - SVTH : Nguyễn Trần Đăng Khoa (50601130) SVTH : Tạ Tất Tài (50602084) TP Hồ Chí Minh, tháng 12 – 2010 i CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn đại học bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm LỜI CAM ĐOAN Chúng cam đoan ngoại trừ kết tham khảo từ công trình khác ghi rõ luận văn, công việc trình bày luận văn thực chưa có phần nội dung luận văn nộp để lấy cấp trường đại học khác Ngày Tháng Năm Ký tên ii LỜI CẢM ƠN Trước hết, xin gởi lời cảm ơn chân thành sâu sắc đến Pgs.Ts Cao Hoàng Trụ, kỹ sư Châu Kim Cường, người trực tiếp hướng dẫn trình làm luận văn Sự hướng dẫn chu đáo, tận tình, với tài liệu lời khuyên quý giá thầy anh tháng qua nhân tố thiếu để hoàn thành nhiệm vụ Chúng xin gửi lời cảm ơn đến gia đình bạn bè, người sát cánh, động viên, tạo điều kiện tốt để học tập hoàn tất luận văn tốt nghiệp Chúng chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa Luận văn khó tránh khỏi thiếu sót tầm nhìn hạn hẹp, mong nhận góp ý quý thầy cô bạn iii TÓM TẮT Luận văn xây dựng hệ thống tìm kiếm dựa ngữ nghĩa Hệ thống “hiểu” câu truy vấn đầu vào tiếng Anh Câu truy vấn không chứa thực thể từ quan hệ, mà chứa tính từ, lượng từ, liên từ luận lý Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn dựa tảng web ngữ nghĩa, kết hợp với phương pháp dịch phụ thuộc vào cú pháp nhóm VN-KIM Để thể nội dung biên dịch được, luận văn biểu diễn đồ thị ý niệm Cuối cùng, câu truy vấn SeRQL dùng để tìm kiếm kết Hướng tiếp cận giúp đề tài xây dựng hệ thống trực quan với người sử dụng, tráng kiện với lỗi cú pháp Hiệu hệ thống đánh giá tập câu truy vấn mẫu “TREC 2002” Tỉ lệ số câu hệ thống biên dịch thành công 85.91% iv MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC HÌNH viii DANH MỤC BẢNG ix CHƯƠNG TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu phạm vi 1.3 Kết đạt 1.4 Cấu trúc luận văn CHƯƠNG KIẾN THỨC NỀN TẢNG 2.1 Chú thích ngữ nghĩa tìm kiếm ngữ nghĩa 2.1.1 Các khái niệm 2.1.2 Các phần mềm, công cụ sử dụng 2.2 Đồ thị ý niệm 10 2.2.1 Sơ lược đồ thị ý niệm 10 2.2.2 Đồ thị ý niệm mở rộng 12 2.3 Tìm kiếm thực thể tài liệu 13 2.3.1 Câu truy vấn SeRQL [8] 13 2.3.2 Semantic Lucene 14 CHƯƠNG PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT 16 3.1 Phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 16 3.2 Xử lý câu truy vấn thông thường 17 3.3 Xử lý câu truy vấn có từ để hỏi “How many” 19 v 3.4 Xử lý câu truy vấn có liên từ luận lý 21 3.5 Xử lý câu truy vấn có tính từ 22 3.6 Xử lý câu truy vấn có tính từ so sánh 24 3.7 Xử lý câu truy vấn có tính từ định lượng so sánh 25 CHƯƠNG THIẾT KẾ 27 4.1 Kiến trúc toàn hệ thống 27 4.2 Chi tiết bước giải thuật 29 4.2.1 Nhận biết thành phần câu truy vấn 29 4.2.2 Phân tách câu truy vấn 30 4.2.3 Xác định lớp thực thể 30 4.2.4 Gom thực thể 31 4.2.5 Xác định quan hệ ẩn 31 4.2.6 Xác định loại quan hệ thực thể 32 4.2.7 Xoá bỏ quan hệ không phù hợp 35 4.2.8 Xác định quan hệ tính từ thực thể 36 4.2.9 Xây dựng đồ thị ý niệm 39 4.2.10 Xây dựng câu truy vấn SeRQL 39 CHƯƠNG HIỆN THỰC 40 5.1 Các khối xử lý giao diện lớp quan trọng 40 5.1.1 Ứng dụng web phía Client 40 5.1.2 Hệ thống xử lý server 40 5.2 Hệ thống luật 44 5.2.1 Cấu trúc hệ thống luật 45 5.2.2 Cấu trúc thành phần điều kiện luật 45 5.2.3 Cấu trúc thành phần hành động luật 46 vi 5.2.4 Xây dựng số luật đặc biệt 47 5.3 Lưu trữ hiển thị đồ thị 47 5.4 Xây dựng câu truy vấn SeRQL 49 CHƯƠNG THỬ NGHIỆM 53 6.1 Môi trường thử nghiệm 53 6.2 Kết thực nghiệm 54 CHƯƠNG KẾT LUẬN 57 7.1 Kết đạt 57 7.2 Các vấn đề tồn 58 7.3 Hướng phát triển 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 60 vii DANH MỤC HÌNH Hình 1-1 Đồ thị có đề xuất quan hệ không tồn sở tri thức Hình 2-1 Ba module Proton [5] Hình 2-2 Cơ sở tri thức KIM (30/09/2006) [6] 10 Hình 2-3 Đồ thị ý niệm ví dụ 11 Hình 2-4 Đồ thị ý niệm có đỉnh truy vấn 12 Hình 3-1 Đồ thị ý niệm cho ba 18 Hình 3-2 Đỉnh truy vấn 19 Hình 3-3 Đồ thị ý niệm cho câu truy vấn có "how many" 20 Hình 3-4 Đồ thị ý niệm ví dụ cho câu truy vấn có "how many" [3] 20 Hình 3-5 Đồ thị ý niệm ví dụ cho câu truy vấn có "how many" [3] 20 Hình 3-6 Đồ thị ý niệm cho câu truy vấn có liên từ luận lý 22 Hình 3-7 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ so sánh 24 Hình 3-8 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định tính so sánh 24 Hình 3-9 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định lượng so sánh 25 Hình 4-1 Kiến trúc tổng quan 27 Hình 4-2 Các bước xử lý 28 Hình 4-3 Lược đồ ánh xạ kiểu quan hệ ba truy vấn [3] 33 Hình 4-4 Xác định loại quan hệ hai thực thể ei ej [2] 34 Hình 4-5 Lược đồ ánh xạ kiểu quan hệ tính từ thực thể [3] 37 Hình 4-6 Xác định loại quan hệ tính từ adj thực thể [3] 38 Hình 5-1 Cấu trúc tập phần tử TransformRules rule 45 Hình 5-2 Cấu trúc phần tử điều kiện luật 46 Hình 5-3 Cấu trúc phần tử hành động 46 Hình 5-4 Một luật hoàn chỉnh 47 Hình 5-5 Cấu trúc liệu lưu trữ đồ thị ý niệm 47 Hình 5-6 Dạng tổng quát đồ thị ý niệm 48 Hình 5-7 Tên hình 49 viii DANH MỤC BẢNG Bảng 5-1 Giao diện dịch vụ 40 Bảng 5-2 Bản tóm tắt phương thức lớp ENSearch 41 Bảng 5-3 Bản tóm tắt phương thức lớp QuerytoCG 41 Bảng 5-4 Bản tóm tắt phương thức lớp QuerytoCG (2) 42 Bảng 5-5 Bản tóm tắt phương thức lớp Processing XML 42 Bảng 5-6 Bản tóm tắt phương thức lớp ProcessingQuery 43 Bảng 5-7 Bản tóm tắt phương thức lớp ProcessingQuery (2) 43 Bảng 5-8 Bản tóm tắt phương thức lớp QueryOutput 43 Bảng 5-9 Bản tóm tắt phương thức lớp SeRQLMapping 44 Bảng 5-10 Các thuộc tính phần tử điều kiện 46 Bảng 6-1 Kết thực nghiệm TREC 2002 trước làm giàu Ontology 54 Bảng 6-2 Kết thực nghiệm TREC 2002 sau làm giàu Ontology 55 Bảng 6-3 Kết thực nghiệm TREC 2002 sau làm giàu Ontology phân theo dạng câu 55 ix Generalize the query CG For each relation in the generalized query CG { Get all neighbour concepts of the current relation //process each concept sequentially For each concept { if the concept is new //i.e not processed before { if the concept referent is “?” or “*” { if the concept referent is “?” { Assign to it a variable starting with “x” //e.g x1, x2, x3, Assign to it a label variable starting with “z” //e.g z1, z2, z3, Append these variables to the SELECT clause Append the “rdfs:label” statement for this concept to the FROM clause } if the concept referent is “*” { Assign to it a variable starting with “y” //e.g y1, y2, y3, } Append the “rdf:type” statement for this concept to the FROM clause Append the constrained property statements for this concept to the FROM clause Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3, Append the property constraints to the WHERE clause } //end of “?” or “*” if the concept referent is specific, assign to it its identifier as a dummy variable Remember this concept having been processed } }//end of if new Assign to the current relation its URI Append the statement for the current relation with its neighbour concepts to the FROM clause } //process the disconnected concept nodes For each concepts that has not been visited yet, process it as above Giải thuật đề tài thêm vào để xử lý tính từ nhận kết giải thuật làm đầu vào, thêm phận cần thiết: Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất thực thể phù hợp trả theo trật tự: 50 //Function: append ORDER BY clause for normal adjective to the input SeRQL Initialize new ORDER BY clause For each semantic relation generated from normal adjective { Append the its object’ variable to SELECT clause Identify the way of ordering //i.e DESC or ASC Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered } Giải thuật cho tính từ so sánh nhất: //Function: append WHERE clause for superlative adjective to the input SeRQL Initialize the WHERE, nested SELECT and nested FROM clause //select the value of all other entities which are also qualified, then use “>= ALL” or “= ALL” or “” or “[...]... được những câu truy vấn phức tạp hơn Đó là câu truy vấn có liên từ luận lý, tính từ định tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ Lấy ví dụ như các câu truy vấn sau: “Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý “What famous model was married to Billy Joel?” chứa tính từ định tính “What are the old university in the US?” chứa tính từ định lượng “What... hỏi về thuộc tính dân số của thực thể Chile Các ngoại lệ dạng này cần được nhận ra và xử lý riêng 20 3.4 Xử lý câu truy vấn có liên từ luận lý Đối với các câu truy vấn có liên từ luận lý, trước tiên cần phải phân tách câu truy vấn đó thành các câu truy vấn nguyên tử Câu truy vấn nguyên tử là câu truy vấn không chứa liên từ luận lý Mỗi câu truy vấn nguyên tử sẽ được xử lý như một câu truy vấn thông thường,... INTERSECT, UNION, MINUS tương ứng với liên từ luận lý AND, OR, NOT giữa chúng Các liên kết đồng tham chiếu được thêm vào nếu cần thiết Đồ thị ý niệm tạo thành có dạng như sau: Hình 3-6 Đồ thị ý niệm cho câu truy vấn có liên từ luận lý 3.5 Xử lý câu truy vấn có tính từ Luận văn áp dụng phương pháp biểu diễn tính từ của thực thể được đề nghị trong [3], với một chút điều chỉnh để có thể linh động sử dụng dạng... gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-đun xử lý câu truy vấn Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồm danh từ, động từ, từ để hỏi và giới từ Ví dụ như câu truy vấn: “What actress starred in ‘The Lion in Winter’ ?” Đây là khả năng mà hiện nay VN- KIM Search đã làm được cho tiếng Việt Luận văn không chỉ dừng lại ở những câu truy vấn đơn... quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như sau: Hình 3-9 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định lượng so sánh nhất 3.7 Xử lý câu truy vấn có tính từ định lượng so sánh hơn Đề tài này mở rộng... khác như tính từ, liên từ luận lý, lượng từ Việc chuyển đổi câu truy vấn từ ngôn ngữ tự nhiên sang đồ thị ý niệm thực chất là quá trình xác định các thực thể trong câu truy vấn và tìm ra mối quan hệ giữa chúng Do vậy, với mỗi câu truy vấn nhập vào, trước hết, cần phải nhận dạng được các thành phần quan trọng trong câu Thành phần quan trọng trong câu đó là: thực thể có tên, thực thể không tên và từ quan... niệm và truy vấn SeRQL tương ứng Cuối cùng, các đồ thị ý niệm và các truy vấn SeRQL sẽ được kết hợp lại để tạo ra kết quả cuối cùng Đề tài dựa vào phương pháp chuyển đổi câu truy vấn có cấu trúc song song của tác giả Trần Liên Thắng được đề cập đến trong [3] để phân tách câu truy vấn Xét các dạng câu truy vấn chứa liên từ luận lý có cấu trúc song song sau (với S là chủ thế, O là khách thể, RW là từ quan... Xử lý câu truy vấn có tính từ so sánh nhất Tương tự phần xử lý câu truy vấn có tính từ, cách biểu diễn tính từ so sánh nhất cũng phụ thuộc vào cách ontology thể hiện thuộc tính của thực thể Với câu truy vấn có tính từ định tính so sánh nhất (Ví dụ: most famous, greatest…), nếu trong ontology có sẵn lớp con của thực thể phù hợp với tính từ so sánh nhất thì ta sẽ sử dụng lớp con đó để xây dựng đồ thị ý... với nhiều từ loại (danh từ, động từ, ) Muốn hiểu đúng phải xác định đúng loại từ Lấy ví dụ: “Time flies like an arrow” “Time” và “flies” có ít nhất 2 cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ và “flies” làm danh từ Phải giải quyết sự đa hình của từ (morphology) nếu muốn nhận biết đầy đủ các thành phần của câu Ví dụ như động từ “fly” có thể có dạng “flies”,... biết các thực thể người mẫu là nổi tiếng nhất hay ít nổi tiếng nhất Trong trường hợp này, đồ thị ý niệm cho câu truy vấn ở ví dụ trên sẽ là: Hình 3-8 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ định tính so sánh nhất Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết tương tự như đã trình bày ở mục 3.3 (cho dạng truy vấn “How many”), điểm khác biệt là ... Luận văn không dừng lại câu truy vấn đơn giản ví dụ trên, mà nhắm đến mục tiêu trả lời câu truy vấn phức tạp Đó câu truy vấn có liên từ luận lý, tính từ định tính, tính từ định lượng, tính từ so... dạng câu truy vấn 3.2 Xử lý câu truy vấn thông thường Câu truy vấn thông thường hiểu câu truy vấn có chứa thực thể từ quan hệ, không chứa thành phần khác tính từ, liên từ luận lý, lượng từ Việc... cho tính từ định tính cách biểu diễn 2, sinh quan hệ giả, cho tính từ định lượng 3.6 Xử lý câu truy vấn có tính từ so sánh Tương tự phần xử lý câu truy vấn có tính từ, cách biểu diễn tính từ so