Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 84 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
84
Dung lượng
1 MB
Nội dung
Cũng d Đại Học Quốc Gia TP Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA -o0o LUẬN VĂN ĐẠI HỌC XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CĨ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH Chuyên ngành: Khoa Học Máy Tính GVHD : Pgs.Ts Cao Hoàng Trụ Sinh viên : Nguyễn Trần Đăng Khoa (50601130) Tạ Tất Tài (50602084) TP Hồ Chí Minh, tháng 12 – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn đại học bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi cam đoan ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường đại học khác Ngày Tháng Năm Ký tên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước hết, xin gởi lời cảm ơn chân thành sâu sắc đến Pgs.Ts Cao Hoàng Trụ, kỹ sư Châu Kim Cường, người trực tiếp hướng dẫn tơi q trình làm luận văn Sự hướng dẫn chu đáo, tận tình, với tài liệu lời khuyên quý giá thầy anh tháng qua nhân tố thiếu để chúng tơi hồn thành nhiệm vụ Chúng xin gửi lời cảm ơn đến gia đình bạn bè, người ln sát cánh, động viên, tạo điều kiện tốt để chúng tơi học tập hồn tất luận văn tốt nghiệp Chúng chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa Luận văn khó tránh khỏi cịn thiếu sót tầm nhìn chúng tơi cịn hạn hẹp, mong nhận góp ý q thầy bạn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT Từ đời đến nay, World Wide Web trở thành công cụ quan trọng để lưu trữ chia sẻ nguồn tri thức khổng lồ Tuy nhiên, công cụ phần mềm chưa hỗ trợ thật hiểu cho người trình khai thác kho tri thức Với mong muốn làm hiệu q trình đó, luận văn xây dựng cơng cụ tìm kiếm “hiểu” nội dung câu truy vấn tiếng Anh trả kết Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn dựa tảng web ngữ nghĩa, kết hợp với phương pháp dịch phụ thuộc vào cú pháp nhóm VN-KIM Để thể nội dung biên dịch được, luận văn biểu diễn đồ thị ý niệm Cuối cùng, câu truy vấn SeRQL dùng để tìm kiếm kết Hiệu hệ thống đánh giá tập câu truy vấn mẫu “TREC 2002” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC CHƯƠNG TỔNG QUAN Error! Bookmark not defined 1.1 Giới thiệu 1.2 Mục tiêu phạm vi 1.3 Cấu trúc luận văn CHƯƠNG CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN Error! Bookmark not defined 2.1 Rút trích quan hệ 2.2 Sơ lược đồ thị ý niệm 2.2.1 Đồ thị ý niệm mở rộng 2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm Error! Bookmark not defined CHƯƠNG 12 PHƯƠNG PHÁP TIẾP CẬN 12 3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 12 3.2 Chuyển đổi câu truy vấn có tính từ 14 3.3 Chuyển đổi câu truy vấn có tính từ so sánh 16 3.4 Chuyển đổi câu truy vấn có liên từ luận lý 17 CHƯƠNG 21 PHƯƠNG PHÁP BIÊN DỊCH Error! Bookmark not defined 4.1 Các bước giải thuật 21 4.1.1 Phân tách câu truy vấn 23 4.1.2 Nhận biết thực thể có tên .23 4.1.3 Nhận biết thực thể không tên 23 4.1.4 Nhận biết tính từ .24 4.1.5 Nhận biết từ quan hệ .24 4.1.6 Xác định lớp thực thể 24 4.1.7 Gom thực thể 25 4.1.8 Xác định quan hệ ẩn 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.1.9 Xác định loại quan hệ thực thể 26 4.1.10 Xoá bỏ quan hệ không phù hợp .29 4.1.11 Xác định quan hệ tính từ thực thể 30 4.1.12 Xây dựng đồ thị ý niệm 33 4.2 Tập luật 33 4.2.1 Cấu trúc hệ thống luật .34 4.2.2 Cấu trúc thành phần điều kiện luật 35 4.2.3 Cấu trúc thành phần hành động luật 35 4.2.4 Xây dựng số luật đặc biệt 36 4.2.5 Xây dựng từ điển luật 37 4.3 Kết thí nghiệm 39 CHƯƠNG 47 ĐỒ THỊ Ý NIỆM Error! Bookmark not defined 5.1 Lưu trữ đồ thị 55 5.2 Hiển thị đồ thị Error! Bookmark not defined CHƯƠNG 62 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 68 PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY 73 PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY 74 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH Hình 2.1: Ví dụ đồ thị ý niệm Error! Bookmark not defined Hình 2.2: Ví dụ biểu diễn câu truy vấn sử dụng HA (Hypostatic abstraction) Error! Bookmark not defined Hình 2.3: Ví dụ biểu diễn câu truy vấn lồng sử dụng đỉnh truy vấn Error! Bookmark not defined Hình 3.1: Ví dụ biểu diễn câu truy vấn "How many" 13 Hình 3.2: Ví dụ biểu diễn câu truy vấn "How many" dạng rút gọn .13 Hình 3.3: Ví dụ biểu diễn tổng qt cho câu truy vấn "How many" 13 Hình 4.1: Mơ tả bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn 22 Hình 4.2: Xác định loại quan hệ hai thực thể ei ej 27 Hình 4.3: Lược đồ ánh xạ kiểu quan hệ ba truy vấn 28 Hình 4.4: Xác định loại quan hệ tính từ adj thực thể 31 Hình 4.5: Lược đồ ánh xạ kiểu quan hệ tính từ thực thể 32 Hình 4.6: Cấu trúc tập thành phần TransformRules rule 34 Hình 4.7: Cấu trúc thành phần điều kiện luật 36 Hình 4.8: Ví dụ thành phần premise 36 Hình 4.9: Cấu trúc thành phần hành động .37 Hình 4.10: Cấu trúc từ điển quan hệ 38 Hình 4.11: Ví dụ luật hồn chỉnh 38 Hình 4.12: Ví dụ số thành phần từ điển 38 Hình 4.13: Ví dụ biểu diễn câu truy vấn “Queried relation” 42 Hình 4.14: Ví dụ biểu diễn câu truy vấn “Advert / Temporal” 42 Hình 5.1: defined Cấu trúc liệu sử dụng để lưu trữ đồ thị ý niệm kết Error! Bookmark not LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 5.2: defined Cấu trúc liệu sử dụng để hiển thị đồ thị ý niệm kết Error! Bookmark not Hình 5.3: defined Ví dụ kết phương pháp lưu trữ hiển thị đồ thị ý niệm.Error! Bookmark not LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG Bảng 4.1: Bảng thuộc tính thành phần premise 35 Bảng 4.2: Mơ tả thuộc tính thành phần entry 38 Bảng 4.3: Kết thực nghiệm TREC 2002 chưa áp dụng phương pháp đề nghị 40 Bảng 4.4: Kết thực nghiệm TREC 2002 sau áp dụng phương pháp đề nghị 40 Bảng 4.5: Kết thực nghiệm TREC 2002 sau làm giàu Ontology .41 Bảng 4.6: Bảng tổng kết kết cuối đạt tập TREC 2002 43 Bảng 4.7: Kết thực nghiệm TREC 2007 chưa áp dụng phương pháp đề nghị 44 Bảng 4.8: Kết thực nghiệm TREC 2007 sau áp dụng phương pháp đề nghị 44 Bảng 4.9: Kết thực nghiệm TREC 2007 sau làm giàu Ontology .45 Bảng 4.10: Bảng tổng kết kết cuối đạt tập TREC 2007 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Assign to the current relation its URI Append the statement for the current relation with its neighbour concepts to the FROM clause } //process the disconnected concept nodes For each concepts that has not been visited yet, process it as above [hình tham khảo Dũng] Giải thuật đề tài thêm vào để xử lý tính từ nhận kết giải thuật làm đầu vào, thêm phận cần thiết: Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất thực thể phù hợp trả theo trật tự //Function: append ORDER BY clause for normal adjective to the input SeRQL Initialize new ORDER BY clause For each semantic relation generated from normal adjective { Append the its object’ variable to SELECT clause Identify the way of ordering //i.e DESC or ASC Use a dictionary (XML file) Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered } Giải thuật cho tính từ so sánh nhất: //Function: append WHERE clause for superlative adjective to the input SeRQL Initialize the WHERE, nested SELECT and nested FROM clause //select the value of all other entities which are also qualified, then use “>= ALL” or “= ALL” or “” or “