Dịch cây truy vấn tiếng anh có lượng từ, tính từ và liên từ luận lý sang đồ thị ý niệm

91 8 0
Dịch cây truy vấn tiếng anh có lượng từ, tính từ và liên từ luận lý sang đồ thị ý niệm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia TP Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA -o0o MAI HOÀNG ANH DỊCH CÂU TRUY VẤN TIẾNG ANH CĨ LƯỢNG TỪ, TÍNH TỪ VÀ LIÊN TỪ LUẬN LÝ SANG ĐỒ THỊ Ý NIỆM Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng 07 – 2009 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm LỜI CẢM ƠN Trước hết, xin gởi lời cảm ơn chân thành sâu sắc đến thầy Cao Hồng Trụ, người trực tiếp hướng dẫn tơi hồn thành luận văn Nếu khơng có hướng dẫn chu đáo, tận tình tài liệu lời khun q giá thầy có lẽ luận văn khơng hồn thành có kết hôm Tôi xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp, người sát cánh, động viên, tạo điều kiện tốt để tơi học tập hồn tất luận văn tốt nghiệp Tôi xin chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa Luận văn hoàn thành thời gian hạn hẹp nên không tránh khỏi thiếu sót, mong góp ý q thầy bạn Học viên Mai Hồng Anh TĨM TẮT Dữ liệu Web ngày lớn dần người ngày bị q tải thơng tin Mặc dù xử lý truyền tải thơng tin giúp người máy tính chưa “hiểu” liệu Web theo cách người Cụ thể lĩnh vực truy vấn, tìm kiếm thơng tin hệ Web tại, máy tính hỗ trợ tìm kiếm theo từ khóa nên kết tìm kiếm thường nhiều không người mong muốn vậy, người khó tự động hóa cơng việc Web nhờ vào máy tính Một thách thức lớn cần phải cung cấp công cụ tìm kiếm thơng tin nhanh, xác, hiệu quả, dễ sử dụng “hiểu” ngữ nghĩa thông tin Luận văn hướng tới việc xây dựng hệ thống trả lời câu truy vấn ngôn ngữ tự nhiên Luận văn đưa phương pháp dịch câu truy vấn sang đồ thị ý niệm dựa vào việc nhận diện thực thể mối quan hệ câu truy vấn mà không dựa vào phân tích cú pháp câu truy vấn Kết đánh giá phương pháp tiến hành tập liệu chuẩn (TREC 2002, TREC 2007) MỤC LỤC CHƯƠNG GIỚI THIỆU 1.1 Tổng quan 1.2 Mục tiêu phạm vi 1.3 Cấu trúc luận văn CHƯƠNG CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN 2.1 Rút trích quan hệ 2.2 Sơ lược đồ thị ý niệm 2.2.1 Đồ thị ý niệm mở rộng 10 2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm .11 CHƯƠNG PHƯƠNG PHÁP TIẾP CẬN 13 3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 13 3.2 Chuyển đổi câu truy vấn có tính từ 15 3.3 Chuyển đổi câu truy vấn có tính từ so sánh 17 3.4 Chuyển đổi câu truy vấn có liên từ luận lý 18 CHƯƠNG PHƯƠNG PHÁP BIÊN DỊCH 21 4.1 Các bước giải thuật 21 4.1.1 Phân tách câu truy vấn 23 4.1.2 Nhận biết thực thể có tên 23 4.1.3 Nhận biết thực thể không tên .23 4.1.4 Nhận biết tính từ 24 4.1.5 Nhận biết từ quan hệ 24 4.1.6 Xác định lớp thực thể 24 4.1.7 Gom thực thể 25 4.1.8 Xác định quan hệ ẩn 26 4.1.9 Xác định loại quan hệ thực thể 26 4.1.10 Xoá bỏ quan hệ không phù hợp 29 4.1.11 Xác định quan hệ tính từ thực thể 30 4.1.12 Xây dựng đồ thị ý niệm .33 4.2 Tập luật 33 4.2.1 Cấu trúc hệ thống luật 34 4.2.2 Cấu trúc thành phần điều kiện luật 35 4.2.3 Cấu trúc thành phần hành động luật 35 4.2.4 Xây dựng số luật đặc biệt .36 4.2.5 Xây dựng từ điển luật 37 4.3 Kết thí nghiệm 39 CHƯƠNG ĐỒ THỊ Ý NIỆM .47 5.1 Lưu trữ đồ thị 47 5.2 Hiển thị đồ thị 48 CHƯƠNG KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 52 PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 56 PHỤ LỤC B: TẬP CÂU MẪU TREC 2007 61 PHỤ LỤC C: NHỮNG CÂU TRUY VẤN TRONG TREC 2002 ĐƯỢC GIẢI QUYẾT THÊM KHI ÁP DỤNG PHƯƠNG PHÁP CỦA ĐỀ TÀI 66 PHỤ LỤC D: NHỮNG CÂU TRUY VẤN TRONG TREC 2007 ĐƯỢC GIẢI QUYẾT THÊM KHI ÁP DỤNG PHƯƠNG PHÁP CỦA ĐỀ TÀI 73 DANH MỤC HÌNH Hình 2.1: Ví dụ đồ thị ý niệm Hình 2.2: Ví dụ biểu diễn câu truy vấn sử dụng HA (Hypostatic abstraction) 10 Hình 2.3: Ví dụ biểu diễn câu truy vấn lồng sử dụng đỉnh truy vấn 11 Hình 3.1: Ví dụ biểu diễn câu truy vấn "How many" 13 Hình 3.2: Ví dụ biểu diễn câu truy vấn "How many" dạng rút gọn .14 Hình 3.3: Ví dụ biểu diễn tổng quát cho câu truy vấn "How many" 14 Hình 4.1: Mơ tả bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn 22 Hình 4.2: Xác định loại quan hệ hai thực thể ei ej 27 Hình 4.3: Lược đồ ánh xạ kiểu quan hệ ba truy vấn 28 Hình 4.4: Xác định loại quan hệ tính từ adj thực thể 31 Hình 4.5: Lược đồ ánh xạ kiểu quan hệ tính từ thực thể 32 Hình 4.6: Cấu trúc tập thành phần TransformRules rule 34 Hình 4.7: Cấu trúc thành phần điều kiện luật 36 Hình 4.8: Ví dụ thành phần premise 36 Hình 4.9: Cấu trúc thành phần hành động .37 Hình 4.10: Cấu trúc từ điển quan hệ 38 Hình 4.11: Ví dụ luật hồn chỉnh 38 Hình 4.12: Ví dụ số thành phần từ điển 38 Hình 4.13: Ví dụ biểu diễn câu truy vấn “Queried relation” 42 Hình 4.14: Ví dụ biểu diễn câu truy vấn “Advert / Temporal” 42 Hình 5.1: Cấu trúc liệu sử dụng để lưu trữ đồ thị ý niệm kết 47 Hình 5.2: Cấu trúc liệu sử dụng để hiển thị đồ thị ý niệm kết 48 Hình 5.3: Ví dụ kết phương pháp lưu trữ hiển thị đồ thị ý niệm 49 DANH MỤC BẢNG Bảng 4.1: Bảng thuộc tính thành phần premise 35 Bảng 4.2: Mơ tả thuộc tính thành phần entry 38 Bảng 4.3: Kết thực nghiệm TREC 2002 chưa áp dụng phương pháp đề nghị 40 Bảng 4.4: Kết thực nghiệm TREC 2002 sau áp dụng phương pháp đề nghị 40 Bảng 4.5: Kết thực nghiệm TREC 2002 sau làm giàu Ontology .41 Bảng 4.6: Bảng tổng kết kết cuối đạt tập TREC 2002 43 Bảng 4.7: Kết thực nghiệm TREC 2007 chưa áp dụng phương pháp đề nghị 44 Bảng 4.8: Kết thực nghiệm TREC 2007 sau áp dụng phương pháp đề nghị 44 Bảng 4.9: Kết thực nghiệm TREC 2007 sau làm giàu Ontology .45 Bảng 4.10: Bảng tổng kết kết cuối đạt tập TREC 2007 46 CHƯƠNG GIỚI THIỆU 1.1 Tổng quan Sự phổ biến bùng nổ thông tin Web đặt thách thức để máy tính “hiểu” liệu Web theo cách người, nhằm hỗ trợ tốt cho việc khai phá thơng tin, tích hợp liệu, tự động hóa cơng việc Mặc dù hệ thống tìm kiếm theo từ khóa Google, Yahoo hữu ích, sử dụng phổ biến kết tìm kiếm thường khơng xác đầy đủ người mong muốn từ khóa chưa biểu diễn hết ngữ nghĩa tài liệu truy vấn Điều thúc đẩy đời ý tưởng Web có ngữ nghĩa (Semantic Web) mở rộng Web mà thơng tin thích ngữ nghĩa rõ ràng cho người máy tính “hiểu” ngữ nghĩa thông tin làm việc với cách hiệu [17] Đã có nhiều nghiên cứu hướng tới việc xây dựng hệ thống truy vấn dựa tảng Web ngữ nghĩa Có số nghiên cứu xây dựng hệ thống truy vấn mà người sử dụng lựa chọn từ mẫu câu truy vấn chuẩn bị sẵn hệ thống để thực truy vấn Ở nghiên cứu khác, có tác giả đưa công cụ truy vấn dựa đồ thị gọi Semantic Crystal, người sử dụng trực tiếp thao tác đồ thị để thực truy vấn Các nghiên cứu khác cho phép người dùng nhập câu truy vấn đầy đủ, đoạn câu hay từ khóa ngôn ngữ tự nhiên để thực truy vấn Khi nghiên cứu tính khả dụng hình thức biểu diễn truy vấn với nhau, tác giả [2] rằng, hình thức tốt truy vấn câu đầy đủ, sau đến từ khóa, tiếp đến hình thức mẫu câu truy vấn xây dựng sẵn, cuối hình thức đồ thị Các kết nghiên cứu [16] hướng tới hệ thống truy vấn theo dạng câu tự nhiên đầy đủ, đoạn câu có ý nghĩa Câu truy vấn ngôn ngữ tự nhiên tự động chuyển sang đồ thị ý niệm, sau đồ thị ý niệm chuyển sang câu truy vấn ngữ nghĩa SeRQL để thực truy vấn Ontology Việc chuyển đổi câu truy vấn ngôn ngữ tự nhiên trước thường dựa vào việc phân tích cú pháp câu truy vấn để sinh đồ thị ý niệm Do câu truy vấn không với cú pháp quy định khơng sinh đồ thị ý niệm Ngồi phương pháp khó chuyển đổi ta muốn áp dụng cho ngôn ngữ khác Phương pháp không dịch câu truy vấn đầy đủ sang đồ thị ý niệm, câu bắt đầu từ để hỏi: “who”, “what”, “where”… Các kết nghiên cứu [18] đưa phương pháp chuyển đổi sang đồ thị ý niệm câu truy vấn mà không dựa vào việc phân tích cú pháp câu Tác giả tiếp cận vấn đề cách kết hợp đồng thời điểm sau:  Chọn đồ thị ý niệm làm ngôn ngữ đích Đây ngơn ngữ đồ thị cho phép sử dụng hình thức đồ họa trực quan để diễn đạt ý nghĩa xác mặt luận lý mà máy tính xử lý lại thân thiện với người dùng, có “ánh xạ mịn” với ngơn ngữ tự nhiên, chuyển đổi sang ngơn ngữ hình thức khác  Dựa Ontology để xác định thực thể truy vấn Do Ontology ràng buộc kiểu quan hệ hợp lệ loại thực thể đó, làm cho phương pháp tráng kiện câu truy vấn yếu văn phạm, khơng q phụ thuộc vào vị trí quan hệ thực thể  Dịch theo cách phụ thuộc vào cú pháp câu truy vấn Thật ra, quan tâm thực thể quan hệ câu truy vấn gì, cịn vị trí tương quan chúng khơng quan trọng Điều giúp cho phương pháp bị nhiễu lỗi văn phạm câu truy vấn Phương pháp tác giả [18] nêu giải câu truy vấn yếu cú pháp có cấu trúc đơn giản, không nhập nhằng Ontology Tuy nhiên tồn đọng số hạn chế lỗi phương pháp biểu diễn Ontology Ngôn ngữ truy vấn đồ thị ý niệm (CG) cịn đơn giản thể ràng buộc quan hệ đơn giản Nó khơng đủ để thể câu truy vấn “How many zip codes are there in the U.S.?” “Who was the oldest U.S president?” Để xử lý nhiều mẫu truy vấn hơn, Ontology cần phải làm giàu để hỗ trợ thuộc tính số lượng quan hệ n-ngơi Ngồi CG cần mở rộng với hàm gộp 69 70 71 72 PHỤ LỤC D: NHỮNG CÂU TRUY VẤN TRONG TREC 2007 ĐƯỢC GIẢI QUYẾT THÊM KHI ÁP DỤNG PHƯƠNG PHÁP CỦA ĐỀ TÀI 73 74 75 76 77 78 79 80 81 82 83 ... thức Đề tài đề xuất giải pháp dịch câu truy vấn tiếng Anh có lượng từ, tính từ, liên từ luận lý sang đồ thị ý niệm Phương pháp đề xuất yêu cầu phải tráng kiện câu truy vấn yếu văn phạm, khai thác... gây nhiễu nhiệm vụ then chốt đề tài tập trung vào việc giải vấn đề dịch câu truy vấn tiếng Anh có lượng từ, tính từ, liên từ luận lý sang đồ thị ý niệm Đề tài mở rộng trực tiếp kết nghiên cứu... đồ thị ý niệm Sau xác định tất quan hệ có câu truy vấn, bước xây dựng đồ thị ý niệm mô tả câu truy vấn Như ta phân tích trên, để mở rộng giải cho truy vấn hỏi số lượng, truy vấn có tính từ, tính

Ngày đăng: 29/08/2021, 17:42

Tài liệu cùng người dùng

Tài liệu liên quan