74 Trang 5 5 LỜI CAM ĐOAN Trang 6 6 DANH MỤC T ỪVIẾT T T ẮSTT T ừDạng đầy đủGiải nghĩa1 QA Question Answering System H th ng hệ ố ội thoại 2 IBiS Issue-Based Information System H th n
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ****** Bùi Thanh Tùng ĐỀ TÀI LUẬN VĂN: XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Thanh Hương Hà Nội – 03/2011 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205300701000000 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng MỤC LỤC MỤC LỤC T 23 T 23 LỜI CAM ĐOAN T 23 T 23 DANH MỤC TỪ VIẾT TẮT T 23 T 23 DANH MỤC CÁC HÌNH VẼ T 23 T 23 DANH MỤC CÁC BẢNG T 23 T 23 LỜI MỞ ĐẦU T 23 T 23 CHƯƠNG I : TỔNG QUAN 11 T 23 T 23 Giới thiệu chung hệ thống hội thoại 11 T 23 T 23 Khó khăn xử lý ngơn ngữ tự nhiên 13 T 23 T 23 2.1 Cấu trúc ngữ pháp thành phần cấu tạo câu 13 T 23 T 23 2.2 Phép lặp từ 14 T 23 T 23 2.3 Câu tỉnh lược .14 T 23 T 23 CHƯƠNG II KIẾN TRÚC CHUNG HỆ THỐNG HỘI THOẠI 17 T 23 T 23 Kỹ thuật nhận dạng câu hỏi trả lời 18 T 23 T 23 1.1 Phân tích câu hỏi 19 T 23 T 23 T 23 T 23 1.2 Luật phân tích từ ngữ 20 T 23 T 23 1.3 Luật viết dạng câu trả lời - query reformulation & query expansion 21 T 23 T 23 Kỹ thuật trích rút liệu - retrieve document & answer extraction 22 T 23 T 23 2.1 Trích rút thơng tin - Retrieve document 22 T 23 T 23 2.2 Trích rút câu trả lời - Answer extraction .24 T 23 T 23 2.3 Kỹ thuật xử lý đại từ thay .26 T 23 T 23 2.4 Tổ chức sở liệu độc lập 26 T 23 T 23 Kỹ thuật xử lý tượng đồng tham chiếu tỉnh lược tiếng việt 29 T 23 T 23 3.1 Hiện tượng đồng tham chiếu tiếng Việt hướng tiếp cận 29 T 23 T 23 3.2 Hiện tượng tỉnh lược câu hướng tiếp cận .34 T 23 T 23 3.3 Tổng hợp .36 T 23 T 23 Kỹ thuật phân tích câu hỏi dựa vào Trie 39 T 23 T 23 4.1 Cấu trúc Trie 39 T 23 T 23 4.2 Phân tích câu hỏi dựa vào cấu trúc trie 41 T 23 T 23 4.3 Câu nghi vấn cấu trúc câu nghi vấn tiếng việt .44 T 23 T 23 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4.4 Trie phân tích câu hỏi tiếng Việt 48 T 23 T 23 CHƯƠNG III HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED T 23 INFORMATION SYSTEM – IBiS 50 T 23 Tổng quan IBiS1 50 T 23 T 23 1.1 Kiến trúc IBiS1 .50 T 23 T 23 1.2 Một số giả định 52 T 23 T 23 1.3 IBiS1 Datatype .52 T 23 T 23 2.Các cấu trúc cú pháp, ngữ nghĩa IBiS1 53 T 23 T 23 2.1 Các dạng thay ngữ pháp .53 T 23 T 23 2.2 Mệnh đề 54 T 23 T 23 2.3 Câu hỏi 55 T 23 T 23 2.4 Short Answer - câu trả lời ngắn 56 T 23 T 23 2.5 Giới hạn phân loại ngữ nghĩa .57 T 23 T 23 2.6 Mối liên hệ câu hỏi câu trả lời 57 T 23 T 23 2.7 Kết hợp câu hỏi câu trả lời tạo thành mệnh đề - Proposition 60 T 23 T 23 Dialogue moves - bước thực hội thoại IBiS1 60 T 23 T 23 CHƯƠNG IV: CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 63 T 23 T 23 1.Xử lý câu tỉnh lược 63 T 23 T 23 1.1 Vị trí hệ thống hội thoại tổng hợp 63 T 23 T 23 1.2 Giới hạn toán 63 T 23 T 23 1.3 Thiết kế gói cho việc xử lý câu tỉnh lược chương trình 63 T 23 T 23 2.Cài đặt thuật toán phân tích câu hỏi sử dụng Trie 65 T 23 T 23 2.1.Xác định loại câu hỏi câu trả lời mong đợi cho chương trình .65 T 23 T 23 2.2 Thiết kế câu hỏi 66 T 23 T 23 2.3 Tổ chức cấu trúc Trie 67 T 23 T 23 2.4 Quá trình duyệt Trie .68 T 23 T 23 3.Cài đặt trình hỏi lại chỉnh sửa câu hỏi người dùng 67 T 23 T 23 3.1 Vai trò hệ thống 67 T 23 T 23 3.2 Các hàm liên quan đến xử lý input-text 67 T 23 T 23 3.3 Sơ đồ trình hỏi lại sửa câu hỏi người dùng 68 T 23 T 23 Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng 70 T 23 T 23 4.1 Tổ chức sở liệu 70 T 23 T 23 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4.2 Domain resource tài nguyên miền .72 T 23 T 23 4.3 Lexicon resource - từ điển ngôn ngữ 74 T 23 T 23 4.4 Ví dụ hội thoại sử dụng IBiS1 74 T 23 T 23 CHƯƠNG V KẾT LUẬN 78 T 23 T 23 TÀI LIỆU THAM KHẢO 80 T 23 T 23 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI CAM ĐOAN Tôi tên Bùi Thanh Tùng - học viên lớp Cao học Cơng nghệ thơng tin – Khố 2009 – Viện Công nghệ thông tin Truyền thông – Trường Đại học Bách Khoa Hà Nội Tôi xin cam đoan luận văn thạc sỹ khoa học tự làm, không chép nguyên Các nguồn tài liệu thu thập dịch từ tài liệu chuẩn nước Số liệu luận văn số liệu thực tế, khơng bịa đặt Nếu có sai phạm xin chịu trách nhiệm trước hội đồng tốt nghiệp nhà trường Học viên cao học: Bùi Thanh Tùng Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC TỪ VIẾT TẮT STT Từ Dạng đầy đủ Giải nghĩa QA Question Answering System Hệ thống hội thoại IBiS Issue-Based Information System NLP Natural Language Processing EAT Expected Answer Type Dạng câu trả lời mong đợi RE Regular Expression Biểu thức quy DME Dialogue Move Engine WHQ Wh- Question Câu hỏi có từ để hỏi YNQ Yes No Question Câu hỏi –sai ALTQ Alternative Question Câu hỏi lựa chọn 10 DPs Dialogue Participants Người tham gia hội thoại 11 CSDL Cơ sở liệu 12 TIS Total Information State Tất trạng thái thông tin 13 IS Information State Trạng thái thông tin 14 QUD Questions Under Discussion Câu hỏi thảo luận 15 Antecedent Tiền ngữ - từ/câu bị thay 16 Anaphora Phân giải đồng tham chiếu 17 Contextual ellipsis Tỉnh lược ngữ pháp 18 Prefer- Constraint Hệ thống hội thoại hướng chủ đề Kỹ thuật xử lý ngôn ngữ tự nhiên Ràng buộc thêm (không bắt buộc) Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC HÌNH VẼ Hình Kiến trúc hệ thống QA 12 T 23 T 23 Hình Lược đ h ệ thống hội thoạ i 17 T 23 T 23 Hình Hệ thống QALC 23 T 23 T 23 Hình Nghĩa từ "ship" 28 T 23 T 23 Hình - Mơ thuật tốn Hobbs 29 T 23 T 23 Hình - Mơ ph ỏ ng quan h ệ từ vự ng 35 T 23 T 23 Hình Cây Semantic 38 T 23 T 23 Bảng Các câu hỏi mẫu 40 T 23 T 23 Hình Cấu trúc trie xác đ ịnh thực thể 41 T 23 T 23 Hình Duyệt Trie 42 T 23 T 23 Hình 10 Cấu trúc Trie không xác đ ị nh loại thực thể 43 T 23 T 23 Hình 11 Kiến trúc IBiS1 50 T 23 T 23 Hình 12 Cài đặt thuật toán duyệt Trie 69 T 23 T 23 Hình 13 Sơ đồ khối cho việc phân tích câu hỏi sử d ụng Trie 66 T 23 T 23 Hình 14 Sơ đồ trình hỏi lại sửa câu hỏi ngư ời dùng 69 T 23 T 23 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC BẢNG Bảng Sự khác QA hệ thống tìm kiếm 11 T 23U T 23U Bảng Các câu hỏi mẫu 40 T 23U UT 23 Bảng Thông tin node trie 41 T 23U T 23U Bảng Mối quan hệ resolves câu hỏi – câu trả lời 58 T 23U T 23U Bảng Mối quan hệ relevant câu hỏi – câu trả lời 59 T 23U T 23U Bảng Mệnh đề thu kết hợp câu hỏi- câu trả lời 60 T 23U T 23U Bảng Một số câu hỏi ví dụ cài đặt chương trình dùng Trie 66 T 23U UT 23 Bảng Chú thích EAT 67 T 23U T 23U Bảng Chú thích ngoại lệ 67 T 23U T 23U Bảng 10 Bảng ARTIST -Lưu trữ thông tin hoạ sĩ 70 T 23U T 23U Bảng 11 Bảng PAINT – Thơng tin tranh phịng triển lãm 71 T 23U UT 23 Bảng 12 Bảng GENRE –Thông tin trường phái hội hoạ 71 T 23U T 23U Bảng 13 Bảng OWNER-Lưu trữ thơng tin người chủ có tranh triển lãm 72 T 23U T 23U Bảng 14.Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng 73 T 23U T 23U Bảng 15 Các từ đồng nghĩa lĩnh vực phòng tranh-viện bảo tàng 74 T 23U T 23U Bảng 16 Mối liên hệ câu trả lời ngắn dialogue move lĩnh vực T 23U phòng tranh -viện bảo tàng 74 T 23U Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI MỞ ĐẦU Cùng với phát triển không ngừng kinh tế - xã hội, khoa học kỹ thuật, lượng thông tin ngày khổng lồ, giới bước vào kỷ nguyên mới, kỷ nguyên bùng nổ thơng tin số Ở nắm bắt nhiều thơng tin hội thành cơng cao Chính mà nhu cầu tìm thơng tin nhanh gọn, xác tiện lợi ngày cao Để đáp ứng nhu cầu ta cần xây dựng hệ thống trích rút thơng tin lý tưởng, hệ thống có khả thực giao tiếp hiểu ngôn ngữ người Nó cho phép người sử dụng đưa yêu cầu thông tin, câu hỏi dạng ngôn ngữ tự nhiên (natural languge), hệ thống phải hiểu thông tin mức độ người: Khi nhận u cầu thơng tin hay câu hỏi, phải trả thông tin người sử dụng cần, không thiếu, khơng thừa Bên cạnh tương tác với người sử dụng, ví dụ : Hỏi lại hay đưa gợi ý cho người dùng trường hợp câu hỏi đầu vào không rõ ràng bị sai Đã có hệ thống trích rút thông tin phát triển đạt kết khả quan, số hệ thống hội thoại (Question Answering System QA) Nội dung luận văn bao gồm: − Tìm hiểu kiến trúc hệ thống hội thoại − Các kỹ thuật xử lý phân tích câu hỏi − Tìm hiểu hệ thống cụ thể IBiS1 (issue-based information system - hệ thống hội thoại hướng chủ đề) − Cài đặt hệ thống hội thoại ứng dụng bảo tàng Luận văn tìm hiểu mơ hình chung hệ thống hội thoại Trên sở lý thuyết nghiên cứu, luận văn xây dựng hệ thống hội thoại hướng miền ứng dụng cho lĩnh vực bảo tàng Có thể coi tài liệu tham khảo hữu ích, mơ hình để mở rộng xây dựng hệ thống hội thoại khác ứng dụng rộng rãi tương lai Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng Em xin chân thành gửi lời cảm ơn tới thày cô giáo Viện công nghệ thông tin truyền thông, đại học Bách Khoa Hà Nội tận tình giảng dạy, truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt trình học tập trường Đặc biệt em xin gửi lời cảm ơn sâu sắc tới TS Lê Thanh Hương nhiệt tình giúp đỡ em trình tìm hiểu, nghiên cứu hồn thành luận văn Học viên thực : Bùi Thanh Tùng 10