XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ****** Bùi Thanh Tùng ĐỀ TÀI LUẬN VĂN: XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Thanh Hương Hà Nội – 03/2011 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng MỤC LỤC MỤC LỤC T 32T LỜI CAM ĐOAN T 32T DANH MỤC TỪ VIẾT TẮT T 32T DANH MỤC CÁC HÌNH VẼ T 32T DANH MỤC CÁC BẢNG T 32T LỜI MỞ ĐẦU T 32T CHƯƠNG I : TỔNG QUAN 11 T 32T Giới thiệu chung hệ thống hội thoại 11 T T Khó khăn xử lý ngôn ngữ tự nhiên 13 T T 2.1 Cấu trúc ngữ pháp thành phần cấu tạo câu 13 T T 2.2 Phép lặp từ 14 T 32T 2.3 Câu tỉnh lược .14 T 32T CHƯƠNG II KIẾN TRÚC CHUNG HỆ THỐNG HỘI THOẠI 17 T T Kỹ thuật nhận dạng câu hỏi trả lời 18 T T 1.1 Phân tích câu hỏi 19 T 32T 32T 32T 1.2 Luật phân tích từ ngữ 20 T 32T 1.3 Luật viết dạng câu trả lời - query reformulation & query expansion 21 T T Kỹ thuật trích rút liệu - retrieve document & answer extraction 22 T T 2.1 Trích rút thơng tin - Retrieve document 22 T T 2.2 Trích rút câu trả lời - Answer extraction .24 T T 2.3 Kỹ thuật xử lý đại từ thay .26 T T 2.4 Tổ chức sở liệu độc lập 26 T T 3 Kỹ thuật xử lý tượng đồng tham chiếu tỉnh lược tiếng việt 29 T T 3.1 Hiện tượng đồng tham chiếu tiếng Việt hướng tiếp cận 29 T T 3.2 Hiện tượng tỉnh lược câu hướng tiếp cận .34 T T 3.3 Tổng hợp .36 T 32T Kỹ thuật phân tích câu hỏi dựa vào Trie 39 T T 4.1 Cấu trúc Trie 39 T 32T 4.2 Phân tích câu hỏi dựa vào cấu trúc trie 41 T T 4.3 Câu nghi vấn cấu trúc câu nghi vấn tiếng việt .44 T T Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4.4 Trie phân tích câu hỏi tiếng Việt 48 T T CHƯƠNG III HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED T INFORMATION SYSTEM – IBiS 50 T Tổng quan IBiS1 50 T 32T 1.1 Kiến trúc IBiS1 .50 T 32T 1.2 Một số giả định 52 T 32T 1.3 IBiS1 Datatype .52 T 32T 2.Các cấu trúc cú pháp, ngữ nghĩa IBiS1 53 T T 2.1 Các dạng thay ngữ pháp .53 T T 2.2 Mệnh đề 54 T 32T 2.3 Câu hỏi 55 T 32T 2.4 Short Answer - câu trả lời ngắn 56 T T 2.5 Giới hạn phân loại ngữ nghĩa .57 T T 2.6 Mối liên hệ câu hỏi câu trả lời 57 T T 2.7 Kết hợp câu hỏi câu trả lời tạo thành mệnh đề - Proposition 60 T T 3 Dialogue moves - bước thực hội thoại IBiS1 60 T T CHƯƠNG IV: CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 63 T T 1.Xử lý câu tỉnh lược 63 T 32T 1.1 Vị trí hệ thống hội thoại tổng hợp 63 T T 1.2 Giới hạn toán 63 T 32T 1.3 Thiết kế gói cho việc xử lý câu tỉnh lược chương trình 63 T T 2.Cài đặt thuật tốn phân tích câu hỏi sử dụng Trie 65 T T 2.1.Xác định loại câu hỏi câu trả lời mong đợi cho chương trình .65 T T 2.2 Thiết kế câu hỏi 66 T 32T 2.3 Tổ chức cấu trúc Trie 67 T 32T 2.4 Quá trình duyệt Trie .68 T 32T 3.Cài đặt trình hỏi lại chỉnh sửa câu hỏi người dùng 67 T T 3.1 Vai trò hệ thống 67 T 32T 3.2 Các hàm liên quan đến xử lý input-text 67 T T 3.3 Sơ đồ trình hỏi lại sửa câu hỏi người dùng 68 T T Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng 70 T T 4.1 Tổ chức sở liệu 70 T 32T Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4.2 Domain resource tài nguyên miền .72 T T 4.3 Lexicon resource - từ điển ngôn ngữ 74 T T 4.4 Ví dụ hội thoại sử dụng IBiS1 74 T T CHƯƠNG V KẾT LUẬN 78 T 32T TÀI LIỆU THAM KHẢO 80 T 32T Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI CAM ĐOAN Tôi tên Bùi Thanh Tùng - học viên lớp Cao học Công nghệ thông tin – Khố 2009 – Viện Cơng nghệ thơng tin Truyền thông – Trường Đại học Bách Khoa Hà Nội Tôi xin cam đoan luận văn thạc sỹ khoa học tự làm, không chép nguyên Các nguồn tài liệu thu thập dịch từ tài liệu chuẩn nước Số liệu luận văn số liệu thực tế, khơng bịa đặt Nếu có sai phạm xin chịu trách nhiệm trước hội đồng tốt nghiệp nhà trường Học viên cao học: Bùi Thanh Tùng Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC TỪ VIẾT TẮT STT Dạng đầy đủ Từ Giải nghĩa QA Question Answering System Hệ thống hội thoại IBiS Issue-Based Information System NLP Natural Language Processing EAT Expected Answer Type Dạng câu trả lời mong đợi RE Regular Expression Biểu thức quy DME Dialogue Move Engine WHQ Wh- Question Câu hỏi có từ để hỏi YNQ Yes No Question Câu hỏi –sai ALTQ Alternative Question Câu hỏi lựa chọn 10 DPs Dialogue Participants Người tham gia hội thoại 11 CSDL Cơ sở liệu 12 TIS Total Information State Tất trạng thái thông tin 13 IS Information State Trạng thái thông tin 14 QUD Questions Under Discussion Câu hỏi thảo luận 15 Antecedent Tiền ngữ - từ/câu bị thay 16 Anaphora Phân giải đồng tham chiếu 17 Contextual ellipsis Tỉnh lược ngữ pháp 18 Prefer- Constraint Hệ thống hội thoại hướng chủ đề Kỹ thuật xử lý ngôn ngữ tự nhiên Ràng buộc thêm (không bắt buộc) Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC HÌNH VẼ H ình Kiến trúc hệ thống QA 12 T T H ình Lược đồ hệ thống hội thoại 17 T T H ình Hệ thống QALC 23 T 32T H ình Nghĩa từ "ship" 28 T T H ình - Mơ thuật tốn Hobbs 29 T T H ình - Mơ quan hệ từ vựng 35 T T H ình Cây Semantic 38 T 32T B ảng Các câu hỏi mẫu 40 T 32T H ình Cấu trúc trie xác định thực thể 41 T T H ình Duyệt Trie 42 T 32T H ình 10 Cấu trúc Trie không xác định loại thực thể 43 T T H ình 11 Kiến trúc IBiS1 50 T 32T H ình 12 Cài đặt thuật tốn duyệt Trie 69 T T H ình 13 Sơ đồ khối cho việc phân tích câu hỏi sử dụng Trie 66 T T H ình 14 Sơ đồ trình hỏi lại sửa câu hỏi người dùng 69 T T Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC BẢNG Bảng Sự khác QA hệ thống tìm kiếm 11 U T T U Bảng Các câu hỏi mẫu 40 U T 32T U Bảng Thông tin node trie 41 U T T U Bảng Mối quan hệ resolves câu hỏi – câu trả lời 58 U T T U Bảng Mối quan hệ relevant câu hỏi – câu trả lời 59 U T T U Bảng Mệnh đề thu kết hợp câu hỏi- câu trả lời 60 U T T U Bảng Một số câu hỏi ví dụ cài đặt chương trình dùng Trie 66 U T T U Bảng Chú thích EAT 67 U T 32T U Bảng Chú thích ngoại lệ 67 U T 32T U Bảng 10 Bảng ARTIST -Lưu trữ thông tin hoạ sĩ 70 U T T U Bảng 11 Bảng PAINT – Thơng tin tranh phịng triển lãm 71 U T T U Bảng 12 Bảng GENRE –Thông tin trường phái hội hoạ 71 U T T U Bảng 13 Bảng OWNER-Lưu trữ thơng tin người chủ có tranh triển lãm 72 U T T U Bảng 14.Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng 73 U T T U Bảng 15 Các từ đồng nghĩa lĩnh vực phòng tranh-viện bảo tàng 74 U T T U Bảng 16 Mối liên hệ câu trả lời ngắn dialogue move lĩnh vực U T phòng tranh -viện bảo tàng 74 32T U Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI MỞ ĐẦU Cùng với phát triển không ngừng kinh tế - xã hội, khoa học kỹ thuật, lượng thông tin ngày khổng lồ, giới bước vào kỷ nguyên mới, kỷ nguyên bùng nổ thông tin số Ở nắm bắt nhiều thơng tin hội thành cơng cao Chính mà nhu cầu tìm thơng tin nhanh gọn, xác tiện lợi ngày cao Để đáp ứng nhu cầu ta cần xây dựng hệ thống trích rút thơng tin lý tưởng, hệ thống có khả thực giao tiếp hiểu ngôn ngữ người Nó cho phép người sử dụng đưa yêu cầu thông tin, câu hỏi dạng ngôn ngữ tự nhiên (natural languge), hệ thống phải hiểu thơng tin mức độ người: Khi nhận yêu cầu thông tin hay câu hỏi, phải trả thơng tin người sử dụng cần, khơng thiếu, khơng thừa Bên cạnh tương tác với người sử dụng, ví dụ : Hỏi lại hay đưa gợi ý cho người dùng trường hợp câu hỏi đầu vào khơng rõ ràng bị sai Đã có hệ thống trích rút thơng tin phát triển đạt kết khả quan, số hệ thống hội thoại (Question Answering System QA) Nội dung luận văn bao gồm: − Tìm hiểu kiến trúc hệ thống hội thoại − Các kỹ thuật xử lý phân tích câu hỏi − Tìm hiểu hệ thống cụ thể IBiS1 (issue-based information system - hệ thống hội thoại hướng chủ đề) − Cài đặt hệ thống hội thoại ứng dụng bảo tàng Luận văn tìm hiểu mơ hình chung hệ thống hội thoại Trên sở lý thuyết nghiên cứu, luận văn xây dựng hệ thống hội thoại hướng miền ứng dụng cho lĩnh vực bảo tàng Có thể coi tài liệu tham khảo hữu ích, mơ hình để mở rộng xây dựng hệ thống hội thoại khác ứng dụng rộng rãi tương lai Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng Em xin chân thành gửi lời cảm ơn tới thày cô giáo Viện công nghệ thông tin truyền thông, đại học Bách Khoa Hà Nội tận tình giảng dạy, truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt trình học tập trường Đặc biệt em xin gửi lời cảm ơn sâu sắc tới TS Lê Thanh Hương nhiệt tình giúp đỡ em q trình tìm hiểu, nghiên cứu hồn thành luận văn Học viên thực : Bùi Thanh Tùng 10 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng 3.Cài đặt trình hỏi lại chỉnh sửa câu hỏi người dùng 3.1 Vai trị hệ thống Đây q trình thể tính tương tác người sử dụng hệ thống Câu hỏi đầu vào người dùng bị sai không rõ ràng hệ thống hiểu đưa gợi ý cho người sử dụng Dựa vào gợi ý hệ thống đưa ra, người dùng phát sai xót chỉnh sửa lại câu hỏi để tìm kết mong đợi 3.2 Các hàm liên quan đến xử lý input-text public static void getquestion (string asktext): đầu vào input-text, hàm có nhiệm vụ ghi input-text file txt để phục vụ việc tagger public static void tagger(): gọi vnqtag, phân tích cấu trúc input-text thành câu, thành từ phân loại public static sentence_tagger[] readXmlFile(string istrPath): đọc file sau tagger, đầu tập hợp câu đọc public static string extract_keyword_M(sentence_tagger keyword): tìm từ khóa liên quan đến độ đo, dựa vào word_pos từ public static string extract_keyword_G_M(sentence_tagger keyword): tìm từ liên quan đến trường phái chất liệu public static string extract_keyword_N(sentence_tagger keyword): tìm danh từ riêng với mặc định danh từ riêng tập hợp từ viết hoa 67 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng 3.3 Sơ đồ trình hỏi lại sửa câu hỏi người dùng SearchAgain SuggestBox_click SearchButton 68 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng Hình 14 Sơ đồ trình hỏi lại sửa câu hỏi người dùng 69 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng 4.1 Tổ chức sở liệu CSDL gồm có bảng để lưu thông tin tranh triển lãm − ARTIST − PAINT − GENRE − OWNER Ràng buộc CSDL: Mỗi tranh họa sĩ vẽ, thuộc trường phái thuộc chủ sở hữu Bảng 10 Bảng ARTIST - Lưu trữ thông tin hoạ sĩ Tên trường Định dạng Bắt buộc Art_Id int Có Khố Name nvarchar Có Tên bút danh hoạ sĩ Birth nvarchar Có Ngày sinh hoạ sĩ Death nvarchar Không Ngày họa sĩ(nếu mất) Male bit Có Giới tính, mặc định nam Nationality nvarchar Có Quốc tịch Address nvarchar Không Địa liên lạc có Email nvarchar Khơng Hộp thư liên lạc có Description nvarchar Khơng Thơng tin thêm hoạ sĩ có STT 70 Mơ tả Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng Bảng 11 Bảng PAINT – Thông tin tranh phòng triển lãm Tên trường Định dạng Pai_Id Int Có Khố Art_Id Int Có Khố ngồi Own_Id Int Có Khóa ngồi Gen_Id Int Có Khố ngồi Name Nvarchar Có Tên tranh Year Nchar Khơng Năm sáng tác có Height Float Có Chiều dọc tranh, tính theo cm Width Float Có Chiều ngang tranh, tính theo cm Material nvarchar Có Chất liệu 10 Price nvarchar Khơng Định giá tranh có 11 Description nvarchar Khơng Thơng tin thêm tranh STT Bắt buộc Mô tả Bảng 12 Bảng GENRE –Thông tin trường phái hội hoạ STT Tên trường Định dạng Bắt buộc Mô tả Gen_Id int Có Khố Kind nvarchar Có Tên trường phái hội hoạ Description nvarchar Không Thông tin thêm trường phái 71 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng hội họa có Bảng 13 Bảng OWNER - Lưu trữ thông tin người chủ có tranh triển lãm STT Tên trường Định dạng Owner_Id int Có Khố Name nvarchar Có Tên người chủ Birth nvarchar Khơng Ngày sinh người chủ Male bit Có Giới tính, mặc định nam Nationality nvarchar Có Quốc tịch Address nvarchar Không Địa liên lạc có Email nvarchar Khơng Hộp thư liên lạc có Description nvarchar Khơng Thơng tin thêm người chủ Bắt buộc Mơ tả có 4.2 Domain resource tài nguyên miền Dialogue plan - kế hoạch hội thoại U Vì giới hạn phịng tranh nên vấn đề đặt user muốn tìm thơng tin liên quan đến tranh tác giả Hệ thống có kế hoạch để xử lý vấn đề Issue: ?x.find_paint(x) PLAN: < findout(?x.genre(x)) 72 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng findout(?x.material(x)) findout(?x.artist(x)) consultDB(?x.find_paint(x)) > Issue:?x.find_artist(x) PLAN: < findout(?x.have_paint(x)) raise(?x.nationality(x)) consultDB(?x.find_artist(x)) > Phân loại từ U − Các từ trường phái: trừu tượng, lãng mạn,… − Các từ chất liệu: sơn dầu, sơn mài,… − Các từ họa sĩ: Leonard Davinci, Tô Ngọc Vân,… − Các từ tên tranh: Mona Lisa, Thiếu nữ bên hoa huệ, − Các từ quốc tịch: Việt Nam, Mỹ,… Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng U Bảng 14.Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng Mệnh đề Ràng buộc findout(?x.genre(x)) x thuộc từ trường phái raise(?x.material(x)) x thuộc từ chất liệu 73 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng findout(?x.artist(x)) x thuộc từ tên họa sĩ raise(?x.nationality(x)) x thuộc từ quốc tịch findout(?x.have_paint(x)) x thuộc từ tên tranh 4.3 Lexicon resource - từ điển ngôn ngữ Bảng 15 Các từ đồng nghĩa lĩnh vực phòng tranh-viện bảo tàng Ngữ nghĩa Các từ “tranh”, “bức”, “tác phẩm” Tranh “họa sĩ”, “tác giả” Họa sĩ Bảng 16 Mối liên hệ câu trả lời ngắn dialogue move lĩnh vực phòng tranh -viện bảo tàng Câu – short answer Move answer(?x.artist(x)) Giới hạn x thuộc từ tên họa sĩ … greet , quit Database resource - CSDL Sử dụng lại CSDL phần cài đặt thuật tốn phân tích câu hỏi sử dụng Trie 4.4 Ví dụ hội thoại sử dụng IBiS1 NEXT_MOVE= AGENDA= PLAN= 74 Xây dựng hệ thông hội thoại ứng dụng cho viện bảo tàng BEL={} COM={} QUD= LU/SPEAKER= LU/MOVE= • selectOther() NEXT_MOVE= S> Chào bạn U> Tơi muốn tìm thơng tin họa sĩ • getLastestMove() LU/SPEAKER= LU/MOVE= AGENDA= • integrateUsrAsk() QUD=