Đồ án tốt nghiệp Nghiên cứu các kỹ thuật phân tích câu hỏi và sinh câu trả lời

73 399 0
Đồ án tốt nghiệp Nghiên cứu các kỹ thuật phân tích câu hỏi và sinh câu trả lời

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ Giới thiệu chung hệ thống hỏi đáp Chương VI KẾT LUẬN 72 72 72 TÀI LIỆU THAM KHẢO .73 Báo cáo đồ án tốt nghiệp DANH MỤC CÁC TỪ VIẾT TẮT STT Từ Dạng đầy đủ Giải nghĩa QA Question Answering System Hệ thống hỏi đáp IBiS Issue-Based Information System Hệ thống hỏi đáp hướng chủ đề NLP Natural Language Processing Kỹ thuật xử lý ngôn ngữ tự nhiên EAT Expected Answer Type Dạng câu trả lời mong đợi RE Regular Expression Biểu thức quy DME Dialogue Move Engine WHQ Wh- Question Câu hỏi có từ để hỏi YNQ Yes No Question Câu hỏi –sai ALTQ Alternative Question Câu hỏi lựa chọn 10 DPs Dialogue Participants Người tham gia hội thoại 11 CSDL Cơ sở liệu 12 TIS Total Information State Tất trạng thái thông tin 13 IS Information State Trạng thái thông tin 14 QUD Questions Under Discussion Câu hỏi thảo luận Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp DANH MỤC CÁC HÌNH VẼ Hình Kiến trúc hệ thống QA Hình Lược đồ hệ thống hỏi đáp 11 Hình Hệ thống QALC 16 Hình Nghĩa từ "ship" .20 Hình Cấu trúc trie xác định thực thể 23 Hình Duyệt trie 24 Hình Cấu trúc trie không xác định loại thực thể 25 Hình Kiến trúc IBiS1 31 Hình Các thành phần IS .43 Hình 10 Resource interfaces – biến tài nguyên 45 Hình 11 Sơ đồ khối cho việc phân tích câu hỏi sử dụng trie 62 Hình 12 Cài đặt thuật toán duyệt trie 64 Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp DANH MỤC CÁC BẢNG Bảng Sự khác QA hệ thống tìm kiếm Bảng Các câu hỏi mẫu 22 Bảng Thông tin node trie 23 Bảng Mối quan hệ resolves câu hỏi – câu trả lời 38 Bảng Mối quan hệ relevant câu hỏi – câu trả lời 39 Bảng Mệnh đề thu kết hợp câu hỏi- câu trả lời 40 Bảng Một số câu hỏi ví dụ cài đặt chương trình dùng trie 56 Bảng Chú thích EAT .56 Bảng Chú thích ngoại lệ 56 Bảng 10 Bảng ARTIST - Lưu trữ thông tin hoạ sĩ 57 Bảng 11 Bảng PAINT – Thông tin tranh phòng triển lãm .59 Bảng 12 Bảng GENRE –Thông tin trường phái hội hoạ 59 Bảng 13 Bảng OWNER - Lưu trữ thông tin người chủ có tranh triển lãm 60 Bảng 14.Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng 68 Bảng 15 Các từ đồng nghĩa lĩnh vực phòng tranh-viện bảo tàng 68 Bảng 16 Mối liên hệ câu trả lời ngắn dialogue move lĩnh vực phòng tranh -viện bảo tàng 68 Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp LỜI CẢM ƠN Trước hết em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô trường Đại học Bách khoa Hà Nội nói chung thầy cô khoa Công nghệ thông tin, môn Hệ thống thơng tin nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt trình năm năm học tập rèn luyện trường Em xin gửi lời cảm ơn đến cô Lê Thanh Hương – giảng viên môn Hệ thống thông tin, khoa Công nghệ thông tin, trường Đại học Bách khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em thực Đồ án tốt nghiệp Cuối em xin chân thành gửi lời cảm ơn đến gia đình, bạn bè động viên, chăm sóc, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành Đồ án Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Cùng với phát triển không ngừng kinh tế - xã hội, khoa học kỹ thuật, lượng thông tin ngày khổng lồ, giới bước vào kỷ nguyên mới, kỷ nguyên bùng nổ thơng tin số Ở nắm bắt nhiều thông tin thì hội để trở thành “người chiến thắng” cao Chính vì mà nhu cầu tìm thông tin nhanh gọn, xác tiện lợi ngày cao Để đáp ứng nhu cầu ta cần xây dựng hệ thống trích rút thơng tin lý tưởng hệ thống có khả thực giao tiếp, hiểu ngơn ngữ người Nó cho phép người sử dụng đưa yêu cầu thông tin, câu hỏi dạng ngôn ngữ tự nhiên (natural languge), hệ thống phải hiểu thơng tin mức độ người: nhận yêu cầu thông tin hay câu hỏi, phải trả thơng tin người sử dụng cần, không thiếu, không thừa Hiện nay, chưa có hệ thống trích rút thơng tin đạt đến mức độ lý tưởng người mong muốn có số hệ thống phát triển đạt kết khả quan Đó hệ thống hỏi đáp (Question Answering System - QA) Trong đồ án tốt nghiệp bao gồm vấn đề sau: − Tìm hiểu kiến trúc hệ thống hỏi đáp − Phân tích câu hỏi dựa vào trie − − Tìm hiểu hệ thống cụ thể IBiS1 (issue-based information system - hệ thống hội thoại hướng chủ đề) Cài đặt + Phân tích câu hỏi dựa vào trie ứng dụng bảo tàng + Cài đặt hệ thống hội thoại ứng dụng bảo tàng Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp Chương I TỔNG QUAN Giới thiệu chung hệ thống hỏi đáp Trong lĩnh vực trích rút thơng tin, hệ thống hỏi đáp (Question-Answering, viết tắt QA) đảm nhận việc tự động trả lời câu hỏi nhập vào dạng ngôn ngữ tự nhiên Hệ thống dựa vào sở liệu hay văn ngơn ngữ tự nhiên có sẵn, đưa câu trả lời phù hợp theo ngơn ngữ tự nhiên QA địi hỏi kỹ thuật xử lý ngôn ngữ tự nhiên (natural language processing -NLP) dạng trích rút thơng tin khác, ví dụ như: trích rút văn (document retrieval) QA móng để phát triển hệ thống hội thoại, kết hợp QA với chế quản lý hội thoại (Dialogue Management), ta hệ thống hội thoại hoàn chỉnh, hệ thống người dùng giao tiếp hỏi – trả lời Cách trích rút thông tin tuyền thống dựa vào ý tưởng coi tập văn nhóm từ riêng biệt, nhờ đó, nội dung ngữ nghĩa văn tương đương với tập từ khố (keyword) chứa mà khơng quan tâm đến trật tự từ hay mối quan hệ câu Tuy nhiên, có từ khố thơi thì chưa đủ, trật tự từ quan hệ ngữ pháp quan trọng việc định nghĩa câu Hệ thống hỏi đáp dựa cách tiếp cận trọng đến ngữ pháp câu thông qua việc cho phép người dùng nhập câu hỏi dạng ngôn ngữ tự nhiên, đưa câu trả lời ngắn gọn theo ngôn ngữ tự nhiên Bảng Sự khác QA hệ thống tìm kiếm QA SEARCH Input Câu hỏi ngơn ngữ tự nhiên Chuỗi truy vấn chứa từ khố Ouput Câu trả lời ngắn gọn Một tập hợp tài liệu Uses Tra cứu nhanh Nghiên cứu mở rộng Thực tế có nhiều hệ thống hỏi đáp xây dựng, cấu trúc hệ thống khác nhau, nhìn chung, có vấn đề cần quan tâm xử lý là: • Phân loại câu hỏi • Xử lý câu hỏi • Tổ chức sở liệu Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp • Trích rút thơng tin từ văn • Sinh câu trả lời Hình Kiến trúc hệ thống QA Một vài hệ thống hỏi đáp tự động tiêu biểu thực tế như: • PiQASso (Attardi et al., 2001) • Ask MSR (Brill et al., 2002) • TREC (Text REtrieval Conference, từ 1990 đến ) PiQASso hệ thống hỏi đáp dựa kết hợp kỹ thuật trích rút thơng tin đại với lọc ngôn ngữ để lựa chọn đoạn văn chứa thông tin phù hợp để trả lời Bộ lọc ngôn ngữ dựa nhiều công cụ xử lý ngôn ngữ tự nhiên như: POS tagger (Part-Of-Speech Tagger - nhận diện loại từ), NE tagger (Name Entity Tagger – nhận diện thực thể) CSDL ngơn ngữ Nó phân tích câu hỏi để tìm từ khóa để truy vấn tìm EAT, phân tích đoạn văn bao gồm việc kiểm tra có mặt thực thể EAT mối quan hệ từ AskMSR hệ thống hỏi đáp có độ xác cao dựa vào việc phân tích lượng liệu online lớn mà thu dựa vào kỹ thuật xử lý ngôn ngữ tự nhiên Đây hệ thống đơn giản hiệu Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp TREC thực lưu trữ câu hỏi phân theo loại cụ thể (ví dụ: tổ chức, kiện,…) Việc phân loại câu hỏi câu trả lời dựa tìm thông tin từ số lượng lớn văn bản, tài liệu Khó khăn xử lý ngơn ngữ tự nhiên 2.1 Cấu trúc ngữ pháp thành phần cấu tạo câu Trong nghiên cứu ngữ pháp tiếng Việt thấy chưa có định nghĩa chuẩn cách gọi loại từ ngữ pháp câu tiếng Việt Trong tiếng Việt trật tự đặt từ phương tiện để biểu thị quan hệ ngữ pháp – tức quan hệ cú pháp – từ câu Trật tự yếu tố cấu thành quy định vị trí định Khi vị trí thay đổi thì nghĩa thay đổi theo Từ tiếng Việt có tiếng hay gồm nhiều tiếng Hơn nữa, tiếng Việt, từ nhiều tiếng lại ghép tiếng hay từ khác có nghĩa Ví dụ hai từ tiếng đất, nước ghép với thành từ có ý nghĩa trừu tượng đất nước Ngồi cịn có cụm danh từ, động từ tính từ với nhiều thành phần cấu tạo, đảm nhiệm chức khác câu 2.2 Phép lặp từ Các đại từ, đại từ sở hữu hay danh từ thường sử dụng để đến tri thức nhắc đến câu hỏi trước, phép ngữ pháp gọi phép lặp từ (anaphora) Xét đoạn hội thoaị sau: > Quyển sách bìa đỏ sách tham khảo à? Đúng > Nó tiền? [Quyển sách màu đỏ kia] tiền ? 20.000 đồng Hệ thống phải hiểu “nó” “quyển sách màu đỏ kia” Một phương pháp đơn giản để xử lý loại câu lưu trữ danh sách tri thức nêu trước Khi gặp phải đại từ, hệ thống kiểm tra lại danh sách từ điểm thay đại từ với tri thức gần thỏa mãn ngữ pháp giới hạn câu Phép lặp từ vấn đề phổ biến xử lý ngôn ngữ tự nhiên Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang Báo cáo đồ án tốt nghiệp 2.3 Câu tỉnh lược Hàng ngày, người thường xun sử dụng câu khơng hồn chỉnh (câu tỉnh lược) hội thoại, mà nghĩa câu phụ thuộc vào đoạn hỏi đáp thực trước Xử lý trường hợp phức tạp câu tỉnh lược đòi hỏi hệ thống phải trì model hội thoại, điều lúc dễ dàng việc bắt buộc phải hỏi câu hỏi đầy đủ khó chịu với người sử dụng Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 10 Báo cáo đồ án tốt nghiệp Bảng 11 Bảng PAINT – Thông tin tranh phòng triển lãm STT Tên trường Định dạng Bắt buộc Mơ tả Pai_Id Int Có Khố Art_Id Int Có Khố ngồi Own_Id Int Có Khóa ngồi Gen_Id Int Có Khố ngồi Name Nvarchar Có Tên tranh Year Nchar Khơng Năm sáng tác có Height Float Có Chiều dọc tranh, tính theo cm Width Float Có Chiều ngang tranh, tính theo cm Material nvarchar Có Chất liệu 10 Price nvarchar Khơng Định giá tranh có 11 Description nvarchar Không Thông tin thêm tranh Bảng 12 Bảng GENRE –Thông tin trường phái hội hoạ STT Tên trường Định dạng Bắt buộc Mô tả Gen_Id int Có Khố Kind nvarchar Có Tên trường phái hội hoạ Description nvarchar Không Thông tin thêm trường phái hội họa có Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 59 Báo cáo đồ án tốt nghiệp Bảng 13 Bảng OWNER - Lưu trữ thông tin người chủ có tranh triển lãm STT Tên trường Định dạng Bắt buộc Mơ tả Owner_Id int Có Khố Name nvarchar Có Tên người chủ Birth nvarchar Không Ngày sinh người chủ Male bit Có Giới tính, mặc định nam Nationality nvarchar Có Quốc tịch Address nvarchar Khơng Địa liên lạc có Email nvarchar Khơng Hộp thư liên lạc có Description nvarchar Khơng Thơng tin thêm người chủ có 1.5 Các hàm xây dựng Các hàm liên quan đến xử lý input-text public static void getquestion (string asktext): đầu vào input-text, hàm có nhiệm vụ ghi input-text file txt để phục vụ việc tagger public static void tagger(): gọi vnqtag, phân tích cấu trúc input-text thành câu, thành từ phân loại public static sentence_tagger[] readXmlFile(string istrPath): đọc file sau tagger, đầu tập hợp câu đọc public static string extract_keyword_M(sentence_tagger keyword): tìm từ khóa liên quan đến độ đo, dựa vào word_pos từ public static string extract_keyword_G_M(sentence_tagger keyword): tìm từ liên quan đến trường phái chất liệu public static string extract_keyword_N(sentence_tagger keyword): tìm danh từ riêng với mặc định danh từ riêng tập hợp từ viết hoa Các hàm liên quan đến duyệt trie Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 60 Báo cáo đồ án tốt nghiệp public static bool is_content(string root_string, string word_compare): dùng để so sánh xem nội dung XML node có chứa từ xét khơng public static void get_node_wait_list(ref XmlNode currentnode, int last_word_macth, ref nodewaitlist node_wait_list): lấy danh sách XML node mức với node xét để đưa vào hàng đợi public static string get_path_node(XmlNode node): sau tìm node với EAT khác rỗng, tìm ngược lại node cha nó, ta thu danh sách id node token public static string loadXmlTrie(string istrPath, sentence_tagger sentence, ref string[] keyword_list): cách duyệt trie, kết trả EAT tìm public static string AnswerString(string EAT, string[] KeyWord, sentence_tagger sentence): tìm câu trả lời tương ứng với EAT tìm sau gọi hàm loadXMLTrie Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 61 Báo cáo đồ án tốt nghiệp 1.6 Sơ đồ khối cho việc hỏi - trả lời sử dụng trie Hình 11 Sơ đồ khối cho việc phân tích câu hỏi sử dụng trie 1.7 Q trình duyệt trie − Lấy thông tin XML node xét, danh sách node đợi xét, tổng số từ câu, từ cuối tìm thấy trie, từ xét Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 62 − Duyệt trie: Hình 12 Cài đặt thuật toán duyệt trie Báo cáo đồ án tốt nghiệp Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 65 − Nếu không tìm token thì EAT=Exception − Nếu tìm thấy nhiều token: chọn token có nhiều node nhất, trích từ khóa theo token tìm 1.8 Nhận xét, đánh giá − Đưa kết nhanh, xác − Ưu điểm: Dễ hiểu, dễ cài đặt Nhược điểm: Cách phân tích câu hỏi trie dễ hiểu lại không phù hợp với hệ thống lớn − Hiệu hệ thống phụ thuộc trực tiếp vào cấu trúc Trie, có nghĩa phụ thuộc trực tiếp vào độ hiểu biết vào bao quát trường hợp người thiết kế − Luật viết lại câu thực thủ công mà điều lúc dễ dàng người − Việc xây dựng cặp câu hỏi dạng câu trả lời tương ứng không sử dụng phép lọc tự động mà phụ thuộc vào tập câu hỏi dạng câu trả lời thiết kế sẵn nên linh động − Cây trie nhận diện câu đầy đủ, ngữ pháp mà không giả trường hợp đặc biệt hay câu rút gọn, thướng bắt buộc phải có giai đoạn tiền xử lý để giải vấn đề − Xét ví dụ: câu “Ai vẽ tranh Mona Lisa?” “Tác giả tranh Mona Lisa ai?” Hai câu duyệt trie trả EAT lại lưu câu hoàn toàn khác biệt trie Đánh giá: Như nói trên, hiệu việc phân tích câu hỏi trie phụ thuộc trực tiếp vào tập cấu trúc câu hỏi lưu trie, nghĩa phụ thuộc trực tiếp vào độ hiểu biết vào bao quát trường hợp người thiết kế Kích thước độ đa dạng tập câu hỏi ảnh hưởng trực tiếp đến độ xác việc phân tích Có thể có trường hợp câu hỏi có dạng giống EAT mong muốn lại khác hoàn tồn nhau, ví dụ: “Tơi muốn tìm tất tranh trừu tượng? ” “Tôi muốn tìm tranh Mona Lisa?” Báo cáo đồ án tốt nghiệp Hai câu có dạng giống EAT chúng lại khác Câu thứ yêu cầu hệ thống phải trả danh sách tranh có trường phái trừu tượng, câu thứ hai lại cần đưa thơng tin tranh có tên Mona Lisa Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng 2.1 Domain resource tài nguyên miền Dialogue plan - kế hoạch hội thoại Vì giới hạn phòng tranh nên vấn đề đặt user muốn tìm thông tin liên quan đến tranh tác giả Hệ thống có kế hoạch để xử lý vấn đề Issue: ?x.find_paint(x) PLAN: < findout(?x.genre(x)) findout(?x.material(x)) findout(?x.artist(x)) consultDB(?x.find_paint(x)) > Issue:?x.find_artist(x) PLAN: < findout(?x.have_paint(x)) raise(?x.nationality(x)) consultDB(?x.find_artist(x)) > Phân loại từ − Các từ trường phái: trừu tượng, lãng mạn,… − Các từ chất liệu: sơn dầu, sơn mài,… − Các từ họa sĩ: Leonard Davinci, Tô Ngọc Vân,… − Các từ tên tranh: Mona Lisa, Thiếu nữ bên hoa huệ, Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 67 Báo cáo đồ án tốt nghiệp − Các từ quốc tịch: Việt Nam, Mỹ,… Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng Bảng 14.Các ràng buộc lĩnh vực phòng tranh-viện bảo tàng Mệnh đề Ràng buộc findout(?x.genre(x)) x thuộc từ trường phái raise(?x.material(x)) x thuộc từ chất liệu findout(?x.artist(x)) x thuộc từ tên họa sĩ raise(?x.nationality(x)) x thuộc từ quốc tịch findout(?x.have_paint(x)) x thuộc từ tên tranh 2.2 Lexicon resource - từ điển ngôn ngữ Bảng 15 Các từ đồng nghĩa lĩnh vực phòng tranh-viện bảo tàng Các từ Ngữ nghĩa “tranh”, “bức”, “tác phẩm” Tranh “họa sĩ”, “tác giả” Họa sĩ Bảng 16 Mối liên hệ câu trả lời ngắn dialogue move lĩnh vực phòng tranh -viện bảo tàng Câu – short answer Move answer(?x.artist(x)) Giới hạn x thuộc từ tên họa sĩ … greet , quit 2.3 Database resource - CSDL Sử dụng lại CSDL phần cài đặt thuật tốn phân tích câu hỏi sử dụng Trie 2.4 Ví dụ hội thoại sử dụng IBiS1 Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 68 Báo cáo đồ án tốt nghiệp NEXT_MOVE= AGENDA= PLAN= BEL={} COM={} QUD= LU/SPEAKER= LU/MOVE= • selectOther() NEXT_MOVE= S> Chào bạn U> Tơi muốn tìm thơng tin họa sĩ • getLastestMove() LU/SPEAKER= LU/MOVE= AGENDA= • integrateUsrAsk() QUD=

Ngày đăng: 06/05/2015, 10:35

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC CÁC HÌNH VẼ

    • 1. Giới thiệu chung về hệ thống hỏi đáp

    • Chương VI. KẾT LUẬN

    • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan