Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,21 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ─────── Họ tên tác giả luận văn: Hoàng Thị Thu Hiền ỨNG DỤNG TRÍCH RÚT THƠNG TIN VÀO XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ KỶ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Hà nội - năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ─────── Họ tên tác giả luận văn: Hoàng Thị Thu Hiền ỨNG DỤNG TRÍCH RÚT THƠNG TIN VÀO XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ KỶ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Thanh Hƣơng Hà nội - năm 2016 MỤC LỤC Trang LỜI CẢM ƠN! LỜI CAM DOAN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ LỜI MỞ ĐẦU PHẦN : ĐẶT VẤN ĐỀ VÀ ĐỊNH HƢỚNG GIẢI PHÁP 11 CHƢƠNG I GIỚI THIỆU VỀ HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 11 Hệ thống hỏi đáp tự động 11 Phân loại hệ thống hỏi đáp tự động .13 2.1 Phân loại theo miền ứng dụng .13 2.2 Phân loại theo khả trả lời câu hỏi .14 2.3 Phân loại theo hƣớng tiếp cận 15 Các bƣớc hệ thống hỏi đáp tự động 16 Một số vấn đề quan tâm thiết kế hệ thống Q&A 16 Một số hệ thống hỏi đáp tiêu biểu 17 CHƢƠNG II: NGHIÊN CỨU CÁC KỶ THUẬT PHÂN TÍCH CÂU HỎI THEO NGƠN NGỮ TỰ NHIÊN 19 Nội dung phân tích câu hỏi 19 Khó khăn phân tích câu hỏi 19 Khảo sát phƣơng pháp phân tích câu hỏi cho loại câu hỏi khác 20 3.1 Câu hỏi đơn giản (factual-base) 20 3.2 Câu hỏi định nghĩa (definition question) 23 Một số phƣơng pháp phân tích câu hỏi 25 4.1 Phƣơng pháp phân lớp sử dụng học máy thống kê 25 4.2 Phƣơng pháp phân tích câu hỏi cách xử lí ngơn ngữ tự nhiên .26 4.3 Phƣơng pháp xác định loại câu hỏi sử dụng mẫu quan hệ .28 CHƢƠNG NGHIÊN CỨU CÁC KỶ THUẬT TRÍCH RÚT THƠNG TIN DỰA TRÊN QUAN HỆ NGỮ NGHĨA 30 Khái quát tốn trích rút quan hệ ngữ nghĩa 30 1.1 Quan hệ ngữ nghĩa 30 1.2 Các loại quan hệ ngữ nghĩa 30 1.3 Bài tốn trích rút mối quan hệ ngữ nghĩa .34 Các phƣơng pháp trích rút mẫu quan hệ 34 2.1 Phƣơng pháp DIPRE .34 2.2 Phƣơng pháp Snowball 37 2.3 Phƣơng pháp trích xuất mẫu tự động sử dụng máy tìm kiếm .39 2.4 Phƣơng pháp KnowItAll 40 2.5 Phƣơng pháp TextRunner .42 2.6 So sánh 43 PHẦN : KẾT QUẢ ĐẠT ĐƢỢC 45 CHƢƠNG 4: THỰC NGHIỆM XÂY DỰNG HỆ THỐNG HỎI ĐÁP PHÒNG VÀ CHỮA BỆNH Ở TRẺ EM 45 Đặt vấn đề giải pháp: 45 Xây dựng sở liệu: 52 3.1 Dữ liệu danh sách loại bệnh: .56 3.2 Dữ liệu định nghĩa loại bệnh: 57 3.3 Dữ liệu nguyên nhân gây bệnh: .57 3.4 Dữ liệu triệu chứng loại bệnh: .58 3.5 Dữ liệu cách phòng loại bệnh: .58 3.6 Dữ liệu cách chữa loại bệnh: 59 So khớp mẫu 59 4.1 Tạo mẫu câu hỏi 59 4.2 Tìm từ khóa .60 So khớp mẫu câu hỏi 62 Trích xuất câu trả lời: 62 7.Kết đánh giá 63 7.1 Giao diện chƣơng trình 63 7.3 Nhận xét, đánh giá 68 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 71 LỜI CẢM ƠN! Trƣớc tiên, em xin lời cảm ơn lòng biết ơn sâu sắc đến PGS.TS Lê Thanh Hƣơng ngƣời tận tình bảo em suốt trình làm luận văn tốt nghiệp Em xin cảm ơn thầy cô cán trƣờng Đại học Bách Khoa tạo điều kiện thuận lợi để em học tập nghiên cứu Cuối cùng, em muốn gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân yêu bên cạnh, động viên em suốt q trình thực khóa luận tốt nghiệp Em xin chân thành cảm ơn ! LỜI CAM DOAN Tôi xin cam đoan cơng trình nghiên cứu thân dƣới hƣớng dẫn khoa học PGS.TS Lê Thanh Hƣơng, xuất phát từ yêu cầu phát sinh sống hàng ngày để hình thành hƣớng nghiên cứu Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn đƣợc thu thập trình nghiên cứu trung thực chƣa đƣợc công bố trƣớc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung luận văn Hà Nội, tháng 10 năm 2016 Tác giả luận văn Hoàng Thị Thu Hiền DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Chi tiết Nghĩa Q&A Question and answer Hệ thống hỏi đáp NP Noun Phrase Cụm danh từ UMLS Unified Medical Language System Thống hệ thống ngôn ngữ y tế IR information retrieval Truy vấn thông tin PMI pointwise mutual information Thông tin chung dựa điểm SEI Search Engine Interface Giao diện máy tìm kiếm SVM Support Vector Machines Máy hỗ trợ Vector kNN k Near Neighbors Láng giềng gần DANH MỤC CÁC BẢNG Bảng Bảng mối quan hệ ngữ nghĩa WordNet 33 Bảng Ví dụ trích rút mẫu 35 Bảng So sánh phƣơng pháp trích rút mẫu 43 Bảng Từ điển định nghĩa mối quan hệ với loại bệnh 48 Bảng Tập quan hệ mẫu tƣơng ứng 49 Bảng Một số kết thử nghiệm chƣơng trình hỏi đáp chữa bệnh cho trẻ em 64 Bảng Đánh giá độ xác hệ thống cho loại câu hỏi 67 DANH MỤC HÌNH VẼ Hình Xu hƣớng nghiên cứu Q&A 14 Hình Các bƣớc hệ thống Q&A 16 Hình Kiến trúc cho xử lý câu hỏi factual-base 21 Hình Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 27 Hình Mối liên hệ từ “car” với từ khác thông qua mối quan hệ 32 Hình Kiến trúc hệ thống Snowball 37 Hình Các thành phần KnowItAll 40 Hình Mơ hình hệ thống hỏi đáp tự động 46 Hình Mơ hình xử lí cho pha phân tích câu hỏi trích xuất câu trả lời 49 Hình10 Cơ sở liệu cách phòng chữa bệnh trẻ em 52 Hình 11 Giao diện chƣơng trình hỏi đáp phòng chữa bệnh cho trẻ em 63 3.2 Dữ liệu định nghĩa loại bệnh: Nguồn : http://vi.wikipedia.org/wiki Phƣơng pháp: trích rút liệu khơng có cấu trúc, sử dụng tƣ tƣởng phƣơng pháp mẫu quan hệ Các bƣớc tiến hành: Truy vấn sở liệu lấy danh sách loại bệnh có Lấy tên loại bệnh làm đầu vào cho tìm kiếm trang web Wikipedia tiếng Việt Tiến hành download nội dung trang web, lấy phần text trang web Sử dụng số mẫu : , cịn gọi để tìm câu chứa thơng tin cần (các mẫu ta quan sát thấy cấu trúc trang wiki) để tìm câu chứa thơng tin cần Phần mềm tìm thấy từ "là" "cịn gọi" dừng lại, thấy từ "là" trƣớc từ "cịn gọi" lấy từ "là" ngƣợc lại Tiến hành chạy lần lƣợt lấy thơng tin nhóm 10 loại bệnh lúc (tránh thời gian chạy timeout ) sau lại cho chạy 10 loại bệnh 3.3 Dữ liệu nguyên nhân gây bệnh: Phƣơng pháp cách thức tƣơng tự nhƣ việc tìm kiếm thơng tin định nghĩa loại bệnh Nguồn : http://vi.wikipedia.org/wiki Các bƣớc tiến hành : Truy vấn sở liệu lấy danh sách loại bệnh có Lấy tên loại bệnh làm đầu vào cho tìm kiếm trang web Wikipedia tiếng Việt Tiến hành download nội dung trang web, lấy phần text trang web Sử dụng số mẫu : để tìm câu chứa thơng tin cần Phần mềm tìm thấy từ "do" dừng lại 57 Tiến hành chạy lần lƣợt lấy thơng tin nhóm 10 loại bệnh lúc (tránh thời gian chạy timeout) sau lại cho chạy 10 loại bệnh 3.4 Dữ liệu triệu chứng loại bệnh: Nguồn : http://vi.wikipedia.org/wiki Phƣơng pháp: trích rút liệu có cấu trúc Các bƣớc tiến hành : Truy vấn sở liệu lấy danh sách loại bệnh có Lấy tên loại bệnh làm đầu vào cho tìm kiếm trang web Wikipedia tiếng Việt Tiến hành download nội dung trang web, lấy phần text trang web Tìm kiếm máy tìm kiếm đoạn nói đến triệu chứng trích rút thơng tin lấy đoạn Tiến hành chạy lần lƣợt lấy thơng tin nhóm 10 loại bệnh lúc (tránh thời gian chạy timeout) sau lại cho chạy 10 loại bệnh 3.5 Dữ liệu cách phòng loại bệnh: Phƣơng pháp cách thức tƣơng tự nhƣ việc tìm kiếm thơng tin triệu chứng loại bệnh Nguồn : http://vi.wikipedia.org/wiki Các bƣớc tiến hành : Truy vấn sở liệu lấy danh sách loại bệnh có Lấy tên loại bệnh làm đầu vào cho tìm kiếm trang web Wikipedia tiếng Việt Tiến hành download nội dung trang web, lấy phần text trang web Tìm kiếm máy tìm kiếm đoạn nói đến "cách phịng" trích rút thơng tin lấy đoạn Tiến hành chạy lần lƣợt lấy thơng tin nhóm 10 loại bệnh lúc (tránh thời gian chạy timeout) sau lại cho chạy 10 loại bệnh 58 3.6 Dữ liệu cách chữa loại bệnh: Phƣơng pháp cách thức tƣơng tự nhƣ việc tìm kiếm thông tin triệu chứng loại bệnh Nguồn : http://vi.wikipedia.org/wiki Các bƣớc tiến hành : Truy vấn sở liệu lấy danh sách loại bệnh có Lấy tên loại bệnh làm đầu vào cho tìm kiếm trang web Wikipedia tiếng Việt Tiến hành download nội dung trang web, lấy phần text trang web Tìm kiếm máy tìm kiếm đoạn nói đến "cách chữa"hoặc " điều trị" trích rút thơng tin lấy đoạn Tiến hành chạy lần lƣợt lấy thơng tin nhóm 10 loại bệnh lúc (tránh thời gian chạy timeout) sau lại cho chạy 10 loại bệnh So khớp mẫu 4.1 Tạo mẫu câu hỏi Từ mẫu gồm thành phần : prefix middle surfix ta tiến hành tạo mẫu câu hỏi Các bƣớc tiến hành đƣợc mô tả nhƣ sau: Bƣớc : Liệt kê từ để hỏi cho thực thể Bƣớc : Truy vấn lấy mẫu có sở liệu Bƣớc : Đối với mẫu có dạng : prefix middle surfix, ta tạo mẫu câu hỏi theo công thức : %prefix% %middle % %surfix% %prefix % %middle % %surfix% Bƣớc : Lƣu mẫu câu hỏi thông tin liên quan vào sở liệu Ví dụ: Mẫu : gây Từ để hỏi cho nguyên nhân: nguyên nhân nào,nguyên nhân Mẫu câu hỏi tạo : % nguyên nhân gì% gây% loai_benh 59 % nguyên nhân % gây % loai_benh 4.2 Tìm từ khóa Từ khóa mấu chốt quan trọng cho việc trả lời câu hỏi Với liệu có, ta có sẵn thể thực thể Vì ta sử dụng phƣơng pháp so khớp để tìm từ khóa Tuy nhiên việc so khớp từ tiếng Việt phức tạp nên ta phải chuyển câu hỏi thể dạng tiếng Việt khơng dấu Các bƣớc cụ thể cho việc tìm từ khóa: Bƣớc 1: Tạo bảng gồm thể thực thể từ liệu có sẵn cách đƣa chúng dạng tiếng Việt không dấu viết thƣờng Bƣớc 2: Nhận câu hỏi, đƣa câu hỏi dạng tiếng Việt không dấu viết thƣờng Bƣớc 3: Tiến hành so khớp, tìm từ khóa Bƣớc 4: Nếu có từ khóa chứa loại bỏ từ khóa ngắn Bƣớc 5: Tìm thơng tin liên quan đến từ khóa tìm đƣợc : thuộc thực thể nào, match_id ( id ghi chứa liệu gốc thể ) Bƣớc 6: Thay từ khóa kí hiệu thực thể Trong trƣờng hợp không xác định đƣợc từ khóa hệ thống khơng trả lời đƣợc câu hỏi ngƣời dùng Ví dụ: Câu hỏi: Nguyên nhân gây bệnh sởi trẻ em? Sau lọc dấu : Nguyen nhan gi gay benh soi o tre em? Tiến hành tìm từ khóa: Từ khóa tìm đƣợc : Soi Thực thể : loại bệnh Match_id : ( id bảng bệnh lƣu thông tin bệnh sởi ) Câu hỏi đầu : nguyen nhan gi gay loai_benh o tre em? Cơ sở hàm lọc dấu : $TiengViet=array("à","á","ạ","ả","ã","â","ầ","ấ","ậ","ẩ","ẫ","ă", "ằ","ắ","ặ","ẳ","ẵ","è","é","ẹ","ẻ","ẽ","ê","ề" 60 ,"ế","ệ","ể","ễ", "ì","í","ị","ỉ","ĩ", "ị","ó","ọ","ỏ","õ","ơ","ồ","ố","ộ","ổ","ỗ","ơ" ,"ờ","ớ","ợ","ở","ỡ", "ù","ú","ụ","ủ","ũ","ƣ","ừ","ứ","ự","ử","ữ", "ỳ","ý","ỳ","ỵ","ỷ", "đ", "À","Á","Ạ","Ả","Ã","Â","Ầ","Ấ","Ậ","Ẩ","Ẫ","Ă" ,"Ằ","Ắ","Ặ","Ẳ","Ẵ", "È","É","Ẹ","Ẻ","Ẽ","Ê","Ề","Ế","Ệ","Ể","Ễ", "Ì","Í","Ị","Ỉ","Ĩ", "Ị","Ĩ","Ọ","Ỏ","Õ","Ơ","Ồ","Ố","Ộ","Ổ","Ỗ","Ơ" ,"Ờ","Ớ","Ợ","Ở","Ỡ", "Ù","Ú","Ụ","Ủ","Ũ","Ƣ","Ừ","Ứ","Ự","Ử","Ữ", "Ỳ","Ý","Ỳ","Ỵ","Ỷ","Đ","Ð"); $KhongDau=array("a","a","a","a","a","a","a","a","a","a","a" ,"a","a","a","a","a","a", "e","e","e","e","e","e","e","e","e","e","e", "i","i","i","i","i", "o","o","o","o","o","o","o","o","o","o","o","o" ,"o","o","o","o","o", "u","u","u","u","u","u","u","u","u","u","u", "y","y","y","y","y", "d", "A","A","A","A","A","A","A","A","A","A","A","A" ,"A","A","A","A","A", "E","E","E","E","E","E","E","E","E","E","E", "I","I","I","I","I", 61 "O","O","O","O","O","O","O","O","O","O","O","O" ,"O","O","O","O","O", "U","U","U","U","U","U","U","U","U","U","U", "Y","Y","Y","Y","Y","D","D"); So khớp mẫu câu hỏi Với kết thu đƣợc mục 4.1 4.2 ta đƣợc danh sách mẫu câu hỏi, câu hỏi đầu sau tìm từ khóa Tiến hành so khớp mẫu câu hỏi Đƣợc danh sách mẫu phù hợp Chọn mẫu câu hỏi có độ tƣơng đồng cao Xác định mẫu quan hệ tạo mẫu câu hỏi Xác định mẫu thuộc quan hệ Xác định thành phần thực thể quan hệ Xác định thực thể mà câu hỏi hƣớng tới Ví dụ: Câu hỏi: Ngun nhân gây bệnh sởi trẻ em? Từ khóa : Bệnh sởi Thực thể : Loại _bệnh Match id (id bảng bệnh): Câu hỏi : : nguyen nhan gi gay loai_benh o tre em? Mẫu câu so khớp: %nguyen nhan gi%gay%loai_benh%o tre em% Loại câu hỏi: hỏi thực thể chƣa biết Quan hệ : Thực thể cần hỏi: nguyên nhân Trích xuất câu trả lời: Dựa vào kết trả mục Ta tiến hành tạo câu truy vấn để lấy thông tin cho câu trả lời Câu truy vấn phụ thuộc vào : Từ khóa, thực thể từ khóa, thực thể cần hỏi.Ví dụ: Nguyên nhân gây bệnh sởi trẻ em? Với từ khóa bệnh sởi, thực thể loại bệnh, cần hỏi nguyên nhân 62 Truy vấn : SELECT FROM where = “bệnh sởi” 7.Kết đánh giá Trên sở phƣơng pháp đề xuất trên, em thu đƣợc CSDL gồm 135 loại bệnh với thông tin mô tả tên bệnh, nguyên nhân, triệu chứng, cách phòng, cách chữa Hệ thống xây dựng đƣợc tập 3200 seed có thành phần 11 mối quan hệ 996 tập mẫu câu hỏi tổng quát Các seed đƣợc nhóm theo loại câu hỏi Cụ thể seed thuộc nhóm (nguyên nhân, loại bệnh) có 258 mẫu câu hỏi tổng qt cịn nhóm khác nhƣ (định nghĩa, loại bệnh): 169, nhóm (triệu chứng, loại bệnh) : 120, nhóm (cách phịng, loại bệnh): 165, nhóm (cách chữa, loại bệnh): 152, nhóm (biểu hiện, loại bệnh): 132 7.1 Giao diện chương trình Hệ thống hỏi đáp đƣợc xây dựng CSDL có giao diện nhƣ sau: Hình 11 Giao diện chương trình hỏi đáp phịng chữa bệnh cho trẻ em 63 7.2 Một số kết chạy chương trình hỏi đáp chữa bệnh cho trẻ em Bảng Một số kết thử nghiệm chương trình hỏi đáp chữa bệnh cho trẻ em STT Câu hỏi Câu trả lời Đánh giá - Định nghĩa bệnh có tầm quan trọng đặc biệt nhi khoa Đúng bệnh sởi trẻ em? Trƣớc bệnh xảy thƣờng xuyên có tỵ - Nhƣ lệ lây nhiễm nhƣ tử vong cao nhƣng bệnh sởi? - Khái niệm bệnh sởi trẻ em? khơng cịn phổ biến nhờ vào chƣơng trình tiêm chủng mở rộng Sởi bệnh nhiễm virus cấp tính đặc trƣng giai đoạn cuối ban dạng dát-sẩn xuất từ cổ, mặt, ngực, thân, chân tay kèm theo sốt cao Nhƣ bệnh quai bị bệnh má chàm bàm bệnh toàn thân biểu Đúng sƣng hay nhiều tuyến nƣớc bọt, thƣờng gặp tuyến mang tai Khoảng 1/3 trƣờng hợp nhiễm bệnh không gây nên triệu chứng sƣng tuyến nƣớc bọt rõ ràng lâm sàng Trên 50% bệnh nhân mắc bệnh quai bị có tƣợng tăng bạch cầu dịch não tủy Một số bệnh nhân có biểu viêm màng não rõ với triệu chứng nhức đầu, nơn mửa, cứng cổ Viêm tinh hồn (orchitis) biến chứng thƣờng gặp sau tuổi dậy nhƣng biến chứng vơ sinh khơng thƣờng gặp nhƣ nhiều ngƣời lo ngại Các biến chứng khác gặp gồm viêm khớp, viêm tuyến giáp, viêm khớp xƣơng hàm, viêm cầu thận, (glomerulonephritis), viêm tim, xơ hóa nội tâm mạc, giảm tiểu cầu, thất điều tiểu não, viêm tủy cắt ngang, viêm đa dây thần kinh lan lên, viêm tụy cấp, viêm buồng trứng (oophoritis), giảm thính lực - Ngun nhân loại virus ARN thuộc Rubulavirus họ Đúng 64 gây bệnh quai bị? Paramyxoviridae Các nguyên nhân khác gây viêm - Nguyên nhân gây tuyếm mang tai gồm virus vùi hạt cự bào bệnh quai bị gì? - Tại bị bệnh quai bị? (cytomegalovirus-CMV), virus cúm type 3, virus cúm A (influenza A virus), coxsackievirus, virus ruột (enterovirus), virus gây suy giảm miễn - Bệnh quai bị đâu? dịch ngƣời (Human Immunodeficiency VirusHIV), tụ cầu khuẩn, Mycobacterium không - Bệnh quai bị nguyên nhân gì? gây lao khác Các nguyên nhân gây viêm tuyến mang tai gặp khác kể: ăn nhiều tinh bột, phản ứng thuốc (phenylbutazone, thiouracil, thuốc chứa iốt) rối loạn chuyển hóa (nhƣ bệnh đái tháo đƣờng, xơ gan suy dinh dƣỡng) Ít bị quai bị lần hai Nguyên nhân virus đƣờng ruột họ Picornaviridae gây gây bệnh tay, Giống vi rút gây bệnh TCM phổ biến chân, miệng Coxsackie A virus Enterovirus 71 (EV-71).[1] Đây bệnh thƣờng gặp nhũ nhi trẻ em Bệnh thƣờng đƣợc đặc trƣng sốt, đau họng ban có bọng nƣớc - Triệu chứng bệnh quai bị? -Triệu chứng thƣờng gặp bệnh quai bị gì? - Bệnh quai bị có triệu chứng gì? Cách phịng trách bệnh tay, chân, miệng trẻ em triệu chứng sƣng tuyến nƣớc bọt rõ ràng lâm sàng Trên 50% bệnh nhân mắc bệnh quai bị có tƣợng tăng bạch cầu dịch não tủy Một số bệnh nhân có biểu viêm màng não rõ với triệu chứng nhức đầu, nôn mửa, cứng cổ Hiện chƣa có phƣơng pháp phòng bệnh đặc hiệu cho Bệnh Tay – Chân - Miệng nhƣ bệnh khác enterovirrus bại liệt khác nhiên biện pháp vệ sinh chặt chẽ hạ thấp nguy nhiễm bệnh Các biện pháp có tác dụng thƣờng xuyên rửa tay đặc biệt sau lần thay tã 65 Những nơi bị nhiễm bệnh đƣợc làm trƣớc tiên nƣớc xà phịng sau khử trùng dung dịch chứa chlor Tránh tiếp xúc thân mật với ngƣời bệnh nhƣ hôn, vuốt ve, dùng chung dụng cụ… Bệnh sởi thƣờng điều trị nhƣ Điều trị bệnh sởi cần thực bệnh viện nhằm nào? chứng Giống nhƣ đa phần bệnh mục đích cách ly phát kịp thời biến virus, chƣa có điều trị đặc hiệu chống virus sởi mà có điều trị hỗ trợ Điều trị hỗ trợ gồm hạ sốt Paracetamol, Ibuprofen; nghỉ ngơi giƣờng, bù phụ nƣớc-điện giải, phát biến chứng kịp thời Điều trị kháng sinh có chứng bội nhiễm vi khuẩn Các thuốc kháng virus khơng có tác dụng Viêm kết mạc mắt mắc bệnh gì? Bệnh sởi Đúng Viêm kết mạc mắt - Sởi Đúng sốt, nhức đầu, ói mửa mắc bệnh ? - Bệnh tay, chân, miệng Sốt , nhức đầu , ói mửa, mệt mỏi mắc bệnh gì? - Bệnh tay, chân, miệng 10 66 Đúng Đánh giá kết thử nghiệm: Do khơng có tập liệu mẫu cho câu hỏi - đáp nên việc thử nghiệm đƣợc tiến hành thủ công dựa thử nghiệm hệ thống với loại câu hỏi khác cách hỏi khác cho vấn đề Độ xác hệ thống đƣợc đo bằng: số câu trả lời đúng/tổng số câu hỏi thử nghiệm Độ xác hệ thống cho loại câu hỏi nhƣ sau: Bảng Đánh giá độ xác hệ thống cho loại câu hỏi Số câu Số câu Loại câu hỏi Độ xác trả trả lời trả lời sai lời câu hỏi Câu hỏi định nghĩa 90% Câu hỏi nguyên nhân 10 100% Câu hỏi triệu trứng 10 100% Câu hỏi cách phòng 80% Câu hỏi cách chữa 90% 90% Hỏi biểu để biết loại bệnh mắc phải Các trƣờng hợp trả lời khơng xác thí nghiệm câu hỏi sau: - Câu hỏi "Bệnh sởi có hiểu nhƣ nào?", “Cách phịng trách bệnh viêm màng não trẻ em?”, hệ thống trả lời “Rất tiếc hệ thống không đƣa đƣợc câu trả lời” Lý trả lời sai thiếu tập mẫu, cách khắc phục thêm tập mẫu - Câu hỏi “Cách phòng trách bệnh tiêu chảy?” trả lời: “Rất tiếc liệu cho câu trả lời khơng có” CSDL thiếu thơng tin này,cách khắc phục thêm thông tin vào CSDL - Câu hỏi “Cách chữa bệnh uốn ván? Hệ thống trả lời “Rất tiếc liệu cho câu trả lời khơng có” CSDL khơng có thơng tin này, cách khắc phục thêm thơng tin vào CSDL 67 7.3 Nhận xét, đánh giá Ƣu điểm : - Hệ thống hoạt động tốt, trả lời xác đƣợc nhiều câu hỏi dƣới cách diễn đạt đa dạng ngôn ngữ tự nhiên Độ tin cậy câu trả lời tƣơng đối cao - Linh hoạt tả viết hoa viết thƣờng câu hỏi - Hệ thống dễ dàng đƣợc cải thiện chất lƣợng nhờ việc làm giàu sở liệu mẫu quan hệ - Việc mở rộng thêm quan hệ, rộng lĩnh vực hƣớng tới hệ thống đơn giản Nhƣợc điểm : - Hệ thống hiệu với câu hỏi : đặc điểm phƣơng pháp mẫu quan hệ - Không trả lời đƣợc liệu sở liệu: Hƣớng khắc phục đề xuất tìm phƣơng pháp tìm kiếm thông tin trực tiếp internet để lấy câu trả lời Hiện hệ thống sử dụng bảng log để lƣu câu hỏi mà ngƣời dùng nhập vào nhƣng hệ thống không đƣa đƣợc câu trả lời Dựa vào danh sách câu hỏi ta cải thiện thêm cho hệ thống 68 KẾT LUẬN Nhu cầu xây dựng hệ thống hỏi đáp tự động cho ngôn ngữ tiếng Việt ngày trở nên cấp thiết nhằm khai thác liệu web hiệu Các phƣơng pháp đƣợc sử dụng cho việc xây dựng hệ thống hỏi đáp đa dạng Vì thế, vấn đề xác định phƣơng pháp xử lý phù hợp với ngôn ngữ ngữ tiếng Việt phần quan trọng trình xây dựng hệ thống hỏi đáp tự động Với việc tìm hiểu tiếp cận kiến thức xử lí ngơn ngữ tự nhiên nói chung hệ thống hỏi đáp tự động nói riêng, em chọn xây dựng hệ thống hỏi đáp chữa bệnh cho trẻ em sử dụng phƣơng pháp mẫu quan hệ cho việc phân tích câu hỏi Trong trình nghiên cứu xây dựng luận văn tốt nghiệp, em đạt kết sau: -Trình bày cách khái quát hệ thống hỏi đáp tự động - Nghiên cứu kỷ thuật phân tích câu hỏi theo ngơn ngữ tự nhiên để xây dựng hệ thống hỏi đáp tự động nhƣ: việc xác định loại câu hỏi, xử lý câu hỏi, trích xuất câu trả lời, phƣơng pháp xử lý câu hỏi - Nghiên cứu kỷ thuật trích rút thơng tin mối quan hệ ngữ nghĩa Từ chọn kỷ thuật trích rút phù hợp để xây dựng hệ thống ứng dụng - Đồng thời khoá luận đƣa mơ hình cho hệ thốngh ỏi đáp tiếng Việt sử dụng phƣơng pháp trích rút mẫu quan hệ ngữ nghĩa kho văn tiếng Việt để trả lời câu hỏi lĩnh vực liên quan đến chữa bệnh cho trẻ em Do thời gian kiến thức hạn chế, số kết nghiên cứu luận văn chưa đạt ý: - Bộ liệu trích rút đƣợc thiếu, tập mẫu xây dựng chƣa đƣợc nhiều Khó khăn việc khơng có sở đánh giá độ đầy đủ liệu liên quan đến bệnh thƣờng gặp trẻ em - Mong muốn mở rộng thêm với số quan hệ khác nhƣ : loại bệnh – chế độ dinh dƣỡng, 69 Các hướng nghiên cứu phát triển là: - Tiến hành thực nghiệm với nhiều thuật tốn học khác để tìm thuật tốn phù hợp với phân lớp câu hỏi tiếng Việt Tìm thuật toán để đánh giá độ tƣơng đồng tập mẫu đƣợc xác - Xây dựng phần mềm liên kết với Internet để cảnh báo tới ngƣời làm cha làm mẹ biết đƣợc ổ dịch bệnh bùng phát để có cách phịng tránh kịp thời Đồng thời hồn thiện hệ thống để đáp ứng nhu cầu thực tế ngƣời dùng 70 TÀI LIỆU THAM KHẢO Askjeeves: http://askjeeves.com/, last visited Sept 2016 Anh Kim Nguyen, Huong Thanh Le (2008), Natural Language Interface Construction using Semantic Grammars, The 10th Pacific Rim International Conference on Artificial Intelligence (PRICAI), Hanoi, Vietnam Brin, S (1998), Extracting patterns and relations from the world wide web WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT ’98 Cam Tu Nguyen, Xuan Hieu Phan and Thu Trang Nguyen (2010), JVnTextPro: A Java-based Vietnamese Text Processing Tool http://jvntextpro.sourceforge.net/ Eric Brill, Susan Dumais and Michele Banko (2002), An Analysis of the AskMSR Question-Answering System, In Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP) Giuseppe Attardi, Antonio Cisternino, Francesco Formica, Maria Simi, Alessandro Tommasi (2001), PiQASso: Pisa Question Answering System, In Proceedings of TREC 2001 Luiz Augusto Sangoi Pizzato (2004) Using a Trie-based Structure for Question Analysis, in Proceedings of ALTW 2004, page 25-31 Sydney, Australia, Macquarie University, ASSTA McKeown, K.R (1985) Text generation: using discourse strategies and focus constraints to generate natural language text, Cambridge University Press Chu Anh Minh (2009), Bài tốn trích xuất từ khố cho trang web áp dụng phƣơng pháp phân tích thẻ html đồ thị web, khóa luận tốt nghiệp đại học qui ngành CNTT, Đại học Cơng nghệ 10 Nguyễn Đức Vinh (2009) Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt, khóa luận tốt nghiệp đại học qui ngành CNTT, Đại học Cơng nghệ 11 Wikipedia Tiếng Việt, http://vi.wikipedia.org/, last visited 5-2016 71 ... tên tác giả luận văn: Hồng Thị Thu Hiền ỨNG DỤNG TRÍCH RÚT THÔNG TIN VÀO XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ KỶ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn... HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG Hệ thống hỏi đáp tự động Hệ thống hỏi đáp tự động coi nhƣ lựa chọn thứ hai bên cạnh hệ thống trích chọn thơng tin ngƣời dùng muốn tìm kiếm thơng tin họ cần Hệ thống trích. .. thiệu hệ thống hỏi đáp tự động Trong chƣơng đề cập tới khái niện hệ thống hỏi đáp, phân loại hệ thống hỏi đáp tự động, Các bƣớc hệ thống hỏi đáp tự động bao gồm phân tích câu hỏi trích chọn tài liệu