1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG kết QUẢ TRẢ lời CHO hệ THỐNG hỏi đáp DANH SÁCH TIẾNG VIỆT

62 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,28 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ Thơng tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Mai Vũ HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ Cử nhân Lê Hồng Quỳnh – người tận tình bảo hướng dẫn tơi q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên phịng thí nghiệm Sislab giúp tơi nhiều việc thu thập xử lý liệu Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân u ln bên cạnh, động viên tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! Sinh viên Nguyễn Thanh Sơn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Nhờ khả hỗ trợ người dùng việc khai thác tài nguyên Internet cách hiệu dễ dàng, hệ thống hỏi đáp nói chung quan tâm nghiên cứu từ lâu, nhiên dạng hệ thống hỏi đáp đặc biệt, có hệ thống hỏi đáp danh sách bước đầu phát triển Hệ thống hỏi đáp danh sách hệ thống hỏi đáp, nhận đầu vào câu hỏi dạng ngôn ngữ tự nhiên trả câu trả lời dạng danh sách Tại Việt Nam, nghiên cứu hệ thống hỏi đáp nói chung, hệ thống hỏi đáp danh sách nói riêng tập trung cho miền liệu tiếng Việt nhiều hạn chế Một lý cịn thiếu cơng cụ xử lý tiếng Việt, tài ngun ngơn ngữ học, … Khóa luận Phương pháp nâng cao chất lượng kết trả lời cho hệ thống hỏi đáp danh sách tiếng Việt tập trung nghiên cứu phương pháp xây dựng hệ thống hỏi đáp danh sách áp dụng giới số phương pháp nâng cao chất lượng kết trả lời cho dạng hệ thống hỏi đáp Trên sở nghiên cứu nói trên, kết hợp với việc khảo sát điều kiện thực tế cơng cụ xử lý ngơn ngữ tiếng Việt, khóa luận đề xuất mơ hình nâng cao chất lượng kết trả lời cho hệ thống hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper luật ngữ nghĩa Thực nghiệm mơ hình cho kết khả quan, đạt độ xác cho câu trả lời chứa kết 93.87% so với độ xác 82.11% pha hỏi đáp danh sách, đồng thời hứa hẹn nhiều tiềm nghiên cứu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Lời mở đầu Chương Giới thiệu hệ thống hỏi đáp danh sách 1.1 Hệ thống hỏi đáp 1.1.1 Giới thiệu chung 1.1.2 Một số vấn đề cần quan tâm 1.1.3 Các bước xử lý chung 1.1.4 Tiêu chuẩn đánh giá 1.1.5 Phân loại 1.2 Hệ thống hỏi đáp danh sách 10 1.2.1 Giới thiệu 10 1.2.2 Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách 10 1.2.3 Những vấn đề cần giải xây dựng hệ hỏi đáp danh sách 11 Chương Các nghiên cứu liên quan 13 2.1 Một số hệ thống hỏi đáp danh sách điển hình 13 2.1.1 Hệ thống hỏi đáp danh sách FADA 16 2.1.2 Hệ thống hỏi đáp Ephyra 20 2.2 Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách 23 Chương 3: Đề xuất mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 28 3.1 Mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 28 3.2 Pha 1: Hỏi đáp danh sách tiếng Việt 29 3.2.1 Tìm kiếm câu trả lời dựa vào mẫu quan hệ thượng hạ danh 29 3.2.2 Mơ hình pha 1: Hệ thống hỏi đáp danh sách 30 3.3 Pha 2: Mở rộng thực thể 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.1 Xây dựng luật Wrapper 33 3.3.2 Các phương pháp xếp hạng sử dụng 35 3.3.3 Mô hình pha 2: mở rộng thực thể 35 Chương Thực nghiệm đánh giá 39 4.1 Thực nghiệm pha hỏi đáp danh sách 39 4.1.1 Dữ liệu thực nghiệm 39 4.1.2 Kết thực nghiệm 40 4.2 Thực nghiệm đánh giá kết mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng việt 42 Kết luận 47 Phụ lục 49 Tài liệu tham khảo 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng kết cao TREC-12 (Voorhees, 2003) 13 Bảng Các lớp trang web 17 Bảng Hiệu suất tập kiểm thử TREC-12 20 Bảng Cây kế thừa thực thể tên mẫu loại 22 Bảng Kết thực thi SEAL với thuật toán đánh giá số lượng tập mồi khác 25 Bảng Ví dụ truy vấn chất lượng văn thu thập tương ứng 26 Bảng Độ xác trung bình Ephyra 27 Bảng Độ đo trung bình F1 Ephyra 27 Bảng Một số mẫu quan hệ thượng hạ danh tiếng Anh tiếng Việt 30 Bảng 10 Ví dụ câu hỏi danh sách từ khóa tương ứng 39 Bảng 11 Kết thực nghiệm pha hỏi đáp danh sách tiếng Việt 40 Bảng 12 Kết thực nghiệm mơ hình nâng cao sử dụng thực thể mồi 42 Bảng 13 Kết thực nghiệm mơ hình nâng cao sử dụng thực thể mồi 43 Bảng 14 Kết thực nghiệm mơ hình nâng cao – kết đầu vào 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình Hình Các bước chung hệ thống hỏi đáp Hình Xu hướng nghiên cứu hệ thống hỏi đáp Hình Ví dụ Snippet trả từ máy tìm kiếm 22 Hình Mơ hình thực nghiệm nâng cao chất lượng kết trả lời 28 Hình Ví dụ quan hệ thượng hạ danh 29 Hình Mơ hình pha - Hỏi đáp danh sách tiếng Việt 30 Hình Ví dụ cấu trúc web 33 Hình 8.Ví dụ văn bán cấu trúc 34 Hình Mơ hình pha - Mở rộng thực thể 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách biểu đồ Biểu đồ Kết loại câu hỏi tập liệu kiểm thử - TREC, 2007 15 Biểu đồ Số lượng từ khóa đáp ứng với số lượng khác tập kết 40 Biểu đồ Độ xác kết thực nghiệm pha hỏi đáp danh sách tiếng Việt 41 Biểu đồ So sánh độ xác câu trả lời 44 Biểu đồ 5.Khả đáp ứng từ khóa hệ thống trường hợp 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời mở đầu Internet ngày nay, mặt trở thành kho tài nguyên thông tin khổng lồ phong phú, mặt khác, việc thông tin tổ chức dạng không cấu trúc bán cấu trúc khiến cho việc nắm bắt thơng tin trở nên khó khăn Máy tìm kiếm hỗ trợ đắc lực cho người dùng, nhiên, để có thơng tin mong muốn, người dùng phải tự tìm trang web mà máy tìm kiếm trả Đây cơng việc tốn nhiều thời gian công sức số lượng trang web trả máy tìm kiếm thường lớn Chính hệ thống hỏi đáp đời, nhằm mục đích tìm kiếm câu trả lời ngắn gọn xác cho người dùng thay trả văn Các câu hỏi người dùng thường đa dạng yêu cầu loại câu trả lời khác Một hướng nghiên cứu ý hệ thống hỏi đáp danh sách Thay có kết câu trả lời, hệ thống hỏi đáp danh sách thường phải trả câu trả lời danh sách kết Đây đặc điểm khác biệt hệ thống hỏi đáp danh sách hệ thống hỏi đáp khác Trả câu trả lời chứa đầy đủ xác kết mục tiêu trọng hướng đến xây dựng hệ thống hỏi đáp danh sách Tuy nhiên, thách thức lớn mà nhà nghiên cứu gặp phải Khóa luận Phương pháp nâng cao chất lượng kết trả lời cho hệ thống hỏi đáp danh sách tiếng Việt thực việc khảo sát, nghiên cứu số phương pháp sử dụng số hệ thống hỏi đáp danh sách, tìm hiểu vài nghiên cứu việc nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách, từ đưa phương pháp phù hợp để giải tốn cho miền liệu tiếng Việt Khóa luận đề xuất mơ hình giải tốn gồm pha chính: (1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào luật thượng hạ danh (hyponym) (2) Pha nâng cao chất lượng cho câu trả lời pha hỏi đáp danh sách dựa vào phương pháp mở rộng thực thể Nội dung khóa luận bao gồm chương sau: Chương Giới thiệu hệ thống hỏi đáp danh sách Chương trình bày nội dung hệ thống hỏi đáp nói chung hệ thống hỏi đáp danh sách nói riêng Chương Các nghiên cứu liên quan Chương điểm qua số nghiên cứu liên quan giới Việt Nam hệ thống hỏi đáp nói chung, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm đánh giá Dựa sở lý thuyết mơ hình đề xuất chương 3, khóa luận xây dựng tiến hành thực nghiệm hai pha mơ hình nâng cao chất lượng kết trả lời hệ thống hỏi đáp danh sách tiếng Việt: pha – pha hỏi đáp danh sách, pha – pha mở rộng thực thể  Cấu hình máy thực nghiệm: o Chip: Intel(R) Celeron(R) M CPU 520 @ 1.60GHz o Ram: 1.00 GB o Hệ điều hành: Microsoft Windows  Công cụ lập trình: Java Eclipse SDK 3.4.0  Cơng cụ phần mềm sử dụng: o JvnTextpro – Tác giả Nguyễn Cẩm Tú o GoogleCrawler – Tác giả Trần Mai Vũ 4.1 Thực nghiệm pha hỏi đáp danh sách 4.1.1 Dữ liệu thực nghiệm Thực nghiệm đánh giá độ xác câu trả lời đưa pha hỏi đáp danh sách Tiến hành thực nghiệm tập gồm 200 từ khóa tương ứng với 200 câu hỏi danh sách Bảng 10 liệt kê 10 ví dụ câu hỏi danh sách từ khóa tương ứng Bảng 10 Ví dụ câu hỏi danh sách từ khóa tương ứng Câu hỏi Từ khóa Hãy cho tơi biết tên số lồi động vật? động vật Có loại nhạc cụ nào? nhạc cụ Việt Nam có thành phố nào? thành phố Việt Nam Kể cho tên ca sĩ? ca sĩ Việt Nam có nhạc sĩ nào? nhạc sĩ Việt Nam Hãy cho biết tên số thủ đô giới? thủ đô Trên giới có trường đại học nào? trường đại học 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hãy cho biết tên bảo tàng? bảo tàng Có bệnh viện nào? bệnh viện 4.1.2 Kết thực nghiệm Với tập gồm 200 từ khóa, tiến hành thực nghiệm riêng pha hỏi đáp danh sách Khóa luận tiến hành thống kê đánh giá với số lượng kết là: 2, 3, 4, 5, 10, 15, 20 Bảng 11 cho biết số lượng từ khóa đáp ứng độ xác tương ứng với số lượng kết Các kết lựa chọn theo trọng số từ cao đến thấp câu trả lời trả pha hỏi đáp danh sách Gọi a số lượng kết trả lời đúng, b số lượng kết xét, độ xác P tính theo cơng thức: P = Bảng 11 Kết thực nghiệm pha hỏi đáp danh sách tiếng Việt Số kết 10 15 20 Số lượng từ khóa đáp ứng 200 200 191 176 153 129 97 Độ xác (%) 93.84 89.48 86.84 82.11 78.16 73.23 67.10 Biểu đồ Số lượng từ khóa đáp ứng với số lượng khác tập kết 250 200 150 Số lượng từ khóa đáp ứng 100 50 10 15 20 Biểu đồ mơ tả số lượng từ khóa đáp ứng với số lượng khác tập kết câu trả lời trả pha hỏi đáp danh sách Pha hỏi đáp danh 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com sách cho kết với từ khóa tập liệu thực nghiệm Khi yêu cầu số lượng kết nhiều số lượng từ khóa đáp ứng giảm đi, 191 yêu cầu kết quả, 176 yêu cầu kết cịn 97 từ khóa đáp ứng yêu cầu 20 kết Điều việc xây dựng mẫu luật thượng hạ danh miền liệu tiếng Việt chưa đầy đủ, nên số lượng kết trích chọn cho số câu trả lời chưa nhiều Biểu đồ Độ xác kết thực nghiệm pha hỏi đáp danh sách tiếng Việt 100 90 80 70 60 50 Độ xác 40 30 20 10 10 15 20 Biểu đồ mơ tả độ xác kết thực nghiệm pha hỏi đáp danh sách tiếng Việt, tương ứng với số lượng kết yêu cầu khác Độ xác P tính theo cơng thức: P = , a số lượng kết trả lời đúng, b số lượng kết xét Biểu đồ cho thấy độ xác câu trả lời tỉ lệ nghịch với số lượng kết xét, độ xác giảm dần số lượng kết xét nhiều lên Độ xác đạt cao xét kết câu trả lời, 93.84% Khi xét đến 20 kết độ xác giảm 67.10% Điều luật thượng hạ danh xây dựng chưa đầy đủ nên chưa đáp ứng số lượng kết lớn Phần tiếp theo, khóa luận trình bày thực nghiệm bổ sung pha mở rộng thực thể để nâng cao kết câu trả lời có sau pha hỏi đáp nói Qua kết thực nghiệm, đưa đánh giá khả nâng cao chất lượng câu trả lời mơ hình 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2 Thực nghiệm đánh giá kết mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng việt Đầu vào pha hỏi đáp danh sách từ khóa câu hỏi, đầu pha câu trả lời trả dạng danh sách kết quả, xếp theo trọng số chúng Qua trình tiến hành khảo sát thực nghiệm riêng pha hỏi đáp danh sách, nhận thấy danh sách kết trả lời, tỉ lệ nhiễu bắt đầu tăng từ kết thứ trở Pha mở rộng thực thể nhận đầu vào n thực thể có trọng số cao danh sách câu trả lời có nhiệm vụ bổ sung kết cho câu trả lời Với đầu vào có tỉ lệ nhiễu cao kết mở rộng khơng khả quan Chính thế, khóa luận tiến hành thực nghiệm với n = 2, n=3 n=4 Chúng tiến hành pha mở rộng thực thể với số lượng đầu vào thống kê kết mở rộng Với thực nghiệm, xét số lượng kết tương ứng 5, 10, 15, 20, đó, có n thực thể kết pha hỏi đáp danh sách dùng làm thực thể mồi, lại các thực thể sinh pha nâng cao chất lượng câu trả lời Đồng thời, thống kê số lượng từ khóa đáp ứng đủ số lượng kết Trong bảng đây, độ xác với số kết tương ứng cho pha nhắc lại để tiện so sánh Bảng 12 Kết thực nghiệm mô hình nâng cao sử dụng thực thể mồi Số kết 10 15 20 Độ xác pha (%) 82.11 78.16 73.23 67.10 Độ xác hệ thống (%) 87.5 81.17 78.3 74.27 Số lượng từ khóa pha đáp ứng 176 153 129 97 Số lượng từ khóa hệ thống đáp ứng 187 165 132 116 Bảng 12 kết thực nghiệm mơ hình nâng cao với đầu vào cho pha mở rộng kết có trọng số cao pha hỏi đáp danh sách (n = 2) Qua cho thấy 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hệ thống sử dụng kết hợp hai pha cho kết tốt sử dụng pha hỏi đáp danh sách với yêu cầu số lượng kết từ đến 20 Với số lượng kết 5, độ xác tăng 5.39% Với số lượng kết 20, độ xác tăng 7.17% Cùng với đó, số lượng từ khóa đáp ứng nhiều hơn, nhiên, đầu vào pha mở rộng thực thể thực thể nên số lượng thực thể mở rộng ít, nên cịn trường hợp từ khóa khơng đáp ứng đủ số lượng kết yêu cầu Bảng 13 Kết thực nghiệm mơ hình nâng cao sử dụng thực thể mồi Số kết 10 15 20 Độ xác pha (%) 82.11 78.16 73.23 67.10 Độ xác hệ thống (%) 93.87 89.64 82.1 77.31 Số lượng từ khóa pha đáp ứng 176 153 129 97 Số lượng từ khóa hệ thống đáp ứng 193 179 163 152 Bảng 13 kết thực nghiệm với đầu vào cho pha mở rộng kết có trọng số cao pha hỏi đáp danh sách (n = 3) Tỉ lệ cải thiện kết không Với số lượng kết 5, độ xác tăng 11.76% Với số lượng kết 20, độ xác tăng 4.72%, điều 20 kết cho pha có nhiều nhiễu sử dụng luật thượng hạ danh, việc sử dụng pha mở rộng thực thể hạn chế điều Pha mở rộng thực thể trường hợp sử dụng thực thể làm đầu vào trích chọn nhiều thực thể so với trường hợp sử dụng thực thể đầu vào Do đó, giúp hệ thống đáp ứng nhiều số kết cho câu hỏi Bảng 14 kết thực nghiệm với kết từ pha hỏi đáp danh sách làm đầu vào cho pha mở rộng thực thể Độ xác thực nghiệm với n = cao so với thực nghiệm với n = thấp so với thực nghiệm với n = Tuy nhiên số lượng tập mở rộng đáp ứng cho việc lựa chọn kết trả lời lại cao thực nghiệm số lượng đầu vào cho pha mở rộng cao thực nghiệm 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tuy nhiên, số lượng thực thể đầu vào cho pha tăng khả nhiễu tập thực thể đầu vào cho pha tăng, độ xác thực thể trích chọn pha không cao, dẫn đến việc nâng cao độ xác cho tồn hệ thống khơng nhiều Bảng 14 Kết thực nghiệm mơ hình nâng cao – kết đầu vào Số kết 10 15 20 Độ xác pha (%) 82.11 78.16 73.23 67.10 Độ xác hệ thống (%) 91.15 83.27 81.53 76.2 Số lượng từ khóa pha đáp ứng 176 153 129 97 Số lượng từ khóa đáp ứng 196 184 179 163 Biểu đồ So sánh độ xác câu trả lời 100 90 80 70 60 Pha hỏi đáp danh sách 50 Kết hợp hai pha với n = 40 Kết hợp hai pha với n = 30 Kết hợp hai pha với n = 20 10 10 15 20 Biểu đồ mô tả trực quan độ xác câu trả lời với số lượng kết khác thực nghiệm Kết tốt mà hệ thống đạt kết hợp pha, 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com sử dụng kết pha hỏi đáp danh sách làm thực thể mồi cho pha mở rộng thực thể Nhìn chung, độ xác câu trả lời giảm dần tăng yêu cầu số lượng kết quả, trường hợp sử dụng kết pha hỏi đáp danh sách làm thực thể mồi cho pha mở rộng thực thể, độ xác tương ứng là: 93.87% với kết đầu tiên, 89.64% với 10 kết đầu 77.31% với 20 kết Bên cạnh đó, mức tăng độ xác khơng đều, phụ thuộc vào chất lượng luật thượng hạ danh pha mở rộng thực thể Biểu đồ 5.Khả đáp ứng từ khóa hệ thống trường hợp 250 200 150 Pha hỏi đáp danh sách Kết hợp hai pha với n = 100 Kết hợp hai pha với n = Kết hợp hai pha với n = 50 10 15 20 Biểu đồ thể khả đáp ứng từ khóa hệ thống trường hợp:  Chỉ áp dụng pha hỏi đáp danh sách  Kết hợp hai pha sử dụng kết pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể  Kết hợp hai pha sử dụng kết pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể  Kết hợp hai pha sử dụng kết pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể Có thấy khả đáp ứng hệ thống sử dụng kết hợp pha tốt sử dụng pha hỏi đáp danh sách Trong khả đáp ứng tốt trường 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hợp sử dụng kết pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể, đáp ứng 196 từ khóa trường hợp yêu cầu kết quả, khả đáp ứng giảm dần số lượng kết yêu cầu tăng, cịn 163 từ khóa áp ứng số lượng kết yêu cầu lên đến 20 Qua kết thực nghiệm kết hợp hai pha hỏi đáp danh sách mở rộng thực thể mô hình nâng cao chất lượng kết trả lời cho hệ thống hỏi đáp danh sách tiếng Việt nhận thấy mơ hình kết hợp cho kết tốt sử dụng pha hỏi đáp danh sách Hệ thống kết hợp cho kết trả lời tốt với độ xác 93.87% với kết câu trả lời đầu vào cho pha mở rộng thực thể kết có trọng số cao trả pha hỏi đáp danh sách Số từ khóa đáp ứng với số lượng kết khác tăng nhờ pha mở rộng thực thể tìm thêm thực thể Tuy nhiên thực thể cịn trường hợp chưa xác, điều nhiều nguyên nhân khác nhau, có nguyên nhân thực thể đầu vào pha mở rộng bị nhiễu, dẫn đến việc mở rộng không đạt hiệu mong muốn Hoặc liệu xét, có thực thể cần tìm nằm ngữ cảnh với thực thể mồi, dẫn đến thực thể mở rộng không nhiều Đây vấn đề cần tiếp tục giải để đạt kết nâng cao tốt cho hệ thống hỏi đáp danh sách tiếng Việt 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Cùng với nhu cầu khai thác nguồn thông tin liệu web cách dễ dàng hiệu hơn, hệ thống hỏi đáp danh sách hướng nghiên cứu thu hút nhiều quan tâm nhà nghiên cứu giới Việt Nam Trong khn khổ khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập trung tìm hiểu phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt cách tìm kiếm, trích chọn bổ sung kết cho câu trả lời hệ thống Các công việc thực khóa luận:  Về lý thuyết: o Hệ thống hoá số vấn đề lý thuyết hệ thống hỏi đáp hệ thống hỏi đáp danh sách o Chỉ ý nghĩa vai trò việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách khảo sát số phương pháp áp dụng nghiên cứu trước o Tìm hiểu sở lý thuyết mở rộng thực thể kiến thức liên quan thuật toán xếp hạng  Về thực nghiệm Dựa sở lý thuyết tìm hiểu được, khóa luận tiến hành thực nghiệm đạt số kết sau: o Đề xuất mơ hình nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách tiếng Việt Mơ hình gồm pha, pha hệ thống hỏi đáp đơn giản sử dụng luật thượng hạ danh, pha pha bổ sung kết cho câu trả lời sử dụng phương pháp mở rộng thực thể o Thực nghiệm đánh giá mơ hình đề xuất Mơ hình kết hợp đạt độ xác cho câu trả lời chứa kết 93.87% so với 82.11% sử dụng pha hỏi đáp danh sách Đây kết khả quan, đáp ứng tốt yêu cầu đặt ban đầu đề tài đặt tảng cho nghiên cứu Do hạn chế thời gian kiến thức, khố luận cịn số vấn đề cần tiếp tục hoàn thiện phát triển: 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com  Pha hỏi đáp danh sách cịn thơ sơ, sử dụng luật thượng hạ danh (hyponym), đó, nhiều câu trả lời chứa kết chứa nhiều kết khơng xác (nhiễu) làm ảnh hưởng tới pha mở rộng thực thể  Pha mở rộng kết trả lời tận dụng đặc điểm liệu bán cấu trúc văn web, cụ thể dựa vào bảng, danh sách, … mà chưa sử dụng thành phần chứa nhiều thơng tin nội dung trang web Nhận thấy nhược điểm tồn nói trên, thời gian tới, chúng tơi tiến hành cải tiến theo phương án sau:  Nghiên cứu đặc điểm tiếng Việt để xây dựng luật ngữ nghĩa áp dụng vào pha mở rộng thực thể để sử dụng nội dung trang web, góp phần nâng cao chất lượng kết trả lời cho hệ thống hỏi đáp danh sách  Hoàn thiện pha hỏi đáp danh sách: bổ sung luật thượng hạ danh, tìm hiểu quan hệ khác áp dụng cho tốn tìm kiếm câu trả lời hệ thống hỏi đáp danh sách, …  Nghiên cứu, cải tiến thuật tốn xếp hạng để đánh giá tốt thực thể trích chọn được, giúp lựa chọn thực thể đầu vào cho pha mở rộng tốt lựa chọn kết cho câu trả lời cuối tốt  Cuối cùng, tiếp tục hồn thiện, tiến tới xây dựng thành cơng cụ thực tế để đóng góp cho cộng đồng nghiên cứu hỗ trợ người dùng khai thác thông tin Internet cách hiệu 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Một số kết trình thực nghiệm, trường hợp đầu vào pha mở rộng thực thể kết trả lời Bao gồm kết trả lời kết chưa xác Trường hợp khơng thu thêm kết để trống STT Từ khóa Một số kết pha hỏi đáp danh sách Một số kết thu thêm sau mở rộng bảo tàng lịch sử, bảo tàng công binh, hải bảo tàng dân tộc học, bảo dương, hưng n, hóa, khống sản, tàng cách mạng, bảo tàng Bảo tàng thực vật, động vật, bảo tàng ngân hàng, bảo tranh sơn mài, sơn dầu, lụa tàng tiền, bảo tàng hàng không, bảo tàng y dược học, bảo tàng bưu điện, bảo tàng dầu khí, bảo tàng dệt may, bảo tàng giáo dục, bảo tàng giao thông, bảo tàng kiến trúc, bảo tàng tem, bảo tàng mỹ thuật, vật khối gốc brussels airlines, austrian airlines, air canada, united airlines, lot polish airlines, star alliance, lufthansa cityline, luxair, air france, air Hãng hàng không lufthansa, korean air, singapore airlines, new zealand, british airways, united airlines, air france (pháp), virgin jetblue airways, south african atlantic, new zealand, indochina airlines, airways, tap portugal, turkish british airways, châu á, vietnam airlines, airlines, us airways, pacific airlines, indochina airline, thai ways, eurowings, lufthansa cargo, croatia airlines, adria airways, view this template, discuss this template, edit this template, aer lingus, air berlin, air china, air india sốt vi-rút, viêm phế quản, viêm phổi, sốt xuất viêm não, viêm họng, cúm, Bệnh huyết, dịch tả, tiêu chảy, tụ huyết trùng, lở sốt phát ban, viêm bàng mồm long móng, bệnh sán lá, bệnh ghẻ lở, quang, viêm màng não, dãn ghẻ lở, bệnh phổi, bệnh phù nề, chữa viêm 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com gan, béo phì, suy nhược thần kinh, cao huyết phế quản, bệnh lỵ, thấp tim áp, cảm cúm, thông manh, mắt đỏ, nhức đầu, đại tiện táo kết, cao áp huyết Chòm Động vật Bệnh viện Ngân hàng thiên nga, phượng hoàng, la bàn, nhân mã, tam giác, mỏ đại hùng, tiểu hùng, thiên hậu, lộc báo, tiên chim, bảo bình, thiên ưng, vương, mục phu, felis, quadrans muralis, mục phu, điêu cụ, đại cetus, pegasus, hercules khuyển, kình ngư, nam miện, … Dê, hươu xạ, cá voi, cá heo tiến hóa, Bị, heo, cừu hoẵng, nai, hươu, sóc, khỉ dài, cị, vạc, nơng, bống, tơm, trai, kiến, cá, lồi có vú, chó, mèo, dơi, ngựa, chuột điều trị bệnh, bệnh viện sanh pon, bệnh viện mắt-rhm, bệnh viện tây đơ, bệnh viện hồn mỹ, bệnh phổi cần thơ, bệnh viện tâm thần, bạch mai, viện k trung ương, việt đức, phụ sản, bệnh viện k, viện mắt trung ương Techcombank, eximbank, acb, công thương, Bidv, sacombank, vp bank, abbank, seabank, đông á, abc, sacombank, vietcombank, scb, ngân hàng quốc tế, lienvietbank, quốc doanh, maritime bank, tienphongbank, nam bank Nhạc cụ Nhạc sĩ 10 Thủ đô habeco Guitar, trống, kèn, đàn nhị, đàn bầu, piano, Sáo, keyboard, chuông, khèn người mông, kèn đồng, đàn dương chiêng, sitar, mandolin, cầm bangio hoàng giác, thẩm oánh, đức lam phương, cầm phong, lê thương, hùng lân, huy, trần quang hải, tô vũ, trầm tử thiêng, nguyễn cường, giáng son, hoàng thi thơ, lưu hữu phan kiên, quang, ngô minh khánh, trần phước, văn cao, trịnh cơng sơn, trúc phương quang hải, hồ đình phương, niệm khúc cuối Bangkok, london (anh), berlin (đức), tokyo Bắc kinh (trung quốc), paris (nhật bản), viên chăn (lào), hà nội (pháp) 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [1] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn Nhận biết số thực thể đặc trưng cho liệu y tế tiếng việt tiếp cận học bán giám sát, Báo cáo NCKH năm 2009, Trường Đại học Công nghệ, ĐHQGHN [2] Nguyễn Thanh Sơn, Nguyễn Tiến Tùng, Chu Thị Thủy Mở rộng tập thực thể định danh dựa vào luật wrapper luật ngữ nghĩa cho miền liệu tiếng việt Báo cáo NCKH, trường Đại học Công nghệ, ĐHQGHN, 2010 Tiếng Anh [3] Alejandro Figueroa, Gunter Neumann Finding distinct answers in web snippets Deutsches Forschungszentrum fur Kunstliche Intelligenz - DFKI, Stuhlsatzenhausweg 3, D - 66123, Saarbrucken, Germany figueroa@dfki.de, neumann@dfki.de, 2008 [4] B Settles Biomedical named entity recognition using conditional random fields and rich feature sets In COLING 2004 International Joint workshop on NLPBA/BioNLP [5] Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 [6] Boris Katz, Gregory Marton, Sue Felshin, Daniel Loreto, Ben Lu, Federico Mora, Ozlem Uzuner, Michael McGraw-Herdeg, Natalie Cheung, Yuan Luo, Alexey Radul, Yuan Shen, Gabriel Zaccak Question Answering Experiments and Resources MIT Computer Science and Artificial Intelligence Laboratory Cambridge, MA 02139 [7] Burger, John; Cardie, Claire; Chaudhri, Vinay; Gaizauskas, Robert; Harabagiu, Sanda; Israel, David; Jacquemin, Christian; Lin, Chin-Yew; Maiorano, Steve; Miller, George; Moldovan, Dan; Ogden, Bill; Prager, John; Riloff, Ellen; Singhal, Amit; Shrihari, Rohini; Strzalkowski, Tomek; Voorhees, Ellen; Weischedel, Ralph (2002) “Issues, Tasks and Program Structure to Roadmap Research in Question & Answering(Q&A)” http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmappaper_v2.doc 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [8] David Nadeau Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision, PhD Thesis, University of Ottawa, 2007 [9] E Hovy, L Gerber, U Hermjakob, M Junk, and C-Y Lin (2000) Question Answering in Webclopedia, Proceedings of the TREC-9 Conference NIST, Gaithersbur MD [10] Ellen M Voorhees Overview of the TREC 2003 Question Answering Track National Institute of Standards and Technology Gaithersburg, MD 20899 [11] George A Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database 1998 [12] H.T Dang, D Kelly, and J Lin Overview of the TREC 2007 Question Answering Track Proceedings of the Sixteenth Text REtrieval Conference, 2007 [13] H.T Dang, J Lin, and D Kelly Overview of the TREC 2006 Question Answering Track Proceedings of the Fifteenth Text REtrieval Conference, 2006 [14] Hui Yang, Tat-Seng Chua Web-Based List Question Answering School of Computing National University of Singapore Science Drive 2, 117543 [15] J Ko, L Si, and E Nyberg A Probabilistic Framework for Answer Selection in Question Answering Proceedings of NAACL-HLT, 2007 [16] J Lin Jimmy, Boris Katz, Sue Felshin The START Multimedia Information System: Current Technology and Future Directions MIT Artificial Intelligence Laboratory [17] J M Prager, J Chu-Carroll, and K Czuba Question answering using constraint satisfaction: Qa-by-dossier-withcontraints, ACL04: 574–581, 2004 [18] John D Prange Extracting Rich Knowledge from Text, http://colab.cim3.net/file/work/SICoP/2007-02-06/LCC02062007.ppt [19] Majid Razmara Answering list and other questions A thesis in The Department of Computer Science and Software Engineering, Canada, 2008 [20] Marti A Hearst Automatic acquisition of hyponyms from large text corpora In In Proceedings of the 14th International Conference on Computational Linguistics, 1992 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [21] N Schlaefer, G Sautter, J Ko, J Betteridge, M Pathak, and E Nyberg Semantic extensions of the Ephyra QA system in TREC 2007 Proceedings of the Sixteenth Text REtrieval Conference, 2007 [22] N Schlaefer, P Gieselmann, and G Sautter The Ephyra QA System at TREC 2006 Proceedings of the Fifteenth Text REtrieval Conference, 2006 [23] N.F Noy and McGuinness, D.L Ontology Development 101: A Guide to Creating Your First Ontology SMI Technical report SMI-2001-0880 , Stanford University, 2001 [24] Oren Etzioni, Michael J Cafarella, Doug Downey, Ana-Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S Weld, and Alexander Yates Unsupervised named-entity extraction from the web: An experimental study Department of Computer Science and Engineering University of Washington Seattle, 2005 [25] Richard C Wang and William W Cohen Language-Independent Set Expansion of Named Entities using the Web Language Technologies Institute Carnegie Mellon University Pittsburgh, PA 15213 USA, 2007 [26] Richard C Wang, William W Cohen Automatic Set Instance Extraction using the Web In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, 2009 [27] Richard C Wang Language-Independent Class Instance Extraction Using the Web Language Technologies Institute School of Computer Science Carnegie Mellon University 5000 Forbes Ave., Pittsburgh, PA 15213 [28] Richard C.Wang, Nico Schlaefer,WilliamW Cohen, and Eric Nyberg Automatic Set Expansion for List Question Answering Language Technologies Institute Carnegie Mellon University 5000 Forbes Avenue Pittsburgh PA 15213 2008 [29] Vu Tran Mai, Vinh Nguyen Duc, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System International Conference on Asian Language Processing (IALP 2009), Singapore 2009 [30] http://wikipedia.org/ 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... hỏi đáp danh sách thuộc loại Khóa luận Phương pháp nâng cao chất lượng kết trả lời hệ hỏi đáp danh sách tiếng Việt tập trung vào phương pháp để nâng cao chất lượng cho hệ hỏi đáp danh sách Phần... 3: Đề xuất mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 3.1 Mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt Một vấn đề khó... 20 2.2 Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách 23 Chương 3: Đề xuất mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt

Ngày đăng: 01/11/2022, 19:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w