Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,26 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁPNÂNGCAOCHẤTLƯỢNG
KẾT QUẢTRẢLỜICHOHỆTHỐNGHỎIĐÁPDANHSÁCHTIẾNGVIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁPNÂNGCAOCHẤTLƯỢNG
KẾT QUẢTRẢLỜICHOHỆTHỐNGHỎIĐÁPDANHSÁCHTIẾNGVIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã
tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Thanh Sơn
Tóm tắt
Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet
một cách hiệu quả và dễ dàng, hệthốnghỏiđáp nói chung đã được quan tâm nghiên
cứu từ khá lâu, tuy nhiên các dạng hệthốnghỏiđáp đặc biệt, trong đó có hệthốnghỏi
đáp danhsách vẫn còn đang ở bước đầu phát triển. Hệthốnghỏiđápdanhsách là hệ
thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả
lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệthốnghỏiđáp nói
chung, cũng như về hệthốnghỏiđápdanhsách nói riêng tập trung cho miền dữ liệu
tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu
các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, …
Khóa luận Phươngphápnângcaochấtlượngkếtquảtrảlờichohệthốnghỏi
đáp danhsáchtiếngViệt tập trung nghiên cứu các phươngpháp xây dựng hệthốnghỏi
đáp danhsách đã được áp dụng trên thế giới cũng như một số phươngphápnângcao
chất lượngkếtquảtrảlờicho dạng hệthốnghỏiđáp này. Trên cơ sở các nghiên cứu
nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ
tiếng Việt, khóa luận đề xuất mô hình nângcaochấtlượngkếtquảtrảlờichohệthống
hỏi đápdanhsáchtiếngViệt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm
mô hình chokếtquả khá khả quan, đạt độ chính xác cho câu trảlời chứa 5 kếtquả là
93.87% so với độ chính xác 82.11% của pha hỏiđápdanh sách, đồng thời hứa hẹn
nhiều tiềm năng nghiên cứu mới.
Mục lục
Lời mở đầu 1
Chương 1. Giới thiệu hệthốnghỏiđápdanhsách 3
1.1. Hệthốnghỏiđáp 3
1.1.1. Giới thiệu chung 3
1.1.2. Một số vấn đề cần quan tâm 4
1.1.3. Các bước xử lý chung 5
1.1.4. Tiêu chuẩn đánh giá 6
1.1.5. Phân loại 7
1.2. Hệthốnghỏiđápdanhsách 10
1.2.1. Giới thiệu 10
1.2.2. Một số hướng tiếp cận xây dựng hệthốnghỏiđápdanhsách 10
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệhỏiđápdanhsách 11
Chương 2. Các nghiên cứu liên quan 13
2.1. Một số hệthốnghỏiđápdanhsách điển hình 13
2.1.1. Hệthốnghỏiđápdanhsách FADA 16
2.1.2. Hệthốnghỏiđáp Ephyra 20
2.2. Nângcaochấtlượngtrảlờichohệthốnghỏiđápdanhsách 23
Chương 3: Đề xuất mô hình nângcaochấtlượng câu trảlờichohệthốnghỏiđápdanh
sách tiếngViệt 28
3.1. Mô hình nângcaochấtlượng câu trảlờichohệthốnghỏiđápdanhsáchtiếng
Việt 28
3.2. Pha 1: HỏiđápdanhsáchtiếngViệt 29
3.2.1. Tìm kiếm câu trảlời dựa vào các mẫu quan hệ thượng hạ danh 29
3.2.2. Mô hình pha 1: Hệthốnghỏiđápdanhsách 30
3.3. Pha 2: Mở rộng thực thể 32
3.3.1. Xây dựng các luật Wrapper 33
3.3.2. Các phươngpháp xếp hạng được sử dụng 35
3.3.3. Mô hình pha 2: mở rộng thực thể 35
Chương 4. Thực nghiệm và đánh giá 39
4.1. Thực nghiệm pha hỏiđápdanhsách 39
4.1.1. Dữ liệu thực nghiệm 39
4.1.2. Kếtquả thực nghiệm 40
4.2. Thực nghiệm đánh giá kếtquả mô hình nângcaochấtlượng câu trảlờichohệ
thống hỏiđápdanhsáchtiếngviệt 42
Kết luận 47
Phụ lục 49
Tài liệu tham khảo 51
Danh sách các bảng
Bảng 1. 5 kếtquảcao nhất tại TREC-12 (Voorhees, 2003) 13
Bảng 2. Các lớp trang web 17
Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12 20
Bảng 4. Cây kế thừa thực thể tên và các mẫu loại 22
Bảng 5. Kếtquả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác
nhau 25
Bảng 6. Ví dụ các truy vấn và chấtlượng văn bản thu thập tương ứng 26
Bảng 7. Độ chính xác trung bình của Ephyra 27
Bảng 8. Độ đo trung bình F
1
của Ephyra 27
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. 30
Bảng 10. Ví dụ về câu hỏidanhsách và từ khóa tương ứng 39
Bảng 11. Kếtquả thực nghiệm pha hỏiđápdanhsáchtiếngViệt 40
Bảng 12. Kếtquả thực nghiệm mô hình nângcao sử dụng 2 thực thể mồi 42
Bảng 13. Kếtquả thực nghiệm mô hình nângcao sử dụng 3 thực thể mồi 43
Bảng 14. Kếtquả thực nghiệm mô hình nângcao – 4 kếtquả đầu vào 44
Danh sách các hình
Hình 1. Các bước chung của hệthốnghỏiđáp 5
Hình 2. Xu hướng trong nghiên cứu về hệthốnghỏiđáp 8
Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm 22
Hình 4. Mô hình thực nghiệm nângcaochấtlượngkếtquảtrảlời trong 28
Hình 5. Ví dụ về quan hệ thượng hạ danh. 29
Hình 6. Mô hình pha 1 - HỏiđápdanhsáchtiếngViệt 30
Hình 7. Ví dụ cấu trúc web 33
Hình 8.Ví dụ văn bản bán cấu trúc 34
Hình 9. Mô hình pha 2 - Mở rộng thực thể 36
Danh sách các biểu đồ
Biểu đồ 1. Kếtquả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007 15
Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kếtquả 40
Biểu đồ 3. Độ chính xác của các kếtquả trong thực nghiệm pha hỏiđápdanhsách
tiếng Việt 41
Biểu đồ 4. So sánh độ chính xác câu trảlời 44
Biểu đồ 5.Khả năngđáp ứng từ khóa của hệthống trong các trường hợp 45
1
Lời mở đầu
Internet ngày nay, một mặt đã trở thành kho tài nguyên thông tin khổng lồ và
phong phú, nhưng mặt khác, việc thông tin được tổ chức dưới dạng không cấu trúc
hoặc bán cấu trúc cũng khiến cho việc nắm bắt thông tin trở nên khó khăn. Máy tìm
kiếm đã hỗ trợ khá đắc lực cho người dùng, tuy nhiên, để có thông tin mong muốn,
người dùng phải tự tìm trong các trang web mà máy tìm kiếm trả về. Đây là một công
việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi
máy tìm kiếm thường là rất lớn. Chính vì vậy hệthốnghỏiđáp đã ra đời, nhằm mục
đích tìm kiếm câu trảlời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các
văn bản. Các câu hỏi của người dùng thường rất đa dạng và yêu cầu các loại câu trảlời
cũng khác nhau. Một trong những hướng nghiên cứu mới và đang được chú ý hiện nay
chính là về hệthốnghỏiđápdanh sách.
Thay vì chỉ có một kếtquả trong câu trả lời, hệthốnghỏiđápdanhsách thường
phải trả về câu trảlời là một danhsách các kết quả. Đây chính là đặc điểm khác biệt
nhất giữa hệthốnghỏiđápdanhsách và các hệthốnghỏiđáp khác. Trả về câu trảlời
chứa đầy đủ và chính xác các kếtquả chính là một trong những mục tiêu được chú
trọng nhất được hướng đến khi xây dựng hệthốnghỏiđápdanh sách. Tuy nhiên, đó
cũng chính thách thức lớn nhất mà các nhà nghiên cứu gặp phải.
Khóa luận Phươngphápnângcaochấtlượngkếtquảtrảlờichohệthốnghỏi
đáp danhsáchtiếngViệt thực hiện việc khảo sát, nghiên cứu một số phươngpháp đã
được sử dụng trong một số hệthốnghỏiđápdanh sách, cũng như tìm hiểu một vài
nghiên cứu về việc nângcaochấtlượngtrảlờichohệthốnghỏiđápdanh sách, từ đó
đưa ra phươngpháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt.
Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính:
(1) Pha hỏiđápdanh sách, tìm câu trảlời dựa vào các luật thượng hạ danh
(hyponym).
(2) Pha nângcaochấtlượngcho câu trảlời của pha hỏiđápdanhsách dựa vào
các phươngpháp mở rộng thực thể.
Nội dung của khóa luận bao gồm các chương sau:
Chương 1. Giới thiệu hệthốnghỏiđápdanh sách. Chương 1 trình bày những
nội dung cơ bản về hệthốnghỏiđáp nói chung và hệthốnghỏiđápdanhsách nói
riêng.
Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua một số các nghiên
cứu liên quan trên thế giới cũng như tại Việt Nam về hệthốnghỏiđáp nói chung, cũng
[...]... đápdanhsách thuộc loại này Khóa luận Phương phápnângcaochấtlượng kết quảtrảlời trong hệhỏiđápdanhsáchtiếngViệt tập trung vào phươngpháp để nângcaochấtlượngchohệhỏiđápdanhsách Phần tiếp theo sẽ giới thiệu chi tiết hơn về hệthốnghỏiđápdanhsách 9 1.2 Hệthốnghỏiđápdanhsách 1.2.1 Giới thiệu Khái niệm: Hệthốnghỏiđápdanhsách là hệthốnghỏi đáp, nhận đầu vào là câu hỏi. .. tại Việt Nam về thốnghỏiđápdanh sách, các phươngpháp được áp dụng trong hai hệthốnghỏiđápdanhsách tiêu biểu là hệthốnghỏiđápdanhsách FADA và hệthốnghỏiđáp Ephyra Đồng thời giới thiệu về nghiên cứu liên quan đến việc nâng caochấtlượng câu trảlờichohệthốnghỏiđápdanhsách Phần tiếp theo, khóa luận trình bày mô hình nângcaochấtlượng kết quả câu trảlờichohệthốnghỏiđáp danh. .. trong hệthốnghỏiđápdanhsách Cụ thể là các phươngpháp được áp dụng để xây dựng hệthốnghỏiđápdanhsách FADA và hệthốnghỏiđáp Ephyra 15 2.1.1 Hệthốnghỏiđápdanhsách FADA Hệthốnghỏiđápdanhsách FADA (Find All Distinct Answers) là một trong những hệthốnghỏiđápdanhsách tiêu biểu sử dụng nguồn dữ liệu web để trích chọn ra các câu trảlời FADA hướng đến mục tiêu tìm kiếm câu trả lời. .. nội dung cơ bản về hệthốnghỏiđáp và giới thiệu về hệthốnghỏiđápdanhsách Sang chương 2, khóa luận trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về hệthốnghỏiđápdanh sách, một số phươngpháp tiêu biểu áp dụng chohệthốnghỏiđápdanhsách và giới thiệu về nghiên cứu liên quan đến bài toán nângcaochấtlượng câu trảlờichohệthốnghỏiđápdanhsách 12 Chương 2... chính vì thế việc kết hợp các kĩ thuật giúp cho việc xây dựng một hệthống bao quát rộng và hiệu quả 2.2 Nângcaochấtlượngtrảlờichohệthốnghỏiđápdanhsách Một trong những mục tiêu khi xây dựng hệthốnghỏiđápdanhsách đó chính là khả năngtrả về cho người dùng câu trảlời đầy đủ Tuy nhiên với các phươngpháp hiện nay, hầu hết chỉ trả về được danhsách chứa một số ít kếtquảtrảlời Chính vì thế... Chương 3 Đề xuất mô hình nângcaochấtlượng câu trảlờichohệthốnghỏiđápdanhsáchtiếngViệt Chương 3 trình bày về mô hình nângcaochấtlượng cho hệthốnghỏiđápdanhsáchtiếngViệt mà khoá luận đề xuất Mô hình này gồm 2 pha chính là pha hỏiđápdanhsách và pha mở rộng thực thể Chương 4 Thực nghiệm và đánh giá Tiến hành thực nghiệm để kiểm trachấtlượng của phươngpháp đã đề xuất bằng cách... lời của hệthốnghỏiđápdanhsách (làm đầy đủ hơn tập kếtquảtrả lời) bằng cách áp dụng phươngpháp mở rộng thực thể đối với tập kếtquảtrảlời được trả về từ hệthốnghỏiđápdanhsách 1.2.3 Những vấn đề cần giải quyết khi xây dựng hệhỏiđápdanhsách Ngoài những vấn đề, những yêu cầu, thách thức chung của hệthốnghỏi đáp, việc nghiên cứu và xây dựng hệthốnghỏiđápdanhsách còn gặp phải những... câu hỏidanh sách, hệthống chuyển hóa câu hỏi thành dạng câu hỏi yêu cầu câu trảlời chỉ là một thực thể, sau đó áp dụng kĩ thuật để tìm câu hỏi đơn đó Nhiều lần như vậy, hệthống tổng hợp lại các kếtquả và trả về danhsáchkếtquảcho câu hỏi đó Các bước trảlời câu hỏi của hệthốnghỏiđáp Ephyra gồm: chuẩn hóa câu hỏi, tạo câu truy vấn, tìm kiếm tài liệu, trích chọn câu trảlời dựa vào loại câu trả. .. mà hệthống thu thập về để xử lý không chứa đủ tất cả các kếtquảtrả lời, hoặc hệthống không trích chọn được tất cả các kếtquảtrảlời có trong tập văn bản thu thập được Hiện nay, các nhà nghiên cứu và xây dựng hệthốnghỏiđápdanhsách cố gắng để có thể trả về tập kếtquả đầy đủ nhất có thể R Wang và cộng sự [25][28] đã đề xuất ý tưởng nângcaochấtlượngcho tập câu trảlời của hệthốnghỏi đáp. .. các kếtquả có trong tập tài liệu được xét Đây cũng là vấn đề quan trọng nhất trong việc xây dựng hệthốnghỏiđápdanhsách Rất nhiều các nghiên cứu tập trung vào việc bổ sung các kếtquảcho tập trảlời trong hệthốnghỏiđápdanhsách như nghiên cứu của Wang [28], … Chính vì thế, khóa luận tập trung vào bài toán bổ sung tập kếtquảtrảlờichohệthốnghỏiđápdanhsách trong miền dữ liệu tiếngViệt . hình nâng cao chất lượng câu trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh. nâng cao chất lượng kết quả trả lời trong hệ
hỏi đáp danh sách tiếng Việt tập trung vào phương pháp để nâng cao chất lượng cho
hệ hỏi đáp danh sách. Phần
Hình 1.
Các bước chung của hệ thống hỏi đáp (Trang 14)
Hình 2
(Trang 17)
Bảng 1.5
kết quả cao nhất tại TREC-12 (Voorhees, 2003) (Trang 22)
h
ương 2. Các nghiên cứu liên quan 2.1. Một số hệ thống hỏi đáp danh sách điển hình (Trang 22)
a
vào những phân tíc hở trên, một mơ hình để tìm câu trả lời danh sách trên dữ liệu web đã được xây dựng gồm 4 bước chính như sau: (Trang 26)
Bảng 3.
Hiệu suất của tập kiểm thử trong TREC-12 (Trang 29)
Bảng 3
so sánh hiệu suất khi chạy tập kiểm thử trong TREC-12 giữa một hệ thống trả lời câu hỏi danh sách cơ bản (baseline) với FADA (Trang 29)
Bảng 4.
Cây kế thừa thực thể tên và các mẫu loại (Trang 31)
Bảng 5.
Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác nhau (Trang 34)
Bảng 6.
Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng (Trang 35)
Bảng 7.
Độ chính xác trung bình (MAP) của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL (Trang 36)
Bảng 7
và bảng 8 thể hiện kết quả đánh giá cho tất cả các kết quả trả lời của Ephyra, bốn kết quả trả lời đầu tiên và các cách thiết lập SEAL sử dụng bốn câu trả lời đầu tiên trả về từ Ephyra làm tập mồi (Trang 36)
h
ương 3: Đề xuất mơ hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 3.1 (Trang 37)
Hình 5
là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”, “hoa hướng dương”, “hoa cúc”, … (Trang 38)
3.2.2.
Mơ hình pha 1: Hệ thống hỏi đáp danh sách (Trang 39)