10 http://www.spokeo.com/
2.5.6. Thực nghiệm và đánh giá
Để đánh giá hiệu quả của mơ hình hệ thống hỏi đáp đƣợc đề xuất, luận án trình bày hai thực nghiệm: thực nghiệm đánh giá hiệu quả của thành phần phân tích câu
13http://viet.wordnet.vn/wnms/
62
hỏi sử dụng phƣơng pháp học máy CRF và thực nghiệm đánh giá hiệu quả trả lời của hệ thống trả lời tự động.
a. Thực nghiệm đánh giá hiệu quả của thành phần phân tích câu hỏi
Bộ dữ liệu 1000 câu hỏi đã gán nhãn sẽ đƣợc sử dụng để đánh giá hiệu quả của thành phần phân tích câu hỏi áp dụng phƣơng pháp học máy CRF với các tham số tƣơng tự nhƣ trong mục 2.4.2. Kỹ thuật kiểm thử chéo 10 phần (10 folds cross validation) đƣợc sử dụng để đánh giá hiệu quả trên ba độ đo: độ chính xác (P), độ hồi tƣởng (R) và độ đo F. Kết quả từng phần đƣợc thể hiện trong bảng 2.11.
Bảng 2.11. Kết quả đánh giá thành phần phân tích câu hỏi
Độ chính xác Độ hồi tƣởng Độ đo F Độ chính xác Độ hồi tƣởng Độ đo F Fold 1 89,7 90,2 89,95 Fold 6 92,43 93,45 92,93 Fold 2 94,1 95,05 94,57 Fold 7 91,3 92,67 91,98 Fold 3 96,4 96,83 96,61 Fold 8 88,35 89,45 88,89 Fold 4 93,07 94,23 93,64 Fold 9 91,5 92,11 91,80 Fold 5 94,58 96,11 95,33 Fold 10 93,32 95,01 94,15 Trung bình 92,47 93,51 92,99
Độ chính xác đạt đƣợc của thành phần phân tích câu hỏi dựa trên mơ hình CRF là khá khả quandao động từ 88,89 đến 96,61 với độ đo F. Tại một số fold kết quả đánh giá còn chƣa đạt đƣợc nhƣ ý muốn tuy nhiên việc này có thể khắc phục bằng việc tăng cƣờng thêm dữ liệu huấn luyện và một số đặc trƣng liên quan đến từ điển.
b. Thực nghiệm đánh giá hiệu quả trả lời tự động của mơ hình hỏi đáp
Trong thực nghiệm này, mơ hình hệ thống hỏi đáp tự động sẽ đƣa ra kết quả trả lời đối với 1000 câu hỏi trong tập đánh giá, hiệu quả của mơ hình đƣợc thể hiện và đánh giá thông qua bốn độ đo: độ đo chính xác (P), độ đo hồi tƣởng (R), độ đo F và trung bình thời gian trả về câu hỏi. Thời gian trung bình trả về câu hỏi sẽ đƣợc
63
tính trên trung bình thời gian trả lời 1000 câu hỏi trong tập dữ liệu đánh giá. Việc đánh giá sẽ đƣợc tiến hành trên bốn chiến lƣợc trả lời tự động:
Chiến lƣợc Baseline: chiến lƣợc này sử dụng phƣơng pháp AskMSR [BBD02] để trả lời tự động. Trong phƣơng pháp này việc trả lời tự động sẽ đƣợc thống kê dựa trên tần suất của các cụm n-gram xuất hiện trong các câu trả về từ máy tìm kiếm. Để nâng cấp kết quả của AskMSR, nghiên cứu sinh chỉ thống kê trên các cụm danh từ riêng và không sử dụng thông tin từ bƣớc nhận dạng thực thể và thuộc tính thực thể.
Chiến lƣợc KLB: trả lời dựa trên dữ liệu Wikipedia tự lƣu trữ và đánh chỉ mục (KLB).
Chiến lƣợc SEB: trả lời sử dụng máy tìm kiếm Google (đã đƣợc trình bày trong mục (c) phần 2.5.3)
Chiến lƣợc KLB+SEB: kết hợp hai ở trên chiến lƣợc trên theo cách nếu hệ thống khơng trả lời đƣợc bằng KLB thì đƣa qua SEB để giải quyết.
Kết quả đƣợc tính theo 3 mức: top 1 (hệ thống trả về câu trả lời là một thực thể duy nhất), top 3 (trả về 3 thực thể tên ngƣời có trọng số cao nhất) và top 5 (trả về 5 thực thể tên ngƣời có trọng số cao nhất). Kết quả đúng sẽ đƣợc tính nếu câu trả lời nằm trong danh sách các kết quả trả về. Bảng 2.12 trình bày các kết quả đánh giá theo các độ đo khác nhau.
Bảng 2.12. Kết quả đánh giá của hệ thống trả lời tự động
Top 1 Top 3 Top 5
T (ms) P R F P R F P R F
Baseline 62 54,36 42,13 47,47 60,19 45,59 51,88 62,78 50,12 55,74
KLB 58 79,68 55,6 65,50 89,39 60,3 72,02 90,03 60,2 72,15
SEB 28.059 71,44 90 79,65 72,18 91,3 80,62 73,17 91,7 81,39
64
KLB+SEB 11.630 74,63 87,9 80,72 79,62 89,3 84,18 80,02 91,1 85,20
Các kết quả đánh giá chỉ ra rằng các chiến lƣợc trả lời sử dụng kết quả từ pha nhận dạng thực thể và thuộc tính cho kết quả tốt hơn nhiều so với không sử dụng (chiến lƣợc Baseline), cụ thể là 65,50, 79,65, 80,72 so với 47,47 (đánh giá trên top 1). Bên cạnh đấy, có thể thấy chiến lƣợc trả lời dựa trên hệ thống tìm kiếm cho kết quả với độ chính xác khá tốt 79,65 trên độ đo F, trong khi trả lời dựa trên kho tri thức tự lƣu trữ chỉ đạt 65,50 mặc dù độ chính xác cao hơn 79,68 so với 71,44. Điều này có thể dễ dàng giải thích là do tri thức miền của các máy tìm kiếm nhƣ Google có độ phủ rộng hơn, tuy nhiên tốc độ trả lời từ các máy tìm kiếm là rất chậm (28.059ms so với 58ms) do phụ thuộc khá nhiều vào tốc độ tải dữ liệu từ mạng Internet và thời gian tiền xử lý nhƣ tách câu, tách từ, nhận dạng thực thể đối với các dữ liệu trả về.Việc đề xuất kết hợp KLB và SEB giúp khắc phục những nhƣợc điểm của cả chiến lƣợc khi đạt hiệu quả cao nhất 80,72 với độ đo F và tốc độ trả lời giảm hơn một nửa so với chiến lƣợc SEB. Các kết quả đánh giá đã thể hiện đƣợc tính đúng đắn của mơ hình đề xuất cũng nhƣ tiềm năng ứng dụng trong thực tế.
2.6. Tổng kết chƣơng
Trong chƣơng 2, luận án đã giới thiệu một mơ hình nhận dạng thực thể kết hợp với việc nhận dạng các thuộc tính liên quan đến thực thể trong tiếng Việt. Thực nghiệm đã đạt hiệu quả khả quan trên tập dữ liệu kiểm thử cho thấy tính đúng đắn của mơ hình đề xuất. Các bên quả cũng thể hiện rõ đƣợc việc đƣa ra một mơ hình kết hợp đạt kết quả tốt hơn việc nhận dạng lần lƣợt thực thể và thuộc tính thực thể trong miền dữ liệu các thực thể tiếng Việt.
Luận án cũng trình bày một mơ hình áp dụng nhận dạng thực thể vào bài toán hỏi đáp tự động tiếng Việt cho miền dữ liệu các câu hỏi về ngƣời. Mơ hình nhận dạng kết hợp nhiều nguồn tri thức từ Wikipedia và máy tìm kiếm Google cho phép trả lời chính xác đƣợc nhiều câu hỏi hơn trong khoảng thời gian cho phép.
65
Các nghiên cứu đƣợc nêu trong chƣơng này đã đƣợc tổng hợp và công bố trong các cơng trình [CTLA5, CTLA6] tại các hội nghị quốc tế có phản biện.
66