Mô hình pha 1: Hệ thống hỏi đáp danh sách

Một phần của tài liệu LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT pptx (Trang 39 - 41)

Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt

Thu thập tài liệu Trích chọn câu trả lời Từ khóa Các mẫu hyponym Các trang

web Câu trả lời

Các thực thể được trích chọn

Xếp hạng

31

Hình 6 mô tả mô hình pha 1, hệ thống hỏi đáp danh sách tiếng Việt gồm 3 bước chính đó là: (1) thu thập tài liệu, (2) trích chọn các thực thể tiềm năng và (3) xếp hạng các thực thể trích chọn được.

Đầu vào: từ khóa của câu hỏi.

Đầu ra: danh sách các kết quả đã được sắp xếp theo trọng số của chúng.

Phương pháp giải quyết: pha hỏi đáp danh sách tiếng Việt dựa vào việc sử dụng các mẫu luật quan hệ thượng hạ danh để tìm ra câu trả lời (Mục 3.2.1).

(1)Thu thập tài liệu:

Đầu vào: từ khóa của câu hỏi và các mẫu quan hệ thượng hạ danh trong tiếng Việt đã được xây dựng từ trước.

Đầu ra: tập các trang văn bản web phục vụ cho bước trích chọn câu trả lời.

Các bước tiến hành:

o Tạo truy vấn: với mỗi mẫu quan hệ thượng hạ danh, kết hợp với từ khóa để tạo câu truy vấn. Ví dụ từ khóa của câu hỏi là “động vật” và với một số mẫu như trong bảng 9, ta xây dựng được các câu truy vấn như: “Một số động vật như”, hay “các động vật như”, …

o Thu thập tài liệu: với mỗi câu truy vấn được sinh ra ở bước trên, truy vấn tới máy tìm kiếm (Google), thu thập n trang web được trả về đầu tiên bởi máy tìm kiếm (n = 100).

(2)Trích chọn các thực thể tiềm năng:

Đầu vào: tập văn bản đã được thu thập ở (1) và các mẫu luật thượng hạ danh.

Đầu ra: Các câu trả lời tiềm năng (các thực thể trích chọn được).

Phương pháp giải quyết:

o Tiền xử lý dữ liệu: Các trang web sau khi được thu thập về sẽ được qua bước tiền xử lý dữ liệu: Loại nhiễu, loại bỏ html, lấy nội dung chính của trang web, tách câu: sử dụng công cụ jvntextpro.

32

o Sau bước tiền xử lý dữ liệu sẽ thu được các câu. So khớp các mẫu luật dựa vào tập luật quan hệ thượng hạ danh và trích chọn ra các thực thể là câu trả lời tiềm năng. Ví dụ với từ khóa “động vật” và trong văn bản web có câu “Một số động vật như chó, mèo, lợn thường được nuôi trong nhà”, ta sẽ thu được các thực thể là câu trả lời tiềm năng bằng cách lấy các chuỗi được liệt kê trong câu đó: “chó”, “mèo”, “lợn thường được nuôi trong nhà”. Nhưng “lợn thường được nuôi trong nhà” sẽ bị loại bỏ vì khi trích chọn, hệ thống cũng xét ngưỡng độ dài cho các thực thể. Như vậy thu được “chó”, “mèo”.

(3)Xếp hạng các thực thể trích chọn được:

Đầu vào: Tập các thực thể là các câu trả lời tiềm năng được trích chọn sau bước (2).

Đầu ra: Danh sách các câu trả lời đã được xếp hạng.

Phương pháp giải quyết: pha hỏi đáp danh sách sử dụng phương pháp xếp hạng đơn giản, dựa vào tần suất xuất hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được theo trọng số của chúng. Lựa chọn các thực thể có trọng số lớn hơn một ngưỡng nào đó, hoặc là trả về danh sách gồm toàn bộ các thực thể đã trích chọn được và được sắp xếp theo trọng số tương ứng.

Sau khi qua hệ thống, thu được một tập danh sách câu trả lời đã được xếp hạng, n thực thể có trọng số cao nhất trong danh sách sẽ được chọn làm đầu vào cho pha 2, pha Mở rộng thực thể (n được chọn qua quá trình thực nghiệm).

Một phần của tài liệu LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT pptx (Trang 39 - 41)