0
Tải bản đầy đủ (.pdf) (62 trang)

Pha 2: Mở rộng thực thể

Một phần của tài liệu PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT (Trang 41 -42 )

Pha 2 nhận đầu vào là n kết quả có trọng số cao nhất trong danh sách các kết quả được trả về từ pha 1, pha hỏi đáp danh sách. Pha 2 có nhiệm vụ tìm thêm các thực thể tương đương với các thực thể đầu vào để bổ sung vào cho danh sách câu trả lời, đây chính là nội dung của bài toán Mở rộng thực thể.

Giới thiệu bài toán Mở rộng thực thể: Mở rộng thực thể nghĩa là từ một tập mồi gồm một số lượng ít các thực thể, tìm ra được một tập thực thể cùng loại lớn hơn và hoàn chỉnh hơn. Các thực thể “cùng loại” ở đây được hiểu là các thực thể có chung một hoặc một vài đặc điểm với nhau. Đầu vào của hệ thống mở rộng thực thể là một

33

tập mồi gồm một số thực thể. Từ tập thực thể mồi, hệ thống tạo ra các câu truy vấn cho các máy tìm kiếm để nhận được tập các trang web; tập trang web này được hệ thống xử lý để tìm ra các thực thể mới. Quá trình xử lý cho ra một tập thực thể mới, cùng loại với các thực thể mồi được bổ sung vào tập thực thể ban đầu. Việc giải quyết bài toán này có thể được xem xét bao gồm 3 pha chính:

1. Fetcher: Sử dụng máy tìm kiếm để lấy về một số lượng trang web nhất định nào đó (theo yêu cầu và khả năng của hệ thống), trong đó mỗi trang phải chứa tất cả các thực thể có trong tập mồi.

2. Extractor: Xây dựng các mẫu để trích chọn ra các thực thể tiềm năng. 3. Ranker: sử dụng một số các giải thuật xếp hạng để đánh giá các từ, cụm từ

“có tiềm năng” đã tìm được ở bước trên theo độ tương đồng với tập thực thể mồi ban đầu.

Phần 3.3.1 và 3.3.2 sẽ trình bày về cơ sở lý thuyết xây dựng pha 2, pha Mở rộng thực thể.

Một phần của tài liệu PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT (Trang 41 -42 )

×