Xây dựng các luật Wrapper

Một phần của tài liệu LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT pptx (Trang 42 - 44)

Đối với các văn bản web, thông thường các thực thể “cùng loại” sẽ xuất hiện dưới cùng ngữ cảnh như trong cùng một danh sách hay trong cùng một cột, một hàng của một bảng. Ý tưởng sử dụng các luật wrapper để trích chọn ra các thực thể tương đồng đã được đề xuất dựa vào nhận xét trên và dựa vào đặc điểm bán cấu trúc của văn bản web. Hình 7 là một ví dụ về cấu trúc web thể hiện việc các thực thể “cùng loại” thường xuất hiện trong cùng ngữ cảnh.

34

Wrapper được định nghĩa là một chuỗi kí tự trong văn bản mà bao bọc các thực thể [25]. Một wrapper được xác định bởi hai chuỗi kí tự trái và phải. Đối với bài toán mở rộng thực thể, có thể xem xét hai cách để xác định các wrapper:

 Cách 1: wrapper sẽ bao tất cả các thực thể trong tập mồi mà xuất hiện trong văn bản. Các wrapper loại 1 rất ít trong các văn bản web. Do đó cách xác định wrapper khác đã được đề xuất.

 Cách 2: wrapper được xác định theo cách 2 là xâu dài nhất bao ít nhất một thể hiện của tập mồi. Nghĩa là mỗi thực thể trong tập mồi được wrapper đó bao ít nhất một lần.

Việc trích chọn các thực thể tiềm năng sử dụng wrapper dựa trên việc tìm các wrapper đã được sinh ra trong văn bản và trích chọn ra các từ, cụm từ được bao bởi wrapper đó. Phương pháp sử dụng luật wrapper không phụ thuộc vào ngôn ngữ (cả ngôn ngữ viết lẫn ngôn ngữ lập trình web). Và các wrapper được sinh ra từ trang web nào sẽ chỉ được sử dụng để tìm ra các thực thể tương đồng trong văn bản đó.

Hình 8.Ví dụ văn bản bán cấu trúc

Ví dụ với đoạn html ở hình 8, với tập seed gồm “ford”, “nissan”, “toyota”, ta có thể tìm được 1 wrapper W: SLSR là (SL: chuỗi kí tự bao bên trái; SR: chuỗi kí tự bao bên phải): SL = <td name=“car”>; SR = </td>

Sau đó sử dụng W để tìm ra được honda và acura (do “honda” và “acura” được bao bởi W).

35

Một phần của tài liệu LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT pptx (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(62 trang)