Hệ thống hỏi đáp danh sách FADA

Hệ thống hỏi đáp danh sách FADA (Find All Distinct Answers) là một trong những hệ thống hỏi đáp danh sách tiêu biểu sử dụng nguồn dữ liệu web để trích chọn ra các câu trả lời. FADA hướng đến mục tiêu tìm kiếm câu trả lời đầy đủ cho câu hỏi trong hệ thống hỏi đáp danh sách. Phương pháp trong FADA được đưa ra dựa vào việc quan sát thấy rằng các câu trả lời cho câu hỏi danh sách thường xuất hiện trong cùng một danh sách hoặc bảng của một trang Web, trong khi đó thì nhiều các trang web có thể chứa thông tin về cùng một trường hợp. Phân biệt riêng hai loại này: loại thứ nhất được gọi là Trang tập hợp (Collection Page – CP) và loại hai được gọi là Trang chủ đề (Topic Page – TP). Đối với loại 1 – CP, việc cần làm là trích chọn nội dung các danh sách, các bảng từ trang web. Đối với loại 2 – TP, cần tìm các trang web riêng biệt liên quan đến các trường hợp khác nhau trong câu trả lời. FADA dựa vào kĩ thuật phân tích câu hỏi, phân cụm, phân lớp các văn bản web và trích chọn nội dung để tìm các câu trả lời riêng biệt và đáng tin cậy với độ hồi tưởng cao. Hệ thống FADA đã đạt được kết quả khá tốt khi kiểm thử với tập ngữ liệu của TREC.

Hệ thống hỏi đáp danh sách luôn hướng tới khả năng tìm được hết các kết quả tương ứng với câu hỏi để cho câu trả lời đầy đủ và chính xác. Điều này yêu cầu (1) tìm kiếm hiệu quả và đầy đủ và (2) trích chọn được hết các câu trả lời khác biệt. Để có thể tìm kiếm hiệu quả thì phương pháp biến đổi câu hỏi được sử dụng để có thể thu được các trang web cần thiết nhất. Đây là một bước quan trọng, vì nếu câu truy vấn quá chung chung thì sẽ thu được quá nhiều văn bản và hệ thống không thể có đủ tài nguyên để xử lý toàn bộ các văn bản đó. Nếu câu truy vấn lại quá cụ thể thì có thể là sẽ thu được rất ít tài liệu hoặc cũng có thể không thu được tài liệu nào hữu ích.

Các trang web được phân thành bốn loại dựa vào chức năng và đóng góp trong việc tìm kiếm danh sách trả lời: Trang tập hợp (Collection Page), trang chủ đề (Topic Page), trang thích hợp (Relevant Page) và trang không thích hợp (Irrelevant Page) như bảng 2.

Lớp trang web Mô tả

Collection Page Chứa một danh sách câu trả lời

Topic Page Trang tốt nhất thể hiện một trường hợp cho câu trả lời

Relevant Page

Liên quan đến một trường hợp của câu trả lời theo nghĩa là cung cấp sự hỗ trợ hay phản đối tới Topic Page

Irrelevant Page Không liên quan đến bất kì trường hợp nào trong câu trả lời

Dựa vào những phân tích ở trên, một mô hình để tìm câu trả lời danh sách trên dữ liệu web đã được xây dựng gồm 4 bước chính như sau:

(1)Thu thập một tập các văn bản web tốt

(2)Xác định các trang tập hợp và phân biện các trang chủ đề để làm nguồn dữ liệu chính cho việc tìm câu trả lời.

(3) Thực hiện việc phân cụm trên các trang web còn lại dựa trên độ tương đồng với các trang chủ đề riêng biệt để thiết lập các cụm tương ứng với các trường hợp riêng biệt trong câu trả lời.

(4)Trích chọn câu trả lời từ các trang tập hợp và các cụm trang chủ đề.

a. Biến đổi câu hỏi và thu thập các trang web

FADA phân tích câu hỏi để xác định các từ khóa của câu hỏi và loại câu trả lời mong muốn. Sau đó sẽ xây dựng các câu truy vấn bằng cách ghép các thành phần trích chọn được từ câu hỏi với các mẫu kinh nghiệm cho câu hỏi danh sách. FADA thực hiện cả phân tích nông và phân tích đầy đủ (sâu). Bộ phân tích nông được sử dụng là bộ trực tuyến miễn phí memory-based chunker và bộ phân tích đầy đủ được sử dụng là MINIPAR6. Quá trình phân tích truy vấn được thực hiện như sau:

http://www.cs.ualberta.ca/~lindek/minipar.htm

a) Loại bỏ các từ đầu (head words): Các từ đầu bao gồm: “who, what, when, where, which, how, how much, how many, list, name, give, providel”, v.v. b) Tìm ra chủ ngữ và bổ ngữ của các đoạn câu hỏi còn lại bằng cách phân tích

nông.

c) Lấy ra tất cả các cụm danh từ như là các mô tả tiềm năng từ các phần còn lại của câu hỏi, thường là các cụm giới từ hoặc mệnh đề.

d) Nhận dạng thực thể định danh (Named entity recognition) cho kết quả của cụm mô tả bằng cách sử dụng NEParser, một công cụ nhận dạng thực thể tên được sử dụng trong hệ thống TREC-12 (Yang và các cộng sự, 2003). Công cụ này gán các thẻ như “person”, “location”, “time”, “date”, “number”.

Sau đó xây dựng các câu truy vấn phục vụ cho việc thu thập các trang web cần thiết. Một trong những luật xây dựng câu truy vấn:

<action>?<object>?<description1>? <description2>? …<descriptionN>?

Việc chuyển câu hỏi ngôn ngữ tự nhiên ban đầu thành một câu truy vấn tốt có thể nâng cao đáng kể khả năng tìm được câu trả lời tốt. FADA sử dụng các câu truy vấn này cho các máy tìm kiếm nổi tiếng như Google, Alta Vista, Yahoo; sau đó lấy 1000 kết quả trả về đầu tiên cho mỗi truy vấn ở mỗi máy tìm kiếm. FADA lấy nhiều trang web về như vậy là để phục vụ cho mục đích có thể tìm được tất cả các câu trả lời. Thông thường sẽ có rất nhiều trang web dư thừa do thu thập từ cùng một địa chỉ liên kết. Các trang web dư thừa này sẽ bị loại bỏ dựa vào địa chỉ URL. Hệ thống cũng loại bỏ các file định dạng không phải là HTML hay văn bản và những file mà có dung lượng quá nhỏ hoặc quá lớn.

b. Phân lớp các trang web

Trong FADA, hai bộ phân lớp được huấn luyện là bộ phân lớp trang tập hợp (Collection Page classifier) phân loại các trang web vào các trang tập hợp và bộ phân lớp trang chủ đề (Topic Page classifier) phân loại các trang trong tập không phải trang tập hợp thành các trang chủ đề và loại khác. Cả hai bộ phân lớp này đều thực thi sử dụng cây quyết định C4.5 (Quinlan 1993). Vài luật quyết định như:

b) Answer_NE >= 30 -> Class CP OUT_Link <= 25 & Answer_NE <= 5 & NE > 46 -> Class TP c) OUT_Link >= 25 & URL_Depth > 3 -> Others d) NE <= 4 -> Others

c. Tìm các nguồn cho câu trả lời

Tại bước này, hệ thống lựa chọn các trang chủ đề riêng biệt dựa vào việc so sánh độ tương đồng giữa các trang chủ đề. Sau đó, xác định và chuyển các trang thích hợp (Relevant Pages) từ OtherSet vào cụm thích đáng dựa trên độ tương đồng của trang với tập mồi cụm. Mỗi cụm tương ứng với một câu trả lời riêng biệt. Trang chủ đề cung cấp cơ sở lập luận chính về câu trả lời và các trang thích hợp cung cấp tài liệu về câu trả lời đó. Theo thực nghiệm của Hui Yang và Tat-Seng Chua thì tỉ lệ trung bình phân cụm đúng là 54.1%. Bằng cách phân cụm các trang web thì đã tránh được việc trả lời dư thừa (các câu trả lời là riêng biệt) và tăng cao khả năng tìm các câu trả lời riêng biệt trong nguồn dữ liệu Web nhiều nhiễu.

d. Trích chọn câu trả lời

Tại bước này, hệ thống sẽ chuẩn hóa các văn bản html, sử dụng công cụ HtmlTidy7.

Trích chọn câu trả lời từ các trang tập hợp (CPSet): để trích chọn các câu trả lời từ các trang tập hợp cần sử dụng các luật wrapper để lấy ra được nội dung mong muốn. Sau đó các câu trả lời được đối chiếu vào tập ngữ liệu TREC AQUAINT để lấy về các câu trả lời TREC (TREC answers) (Brill và cộng sự, 2001).

Trích chọn câu trả lời từ các cụm trong TPSet: Sau khi đã hoàn thành bước phân cụm, phân tích trang chủ đề chính trong mỗi cụm. Trong trường hợp tìm được nhiều đoạn chứa các câu trả lời tiềm năng (answer candidates) khác nhau trong cùng một trang chủ đề, ta sẽ chọn câu trả lời tiềm năng từ đoạn mà có số lượng các loại thực thể tên là nhiều nhất. Câu trả lời được tìm thấy trong trang chủ đề sẽ được đối chiếu vào kho ngữ liệu hỏi đáp (Question Answering corpus) để lấy ra các câu trả lời TREC. Trong trường hợp dựa vào trang chủ đề mà không tìm thấy câu trả lời TREC thì sẽ tiếp tục phân tích trang thích hợp nhất trong cụm đó, quá trình được lặp lại cho đến khi tìm được câu trả lời có trong tập ngữ liệu TREC hoặc tất cả các trang thích hợp đã được phân tích.

Nhận xét hướng tiếp cận

Avg P Avg R Avg F1

Baseline 0.568 0.264 0.319

FADA1 (w/o outgoing pages) 0.406 0.344 0.372

FADA2 (w/ outgoing pages) 0.516 0.422 0.464

TREC-12 best run - - 0.396

Bảng 3 so sánh hiệu suất khi chạy tập kiểm thử trong TREC-12 giữa một hệ thống trả lời câu hỏi danh sách cơ bản (baseline) với FADA. Hàng baseline chính là kết quả khi chạy trên một hệ thống được sử dụng trong phần hỏi đáp tại TREC-12 (Yang, 2003). Hệ thống này mở rộng từ hướng tiếp cận truyền thống IR/NLP cho hệ hỏi đáp thông thường để áp dụng vào hệ hỏi đáp danh sách. Và đạt được độ đo F1 trung bình là 0.319 và được xếp hạng thứ 2 trong phần hỏi đáp danh sách. Hai biến thể của FADA đã được test. Một biến thể không sử dụng các trang được trỏ đến từ tập các trang tập hợp như là các trang chủ đề tiềm năng (FADA1) và một biến thể có sử dụng. Hai biến thế này được sử dụng để đánh giá hiệu quả của các trang tập hợp (CPs) trong hệ thống hỏi đáp danh sách. Với kết quả như trong bảng 3, có thể thấy rằng các trang được các trang tập hợp trỏ đến giúp nhiều cho việc tìm kiếm các câu trả lời.

Ưu điểm: đã tận dụng được đặc điểm bán cấu trúc của văn bản web. Việc tìm kiếm câu hỏi dựa vào tập văn bản web giúp cho khả năng tìm thấy câu hỏi cao hơn, bởi số lượng văn bản cũng như thông tin trên web là rất lớn.

Nhược điểm: chưa tận dụng được nội dung chính của các trang web, đây là thành phần mang thông tin nhiều nhất trong dữ liệu web. Số lượng câu trả lời cho các câu hỏi danh sách còn ít và chưa đủ. Với các câu hỏi mà khó có thể tìm thấy các kết quả trả lời trong cùng một danh sách hay bảng thì việc tìm câu trả lời là khó khăn

Hệ thống hỏi đáp Ephyra

Pha 2: Mở rộng thực thể