Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 32)

Một trong những mục tiêu khi xây dựng hệ thống hỏi đáp danh sách đó chính là khả năng trả về cho người dùng câu trả lời đầy đủ. Tuy nhiên với các phương pháp hiện nay, hầu hết chỉ trả về được danh sách chứa một số ít kết quả trả lời. Chính vì thế các nhà nghiên cứu tiếp tục tìm hiểu và đề xuất các phương pháp để nâng cao chất lượng cho hệ thống hỏi đáp danh sách.

Richard C. Wang và cộng sự [28] đã nghiên cứu việc nâng cao chất lượng cho hệ thống hỏi đáp danh sách bằng cách sử dụng phương pháp mở rộng thực thể. Hệ thống

8

24

Mở rộng thực thể nhận đầu vào là một tập gồm một số thực thể thuộc cùng một lớp hoặc một tập hợp (có một hoặc một vài đặc điểm chung) và trả về là một danh sách đã được mở rộng bao gồm các thực thể mới thuộc cùng lớp đó hoặc tập hợp đó. Các câu trả lời của hệ thống hỏi đáp danh sách thường là các thực thể thuộc cùng một lớp hoặc một tập hợp có chung tính chất. Và thông thường việc tìm kiếm nhóm hay tập hợp đó lại là cách để có thể trả về cho người dùng một câu trả lời đầy đủ hơn. Từ những phân tích đó, ý tưởng áp dụng Mở rộng thực thể cho hệ hỏi đáp danh sách đã được đề xuất. Với việc thiết kế cẩn thận để tránh các đầu vào nhiễu, hệ thống Mở rộng thực thể có thể nhận đầu ra của hệ thống hỏi đáp danh sách làm đầu vào và mở rộng cho tập câu trả lời để có thể trả về cho người dùng một câu trả lời tốt hơn là khi chỉ sử dụng hệ hỏi đáp danh sách.

Bài toán mở rộng thực thể vẫn còn là một bài toán mới, tuy nhiên, vì những tiềm năng lớn mà bài toán này hứa hẹn, cho nên hiện nay trên thế giới có nhiều nhóm nghiên cứu công bố các phương pháp khác nhau để giải quyết bài toán này. Một trong những hệ thống điển hình và nổi tiếng về mở rộng thực thể dựa trên nền web là Google Sets. Hệ thống này đã được sử dụng cho rất nhiều mục đích như thu nhận các đặc trưng cho nhận dạng thực thể (Named Entity Recognition) [4] và cho việc đánh giá các hệ thống trả lời câu hỏi [17]. Tuy nhiên, phương pháp của hệ thống này có thể được thay đổi bất cứ lúc nào, do đó kết quả nghiên cứu dựa trên Google Sets không thật sự được tin cậy [25].

R. C. Wang và W. W. Cohen đã công bố một hệ thống mở rộng thực thể dựa trên nền web là Set Expander for Any Language (SEAL); SEAL cho kết quả khá tốt. Theo đúng như tên gọi, SEAL không phụ thuộc vào ngôn ngữ của văn bản: cả ngôn ngữ viết (ví dụ, tiếng Việt) và ngôn ngữ đánh dấu (ví dụ, HTML). Hệ thống này mở rộng thực thể một cách tự động bằng cách sử dụng nguồn dữ liệu Web. Hệ thống SEAL thực hiện tốt ngay cả với một tập mồi nhỏ. Chỉ sử dụng tập mồi gồm ba đối tượng và một trăm văn bản web đầu tiên được trả về từ Google, SEAL đạt được độ chính xác trung bình là 93% (trung bình trên 36 tập dữ liệu từ ba ngôn ngữ: tiếng Anh, tiếng Trung Quốc và tiếng Nhật). Mặc dù SEAL làm việc tốt với tập mồi gồm ba hoặc bốn thực thể, nhưng lại bị hạn chế bởi số lượng thực thể trong tập mồi mà SEAL có thể xử lý được. Bảng 4 cho thấy kết quả thực thi của SEAL (tính theo Mean Average Precision – MAP và trên 36 tập dữ liệu), sử dụng 4 phương pháp đánh giá khác nhau với tập mồi gồm từ 2 cho đến 6 thực thể. Có thể thấy khi số lượng thực thể trong tập mồi nhiều hơn 5 thực thể thì kết quả thu được bắt đầu giảm

25

Để khắc phục hạn chế về số lượng thực thể trong tập mồi của SEAL, hệ thống SEAL lặp (iterative SEAL - iSEAL) đã được đề xuất. Về cơ bản, iSEAL gọi SEAL nhiều lần, mỗi lần gọi sử dụng 1 tập mồi nhỏ và thống kê được tổng hợp lại sau mỗi vòng lặp để thu được đánh giá cuối cùng.

Richard. C. Wang đã đề xuất áp dụng bài toán mở rộng thực thể đối với các kết quả cho câu hỏi danh sách từ hệ thống hỏi đáp Ephyra và các hệ thống hỏi đáp khác tại TREC để có thể tìm thêm được các kết quả cho các câu trả lời của hệ thống hỏi đáp danh sách. Hệ thống Mở rộng thực thể được thiết kế để xử lý dữ liệu đầu vào là các thực thể mồi có cùng mối quan hệ với nhau (thuộc cùng một lớp hoặc một tập hợp). Để có thể xử lý được tập đầu vào gồm các câu trả lời có thể có cả nhiễu từ hệ thống hỏi đáp, R. Wang đã đề xuất ba sửa đổi đối với hệ thống SEAL [25]:

(1)Aggressive Fetcher: thông thường, mỗi lần mở rộng, SEAL sẽ nối tất cả các thực thể trong tập mồi để tạo thành truy vấn tới máy tìm kiếm (Google, Yahoo). Tuy nhiên, khi tập mồi có nhiễu, nếu vẫn thực hiện theo cách này thì sẽ làm giảm khả năng thu thập được các tài liệu tốt (các tài liệu chứa các câu trả lời đúng). Để giải quyết vấn đề này, bộ aggressive fetcher (AF) sẽ sử dụng từng cặp hai thực thể trong tập seed để sinh câu truy vấn tới máy tìm kiếm. Ví dụ như với tập mồi có nhiễu: nokia, samsung, toyota (coi toyota là nhiễu), sử dụng AF để tạo truy vấn. Sẽ có truy vấn chỉ chứa các thực thể không phải nhiễu (bảng 6). Các tài liệu thu thập được sẽ được chuyển sang bước trích chọn để học các luật wrappers. Ranker \ #Seeds 2 3 4 5 6 Random Walk 77.1 83.9 84.5 83.7 78.9 Page Rank 74.1 82.6 83.4 83.0 78.5 Bayesian Sets 77.0 84.1 84.8 84.0 79.3 Wrapper Length 77.5 83.2 83.3 82.2 78.0 Average 76.4 83.5 84.0 83.2 78.7

26

Queries Quality

-AF #1: nokia samsung toyota Low

+AF #1: nokia samsung #2: nokia toyota #3: samsung toyota High Low Low

(2)Lenient Extractor: SEAL yêu cầu một xâu dài nhất bao bọc ít nhất một thể hiện của tập mồi mới được coi là một wrapper. Tuy nhiên, đối với tập thực thể mồi có nhiễu, thông thường sẽ khó trích chọn được wrapper trong văn bản, hoặc wrapper đó quá ngắn và không có ích để trích chọn ra các thực thể tiềm năng. Để giải quyết vấn đề này, bộ trích chọn cải tiến Lenient Extractor (LE) đã được đề xuất, LE chỉ yêu cầu một ngữ cảnh bao lấy ít nhất một thể hiện của một tập tối thiểu hai thực thể mồi, thay vì tất cả các thực thể trong tập mồi. Việc này tăng khả năng tìm được các wrapper dài nhất bao các thực thể không phải là nhiễu.

(3)Hinted Expander: hầu hết các hệ thống hỏi đáp đều sử dụng từ khóa từ câu hỏi để hỗ trợ cho việc thu thập tài liệu và tìm kiếm câu trả lời, và các từ khóa này cũng rất tốt để giúp hệ thống Mở rộng thực thể xác định được các kết quả mới tìm được thêm nào là đúng. Hinted Expander (HE) sử dụng các từ khóa trích chọn được trong câu hỏi và thêm vào cho tất cả các câu truy vấn. Như vậy sẽ tăng được khả năng thu thập được các tài liệu chứa câu trả lời cho câu hỏi.

R. Wang đã tiến hành thử nghiệm áp dụng SEAL cho các câu trả lời từ hệ thống hỏi đáp Ephyra. Các câu trả lời tìm được bởi SEAL đều là từ các văn bản web thay vì từ tập ngữ liệu AQUAINT như theo cách đánh giá của TREC. Tuy nhiên các câu trả lời được tìm thấy sẽ bị loại bỏ nếu không tìm thấy trong AQUAINT.

27

Ephyra Ephyra’s Top 4 Ans

SEAL SEAL+LE SEAL+LE + AF SEAL+LE +AF+HE TREC 13 25.95% 21.39% 23.76% 31.43% 34.22% 35.26% TREC 14 14.45% 8.71% 14.47% 17.04% 16.58% 18.82% TREC 15 13.42% 9.02% 13.17% 16.87% 17.12% 18.95% Ephyra Ephyra’s Top 4 Ans

SEAL SEAL+LE SEAL+LE + AF SEAL+LE +AF+HE TREC 13 35.74% 26.29% 30.53% 36.47% 40.08% 40.80% TREC 14 22.83% 14.05% 20.62% 22.81% 22.66% 24.88% TREC 15 22.42% 14.57% 19.88% 23.30% 24.04% 25.65%

Bảng 7 và bảng 8 thể hiện kết quả đánh giá cho tất cả các kết quả trả lời của Ephyra, bốn kết quả trả lời đầu tiên và các cách thiết lập SEAL sử dụng bốn câu trả lời đầu tiên trả về từ Ephyra làm tập mồi. Bảng 7 là kết quả độ chính xác trung bình

(Mean Average PrecisionMAP) khi sử dụng mỗi bộ dữ liệu (TREC 13, 14 và 15).

Bảng 8 là kết quả độ đo F1 trung bình khi sử dụng các ngưỡng tối ưu cho từng câu hỏi. Kết quả cho thấy SEAL đạt kết quả tốt nhất khi được thiết lập với tất cả các giải pháp mở rộng.

Tóm tắt chương 2: Trong chương 2, khóa luận đã trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về thống hỏi đáp danh sách, các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra. Đồng thời giới thiệu về nghiên cứu liên quan đến việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Phần tiếp theo, khóa luận trình bày mô hình nâng cao chất lượng kết quả câu trả lời cho hệ thống hỏi đáp danh sách. Mô hình gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể để nâng cao chất lượng cho kết quả trả lời của pha 1 (mở rộng tập kết quả trả lời).

Bảng 7. Độ chính xác trung bình (MAP) của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khác nhau. Trong đó LE là Lenient Extractor, AF là Aggressive Fetcher và HE là Hinted Expander

Bảng 8. Độ đo trung bình F1 của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khi sử dụng một ngưỡng tối ưu cho mỗi câu hỏi

28

Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt

Một trong những vấn đề khó khăn và quan trọng khi xây dựng hệ thống hỏi đáp danh sách chính là tính đầy đủ của câu trả lời (Mục 1.2.3). Nhằm giải quyết vấn đề này, nghiên cứu trong khóa luận đề xuất một phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Qua quá trình khảo sát các phương pháp được áp dụng trong nhiều hệ thống hỏi đáp, đặc biệt là các phương pháp được áp dụng trong các hệ thống hỏi đáp danh sách, cũng như tìm hiểu các phương pháp mở rộng thực thể và dựa vào những phân tích của R. Wang khi áp dụng bài toán mở rộng thực thể để nâng cao chất lượng của hệ thống hỏi đáp danh sách, đồng thời xem xét những đặc điểm của ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng hỏi đáp danh sách gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể.

Khóa luận tập trung vào việc nâng cao chất lượng cho hệ thống hỏi đáp danh sách và xây dựng một hệ hỏi đáp danh sách đơn giản để thử nghiệm. Thay vì câu hỏi dưới dạng ngôn ngữ tự nhiên, pha 1 sẽ nhận đầu vào là từ khóa của câu hỏi (Mục 1.2.3), đầu ra tương ứng là một danh sách các kết quả đã được sắp xếp theo trọng số của chúng. Pha 2 nhận đầu vào là một số các kết quả có trọng số cao nhất có được ở đầu ra của pha 1, pha này có nhiệm vụ tìm thêm các thực thể để bổ sung vào cho danh sách câu trả lời. Hình 4 mô tả mô hình chung của hệ thống sử dụng trong khóa luận. Chi tiết hoạt động của từng pha sẽ được trình bày ở các phần tiếp theo.

Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong hệ thống hỏi đáp danh sách tiếng Việt

Pha 1: HỎI ĐÁP DANH SÁCH Pha 2: MỞ RỘNG THỰC THỂ Câu trả lời Câu trả lời sau khi đã được mở rộng Từ khóa

29

3.2. Pha 1: Hỏi đáp danh sách tiếng Việt

3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh

Khái niệm quan hệ thượng hạ danh: quan hệ thượng hạ danh (hyponym) là quan hệ giữa hai từ, trong đó một từ luôn bao gồm nghĩa của từ kia nhưng không ngược lại [30].

Hình 5 là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”, “hoa hướng dương”, “hoa cúc”, ….

Thông thường các thực thể trong cùng một tập hợp sẽ có một hoặc một vài điểm chung. Hay nói cách khác, ta có thể gán cho tập hợp một cái tên. Ví dụ như một tập gồm “khỉ”, “mèo”, “gà” ta có thể gán đây là tập “động vật”, đây cũng chính là đặc điểm chung của tập hợp này. Như đã phân tích trong phần “Xác định từ khóa câu trả lời” (1.2.3): các từ khóa trong câu hỏi của hệ thống hỏi đáp danh sách sẽ chỉ ra đặc điểm chung của tập kết quả trả lời mong đợi. Các thực thể này thường xuất hiện gần với cụm từ mô tả đặc điểm chung của chúng, ví dụ như “Một số động vật như bò, lợn gà, …”, do đó có thể sử dụng các luật để trích chọn ra các thực thể, trong ví dụ này là “bò”, “lợn”, “gà”. Như vậy, một phương pháp để tìm được câu trả lời cho hệ thống hỏi đáp danh sách dựa vào quan hệ thượng hạ danh của từ khóa trong câu hỏi.

Giả sử đã có từ khóa của câu hỏi, hệ thống sẽ xây dựng các câu truy vấn dựa vào từ khóa đó và các mẫu luật thượng hạ danh đã được xây dựng từ trước. Các câu truy vấn sẽ được đưa vào máy tìm kiếm để thu thập các tài liệu văn bản web tương ứng, thông thường sẽ thu thập 100 trang web được trả về đầu tiên bởi máy tìm kiếm. Sau đó bằng các kỹ thuật so khớp mẫu và xử lý xâu chuỗi, ta có thể trích chọn ra được các thực thể tiềm năng. Bằng cách sử dụng phương pháp xếp hạng dựa vào tần suất xuất

Hình 5. Ví dụ về quan hệ thượng hạ danh.

là Hoa

Hoa hồng

Hoa hướng dương

30

hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được theo trọng số của chúng. Bằng việc lựa chọn các thực thể có trọng số lớn hơn một ngưỡng xác định trước, ta thu được một danh sách các thực thể, là danh sách câu trả lời cho câu hỏi tương ứng.

Bảng 9 liệt kê một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt tương ứng. Các mẫu trong tiếng Việt được xây dựng dựa trên việc tham khảo các mẫu thể hiện quan hệ thượng hạ danh trong tiếng Anh mà Hearst [20] đã đề xuất và dựa vào việc tìm hiểu miền dữ liệu tiếng Việt. Trong đó <C> thể hiện vị trí của tên lớp, tên tập hợp (từ khóa) và <I> thể hiện vị trí của các thực thể trong quan hệ thượng hạ danh của các <C> đó.

Tiếng Anh Tiếng Việt

<C> such as <I> một số <C> như <I> such <C> as <I> các <C> như <I> <C> i.e. <I> <C> nghĩa là <I> <C> e.g. <I> <C> ví dụ như <I> <C> include <I>

<C> bao gồm <I> <C> including <I>

<I> and other <C> <I> và các <C> khác <I> or other <C> <I> hoặc các <C> khác

3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách

Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt

Thu thập tài liệu Trích chọn câu trả lời Từ khóa Các mẫu hyponym Các trang

web Câu trả lời

Các thực thể được trích chọn

Xếp hạng

31

Hình 6 mô tả mô hình pha 1, hệ thống hỏi đáp danh sách tiếng Việt gồm 3 bước chính đó là: (1) thu thập tài liệu, (2) trích chọn các thực thể tiềm năng và (3) xếp hạng các thực thể trích chọn được.

Đầu vào: từ khóa của câu hỏi.

Đầu ra: danh sách các kết quả đã được sắp xếp theo trọng số của chúng.

Phương pháp giải quyết: pha hỏi đáp danh sách tiếng Việt dựa vào việc sử dụng các mẫu luật quan hệ thượng hạ danh để tìm ra câu trả lời (Mục 3.2.1).

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 32)

Tải bản đầy đủ (PDF)

(62 trang)