Đánh giá thực nghiệm

Bảng 4.2. Việc sử dụng các đặc điểm ontology của từ WordNet để biểu diễn truy vấn và tài liệu

Trong phần này, luận án tiến hành thực nghiệm để so sánh hiệu quả truy hồi tài liệu của mô hình WN+KW đề xuất với các mô hình liên quan cũng khai thác từ WordNet kết hợp với từ khóa. Nhƣ trình bày ở Bảng 4.2, các nhóm mô hình liên quan được ký hiệu là Group_1 và Group_2, tương ứng với các nhóm công trình liên quan đã khảo sát ở Bảng 4.1, dựa trên cách khai thác các đặc điểm ontology của từ WordNet.

Tương tự như với mô hình WN+KW, mô hình không gian vectơ được sử dụng để hiện thực hai nhóm mô hình Group_1 và Group_2, và từ WordNet và từ khóa đƣợc xem là thuật ngữ tổng quát để biểu diễn truy vấn và tài liệu. Trong đó, Group_1 chỉ sử dụng nhãn còn Group_2 chỉ sử dụng nghĩa để biểu diễn từ WordNet trong truy vấn và tài

Nhóm công trình liên quan Mô hình của luận án

Group_1 Group_2 WN+KW

Nhãn x

Nghĩa x x

Cặp Nhãn-Nghĩa x

Mô hình Đặc điểm

liệu. So với Group_2, mô hình WN+KW của luận án khai thác và sử dụng thêm cặp nhãn-nghĩa của từ WordNet trong trường hợp một từ WordNet có nhiều hơn một nghĩa trong ngữ cảnh xem xét. Cụ thể là:

1. Lexical: là mô hình không gian vectơ dựa trên từ khóa truyền thống đƣợc hiện thực trong Lucene, như ở Chương 3.

2. Group_1: ở nhóm mô hình này, với mỗi từ WordNet, nếu từ này ở truy vấn thì nó đƣợc biểu diễn bởi nhãn xuất hiện trong truy vấn, nếu từ này ở tài liệu thì nó đƣợc biểu diễn bằng tập đồng nghĩa của từ này. Các từ không đƣợc xác định là từ WordNet đƣợc xem là từ khóa.

3. Group_2: ở nhóm mô hình này, với mỗi từ WordNet có nghĩa s, nếu từ này ở truy vấn thì nó đƣợc biểu diễn bằng s, nếu từ này ở tài liệu thì nó sẽ đƣợc biểu diễn bằng s và hypernym(s). Các từ không đƣợc xác định là từ WordNet đƣợc xem là từ khóa.

Tương tự như ở Chương 3, chúng tôi chọn tập tài liệu L.A. Times của TREC để tiến hành thực nghiệm hiệu quả truy hồi của các mô hình ở trên. Tiếp theo, chúng tôi chọn các truy vấn của Adhoc-Track-99 có tài liệu liên quan thuộc tập L.A. Times. Có 44 truy vấn trong tổng số 50 truy vấn của Adhoc-Track-99 đƣợc chọn. Mỗi truy vấn đầy đủ có 3 phần: tiêu đề (title), mô tả (description) và tường thuật (narrative). Trong đó, phần tiêu đề đƣợc sử dụng làm truy vấn ở phần lớn ở các công trình truy hồi tài liệu dựa trên từ WordNet mà chúng tôi tham khảo đến nhƣ [32], [34], [21] và [36].

Thêm vào đó, phần tiêu đề có số từ ít và có dạng tương tự như các truy vấn thường sử dụng của người dùng. Vì thế phần tiêu đề của các truy vấn thuộc Adhoc-Track-99 được sử dụng làm truy vấn trong tất cả các thí nghiệm của chương này.

Các giá trị trong Bảng 4.3, Bảng 4.4 và các đường cong ở Hình 4.4 thể hiện các độ chính xác và độ F trung bình của bốn mô hình Lexical, Group_1, Group_2 và WN+KW tại mười một điểm đầy đủ chuẩn. Bảng 4.5 trình bày các độ MAP của các mô hình này và Bảng 4.6 là kết quả kiểm định ý nghĩa thống kê theo phương pháp Fisher. Các kết quả này cho thấy mô hình WN+KW thật sự hiệu quả hơn ba mô hình còn lại, mà đặc biệt là việc sử dụng thêm cặp nhãn-nghĩa đã giúp cải thiện hiệu quả truy hồi so với các mô hình khai thác các đặc điểm ontology của từ WordNet trước đây. Các đường cong P-R và F-R của mô hình WN+KW đều nằm trên các đường cong

tương ứng của ba mô hình kia. Ở độ MAP, mô hình WN+KW hiệu quả hơn so với các mô hình Lexical, Group_1 và Group_2 lần lƣợt là 30%, 19,7% và 14,9%.

Bảng 4.3. Các độ chính xác tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2 và WN+KW

Độ đo Mô hình Độ đầy đủ (%)

0 10 20 30 40 50 60 70 80 90 100

Độ chính xác (%)

Lexical 51,2 40,1 34,3 27,0 24,4 21,4 17,6 15,2 13,0 11,1 9,6 Group_1 51,3 42,4 35,8 30,8 27,2 23,2 20,0 16,9 14,2 12,3 11,4 Group_2 57.8 45.7 39.3 33.7 29.5 24.5 18.3 15.4 12.9 11.4 10.2 WN+KW 61,1 50,5 44,1 38,6 34,9 28,3 21,7 18,9 14,9 13,1 11,9

Bảng 4.4. Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2 và WN+KW

Độ đo Mô hình Độ đầy đủ (%)

0 10 20 30 40 50 60 70 80 90 100

Độ F (%)

Lexical 0 13,5 19,7 21,1 22,0 22,4 20,2 18,1 16,4 14,2 12,2 Group_1 0 13,4 20,2 22,9 24,0 23,7 22,1 19,3 17,4 15,1 14,1 Group_2 0 13.6 20.8 23.8 24.9 24.0 20.2 18.0 15.7 13.9 12.5 WN+KW 0 14,4 22,3 26,3 28,5 27,3 23,4 21,1 17,3 15,3 13,8

Bảng 4.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2 và WN+KW

Mô hình WN+KW Lexical Group_1 Group_2 MAP 0,2866 0,2204 0,2395 0,2494

Độ cải thiện 30% 19,7% 14,9%

Bảng 4.6. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2

Mô hình A Mô hình B |MAP(A) – MAP(B)|

N– N+ Trị số p hai chiều

WN+KW

Lexical 0,0662 2.079 2.060 0,04139 Group_1 0,0471 2.471 2.427 0,04898 Group_2 0,0372 2.486 2.472 0,04958

Hình 4.4. Các đường cong P-R và F-R trung bình của các mô hình Lexical, Group_1, Group_2 và WN+KW

Các độ khác biệt ở độ chính xác trung bình của từng truy vấn giữa mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2 đƣợc thể hiện trong Hình 4.5. Cụ thể là, trong 44 truy vấn, mô hình WN+KW có số truy vấn có độ chính xác trung bình lớn hơn, bằng và nhỏ hơn so với mô hình Lexical lần lƣợt là 24, 4 và 16; so với mô hình Group_1 lần lƣợt là 31, 2 và 11; và so với mô hình Group_2 lần lƣợt là 11, 31 và 2.

Tiếp theo, luận án khảo sát một số truy vấn điển hình trong tập Adhoc-Track-99 mà với chúng mô hình WN+KW có hiệu quả truy hồi hơn hoặc bằng mô hình Lexical, nhƣ đƣợc trình bày trong Bảng 4.7. Sau đây là các truy vấn, biểu diễn của chúng trong hai mô hình và sự phân tích của luận án.

Bảng 4.7. Các độ chính xác trung bình của các mô hình Lexical và WN+KW trên các truy vấn điển hình

Mô hình Độ chính xác trung bình

a b c d

Lexical 0,3500 0,1061 0,4818 0,5165 WN+KW 0,5062 0,1889 0,4818 0,4582

Các đường cong F-R trung bình

Độ đầy đủ (%)

Độ F (%)

Các đường cong P-R trung bình

Độ chính xác (%)

Độ đầy đủ (%)

Hình 4.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình của mô hình WN+KW so với các mô hình Lexical, Group_1 và Group_2 Truy vấn a. “recycle, automobile tires”.

Lexical: recycle OR automobile OR tire

WN+KW: #recycle-verb OR #automobile-noun OR #tire-noun

Ở truy vấn này, mô hình WN+KW có độ chính xác trung bình lớn hơn mô hình Lexical. Đó là do các từ đồng nghĩa với từ “automobile” trong các tài liệu. Cụ thể là

“car” và “automobile” là hai từ có cùng một nghĩa #automobile-noun, và một số tài liệu liên quan với truy vấn có chứa từ “car” nhƣng không chứa từ “automobile”. Vì

Sự so sánh giữa WN+KW và Group_1

Độ khác biệt về độ chính xác trung bình Độ khác biệt về độ chính xác trung bình

Sự so sánh giữa WN+KW và Lexical

Thứ tự của truy vấn trong tập kiểm tra Thứ tự của truy vấn trong tập kiểm tra

Thứ tự của truy vấn trong tập kiểm tra

Độ khác biệt về độ chính xác trung bình

Sự so sánh giữa WN+KW và Group_2

thế, các tài liệu liên quan này không đƣợc trả về cho truy vấn với mô hình Lexical nhƣng có trả về cho truy vấn với mô hình WN+KW.

Truy vấn b. “railway accidents”.

Lexical: railway OR accident

WN+KW: <railway, #entity-noun> OR <accident, #occurrence-noun>

Ở truy vấn này, từ railway có hai nghĩa là hệ thống xe lửa (với các từ đồng nghĩa là “railway”, “railroad”, “railroad line”, “railway system”) và đường ray xe lửa (với các từ đồng nghĩa là “railway”, “railroad”, “railroad track”). Từ “accident” cũng có hai nghĩa là tai nạn và sự việc xảy ra tình cờ (có từ đồng nghĩa là “fortuity”). Các nghĩa này đều phù hợp với ngữ cảnh của truy vấn. Do đó, ở mô hình WN+KW, hai từ này đƣợc biểu diễn bởi nhãn kết hợp với msc_hypernym của hai nghĩa của nó. Trong khi đó, mô hình Lexical chỉ so khớp các từ ở dạng chúng xuất hiện trong truy vấn hoặc tài liệu. Do đó, với truy vấn này, mô hình WN+KW có hiệu quả truy hồi cao hơn mô hình Lexical.

Truy vấn c. “osteoporosis”.

Lexical: osteoporosis

WN+KW: #osteoporosis-noun

Ở truy vấn này, hai mô hình có độ chính xác trung bình tương tự nhau vì

“osteoporosis” không có bất kỳ từ đồng nghĩa nào khác. Bên cạnh đó, “osteoporosis”

có một nghĩa con duy nhất là “dowager's hump” (từ này cũng không có đồng nghĩa) và nghĩa con này xuất hiện trong các tài liệu có chứa từ “osteoporosis” nhiều hơn trong các tài liệu khác nên không làm thay đổi thứ hạng của các tài liệu đƣợc trả về có liên quan với truy vấn.

Truy vấn d. “child labor”

Lexical: child OR labor

WN+KW: #child-noun OR #labor-noun

Ở truy vấn này, mô hình Lexical có độ chính xác trung bình lớn hơn mô hình WN+KW. Đó là do, trong các tài liệu liên quan với truy vấn, có một tài liệu có chứa cả từ “child” và từ “labor” nhƣng chỉ có từ “labor” đƣợc xác định nghĩa giống ở truy vấn, còn từ “child” đƣợc xác định bởi một nghĩa khác với nghĩa ở truy vấn. Điều này làm

giảm giá trị xếp hạng của tài liệu liên quan này và dẫn đến nó được xếp phía dưới trong danh sách các tài liệu trả về trong mô hình WN+KW so với mô hình Lexical.

Các công trình liên quan