Khảo sát các cách kết hợp thực thể có tên và từ khóa
Nhƣ đã trình bày và phân tích ở Phần 3.3, mô hình đa không gian vectơ cho thực thể có thể có chồng lấp hoặc không có chồng lấp dữ liệu khi biểu diễn truy vấn. Thêm vào đó, việc kết hợp thực thể có tên và từ khóa có thể đƣợc thực hiện thông qua việc kết hợp mô hình đa không gian vectơ cho thực thể và mô hình không gian vectơ cho từ khóa, hoặc thông qua mô hình thuật ngữ tổng quát, nhƣ đã trình bày ở Phần 3.4. Cụ thể là luận án đánh giá các mô hình sau đây:
1. Lexical: là mô hình không gian vectơ dựa trên từ khóa truyền thống đƣợc hiện thực trong Lucene.
2. NEo: là mô hình đa không gian vectơ dựa trên thực thể có tên có chồng lấp dữ liệu, nhƣ trình bày ở Phần 3.3.
3. NEn: là mô hình đa không gian vectơ dựa trên thực thể có tên không có chồng lấp dữ liệu, nhƣ trình bày ở Phần 3.3.
4. NEoKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách hợp hai tập tài liệu trả về của hai mô hình NEo và KW, nhƣ trình bày ở Phần 3.4.
5. NEoKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách giao hai tập tài liệu trả về của hai mô hình NEo và KW, nhƣ trình bày ở Phần 3.4.
6. NEnKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách hợp hai tập tài liệu trả về của hai mô hình NEn và KW, nhƣ trình bày ở Phần 3.4.
Văn bản thô
Truy vấn q: "Who is the president of Stanford University?"
Mô hình NE+KW+Wh
Túi thuật ngữ tổng quát biểu diễn truy vấn q:
q = {(*/Person/*), president, (*/*/University_T.52)}
7. NEnKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách giao hai tập tài liệu trả về của hai mô hình NEn và KW, nhƣ trình bày ở Phần 3.4.
8. NE+KW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách hợp nhất và xem các thuật ngữ ontology của thực thể có tên và từ khóa là các thuật ngữ tổng quát, nhƣ trình bày ở Phần 3.4.
Các mô hình trên đƣợc thực nghiệm trên tập TIME. Hầu hết các truy vấn (80 trong số 83) của tập TIME không chứa từ để hỏi. Do đó luận án không áp dụng việc ánh xạ từ để hỏi đến lớp của thực thể có tên trong mô hình NE+KW khi thực nghiệm trên tập TIME. Việc ánh xạ từ để hỏi này sẽ đƣợc kiểm tra trên tập TREC ở phần sau.
Để kiểm tra xem sự hơn thua về độ MAP của các mô hình có phải là tình cờ hay không, phương pháp kiểm định ngẫu nhiên Fisher được áp dụng cho tất cả các thí nghiệm của luận án với số hoán vị là 100.000 nhƣ đã nêu ở Phần 2.7 và ngƣỡng của trị số p hai chiều là 0,05.
Bảng 3.3. Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW
Độ đo Mô hình Độ đầy đủ (%)
0 10 20 30 40 50 60 70 80 90 100
Độ chính xác (%)
Lexical 74,0 74,0 73,4 70,9 68,8 65,8 58,4 55,0 53,3 50,9 49,9 NEo 70,7 70,1 68,7 66,0 65,1 63,7 60,3 56,5 55,5 53,8 53,7 NEn 71,0 69,7 69,0 66,1 64,7 63,7 59,4 56,6 54,7 53,1 52,9 NEoKW 80,2 79,9 79,0 76,0 75,7 74,9 68,0 62,7 61,5 59,4 59,1 NEoKW 78,8 78,5 77,6 74,7 74,4 73,6 67,4 62,4 61,4 60,2 59,9 NEnKW 81,2 81,0 80,1 76,9 76,2 74,9 68,8 63,5 61,0 59,3 58,9 NEnKW 79,8 79,6 78,7 75,4 74,8 73,6 67,7 62,4 60,1 59,1 58,7 NE+KW 82,7 82,3 81,0 78,8 77,0 75,2 71,4 69,1 67,0 63,9 63,2
Bảng 3.3 và Bảng 3.4 lần lƣợt trình bày các độ chính xác trung bình và các độ F trung bình của các mô hình tại mỗi độ đầy đủ chuẩn. Các độ MAP đƣợc thể hiện ở Bảng 3.5 cho thấy mô hình dựa hoàn toàn trên thực thể có tên và mô hình dựa hoàn toàn trên từ khóa có sự khác biệt chút ít ở độ MAP, và độ MAP của hai mô hình này thấp hơn đáng kể so với độ MAP của các mô hình kết hợp thực thể có tên và từ khóa.
Trong đó mô hình NE+KW có độ MAP cao nhất, với các mức độ cải thiện đáng kể so với các mô hình còn lại.
Bảng 3.4. Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW
Độ đo Mô hình Độ đầy đủ (%)
0 10 20 30 40 50 60 70 80 90 100
Độ F (%)
Lexical 0 16,2 28,5 37,9 45,4 50,7 51,8 53,6 55,9 56,7 58,2 NEo 0 16,2 28,2 37,2 44,6 50,2 53,2 55,0 58,0 59,6 62,1 NEn 0 16,2 28,
2
37,0 44,2 49,9 52,4 54,8 57,1 58,5 60,9 NEoKW 0 16,9 30 40,1 48,6 55,5 57,9 59,6 62,6 64,5 67,2 NEoKW 0 16,6 29,4 39,4 47,8 54,6 57,6 59,6 62,8 65,5 68,3 NEnKW 0 17,0 30,1 40,2 48,7 55,6 58,1 59,8 62,0 63,9 66,5 NEnKW 0 16,6 29,5 39,4 47,8 54,6 57,3 59,0 61,4 64,0 66,6 NE+KW 0 16,9 30,2 40,7 49,0 55,4 59,5 63,1 66,2 67,4 70,1
Bảng 3.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, NEo, NEn và NE-KW
Mô hình NE+KW Lexical NEo NEn NEoKW NEoKW NEnKW NEnKW MAP 0,7252 0,6167 0,6038 0,6039 0,692 0,6743 0,6977 0,681
Độ cải thiện 17,6% 20,1% 20,1% 4,8% 7,5% 3,9% 6,5%
Bảng 3.6 thể hiện các trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Frisher giữa mô hình NE+KW với các mô hình khác. Luận án chọn mô hình NE+KW không chỉ bởi vì độ MAP cao nhất của nó, mà còn bởi tính đơn giản và tính đồng nhất của nó so với các mô hình đa không gian vectơ. Các kết quả cho thấy mô hình NE+KW thực sự hiệu quả hơn các mô hình Lexical, NEo và NEn (do các trị số p hai chiều tương ứng nhỏ hơn 0,05). Cụ thể là với độ MAP, mô hình NE+KW thực sự hiệu quả hơn mô hình Lexical khoảng 17,6%. Trong khi đó mô hình NE+KW có hiệu quả tương đương với các mô hình NEoKW, NEoKW, NEnKW, và NEnKW (do các trị số p hai chiều tương ứng lớn hơn 0,05). Điều này có thể được giải thích là ở mô hình NE+KW, tên, lớp, cặp tên-lớp, và định danh của thực thể có tên đƣợc đối xử nhƣ
nhau, tương ứng với các trọng số giống nhau của các vectơ thành phần trên các không gian N, C, NC, và I ở các mô hình NEoKW, NEoKW, NEnKW, và NEnKW.
Bảng 3.6. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình khác
Mô hình A Mô hình B |MAP(A) – MAP(B)|
N– N+ Trị số p hai chiều
NE+KW
Lexical 0,1085 0 5 0,00005
NEo 0,1214 0 16 0,00016
NEn 0,1213 1 12 0,00013
NEoKW 0,0332 2.177 15.295 0,17472
NEoKW 0,0509 769 6.297 0,07066
NEnKW 0,0275 7.977 25.059 0,33036 NEnKW 0,0442 3.512 12.327 0,15839
Các độ MAP xấp xỉ nhau của hai mô hình NEo và NEn chứng tỏ sự hợp lý của việc lấy giao hoặc hợp các tập tài liệu trả về của các truy vấn thành phần, tuỳ theo đó là mô hình chồng lấp hoặc không chồng lấp, nhƣ luận án đã phân tích và đề xuất ở Phần 3.3. Trong khi đó, các độ MAP xấp xỉ nhau của các mô hình NEoKW, NEoKW, NEnKW và NEnKW cho thấy việc lấy giao hay hợp tập tài liệu thoả mãn biểu thức Bool của các từ khoá và tập tài liệu thoả mãn biểu thức Bool của các thực thể có tên trong truy vấn, nhƣ trình bày ở Phần 3.4, là không quan trọng và cho hiệu quả tương đương nhau.
Ở một phương pháp đánh giá khác, Hình 3.8 minh họa các đường cong P-R trung bình và F-R trung bình của các mô hình Lexical, NEn, và NE+KW. Ở hình này, hai đường cong của mô hình NEn nằm ở các vị trí xấp xỉ với hai đường cong tương ứng của mô hình Lexical, và hai đường cong của mô hình NE+KW nằm ở phía trên của bốn đường cong tương ứng của hai mô hình Lexical và NEn. Như thế, hiệu quả của hai mô hình NEn và Lexical là tương đương nhau, và đều thấp hơn mô hình NE+KW.
Hình 3.8. Các đường cong P-R và F-R trung bình của các mô hình Lexical, NEn, và NE+KW
Hình 3.9. Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình NE+KW với hai mô hình Lexical và NEn
Bên cạnh đó, Hình 3.9 thể hiện các độ khác biệt ở độ chính xác trung bình của từng truy vấn giữa mô hình NE+KW với các mô hình Lexical và NEn trong 83 truy vấn. Ở hình này, mỗi điểm tƣợng trƣng cho một so sánh của hai mô hình về độ chính xác trung bình trên một truy vấn. Nếu điểm đó nằm phía trên trục hoành của đồ thị, tức là có độ khác biệt dương, thì ở truy vấn tương ứng mô hình NE+KW có độ chính xác
Độ F (%)
Độ đầy đủ (%)
Các đường cong F-R trung bình Các đường cong P-R trung bình
Độ chính xác (%)
Độ đầy đủ (%)
Thứ tự của truy vấn trong tập TIME
Sự so sánh giữa NE+KW và NEn
Độ khác biệt về độ chính xác trung bình
Thứ tự của truy vấn trong tập TIME
Độ khác biệt về độ chính xác trung bình
Sự so sánh giữa NE+KW và Lexical
trung bình lớn hơn mô hình Lexical hoặc NEn. Ngƣợc lại, độ khác biệt âm nghĩa là NE+KW có độ chính xác trung bình nhỏ hơn mô hình Lexical hoặc NEn. Cụ thể là, số các truy vấn mà mô hình NE+KW có độ chính xác trung bình lớn hơn, bằng và nhỏ hơn so với mô hình Lexical lần lƣợt là 41, 25 và 17. Số các truy vấn mà mô hình NE+KW có độ chính xác trung bình lớn hơn, bằng và nhỏ hơn so với mô hình NEn lần lƣợt là 36, 27 và 20.
Với tính hiệu quả và tính hợp nhất nêu trên, mô hình tổng quát NE+KW đƣợc chọn là tiêu biểu cho các mô hình kết hợp thực thể có tên và từ khóa NE-KW của luận án. Tuy nhiên, các mô hình đa không gian vectơ NEKW và NEKW vẫn hữu ích cho việc gom cụm các tài liệu vào một hệ thống phân cấp bằng cách sử dụng một trong bốn vectơ thành phần dựa trên thực thể có tên nhƣ trình bày ở các Phần 3.3 và 3.4 ([43]). Ví dụ với một tập tài liệu về địa lý cho trước, chúng có thể được gom cụm vào nhóm tài liệu về sông hoặc núi; đây là gom cụm theo lớp của thực thể. Tiếp theo, các tài liệu trong nhóm sông có thể đƣợc phân loại vào trong các nhóm nhỏ hơn nhƣ các con sông cụ thể; đây là gom cụm theo định danh của các thực thể. Một ứng dụng ví dụ khác là người dùng có thể muốn lọc các tài liệu về các thực thể có tên Sài gòn bằng cách gom cụm chúng theo tên của thực thể. Các tài liệu trong nhóm này có thể đƣợc gom cụm tiếp theo vào các nhóm con nhƣ Thành phố Sài gòn, Sông Sài gòn, hoặc Chợ Sài gòn bằng cách gom cụm chúng theo lớp của thực thể.
Một ƣu điểm khác trong việc phân biểu diễn của tài liệu vào trong bốn vectơ thành phần là việc tìm kiếm và so trùng chỉ cần đƣợc thực hiện trên các vectơ thành phần có liên quan tới một truy vấn nhất định. Ví dụ với truy vấn tìm kiếm các tài liệu nói về các thủ đô trên thế giới thì chỉ có các lớp của thực thể có tên cần đƣợc xem xét, tức là chỉ sử dụng vectơ thành phần lớp của các tài liệu trong việc so khớp với vectơ thành phần lớp tương ứng của truy vấn này.
Khảo sát ảnh hưởng của các đặc điểm ontology của thực thể có tên
Nhƣ đã đề cập đến và phân tích trong Phần 3.1 và mở đầu của Phần 3.3, các đặc điểm ontology của thực thể có tên nhƣ tên, lớp, cặp tên-lớp và định danh cần đƣợc nghiên cứu và khai thác. Vì thế trong phần này, luận án thực nghiệm và so sánh hiệu
Đặc điểm Mô hình
quả truy hồi tài liệu của việc sử dụng các đặc điểm ontology khác nhau để biểu diễn truy vấn và tài liệu.
Bảng 3.7 trình bày việc khai thác các đặc điểm ontology khác nhau của thực thể có tên để biểu diễn truy vấn và tài liệu của các nhóm công trình liên quan và nhóm mô hình của luận án. Các nhóm mô hình liên quan đƣợc ký hiệu là Group_1, Group_2 và Group_3, tương ứng với các nhóm công trình liên quan được khảo sát ở Bảng 3.1.
Nhóm mô hình của luận án gồm hai mô hình là NE+KW+notID và NE+KW.
Bảng 3.7. Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn truy vấn và tài liệu
Nhóm công trình liên quan Nhóm mô hình của luận án Group_1 Group_2 Group_3 NE+KW+notID NE+KW
Tên x x x x
Lớp x x x x
Cặp Tên-Lớp x x
Định danh x
Tương tự như mô hình tổng quát NE+KW, các nhóm mô hình Group_1, Group_2, Group_3 và NE+KW+notID có cùng các đặc điểm là: (1) xem thực thể có tên và từ khóa là thuật ngữ tổng quát; (2) cụm từ không đƣợc nhận diện là thực thể có tên sẽ đƣợc xem nhƣ là từ khóa; và (3) sử dụng mô hình không gian vectơ để biểu diễn truy vấn và tài liệu. Tuy nhiên, khác với mô hình NE+KW, Group_1 chỉ sử dụng tên, Group_2 chỉ sử dụng lớp và xem tên của thực thể nhƣ từ khóa, Group_3 chỉ sử dụng tên và lớp một cách riêng lẻ, và NE+KW+notID chỉ sử dụng tên, lớp và cặp tên-lớp, mà không sử dụng định danh thực thể. Mô hình NE+KW+notID đƣợc đề xuất thực nghiệm vì nó có thể đƣợc xem là mô hình trung gian giữa các mô hình Group_1, Group_2 và Group_3 với mô hình NE+KW trong việc khai thác các đặc điểm ontology của thực thể có tên. Cụ thể là:
1. Với mỗi thực thể có bộ ba đầy đủ (n/c/id) trong một truy vấn q, các thuật ngữ sau đây sẽ đƣợc sẽ bổ sung vào túi thuật ngữ tổng quát biểu diễn q, tuỳ theo từng nhóm mô hình:
- Group_1: (n/*/*)
- Group_2: (*/c/*) và từ khóa n
- Group_3: (n/*/*) và (*/c/*) - NE+KW+notID: (n/c/*) - NE+KW: (*/*/id).
2. Với mỗi thực thể có bộ ba đầy đủ (n/c/id) trong một tài liệu d, các thuật ngữ sau đây sẽ đƣợc sẽ bổ sung vào túi thuật ngữ tổng quát biểu diễn d, bao gồm cả các thuật ngữ bao phủ các thuật ngữ gốc trong d, tuỳ theo từng nhóm mô hình:
- Group_1: (name(id)/*/*)
- Group_2: (*/c/*), (*/super_class(c)/*) và từ khóa n - Group_3: (name(id)/*/*), (*/c/*) và (*/super_class(c)/*) - NE+KW+notID: (name(id)/*/*), (*/c/*), (*/super_class(c)/*),
(name(id)/c/*) và (name(id)/super_class(c)/*) - NE+KW: nhƣ NE+KW+notID cộng với (*/*/id).
Các mô hình này cũng đƣợc luận án tiến thành thực nghiệm về hiệu quả truy hồi trên tập TIME. Bảng 3.8, Bảng 3.9 và Bảng 3.10 lần lƣợt trình bày các độ chính xác trung bình, độ F trung bình tại mỗi cấp độ đầy đủ chuẩn, và các độ MAP của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW. Theo cả ba độ đo này, mô hình NE+KW có hiệu quả truy hồi cao nhất, nên tiếp theo đây đƣợc kiểm định ý nghĩa thống kê so với các mô hình còn lại.
Các độ MAP và trị số p hai chiều ở Bảng 3.10 và Bảng 3.11 cho thấy mô hình NE+KW thực sự hiệu quả hơn các mô hình Lexical, Group_1, Group_2 và Group_3 lần lƣợt là 17,6%, 11,3%, 15,9% và 9,5% ở độ MAP. Điều này chứng tỏ việc khai thác thêm cặp tên-lớp và định danh của thực thể có tên giúp cải thiện hiệu quả truy hồi so với việc chỉ sử dụng từ khóa hoặc chỉ kết hợp từ khóa với tên và lớp của thực thể một cách riêng lẻ. Trong khi đó, mô hình NE+KW có hiệu quả tương đương với mô hình NE+KW+notID khi thí nghiệm trên tập TIME. Điều này có thể đƣợc giải thích là vì trong tập TIME phần lớn nếu hai thực thể có định danh khác nhau thì các cặp tên-lớp tương ứng cũng khác nhau. Ví dụ như trong tập TIME không có hai thành phố khác nhau có cùng tên xuất hiện trong các tài liệu. Tức là bản thân một cặp tên-lớp đã đủ xác định một thực thể, tương đương như một định danh. Do đó, trong trường hợp này,
việc sử dụng thêm định danh thực thể của mô hình NE+KW không tạo nên sự khác biệt đáng kể so với mô hình NE+KW+notID.
Bảng 3.8. Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW
Độ đo Mô hình Độ đầy đủ (%)
0 10 20 30 40 50 60 70 80 90 100
Độ chính xác (%)
Lexical 74,0 74,0 73,4 70,9 68,8 65,8 58,4 55,0 53,3 50,9 49,9 Group_1 76,0 75,7 74,7 74,0 71,9 69,9 64,3 60,0 56,6 53,9 52,4 Group_2 75,3 75,1 72,9 70,8 68,2 66,7 60,5 55,9 53,1 51,2 50,4 Group_3 77,2 76,9 75,9 75,9 73,8 71,9 64,4 60,3 56,9 54,4 53,4 NE+KW+notID 82,8 82,5 81,3 80,2 76,6 74,9 67,3 63,4 59,4 56,5 55,0 NE+KW 82,7 82,3 81,0 78,8 77,0 75,2 71,4 69,1 67,0 63,9 63,2
Bảng 3.9. Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW
Độ đo Mô hình Độ đầy đủ (%)
0 10 20 30 40 50 60 70 80 90 100
Độ F (%)
Lexical 0 16,2 28,5 37,9 45,4 50,7 51,8 53,6 55,9 56,7 58,2 Group_1 0 16,5 29,2 39,3 47,3 53,6 56,1 58,1 58,9 59,8 60,8 Group_2 0 16,5 28,8 38,4 45,6 51,5 53,4 54,8 55,7 56,8 58,5 Group_3 0 16,7 29,6 40,0 48,1 54,7 56,4 58,5 59,4 60,5 62,1 NE+KW+notID 0 17,1 30,4 41,1 48,9 55,7 57,4 60,0 60,7 61,4 62,6 NE+KW 0 16,9 30,2 40,7 49,0 55,4 59,5 63,1 66,2 67,4 70,1
Bảng 3.10. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW
Mô hình NE+KW Lexical Group_1 Group_2 Group_3 NE+KW+notID MAP 0,7252 0,6167 0,6516 0,6259 0,6624 0,7120
Độ cải thiện 17,6% 11,3% 15,9% 9,5% 1,9%
Bảng 3.11. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2, Group_3 và
NE+KW+notID
Mô hình A Mô hình B |MAP(A) – MAP(B)|
N– N+ Trị số p hai chiều
NE+KW
Lexical 0,1085 0 5 0,00005
Group_1 0,0736 1.452 1.354 0,02806
Group_2 0,0993 381 376 0,00757
Group_3 0,0628 2.455 2.340 0,04795 NE+KW+notID 0,0132 8.259 8.295 0,16554
Hình 3.10. Các đường cong P-R và F-R trung bình của các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW
Hình 3.10 minh họa các đường cong P-R trung bình và F-R trung bình của các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW. Hình này cho thấy hai đường cong của mô hình NE+KW nằm ở phía trên các đường cong tương ứng của bốn mô hình còn lại. Bên cạnh đó các đường cong của bốn mô hình khai thác thực thể có tên và từ khóa Group_1, Group_2, Group_3 và NE+KW đều nằm trên hai đường cong tương ứng của mô hình chỉ khai thác từ khóa Lexical.
Độ F (%)
Độ đầy đủ (%)
Các đường cong F-R trung bình Các đường cong P-R trung bình
Độ chính xác (%)
Độ đầy đủ (%)