Mô hình đa không gian vectơ kết hợp thực thể có tên và từ khóa
Các truy vấn hoặc tài liệu không chỉ chứa thực thể có tên mà còn chứa từ khóa.
Ví dụ nhƣ trong truy vấn ở Hình 3.1, ngoài thực thể Stanford University, từ khóa
“president” cũng cần đƣợc tính đến để truy hồi tài liệu. Vì thế, ngoài bốn vectơ trên các thuật ngữ ontology của thực thể có tên, truy vấn hoặc tài liệu cần có thêm vectơ trên từ khóa.
Độ tương tự của một tài liệu d và một truy vấn q được định nghĩa như sau:
sim(d ,q
) = .[wN.cosine(dN ,qN
) + wC.cosine(dC ,qC
) + wNC.cosine(dNC ,qNC
) + wI.cosine(dI
,qI
)] + (1 – ).cosine(dKW ,qKW
) (3-2) Trong đó wN + wC + wNC + wI = 1, [0, 1], và dKW
và qKW
lần lƣợt là vectơ trên không gian từ khóa của tài liệu d và truy vấn q. Trọng số biểu diễn mức độ quan trọng của thực thể có tên và từ khóa trong việc biểu diễn truy vấn và tài liệu, và có thể đƣợc điều chỉnh tùy theo từng miền ứng dụng cụ thể.
Với một truy vấn cho trước, sau giai đoạn lọc tài liệu, tập tài liệu thỏa mãn biểu thức Bool của các từ khóa có thể đƣợc giao hoặc hợp với tập tài liệu thỏa mãn biểu thức Bool của các thực thể có tên trong truy vấn này. Đối với thực thể có tên, nhƣ trình bày ở trên, có hai mô hình là NEo và NEn. Nhƣ vậy có tất cả bốn mô hình biểu diễn cách kết hợp thực thể có tên và từ khóa, lần lƣợt đƣợc ký hiệu là NEoKW, NEnKW, NEoKW, và NEnKW, tuỳ theo việc lấy giao hay hợp các tập tài liệu thoả mãn các biểu thức Bool của các từ khoá và thực thể biểu diễn truy vấn. Việc so sánh hiệu quả truy hồi giữa bốn mô hình này với nhau và với các mô hình khác cần đƣợc đánh giá bằng thực nghiệm nhƣ trình bày ở Phần 3.5 tiếp theo.
Các mô hình thực thể có tên NEo và NEn xem tập thực thể có tên là đại diện cho ngữ nghĩa văn bản, trong khi mô hình từ khóa KW xem tập từ khóa là đại diện cho ngữ nghĩa văn bản. Vì thế, trong các mô hình đa không gian vectơ kết hợp thực thể có tên và từ khoá trình bày ở trên, cụm từ nào đƣợc xem là thực thể có tên thì cũng đƣợc xem là từ khóa.
Mô hình tổng quát
Với quan điểm xem các thực thể có tên và từ khóa đều là các thuật ngữ, luận án đề xuất một mô hình không gian vectơ khác, kết hợp thực thể có tên và từ khóa, đƣợc gọi là mô hình tổng quát và ký hiệu là NE+KW. Theo mô hình này, mỗi tài liệu hoặc truy vấn đƣợc biểu diễn bằng một vectơ trên một không gian hợp nhất của các thuật ngữ tổng quát là tên, lớp, cặp tên-lớp, định danh, và từ khóa.Việc xây dựng các vectơ, lọc và xếp hạng tài liệu giống nhƣ trong VSM truyền thống, nhƣng trên các túi thuật ngữ tổng quát này.
Mỗi truy vấn q trong mô hình NE+KW được xử lý theo các bước sau:
1. Loại bỏ các từ không chứa thông tin quan trọng (stop-words) và đƣa các từ về dạng nguyên mẫu (stemming).
2. Các thực thể có tên trong truy vấn đƣợc rút trích bởi động cơ nhận diện thực thể có tên.
3. Với mỗi thực thể có tên đƣợc nhận diện:
a. Nếu thực thể chỉ đƣợc nhận diện có tên n, thì bộ ba (n/*/*) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
b. Nếu thực thể chỉ đƣợc nhận diện có lớp c, thì bộ ba (*/c/*) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
c. Nếu thực thể chỉ đƣợc nhận diện có tên n và lớp c, thì bộ ba (n/c/*) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
d. Nếu thực thể đƣợc nhận diện đầy đủ có tên n, lớp c và định danh id, thì bộ ba (*/*/id) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
4. Cụm từ nào không là thực thể có tên sẽ đƣợc xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
Mỗi tài liệu d trong mô hình NE+KW được xử lý theo các bước sau:
1. Loại bỏ các từ không chứa thông tin quan trọng và đƣa các từ về dạng nguyên mẫu tương tự như trong xử lý truy vấn.
2. Các thực thể có tên trong tài liệu đƣợc rút trích bởi động cơ nhận diện thực thể có tên tương tự như trong xử lý truy vấn.
3. Với mỗi thực thể có tên đƣợc nhận diện:
a. Nếu thực thể chỉ đƣợc nhận diện có tên n, thì (n/*/*) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn d.
b. Nếu thực thể chỉ đƣợc nhận diện có lớp c, thì (*/c/*) và (*/super_class(c)/*) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn d.
c. Nếu thực thể chỉ đƣợc nhận diện có tên n và lớp c, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau:
(n/*/*)
(*/c/*), (*/super_class(c)/*) (n/c/*), (n/super_class(c)/*)
d. Nếu thực thể đƣợc nhận diện đầy đủ có tên n, lớp c và định danh id, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau:
(name(id)/*/*)
(*/c/*), (*/super_class(c)/*)
(name(id)/c/*), (name(id)/super_class(c)/*) (*/*/id)
4. Cụm từ nào không là thực thể có tên sẽ đƣợc xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn d.
Nhƣ vậy, so với việc xử lý truy vấn và tài liệu theo mô hình đa không gian vectơ, điểm khác biệt ở đây chỉ là các thuật ngữ ontology của thực thể có tên đƣợc biểu diễn bằng một định dạng chung là các bộ ba (tên/lớp/định danh), và đƣợc để trong một túi thuật ngữ ontology tổng quát chung thay vì các túi thuật ngữ ontology tên, lớp, cặp tên-lớp, và định danh riêng lẻ. Trong mô hình NE+KW, mỗi thuật ngữ ontology hoặc mỗi từ khóa đều đƣợc xem là một thuật ngữ tổng quát nên một cụm từ không đƣợc vừa xem là thực thể có tên vừa xem là từ khóa. Cụm từ nào là thực thể có tên sẽ đƣợc ƣu tiên xem là thực thể có tên và không đƣợc xem là từ khóa. Hình 3.4 trình bày các túi thuật ngữ tổng quát trong mô hình NE+KW của truy vấn và tài liệu ví dụ cho ở Hình 3.1. Trong đó, các từ khóa và bộ ba thực thể có tên đều đƣợc xem nhƣ các thuật ngữ tổng quát trong truy vấn q và tài liệu d.
Văn bản thô
Truy vấn q: "Who is the president of Stanford University?"
Tài liệu d: "The California Compact ... and has been in existence for several years. The California group is co-chaired by Stanford University President Don Kennedy and ..."
Mô hình tổng quát NE+KW
Các túi thuật ngữ tổng quát biểu diễn truy vấn q và tài liệu d:
q = {president, (*/*/University_T.52)}
d = {existence, year, group, co-chair, president}
+ {(California Compact/Organization/*), (California Compact/Group/*), (California Compact/Agent/*), (California Compact/*/*), (*/Organization/*), (*/Group/*), (*/Agent/*)}
+ {(*/*/Province_T.4198), (California/Province/*), (California/PoliticalRegion/*), (California/Location/*), (California/*/*), (*/Province/*), (*/PoliticalRegion/*), (*/Location/*)}
+ {(*/*/University_T.52), (Stanford University/University/*), (Stanford University/EducationalOrganization/*), (Stanford University/Organization/*), (Stanford University/Group/*), (Stanford University/Agent/*), (Stanford/University/*), (Stanford/EducationalOrganization/*), (Stanford/Organization/*),
(Stanford/Group/*), (Stanford/Agent/*), (Stanford University/*/*), (Stanford/*/*), (*/University/*), (*/EducationalOrganization/*), (*/Organization/*), (*/Group/*), (*/Agent/*)}
+ {(Don Kennedy/Man/*), (Don Kennedy/Person/*), (Don Kennedy/Agent/*), (Don Kennedy/*/*), (*/Man/*), (*/Person/*), (*/Agent/*)}
Hình 3.4. Biểu diễn truy vấn và tài liệu trong mô hình NE+KW
Hiện thực các mô hình
Hình 3.5. Kiến trúc hệ thống của các mô hình NE-KW
Luận án đặt tên chung NE-KW cho các mô hình kết hợp thực thể có tên và từ khóa đƣợc đề xuất, bao gồm NEoKW, NEnKW, NEoKW, NEnKW và NE+KW. Hình 3.5 trình bày kiến trúc hệ thống của các mô hình truy hồi tài liệu NE- KW. Trong đó, Truy vấn thô đƣợc chú giải với các đặc điểm ontology của thực thể có tên thông qua mô đun Nhận diện và chú giải thực thể có tên để trở thành truy vấn đƣợc chú giải theo thực thể có tên và từ khóa. Bên cạnh đó, mô đun Nhận diện và chú giải thực thể có tên cũng đƣợc dùng để rút trích các thực thể có tên và chú giải các đặc điểm ontology của chúng trong Tài liệu thô. Tiếp theo mô đun Mở rộng tài liệu sẽ tiến hành thêm vào tài liệu các đặc điểm ontology bao phủ các đặc điểm ontology gốc của các thực thể đƣợc nhận diện. Sau cùng, mô đun Đánh chỉ mục tài liệu theo thực thể có tên và từ khóa tiến hành đánh chỉ mục các tài liệu theo các thuật ngữ ontology của thực thể có tên và từ khóa để đƣa vào Kho chứa tài liệu được chú giải và mở rộng, giúp cho việc truy xuất nhanh các tài liệu chứa các từ khoá và đặc điểm ontology của thực thể theo yêu cầu.
Việc loại bỏ các từ không chứa thông tin quan trọng và đƣa các từ về dạng nguyên mẫu ở truy vấn và tài liệu của các mô hình NE-KW đề xuất đƣợc thực hiện thông qua một hàm đƣợc xây dựng sẵn trong hệ thống Lucene. Ontology về thực thể có tên đƣợc sử dụng trong các mô hình đề xuất là KIM ontology. Việc nhận diện thực
Ontology về thực thể có tên
(KIM) Tài liệu thô
……
……
Truy vấn đƣợc chú giải thực thể có tên
và từ khóa
VSM dựa trên thực thể có tên
và từ khóa Các tài liệu đƣợc xếp hạng
Kho chứa tài liệu đƣợc chú giải và
mở rộng Truy vấn thô Nhận diện và chú giải
thực thể có tên
Mở rộng tài liệu Nhận diện và chú giải
thực thể có tên
Đánh chỉ mục tài liệu theo thực thể có tên
và từ khóa
thể có tên trong truy vấn và tài liệu đƣợc thực hiện bởi động cơ nhận diện thực thể có tên của KIM.
Việc thêm vào tài liệu các lớp cha của lớp của thực thể trong tài liệu dẫn đến trường hợp các lớp tổng quát nhất sẽ luôn là các phần tử có số lần xuất hiện nhiều nhất trong các vectơ tài liệu sau khi đƣợc mở rộng. Điều đó sẽ làm giảm hiệu quả của phương pháp tf.idf được áp dụng trong cách tính trọng số của các thuật ngữ trong các mô hình đề xuất. Do đó, các mô hình đề xuất không thêm vào bốn lớp cha tổng quát nhất trong KIM ontology là Entity, Object, Happening và Abstract.
Việc gán trọng số cho các hệ số wN, wC, wNC, wI và đƣợc thực hiện với giả định rằng bốn vectơ trên N, C, NC, và I đều có tầm quan trọng nhƣ nhau, và thực thể có tên và từ khóa cũng có tầm quan trọng nhƣ nhau trong việc biểu diễn nội dung của truy vấn và tài liệu, tức là wN = wC = wNC = wI = 0,25 và = 0,5.
Để hiện thực các mô hình dựa trên thực thể có tên và từ khóa đã đề xuất, luận án hiệu chỉnh mô hình không gian vectơ trong Lucene nhƣ sau: (1) đánh chỉ mục các tài liệu theo các thuật ngữ ontology và các thuật ngữ tổng quát nhƣ ở Hình 3.6; và (2) tính toán lại trọng số của các thuật ngữ trong các vectơ biểu diễn truy vấn và tài liệu.
Hình 3.6. Đánh chỉ mục trong các mô hình NE-KW
Tìm kiếm Đánh chỉ mục
Đánh chỉ mục trong các mô hình NE-KW
Semantic Lucene Indexing System Đánh chỉ
mục theo từ khóa
Đánh chỉ mục theo thuật ngữ tổng quát-
NxCxI và từ khóa Đánh chỉ mục trong các mô hình NE
Đánh chỉ mục theo
N
Đánh chỉ mục theo
C
Đánh chỉ mục theo
NxC
Đánh chỉ mục theo
I
Từ để hỏi trong các truy vấn loại Wh
Từ để hỏi
Lớp của thực
thể có tên Ví dụ
Who Person Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"?
Woman Who was the lead actress in the movie "Sleepless in Seattle"?
Which Person Which former Ku Klux Klan member won an elected office in the U.S.?
City Which city has the oldest relationship as a sister-city with Los Angeles?
Where Location Where is the actress, Marion Davies, buried?
WaterRegion Where is it planned to berth the merchant ship, Lane Victory, which Merchant Marine veterans are converting into a floating museum?
When DayTime When did the Jurassic Period end?
CalendarMonth When did Beethoven die?
What CountryCapital What is the capital of Congo?
Percent What is the legal blood alcohol limit for the state of California?
Money What was the monetary value of the Nobel Peace Prize in 1989?
Person What two researchers discovered the double-helix structure of DNA in 1953?
Bảng 3.2. Các ví dụ về việc chuyển đổi từ để hỏi sang lớp của thực thể
Nhƣ đã nêu ở Phần 3.1, các từ để hỏi Wh nhƣ Who, Which, Where, When hoặc What trong truy vấn hàm chứa lớp của thực thể có tên đƣợc hỏi. Vì thế, từ để hỏi này đƣợc thay thế bằng một lớp của thực thể có tên trong ontology về thực thể, ƣu tiên lớp cụ thể nhất có thể, nhằm biểu diễn nghĩa của từ để hỏi. Bảng 3.2 trình bày một số ví dụ của việc chuyển đổi từ để hỏi sang lớp của thực thể có tên. Các lớp của thực thể có tên này đƣợc thể hiện trong ontology của KIM. Luận án đề xuất mở rộng mô hình tổng quát NE+KW với việc chuyển từ để hỏi Wh sang lớp của thực thể, đƣợc ký hiệu là NE+KW+Wh. Hình 3.7 trình bày các thuật ngữ tổng quát đƣợc rút trích theo mô hình NE+KW+Wh từ truy vấn ví dụ ở Hình 3.1. So với mô hình NE+KW ở Hình 3.4, truy vấn q trong mô hình NE+KW+Wh có thêm bộ ba (*/Person/*) đƣợc ánh xạ từ từ để hỏi Who trong truy vấn.
Việc ánh xạ từ để hỏi đến lớp của thực thể có tên, trong phạm vi luận án để tiến hành thí nghiệm, đƣợc hiện thực thông qua một tập luật đơn giản bao phủ tập dữ liệu kiểm tra. Tuy nhiên, việc này có thể được hiện thực một cách tự động bằng các phương pháp đƣợc đề xuất ở [145].