1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Truy hồi thông tin dựa trên ontology

138 319 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 138
Dung lượng 2,6 MB

Nội dung

Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên, các cách kết hợp chúng với từ khóa thông thường, và nghiên cứu ảnh hưởng của chúng đến hiệu quả truy hồi tài

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP HỒ CHÍ MINH NĂM 2013

Trang 2

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP HỒ CHÍ MINH NĂM 2013

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY

Chuyên ngành: Khoa học Máy tính

Mã số chuyên ngành: 62.48.01.01

Phản biện độc lập 1: PGS TS Đồng Thị Bích Thủy, ĐH KHTN, ĐHQG TPHCM Phản biện độc lập 2: PGS TS Lê Thanh Hương, Viện CNTT&TT, ĐH BKHN Phản biện 1: PGS TS Đỗ Phúc, ĐH CNTT, ĐHQG TPHCM

Phản biện 2: TS Nguyễn Thị Minh Huyền, ĐH KHTN, ĐHQG HN

Phản biện 3: PGS TS Dương Tuấn Anh, ĐH BKTPHCM, ĐHQG TPHCM

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS TS Cao Hoàng Trụ, ĐH BKTPHCM, ĐHQG TPHCM

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân Tất cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và chưa được công bố trong bất

kỳ công trình khoa học nào khác

Tác giả luận án

Ngô Minh Vương

Trang 5

LỜI CẢM ƠN

Trong quá trình hoàn thành luận án này, tôi đã được các thầy cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động viên khích lệ

Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp đỡ quí báu của PGS.TS Cao Hoàng Trụ, Thầy hướng dẫn mà tôi tôn vinh và muốn được bày tỏ lòng biết ơn sâu sắc nhất Tôi cũng muốn được bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa KH&KT Máy Tính - Đại học Bách Khoa Tp.HCM đã giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa Cảm ơn Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án

Cảm ơn Ban Giám hiệu Trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, và Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài nghiên cứu cấp trường năm 2010 Cảm ơn Tập đoàn TOSHIBA đã cấp học bổng Chương trình nghiên cứu khoa học và công nghệ cho học viên sau đại học xuất sắc trong 3 năm 2008, 2009 và 2010 Cảm ơn Ban Giám đốc ĐHQGTpHCM, Ban Quan

hệ và Đối ngoại đã tạo điều kiện thuận lợi cho tôi tiếp cận được học bổng TOSHIBA ở trên Cảm ơn Tập đoàn VNG đã tài trợ một phần kinh phí để tôi có thể công bố và thuyết trình công trình của mình tại hội nghị IJCNLP-2011 ở Chiang Mai, Thailand Những tài trợ này đã hỗ trợ tôi rất nhiều về mặt tài chính để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua

Tôi chân thành cảm ơn Trung tâm CNTT - Ngân hàng Phát Triển Nhà ĐBSCL, Trung tâm R&D - Tập đoàn VNG và Khoa CNTT - Đại học Tôn Đức Thắng đã tạo mọi điều kiện thuận lợi cho tôi từ năm 2008 đến nay để hoàn thành luận án này Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án

Tác giả luận án

Ngô Minh Vương

Trang 6

TÓM TẮT

Các hệ thống truy hồi tài liệu dạng văn bản hiện nay gặp nhiều thách thức trong việc khám phá và biểu diễn ngữ nghĩa của truy vấn và tài liệu Truy hồi tài liệu dựa trên việc so trùng các từ khóa có nhiều nhược điểm bởi vì nó chỉ xem xét đến hình thức bề mặt của các từ xuất hiện trong văn bản hơn là ý nghĩa của các từ này Trong khi đó, nội dung của văn bản phần lớn được xác định bởi các khái niệm như thực thể

có tên và từ WordNet Mặc khác, truy vấn đã có thể hiện rõ hơn mong muốn của người đặt truy vấn nếu được bổ sung các khái niệm tiềm ẩn phù hợp Mục tiêu của luận án này là nghiên cứu và khai thác các ontology về thực thể có tên, từ WordNet và sự kiện

về quan hệ thực thể để nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ đầy

đủ

Trong văn bản, các khái niệm được diễn đạt dưới các dạng như tên của thực thể hoặc nhãn của từ Các khái niệm này ẩn chứa các đặc điểm ontology bên dưới các hình thức bề mặt của chúng như bí danh/từ đồng nghĩa, lớp cha/nghĩa cha, lớp con/nghĩa con và định danh/nghĩa của từ Ngoài ra, mỗi truy vấn còn hàm ý các thực thể liên quan đến các thực thể xuất hiện tường minh trong truy vấn

Luận án này có ba nội dung chính Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên, các cách kết hợp chúng với từ khóa thông thường, và nghiên cứu ảnh hưởng của chúng đến hiệu quả truy hồi tài liệu, trong đó có cặp tên-lớp

và định danh của thực thể có tên mà các công trình trước đây chưa khai thác Thứ hai, luận án đề xuất sử dụng thêm cặp nhãn-nghĩa của từ WordNet bên cạnh các đặc điểm ontology cơ bản khác đã được sử dụng trước đây Thứ ba, luận án khai thác ontology

về sự kiện để mở rộng truy vấn bằng các thực thể tiềm ẩn theo các quan hệ tường minh với các thực thể trong truy vấn

Các mô hình đề xuất được hiện thực bằng cách mở rộng mô hình không gian vectơ cơ bản và được đánh giá bằng thực nghiệm trên các tập dữ liệu và độ đo hiệu quả chuẩn Kết quả thí nghiệm cho thấy các mô hình đề xuất cho hiệu quả truy hồi tài liệu cao hơn so với các mô hình ở các công trình liên quan quan và mô hình truy hồi tài liệu theo từ khoá thông thường Đặc biệt luận án đã sử dụng phương pháp kiểm định ý nghĩa thống kê để xác nhận lại sự tăng hiệu quả thật sự của các mô hình đề xuất

Trang 7

ABSTRACT

Current text document retrieval systems are facing to many challenges in discovering and representing the semantics of queries and documents Document retrieval based on lexical matching of keywords has many drawbacks because it only considers the surface forms of words appearing in a text rather than the meaning of the words Meanwhile, the content of a text is mostly determined by concepts such as named entities and WordNet words On the other hand, the meaning of a query could express more clearly user intention if it is expanded with suitable latent concepts The objective of this thesis is to exploit ontologies of named entities, WordNet words and entity relationship facts to improve the performance of document retrieval in terms of the precision and recall measures

In a text, concepts are expressed by their surface forms like entity names or word labels Those concepts contain hidden ontological features under their surface forms, such as aliases/synonyms, super-classes/hypernyms, sub-classes/hyponyms and identifiers/senses Besides, each query also implies those entities that are related to entities explicitly appearing in the query

This thesis consists of three main parts First, the thesis explores ontological features of named entities, different combinations of them and keywords, and evaluates their impact to document retrieval performance, in which name-class pairs and identifies of named entities have not been exploited in previous works Second, the thesis proposes usage of form-sense pairs of WordNet words in addition to other basic ontological features that have been used previously Third, the thesis exploits an ontology of facts to expand a query by latent entities that have explicit relations with other entities in the query

The proposed models are implemented by extending the basic vector space model and experimented on benchmark datasets and standard performance measures Experiment results show that the proposed models give better retrieval performance than the models of related works and the traditional keyword-based document retrieval model Especially, this thesis uses statistical significance tests to confirm the actual improvement in performance of the proposed models

Trang 8

MỤC LỤC

1 Chương 1 - GIỚI THIỆU 1

1.1 Động cơ nghiên cứu 1

1.2 Mục tiêu và phạm vi của luận án 2

1.3 Những đóng góp chính của luận án 3

1.4 Cấu trúc của luận án 4

2 Chương 2 - CƠ SỞ KIẾN THỨC 6

2.1 Mô hình không gian vectơ 6

2.2 Giới thiệu về Lucene 7

2.3 Ontology 7

2.4 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ 11

2.5 Tập dữ liệu kiểm tra 12

2.6 Độ đo hiệu quả truy hồi 13

2.7 Kiểm định ý nghĩa thống kê 15

3 Chương 3 - KHAI THÁC THỰC THỂ CÓ TÊN 17

3.1 Giới thiệu 17

3.2 Các công trình liên quan 19

3.3 Mô hình đa không gian vectơ cho thực thể có tên 22

3.4 Kết hợp thực thể có tên và từ khóa 31

3.5 Đánh giá thực nghiệm 38

3.6 Kết luận 56

4 Chương 4 - KHAI THÁC TỪ WORDNET 58

4.1 Giới thiệu 58

4.2 Các công trình liên quan 59

4.3 Mô hình không gian vectơ dựa trên từ WordNet 61

4.4 Đánh giá thực nghiệm 66

4.5 Kết luận 72

5 Chương 5 - KHAI THÁC THÔNG TIN TIỀM ẨN 73

5.1 Giới thiệu 73

5.2 Các công trình liên quan 74

Trang 9

5.3 Phương pháp kích hoạt lan truyền 76

5.4 Mở rộng truy vấn 78

5.5 Đánh giá thực nghiệm 80

5.6 Kết luận 86

6 Chương 6 – KẾT HỢP CÁC MÔ HÌNH 88

6.1 Giới thiệu 88

6.2 Mô hình hợp nhất 88

6.3 Đánh giá thực nghiệm 90

6.4 Kết luận 95

7 Chương 7 - TỔNG KẾT 96

7.1 Tóm tắt 96

7.2 Hướng phát triển 98

CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 100

TÀI LIỆU THAM KHẢO 102

Trang 10

DANH MỤC CÁC BẢNG

Bảng 2.1 Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án

khảo sát ở SIGIR-2007 và SIGIR-2008 13 Bảng 3.1 Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên cho

truy hồi tài liệu 21 Bảng 3.2 Các ví dụ về việc chuyển đổi từ để hỏi sang lớp của thực thể 37 Bảng 3.3 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mô hình Lexical, NEo, NEn và NE-KW 39

Bảng 3.4 Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình

Lexical, NEo, NEn và NE-KW 39 Bảng 3.5 Các độ chính xác trung bình nhóm của các mô hình Lexical, NEo,

NEn và NE-KW 40

Bảng 3.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của

mô hình NE+KW so với các mô hình khác 41 Bảng 3.7 Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn

truy vấn và tài liệu 44 Bảng 3.8 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và

NE+KW 46

Bảng 3.9 Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình

Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46 Bảng 3.10 Các độ chính xác trung bình nhóm của các mô hình Lexical,

Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46

Bảng 3.11 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của

mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2,

Group_3 và NE+KW+notID 47 Bảng 3.12 Các độ chính xác trung bình của hai mô hình Lexical và NE+KW

trên các truy vấn điển hình 50

Trang 11

Bảng 3.13 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mô hình Lexical, NE+KW và NE+KW+Wh 52

Bảng 3.14 Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô

hình Lexical, NE+KW và NE+KW+Wh 52 Bảng 3.15 Các độ chính xác trung bình nhóm của các mô hình Lexical, NE+KW

và NE+KW+Wh 53

Bảng 3.16 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

các mô hình NE+KW+Wh, NE+KW và Lexical 53 Bảng 3.17 Độ chính xác trung bình của hai mô hình Lexical và NE+KW+Wh

trên các truy vấn điển hình 54 Bảng 4.1 Khảo sát việc khai thác các đặc điểm ontology của từ WordNet cho

truy hồi tài liệu 61 Bảng 4.2 Việc sử dụng các đặc điểm ontology của từ WordNet để biểu diễn truy

vấn và tài liệu 66 Bảng 4.3 Các độ chính xác tại mười một điểm đầy đủ chuẩn của các mô hình

Lexical, Group_1, Group_2 và WN+KW 68

Bảng 4.4 Các độ F trung bình tại mười một điểm đầy đủ chuẩn của các mô hình

Lexical, Group_1, Group_2 và WN+KW 68 Bảng 4.5 Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1,

Group_2 và WN+KW 68

Bảng 4.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2 68 Bảng 4.7 Các độ chính xác trung bình của các mô hình Lexical và WN+KW

trên các truy vấn điển hình 69

Bảng 5.1 Các độ chính xác và độ F trung bình tại mười một điểm đầy đủ chuẩn

của các mô hình Lexical, CSA và R+CSA 82 Bảng 5.2 Các độ chính xác trung bình nhóm của các mô hình Lexical, CSA và

R+CSA 83

Trang 12

Bảng 5.3 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

mô hình R+CSA với hai mô hình Lexical và CSA 84 Bảng 5.4 Các độ chính xác trung bình của các mô hình Lexical, CSA và R+CSA

trên các truy vấn điển hình 84

Bảng 6.1 Các độ chính xác và độ F trung bình tại mười một điểm đầy đủ chuẩn

của các mô hình NE+KW+Wh, WN+KW và NE+WN 91 Bảng 6.2 Các độ chính xác trung bình nhóm của các mô hình NE+KW+Wh,

WN+KW và NE+WN 92

Bảng 6.3 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên giữa mô

hình NE+WN với hai mô hình NE+KW+Wh và WN+KW 92

Bảng 6.4 Các độ chính xác và độ F trung bình tại mười một điểm đầy đủ chuẩn

của các mô hình NE+WN, R+CSA và UM 93 Bảng 6.5 Các độ chính xác trung bình nhóm của các mô hình NE+WN, R+CSA

và UM 94

Bảng 6.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên giữa mô

hình UM so với các mô hình NE+WN và R+CSA 94

Trang 13

DANH MỤC CÁC HÌNH

Hình 2.1 Sự phân cấp của các lớp tổng quát nhất trong KIM ontology 9

Hình 2.2 Ví dụ về các thực thể có tên và quan hệ trong KIM ontology 9

Hình 2.3 Mạng lưới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một nghĩa của từ “movement” 10

Hình 2.4 Ví dụ về các sự kiện trong YAGO 11

Hình 3.1 Biểu diễn truy vấn và tài liệu bằng các tập hợp bộ ba thực thể có tên 23

Hình 3.2 Biểu diễn truy vấn và tài liệu trong mô hình từ khóa và mô hình đa không gian vectơ 28

Hình 3.3 Biểu diễn truy vấn trong mô hình chồng lấp NEo 30

Hình 3.4 Biểu diễn truy vấn và tài liệu trong mô hình NE+KW 34

Hình 3.5 Kiến trúc hệ thống của các mô hình NE-KW 35

Hình 3.6 Đánh chỉ mục trong các mô hình NE-KW 36

Hình 3.7 Biểu diễn truy vấn trong mô hình NE+KW+Wh 38

Hình 3.8 Các đường cong P-R và F-R trung bình của các mô hình Lexical, NEn, và NE+KW 42

Hình 3.9 Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình NE+KW với hai mô hình Lexical và NEn 42

Hình 3.10 Các đường cong P-R và F-R trung bình của các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW 47

Hình 3.11 Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình NE+KW với ba mô hình Group_1, Group_2 và Group_3 48

Hình 3.12 Đường cong P-R của hai mô hình Lexical và NE+KW trên các truy vấn điển hình 50

Hình 3.13 Đường cong trung bình P-R và F-R của các mô hình Lexical, NE+KW và NE+KW+Wh 52

Hình 3.14 Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình NE+KW+Wh với hai mô hình Lexical và NE+KW 54

Trang 14

Hình 3.15 Đường cong P-R của hai mô hình Lexical và NE+KW+Wh trên các

truy vấn điển hình 55 Hình 4.1 Các đoạn văn bản ví dụ từ BBC 62 Hình 4.2 Cây phân cấp nghĩa cha và nghĩa con của một số nghĩa của từ

“movement” 62

Hình 4.3 Kiến trúc hệ thống của mô hình WN+KW 65 Hình 4.4 Các đường cong P-R và F-R trung bình của các mô hình Lexical,

Group_1, Group_2 và WN+KW 69 Hình 4.5 Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình của mô hình

WN+KW so với các mô hình Lexical, Group_1 và Group_2 70

Hình 5.1 Ví dụ về các khái niệm có liên quan với khái niệm Thailand trong một

ontology về sự kiện 77 Hình 5.2 Kiến trúc hệ thống của mô hình mở rộng truy vấn sử dụng phương

pháp R+CSA 78 Hình 5.3 Các bước của phương pháp R+CSA 79 Hình 5.4 Đường cong trung bình P-R và F-R của các mô hình Lexical, CSA và

R+CSA 82 Hình 5.5 Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình

R+CSA với hai mô hình Lexical và CSA 83 Hình 6.1 Kiến trúc hệ thống của mô hình UM 89 Hình 6.2 Các đường cong trung bình P-R và F-R của các mô hình

NE+KW+Wh, WN+KW và NE+WN 91 Hình 6.3 Độ khác biệt ở độ chính xác trung bình của mỗi truy vấn giữa mô hình

NE+WN với hai mô hình NE+KW+Wh và WN+KW 92 Hình 6.4 Các đường cong trung bình P-R và F-R của các mô hình NE+WN,

R+CSA và UM 94 Hình 6.5 Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình

UM với hai mô hình NE+WN và R+CSA 95 Hình 7.1 Sự phát triển và hiệu quả của các mô hình đề xuất 98

Trang 15

DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT

Từ viết

AP Average Precision Độ chính xác trung bình

CSA Constrained Spreading

Activation

Kích hoạt lan truyền có ràng buộc

IE Information Extraction Rút trích thông tin

IR Information Retrieval Truy hồi thông tin

MAP Mean Average Precision Độ chính xác trung bình nhóm

NER Named Entity Recognition Nhận diện thực thể có tên

SA Spreading Activation Kích hoạt lan truyền

SIGIR Special Interest Group on

Information Retrieval

Cộng đồng quan tâm đặc biệt về truy hồi thông tin

TREC Text REtrieval Conference Hội nghị truy hồi văn bản

VSM Vector Space Model Mô hình không gian vectơ

WSD Word Sense Disambiguation Phân giải nhập nhằng nghĩa của từ

Trang 16

1 Chương 1 - GIỚI THIỆU

1.1 Động cơ nghiên cứu

Ngày nay, nhiều thông tin hữu ích được lưu trữ trên WWW và, theo bản báo cáo tháng 12/2010 của ITU1, có hơn 2 tỷ người sử dụng Internet với tần suất thường xuyên Do

đó, nhu cầu khai thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầu

về thông tin, còn máy tìm kiếm là một ứng dụng thực tế của truy hồi thông tin Các vấn đề chính của truy hồi thông tin là mô hình biểu diễn truy vấn và tài liệu, và phương pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn Trong khi đó, các vấn đề chính của máy tìm kiếm là tối ưu việc lưu trữ và truy xuất thông tin, hiệu suất tìm kiếm, và các vấn đề ứng dụng cụ thể khác Nhằm khắc phục nhược điểm của các mô hình truyền thống và nâng cao hiệu quả truy hồi thông tin, các

mô hình truy hồi thông tin theo ngữ nghĩa đã được nghiên cứu và phát triển ([2]) Dựa vào sự phân loại ở [3], [4] và [5], các công trình về truy hồi thông tin theo ngữ nghĩa có thể được phân vào các lĩnh vực chính là: (1) truy hồi thông tin dựa trên giao diện người dùng như ở [6], [7] và [8]; (2) truy hồi thực thể như ở [9], [10], [11] và [12]; (3) truy hồi thông tin xuyên ngôn ngữ như ở [13], [14], [15] và [16]; (4) truy hồi tài liệu viết bằng ngôn ngữ có cấu trúc như ở [17], [18] và [19]; và (5) truy hồi văn bản, là tài liệu viết bằng ngôn ngữ tự nhiên, như ở [20], [21], và [22] Trong luận án

này, khi không cần nhấn mạnh, chúng tôi dùng thuật ngữ “truy hồi tài liệu” với ý

nghĩa là truy hồi văn bản

Dữ liệu trên Web phần lớn là văn bản và chỉ phù hợp cho con người đọc hiểu Do

đó, việc nghiên cứu và phát triển các mô hình truy hồi văn bản có độ đầy đủ và độ chính xác cao là cần thiết Các mô hình truy hồi tài liệu truyền thống không xét đến sự

đa nghĩa và đồng nghĩa của các từ, và các khái niệm tiềm ẩn trong truy vấn và tài liệu Các mô hình này chỉ sử dụng các từ khóa để biểu diễn truy vấn và tài liệu, và việc so

1

International Telecommunication Union, là cơ quan chuyên môn của Liên Hợp Quốc về công nghệ thông tin và truyền thông http://www.itu.int/net/itunews/issues/2010/10/04.aspx

Trang 17

khớp giữa một truy vấn và một tài liệu là sự so khớp giữa hai tập từ khóa đại diện cho chúng Vì vậy có nhiều tài liệu được trả về không thực sự phù hợp với truy vấn

Nhằm khắc phục nhược điểm nói trên của các mô hình truy hồi tài liệu theo từ khóa, các mô hình truy hồi theo ngữ nghĩa khai thác và biểu diễn nghĩa của các từ và khái niệm tiềm ẩn trong truy vấn và tài liệu Cùng với sự ra đời và phát triển của Web

có ngữ nghĩa ([23]), ontology được sử dụng rộng rãi trong việc nghiên cứu và phát triển các mô hình truy hồi tài liệu theo ngữ nghĩa ([24], [25], [26]) Trong đó, nhiều công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã: (1) khai thác thực thể

có tên như ở [27], [28], [29], [30] và [31]; (2) khai thác từ WordNet như ở [32], [33],

[34], [35] và [36]; trong luận án, chúng tôi gọi từ WordNet là từ được mô tả trong một

ontology về từ vựng như WordNet; hoặc (3) thêm thông tin vào truy vấn như ở [21], [37], [38], [39] và [40]

Ví dụ với truy vấn tìm kiếm các tài liệu về “Earthquake in USA” thì các tài liệu

về “Earthquake in United States of America”, về “Temblor in USA” hoặc về

“Earthquake in Denali, Alaska 2002” đều phù hợp với truy vấn này Điều này là do: (1) USA và United States of America là hai bí danh (alias) của cùng một thực thể có tên (Named Entity, NE); (2) Earthquake và Temblor là hai từ WordNet đồng nghĩa với nhau; và (3) Denali, Alaska 2002 là một trận động đất xảy ra ở USA Trong khi đó, các tài liệu về “Earthquake in Fukushima 2011” không phù hợp với truy vấn trên vì Fukushima 2011 tuy cũng là một trận động đất nhưng xảy ra ở Japan, không phải ở USA Để giải quyết các vấn đề này, cần khai thác các đặc điểm ontology về thực thể có

tên, về từ WordNet, và về sự kiện

1.2 Mục tiêu và phạm vi của luận án

Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thể có tên, từ WordNet và sự kiện để nâng cao hiệu quả truy hồi tài liệu Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên và nghiên cứu ảnh hưởng của chúng đến hiệu quả truy hồi tài liệu Đồng thời, luận án nghiên cứu các cách kết hợp giữa thực thể có tên và từ khóa trong truy hồi tài liệu Trong đó, so với các công trình trước đây, luận án khai thác thêm cặp tên-lớp và định danh của thực thể có tên để biểu diễn truy vấn và tài liệu Ngoài ra, luận án khai thác các lớp thực thể ở mức cụ thể tiềm ẩn

trong từ để hỏi dạng Wh Thứ hai, luận án nghiên cứu khai thác các đặc điểm ontology

Trang 18

của từ WordNet và kết hợp chúng với từ khóa Ngoài các đặc điểm ontology cơ bản của từ WordNet là nhãn và nghĩa đã được sử dụng trong các công trình trước đây, luận

án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trong trường hợp từ này có nhiều hơn một nghĩa trong ngữ cảnh xem xét Thứ ba, luận án khai thác ontology về sự kiện để thêm vào truy vấn các thực thể tiềm ẩn liên quan với các thực thể theo các quan hệ tường minh trong truy vấn

Hiệu quả truy hồi của các mô hình truy hồi tài liệu phụ thuộc vào ba mô đun chính là xử lý và biểu diễn truy vấn, xử lý và biểu diễn tài liệu, và so khớp giữa hai biểu diễn này ([41]) Trong phạm vi luận án, chúng tôi tập trung vào xử lý và biểu diễn truy vấn và tài liệu Việc so khớp giữa các biểu diễn của truy vấn và tài liệu được hiện thực theo mô hình không gian vectơ, là một mô hình truy hồi thông tin phổ biến

Các mô hình đề xuất của luận án sử dụng các ontology về thực thể có tên, từ WordNet và sự kiện có độ bao phủ lớn, và các giải thuật nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ có độ chính xác cao của các công trình khác Vì vậy, các kết quả thí nghiệm trong luận án chịu ảnh hưởng của chất lượng của các ontology và công cụ xử lý được sử dụng Tuy nhiên, ý nghĩa của luận án là nghiên cứu

sự khác biệt về hiệu quả truy hồi tài liệu của các mô hình khác nhau trên cùng một nền tảng ontology và công cụ tiền xử lý

Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nằm ngoài phạm vi của luận án Vì vậy, trọng tâm của luận án không phải là vấn đề thời gian xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình và phương pháp đề xuất Thêm vào đó, luận án chỉ xử lý văn bản tiếng Anh để các đóng góp của luận án có thể công bố trong cộng đồng nghiên cứu trên thế giới về các vấn đề này, nơi mà các công trình và tập kiểm tra trên tiếng Anh là phổ biến

1.3 Những đóng góp chính của luận án

Luận án đã đề xuất các mô hình truy hồi tài liệu khai thác các đặc điểm ontology về thực thể có tên, về từ WordNet và về sự kiện một cách tương đối đầy đủ và toàn diện nhằm nâng cao hiệu quả truy hồi, bao gồm:

1 Mô hình khai thác các đặc điểm ontology của thực thể có tên và kết hợp chúng với từ khóa

Trang 19

2 Mô hình khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa

3 Mô hình mở rộng truy vấn với các thực thể có tên bằng cách lan truyền theo các quan hệ tường minh trong truy vấn

4 Mô hình kết hợp các phương pháp trong các mô hình được đề xuất ở trên Hiệu quả của các mô hình đề xuất được kiểm tra bằng thực nghiệm và qua bước kiểm định ý nghĩa thống kê

1.4 Cấu trúc của luận án

Luận án này được chia thành 7 chương Chương 1 trình bày mục tiêu, phạm vi, những đóng góp chính, và giới thiệu cấu trúc của luận án Chương 2 trình bày về cơ sở kiến thức Từ Chương 3 đến Chương 5, mỗi chương đều có các phần: giới thiệu, các công trình liên quan, phương pháp đề xuất, kết quả thực nghiệm, và kết luận Với mỗi

mô hình đề xuất, luận án phân tích nguyên nhân của kết quả thực nghiệm trên một số truy vấn điển hình trong tập dữ liệu kiểm tra Chương 6 đề xuất và thực nghiệm mô hình kết hợp các mô hình trình bày ở các Chương 3, 4 và 5 Chương cuối cùng là tổng kết

Chương 2 – Cơ sở kiến thức

Chương này giới thiệu các kiến thức nền tảng, tài nguyên, và công cụ, bao gồm:

mô hình không gian vectơ, các ontology KIM, WordNet và YAGO, và các động cơ nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ Bên cạnh đó, chương này trình bày các tập dữ liệu kiểm tra, độ đo và phương pháp đánh giá hiệu quả truy hồi tài liệu của các mô hình đề xuất so với các mô hình liên quan

Chương 3 – Khai thác thực thể có tên

Trong chương này, luận án nghiên cứu và đề xuất các mô hình không gian vectơ dựa trên ontology, khai thác và phân tích các cách kết hợp khác nhau của các đặc điểm ontology của thực thể có tên với từ khóa Thêm vào đó là đề xuất việc ánh xạ từ để hỏi trong truy vấn sang lớp của thực thể có tên Các mô hình đề xuất được so sánh về hiệu quả truy hồi tài liệu với nhau, với mô hình dựa trên từ khóa truyền thống, và với các

mô hình dựa trên thực thể có tên trước đây Kết quả nghiên cứu liên quan đến chương này được phát triển từ [42], và đã được công bố trong [43], [44], [45] và [46]

Trang 20

Chương 4 – Khai thác WordNet

Trong chương này, luận án nghiên cứu, phân tích và đề xuất một mô hình truy hồi tài liệu khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa Hiệu quả của việc khai thác các đặc điểm ontology của từ WordNet được trình bày thông qua các thí nghiệm so sánh với các mô hình dựa trên từ WordNet trước đây Kết quả nghiên cứu liên quan đến chương này đã được công bố trong [47]

Chương 5 – Khai thác thông tin tiềm ẩn

Trong chương này, luận án nghiên cứu và đề xuất một mô hình mở rộng truy vấn bằng cách kích hoạt lan truyền theo các quan hệ tường minh trong truy vấn Mô hình này được đánh giá và so sánh với các mô hình kích hoạt lan truyền truyền thống Kết quả nghiên cứu liên quan đến chương này đã được công bố trong [48] và [49]

Chương 6 – Mô hình hợp nhất

Chương này trình bày mô hình hợp nhất, trong đó các phương pháp đề xuất ở các Chương 3, 4 và 5 được tích hợp lại với nhau Cụ thể là, mô hình này mở rộng truy vấn như ở Chương 5 Sau đó các truy vấn mở rộng và tài liệu sẽ được chú giải theo các đặc điểm ontology của thực thể có tên và từ vựng như ở Chương 3 và 4 Hiệu quả của mô hình này được đánh giá so với các mô hình riêng lẻ đề xuất ở các Chương 3, 4 và 5 Kết quả nghiên cứu liên quan đến chương này đã được công bố trong [50]

Trang 21

2 Chương 2 - CƠ SỞ KIẾN THỨC

2.1 Mô hình không gian vectơ

Các mô hình truy hồi thông tin phổ biến hiện nay là mô hình đại số Bool ([51]),

mô hình xác suất ([52]), mô hình Okapi BM25 ([53], [54]), mô hình ngôn ngữ ([55], [56]) và mô hình không gian vectơ ([57]) Trong đó mô hình không gian vectơ (Vector Space Model - VSM) có các ưu điểm là đơn giản, trọng số của các từ khóa phản ánh được ý nghĩa của các từ khóa trong truy vấn và tài liệu, và các tài liệu có thể so khớp

và xếp hạng theo độ liên quan với truy vấn ([57]) Vì vậy luận án này sử dụng mô hình không gian vectơ để làm thực nghiệm đánh giá hiệu quả truy hồi của các mô hình đề xuất

Trong mô hình không gian vectơ truyền thống ([58]), mỗi truy vấn hoặc tài liệu

được xem như là một túi các từ khóa xác định nội dung của chúng Gọi tập hợp {k1, k2,

…, kt} là không gian của tất cả các từ khóa xuất hiện trong tập truy vấn và tài liệu xem xét Mỗi truy vấn q và tài liệu dđược biểu diễn bằng vectơ q

= (w 1,q , w 2,q , …, wt,q) và

vectơ d= (w 1,d , w 2,d , …, wt,d) Trong đó, wi,q và wi,d lần lượt là trọng số của từ khóa ki trong truy vấn q và tài liệu d Các trọng số này là các số thực có giá trị thuộc đoạn [0,

1], và chúng xác định mức độ quan trọng của từ khóa tương ứng trong việc biểu diễn

nội dung của truy vấn và tài liệu Nếu từ khóa ki không xuất hiện trong truy vấn q (hoặc tài liệu d) thì w i,q = 0 hoặc (w i,d = 0)

Công trình [59] đề nghị cách tính trọng số của các từ khóa trong truy vấn và tài

liệu theo phương pháp tf.idf như sau:

(2-1)

(2-2)

Trong đó, freqi,q và freq i,d lần lượt là số lần xuất hiện của từ khóa k i trong truy vấn q và trong tài liệu d, N là tổng số tài liệu trong kho lưu trữ, và ni là số tài liệu có chứa từ khóa ki

q l l

q i q

i

freq

freq w

,

, ,

max

5.05

0 

i d

l l

d i d

i

n

N freq

Trang 22

Độ tương tự giữa tài liệu d và truy vấn q được định nghĩa bởi công thức sau:

(2-3)

2.2 Giới thiệu về Lucene

Lucene ([60], [61]) là phần mềm mã nguồn mở được sử dụng phổ biến để đánh chỉ mục và truy hồi tài liệu Lucene có thể được mở rộng với các chức năng đánh chỉ mục và truy hồi thông tin mới để phát triển các hệ thống ứng dụng Để đánh chỉ mục, Lucene chuyển dữ liệu cần đánh chỉ mục về các dạng văn bản như HTML, Word hoặc PDF Tiếp theo, các văn bản được xử lý thành các từ đơn đã được chuẩn hóa (như lowercasing và stemming) Cuối cùng các từ đơn này được lưu trữ vào một hệ thống đánh chỉ mục đảo (inverted index), là một cấu trúc dữ liệu ánh xạ từ khóa tới các tài liệu chứa nó

Truy hồi tài liệu trong Lucene là tìm kiếm trong hệ thống chỉ mục các tài liệu chứa từ khóa cần tìm Tiếp theo, các tài liệu tìm thấy được xếp hạng dựa trên độ tương

tự với truy vấn Lucene sử dụng mô hình tương tự như mô hình không gian vectơ truyền thống để biểu diễn truy vấn và tài liệu, tính trọng số của các từ khóa xuất hiện trong chúng, cũng như tính độ tương tự giữa một truy vấn và một tài liệu Luận án mở rộng Lucene để hiện thực và làm thực nghiệm các mô hình truy hồi tài liệu dựa trên ontology

2.3 Ontology

Ontology bắt nguồn từ triết học, được dẫn xuất từ tiếng Hy Lạp là “onto” và

“logia” Trong ngữ cảnh triết học, ontology thuộc một nhánh của siêu hình học, được

sử dụng để nghiên cứu về bản chất của sự tồn tại, xác định các sự vật nào thực sự tồn tại và cách thức mô tả chúng ([62])

Trong những năm gần đây, ontology được sử dụng nhiều trong khoa học máy tính và được định nghĩa khác với nghĩa ban đầu Theo đó ontology là sự mô hình hóa

và đặc tả các các khái niệm một cách hình thức, rõ ràng và chia sẻ được ([63], [64])

i d i

t

i

q i d i

w w

w w q

d

q d q d cosin )

q , d ( sim

1

2 , 1

2 ,

1

, ,)

Trang 23

Thêm vào đó, theo [65], ontology cần có thêm tính thống nhất, tính mở rộng và tính suy luận

Ontology được sử dụng nhiều trong các lĩnh vực như biểu diễn tri thức, xử lý ngôn ngữ tự nhiên, rút trích thông tin, cơ sở dữ liệu và hệ thống thông tin địa lý Các ontology có thể chia thành ba nhóm theo cách chúng được xây dựng Nhóm thứ nhất là các ontology được xây dựng thủ công bởi một nhóm các chuyên gia như WordNet ([66]) hoặc KIM ontology ([67]) Nhóm thứ hai là các ontology được xây dựng tự động như YAGO ([68]) Nhóm thứ ba là các ontology có nội dung mở, mọi người đều

có thể tham gia đóng góp nội dung như Wikipedia2 ([69]) Một cách khác, theo nội dung, các ontology có thể được phân nhóm thành ontology về thực thể có tên như KIM ontology, ontology về từ vựng như WordNet, hoặc ontology về sự kiện như YAGO Trong các mô hình đề xuất của luận án, chúng tôi sử dụng KIM ontology, WordNet và YAGO để xử lý truy vấn và tài liệu

KIM

Thực thể có tên là con người, tổ chức, nơi chốn, và những đối tượng khác được tham khảo bằng tên Chúng được đề cập đến lần đầu tại Message Understanding Conference (MUC) ở những năm 1990 ([70]) Mỗi thực thể có tên có ba đặc điểm

ontology cơ bản là tên, lớp và định danh Mỗi thực thể có tên có thể có nhiều tên khác

nhau, được gọi là các bí danh của thực thể có tên đó Mặt khác, cũng có nhiều thực thể

có tên khác nhau nhưng có cùng tên Mỗi thực thể có tên thuộc về một lớp trực tiếp của nó và đồng thời thuộc về các lớp cha của lớp trực tiếp đó Mỗi thực thể có tên có một định danh xác định duy nhất nó

Hệ thống KIM3 (Knowledge and Information Management) bao gồm hai thành phần chính là ontology và mô đun rút trích thông tin (information extraction – IE) ([71]) KIM ontology định nghĩa cây phân cấp các lớp thực thể và các kiểu thuộc tính

và quan hệ giữa các thực thể Ontology này có khoảng 300 lớp thực thể, và 100 kiểu thuộc tính và quan hệ Các kiểu thuộc tính và quan hệ trong KIM là nhị phân, tức chỉ gồm hai đối tượng tham gia Hình 2.1 mô tả bốn lớp tổng quát nhất trong KIM

ontology là Entity, Object, Happening và Abstract, và một số lớp con của chúng

Trang 24

Ontology của KIM có khoảng 77.500 thực thể có tên với hơn 110.000 bí danh Hình 2.2 minh họa một số thực thể có tên và quan hệ giữa chúng trong KIM ontology Mỗi nút biểu diễn một thực thể, còn mỗi cạnh biểu diễn một quan hệ

Hình 2.1 Sự phân cấp của các lớp tổng quát nhất trong KIM ontology

Hình 2.2 Ví dụ về các thực thể có tên và quan hệ trong KIM ontology

Mô đun rút trích thông tin của KIM (KIM IE) có chức năng chính là nhận diện thực thể có tên KIM IE thừa kế từ GATE ([72]) các giải thuật có độ chính xác cao trong xử lý ngôn ngữ tự nhiên nhƣ tách từ (tách văn bản thành các từ có nghĩa), tách câu (tách văn bản thành các câu) và gán nhãn từ loại (xác định loại từ nhƣ danh từ, tính

Trang 25

WordNet

WordNet ([66], [73]) được tổ chức thành các tập đồng nghĩa và có các quan hệ khác nhau giữa các nghĩa như quan hệ đồng nghĩa (synonymy), quan hệ cha/con (hypernymy/hyponymy), quan hệ trái nghĩa (antonymy), quan hệ một phần (meronymy) và quan hệ tương tự (similarity) Phiên bản 3.0 của WordNet, được sử dụng trong luận án, có khoảng 155.000 từ và 117.000 tập đồng nghĩa

Mỗi từ WordNet có các đặc điểm là nhãn (word form, form hoặc label) và nghĩa

(word meaning hoặc sense) Trong đó, mỗi nhãn là sự phát âm hoặc sự ghi vật lý của một từ Mỗi nghĩa của một từ có một định danh xác định duy nhất nó trong WordNet Hai nhãn được gọi là đồng nghĩa của nhau nếu sự thay thế lẫn nhau của chúng trong một câu không làm thay đổi ý nghĩa của câu đó Các nhãn là đồng nghĩa của nhau sẽ tạo thành một tập đồng nghĩa (synsets) và có thể được dùng để biểu diễn một nghĩa

Mỗi nghĩa được biểu diễn bởi tập đồng nghĩa {x, x‟, } được gọi là nghĩa cha (hypernym) của một nghĩa được biểu diễn bởi tập đồng nghĩa {y, y‟, } nếu các câu được khởi tạo từ cấu trúc y is a (kind of) x được chấp nhận Nói cách khác, một nghĩa

cha có thông tin bao phủ thông tin của các nghĩa con của nó

Hình 2.3 Mạng lưới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một nghĩa

của từ “movement”

Hình 2.3 mô tả tập đồng nghĩa, các nghĩa cha và nghĩa con của nghĩa thứ 3 của từ

“movement”, có định danh ký hiệu là #movement_3, trong WordNet Hình này cho thấy nghĩa #movement_3 có tập đồng nghĩa là {motion, move, movement}, có các

Trang 26

nghĩa cha là {#change_3, #action_1} và có các nghĩa con là {#shift_5,

#displacement_3, #travel_3}

YAGO

YAGO (Yet Another Great Ontology) ([74]) chứa khoảng 1,95 triệu thực thể, 93 kiểu quan hệ và 19 triệu sự kiện mô tả thuộc tính và quan hệ giữa các thực thể có tên Các sự kiện này đƣợc rút trích từ Wikipedia và kết hợp với WordNet bằng luật và heuristic Độ chính xác của các sự kiện trong YAGO là khoảng 95% ([68]) Cũng nhƣ

ở KIM ontology, các kiểu thuộc tính và quan hệ giữa các thực thể có tên trong YAGO

là nhị phân Hình 2.4 trình bày một số sự kiện đƣợc mô tả bằng các quan hệ giữa các thực thể trong YAGO

Hình 2.4 Ví dụ về các sự kiện trong YAGO

2.4 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ

Nhận diện thực thể có tên (Named Entity Recognition – NER) là nhằm xác định đúng định danh hoặc lớp của một thực thể có tên trong ngữ cảnh xem xét Tùy theo ngữ cảnh, một giải thuật NER có thể không xác định đƣợc định danh mà chỉ xác định đƣợc lớp của thực thể có tên, hoặc thậm chí cũng không xác định đƣợc lớp Trong luận

án, động cơ nhận diện thực thể có tên của KIM ([67]) đƣợc dùng để rút trích các đặc điểm ontology của thực thể có tên trong truy vấn và tài liệu Các đặc điểm ontology

hasCapital

Thailand

Jakarta

IndonesiaSoutheast Asia

Trang 27

này được luận án khai thác để chú giải thực thể có tên trong truy vấn và tài liệu Độ chính xác và độ đầy đủ của động cơ này lần lượt vào khoảng 90% và 86%4

Phân giải nhập (Word Sense Disambiguation - WSD) là nhằm xác định đúng nghĩa của một từ trong ngữ cảnh xem xét Trong [75], các tác giả cho thấy hiệu quả của giải thuật WSD dựa trên WordNet đề xuất hiệu quả hơn các giải thuật dựa trên WordNet khác và có độ chính xác khoảng 56.8% Luận án áp dụng giải thuật WSD này để rút trích các đặc điểm ontology của từ WordNet, và dùng chúng để chú giải ngữ nghĩa của các từ WordNet trong truy vấn và tài liệu

2.5 Tập dữ liệu kiểm tra

Mỗi tập kiểm tra bao gồm 3 phần: (1) một tập tài liệu; (2) một tập truy vấn; và (3) một tập các cặp truy vấn và tài liệu có liên quan với nhau ([57]) Một số tập kiểm tra chuẩn là TREC, CISI, NTCIR, CLEF, Reuters-21578, TIME và WBR99 ([76]) Trong đó, tập TIME gồm 425 tài liệu và 83 truy vấn, được cung cấp bởi SMART ([77]) TREC5 (The Text REtrieval Conference) là hội thảo được tổ chức hàng năm bởi Viện Kỹ Thuật - Chất Lượng Hoa Kỳ và Bộ Quốc Phòng Hoa Kỳ nhằm tạo ra một cơ

sở cho việc đánh giá các phương pháp truy hồi thông tin với quy mô lớn Tại mỗi hội thảo, TREC tổ chức nhiều phân hệ (track) và mỗi phân hệ tập trung vào từng loại truy hồi thông tin cụ thể như như Web Track, Speech Track và Cross-Language Track

Để xem các tập kiểm tra nào được sử dụng phổ biến trong cộng đồng truy hồi tài liệu, luận án đã tiến hành khảo sát các bài báo (không kể poster) truy hồi văn bản của SIGIR-20076 và SIGIR-20087 Tổng cộng có 56 bài được khảo sát và các tập kiểm tra của chúng được phân thành 3 nhóm lần lượt là các tập kiểm tra thuộc TREC, các tập kiểm tra chuẩn khác và các tập kiểm tra do người tiến hành thực nghiệm tự xây dựng Bảng 2.1 cho thấy có 33 bài trong tổng số 56 bài (khoảng 59%) có sử dụng tập kiểm tra thuộc TREC Trong đó có 15 bài có sử dụng tập tài liệu L.A Times, có hơn 130.000 tài liệu Điều này cho thấy tập L.A Times của TREC được sử dụng phổ biến

để đánh giá các mô hình truy hồi tài liệu Trong luận án, tập TIME được sử dụng cho một số tiền thí nghiệm để khảo sát ảnh hưởng của các đặc điểm ontology của thực thể

4 Được các tác giả báo cáo tại http://www.ontotext.com/kim/performance.html

Trang 28

có tên và các cách kết hợp khác nhau của thực thể có tên với từ khóa Tập TREC lớn hơn được sử dụng để đánh giá hiệu quả truy hồi các mô hình mà luận án đề xuất so với các mô hình liên quan

Bảng 2.1 Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án

khảo sát ở SIGIR-2007 và SIGIR-2008

công trình

Chỉ thuộc TREC

(1)

[78], [79], [80], [81], [82], [83], [84], [85], [86], [87], [88], [89], [90], [91], [92], [93], [37], [94], [95], [96], [97], [98], [99], [100], [101], [102], [103]

27

Chỉ do các tác giả

tự xây dựng (2)

[104], [105], [106], [107], [108], [109], [110], [111], [112], [113], [114], [115], [116], [117], [118], [119], [120]

2.6 Độ đo hiệu quả truy hồi

Các độ đo thường dùng cho việc đánh giá hiệu quả truy hồi của một mô hình truy hồi tài liệu là độ chính xác và độ đầy đủ ([57]) Trong đó:

1 Độ chính xác (precision - P): là tỉ lệ số tài liệu liên quan được truy hồi trên tổng

số tài liệu được truy hồi Độ đo này cho biết phần trăm đúng của các tài liệu được truy hồi

2 Độ đầy đủ (recall - R): là tỉ lệ số tài liệu liên quan được truy hồi trên tổng số tài

liệu liên quan có trong tập kiểm tra Độ đo này cho biết phần trăm các tài liệu liên quan được truy hồi

Trang 29

Hai độ đo này thường là bù trừ với nhau, tức là nếu độ chính xác cao thì độ đầy

đủ thấp và ngược lại Vì vậy một độ đo kết hợp cả hai được sử dụng là độ F

(F-measure), được tính bởi công thức sau:

(2-4)

Nếu xem độ chính xác và độ đầy đủ có tầm quan trọng như nhau thì giá trị  được chọn là 1

Một cách khác để đánh giá hiệu quả truy hồi tài liệu là xây dựng đường cong

P-R, cho thấy sự thay đổi của độ chính xác theo sự tăng dần của độ đầy đủ ([133]) Để làm việc này, các tài liệu truy hồi được xếp hạng từ cao xuống thấp theo mức độ liên quan với truy vấn Tại mỗi tài liệu xem xét, độ chính xác và độ đầy đủ cho tất cả các tài liệu từ trên cùng đến tài liệu xem xét được tính toán và tạo thành một điểm của đường cong P-R

Để tính đường cong P-R trung bình của tất cả các truy vấn trong tập kiểm tra, ta cần phải chuẩn hóa các đường cong P-R thành các đường cong P-R nội suy tại 11 độ đầy đủ chuẩn 0%, 10%, …, 100%, như trong [76] Độ chính xác nội suy cho truy vấn

thứ i tại độ đầy đủ chuẩn thứ j, ký hiệu là rj (j{0, 1, …, 10}), được định nghĩa là:

N

r P r

P

1

j j

j j j

i

r r P

r r P r

F

)(

)

(.2)(

N

r F r

F

1

Trang 30

Công thức (2-8) xác định đường cong F-R, biểu diễn sự thay đổi của độ F theo sự

tăng dần của độ đầy đủ, tại 11 độ đầy đủ chuẩn Khi so sánh hai mô hình, đường cong P-R trung bình và đường cong F-R trung bình của mô hình nào nằm gần hơn về phía góc phải trên của biểu đồ thì mô hình đó có hiệu quả truy hồi tốt hơn

Bên cạnh đó, độ chính xác trung bình nhóm (mean average precision - MAP) cũng là một trong những độ đo chuẩn của cộng đồng truy hồi tài liệu ([76], [134]) Tương tự như khi tính đường cong P-R, để tính độ MAP, tài liệu truy hồi được xếp hạng từ cao xuống thấp theo mức độ liên quan với truy vấn

Trước tiên, độ chính xác trung bình (average precision - AP) của truy vấn thứ i,

ký hiệu là APi, được định nghĩa là giá trị trung bình của các độ chính xác đạt được sau mỗi tài liệu liên quan thứ k được trả về Tức là, với m là tổng số các tài liệu liên quan được trả về cho truy vấn thứ i, D k là tập hợp các tài liệu được trả về tính đến tài liệu liên quan thứ k, và precision(Dk) là độ chính xác cho Dk, thì độ APi được tính bởi:

(2-9)

Từ đó, độ MAP của một tập Q các truy vấn được định nghĩa là:

(2-10)

Tóm lại, với mỗi truy vấn q có 3 cách đánh giá phổ biến là: (1) độ P, R và F; (2)

độ P và độ F tại 11 điểm đầy đủ chuẩn; và (3) độ AP Với mỗi tập truy vấn Q cũng có

3 cách đánh giá trung bình tương ứng trên tất cả các truy vấn trong Q là: (1) độ P trung bình, R trung bình và F trung bình; (2) độ P trung bình và độ F trung bình tại 11 điểm

đầy đủ chuẩn; và (3) độ MAP Trong 3 cách đánh giá ở trên, cách đánh giá thứ 2 và 3

là phổ biến nhất, nên được luận án sử dụng để đánh giá cho mỗi truy vấn và mỗi tập truy vấn

2.7 Kiểm định ý nghĩa thống kê

Sự hơn thua giữa các mô hình thể hiện bởi các độ đo ở trên có thể là tình cờ bởi vì: (1) nội dung của các truy vấn và tài liệu trong tập kiểm tra có thể chưa bao quát hết miền dữ liệu xem xét; (2) sự đánh giá chủ quan của những người đánh giá về sự liên

AP

11

i i

AP Q Q MAP

1

1)(

Trang 31

quan giữa truy vấn và tài liệu trong tập kiểm tra; và (3) số lượng có giới hạn của truy vấn và tài liệu trong tập kiểm tra Do đó, khi tiến hành so sánh các mô hình, một giả

thuyết null (null hypothesis) được đặt ra là các mô hình này tương đương nhau về hiệu

quả truy hồi dù là độ đo hiệu quả của chúng khác nhau Để phủ nhận giả thuyết null và khẳng định mô hình này thật sự hiệu quả hơn mô hình kia thì cần có bước kiểm định ý nghĩa thống kê (statistical significance test) ([135])

Trong [136], các tác giả đã so sánh năm phương pháp kiểm định ý nghĩa thống kê

được sử dụng phổ biến trong lĩnh vực khoa học máy tính, đó là: kiểm định t cặp Student (Student‟s paired t-test), kiểm định thứ hạng có dấu Wilcoxon (Wilcoxon signed rank test), kiểm định dấu (sign test), kiểm định bức phá (bootstrap), và kiểm định ngẫu nhiên Fisher (Fisher‟s randomization) hay còn gọi là kiểm định hoán vị

(permutation) Kết quả thực nghiệm cho thấy phương pháp kiểm định ngẫu nhiên Fisher ổn định nhất trong năm phương pháp Vì thế luận án chọn phương pháp Fisher

để kiểm định sự hơn thua giữa các mô hình thể hiện bởi các độ đo ở trên có phải là tình cờ hay không

Trong phương pháp Fisher, giả thuyết null giả sử hai mô hình A và B tương đương nhau về hiệu quả truy hồi ngay cả khi MAP(A) và MAP(B) khác nhau Khi đó

độ AP của từng truy vấn ở mô hình A có thể hoán đổi với độ AP của cùng truy vấn ở

mô hình B, mà không làm ảnh hưởng đến sự khác biệt về độ MAP của hai mô hình trên tập kiểm tra cho trước Với một tập Q các truy vấn, hai mô hình A và B sẽ có |Q|

cặp giá trị AP Vì thế có tổng cộng 2|Q| hoán vị Trong đó mỗi hoán vị xác định các cặp

giá trị AP nào trong |Q| cặp giá trị AP ở trên được hoán đổi Với mỗi hoán vị, độ MAP

của hai mô hình và hiệu của chúng sẽ được tính lại

Để phủ nhận giả thuyết null thì trị số p hai chiều (two-sided p-value) phải nhỏ hơn hoặc bằng 0,05 Trị số p hai chiều được tính bởi công thức sau:

Trị số p hai chiều = (N – + N + )/2|Q| (2-11)

Trong đó, N – và N + lần lượt là số lần hiệu của hai độ MAP trong 2|Q| hoán vị nhỏ hơn

hoặc bằng -δ và lớn hơn hoặc bằng δ, với δ = |MAP(A) - MAP(B)| Do 2 |Q| là một số rất lớn nên, như đề nghị ở [136], 100.000 hoán vị là chấp nhận được cho phương pháp Fisher

Trang 32

3 Chương 3 - KHAI THÁC THỰC THỂ CÓ TÊN

3.1 Giới thiệu

Ngày nay, thực thể có tên được sử dụng nhiều trong tìm kiếm văn bản trên WWW Cụ thể là 9 trong 10 cụm từ được tìm kiếm nhiều nhất trong YahooSearch8 và GoogleSearch9 năm 2011 đều là thực thể có tên Nhiều nghiên cứu trong các lĩnh vực như rút trích thông tin, trả lời câu hỏi, xử lý ngôn ngữ tự nhiên, và truy hồi tài liệu cũng xét đến các thực thể có tên

Các đặc điểm ontology của thực thể có tên tiềm ẩn trong truy vấn và tài liệu là có

ý nghĩa với hiệu quả truy hồi Ví dụ như đối với lớp của thực thể có tên, các tài liệu

chứa “Ha Noi”, “Paris”, hoặc “New York” có thể là các câu trả lời cho truy vấn tìm tài

liệu về các thành phố (tức là các thực thể thuộc lớp thành phố) trên thế giới Truy hồi tài liệu dựa trên từ khóa sẽ không tìm được các tài liệu ở trên cho truy vấn này, bởi vì

nó không sử dụng thông tin lớp tiềm ẩn của các thực thể trong các tài liệu để so khớp với lớp của các thực thể mà người dùng quan tâm Trong trường hợp định danh của

thực thể có tên, các tài liệu về U.S., USA, United States, hoặc America nên được trả về cho truy vấn tìm các tài liệu về United States of America Truy hồi tài liệu chỉ dựa trên

từ khóa sẽ thất bại bởi vì nó không sử dụng tri thức là một thực thể có tên có thể có nhiều bí danh khác nhau Trong trường hợp thông tin kết hợp bởi lớp và tên của thực

thể có tên, với truy vấn tìm kiếm các tài liệu về ông Washington, người dùng muốn nhận được các tài liệu nói về Washington như là một người Trong khi các mô hình dựa trên từ khóa có thể trả về bất kỳ trang nào chứa từ Washington, cho dù đó là tên

của một tiểu bang hay một trường đại học Vì thế, một trong những mục tiêu của luận

án này là nghiên cứu, khảo sát và khai thác các đặc điểm ontology khác nhau của thực thể có tên cho truy hồi tài liệu

Hơn nữa, sự xuất hiện của một thực thể có tên trong một tài liệu hàm chứa và kéo theo các thông tin tiềm ẩn khác Thứ nhất, đó là các bí danh của thực thể đó Ví dụ,

nếu quốc gia Georgia xuất hiện trong một tài liệu thì xem như các bí danh của nó như

Trang 33

Gruzia cũng có trong tài liệu đó Thứ hai, đó là các lớp cha của lớp của thực thể đó Ví

dụ, nếu thành phố Paris xuất hiện trong một tài liệu thì xem như các lớp cha của lớp City như Location cũng có trong tài liệu đó Vì vậy, để nâng cao hiệu quả truy hồi, các

tài liệu cần được mở rộng bởi các đặc điểm ontology bao phủ, tức là được hàm ý và kéo theo bởi, các đặc điểm ontology gốc của các thực thể có tên xuất hiện trong các tài liệu đó

Mặt khác, một truy vấn thường không chỉ có thực thể có tên, ví dụ ở truy vấn

“economic growth of Vietnam”, Vietnam là thực thể có tên có định danh, còn

“economic” và “growth” là các từ khóa Các từ khóa này cũng quan trọng trong việc

thể hiện nội dung của truy vấn Vì thế, việc kết hợp thực thể có tên và từ khóa là cần thiết để biểu diễn nội dung của các truy vấn và tài liệu

Thêm vào đó, trong các truy vấn có chứa từ để hỏi Wh như Who, Which, Where, When hoặc What, các từ để hỏi này hàm chứa lớp của các thực thể có tên được hỏi Ví

dụ ở truy vấn “Where did the Battle of the Bulge take place?”, từ để hỏi Where hàm ý

về các thực thể có tên thuộc lớp Location Vì thế, việc khai thác và ánh xạ từ để hỏi

Wh đến lớp của thực thể có tên thích hợp cũng được luận án nghiên cứu nhằm nâng

cao hiệu quả truy hồi tài liệu

Chương này đề xuất các mô hình không gian vectơ dựa trên thực thể có tên và từ khóa, với bốn nội dung chính sau: (1) khai thác tất cả các đặc điểm ontology của thực thể có tên; (2) mở rộng tài liệu bằng các đặc điểm ontology bao phủ các đặc điểm ontology gốc của thực thể có tên; (3) khai thác lớp của thực thể có tên tiềm ẩn trong

câu hỏi Wh; (4) kết hợp thực thể có tên và từ khóa Chương này cũng trình bày các kết

quả thí nghiệm và so sánh các mô hình đề xuất với các mô hình liên quan Nội dung của chương này được phát triển từ [42] và đã được công bố trong [43], [44], [45] và [46]

Phần còn lại của chương được tổ chức như sau Phần 3.2 trình bày các công trình liên quan Phần 3.3 trình bày các mô hình đa không gian vectơ dựa trên thực thể có tên Phần 3.4 trình bày các mô hình kết hợp thực thể có tên với từ khóa Phần 3.5 đánh giá và thảo luận các kết quả thực nghiệm trên các mô hình mà luận án đề xuất ở các phần 3.3 và 3.4 Phần 3.6 cuối cùng là kết luận

Trang 34

3.2 Các công trình liên quan

Trong [137], mỗi khái niệm trong một văn bản được liên kết với các khái niệm tương ứng được định nghĩa trong Wikipedia, và sự biểu diễn của văn bản này được làm giàu bởi các từ đồng nghĩa, nghĩa cha và các khái niệm liên quan Các từ đồng nghĩa và nghĩa cha của các khái niệm chung có thể xem tương tự như các bí danh và lớp cha của các thực thể có tên Trong [138], các tác giả đề xuất một mô hình không gian vectơ dựa trên ontology để tính quan hệ tương tự theo ngữ nghĩa giữa các khái niệm trong tài liệu Tuy nhiên, hai công trình này thuộc lĩnh vực phân loại tài liệu (document classification), chứ không phải truy hồi tài liệu

Trong lĩnh vực hệ thống thông tin địa lý, công trình [139] báo cáo tóm tắt các thí nghiệm kiểm tra độ ảnh hưởng của các đặc điểm địa lý, đặc biệt là nơi chốn, đến hiệu quả truy hồi trang web Cũng khai thác đặc điểm ontology của thực thể có tên nhưng không dùng cho truy hồi tài liệu, hệ thống Falcons trong [140] cung cấp một môi trường thân thiện cho người dùng để mô tả lớp của đối tượng muốn tìm

Trong [20], một mô hình dựa trên xác suất được đề xuất để tìm kiếm các đoạn văn bản nói về các kiểu thực thể y sinh học như là các loại gen, bệnh hoặc thuốc, tương tự như các lớp của thực thể có tên Cũng trong lĩnh vực y sinh học, mô hình dựa trên độ tương tự ở [28] xem xét các khái niệm là các gen và các chủ đề trong y khoa Các khái niệm đồng nghĩa, nghĩa cha và nghĩa con cũng được khai thác, tương ứng với các bí danh, lớp cha và lớp con của thực thể có tên Mỗi truy vấn hoặc tài liệu được biểu diễn bởi hai vectơ thành phần, là vectơ cho các khái niệm và vectơ cho các từ khóa Một tài liệu được xem là tương tự hơn với truy vấn so với một tài liệu khác nếu vectơ khái niệm của tài liệu đầu tương tự với vectơ khái niệm của truy vấn hơn Nếu hai vectơ khái niệm của hai tài liệu có cùng độ tương tự với vectơ khái niệm của truy vấn, thì độ tương tự của hai vectơ từ khóa của hai tài liệu và vectơ từ khóa của truy vấn sẽ quyết định Tức là, thành phần từ khóa được xem như thứ yếu hơn thành phần khái niệm

Công trình [141] phát triển một động cơ tìm kiếm trong đó chỉ xét đến lớp của thực thể trong việc kết hợp với từ khóa Hơn nữa, công trình này thiên về hiệu quả thời gian tìm kiếm hơn là chất lượng tìm kiếm vì chỉ đánh giá độ chính xác và độ đầy đủ của động cơ bằng một số truy vấn đơn giản Trong [142], mục tiêu của hệ thống là tìm

Trang 35

kiếm các thực thể có tên thuộc các lớp trong truy vấn và các thực thể này có ràng buộc

với các từ khóa trong truy vấn Ví dụ, truy vấn “Amazon Customer Service Phone”, trong đó Phone được xem như là một thực thể có tên trong câu hỏi về lớp PhoneNumber, tìm các số điện thoại của đúng Amazon Customer Service trong các

trang web, trong khi các trang web này có thể chứa các số điện thoại của các tổ chức khác Như vậy, công trình này chỉ xem xét đến lớp của thực thể và không phải về truy hồi tài liệu

Trong [31], từ các tài liệu liên quan với truy vấn ban đầu dựa trên từ khóa, các thực thể có tên được rút trích, sắp xếp và tổ chức theo các lớp tổng quát để người dùng

có thể chọn một số thực thể phù hợp với truy vấn Tiếp theo, tên của các thực thể được

bổ sung vào truy vấn để làm rõ nghĩa Sau cùng, truy vấn mở rộng được sử dụng để truy hồi lại các tài liệu Công trình này chỉ xem xét đến tên và lớp của thực thể, mà không xem xét đến bí danh và định danh Nghiên cứu trong [30] cho thấy rằng việc chuẩn hóa (normalization) thực thể có tên giúp cải thiện hiệu quả truy hồi Tuy nhiên, công trình này chỉ xem xét đến các tên của thực thể và việc chuẩn hóa này là một cách

để giải quyết vấn đề một thực thể có thể có nhiều bí danh

Các công trình liên quan gần với luận án là [27], [29] và [143] Công trình [27] làm giàu các truy vấn và văn bản bằng các nhãn thực thể có tên Các nhãn này được kết hợp với từ khóa để truy hồi tài liệu Các từ để hỏi cũng được thay thế bởi các nhãn thực thể tương ứng Tuy nhiên, các nhãn thực thể này chỉ đơn giản là một số lớp tổng quát của thực thể có tên Hơn nữa, các lớp cha và các bí danh của thực thể không được xem xét

Trong [29], các tác giả hiệu chỉnh mô hình không gian vectơ truyền thống thành các vectơ trên không gian thực thể có tên và từ khóa Với mỗi truy vấn hoặc tài liệu, các tác giả áp dụng sự kết hợp tuyến tính giữa vectơ dựa trên thực thể và vectơ dựa trên từ khóa với trọng số của từng vectơ là 0,5 Hệ thống được thực nghiệm trên tập kiểm tra do các tác giả xây dựng Nhược điểm của hệ thống này là mỗi truy vấn phải được viết bằng ngôn ngữ RDQL (một ngôn ngữ truy vấn cho RDF) để tìm kiếm trong ontology các thực thể có tên trong truy vấn, trước khi vectơ biểu diễn truy vấn được xây dựng dựa trên các thực thể tìm được Ví dụ, với truy vấn tìm kiếm các tài liệu về

Basketball Player, vectơ biểu diễn truy vấn này được xây dựng dựa trên các tên cầu

Trang 36

thủ bóng rổ trong ontology Điều này làm tốn thời gian tìm kiếm một cách không cần

thiết so với cách chỉ cần tìm các tài liệu có chứa các thực thể thuộc lớp Basketball Player Hơn nữa, một ontology thường không đầy đủ, nên các tài liệu phù hợp chứa

các thực thể có tên không tồn tại trong ontology sẽ không được trả về, vì các thực thể này không được dùng để xây dựng truy vấn

Trong lúc đó, mô hình khai thác ngữ nghĩa tiềm ẩn được đề xuất ở [143] sử dụng

cả thực thể có tên và từ khóa như là thuật ngữ của một không gian vectơ chung Đặc điểm chính của mô hình này là việc mở rộng tài liệu bằng các thuật ngữ không xuất hiện trong tài liệu nhưng có quan hệ đồng xuất hiện với các thuật ngữ có trong tài liệu Các tác giả thực nghiệm mô hình trên 20 câu truy vấn được chọn ngẫu nhiên từ 112 truy vấn của tập kiểm tra CISI ([77]) với 1.460 tài liệu được chọn từ [144] Hạn chế của công trình này là chỉ khai thác tên của thực thể mà không khai thác các đặc điểm ontology khác

Bảng 3.1 Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên

cho truy hồi tài liệu

Công trình

Đặc điểm ontology được sử dụng để biểu diễn truy vấn và tài liệu

là của cùng một thực thể Việc tách rời này làm cho các tài liệu chứa thực thể có cùng tên (nhưng khác lớp) hoặc chứa thực thể có cùng lớp (nhưng khác tên) với thực thể ở truy vấn được truy hồi, trong khi các thực thể trong các tài liệu này không phải là các

Trang 37

thực thể như truy vấn mong đợi (tức mỗi thực thể có cùng cả tên và lớp với thực thể ở truy vấn) Khảo sát này cho thấy các công trình này chưa khai thác hai đặc điểm ontology của thực thể có tên là: (1) định danh, xác định chính xác một thực thể; và (2) cặp tên-lớp, tức là về việc đặc tả các thực thể có cùng một tên và thuộc cùng một lớp xác định nào đó

3.3 Mô hình đa không gian vectơ cho thực thể có tên

Các đặc điểm ontology của thực thể có tên

Các mô hình truy hồi tài liệu theo từ khóa không thể thỏa mãn người dùng với các dạng truy vấn sau đây:

Q1: Tìm kiếm các tài liệu về Sài Gòn

Q2: Tìm kiếm các tài liệu về công ty

Q3: Tìm kiếm các tài liệu về thành phố Paris

Q4: Tìm kiếm các tài liệu về thành phố Paris thuộc bang Texas của nước Mỹ

Ở truy vấn Q1, các tài liệu nói về thành phố Sài Gòn thông qua một số tên khác của nó như là “Thành phố Hồ Chí Minh” hoặc “TPHCM” cũng là các kết quả đúng Ở truy vấn Q2, một tài liệu phù hợp không nhất thiết phải chứa từ khóa “công ty”, mà chỉ cần nói về một hoặc một vài công ty (tức là thuộc lớp Công ty), như NIKE, SONY và APPLE Ở truy vấn Q3, người sử dụng không mong chờ nhận các tài liệu về Paris như

là một trường đại học hoặc một diễn viên Lưu ý là có nhiều thành phố tên Paris trên

thế giới, và bất kỳ tài liệu nào nói về một trong các thành phố này đều là kết quả đúng

Trong khi đó, truy vấn Q4 muốn tìm các tài liệu nói về một thành phố Paris xác định

rõ ràng (ở bang Texas của Mỹ)

Các ví dụ trên cho thấy các đặc điểm ontology của thực thể có tên cần được khai

thác để biểu diễn truy vấn và tài liệu Ngoài các đặc điểm ontology cơ bản là tên, lớp

và định danh, luận án còn xét đến cặp tên-lớp, là đặc điểm ontology kết hợp tên và lớp

Trang 38

đặc điểm ontology của thực thể có tên, luận án định nghĩa bộ ba (N, C, I), trong đó N,

C, và I lần lƣợt là tập hợp các tên, lớp và định danh của các thực thể trong ontology về

thực thể Theo đó:

1 Mỗi truy vấn q hoặc tài liệu d đƣợc mô hình hóa nhƣ là một tập con của

(N{*})(C{*})(I{*}) Mỗi bộ ba (tên/lớp/địnhdanh) trong tập này

đƣợc xem là một thuật ngữ (term) ontology của thực thể có tên Trong đó „*‟ biểu thị một tên, lớp hoặc định danh không xác định của một thực thể có tên trong truy vấn hoặc tài liệu

2 Truy vấn q đƣợc mô tả bởi bộ bốn ( qN

, qC

, qNC

, qI), trong đó, qN

Truy vấn q: "Who is the president of Stanford University?"

Tài liệu d: "The California Compact and has been in existence for several years The California group is co-chaired

by Stanford University President Don Kennedy and "

Các đặc điểm ontology của thực thể có tên

1 Stanford University đƣợc biểu diễn bởi bộ ba (Stanford University/University/University_T.52) và có tên khác là

Stanford

2 California Compact đƣợc biểu diễn bởi bộ ba (California Compact/Organization/*)

3 California đƣợc biểu diễn bởi bộ ba (California/Province/Province_T.4198)

4 Don Kennedy đƣợc biểu diễn bởi bộ ba (Don Kennedy/Man/*)

Hệ thống phân cấp ontology cho các lớp của các thực thể có tên ở trên

1 Lớp University có các lớp cha là EducationalOrganization, Organization, Group và Agent

2 Lớp Organization có các lớp cha là Group và Agent

3 Lớp Province có các lớp cha là PoliticalRegion và Location

4 Lớp Man có các lớp cha là Person và Agent

Các tập hợp bộ ba thực thể có tên biểu diễn truy vấn và tài liệu

Truy vấn q = {(Stanford University/University/University_T.52)}

Tài liệu d = {(California Compact/Organization/*), (California/Province/Province_T.4198),

(Stanford University/University/University_T.52), (Don Kennedy/Man/*)}

Hình 3.1 Biểu diễn truy vấn và tài liệu bằng các tập hợp bộ ba thực thể có tên

Trang 39

Một đặc điểm ontology của một thực thể có thể không được xác định rõ vì nhiều

lý do Thứ nhất, người dùng chỉ quan tâm đến một hoặc một số đặc điểm của thực thể

này nên không đề cập đến các đặc điểm khác trong truy vấn như ở Q1, Q2 và Q3 Thứ hai, ngữ cảnh của thực thể này trong tài liệu là không đủ rõ để nhận diện nó Thứ ba, động cơ nhận diện thực thể có hạn chế trong việc nhận diện thực thể này một cách đầy

đủ Hình 3.1 trình bày ví dụ về một cặp truy vấn và tài liệu trong tập kiểm tra của TREC, và việc biểu diễn chúng bằng các tập hợp bộ ba của thực thể có tên Trong đó,

hai thực thể Stanford University và California được nhận diện có định danh lần lượt là University_T.52 và Province_T.4198, còn các định danh của hai thực thể California Compact và Don Kennedy không xác định được bởi động cơ nhận diện thực thể có tên

của KIM Hệ thống phân cấp ontology cho các lớp trong ví dụ được rút trích từ KIM ontology

Mỗi vectơ trong bốn vectơ thành phần cho một truy vấn hoặc tài liệu được giới thiệu ở trên là một vectơ như trong mô hình không gian vectơ truyền thống, nhưng trên túi các thuật ngữ ontology là các tên, các lớp, các cặp tên-lớp, hoặc các định danh, thay

vì các từ khóa (bag-of-words) Tuy nhiên, khác với truy hồi tài liệu theo từ khóa, sự xuất hiện của một thực thể có tên trong một tài liệu hàm chứa và kéo theo các thông tin

tiềm ẩn trong thực thể đó Ví dụ như với một truy vấn về Location thì tài liệu nói về thành phố Sài Gòn là một tài liệu phù hợp để truy hồi, vì thành phố Sài Gòn thuộc về lớp Location Điều này có thể được hiện thực bằng cách thêm vào tài liệu đó lớp cha của lớp City là lớp Location Như vậy, mỗi tài liệu cần được mở rộng với các đặc điểm

ontology bao phủ các đặc điểm ontology gốc của các thực thể xuất hiện trong nó Việc

mở rộng này tốn thời gian, nhưng có thể được làm trước nên không ảnh hưởng đến thời gian chạy (run-time) để trả lời các truy vấn

Do đó, so với cách tính trọng số tf.idf trong mô hình không gian vectơ truyền

thống cho vectơ tài liệu, mô hình đề xuất có hai khác biệt quan trọng sau đây trong việc tính tần suất của các đặc điểm ontology của thực thể có tên:

1 Tần suất của một tên của một thực thể có tính đến sự xuất hiện của các bí danh của thực thể đó Tức là, nếu một tài liệu chứa một thực thể có bí danh

là một tên nào đó thì tên này cũng được xem như xuất hiện trong tài liệu Ví

dụ, nếu một tài liệu đề cập đến quốc gia Georgia, thì mỗi lần xuất hiện của

Trang 40

thực thể này trong tài liệu được tính là một lần xuất hiện của tên Gruzia, bởi

vì nó là bí danh của Georgia Các bí danh của thực thể có tên được định

nghĩa trong ontology về thực thể

2 Tần suất của một lớp có tính đến sự xuất hiện của các lớp con của nó Tức

là, nếu một tài liệu chứa một thực thể mà lớp của nó là một lớp con của một lớp nào đó, thì lớp cha này cũng được xem như xuất hiện trong tài liệu Ví

dụ, nếu một tài liệu đề cập đến Paris như một thành phố, thì mỗi lần xuất

hiện của thực thể này trong tài liệu được tính là một lần xuất hiện của lớp

Location, bởi vì City là lớp con của Location Sự bao phủ lớp được định

nghĩa trong hệ thống phân cấp lớp của ontology về thực thể

Độ tương tự của một tài liệu d và một truy vấn q được định nghĩa là:

Lưu ý rằng việc kết hợp hai vectơ N và C không thể thay thế được vectơ NC vì vectơ NC đề cập đến các thực thể với cặp tên-lớp xác định Ví dụ, một tài liệu cùng

đề cập đến một thực thể với tên là Paris và một thành phố khác thì tài liệu này không

nhất thiết đề cập đến thành phố Paris Bên cạnh đó, vectơ NC không thể thay thế cho vectơ I bởi vì các thực thể khác nhau có thể có cùng tên và lớp, ví dụ một thành phố

Paris ở Pháp và một thành phố Paris ở Mỹ Ngoài ra, các tên và lớp của một thực thể

được xác định từ định danh của nó, nên việc kết hợp I với N hoặc C là không cần thiết

Tóm lại, ở đây luận án mở rộng khái niệm thuật ngữ là các từ khóa trong mô hình không gian truyền thống với các thuật ngữ là các tên, lớp, cặp tên-lớp, hoặc định danh của các thực thể, và sử dụng bốn vectơ trên bốn không gian nói trên để biểu diễn cho một truy vấn hoặc một tài liệu trong mô hình đề xuất

Ngày đăng: 09/07/2015, 08:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] W. B. Croft, D. Metzler and T. Strohman, “Search Engines: Information Retrieval in Practice,” ADDISON WESLEY Publishing Company Incorporated, 2010 Sách, tạp chí
Tiêu đề: Search Engines: Information Retrieval in Practice
[2] R. Guha, R. McCool and E. Miller, “Semantic Search,” in Proceedings of the 12 th International Conference on World Wide Web (WWW-2003), ACM, pp.700-709, 2003 Sách, tạp chí
Tiêu đề: Semantic Search,” in "Proceedings of the 12"th" International Conference on World Wide Web (WWW-2003)
[3] C. Mangold, “A Survey and Classification of Semantic Search Approaches,” in Journal International Journal of Metadata, Semantics and Ontologies, Vol. 2, No.1, pp. 23-34, 2007 Sách, tạp chí
Tiêu đề: A Survey and Classification of Semantic Search Approaches,” in "Journal International Journal of Metadata, Semantics and Ontologies
[4] H. Dong, F. K. Hussain and E. Chang, “A Survey in Semantic Search Technologies,” in Proceedings of the 2 th IEEE International Conference on Digital Ecosystems and Technologies (IEEE DEST-2008), pp. 403-408, 2008 Sách, tạp chí
Tiêu đề: A Survey in Semantic Search Technologies,” in "Proceedings of the 2"th" IEEE International Conference on Digital Ecosystems and Technologies (IEEE DEST-2008)
[5] B. Fazzinga and T. Lukasiewicz, “Semantic Search on the Web,” in Semantic Web, Vol. 1, No. 1-2, pp. 89-96. 2010 Sách, tạp chí
Tiêu đề: Semantic Search on the Web,” in "Semantic Web
[6] M. Sanderson, “A Study of User Interaction with a Concept based Interactive Query Expansion Support Tool (CiQuest) which is integrated into Okapi,” in Proceedings of the 26 th European conference on Advances in Information Retrieval (ECIR-2004), Springer, LNCS, Vol. 2997, pp. 42-56, 2004 Sách, tạp chí
Tiêu đề: A Study of User Interaction with a Concept based Interactive Query Expansion Support Tool (CiQuest) which is integrated into Okapi,” in "Proceedings of the 26"th" European conference on Advances in Information Retrieval (ECIR-2004)
[7] D. Damljanovic, M. Agatonovic and H. Cunningham, “Natural Language Interface to Ontologies: Combining Syntactic Analysis and Ontology-based Lookup through the User Interaction,” in Proceedings of the 7 th European Semantic Web Conference, Research and Applications (ESWC-2010), Part I, Springer, LNCS, Vol. 6088, pp. 106-120, 2010 Sách, tạp chí
Tiêu đề: Natural Language Interface to Ontologies: Combining Syntactic Analysis and Ontology-based Lookup through the User Interaction,” in "Proceedings of the 7"th" European Semantic Web Conference, Research and Applications (ESWC-2010)
[8] G. Tummarello et al., “Sig.ma: Live Views on the Web of Data,” in Proceedings of the 19 th International Conference on World Wide Web (WWW- 2010), ACM, pp. 1301-1304, 2010 Sách, tạp chí
Tiêu đề: et al"., “Sig.ma: Live Views on the Web of Data,” in "Proceedings of the 19"th" International Conference on World Wide Web (WWW-2010)
[9] B. Billerbeck et al., “Ranking Entities Using Web Search Query Logs,” in Proceedings of the 14 th European Conference on Research and Advanced Sách, tạp chí
Tiêu đề: et al"., “Ranking Entities Using Web Search Query Logs,” in "Proceedings of the 14"th
[10] J. Pehcevski et al., “Entity Ranking in Wikipedia: Utilising Categories, Links and Topic Difficulty Prediction,” in Information Retrieval. Vol. 13, No. 5, pp.568-600, 2010 Sách, tạp chí
Tiêu đề: et al.", “Entity Ranking in Wikipedia: Utilising Categories, Links and Topic Difficulty Prediction,” in "Information Retrieval
[11] R. Kaptein and J. Kamps, "Exploiting the Category Structure of Wikipedia for Entity Ranking," in Artificial Intelligence, Elsevier, Vol. 194, pp. 111-129, 2013 Sách, tạp chí
Tiêu đề: Exploiting the Category Structure of Wikipedia for Entity Ranking
[12] D. Mottin, T. Palpanas and Y. Velegrakis, “Entity Ranking Using Click-Log Information,” in Intelligent Data Analysis Journal, Vol. 17, No. 5, 2013 Sách, tạp chí
Tiêu đề: Entity Ranking Using Click-Log Information,” in "Intelligent Data Analysis Journal
[13] M. Potthast, B. Stein and M. Anderka, “A Wikipedia-based Multilingual Retrieval Model,” in Proceedings of the 30 th European Conference on Information Retreival Research (ECIR-2008), Springer, LNCS, Vol. 4956, pp.522–530, 2008 Sách, tạp chí
Tiêu đề: A Wikipedia-based Multilingual Retrieval Model,” in "Proceedings of the 30"th" European Conference on Information Retreival Research (ECIR-2008)
[14] C. T. Nguyen and D. T. Nguyen, “A New Model of English-Vietnamese Bilingual Information Retrieval System,” in Proceedings of the Second International Conference on Computer Modeling and Simulation (ICCMS '10), pp. 254 – 257, 2010 Sách, tạp chí
Tiêu đề: A New Model of English-Vietnamese Bilingual Information Retrieval System,” in "Proceedings of the Second International Conference on Computer Modeling and Simulation (ICCMS '10)
[15] D. Zhou et al., “A Late Fusion Approach to Cross-Lingual Document Re- Ranking,” in Proceedings of the 19 th ACM International Conference on Information and Knowledge Management (CIKM-2010), ACM, pp. 1433-1436, 2010 Sách, tạp chí
Tiêu đề: et al"., “A Late Fusion Approach to Cross-Lingual Document Re-Ranking,” in "Proceedings of the 19"th" ACM International Conference on Information and Knowledge Management (CIKM-2010)
[16] B. Roth and D. Klakow, “Cross-Language Retrieval using Link-based Language Models,” in Proceedings of the 33 rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR- 2010), ACM, pp. 773-774, 2010 Sách, tạp chí
Tiêu đề: Cross-Language Retrieval using Link-based Language Models,” in "Proceedings of the 33"rd" International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-2010)
[17] Y. Li, H. Yang and H. V. Jagadish. “NaLIX: A Generic Natural Language Search Environment for XML Data,” in Journal ACM Transactions on Database Systems (TODS), Vol. 32, No. 4, 2007 Sách, tạp chí
Tiêu đề: NaLIX: A Generic Natural Language Search Environment for XML Data,” in "Journal ACM Transactions on Database Systems (TODS)
[18] S. Ferré, “Conceptual Navigation in RDF Graphs with SPARQL-Like Queries,” in Proceedings of 8 th International Conference on Formal Concept Analysis (ICFCA-2010), Springer, LNCS, Vol. 5986, pp. 193-208, 2010 Sách, tạp chí
Tiêu đề: Conceptual Navigation in RDF Graphs with SPARQL-Like Queries,” in "Proceedings of 8"th" International Conference on Formal Concept Analysis (ICFCA-2010)
[19] A. Hogana et al., “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine,” in Web Semantics: Science, Services and Agents on the World Wide Web, Vol. 9, No. 4, pp. 365-401, 2011 Sách, tạp chí
Tiêu đề: et al"., “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine,” in "Web Semantics: Science, Services and Agents on the World Wide Web
[20] E. Meij and S. Katrenko, “Bootstrapping Language Associated with Biomedical Entities,” in Proceedings of the 16 th Text REtrieval Conference (TREC-2007), 2007 Sách, tạp chí
Tiêu đề: Bootstrapping Language Associated with Biomedical Entities,” in "Proceedings of the 16"th" Text REtrieval Conference (TREC-2007)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w