1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Khoa học máy tính: Truy hồi thông tin dựa trên Ontology

138 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Truy hồi thông tin dựa trên Ontology
Tác giả Ngô Minh Vương
Người hướng dẫn PGS. TS. Cao Hoàng Trụ
Trường học Đại học Quốc gia TP.HCM
Chuyên ngành Khoa học Máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2013
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 138
Dung lượng 22,37 MB

Nội dung

Mục tiêu của luận ánnày là nghiên cứu và khai thác các ontology về thực thé có tên, từ WordNet và sự kiệnvề quan hệ thực thé dé nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ

Trang 1

| ĐẠI HỌC QUỐC GIA TP.HCM |

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HOI THONG TIN DUA TREN ONTOLOGY

LUẬN AN TIEN SĨ KY THUAT

Trang 2

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HOI THONG TIN DỰA TREN ONTOLOGY

LUẬN ÁN TIEN SI KỸ THUAT

TP HO CHI MINH NAM 2013

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

NGÔ MINH VƯƠNG

TRUY HOI THONG TIN DỰA TREN ONTOLOGY

Chuyén nganh: Khoa hoc May tinh

Ma s6 chuyén nganh: 62.48.01.01Phan biện độc lập 1: PGS TS Đồng Thị Bích Thủy, DH KHTN, ĐHQG TPHCM

Phản biện độc lập 2: PGS TS Lê Thanh Hương, Viện CNTT&TT, DH BKHN

Phản biện 1: PGS TS Đỗ Phúc, ĐH CNTT, ĐHQG TPHCMPhản biện 2: TS Nguyễn Thị Minh Huyền, ĐH KHTN, ĐHQG HNPhản biện 3: PGS TS Dương Tuan Anh, DH BKTPHCM, ĐHQG TPHCMNGƯỜI HUONG DAN KHOA HỌC

PGS TS Cao Hoang Trụ, ĐH BKTPHCM, ĐHQG TPHCM

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân.Tat cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc mộtcách rõ ràng từ danh mục tài liệu tham khảo được dé cập ở phan sau của luận án.Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã được công bốtrong các bài báo của tác giả ở phan sau của luận án và chưa được công bồ trong bat

kỳ công trình khoa học nào khác.Tác giả luận án

Ngô Minh Vương

Trang 5

LỜI CÁM ƠN

Trong quá trình hoàn thành luận án này, tôi đã được các thay cô nơi cơ sở đảo tạogiúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia

đình thường xuyên động viên khích lệ.

Luận án này không thé hoàn thành tốt nếu không có sự tận tình hướng dan và sựgiúp đỡ quí báu của PGS.TS Cao Hoàng Trụ, Thầy hướng dẫn mà tôi tôn vinh vàmuốn được bày tỏ lòng biết ơn sâu sắc nhất Tôi cũng muốn được bày tỏ lòng biết ơnđối với tập thé các thay cô Khoa KH&KT Máy Tính - Đại học Bách Khoa Tp.HCM đãgiúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ởKhoa Cảm ơn Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình

hoàn thành luận án.Cảm ơn Ban Giám hiệu Trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học

Công nghệ & Dự án, và Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tàinghiên cứu cấp trường năm 2010 Cảm ơn Tập doan TOSHIBA đã cấp học bồngChương trình nghiên cứu khoa học và công nghệ cho học viên sau đại học xuất sắctrong 3 năm 2008, 2009 va 2010 Cảm ơn Ban Giám đốc DHQGTpHCM, Ban Quanhệ và Đối ngoại đã tạo điều kiện thuận lợi cho tôi tiếp cận được học bỗng TOSHIBA ởtrên Cảm ơn Tập đoàn VNG đã tài trợ một phần kinh phí để tôi có thể công bố vàthuyết trình công trình của mình tại hội nghị JCNLP-2011 ở Chiang Mai, Thailand.Những tài trợ này đã hỗ trợ tôi rất nhiều về mặt tài chính dé trang trải một phan kinh

phí hoc tap va nghiên cứu của tôi trong thời gian qua.

Tôi chân thành cảm ơn Trung tâm CNTT - Ngân hàng Phát Triển Nhà ĐBSCL,Trung tam R&D - Tập đoàn VNG va Khoa CNTT - Đại học Tôn Đức Thắng đã tạomọi điều kiện thuận lợi cho tôi từ năm 2008 đến nay để hoàn thành luận án này Cuốicùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời độngviên khích lệ quí báu giúp tôi vượt qua khó khăn đề hoàn thành tốt luận án

Tác giả luận án

Ngô Minh Vương

Trang 6

TÓM TẮT

Các hệ thống truy hồi tài liệu dang văn bản hiện nay gặp nhiều thách thức trongviệc khám phá và biểu diễn ngữ nghĩa của truy van và tài liệu Truy hỏi tài liệu dựatrên việc so trùng các từ khóa có nhiều nhược điểm bởi vì nó chỉ xem xét đến hìnhthức bề mặt của các từ xuất hiện trong văn bản hơn là ý nghĩa của các từ này Trongkhi đó, nội dung của văn bản phân lớn được xác định bởi các khái niệm như thực thểcó tên và từ WordNet Mặc khác, truy vẫn đã có thể hiện rõ hơn mong muốn của ngườiđặt truy van nếu được bổ sung các khái niệm tiềm an phù hợp Mục tiêu của luận ánnày là nghiên cứu và khai thác các ontology về thực thé có tên, từ WordNet và sự kiệnvề quan hệ thực thé dé nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ day

đủ.

Trong văn bản, các khái niệm được diễn đạt dưới các dạng như tên của thực thểhoặc nhãn của từ Các khái niệm này an chứa các đặc điểm ontology bên dưới các hìnhthức bề mặt của chúng như bí danh/từ đồng nghĩa, lớp cha/nghĩa cha, lớp con/nghĩacon và định danh/nghĩa của từ Ngoài ra, mỗi truy vẫn còn hàm ý các thực thể liênquan đến các thực thể xuất hiện tường minh trong truy vấn

Luận án này có ba nội dung chính Thứ nhất, luận án khảo sát tất cả các đặc điểmontology của thực thé có tên, các cách kết hợp chúng với từ khóa thông thường, vànghiên cứu ảnh hưởng của chúng đến hiệu quả truy hồi tài liệu, trong đó có cặp tên-lớpvà định danh của thực thể có tên mà các công trình trước đây chưa khai thác Thứ hai,luận án đề xuất sử dụng thêm cặp nhan-nghia của từ WordNet bên cạnh các đặc điểm

ontology cơ bản khác đã được sử dụng trước đây Thứ ba, luận án khai thác ontology

về sự kiện dé mở rộng truy van bang các thực thé tiêm an theo các quan hệ tường minhvới các thực thể trong truy vấn

Các mô hình dé xuất được hiện thực bằng cách mở rộng mô hình không gianvectơ cơ bản và được đánh giá băng thực nghiệm trên các tập dữ liệu và độ đo hiệuquả chuẩn Kết quả thí nghiệm cho thay các mô hình đề xuất cho hiệu quả truy hồi tàiliệu cao hơn so với các mô hình ở các công trình liên quan quan và mô hình truy hồitài liệu theo từ khoá thông thường Đặc biệt luận án đã sử dụng phương pháp kiểmđịnh ý nghĩa thống kê để xác nhận lại sự tăng hiệu quả thật sự của các mô hình dé

xuat.

Trang 7

ABSTRACTCurrent text document retrieval systems are facing to many challenges Indiscovering and representing the semantics of queries and documents Documentretrieval based on lexical matching of keywords has many drawbacks because it onlyconsiders the surface forms of words appearing in a text rather than the meaning of thewords Meanwhile, the content of a text is mostly determined by concepts such asnamed entities and WordNet words On the other hand, the meaning of a query couldexpress more clearly user intention if it is expanded with suitable latent concepts Theobjective of this thesis is to exploit ontologies of named entities, WordNet words andentity relationship facts to improve the performance of document retrieval in terms ofthe precision and recall measures.

In a text, concepts are expressed by their surface forms like entity names or wordlabels Those concepts contain hidden ontological features under their surface forms,such as aliases/synonyms, super-classes/hypernyms, sub-classes/hyponyms andidentifiers/senses Besides, each query also implies those entities that are related toentities explicitly appearing in the query.

This thesis consists of three main parts First, the thesis explores ontologicalfeatures of named entities, different combinations of them and keywords, andevaluates their impact to document retrieval performance, in which name-class pairsand identifies of named entities have not been exploited in previous works Second,the thesis proposes usage of form-sense pairs of WordNet words in addition to otherbasic ontological features that have been used previously Third, the thesis exploits anontology of facts to expand a query by latent entities that have explicit relations withother entities in the query.

The proposed models are implemented by extending the basic vector spacemodel and experimented on benchmark datasets and standard performance measures.Experiment results show that the proposed models give better retrieval performancethan the models of related works and the traditional keyword-based document retrievalmodel Especially, this thesis uses statistical significance tests to confirm the actualimprovement in performance of the proposed models.

Trang 8

l_ Chương 1 - GIỚI THIỆUU ¿<2 2E E38 5 EEk S2 5E 1E 1111 11c 511gr ru |

I.I Động cơ nghiên CỨU CC 110 nh l1.2 Mục tiêu và phạm vi của luận án - «<< << 1 11 1 re 2I3 Những đóng góp chính của luận án - - - - Ăn nh 3

1⁄4 Cấu trúc của luận án - SG t1 KH1 S11 TH Su HT TH ng nhọ 42 _ Chương 2 - CƠ SỞ KIÊN THỨCC - 5c E23 S2E2 51512125 151112111 E111 ce2 6

2.1 Mô hình không gian V€CƠY - G- - c0 nh 6

2.2 _ Giới thiệu về LLUC€ne G- Ec t1S123 111 11 3191191 111519 11 11 1T Hư HH nhọ 7

24 Nhận diện thực thé có tên và phân giải nhập nhằng nghĩa của từ 112.5 _ Tập dữ liệu kiỂm tra cccccccccscscscesescscsescssescscscsesessescscsesssssssscsesesseeceesees 122.6 D6 đo hiệu quả truy hi oo ¿6562 2 212% 525 5 51 121 1 52515125150 11x xe 132:7 _ Kiểm định ý nghĩa thống kê ¿+ 2 E2 2E E321 EE E111 re rrrk 153 Chương 3 - KHAI THÁC THỰC THE CÓ TÊN - se +c+x+x+e+rersrred 17

3.1 Giới thiSu cece ccccececscsesssscecscscsesscscscsesesssscecsesesesscscsesesseecscseseeseseeaes 173.2 _ Các công trình liÊn Quan CS 1011010110103 9 9 99 9n và 19

3.3 Mô hình đa không gian vecto cho thực thé có tên ceeccceeeeeeeeseeeeeen 223.4 Kết hợp thực thé có tên và từ Khóa -¿ ¿+ + +< 2E 1E E2 2 2E E21 tre 31

3.5 _ Đánh giá thực nghiệm C11111 001000009 9 9 1 1 1v và 38

3.6 KẾtluận LH TH TH TH TH ng TT HH TH nung 564 Chương 4 - KHAI THÁC TU WORDNET -.-¿ - c2 S2 E2 re 58

4.1 Giới thiệu SĂ c c1 1S S S111 TS 111111111 111110101 111101110 1 11g 584.2 Cac công trình liên quan SH nghe 594.3 Mô hình không gian vectơ dựa trên từ WordNet - cà k, 614A Đánh giá thực nghiỆm - - << - cv 66

4.5 KẾT luận LG TH TH TT ng TH HT HT HH TH ngụ 725 Chương 5 - KHAI THÁC THONG TIN TIÊM AN - essence 73

5.[ - Giới thiệu -. - SE 111 1E 111111111 1511111010 11110111 11111111 grrrkg 733.2 _ Các công trình HEN QUaTI s5 5555 51550033 91 91 ng 74

MỤC LỤC

Trang 9

5.3 Phương pháp kích hoạt lan truyÊn - + + 2 + + 2+2 £2 E2 E£E£E£E££sEzkrerersrsed 76SA ao na 78

5.5 _ Đánh giá thực nghiỆm Ă Ă- - c9 ng 80

5,6 K@tuan ei cececceccscecsccescesseccscecceccscsscsececsscsacavscssesscescsesscsaceavsusacescacuasaceaees 866 Chương 6 — KET HOP CAC MO HINH ou ceececesceecscecesesescecssesserscsesesesvesseeseees 88

6.1 Giới thiSu cece ccc cecscscscscsessssescssscscecscecsescscsesesessvsssvsvscscsnscscsessseeesssees 88

6.2 Mô hình hợp nhất - - CS E111 3E 15151 121 1111110111111 0101010 1111 x6 88

6.3 Đánh giá thực nghiỆm - - -Ă Ă- < c9 ng ng 90

GA KẾt luận G- c1 1S HT ng TT TH TH ng TH TH Hưng cep 957 Chương 7 - TONG KKẾT 2 CS 2 S323 5 1115321 15111110111 111010101 11x gxĐ 967.1 TOM HẶ( S Ăn 1111111 515111110101 11 110111 1111010101011 010kg 967.2 Hướng phát triỀn - ¿+ 52 2%2E SE S* SE SE SE EE E111 211111111111 re 98CÁC CONG TRINH CUA TÁC GIÁ LIÊN QUAN DEN LUẬN ÁN 100TÀI LIEU THAM KHHẢO G19 195191E 11 31 1 21 S1 1195113 11 1kg ưng 102

Trang 10

DANH MỤC CÁC BANG

Bảng 2.1 Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án

khảo sát ở SIGIR-2007 và SIGIR-2006 - SH kg 13

Bảng 3.1 Khảo sát việc khai thác các đặc điểm ontology của thực thé có tên cho

truy hồi tài liỆU ¿+ E2 SE S2 2E 12525 5151111111 5111 110111111101 01 01 11x xe 21Bảng 3.2 Các vi dụ về việc chuyển đổi từ dé hỏi sang lớp của thực thể 37Bảng 3.3 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mồ hình Lexical, NEo, NEn và NE-KW Q LH 39

Bang 3.4 Các độ F trung bình tại mười một điểm day đủ chuẩn của các mô hình

Lexical, NEo, NEn và NE-KW ccc cece ccccccccsccceccececcescceseessescesseessesseess 39Bang 3.5 Các độ chính xác trung bình nhóm cua các mồ hình Lexical, NEo,

NED Va 8) 0» ›©`/ãIdddddididẳắẳắẳắẳắũẳẢd.- 40

Bảng 3.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của

mồ hình NE+KW so với các mô hình khác - << <+2 41

Bang 3.7 Việc su dung các đặc điểm ontology của thực thể có tên để biểu diễn

truy vấn và tài LiỆU ¿-¿ ¿+ 2 k212121 121 1 121 1E E111 1111110111111 re 4Bảng 3.8 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mồ hình Lexical, Group_l, Group_2, Group_3, NE+KW-+notID, và

Bang 3.9 Các độ F trung bình tại mười một điểm day đủ chuẩn của các mô hình

Lexical, Group_ l, Group_2, Group_ 3, NE+K W-+notID, và NE+KW 46Bang 3.10 Cac độ chính xác trung bình nhóm của các mô hình Lexical,

Group_1, Group_2, Group_ 3, NE+KW-+notID, và NE+KW 46

Bảng 3.11 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của

mồ hình NE+KW so với các mô hình Lexical, Group_l, €Group_2,Group_3 và NE+KW~+notÏI] nghe 47Bảng 3.12 Các độ chính xác trung bình của hai mô hình Lexical và NE+KW

trên các truy van điển hình -¿-¿- +52 + S222 2 +ESEeEEEEEEEeErkrkrkrreerree 50

Trang 11

Bảng 3.13 Các độ chính xác trung bình tại mười một điểm đầy đủ chuẩn của các

mồ hình Lexical, NE+KW và NE+KW+Wh -

Bảng 3.14 Các độ Ƒ trung bình tại mười một điểm đây đủ chuẩn của các mô

hình Lexical, NE+KW và NE+KW+Wh se.Bảng 3.15 Các độ chính xác trung bình nhóm của các mô hình Lexical, NE+KW

và NE+KW+WHh - - - c- HH 00900930 30 0 HS SH Hi ni Hy nu vn vn

Bảng 3.16 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

các mô hình NE+KW~+Wh, NE+KW và Lexical - - Bảng 3.17 Độ chính xác trung bình của hai mô hình Lexical và NE+KW+Wh

trên các truy vần điên hình - - - S999 9999991991895 555

Bảng 4.1 Khảo sát việc khai thác các đặc điểm ontology của từ WordNet cho

truy hồi tài liỆU +: ¿<+ 212 EE E9 5151 1E 511112125 5111111111111 te.Bảng 4.2 Việc sử dụng các đặc điểm ontology của từ WordNet dé biểu diễn truy

VAN Va CAL LGU oo —— -dddddd Bang 4.3 Cac độ chính xác tai mười một điêm đây đủ chuan của các mô hình

Lexical, Group_ l, Group_2 và WN+KW HH hkkh

Bang 4.4 Các độ F trung bình tại mười một điểm day đủ chuẩn của các mô hình

Lexical, Group_ l, Group_2 và WN+KW HH hkkhBang 4.5 Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_Ï,

0108000 1.0.2

Bảng 4.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

mồ hình WN+KW với các mồ hình Lexical, Group_l và Group_ 2 Bảng 4.7 Các độ chính xác trung bình của các mô hình Lexical và WN+KW

trên các truy vần điện hìnhh - - - - « « « « s s x nnnnn.

Bang 5.1 Cac độ chính xác và độ # trung bình tại mười một điểm day đủ chuẩn

của các mô hình Lexical, CSA và R+CSA - co es.Bang 5.2 Cac độ chính xác trung bình nhóm của các mồ hình Lexical, CSA va

Trang 12

Bảng 5.3 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa

mồ hình R+CSA với hai mồ hình Lexical va CSA - << <<<+<2Bang 5.4 Các độ chính xác trung bình của các mô hình Lexical, CSA và R+CSA

trên các truy vần điện hìnhh - - eee « « « «xxx re

Bảng 6.1 Cac độ chính xác và độ # trung bình tại mười một điểm day đủ chuẩn

của các mô hình NE+KW+Wh, WN+KW và NE+WN Bang 6.2 Các độ chính xác trung bình nhóm của các mô hình NE+KW+Wh,

WN+KW và NE+WN QQQ Quà

Bảng 6.3 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên giữa mô

hình NE+WN với hai mô hình NE+KW+Wh và WN+KW

Bang 6.4 Các độ chính xác và độ F trung bình tại mười một điểm đây đủ chuẩn

của các mô hình NE+WN, R+CSA và UM - -<-<<«Bang 6.5 Các độ chính xác trung bình nhóm của các mô hình NE+WN, R+CSA

Bảng 6.6 Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên giữa mô

hình UM so với các mô hình NE+WN và R+C 'SA - ccccc<c.

Trang 13

DANH MỤC CÁC HÌNH

Hình 2.1 Sự phân cấp của các lớp tong quát nhất trong KIM ontology Hình 2.2 Ví dụ về các thực thé có tên và quan hệ trong KIM ontology Hình 2.3 Mạng lưới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một

nghĩa của ty ““/?0OV€THCFHÍ ” HH TH ng nh

Hình 2.4 Ví dụ về các sự kiện trong Y AGO :-¿ + ce k1 1S 12111 21151111 re.Hình 3.1 Biểu diễn truy van và tài liệu bằng các tập hợp bộ ba thực thé có tên Hình 3.2 Biểu diễn truy van và tài liệu trong mô hình từ khóa và mô hình da

[410153050

Hình 3.3 Biéu diễn truy van trong mô hình chồng lắp NEO Hình 3.4 Biéu diễn truy van và tài liệu trong mô hình NE+KW Hình 3.5 Kiến trúc hệ thong của các mô hình NE-KW ¿- 555 <ccccccscsce2

-55 Hình 3.6 Đánh chỉ mục trong các mô hình NE-KW Ăn.

Hình 3.7 Biéu diễn truy van trong mô hình NE+KW+Wh c co ccccecec,

Hình 3.8 Các đường cong P-R và F-R trung bình của các mô hình Lexical, NEn,

c1) P0

Hình 3.9 Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình

NE+KW với hai mồ hình Lexical và NEn - - - -< -< << se s2Hình 3.10 Các đường cong P-R và F-R trung bình của các mô hình Lexical,

Group_ l, Group_2, Group_3 và NE+KW chen

Hình 3.11 Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình

NE+KW với ba mồ hình Group_!, Group_2 và Group_ 3 Hình 3.12 Duong cong P-R của hai mô hình Lexical và NE+KW trên các truy

vân điên hình - - c- cc cc CS n 0 HH 9909000003003 0 0603603603803 6 131315151515 sx2Hình 3.13 Đường cong trung bình P-R và F-R của các mô hình Lexical,

NE+KW và NE+K W+WD o.oo eee eeeeeeeceececeecececeeceeeaeaeaansesseeseseeeeeecers

Hình 3.14 Độ khác biệt của mỗi truy van ở độ chính xác trung bình giữa mô

hình NE+KW+Wh với hai mo hình Lexical và NE+KW

Trang 14

Hình 3.15 Đường cong P-R của hai mô hình Lexical và NE+KW+Wh trên các

truy vẫn điển hình ¿-¿- ¿56c 5z S9E9E91212121 212121 1 1211111111111 01111 ce

Hình 4.1 Các đoạn văn bản ví dụ từ BBC -.- - Ăn nh x2

Hình 4.2 Cây phân cấp nghĩa cha và nghĩa con của một số nghĩa của từ

“STIIOVEMENL > 7 .aa ‹4a4 5S a.

Hình 4.3 Kiến trúc hệ thống của mô hình WN+KW -Lc c2 re

Hình 4.4 Các đường cong P-R và F-R trung bình của các mô hình Lexical,

Hình 4.5 Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình của mô hình

WN+KW so với các mô hình Lexical, Group_l và Group_ 2

Hình 5.1 Ví dụ về các khái niệm có liên quan với khái niệm Thailand trong một

ontology về sự KiỆN ¿- ¿+ S2 19121919121 121 1112111 1111111110101 2xHình 5.2 Kiến trúc hệ thống của mô hình mở rộng truy vẫn sử dụng phương

10) 01-1 O00 Gi ONS Ye Hình 5.3 Cac bước của phương pháp R+CSA HH nh henHình 5.4 Đường cong trung bình P-R và F-R của các mô hình Lexical, CSA và

Hình 5.5 Độ khác biệt của mỗi truy van ở độ chính xác trung bình giữa mô hình

R+CSA với hai mồ hình Lexical va CSÀ -c Gv.

Hình 6.1 Kiến trúc hệ thong của mô hình UM ¿- +52 +2 E2 £+E+2£2£z£zE+szz£zcez

Hình 6.2 Các đường cong trung bình P-R và F-R của các mô hình

NE+KW+Wh, WN+KW và NE+WN uuu cece ee eeeeceeeeeeeeeeeeeeeeeeeeeeeseeenaeeaaas

Hình 6.3 Độ khác biệt ở độ chính xác trung bình của mỗi truy van giữa mô hình

NE+WN với hai mô hình NE+KW+Wh và WN+KW Hình 6.4 Các đường cong trung bình P-R và F-R của các mô hình NE+WN,

0.7000

Hình 6.5 Độ khác biệt của mỗi truy van ở độ chính xác trung bình giữa mô hình

UM với hai mô hình NE+WN và R+CSA ch ven

Hình 7.1 Sự phát triển và hiệu quả của các mô hình dé xuất - 55:

Trang 15

DANH MỤC CÁC THUAT NGU VIET TAT

_ Diễn giải tiếng Anh Diễn giải tiếng Việt

AP Average Precision Độ chính xác trung bình

CSA Constrained Spreading Kích hoạt lan truyền có ràng buộc

ActivationF F-measure Độ FIE Information Extraction Rut trích thông tin

IR Information Retrieval Truy hồi thông tin

KB Knowledge Base Cơ sở tri thứcKW Keyword Từ khóaMAP Mean Average Precision D6 chinh xac trung binh nhom

NE Named Entity Thực thé có tênNER Named Entity Recognition Nhận diện thực thể có tên

P Precision Do chinh xac

R Recall Độ day đủR+CSA Relation Constrained Spreading | Kich hoat lan truyền có ràng buộc

Activation quan hệ

SA Spreading Activation Kich hoat lan truyénSIGIR Special | Interest Group on Cong dong quan tâm đặc biệt về truy

Information Retrieval hôi thông tin

UM Unified Model Mô hình hợp nhấtTREC Text REtrieval Conference Hội nghị truy hồi văn bản

VSM Vector Space Model Mô hình không gian vectơ

WSD Word Sense Disambiguation Phân giải nhập nhăng nghĩa của từ

Trang 16

1 Chương 1 - GIỚI THIỆU

1.1 Động cơ nghiên cứu

Ngày nay, nhiều thông tin hữu ích được lưu trữ trên WWW và, theo bản báo cáo tháng12/2010 của ITU', có hơn 2 tỷ người sử dụng Internet với tần suất thường xuyên Dođó, nhu cầu khai thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn.Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầuvề thông tin, còn máy tìm kiếm là một ứng dụng thực tế của truy hồi thông tin Cácvan dé chính của truy hồi thông tin là mô hình biểu diễn truy van và tài liệu, vàphương pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn.Trong khi đó, các vẫn dé chính của máy tìm kiếm là tối ưu việc lưu trữ và truy xuấtthông tin, hiệu suất tìm kiếm, và các vẫn đề ứng dụng cụ thể khác Nhằm khắc phụcnhược điểm của các mô hình truyền thống và nâng cao hiệu quả truy hồi thông tin, cácmô hình truy hôi thông tin theo ngữ nghĩa đã được nghiên cứu và phát triển ([2])

Dựa vào sự phân loại ở [3], [4] va [5], các công trình về truy hồi thông tin theongữ nghĩa có thể được phân vào các lĩnh vực chính là: (1) truy hồi thông tin dựa trêngiao diện người dùng như ở [6], [7] và [8]; (2) truy hồi thực thé như ở [9], [10], [11] và

[12]; (3) truy hồi thông tin xuyên ngôn ngữ như ở [13], [14], [15] và [16]; (4) truy hồi

tài liệu viết bang ngôn ngữ có cấu trúc như ở [17], [18] và [19]; và (5) truy hồi vănbản, là tài liệu viết băng ngôn ngữ tự nhiên, như ở [20], [21], và [22] Trong luận ánnày, khi không cần nhắn mạnh, chúng tôi dùng thuật ngữ “truy hồi tài liệu” với ýnghĩa là truy hồi văn bản

Dữ liệu trên Web phân lớn là văn bản và chỉ phù hợp cho con người đọc hiểu Dođó, việc nghiên cứu và phát triển các mô hình truy hồi văn bản có độ đây đủ và độchính xác cao là cần thiết Các mô hình truy hồi tài liệu truyền thong không xét đến sựđa nghĩa và đồng nghĩa của các từ, và các khái niệm tiềm an trong truy vấn và tài liệu

Các m6 hình này chỉ sử dụng các từ khóa đê biêu diễn truy van và tài liệu, và việc so

‘ International Telecommunication Union, là co quan chuyên môn của Liên Hợp Quốc vềcông nghệ thông tin và truyền thông http://www.itu.int/net/itunews/issues/2010/10/04.aspx

Trang 17

khớp giữa một truy vấn và một tài liệu là sự so khớp giữa hai tập từ khóa đại diện chochúng Vì vậy có nhiêu tài liệu được trả về không thực sự phù hợp với truy vẫn.

Nhăm khắc phục nhược điểm nói trên của các mô hình truy hồi tài liệu theo từkhóa, các mô hình truy hồi theo ngữ nghĩa khai thác và biểu diễn nghĩa của các từ vàkhái niệm tiêm ân trong truy van và tài liệu Cùng với sự ra đời và phát triển của Web

có ngữ nghĩa ([23]), ontology được sử dụng rộng rãi trong việc nghiên cứu va phát

triển các mô hình truy hồi tài liệu theo ngữ nghĩa ([24|, [25] [26]) Trong đó, nhiềucông trình với mục đích nâng cao hiệu quả truy hôi tài liệu đã: (1) khai thác thực thé

có tên như ở [27] [28], [29], [30] và [31]; (2) khai thác từ WordNet như ở [32], [33],[34], [35] và [36]; trong luận án, chúng tôi gọi te WordNet là từ được mồ tả trong một

ontology về từ vựng như WordNet; hoặc (3) thêm thông tin vào truy van như ở [21],

[37], [38], [39] và [40].

Ví du với truy van tìm kiếm các tài liệu về “Earthquake in USA” thì các tài liệuvề “Earthquake in United States of America”, về “Temblor in USA” hoặc về“Earthquake in Denali, Alaska 2002” đều phù hop với truy van này Điều này là do:( USA va United States of America là hai bí danh (alias) của cùng một thực thể cótên (Named Entity, NE); (2) Earthquake va Temblor là hai từ WordNet đồng nghĩa vớinhau; và (3) Denali, Alaska 2002 là một trận động đất xảy ra ở USA Trong khi đó, cáctài liệu về “Earthquake in Fukushima 2011” không phù hợp với truy vấn trên vìFukushima 2011 tuy cũng là một trận động đất nhưng xảy ra ở Japan, không phải ởUSA Đề giải quyết các van dé này, cần khai thác các đặc điểm ontology về thực thể cótên, về từ WordNet, và về sự kiện

1.2 Mục tiêu và phạm vi của luận án

Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thé có tên, từWordNet và sự kiện dé nâng cao hiệu quả truy hồi tài liệu Thứ nhất, luận án khảo sáttat cả các đặc điểm ontology của thực thé có tên và nghiên cứu ảnh hưởng của chúngđến hiệu quả truy hỏi tài liệu Đồng thời, luận án nghiên cứu các cách kết hợp giữathực thé có tên và từ khóa trong truy hồi tài liệu Trong đó, so với các công trình trướcđây, luận án khai thác thêm cặp tên-lớp và định danh của thực thé có tên dé biểu diễntruy vấn và tài liệu Ngoài ra, luận án khai thác các lớp thực thé ở mức cu thé tiềm ântrong từ dé hỏi dạng Wh Thứ hai, luận án nghiên cứu khai thác các đặc điểm ontology

Trang 18

của từ WordNet và kết hợp chúng với từ khóa Ngoài các đặc điểm ontology cơ bản

của từ WordNet là nhãn và nghĩa đã được sử dụng trong các công trình trước đây, luận

án sử dụng thêm cặp nhãn-nghĩa dé biểu diễn từ WordNet trong trường hợp từ này cónhiều hơn một nghĩa trong ngữ cảnh xem xét Thứ ba, luận án khai thác ontology về sựkiện để thêm vào truy vấn các thực thé tiềm ân liên quan với các thực thể theo cácquan hệ tường minh trong truy vấn

Hiệu quả truy hồi của các mô hình truy hỏi tài liệu phụ thuộc vào ba mô đunchính là xử lý và biểu diễn truy vấn, xử lý và biểu diễn tài liệu, và so khớp giữa haibiểu diễn này (J41]) Trong phạm vi luận án, chúng tôi tập trung vào xử lý và biểu diễntruy vấn và tài liệu Việc so khớp giữa các biểu diễn của truy vấn và tài liệu được hiệnthực theo mô hình không gian vecto, là một mô hình truy hồi thông tin phổ biến

Các mô hình dé xuất của luận án sử dụng các ontology về thực thé có tên, từWordNet và sự kiện có độ bao phủ lớn, và các giải thuật nhận diện thực thể có tên vàphân giải nhập nhằng nghĩa của từ có độ chính xác cao của các công trình khác Vìvậy, các kết quả thí nghiệm trong luận án chịu ảnh hưởng của chất lượng của các

ontology và công cụ xử lý được sử dụng Tuy nhiên, ý nghĩa của luận án là nghiên cứu

sự khác biệt về hiệu quả truy hỏi tài liệu của các mô hình khác nhau trên cùng một nêntang ontology và công cụ tiền xử lý

Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nămngoài phạm vi của luận án Vì vậy, trọng tâm của luận án không phải là van dé thờigian xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình vàphương pháp đề xuất Thêm vào đó, luận án chỉ xử lý văn bản tiếng Anh để các đónggóp của luận án có thé công bồ trong cộng đồng nghiên cứu trên thé giới về các van dénay, nơi mà các công trình và tập kiểm tra trên tiếng Anh là pho biến

1.3 Những đóng góp chính của luận án

Luận án đã đề xuất các mô hình truy hồi tài liệu khai thác các đặc điểm ontology vềthực thể có tên, về từ WordNet và về sự kiện một cách tương đối day du va toan diénnhằm nâng cao hiệu quả truy hồi, bao gom:

1 Mô hình khai thác các đặc điểm ontology của thực thé có tên và kết hop

chúng với từ khóa.

Trang 19

2 Mô hình khai thác các đặc điểm ontology của từ WordNet kết hợp với từ

1.4 Cau trúc cua luận anLuận án này được chia thành 7 chương Chương | trình bày mục tiêu, phạm vi,

những đóng góp chính, và giới thiệu cau trúc của luận án Chương 2 trình bày về cơ sởkiến thức Từ Chương 3 đến Chương 5, mỗi chương đều có các phan: giới thiệu, cáccông trình liên quan, phương pháp đề xuất, kết quả thực nghiệm, và kết luận Với mỗimô hình dé xuất, luận án phân tích nguyên nhân của kết quả thực nghiệm trên một sốtruy vẫn điển hình trong tập dữ liệu kiểm tra Chương 6 dé xuất và thực nghiệm môhình kết hop các mô hình trình bày ở các Chương 3, 4 và 5 Chương cuối cùng là tongkết

Chương 2 — Cơ sở kiến thứcChương này giới thiệu các kiến thức nền tảng, tài nguyên, và công cụ, bao gồm:

mô hình không gian vectơ, các ontology KIM, WordNet và YAGO, và các động cơ

nhận diện thực thể có tên và phân giải nhập nhang nghia cua tu Bén canh do, chuongnày trình bay các tập dữ liệu kiểm tra, độ do va phương pháp đánh giá hiệu quả truyhỏi tài liệu của các mô hình dé xuất so với các mô hình liên quan

Chương 3 — Khai thác thực thể có tênTrong chương này, luận án nghiên cứu và đề xuất các mô hình không gian vectơdựa trên ontology, khai thác và phân tích các cách kết hợp khác nhau của các đặc điểmontology của thực thể có tên với từ khóa Thêm vào đó là đề xuất việc ánh xạ từ để hỏitrong truy van sang lớp của thực thé có tên Các mô hình dé xuất được so sánh về hiệuquả truy hỏi tài liệu với nhau, với mô hình dựa trên từ khóa truyền thông, và với cácmô hình dựa trên thực thể có tên trước đây Kết quả nghiên cứu liên quan đến chươngnày được phat triển từ [42], và đã được công bố trong [43], [44], [45] và [46]

Trang 20

Chương 4 — Khai thác WordNet

Trong chương này, luận án nghiên cứu, phân tích và đề xuất một mô hình truyhỏi tài liệu khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa Hiệuquả của việc khai thác các đặc điểm ontology của từ WordNet được trình bày thôngqua các thí nghiệm so sánh với các mô hình dựa trên từ WordNet trước đây Kết quảnghiên cứu liên quan đến chương này đã được công bố trong [47]

Chương 5 — Khai thác thông tin tiềm ấnTrong chương nảy, luận án nghiên cứu và đề xuất một mô hình mở rộng truy vấnbang cách kích hoạt lan truyền theo các quan hệ tường minh trong truy van Mô hìnhnay được đánh giá và so sánh với các mô hình kích hoạt lan truyền truyền thống Kếtquả nghiên cứu liên quan đến chương này đã được công bố trong [48] và [49]

Chương 6 — Mô hình hợp nhấtChương này trình bảy mô hình hợp nhất, trong đó các phương pháp dé xuất ở cácChương 3, 4 và 5 được tích hợp lại với nhau Cụ thể là, mô hình này mở rộng truy vấnnhư ở Chương 5 Sau đó các truy van mở rộng và tài liệu sẽ được chú giải theo các đặcđiểm ontology của thực thể có tên và từ vựng như ở Chương 3 và 4 Hiệu quả của môhình này được đánh giá so với các mô hình riêng lẻ dé xuất ở các Chương 3, 4 và 5.Kết quả nghiên cứu liên quan đến chương này đã được công bố trong [50]

Trang 21

2_ Chương 2 - CƠ SỞ KIÊN THỨC

2.1 Mo hình không gian vectơ

Các mô hình truy hôi thông tin phô biến hiện nay là mô hình đại số Bool (J51]).mô hình xác suất ({Š52]) mô hình Okapi BM25 ({53], [54]), mô hình ngôn ngữ ({5Š].,

[56]) và mô hình không gian vectơ ({Š7]) Trong đó mô hình không gian vecto (Vector

Space Model - VSM) có các ưu điểm là đơn giản, trọng số của các từ khóa phản ánhđược ý nghĩa của các từ khóa trong truy van và tài liệu, và các tài liệu có thé so khớpvà xếp hạng theo độ liên quan với truy van ([57]) Vì vậy luận án này sử dụng mô hìnhkhông gian vecto dé làm thực nghiệm đánh giá hiệu quả truy hồi của các mô hình đềxuất

Trong mô hình không gian vectơ truyền thống ([58]) mỗi truy vấn hoặc tài liệu

được xem như là một túi các từ khóa xác định nội dung cua chúng Gọi tập hợp 4q, ko,

k,} là không gian của tat cả các từ khóa xuất hiện trong tập truy van và tài liệu xem

xét Môi truy van q va tài liệu đ được biêu dién băng vecto đ = (Wig , W2, «++» Wig) Và

vectơ đ= (Wid , Was +++» Wea) Trong đó, wi, Và Wig lần lượt là trọng số của từ khóa k;

trong truy vẫn ø và tài liệu đ Các trọng số này là các số thực có giá trị thuộc đoạn [0,1], và chúng xác định mức độ quan trọng của từ khóa tương ứng trong việc biểu diễnnội dung của truy van và tài liệu Nếu từ khóa k; không xuất hiện trong truy vẫn g

(hoặc tài liệu đ) thì w;„ = 0 hoặc (w;„ = 0).

Công trình [59] đề nghị cách tính trọng số của các từ khóa trong truy vấn và tài

liệu theo phương pháp ¢f-idf như sau:

0.5 freq,

Ww, =0.5+ J44 (2-1)max, freq, „= Pit ing N (2-2)

) max, freq; „ N;

Trong đó, ƒreq;„ và fredia lần lượt là số lần xuất hiện của từ khóa k; trong truy vấn q Vàtrong tài liệu d, N là tong số tài liệu trong kho lưu trữ, và n; là số tài liệu có chứa từ

khóa k;.

Trang 22

Độ tương tự giữa tài liệu đ và truy van g được định nghĩa bởi công thức sau:

2.2 Giới thiệu về LuceneLucene ([{60], [61]) là phần mém mã nguồn mở được sử dụng pho biến dé đánhchỉ mục và truy hồi tài liệu Lucene có thé được mở rộng với các chức năng đánh chỉmục và truy hôi thông tin mới dé phát triển các hệ thống ứng dụng Dé đánh chỉ mục,Lucene chuyển dữ liệu cần đánh chỉ mục về các dạng văn bản như HTML, Word hoặcPDF Tiép theo, các van ban được xu lý thành các từ đơn đã được chuẩn hóa (nhưlowercasing va stemming) Cuối cùng các từ đơn này được lưu trữ vào một hệ thốngđánh chỉ mục dao (inverted index), là một câu trúc dữ liệu ánh xạ từ khóa tới các tài

liệu chứa nó.

Truy hồi tài liệu trong Lucene là tìm kiếm trong hệ thống chỉ mục các tài liệuchứa từ khóa cần tìm Tiếp theo, các tài liệu tìm thay duoc xép hang dựa trên độ tươngtự VỚI truy vấn Lucene sử dụng mô hình tương tự như mô hình không gian vectơtruyền thong để biéu diễn truy van và tài liệu, tính trọng số của các từ khóa xuất hiệntrong chúng, cũng như tính độ tương tự giữa một truy vẫn và một tài liệu Luận án mởrộng Lucene để hiện thực và làm thực nghiệm các mô hình truy hồi tài liệu dựa trên

ontology.

2.3 Ontology

Ontology bat nguồn từ triết học, được dẫn xuất từ tiếng Hy Lạp là “onto” và

“logla” Trong ngữ cảnh triết học, ontology thuộc một nhánh của siêu hình học, đượcsử dụng để nghiên cứu về bản chất của sự tôn tại, xác định các sự vật nào thực sự tồn

Trang 23

Thêm vào đó, theo [65], ontology cần có thêm tính thông nhất, tính mở rộng và tính

suy luận.

Ontology được sử dụng nhiều trong các lĩnh vực như biểu diễn tri thức, xử lýngôn ngữ tự nhiên, rút trích thông tin, cơ sở dữ liệu và hệ thống thông tin địa lý Cácontology có thé chia thành ba nhóm theo cách chúng được xây dựng Nhóm thứ nhất là

các ontology được xây dựng thủ công bởi một nhóm các chuyên gia như WordNet([66]) hoặc KIM ontology ({67]) Nhóm thứ hai là các ontology được xây dung tự

động như YAGO ([68]) Nhóm thứ ba là các ontology có nội dung mở, mọi người đềucó thé tham gia đóng góp nội dung như Wikipedia” ({69]) Một cách khác, theo nộidung, các ontology có thé được phân nhóm thành ontology về thực thé có tên nhưKIM ontology, ontology về từ vựng như WordNet, hoặc ontology về sự kiện nhưYAGO Trong các mô hình đề xuất của luận án, chúng tôi sử dụng KIM ontology,WordNet và Y AGO để xử lý truy vấn và tài liệu

KIM

Thực thé có tên là con người, tô chức, nơi chỗn, và những đối tượng khác đượctham khảo bang tên Chúng được dé cập đến lần dau tại Message UnderstandingConference (MUC) ở những năm 1990 ([70]) Mỗi thực thể có tên có ba đặc điểmontology cơ bản là tén, lớp và định danh Mỗi thực thể có tên có thé có nhiều tên khácnhau, được gọi là các bí danh của thực thể có tên đó Mặt khác, cũng có nhiều thực thểcó tên khác nhau nhưng có cùng tên Mỗi thực thể có tên thuộc về một lớp trực tiếpcủa nó và đồng thời thuộc về các lớp cha của lớp trực tiếp đó Mỗi thực thé có tên cómột định danh xác định duy nhất nó

Hệ thông KIM” (Knowledge and Information Management) bao gồm hai thànhphân chính là ontology và mô đun rút trích thông tin (information extraction — IE)({71]) KIM ontology định nghĩa cây phân cấp các lớp thực thé và các kiểu thuộc tínhvà quan hệ giữa các thực thể Ontology này có khoảng 300 lớp thực thể, và 100 kiểuthuộc tính và quan hệ Các kiểu thuộc tính và quan hệ trong KIM là nhị phân, tức chỉgôm hai đối tượng tham gia Hình 2.1 mô tả bốn lớp tổng quát nhất trong KIMontology là Entity, Object, Happening va Abstract, và một số lớp con của chúng

? http://www.wikipedia.org/* http://www.ontotext.com/kim/

Trang 24

Ontology của KIM có khoảng 77.500 thực thé có tên với hơn 110.000 bí danh Hình2.2 minh họa một số thực thể có tên và quan hệ giữa chúng trong KIM ontology Mỗi

nút biêu dién một thực thê, còn môi cạnh biêu diễn một quan hệ.

©) protons:Entity

CI-(E) protont: Abstract| {4Œ protont;ContactInforrnation

—{C) protont:GeneralTerm—{C) protont:Language

—{C) protont:Number4) protont:Topic= {€) protont:Happening

—{Œ) protont:EventCI-{E) protont:Situation

(C) protont: 1abPosition(E) protont:Role4) protont: TimeTntervalB -{Ð) protont:Ohject

=1-{E) protont:Agent

=I-(E) protont:Group{Œ) protont:Organization(©) protont:Person

—{C) protont:Location—{C) protont:Product—{C) protont:Service=1-{E) protont:Statement

=} {C) protont:InformationResource4) protont:Document

Hình 2.1 Sự phan cấp của các lớp tổng quát nhất trong KIM ontology

United States

Hình 2.2 Ví du về các thực thé có tên và quan hệ trong KIM ontology

Mô đun rút trích thông tin của KIM (KIM IE) có chức năng chính là nhận diện

thực thé có tên KIM IE thừa kế từ GATE ([72]) các giải thuật có độ chính xác cao

trong xử lý ngôn ngữ tự nhiên như tách từ (tách văn bản thành các từ có nghĩa), táchcâu (tách văn bản thành các câu) và gán nhãn từ loại (xác định loại từ như danh từ, tínhtừ, động từ, giới từ và trạng từ) ([71]).

Trang 25

WordNet ([66], [73]) được tổ chức thành các tập đồng nghĩa và có các quan hệkhác nhau giữa các nghĩa như quan hệ đồng nghĩa (synonymy), quan hệ cha/con(hypernymy/hyponymy), quan hệ trái nghĩa (antonymy), quan hệ một phan

(meronymy) và quan hệ tương tự (similarity) Phiên bản 3.0 của WordNet, được sử

dụng trong luận án, có khoảng 155.000 từ và 117.000 tập đồng nghĩa.Mỗi từ WordNet có các đặc điểm là nhấn (word form, form hoặc label) và nghĩa

(word meaning hoặc sense) Trong đó, mỗi nhãn là sự phát âm hoặc sự ghi vật lý của

một từ Mỗi nghĩa của một từ có một định danh xác định duy nhất nó trong WordNet.Hai nhãn được gọi là đồng nghĩa của nhau nếu sự thay thế lẫn nhau của chúng trongmột câu không làm thay đối ý nghĩa của câu đó Các nhãn là đồng nghĩa của nhau sẽtạo thành một tập đồng nghĩa (synsets) và có thé được dùng để biểu diễn một nghĩa.Mỗi nghĩa được biểu diễn bởi tập đồng nghĩa {x%, x, } được gọi là nghĩa cha(hypernym) của một nghĩa được biểu diễn bởi tập đồng nghĩa ƒy, y, } nếu các câuđược khởi tạo từ cầu trúc y is a (kind of) x được chap nhan Noi cach khac, mot nghia

cha có thông tin bao phủ thông tin của các nghĩa con cua nó.

motion, move,movement

Hình 2.3 Mạng lưới quan hệ nghĩa cha/nghia con và tập đồng nghĩa của một nghĩa

của từ “movement”

Hình 2.3 mô tả tập đồng nghĩa, các nghĩa cha và nghĩa con của nghĩa thứ 3 của từ

“movement’, có định danh ký hiệu là #movement_3, trong WordNet Hình nay cho

thay nghĩa #movement_3 có tập đồng nghĩa là {motion, move, movement}, có các

Trang 26

nghia cha là {#change 3, #action_]} và có các nghĩa con là {#shift_5,#displacement_3, #travel_3}.

YAGO

YAGO (Yet Another Great Ontology) ([74]) chứa khoảng 1,95 triệu thực thé, 93kiéu quan hệ và 19 triệu sự kiện mồ ta thuộc tính va quan hệ giữa các thực thể có tên.Các sự kiện này được rút trích từ Wikipedia và kết hợp với WordNet bằng luật và

heuristic Độ chính xác của các sự kiện trong YAGO là khoảng 95% ([68]) Cũng như

ở KIM ontology, các kiểu thuộc tính và quan hệ giữa các thực thé có tên trong Y AGOlà nhị phân Hình 2.4 trình bày một số sự kiện được mô tả bang các quan hệ giữa cácthực thể trong Y AGO

foundedIn

Chiang Mai C129 >

has

Wat Chiang Man

Hình 2.4 Ví dụ về các sự kiện trong YAGO2.4 Nhận diện thực thể có tên và phân giai nhập nhằng nghĩa của từ

Nhận diện thực thể có tên (Named Entity Recognition — NER) là nhằm xác địnhđúng định danh hoặc lớp của một thực thể có tên trong ngữ cảnh xem xét Tùy theongữ cảnh, một giải thuật NER có thể không xác định được định danh mà chỉ xác địnhđược lớp của thực thể có tên, hoặc thậm chí cũng không xác định được lớp Trong luậnán, động cơ nhận diện thực thé có tên của KIM ([67]) được dùng để rút trích các đặcđiểm ontology của thực thé có tên trong truy van và tài liệu Các đặc điểm ontology

Trang 27

nay được luận án khai thác dé chú giải thực thé có tên trong truy van và tài liệu Độchính xác và độ day đủ của động cơ nay lần lượt vào khoảng 90% và 86%".

Phân giải nhập (Word Sense Disambiguation - WSD) là nhằm xác định đúngnghĩa của một từ trong ngữ cảnh xem xét Trong [75], các tác giả cho thấy hiệu quảcủa giải thuật WSD dựa trên WordNet đề xuất hiệu quả hơn các giải thuật dựa trên

WordNet khác và có độ chính xác khoảng 56.8% Luận án áp dụng giải thuật WSD

này để rút trích các đặc điểm ontology của từ WordNet, và dùng chúng dé chú giải ngữnghĩa của các từ WordNet trong truy vấn và tài liệu

2.5 Tập dữ liệu kiếm tra

Mỗi tập kiểm tra bao gom 3 phan: (1) một tap tài liệu; (2) một tập truy vấn; và

(3) một tập các cặp truy vấn và tài liệu có liên quan với nhau ({57]) Một SỐ tập kiểmtra chuẩn là TREC, CISI, NTCIR, CLEF, Reuters-21578, TIME và WBR99 ({76}).Trong đó, tap TIME gồm 425 tài liệu va 83 truy van, được cung cấp bởi SMART({77]) TREC? (The Text REtrieval Conference) là hội thảo được tô chức hàng năm bởi

Viện Kỹ Thuật - Chất Lượng Hoa Ky và Bộ Quốc Phòng Hoa Kỳ nhằm tạo ra một cơ

sở cho việc đánh giá các phương pháp truy hôi thông tin với quy mô lớn Tại mỗi hộithảo, TREC tổ chức nhiều phân hệ (track) và mỗi phân hệ tập trung vào từng loại truyhồi thông tin cụ thé như như Web Track, Speech Track và Cross-Language Track

Dé xem các tập kiểm tra nào được sử dung phổ biến trong cộng đồng truy hồi tàiliệu, luận án đã tiến hành khảo sát các bài báo (không ké poster) truy hồi văn ban củaSIGIR-2007° và SIGIR-200§” Tổng cộng có 56 bài được khảo sát va các tập kiểm tracủa chúng được phân thành 3 nhóm lần lượt là các tập kiểm tra thuộc TREC, các tậpkiểm tra chuẩn khác và các tập kiểm tra do người tiễn hành thực nghiệm tự xây dựng

Bảng 2.1 cho thay có 33 bài trong tong số 56 bài (khoảng 59%) có sử dụng tậpkiểm tra thuộc TREC Trong đó có 15 bài có sử dụng tap tài liệu L.A Times, có hơn130.000 tài liệu Điều này cho thay tập L.A Times của TREC được sử dụng phổ biếnđể đánh giá các mô hình truy hồi tài liệu Trong luận án, tập TIME được sử dụng chomột số tiền thí nghiệm để khảo sát ảnh hưởng của các đặc điểm ontology của thực thé

Được các tác gia bao cáo tại http://www.ontotext.com/kim/performance.html.

* http://trec.nist gov® http://www.sigir2007.org

7 http://www.si gir2008.org

Trang 28

có tên và các cách kết hợp khác nhau của thực thể có tên với từ khóa Tập TREC lớnhơn được sử dụng dé đánh giá hiệu quả truy hồi các mô hình mà luận án dé xuất so với

các mồ hình liên quan.

Bảng 2.1 Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án

khảo sát ở SIGIR-2007 và SIGIR-2008"m ok ^ ` Số lượng

Loại tập kiêm tra Công trình công trìnhChỉ thuộc TREC| [78] [79], [80], [81], [82], [83], [84], [85], [86], [87], [88], [89], [90], 27(1) [91], [92], [93], [37], [94], [95], [96], [97], [98], [99] [100] [101] [102],

[103]

Chi do các tác gia | [104], [105], [106], [107], [108], [109], [110], [111], [112], [113], [114], 17tu xay dung (2) [115], [116], [117], [118], [119], [120]

Chi thuộc các tập | [121], [122], [123], [124], [125] 5kiêm tra chuân

khác (3)Thuộc TREC + |[126], [127], [128], [129], [130] 5Tập kiêm tra

chuân khác (4)Thuộc TREC + | [131] |Tác giả tự xây

dựng (5)Do tác giả tự xây | [132] |

2.6 Độ đo hiệu quả truy hồiCác độ đo thường dùng cho việc đánh giá hiệu quả truy hồi của một mô hình truyhoi tài liệu là độ chính xác và độ day đủ ([57]) Trong đó:

1 Độ chính xác (precision - P): là ti lệ số tài liệu liên quan được truy hồi trên tongsố tai liệu được truy hồi Độ đo nay cho biết phan trăm đúng của các tài liệuđược truy hồi

2 Độ day đủ (recall - R): là tỉ lệ số tài liệu liên quan được truy hồi trên tong số tàiliệu liên quan có trong tập kiểm tra Độ đo này cho biết phan trăm các tài liệuliên quan được truy hồi

Trang 29

Hai độ đo này thường là bù trừ với nhau, tức là nếu độ chính xác cao thì độ daydu thap và ngược lai Vi vay một độ do két hợp ca hai được sử dung là độ F (F-

measure), được tính bởi công thức sau:

ip °+1)*P*R (2-4)

(0 ?*P)+-RNếu xem độ chính xác và độ đầy đủ có tầm quan trọng như nhau thì giá trị được

chon là 1.

Một cách khác dé đánh giá hiệu quả truy hỏi tài liệu là xây dựng đường cong R, cho thay su thay đổi của độ chính xác theo sự tăng dần của độ day đủ ({133]) Đểlàm việc này, các tài liệu truy hồi được xếp hạng từ cao xuống thấp theo mức độ liênquan với truy vấn Tại mỗi tài liệu xem xét, độ chính xác và độ day đủ cho tất cả cáctài liệu từ trên cùng đến tài liệu xem xét được tính toán và tạo thành một điểm của

P-đường cong P-R.

Đề tính đường cong P-R trung bình của tất cả các truy vẫn trong tập kiểm tra, tacần phải chuẩn hóa các đường cong P-R thành các đường cong P-R nội suy tại 11 độday đủ chuẩn 0%, 10%, , 100%, như trong [76] Độ chính xác nội suy cho truy vanthứ i tại độ day đủ chuẩn thứ /, ký hiệu là r;(e£0, 1, , 10}), được định nghĩa là:

I

P (7, )= max P(r) (2-5)

Trong đó, P(r) là độ chính xác tai độ day đủ r được rút trích từ đường cong P-R củatruy van thứ i

Với N, là số lượng truy van, độ chính xác trung bình trên tất cả các truy vấn tai

điêm đây đủ chuân r; được tinh bởi:

Trang 30

Công thức (2-8) xác định đường cong F-R, biéu diễn sự thay đối của độ F theo sựtăng dần của độ day đủ tai 11 độ day đủ chuẩn Khi so sánh hai mô hình, đường congP-R trung bình và đường cong F-R trung bình của mô hình nào nằm gần hơn về phíagóc phải trên của biểu đồ thì mô hình đó có hiệu quả truy hồi tốt hơn.

Bên cạnh đó, độ chính xác trung bình nhóm (mean average precision - MAP)

cũng là một trong những độ đo chuẩn của cộng đồng truy hồi tài liệu ([76] [134]).Tương tự như khi tính đường cong P-R, để tính độ MAP, tài liệu truy hồi được xếphạng từ cao xuống thấp theo mức độ liên quan với truy vấn

Trước tiên, độ chính xác trung bình (average precision - AP) của truy vấn thứ i,

ký hiệu là AP;, được định nghĩa là giá trị trung bình của các độ chính xác đạt được sau

mỗi tài liệu liên quan thứ k được trả về Tức là, với m là tong số các tài liệu liên quanđược trả về cho truy van thứ i, D; là tập hợp các tài liệu được trả về tính đến tài liệu

liên quan thứ k, và precision(D,) là độ chính xác cho D,, thi độ AP; được tính bởi:

truy van.

2.7 Kiếm định ý nghĩa thống kêSự hơn thua giữa các mô hình thể hiện bởi các độ đo ở trên có thể là tình cờ bởivì: (1) nội dung của các truy van và tài liệu trong tập kiểm tra có thé chưa bao quát hết

miên dữ liệu xem xét; (2) sự đánh giá chủ quan của những người đánh giá về sự liên

Trang 31

quan giữa truy vấn và tài liệu trong tập kiểm tra; và (3) số lượng có giới hạn của truyvấn và tài liệu trong tập kiểm tra Do đó, khi tiễn hành so sánh các mô hình, một giả

thuyết null (null hypothesis) được đặt ra là các mô hình này tương đương nhau về hiệu

quả truy hdi dù là độ đo hiệu quả của chúng khác nhau Dé phủ nhận giả thuyết null vàkhăng định mô hình này thật sự hiệu quả hơn mô hình kia thì cần có bước kiểm định ýnghĩa thống kê (statistical significance test) ({135])

Trong [136], các tác giả đã so sánh năm phương pháp kiểm định ý nghĩa thống kêđược sử dụng phố biến trong lĩnh vực khoa học máy tính, đó là: kiểm định ¿ cặpStudent (Student s paired t-test), kiểm định thi? hạng có dấu Wilcoxon (Wilcoxonsigned rank test), kiểm định đấu (sign test), kiểm định Đức phá (bootstrap), và kiểmđịnh ngau nhiên Fisher (Fisher s randomization) hay con gọi là kiém dinh hodn vi(permutation) Kết quả thực nghiệm cho thay phương pháp kiểm định ngẫu nhiênFisher 6n định nhất trong năm phương pháp Vì thế luận án chọn phương pháp Fisherđể kiểm định sự hơn thua giữa các mô hình thể hiện bởi các độ đo ở trên có phải là

tình cờ hay không.

Trong phương pháp Fisher, giả thuyết null giả sử hai mô hình A và B tươngđương nhau về hiệu quả truy hồi ngay cả khi MAP(A) và MAP(B) khác nhau Khi đóđộ AP của từng truy van ở mô hình A có thé hoán đổi với độ AP của cùng truy van ởmồ hình B, mà không làm ảnh hưởng đến sự khác biệt về độ MAP của hai mô hìnhtrên tập kiểm tra cho trước Với một tập Q các truy vấn, hai mô hình A và Ö sẽ có lỌIcặp giá trị AP Vì thế có tong cong 2 hoán vị Trong đó mỗi hoán vị xác định các cặpgiá tri AP nào trong IQI cặp giá trị AP ở trên được hoán đối Với mỗi hoán vị, độ MAP

của hai mô hình và hiệu của chúng sẽ được tính lại.

Để phủ nhận giả thuyết null thì tri số p hai chiêu (two-sided p-value) phải nhỏhơn hoặc bang 0,05 Trị số p hai chiều được tính bởi công thức sau:

Trị số p hai chiều =(N + N* )/28 (2-11)Trong đó, N và N* lần lượt là số lần hiệu của hai độ MAP trong 2! hoán vị nhỏ hơnhoặc bang -6 và lớn hơn hoặc bang 8, với 6 = IMAP(A) - MAP(B)I Do 2 là một số rấtlớn nên, như dé nghị ở [136], 100.000 hoán vị là chấp nhận được cho phương pháp

Fisher.

Trang 32

3 Chương 3 - KHAI THÁC THUC THE CÓ TÊN

3.1 Giới thiệu

Ngày nay, thực thể có tên được sử dụng nhiều trong tìm kiếm văn bản trênWWW Cụ thé là 9 trong 10 cụm từ được tìm kiếm nhiều nhất trong YahooSearch vàGoogleSearch” năm 2011 đều là thực thé có tên Nhiều nghiên cứu trong các lĩnh vựcnhư rút trích thông tin, trả lời câu hỏi, xử lý ngôn ngữ tự nhiên, và truy hôi tài liệucũng xét đến các thực thể có tên

Các đặc điểm ontology của thực thé có tên tiềm an trong truy van và tài liệu là cóý nghĩa với hiệu quả truy hồi Ví dụ như đối với lớp của thực thể có tên, các tài liệuchứa “Ha Noi”, “Paris”, hoặc “New York” có thé là các câu trả lời cho truy vấn tìm tàiliệu về các thành phố (tức là các thực thể thuộc lớp thành phổ) trên thế giới Truy hồitài liệu dựa trên từ khóa sẽ không tìm được các tài liệu ở trên cho truy vấn này, bởi vìnó không sử dụng thông tin lớp tiềm ấn của các thực thé trong các tài liệu để so khớpvới lớp của các thực thể mà người dùng quan tâm Trong trường hợp định danh củathực thé có tên, các tài liệu về U.S., USA, United States, hoặc America nên được tra vécho truy van tìm các tài liệu về United States of America Truy hồi tài liệu chi dựa trêntừ khóa sẽ thất bại bởi vì nó không sử dụng tri thức là một thực thể có tên có thể cónhiều bí danh khác nhau Trong trường hợp thông tin kết hợp bởi lớp và tên của thựcthé có tên, với truy van tìm kiếm các tài liệu về ông Washington, người dùng muốnnhận được các tài liệu nói về Washington như là một người Trong khi các mô hìnhdựa trên từ khóa có thé trả về bat kỳ trang nào chứa từ Washington, cho dù đó là têncủa một tiểu bang hay một trường đại học Vì thế, một trong những mục tiêu của luậnán này là nghiên cứu, khảo sát và khai thác các đặc điểm ontology khác nhau của thựcthé có tên cho truy hỏi tài liệu

Hơn nữa, sự xuất hiện của một thực thể có tên trong một tài liệu hàm chứa và kéotheo các thông tin tiềm an khác Thứ nhất, đó là các bí danh của thực thể đó Ví dụ,

nêu quoc gia Georgia xuât hiện trong một tài liệu thì xem như các bí danh của nó như

* http://yearinreview yahoo.com/201 1/us_top_10_searches#Top%2010%20Searches? http://www googlezeitgeist.com/en/

Trang 33

Gruzia cũng có trong tài liệu đó Thứ hai, đó là các lớp cha của lớp của thực thé đó Vídụ, nếu thành phố Paris xuất hiện trong một tài liệu thì xem như các lớp cha của lớpCity như Location cũng có trong tài liệu đó Vì vậy, để nâng cao hiệu quả truy hồi, cáctài liệu cần được mở rộng bởi các đặc điểm ontology bao phủ, tức là được hàm ý vàkéo theo bởi, các đặc điểm ontology gốc của các thực thé có tên xuất hiện trong các tài

liệu đó.

Mặt khác, một truy vẫn thường không chỉ có thực thể có tên, ví dụ ở truy vấn“economic growth of Vietnam”, Vietnam là thực thể có tên có định danh, còn

“economic” và “growth” là các từ khóa Cac từ khóa này cũng quan trọng trong việc

thé hiện nội dung của truy van Vì thế, việc kết hợp thực thé có tên và từ khóa là cầnthiết để biểu diễn nội dung của các truy vấn và tài liệu

Thêm vào đó, trong các truy van có chứa từ dé hỏi Wh như Who, Which, Where,When hoặc What, các từ dé hỏi này hàm chứa lớp của các thực thé có tên được hỏi Vidụ ở truy van “Where did the Battle of the Bulge take place?” từ dé hoi Where hàm ývề các thực thé có tên thuộc lớp Location Vì thế, việc khai thác và ánh xạ từ dé hỏiWh đến lớp của thực thể có tên thích hợp cũng được luận án nghiên cứu nhăm nângcao hiệu quả truy hồi tài liệu

Chương nay dé xuất các mô hình không gian vectơ dựa trên thực thé có tên và từkhóa, với bốn nội dung chính sau: (1) khai thác tất cả các đặc điểm ontology của thựcthé có tên; (2) mở rộng tài liệu bang các đặc điểm ontology bao phủ các đặc điểmontology gốc của thực thé có tên; (3) khai thác lớp của thực thé có tên tiém ấn trongcâu hỏi Wh; (4) kết hợp thực thé có tên và từ khóa Chương nay cũng trình bày các kếtquả thí nghiệm và so sánh các mô hình dé xuất với các mô hình liên quan Nội dungcủa chương này được phát triển từ [42] va đã được công bố trong [43], [44], [45] và

[46].

Phan còn lại của chương được tô chức như sau Phan 3.2 trình bày các công trìnhliên quan Phần 3.3 trình bày các mô hình đa không gian vectơ dựa trên thực thể cótên Phan 3.4 trình bày các mô hình kết hợp thực thé có tên với từ khóa Phan 3.5 đánhgiá và thảo luận các kết quả thực nghiệm trên các mô hình mà luận án dé xuất ở cácphân 3.3 và 3.4 Phần 3.6 cuối cùng là kết luận

Trang 34

3.2 Các công trình liên quan

Trong [137], mỗi khái niệm trong một văn bản được liên kết với các khái niệmtương ứng được định nghĩa trong Wikipedia, và sự biểu diễn của văn bản này đượclàm giàu bởi các từ đồng nghĩa, nghĩa cha và các khái niệm liên quan Các từ đồngnghĩa và nghĩa cha của các khái niệm chung có thé xem tương tự như các bí danh vàlớp cha của các thực thể có tên Trong [138], các tác giả đề xuất một mô hình khônggian vectơ dựa trên ontology để tính quan hệ tương tự theo ngữ nghĩa giữa các khái

niệm trong tài liệu Tuy nhiên, hai công trình này thuộc lĩnh vực phân loại tài liệu

(document classification), chứ không phải truy hồi tài liệu.Trong lĩnh vực hệ thống thông tin địa lý, công trình [139] báo cáo tóm tắt các thínghiệm kiểm tra độ ảnh hưởng của các đặc điểm địa ly, đặc biệt là nơi chốn, đến hiệuquả truy hồi trang web Cũng khai thác đặc điểm ontology của thực thé có tên nhưngkhông dùng cho truy hỏi tài liệu, hệ thống Falcons trong [140] cung cấp một môitrường thân thiện cho người dùng dé mô tả lớp của đối tượng muốn tìm

Trong [20], một mô hình dựa trên xác suất được đề xuất để tìm kiếm các đoạnvăn bản nói về các kiểu thực thé y sinh học như là các loại gen, bệnh hoặc thuốc,tương tự như các lớp của thực thể có tên Cũng trong lĩnh vực y sinh học, mô hình dựatrên độ tương tự ở [28] xem xét các khái niệm là các gen và các chủ dé trong y khoa.Các khái niệm đồng nghĩa, nghĩa cha và nghĩa con cũng được khai thác, tương ứng vớicác bí danh, lớp cha và lớp con của thực thể có tên Mỗi truy van hoặc tài liệu được

biéu diễn bởi hai vectơ thành phân, là vectơ cho các khái niệm và vectơ cho các từ

khóa Một tài liệu được xem là tương tự hơn với truy van so với một tài liệu khác nếuvectơ khái niệm của tài liệu đầu tương tự với vectơ khái niệm của truy van hơn Nếu

hai vectơ khái niệm của hai tài liệu có cùng độ tương tự với vectơ khái niệm của truy

vấn, thì độ tương tự của hai vectơ từ khóa của hai tài liệu và vectơ từ khóa của truyvan sẽ quyết định Tức là, thành phan từ khóa được xem như thứ yếu hơn thành phan

khái niệm.

Công trình [141] phát triển một động co tìm kiếm trong đó chỉ xét đến lớp củathực thể trong việc kết hợp với từ khóa Hơn nữa, công trình này thiên về hiệu quả thờigian tìm kiém hơn là chất lượng tìm kiếm vì chỉ đánh giá độ chính xác và độ day đủcủa động co bằng một số truy van đơn giản Trong [142], mục tiêu của hệ thống là tìm

Trang 35

kiếm các thực thể có tên thuộc các lớp trong truy van va các thực thé nay có ràng buộcvới các từ khóa trong truy vấn Ví dụ, truy vẫn “Amazon Customer Service Phone”,trong đó Phone được xem như là một thực thể có tên trong câu hỏi về lớpPhoneNumber, tìm các số điện thoại của đúng Amazon Customer Service trong cáctrang web, trong khi các trang web này có thé chứa các số điện thoại của các tổ chứckhác Như vậy, công trình này chỉ xem xét đến lớp của thực thé và không phải về truyhồi tài liệu.

Trong [31], từ các tai liệu liên quan với truy vẫn ban đầu dựa trên từ khóa, cácthực thể có tên được rút trích, sắp xếp và tô chức theo các lớp tổng quát để người dùng

có thé chọn một số thực thé phù hợp với truy vẫn Tiếp theo, tên của các thực thể được

bồ sung vào truy van để làm rõ nghĩa Sau cùng, truy van mở rộng được sử dụng détruy hồi lại các tài liệu Công trình này chỉ xem xét đến tên và lớp của thực thể, màkhông xem xét đến bí danh và định danh Nghiên cứu trong [30] cho thấy răng việcchuẩn hóa (normalization) thực thé có tên giúp cải thiện hiệu quả truy hồi Tuy nhiên,công trình này chỉ xem xét đến các tên của thực thé và việc chuẩn hóa này là một cáchđể giải quyết van đề một thực thé có thé có nhiều bí danh

Các công trình liên quan gần với luận án là [27], [29] và [143] Công trình [27]làm giàu các truy vấn và văn bản băng các nhãn thực thể có tên Các nhãn này đượckết hợp với từ khóa dé truy hồi tài liệu Các từ dé hỏi cũng được thay thé bởi các nhãnthực thể tương ứng Tuy nhiên, các nhãn thực thể này chỉ đơn giản là một số lớp tổngquát của thực thể có tên Hơn nữa, các lớp cha và các bí danh của thực thé không được

xem Xét.

Trong [29], các tác giả hiệu chỉnh mô hình không gian vectơ truyền thống thànhcác vectơ trên không gian thực thể có tên và từ khóa Với mỗi truy vấn hoặc tài liệu,các tác giả áp dụng sự kết hợp tuyến tính giữa vectơ dựa trên thực thể và vectơ dựatrên từ khóa với trọng số của từng vectơ là 0,5 Hệ thống được thực nghiệm trên tậpkiểm tra do các tác giả xây dựng Nhược điểm của hệ thống nay là mỗi truy van phảiđược viết bằng ngôn ngữ RDQL (một ngôn ngữ truy vẫn cho RDF) để tìm kiếm trongontology các thực thé có tên trong truy vấn, trước khi vectơ biểu diễn truy van đượcxây dựng dựa trên các thực thé tim được Vi dụ, với truy vấn tìm kiếm các tài liệu vềBasketball Player, vecto biéu diễn truy van nay được xây dựng dựa trên các tên cầu

Trang 36

thủ bóng rô trong ontology Điều nay làm tốn thời gian tìm kiếm một cách không cầnthiết so với cách chỉ cần tìm các tài liệu có chứa các thực thể thuộc lớp BasketballPlayer Hơn nữa, một ontology thường không day đủ, nên các tài liệu phù hợp chứacác thực thể có tên không ton tại trong ontology sẽ không được trả về, vì các thực thểnày không được dùng dé xây dựng truy van.

Trong lúc đó, mô hình khai thác ngữ nghĩa tiềm ân được đề xuất ở [143] sử dụngcả thực thể có tên và từ khóa như là thuật ngữ của một không gian vectơ chung Đặcđiểm chính của mô hình nay là việc mở rộng tai liệu bằng các thuật ngữ không xuấthiện trong tài liệu nhưng có quan hệ đồng xuất hiện với các thuật ngữ có trong tài liệu.Các tác giả thực nghiệm mô hình trên 20 câu truy vấn được chọn ngẫu nhiên từ 112truy van của tập kiểm tra CISI ([77]) với 1.460 tài liệu được chọn từ [144] Hạn chếcủa công trình này là chỉ khai thác tên của thực thé mà không khai thác các đặc điểm

ontology khác.

Bang 3.1 Khảo sát việc khai thác các đặc điểm ontology của thực thé có tên

cho truy hồi tải liệu

Đặc điểm ontology được sử dụng để

Công trình biêu điên truy vân và tài liệu

Tên Lớp[31], [30], [29], [143] X

[20], [141], [27] X

[139], [28] X X

Như trình bày ở trên, mỗi công trình liên quan được tham khảo và phân tích chỉkhai thác một số đặc điểm ontology của thực thể có tên, chứ không phải tất cả Riêngtrong lĩnh vực truy hỏi tải liệu, Bang 3.1 phân nhóm các công trình liên quan theo cácđặc điểm ontology mà các công trình này sử dụng để biểu diễn truy vấn và tài liệu Cụthể là, các công trình [31], [30], [29] va [143] chi sử dụng tên, còn các công trình [20],

[141] và [27] chỉ sử dụng lớp Các công trình [139] và [28] có sử dụng tên va lớp cua

thực thé để biểu diễn truy van và tài liệu, nhưng tách rời hai đặc điểm ontology này dùlà của cùng một thực thể Việc tách rời này làm cho các tài liệu chứa thực thể có cùngtên (nhưng khác lớp) hoặc chứa thực thể có cùng lớp (nhưng khác tên) với thực thể ởtruy van được truy hồi, trong khi các thực thé trong các tải liệu nay không phải là các

Trang 37

thực thé như truy van mong đợi (tức mỗi thực thé có cùng cả tên và lớp với thực thé ởtruy vấn) Khảo sát này cho thấy các công trình nảy chưa khai thác hai đặc điểmontology của thực thé có tên là: (1) định danh, xác định chính xác một thực thé; và (2)cặp tên-lớp, tức là về việc đặc tả các thực thể có cùng một tên và thuộc cùng một lớp

Ở truy van Q,, các tài liệu nói về thành phố Sài Gon thông qua một số tên khác của nónhư là “7hành pho Hô Chi Minh” hoặc “TPHCM” cũng là các kết quả đúng Ở truyvẫn Q>, một tài liệu phù hợp không nhất thiết phải chứa từ khóa “công ty”, mà chỉ cầnnói về một hoặc một vài công ty (tức là thuộc lớp Công ty), như NIKE, SONY vàAPPLE O truy van Q3, người sử dụng không mong chờ nhận các tải liệu về Paris nhưlà một trường đại học hoặc một diễn viên Lưu ý là có nhiều thành phố tên Paris trênthế giới, và bất kỳ tài liệu nào nói về một trong các thành phố này đều là kết quả đúng.Trong khi đó, truy van Ó¿; muốn tìm các tai liệu nói về một thành phố Paris xác định

rõ ràng (ở bang Texas của Mỹ).

Các ví dụ trên cho thấy các đặc điểm ontolo gy của thực thể có tên cần được khaithác dé biểu diễn truy van và tài liệu Ngoài các đặc điểm ontology co bản là rên, lớpvà định danh, luận an còn xét đến cặp /ên-lớn, là đặc điểm ontology két hop tén va lopcủa thực thé có tên

Như đã nêu ở Phan 2.1, mô hình không gian vecto là một mô hình phổ biến và lànền tang dé phát triển các mô hình khác trong truy hồi tài liệu Luận án dé xuất mộtmô hình trên nhiều không gian vectơ tương ứng với các đặc điểm ontology khác nhau

của thực thê có tên Dé biêu diên một cách hình thức các truy vân va tài liệu băng các

Trang 38

đặc điểm ontology của thực thể có tên, luận án định nghĩa bộ ba (N, C, J), trong đó N,C, và I lần lượt là tập hợp các tên, lớp và định danh của các thực thể trong ontology vềthực thể Theo đó:

1 Mỗi truy vẫn q hoặc tài liệu đ được mô hình hóa như là một tập con của(NC4#})x(CC4*})x(C4*}) Mỗi bộ ba (tén/lép/dinhdanh) trong tập nàyđược xem là một thuật ngữ (term) ontology của thực thé có tên Trong đó *biểu thị một tên, lớp hoặc định danh không xác định của một thực thé có têntrong truy van hoặc tai liệu

Truy vẫn g được mô tả bởi bộ bốn (Gy đc; Gue> J, ) trong đó, đy, Ges „e vàg, lần lượt là các vecto trên N, C, NxC, và I

Tài liệu d: "The California Compact and has been in existence for several years The California group is co-chairedby Stanford University President Don Kennedy and "

Cac đặc điểm ontology của thực thé có tên

1.Stanford University được biểu diễn bởi bộ ba (Stanford University|Universityl University_T.52) và có tên khác là

Stanford.

California Compact được biéu diễn bởi bộ ba (California CompactlOrganization!*).California được biểu diễn bởi bộ ba (CalhformalProvincelProvince_T.4198).Don Kennedy được biéu diễn bởi bộ ba (Don KennedylManml*)

Hệ thống phân cấp ontology cho các lớp của các thực thể có tên ở trên

Lớp University có các lớp cha là EducationalOrganization, Organization, Group va Agent.é

12.3

4

Lớp Organization có các lớp cha là Group va Agent Lớp Province có các lớp cha là PoliticalRegion va Location Lớp Man có các lớp cha là Person va Agent.

Các tập hợp bộ ba thực thé có tên biểu diễn truy vấn và tài liệu

Truy van g = {(Stanford University/UniversitylUniversity_T.52)}

Tài liệu đ = {(California Compact/Organization!*), (Californial ProvincelProvince_T.4198),

(Stanford University! University! University_T.52), (Don KennedylMan/*)}

Hình 3.1 Biéu diễn truy van và tai liệu bang các tập hợp bộ ba thực thé có tên

Trang 39

Một đặc điểm ontology của một thực thể có thể không được xác định rõ vì nhiều

lý do Thứ nhất, người dùng chỉ quan tâm đến một hoặc một số đặc điểm của thực thé

này nên không đề cập đến các đặc điểm khác trong truy van như ở QO,, Ó› và Q3 Thứhai, ngữ cảnh của thực thể này trong tài liệu là không đủ rõ để nhận diện nó Thứ ba,động cơ nhận diện thực thể có hạn chế trong việc nhận diện thực thể này một cách dayđủ Hình 3.1 trình bay ví dụ về một cặp truy van và tài liệu trong tập kiểm tra củaTREC, và việc biểu diễn chúng bằng các tập hợp bộ ba của thực thể có tên Trong đó,hai thực thể Stanford University va California được nhận diện có định danh lần lượt làUniversity_T.52 và Province_T 4198, còn các định danh của hai thực thé CaliforniaCompact va Don Kennedy không xác định được bởi động co nhận diện thực thể có têncủa KIM Hệ thống phân cấp ontology cho các lớp trong ví dụ được rút trích từ KIM

ontology.

Mỗi vecto trong bốn vecto thành phần cho một truy vấn hoặc tài liệu được giớithiệu ở trên là một vecto như trong mô hình không gian vecto truyền thống nhưng trên

túi các thuật ngữ ontology là các tên, các lớp, các cặp tên-lớp, hoặc các định danh, thay

vì các từ khóa (bag-of-words) Tuy nhiên, khác với truy hồi tài liệu theo từ khóa, sựxuất hiện của một thực thể có tên trong một tài liệu hàm chứa và kéo theo các thông tintiềm an trong thực thể đó Ví dụ như với một truy van về Location thi tài liệu nói vềthành pho Sài Gòn là một tài liệu phù hop để truy hôi, vì thành phố Sài Gòn thuộc vềlớp Location Điều này có thể được hiện thực băng cách thêm vào tài liệu đó lớp chacủa lớp City là lớp Location Như vậy, mỗi tài liệu cần được mở rộng với các đặc điểmontology bao phủ các đặc điểm ontology gốc của các thực thé xuất hiện trong nó Việcmở rộng này tốn thời gian, nhưng có thể được làm trước nên không ảnh hưởng đếnthời gian chạy (run-time) để trả lời các truy vấn

Do đó, so với cách tính trọng số ¢fidf trong mô hình không gian vectơ truyềnthống cho vectơ tài liệu, mô hình đề xuất có hai khác biệt quan trọng sau đây trongviệc tính tần suất của các đặc điểm ontology của thực thể có tên:

1 Tan suất của một tên của một thực thể có tính đến sự xuất hiện của các bídanh của thực thé đó Tức là, néu một tài liệu chứa một thực thé có bí danhlà một tên nào đó thì tên này cũng được xem như xuất hiện trong tài liệu Ví

dụ, nêu một tài liệu dé cập đền quôc gia Georgia, thi môi lan xuât hiện cua

Trang 40

thực thé này trong tài liệu được tính là một lần xuất hiện của tên Gruzia, bởivì nó là bí danh cua Georgia Cac bí danh của thực thể có tên được địnhnghĩa trong ontology về thực thé.

2 Tan suất của một lớp có tính đến sự xuất hiện của các lớp con của nó Tuclà, nếu một tài liệu chứa một thực thể mà lớp của nó là một lớp con của mộtlớp nao đó, thì lớp cha này cũng được xem như xuất hiện trong tài liệu Vídụ, nếu một tài liệu dé cập đến Paris như một thành phố, thì mỗi lần xuấthiện của thực thể này trong tài liệu được tính là một lần xuất hiện của lớp

Location, bởi vi City là lớp con của Location Sự bao phủ lớp được định

nghĩa trong hệ thông phân cấp lớp của ontology về thực thê.Độ tương tự của một tai liệu d và một truy vẫn q được định nghĩa là:

sim d 7) = wy.cosine( dy Gy) + We.cosine( de Gc) +

Wyc.Cosine( dye sGye) + Wp.cosine( d, 71) (3-1)

Trong đó wy + Wc + Wyc + W; = | Các trong SỐ Wy, We, Wye Va W, của các vectơ thànhphan có thé được điều chỉnh tùy theo mức độ quan trong của bốn đặc điểm ontologytrong từng miền ứng dụng cụ thể

Lưu ý rằng việc kết hợp hai vectơ N và C không thé thay thế được vectơ NxC vivectơ NxC dé cap đến các thực thé với cặp tên-lớp xác định Ví dụ, một tài liệu cùngdé cập đến một thực thé với tên là Paris và một thành phố khác thì tai liệu này khôngnhất thiết dé cập đến thanh pho Paris Bên cạnh đó, vectơ NxC không thé thay thé chovecto I bởi vì các thực thé khác nhau có thé có cùng tên và lớp, ví dụ một hành phoParis ở Pháp và một thanh phố Paris ở Mỹ Ngoài ra, các tên và lớp của một thực théđược xác định từ định danh của nó, nên việc kết hợp I với N hoặc C là không cần thiết

Tóm lại, ở day luận án mở rộng khái niệm thuật ngữ là các từ khóa trong mô hình

không gian truyền thống với các thuật ngữ là các tên, lớp, cặp tên-lớp, hoặc định danhcủa các thực thể, và sử dụng bốn vectơ trên bốn không gian nói trên để biểu diễn cho

một truy van hoặc một tài liệu trong mô hình dé xuat.

Ngày đăng: 24/09/2024, 08:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w