3 Xếp hạng trong máy tìm kiếm thực thể
3.2.1 Mô hình Impression
Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đã đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23
Global Access Layer Local Recognition Layer
Global Access Layer Local Recognition Layer Validation Layer
Collection Eover D Virtual Collection E’over D’
... ... ... ... ... ...
< amazon customer service, >: ??
< amazon customer service, >: ??
... ... ... ... ... ...
< amazon customer service, >: ??
< amazon customer service, >: ?? ... ... ... ... ... ...
< amazon customer service, >: ??
< amazon customer service, >: ??
randomize
Hình 3.4: Impression model [18]
nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá (Validation).
Tầng truy nhập
Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát, xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Ta có:
Score(q(t)) =X
d∈D
DICLOFENAC Tên gốc: Diclofenac
Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR
Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid (NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,
http://www.cimsi.org.vn/Duoc%20pham/Thuoc%20goc/diclofenac.htm O1 O2 . . . Hình 3.5: Ví dụ rút trích thực thể thuốc Tầng nhận dạng
Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện) của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m+l). Ví dụ: trong hình 3.5 với
E ={#drug}, k ="viêm",q ={"viêm"#drug}thì ta có một quan sátγ = (o1, o2). Trong mỗi tài liệu có thể có nhiều quan sátγ(tính chất R-Holistic) và do đóp(q(t)|d) cần được ước lượng trên tất cả các quan sátγ đó, [18] đưa ra công thức ước lượng:
p(q(t)|d) = max
γ p(α(γ)) (3.3) Với p(α(γ))là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnhα. Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thể
ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈Ei|d)(tính chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf. Vì vậy, ta có:
p(α(γ)) = Y
ei∈γ
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25 Thay vào công thức 3.3 suy ra:
p(q(t)|d) = max γ Y ei∈γ ei.conf ×pcontext(α(γ) (3.5) Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa thực thể và từ khóa gọi là αP. Do đó ta có:
pcontext(α(γ)) =αB(γ)×αP(γ)
• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sátγ với cácoi có thỏa mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi phải xuất hiện đúng thứ tự như xác định.
• αP là xác suất quan sátγ phù hợp vớittrong cửa sổ quan sát s. Để đơn giản, trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác suất này, và đưa ra công thức: αP(γ) =p(s|γ).
Thay vào công thức 3.5 ta được:
p(q(t)|d) = max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.6) Vậy công thức Score(q(t)) được xác định:
Score(q(t)) =X d∈D PR[d]×max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.7) Tầng đánh giá
Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D0 được lấy ngẫu nhiên từDđể làm đối chứng so sánh những nhận định trênD. Tầng đánh giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và G-test theo [18] để đánh giá độ tin cậy thông tin nhận được từD.
Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t = (e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D0 được lấy ngẫu nhiên từ tập D, D0
cần "giống" vớiD ngoại trừ trong D0 liên kết của các từ khóa và các thực thể hoàn toàn là ngẫu nhiên. Xây dựng tậpD0 từD bằng việc tạo các tài liệud0 ngẫu nhiên: Đưa ngẫu nhiên các thực thể và từ khóa vàod0, mỗi thực thể, từ khóa được đưa vào độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan sát một từ khóa, hay thực thể trongD0 cũng giống như trong D:
p(ei ∈d0) = X
ei∈d,d∈D
p(d) ; p(kj ∈d0) = X
kj∈d,d∈D
p(d)
Do đặc điểm của D0 trên nên giá trị trung bình của độ tin cậy của tất cả các thực thể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej là Ej) trongD0:
ej.conf. Và ta có nếu q(t)không xuất hiện trongd0 thì p(q(t)|d0) = 0, ngược lại nếu
q(t)∈d0 thì p(q(t)|d0) là như nhau với mọi d0. Do đó:
p(q(t)|D0) = X d0∈D0&q(t)∈d0 p(d0)×p(q(t)|d0) =p(q(t)|d0)× X d0∈D0&q(t)∈d0 p(d0) =p(q(t)|d0)×p(q(t)∈d0) (3.8) Trong đó p(q(t) ∈d0) là xác suất của t xuất hiện trong d0. Do từ khóa và các thực thể được lấy độc lập vàod0 nên xác suất xuất hiện củaq(t)trong d0 được tính bởi:
p(q(t)∈d0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0) Tương tự như công thức 3.5, lấy giá trị trung bình ta có:
p(q(t)|d0) = (
m
Y
j=1
ej.conf)×pcontext(q(t)|d0) Trong đó, với q(t)∈d0, tương tự công thức tính pcontext(q(t)|d)có:
pcontext(q(t)|d0) = p(q(t)|s) Từ đó suy ra: pcontext(q(t)|d0) = p(q(t)|s) = P sp(q(t)|s) |s|
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27 Với |s| là số các giá trị s được xét.
Thay các công thức trên vào 3.8 được:
p(q(t)|D0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)× ×( m Y j=1 ej.conf)× P sp(q(t)|s) |s| (3.9)
Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr để kiểm tra quan sát p0 có phải là ngẫu nhiên không:
Score(q(t)) = 2(p0log p0
pr
+ (1−po) log1−p0 1−pr
) (3.10)
Do p0, pr1 nên công thức 3.10 có thể ước lượng:
Score(q(t))∝p0log p0 pr Trong đó: p0 =p(q(t)|D) =X d∈D PR(d)×max γ (Y ei∈γ ei.conf ×αB(γ)×p(s|γ)) pτ =p(q(t)|D0) = m Y j=1 ( X ej∈d,d∈D p(d))× l Y i=1 ( X ki∈d,d∈D p(d))× × m Y j=1 ej.conf × P sp(q(t)|s) |s|