3 Xếp hạng trong máy tìm kiếm thực thể
3.2.1 Mô hình Impression
Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[16] đã đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá (Validation).
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23
DICLOFENAC Tên gốc: Diclofenac
Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR
Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid (NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,
http://www.cimsi.org.vn/Duoc%20pham/Thuoc%20goc/diclofenac.htm O1 O2 . . . Hình 3.5: Ví dụ rút trích thực thể thuốc Tầng truy nhập
Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát, xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do đó tác giả Tao Cheng đã chọn PageRank (PR) [39] để xác định: p(d) =PR[d]. Ta có:
Score(q(t)) = X
d∈D
PR[d]×p(q(t)|d) (3.2) Tầng nhận dạng
Với mỗi tài liệudđược xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl}
trong tài liệu đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện) củaq(t) =α(e1, ..., em, k1, ..., kl)trênd (cóg =m+l). Ví dụ: trong hình 3.5 với E ={#drug}, k ="viêm", q ={"viêm"#drug}
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 24 sát γ (tính chất R-Holistic) và do đó p(q(t)|d)cần được ước lượng trên tất cả các quan sát γ đó, [16] đưa ra công thức ước lượng:
p(q(t)|d) = max
γ p(α(γ)) (3.3)
Với p(α(γ))là xác suất/khả năng mà một quan sátγ phù hợp với hàm ngữ cảnhα. Tuy nhiên khi được rút trích từ tài liệud, các quan sátoi biểu diễn một thực thể ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈Ei|d)(tính chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf. Vì vậy, ta có:
p(α(γ)) = Y
ei∈γ
ei.conf ×pcontext(α(γ) (3.4) Thay vào công thức 3.3 suy ra:
p(q(t)|d) = max γ Y ei∈γ ei.conf ×pcontext(α(γ) (3.5) Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa thực thể và từ khóa gọi là αP. Do đó ta có:
pcontext(α(γ)) = αB(γ)×αP(γ)
• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sátγ với cácoi
có thỏa mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om)
yêu cầu các oi phải xuất hiện đúng thứ tự như xác định.
• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản, trong [16] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác suất này, và đưa ra công thức: αP(γ) =p(s|γ). Thay vào công thức 3.5 ta được:
p(q(t)|d) = max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.6)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25 Vậy công thức Score(q(t)) được xác định:
Score(q(t)) = X d∈D PR[d]×max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.7) Tầng đánh giá
Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D0 được lấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánh giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và G-test theo [16] để đánh giá độ tin cậy thông tin nhận được từ D.
Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t = (e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D0 được lấy ngẫu nhiên từ tập D, D0 cần "giống" với D ngoại trừ trong D0 liên kết của các từ khóa và các thực thể hoàn toàn là ngẫu nhiên. Xây dựng tập D0 từ D bằng việc tạo các tài liệu d0 ngẫu nhiên: Đưa ngẫu nhiên các thực thể và từ khóa vào d0, mỗi thực thể, từ khóa được đưa vào độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan sát một từ khóa, hay thực thể trong D0 cũng giống như trong D:
p(ei ∈d0) = X
ei∈d,d∈D
p(d) ; p(kj ∈d0) = X
kj∈d,d∈D
p(d)
Do đặc điểm của D0 trên nên giá trị trung bình của độ tin cậy của tất cả các thực thể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej làEj) trongD0:ej.conf. Và ta có nếu q(t)không xuất hiện trong d0 thì p(q(t)|d0) = 0, ngược lại nếuq(t)∈d0 thì p(q(t)|d0)là như nhau với mọi d0.
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 26 Do đó: p(q(t)|D0) = X d0∈D0&q(t)∈d0 p(d0)×p(q(t)|d0) =p(q(t)|d0)× X d0∈D0&q(t)∈d0 p(d0) =p(q(t)|d0)×p(q(t)∈d0) (3.8) Trong đó p(q(t) ∈ d0) là xác suất của t xuất hiện trong d0. Do từ khóa và các thực thể được lấy độc lập vào d0 nên xác suất xuất hiện củaq(t) trong d0 được tính bởi: p(q(t)∈d0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)
Tương tự như công thức 3.5, lấy giá trị trung bình ta có: p(q(t)|d0) = (
m
Y
j=1
ej.conf)×pcontext(q(t)|d0)
Trong đó, với q(t)∈d0, tương tự công thức tínhpcontext(q(t)|d) có: pcontext(q(t)|d0) =p(q(t)|s) Từ đó suy ra: pcontext(q(t)|d0) =p(q(t)|s) = P sp(q(t)|s) |s|
Với |s| là số các giá trịs được xét.
Thay các công thức trên vào?? được: p(q(t)|D0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)× ×( m Y j=1 ej.conf)× P sp(q(t)|s) |s| (3.9)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27 Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr để kiểm tra quan sát p0 có phải là ngẫu nhiên không:
Score(q(t)) = 2(p0log p0
pr
+ (1−po) log 1−p0 1−pr
) (3.10)
Do p0, pr 1 nên công thức 3.10 có thể ước lượng: Score(q(t))∝p0log p0 pr Trong đó: p0 =p(q(t)|D) =X d∈D PR(d)×max γ (Y ei∈γ ei.conf ×αB(γ)×p(s|γ)) pτ =p(q(t)|D0) = m Y j=1 ( X ej∈d,d∈D p(d))× l Y i=1 ( X ki∈d,d∈D p(d))× × m Y j=1 ej.conf × P sp(q(t)|s) |s|