Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56]

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 27 - 71)

4 Tạo nhãn cụm tài liệu

3.2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56]

E1, ..., Em với ngữ cảnh các từ khóa k1, ..., kl.

• Output: Danh sách đã xếp hạng của các bột= (e1, ..., em).

Tao Cheng, X.Yan và Kevin C.C Chang tại SIGMOD’07 [19] đã đưa ra kiến trúc cơ bản của hệ thống tìm kiếm thực thể hình 3.3. Hệ thống được chia thành hai phần: một phần xử lý ngoại tuyến (offline) gồm rút trích thực thể (Entity extraction) và

Global Query Processing

Ranking Model

Keyword&Entity Indexer

entity

query results, scores

Entity Extractor

Local Query

Local Index … Local Index

Processing Local Query Processing Aggregation Local Index Local Query Processing Sort Merge Join

, 05 , 71 , , 21 6 2 d d amazon ,... 8 . 0 , 123 , , 32 #phone d6 ... Hình 3.3: Kiến trúc hệ thống[19]

đánh chỉ mục (indexing) (khối được bao nét đứt), và phần xử lý trực tuyến (online) đó là xếp hạng thực thể (khối bao nét liền Ranking Model).

Entity Extraction thực hiện việc rút trích các thực thể từ các trang tài liệu được lấy về.

Indexing tạo chỉ mục và chỉ mục ngược của các thực thể được trả về từ mô-dul rút trích trên.

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 21 (globally). Như kiến trúc được đề cập ở phần trên do T.Cheng, X.Yan và K.Chang [19] đưa ra, modul xếp hạng gồm có hai thành phần chính: xử lý truy vấn cục bộ (local) và xử lý truy vấn toàn cục (global).

1. Xử lý cục bộ: Từ chỉ mục ngược của tất cả các thực thể thuộc kiểuEi và từ khóa kj, modul thực hiện phép nối trên tài liệu để tìm các tài liệu chứa các thực thể thuộcEi, và các từ khóakj thỏa mãn hàmα. Trọng số cục bộ (local score) được xác định dựa vào độ tin cậy của thực thể được rút trích và mối quan hệ ngữ cảnh giữa các thực thể đó với các từ khóa trong từng tài liệu.

2. Xử lý toàn cục: Module thực hiện nhận truy vấn người dùng, gửi truy vấn cho modul xử lý cục bộ, sau đó đợi kết quả trả về từ modul xử lý cục bộ. Sau khi nhận được tất cả các trọng số cục bộ, modul tiến hành tổng hợp trọng số cho từng bộ thực thể t, kết hợp trọng số cục bộ với trọng số xác định cho t trên toàn tập tài liệu để có giá trị Score cuối cùng cho xếp hạng.

Trong giới hạn của luận văn này, tôi tập trung phân tích thành phần xếp hạng. Vấn đề xếp hạng thực thể được phân tích ở phần tiếp sau và mô hình áp dụng vào bài toán xếp hạng thực thể thuốc được đề cập.

3.2 Xếp hạng thực thể

Máy tìm kiếm thực thể trả về cho người dùng kết quả là danh sách các thực thể. Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phù hợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho người dùng. Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thực thể.

Giả thiết có tập tài liệuD={d1, d2, ..., dn}, tập các kiểu thực thểE ={E1, ..., EN}, truy vấn q = α(E1, ..., Em, k1, ..., kl) với kj là các từ khóa, và bộ các thực thể

xác định bởi:

Score(q(t)) =p(q(t)|D) = X

d∈D

p(d)×p(q(t)|d) (3.1) Với p(q(t)|d) là xác suất xảy ra quan hệα của t trên tài liệud.

Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việc xác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm.

Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score() đã được đưa ra trong [18]:

R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữ cảnh khác nhau và ảnh hưởng bởi hai yếu tố chính:

• Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, ví dụ: tên thường xuất hiện liền trước số điện thoại.

• Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trang web và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càng có ý nghĩa cao hơn.

R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong một trang, do đó cần ước lượng tìm liên kết phù hợp nhất

R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần có giá trị độ tin cậy tương ứng cho mỗi thực thể.

R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ý nghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểm định để loại bỏ những liên kết ngẫu nhiên.

R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giá cao hơn so với trên trang ít phổ biến hơn.

3.2.1 Mô hình Impression

Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đã đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23

Global Access Layer Local Recognition Layer

Global Access Layer Local Recognition Layer Validation Layer

Collection Eover D Virtual Collection E’over D’

... ... ... ... ... ...

< amazon customer service, >: ??

< amazon customer service, >: ??

... ... ... ... ... ...

< amazon customer service, >: ??

< amazon customer service, >: ?? ... ... ... ... ... ...

< amazon customer service, >: ??

< amazon customer service, >: ??

randomize

Hình 3.4: Impression model [18]

nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá (Validation).

Tầng truy nhập

Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát, xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Ta có:

Score(q(t)) =X

d∈D

DICLOFENAC Tên gốc: Diclofenac

Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR

Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid (NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,

http://www.cimsi.org.vn/Duoc%20pham/Thuoc%20goc/diclofenac.htm O1 O2 . . . Hình 3.5: Ví dụ rút trích thực thể thuốc Tầng nhận dạng

Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện) của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m+l). Ví dụ: trong hình 3.5 với

E ={#drug}, k ="viêm",q ={"viêm"#drug}thì ta có một quan sátγ = (o1, o2). Trong mỗi tài liệu có thể có nhiều quan sátγ(tính chất R-Holistic) và do đóp(q(t)|d) cần được ước lượng trên tất cả các quan sátγ đó, [18] đưa ra công thức ước lượng:

p(q(t)|d) = max

γ p(α(γ)) (3.3) Với p(α(γ))là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnhα. Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thể

ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈Ei|d)(tính chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf. Vì vậy, ta có:

p(α(γ)) = Y

ei∈γ

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25 Thay vào công thức 3.3 suy ra:

p(q(t)|d) = max γ Y ei∈γ ei.conf ×pcontext(α(γ) (3.5) Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa thực thể và từ khóa gọi là αP. Do đó ta có:

pcontext(α(γ)) =αB(γ)×αP(γ)

• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sátγ với cácoi có thỏa mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi phải xuất hiện đúng thứ tự như xác định.

• αP là xác suất quan sátγ phù hợp vớittrong cửa sổ quan sát s. Để đơn giản, trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác suất này, và đưa ra công thức: αP(γ) =p(s|γ).

Thay vào công thức 3.5 ta được:

p(q(t)|d) = max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.6) Vậy công thức Score(q(t)) được xác định:

Score(q(t)) =X d∈D PR[d]×max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.7) Tầng đánh giá

Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D0 được lấy ngẫu nhiên từDđể làm đối chứng so sánh những nhận định trênD. Tầng đánh giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và G-test theo [18] để đánh giá độ tin cậy thông tin nhận được từD.

Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t = (e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D0 được lấy ngẫu nhiên từ tập D, D0

cần "giống" vớiD ngoại trừ trong D0 liên kết của các từ khóa và các thực thể hoàn toàn là ngẫu nhiên. Xây dựng tậpD0 từD bằng việc tạo các tài liệud0 ngẫu nhiên: Đưa ngẫu nhiên các thực thể và từ khóa vàod0, mỗi thực thể, từ khóa được đưa vào độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan sát một từ khóa, hay thực thể trongD0 cũng giống như trong D:

p(ei ∈d0) = X

ei∈d,d∈D

p(d) ; p(kj ∈d0) = X

kj∈d,d∈D

p(d)

Do đặc điểm của D0 trên nên giá trị trung bình của độ tin cậy của tất cả các thực thể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej là Ej) trongD0:

ej.conf. Và ta có nếu q(t)không xuất hiện trongd0 thì p(q(t)|d0) = 0, ngược lại nếu

q(t)∈d0 thì p(q(t)|d0) là như nhau với mọi d0. Do đó:

p(q(t)|D0) = X d0∈D0&q(t)∈d0 p(d0)×p(q(t)|d0) =p(q(t)|d0)× X d0∈D0&q(t)∈d0 p(d0) =p(q(t)|d0)×p(q(t)∈d0) (3.8) Trong đó p(q(t) ∈d0) là xác suất của t xuất hiện trong d0. Do từ khóa và các thực thể được lấy độc lập vàod0 nên xác suất xuất hiện củaq(t)trong d0 được tính bởi:

p(q(t)∈d0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0) Tương tự như công thức 3.5, lấy giá trị trung bình ta có:

p(q(t)|d0) = (

m

Y

j=1

ej.conf)×pcontext(q(t)|d0) Trong đó, với q(t)∈d0, tương tự công thức tính pcontext(q(t)|d)có:

pcontext(q(t)|d0) = p(q(t)|s) Từ đó suy ra: pcontext(q(t)|d0) = p(q(t)|s) = P sp(q(t)|s) |s|

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27 Với |s| là số các giá trị s được xét.

Thay các công thức trên vào 3.8 được:

p(q(t)|D0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)× ×( m Y j=1 ej.conf)× P sp(q(t)|s) |s| (3.9)

Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr để kiểm tra quan sát p0 có phải là ngẫu nhiên không:

Score(q(t)) = 2(p0log p0

pr

+ (1−po) log1−p0 1−pr

) (3.10)

Do p0, pr1 nên công thức 3.10 có thể ước lượng:

Score(q(t))∝p0log p0 pr Trong đó: p0 =p(q(t)|D) =X d∈D PR(d)×max γ (Y ei∈γ ei.conf ×αB(γ)×p(s|γ)) pτ =p(q(t)|D0) = m Y j=1 ( X ej∈d,d∈D p(d))× l Y i=1 ( X ki∈d,d∈D p(d))× × m Y j=1 ej.conf × P sp(q(t)|s) |s|

3.2.2 Nhận xét, đánh giá mô hình Impression

Ưu điểm

Với những đặc điểm của tìm kiếm thực thể được phân tích, mô hình Impression đã bám sát và xác định hàm tính hạng Score(q(t))để đảm bảo các tính chất đó:

1. Tính chất R-Contextual được thể hiện ở các trọng số αB và p(s|γ)

3. Tính chất R-Uncertainty của việc rút trích các thực thể và đánh giá các thực thể được thể hiện ở trọng số ei.conf

4. Bằng kiểm định giả thiết thống kê trong tầng đánh giá (Validate), tính chất R-Associative được đảm bảo

5. Sử dụng trọng số PR- độ quan trọng/phổ biến của trang web (đảm bảo tính chất R-Discriminative)

Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [18] giới thiệu các phương pháp xếp hạng làm đối sánh:

• N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t.

• L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất củat trong từng tài liệu.

• G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu có chứa t. Và PR được chọn là trọng số cho mỗi tài liệu.

• C (Combination of Local Model and Global Aggregation): xếp hạng theo tổng trọng số cục bộ củat trong tất cả các tài liệu chứat.

• W (EntityRank Without G-test): xếp hạng theo trọng số tổng hợp của Entity Rank nhưng không sử dụng đánh giá G-test (p0).

Và theo đánh giá trong [18] (hình 3.6) độ chính xác kết quả xếp hạng của thuật toán EntityRank (xếp hạng với mô hình Impression) có MRRu 0.65cao hơn gấp nhiều lần những phương pháp xếp hạng đối sánh được đưa ra.

Nhược điểm

Trong tài liệu d, một thực thể có thể xuất hiện nhiều lần và phù hợp với ngữ cảnh truy vấn (các quan sát γ) theo tính chất R-Holistic. Việc ước lượng với công thức 3.5 chỉ mang ý nghĩa lựa chọn quan sát phù hợp nhất trong tài liệu. Tuy nhiên, ta

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 29

Measure EntityRank L N G C W

M R R 0.648 0.047 0.037 0.050 0.266 0.379

M R R 0.648 0.125 0.106 0.138 0.316 0.387

Query Type I MRR Comparison

Measure EntityRank L N G C W

M R R 0.659 0.112 0.451 0.053 0.573 0.509

M R R 0.660 0.168 0.454 0.119 0.578 0.520

Query Type II MRR Comparison

Hình 3.6: So sánh độ chính xác MRR [18]

có thể dễ dàng nhận thấy số lần xuất hiện trong tài liệu của thực thể mà phù hợp ngữ cảnh cũng có một vai trò quan trọng, ảnh hưởng hạng của thực thể.

Ví dụ: trong tài liệu trích chọn các thực thể thuốc hình 3.5, với truy vấn

q = {"viêm"#drug}. Nếu chỉ xét trên tài liệu này thì một cách trực giác ta thấy các thực thể thuốc nên được xếp hạng {"Diclofenac", "NSAID", "Voltaren", "Catafram","Voltaren-XR","steroid"}. Nếu chỉ dựa vào công thức 3.5, thì rõ ràng ở đây thuốc"steroid" được xếp hạng đầu tiên- như vậy không hợp lý.

Thêm nữa, từ bảng so sánh độ chính xác của một số phương pháp xếp hạng hình 3.6, ta dễ dàng nhận thấy độ đo C có ý nghĩa cao hơn hẳn L, tức độ đo dựa vào tổng trọng số cục bộ trong từng tài liệu có ý nghĩa cao hơn lấy trọng số cục bộ cao nhất.

3.2.3 Mô hình đề xuất

Mô hình xếp hạng Impression, công thức xác định giá trị để xếp hạng thực thể được đưa ra hoàn toàn dựa vào việc phân tích các đặc điểm và tìm công thức để thỏa mãn các nhận định đó. Tuy nhiên sau khi phân tích nhược điểm ở trên đã cho thấy như vậy là chưa đầy đủ. Học xếp hạng cho ta giải pháp để giải quyết vấn đề, tìm hàm tính hạng "tốt nhất" với các đặc trưng xác định. Qua phân tích các đặc điểm của

tìm kiếm để đưa ra các trọng số tương ứng với các đặc trưng của thực thể. Mô hình học xếp hạng thực thể trong máy tìm kiếm thực thể đề xuất hình 3.7. Trong mô

Learning Ranking Mô hình ) , (q t f ) , ( , ) , ( , 2 2 1 1 t q f t t q f t i i i i ) 1 ( 2 ) 1 ( 1 ) 1 ( t t q ) ( 2 ) ( 1 ) ( m m m t t q Truy vấn Dữ liệu học ?) , ( ..., ?) , ( ?), , ( 1 2 n t t t q Hàm th c th ... .. . ... .. . ... .. .

Hình 3.7: Mô hình học xếp hạng trong máy tìm kiếm thực thể

hình, thành phần được bao đen là một thành phần xếp hạng trong máy tìm kiếm.

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 27 - 71)

Tải bản đầy đủ (PDF)

(71 trang)