Impression model [16]

Một phần của tài liệu (LUẬN văn THẠC sĩ) học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu (Trang 30)

4 Tạo nhãn cụm tài liệu

3.4 Impression model [16]

R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần có giá trị độ tin cậy tương ứng cho mỗi thực thể.

R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ý nghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểm định để loại bỏ những liên kết ngẫu nhiên.

R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giá cao hơn so với trên trang ít phổ biến hơn.

3.2.1 Mô hình Impression

Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[16] đã đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá (Validation).

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23

DICLOFENAC Tên gốc: Diclofenac

Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR

Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid (NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,

http://www.cimsi.org.vn/Duoc%20pham/Thuoc%20goc/diclofenac.htm O1 O2 . . . Hình 3.5: Ví dụ rút trích thực thể thuốc Tầng truy nhập

Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát, xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do đó tác giả Tao Cheng đã chọn PageRank (PR) [39] để xác định: p(d) =PR[d]. Ta có:

Score(q(t)) = X

d∈D

PR[d]×p(q(t)|d) (3.2)

Tầng nhận dạng

Với mỗi tài liệudđược xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện) củaq(t) =α(e1, ..., em, k1, ..., kl)trênd (cóg =m+l). Ví dụ: trong hình 3.5 với E ={#drug}, k ="viêm", q ={"viêm"#drug}

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 24 sát γ (tính chất R-Holistic) và do đó p(q(t)|d)cần được ước lượng trên tất cả các quan sát γ đó, [16] đưa ra công thức ước lượng:

p(q(t)|d) = max

γ p(α(γ)) (3.3) Với p(α(γ))là xác suất/khả năng mà một quan sátγ phù hợp với hàm ngữ cảnhα. Tuy nhiên khi được rút trích từ tài liệud, các quan sátoi biểu diễn một thực thể ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈Ei|d)(tính chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf. Vì vậy, ta có:

p(α(γ)) = Y

ei∈γ

ei.conf ×pcontext(α(γ) (3.4) Thay vào công thức 3.3 suy ra:

p(q(t)|d) = max γ Y ei∈γ ei.conf ×pcontext(α(γ) (3.5) Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa thực thể và từ khóa gọi là αP. Do đó ta có:

pcontext(α(γ)) = αB(γ)×αP(γ)

• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sátγ với cácoi

có thỏa mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om)

yêu cầu các oi phải xuất hiện đúng thứ tự như xác định.

• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản, trong [16] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác suất này, và đưa ra công thức: αP(γ) =p(s|γ). Thay vào công thức 3.5 ta được:

p(q(t)|d) = max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.6)

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25 Vậy công thức Score(q(t)) được xác định:

Score(q(t)) = X d∈D PR[d]×max γ Y ei∈γ ei.conf ×αB(γ)×p(s|γ) (3.7) Tầng đánh giá

Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D0 được lấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánh giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và G-test theo [16] để đánh giá độ tin cậy thông tin nhận được từ D.

Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t = (e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D0 được lấy ngẫu nhiên từ tập D, D0 cần "giống" với D ngoại trừ trong D0 liên kết của các từ khóa và các thực thể hoàn toàn là ngẫu nhiên. Xây dựng tập D0 từ D bằng việc tạo các tài liệu d0 ngẫu nhiên: Đưa ngẫu nhiên các thực thể và từ khóa vào d0, mỗi thực thể, từ khóa được đưa vào độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan sát một từ khóa, hay thực thể trong D0 cũng giống như trong D:

p(ei ∈d0) = X

ei∈d,d∈D

p(d) ; p(kj ∈d0) = X

kj∈d,d∈D

p(d)

Do đặc điểm của D0 trên nên giá trị trung bình của độ tin cậy của tất cả các thực thể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej làEj) trongD0:ej.conf. Và ta có nếu q(t)không xuất hiện trong d0 thì p(q(t)|d0) = 0, ngược lại nếuq(t)∈d0 thì p(q(t)|d0)là như nhau với mọi d0.

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 26 Do đó: p(q(t)|D0) = X d0∈D0&q(t)∈d0 p(d0)×p(q(t)|d0) =p(q(t)|d0)× X d0∈D0&q(t)∈d0 p(d0) =p(q(t)|d0)×p(q(t)∈d0) (3.8) Trong đó p(q(t) ∈ d0) là xác suất của t xuất hiện trong d0. Do từ khóa và các thực thể được lấy độc lập vào d0 nên xác suất xuất hiện củaq(t) trong d0 được tính bởi: p(q(t)∈d0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)

Tương tự như công thức 3.5, lấy giá trị trung bình ta có: p(q(t)|d0) = (

m

Y

j=1

ej.conf)×pcontext(q(t)|d0)

Trong đó, với q(t)∈d0, tương tự công thức tínhpcontext(q(t)|d) có: pcontext(q(t)|d0) =p(q(t)|s) Từ đó suy ra: pcontext(q(t)|d0) =p(q(t)|s) = P sp(q(t)|s) |s| Với |s| là số các giá trịs được xét.

Thay các công thức trên vào?? được: p(q(t)|D0) = j=1 Y m p(ej ∈d0) l Y i=1 p(ki ∈d0)× ×( m Y j=1 ej.conf)× P sp(q(t)|s) |s| (3.9)

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27 Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr để kiểm tra quan sát p0 có phải là ngẫu nhiên không:

Score(q(t)) = 2(p0log p0

pr

+ (1−po) log 1−p0 1−pr

) (3.10) Do p0, pr 1 nên công thức 3.10 có thể ước lượng:

Score(q(t))∝p0log p0 pr Trong đó: p0 =p(q(t)|D) =X d∈D PR(d)×max γ (Y ei∈γ ei.conf ×αB(γ)×p(s|γ)) pτ =p(q(t)|D0) = m Y j=1 ( X ej∈d,d∈D p(d))× l Y i=1 ( X ki∈d,d∈D p(d))× × m Y j=1 ej.conf × P sp(q(t)|s) |s|

3.2.2 Nhận xét, đánh giá mô hình Impression

Ưu điểm

Với những đặc điểm của tìm kiếm thực thể được phân tích, mô hình Im- pression đã bám sát và xác định hàm tính hạngScore(q(t))để đảm bảo các tính chất đó:

1. Tính chất R-Contextual được thể hiện ở các trọng số αB và p(s|γ 2. Xác định giá trị cực đại theo γ để chọn ra quan sát "phù hợp" nhất

(R-Holistic)

3. Tính chất R-Uncertainty của việc rút trích các thực thể và đánh giá các thực thể được thể hiện ở trọng số ei.conf

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 28 5. Sử dụng trọng số PR- độ quan trọng/phổ biến của trang web (đảm

bảo tính chất R-Discriminative)

Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [16] giới thiệu các phương pháp xếp hạng làm đối sánh:

• N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t.

• L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất của t trong từng tài liệu.

• G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu có chứa t. Và PR được chọn là trọng số cho mỗi tài liệu. • C (Combination of Local Model and Global Aggregation): xếp hạng

theo tổng trọng số cục bộ của t trong tất cả các tài liệu chứa t. • W (EntityRank Without G-test): xếp hạng theo trọng số tổng hợp

của Entity Rank nhưng không sử dụng đánh giá G-test (p0).

Và theo đánh giá trong [16] (hình 3.6) độ chính xác kết quả xếp hạng của thuật toán EntityRank (xếp hạng với mô hình Impression) có MRRu0.65

cao hơn gấp nhiều lần những phương pháp xếp hạng đối sánh được đưa ra.

Nhược điểm

Trong tài liệud, một thực thể có thể xuất hiện nhiều lần và phù hợp với ngữ cảnh truy vấn (các quan sát γ) theo tính chất R-Holistic. Việc ước lượng với công thức 3.5 chỉ mang ý nghĩa lựa chọn quan sát phù hợp nhất trong tài liệu. Tuy nhiên, ta có thể dễ dàng nhận thấy số lần xuất hiện trong tài liệu của thực thể mà phù hợp ngữ cảnh cũng có một vai trò quan trọng, ảnh hưởng hạng của thực thể.

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 29

Measure EntityRank L N G C W

M R R 0.648 0.047 0.037 0.050 0.266 0.379

M R R 0.648 0.125 0.106 0.138 0.316 0.387

Query Type I MRR Comparison

Measure EntityRank L N G C W

M R R 0.659 0.112 0.451 0.053 0.573 0.509

M R R 0.660 0.168 0.454 0.119 0.578 0.520

Query Type II MRR Comparison

Hình 3.6: So sánh độ chính xác MRR [16]

Ví dụ: trong tài liệu trích chọn các thực thể thuốc hình 3.5, với truy vấn q = {"viêm"#drug}. Nếu chỉ xét trên tài liệu này thì một cách trực giác ta thấy các thực thể thuốc nên được xếp hạng {"Diclofenac", "NSAID", "Voltaren", "Catafram","Voltaren-XR","steroid"}. Nếu chỉ dựa vào công thức 3.5, thì rõ ràng ở đây thuốc "steroid" được xếp hạng đầu tiên- như vậy không hợp lý.

Thêm nữa, từ bảng so sánh độ chính xác của một số phương pháp xếp hạng hình 3.6, ta dễ dàng nhận thấy độ đo C có ý nghĩa cao hơn hẳn L, tức độ đo dựa vào tổng trọng số cục bộ trong từng tài liệu có ý nghĩa cao hơn lấy trọng số cục bộ cao nhất.

3.2.3 Mô hình đề xuất

Mô hình xếp hạng Impression, công thức xác định giá trị để xếp hạng thực thể được đưa ra hoàn toàn dựa vào việc phân tích các đặc điểm và tìm công thức để thỏa mãn các nhận định đó. Tuy nhiên sau khi phân tích nhược điểm ở trên đã cho thấy như vậy là chưa đầy đủ. Học xếp hạng cho ta giải pháp để giải quyết vấn đề, tìm hàm tính hạng "tốt nhất" với các đặc trưng xác định. Qua phân tích các đặc điểm của tìm kiếm để đưa ra các trọng số tương ứng với các đặc trưng của thực thể. Mô hình học xếp hạng thực thể

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 30 trong máy tìm kiếm thực thể đề xuất hình 3.7. Trong mô hình, thành phần

Learning Ranking Mô hình ) , (qt f ) , ( , ) , ( , 2 2 1 1 t q f t t q f t i i i i ) 1 ( 2 ) 1 ( 1 ) 1 ( t t q ) ( 2 ) ( 1 ) ( m m m t t q Truy vấn Dữ liệu học ?) , ( ..., ?) , ( ?), , ( 1 2 n t t t q Hàm th c th ... .. . ... .. . ... .. .

Hình 3.7: Mô hình học xếp hạng trong máy tìm kiếm thực thểđược bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học được bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng (có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếp hạng của máy tìm kiếm.

Dữ liệu học

Tập dữ liệu học gồmDT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tập truy vấn QT. Với mỗi truy vấn q∈QT,q =α(e1, ..., em, k1, ..., kl)có danh sách các thực thể (t(1i ..m)) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phù hợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ những phân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặc trưng của thực thể:

1. Tỷ lệ trang tài liệu chứa t phù hợp với q: N = |D

0|

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 31 2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q:

G= X

d∈DT, q(t)∈d

P R[d]

3. Trọng số cục bộ lớn nhất (công thức 3.3) củat với truy vấnq trên tất cả các tài liệu:

L= max

d∈DT, q(t)∈dmax

γ∈d p(α(γ))

Với γ là một quan sát của t trên tài liệu d

4. Tổng trọng số cục bộ củat trong tất cả các tài liệu chứa tphù hợp q:

SL= X

d∈DT, q(t)∈d, γ∈d

p(α(γ))

5. Tổng các tích trọng số cục bộ củat trong từng tài liệu chứatphù hợp q nhân với PR của tài liệu đó:

GL= X

d∈DT, q(t)∈d, γ∈d

p(α(γ))×PR[d]

6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t tương ứng:

M = max

d∈DT, q(t)∈d, γ∈d

p(α(γ))×PR[d]

Trong các công thức trên,p(α(γ))là trọng số cục bộ của thực thểt ứng với quan sát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khác nhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domain cụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này.

3.3 Thực nghiệm

Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu" mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 32 học một cách chính xác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìm kiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể và tìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vào máy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc.

Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thử nghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơn giản như sau:

• Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh, ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫu xác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO").

• Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc. Như mô hình đã đưa ra, trọng số cục bộ của một quan sátγ trênd cần được xác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càng khăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định:

p(α(γ)) = 1

Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8.

Tài liệu: d = “Desipramin1 là2 thuốc3 được4 dùng5 điều6 trị7 trầm8 cảm9” Truy vấn: q=("trầm cảm" #drug)

Với quan sát: γ=(o1,o2) thì

o1 o2

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 33 3.3.1 Công cụ sử dụng

Các chương trình phần mềm mã mở đã được sử dụng trong thực nghiệm này:

SV Mmap† là công cụ (tool) học giám sát với tối ưu MAP để học xếp hạng tài liệu. Trong thực nghiệm tôi sử dụng công cụ này áp dụng vào học mô hình xếp hạng thực thể.

Lucene‡ là một máy tìm kiếm văn bản (text) mã mở được lựa chọn để

Một phần của tài liệu (LUẬN văn THẠC sĩ) học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu (Trang 30)

Tải bản đầy đủ (PDF)

(72 trang)