3 Xếp hạng trong máy tìm kiếm thực thể
3.2.3 Mô hình đề xuất
Mô hình xếp hạng Impression, công thức xác định giá trị để xếp hạng thực thể được đưa ra hoàn toàn dựa vào việc phân tích các đặc điểm và tìm công thức để thỏa mãn các nhận định đó. Tuy nhiên sau khi phân tích nhược điểm ở trên đã cho thấy như vậy là chưa đầy đủ. Học xếp hạng cho ta giải pháp để giải quyết vấn đề, tìm hàm tính hạng "tốt nhất" với các đặc trưng xác định. Qua phân tích các đặc điểm của tìm kiếm để đưa ra các trọng số tương ứng với các đặc trưng của thực thể. Mô hình học xếp hạng thực thể
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 30 trong máy tìm kiếm thực thể đề xuất hình 3.7. Trong mô hình, thành phần
Learning Ranking Mô hình ) , (qt f ) , ( , ) , ( , 2 2 1 1 t q f t t q f t i i i i ) 1 ( 2 ) 1 ( 1 ) 1 ( t t q ) ( 2 ) ( 1 ) ( m m m t t q Truy vấn Dữ liệu học ?) , ( ..., ?) , ( ?), , ( 1 2 n t t t q Hàm th ự c th ể ... .. . ... .. . ... .. .
Hình 3.7: Mô hình học xếp hạng trong máy tìm kiếm thực thểđược bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học được bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng (có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếp hạng của máy tìm kiếm.
Dữ liệu học
Tập dữ liệu học gồmDT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tập truy vấn QT. Với mỗi truy vấn q∈QT,q =α(e1, ..., em, k1, ..., kl)có danh sách các thực thể (t(1..m)
i ) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phù hợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ những phân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặc trưng của thực thể:
1. Tỷ lệ trang tài liệu chứa t phù hợp với q: N = |D
0|
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 31 2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q:
G= X
d∈DT, q(t)∈d
P R[d]
3. Trọng số cục bộ lớn nhất (công thức 3.3) củat với truy vấnq trên tất cả các tài liệu:
L= max
d∈DT, q(t)∈dmax
γ∈d p(α(γ))
Với γ là một quan sát của t trên tài liệu d
4. Tổng trọng số cục bộ củat trong tất cả các tài liệu chứa tphù hợp q:
SL= X
d∈DT, q(t)∈d, γ∈d
p(α(γ))
5. Tổng các tích trọng số cục bộ củat trong từng tài liệu chứatphù hợp q nhân với PR của tài liệu đó:
GL= X
d∈DT, q(t)∈d, γ∈d
p(α(γ))×PR[d]
6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t tương ứng:
M = max
d∈DT, q(t)∈d, γ∈d
p(α(γ))×PR[d]
Trong các công thức trên,p(α(γ))là trọng số cục bộ của thực thểt ứng với quan sát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khác nhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domain cụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này.
3.3 Thực nghiệm
Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu" mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 32 học một cách chính xác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìm kiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể và tìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vào máy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc.
Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thử nghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơn giản như sau:
• Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh, ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫu xác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO").
• Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc. Như mô hình đã đưa ra, trọng số cục bộ của một quan sátγ trênd cần được xác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càng khăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định:
p(α(γ)) = 1
Sγ
Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8.
Tài liệu: d = “Desipramin1 là2 thuốc3 được4 dùng5 điều6 trị7 trầm8 cảm9”
Truy vấn: q=("trầm cảm" #drug)
Với quan sát: γ=(o1,o2) thì
o1 o2
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 33 3.3.1 Công cụ sử dụng
Các chương trình phần mềm mã mở đã được sử dụng trong thực nghiệm này:
SV Mmap† là công cụ (tool) học giám sát với tối ưu MAP để học xếp hạng tài liệu. Trong thực nghiệm tôi sử dụng công cụ này áp dụng vào học mô hình xếp hạng thực thể.
Lucene‡ là một máy tìm kiếm văn bản (text) mã mở được lựa chọn để tiến hành cài đặt các modul:
• Rút trích thực thể thuốc
• Đánh chỉ mục (index) thực thể
• Xếp hạng thực thể thuốc 3.3.2 Dữ liệu
Dữ liệu tìm kiếm
Tiến hành thu thập (crawl) các trang web về y tế tiếng Việt, từ nguồn của 10 web site (phụ lục A.1)
• Tổng số trang web tiếng Việt được crawl và index: 6217 trang (không index những trang web có nội dung quá ngắn- dưới 20 từ, và các trang web chỉ chứa liên kết)
• Kích thước dữ liệu: sấp xỉ 180MB
• Số thể hiện của thực thể thuốc được index: 14794
†http://projects.yisongyue.com/svmmap/
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 34 Các mẫu truy vấn được sử dụng
1. q=(context #drug): Tìm thực thể thuốc với ngữ cảnhcontext mà truy vấn xác định.
2. q=(context #drug=[Thuoc] #drug): Tìm thực thể thuốc có quan hệ với thực thể thuốc Thuoc trong ngữ cảnh context được xác định trong truy vấn.
Xây dựng tập dữ liệu học đưa vào mô-dul học hàm tính hạng Tạo 5 truy vấn cho mỗi mẫu truy vấn trên, với mỗi truy vấn xác định 10 thực thể trả về đầu tiên tương ứng và sắp xếp theo độ phù hợp giảm dần. Khi tìm kiếm người dùng quan tâm tới các kết quả trả về đầu tiên, việc xếp hạng đúng các thực thể vào 10 kết quả đầu tiên quan trọng hơn việc các xếp hạng sau đó. Do giới hạn thời gian làm thực nghiệm, nên tôi chỉ xây dựng tập dữ liệu học với 10 thực thể xếp hạng đầu tiên cho mỗi truy vấn. Cách xác định 10 thực thể đầu tiên:
• Tìm kiếm thực thể với mô hình xếp hạng Impression (Cài đặt Impres- sion với hàm p(s|γ) = 1s) để tìm các thực thể với các trang chứa thực thể tương ứng
• Tìm kiếm thuốc với máy tìm kiếm thông thường (cài đặt Lucene với hàm xếp hạng BM25[59]) có được các trang tốt nhất theo đánh giá BM25.
• Từ 2 kết quả trên, lựa chọn 10 thực thể tốt nhất và sắp xếp để được kết quả trả về "đúng" cần có.
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 35 Bảng 3.2: So sánh MRR, MAP của BM25, Impression, LTR
Phương pháp BM25 Impression LTR MRR 0.283 0.767 0.800 MAP 0.275 0.651 0.705 3.3.3 Kết quả và đánh giá Kết quả có hàm tính hạng: rf(t) = 0.0010×N + 0.0011×G+ 0.0120×L+ + 0.3305×SL+ 0.2953×GL+ 0.3601×M
Từ hàm tính hạng trên, cho ta thấy vai trò quan trọng của trọng số: M, SL và GL. Trọng số N, G ít quan trọng nhất, có thể bỏ qua - do giá trị N, G thường rất nhỏ, mà hệ số lại nhỏ nên thành phần đó không có ảnh hưởng lớn tới kết quả xếp hạng. Và trọng số L (cực đại trọng số cục bộ) có ít giá trị hơn trọng số SL (tổng trọng số cục bộ)
Áp dụng hàm tính hạng vào mô-dul xếp hạng thực thể trong máy tìm kiếm, thực hiện tìm kiếm trên 5 query khác nhau để đánh giá. Bảng 3.2 so sánh MRR và MAP của ba phương pháp sử dụng Okapi BM25 để xếp hạng, với mô hình Impression của EntityRank trong phần trước và với mô hình học xếp hạng (gọi tắt LTR: Learn To Rank).
Các nhận xét:
• LTR và Impression có có MRR, MAP hơn hẳn BM25, cho thấy việc tìm kiếm thực thể trả lại kết quả tốt hơn cho người dùng.
• MRR của LTR là 0.8 cao hơn của mô hình Impression bằng 0.767 (+0.023) chứng tỏ kết quả đúng đầu tiên của LTR trả về xuất hiện ở thứ hạng tốt hơn (thấp hơn) của Impression.
• So sánh MAP cho thấy độ chính xác trung bình của LTR cũng cao hơn của Impression (+0.054).
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 36 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 A v e ra ge P re ce si o n Query BM25 ER LTR
Hình 3.9: So sánh độ chính xác trung bình AP trên 5 query
• Biểu đồ so sánh chi tiết độ chính xác trung bình AP trên từng truy vấn (hình 3.9) càng cho ta khẳng định phương pháp LTR đã học hàm tính hạng thực thể hiệu quả.
3.4 Tổng kết chương
Qua phân tích một mô hình xếp hạng thực thể trong máy tìm kiếm thực thể [15, 16, 17], và học xếp hạng để học hàm tính hạng thực thể hiệu quả trên lĩnh vực tìm kiếm thực thể thuốc. Các kết quả thu được đã chứng minh vai trò và hiệu quả của học xếp hạng áp dụng vào máy tìm kiếm.
C h ư ơ n g 4
Tạo nhãn cụm tài liệu
Chương này giới thiệu các phương pháp tạo nhãn cụm tài liệu, và tự động tạo nhãn cho cây phân cấp tài liệu.
4.1 Giới thiệu
Máy tìm kiếm ngày nay được sử dụng rộng rãi và trở thành một công cụ không thể thiếu của người dùng khi tìm kiếm thông tin trên môi trường web. Kết quả trả về của máy tìm kiếm cho mỗi truy vấn thường rất lớn (từ vài nghìn tới hàng triệu kết quả). Với cùng truy vấn nhưng mỗi người dùng khác nhau có thể có mong muốn khác nhau, ví dụ khi tìm kiếm"phân cụm"
(cluster) có người quan tâm tới các phương pháp và thuật toán phân cụm nhưng có người lại quan tâm tới tính toán cụm. Để nâng cao chất lượng của máy tìm kiếm và giúp định hướng chủ đề cho người dùng, một nhu cầu đặt