4 Tạo nhãn cụm tài liệu
3.8 Ví dụ xác định trọng số cục bộ p(α(γ))
Lucene‡ là một máy tìm kiếm văn bản (text) mã mở được lựa chọn để tiến hành cài đặt các modul: • Rút trích thực thể thuốc • Đánh chỉ mục (index) thực thể • Xếp hạng thực thể thuốc 3.3.2 Dữ liệu Dữ liệu tìm kiếm
Tiến hành thu thập (crawl) các trang web về y tế tiếng Việt, từ nguồn của 10 web site (phụ lục A.1)
• Tổng số trang web tiếng Việt được crawl và index: 6217 trang (không index những trang web có nội dung quá ngắn- dưới 20 từ, và các trang web chỉ chứa liên kết)
• Kích thước dữ liệu: sấp xỉ 180MB
• Số thể hiện của thực thể thuốc được index: 14794
Các mẫu truy vấn được sử dụng
1. q=(context #drug): Tìm thực thể thuốc với ngữ cảnh context mà truy vấn xác định.
2. q=(context #drug=[Thuoc] #drug): Tìm thực thể thuốc có quan hệ với thực thể thuốc Thuoc trong ngữ cảnh context được xác định trong truy vấn.
Xây dựng tập dữ liệu học đưa vào mô-dul học hàm tính hạng
Tạo 5 truy vấn cho mỗi mẫu truy vấn trên, với mỗi truy vấn xác định 10 thực thể trả về đầu tiên tương ứng và sắp xếp theo độ phù hợp giảm dần. Khi tìm kiếm người dùng quan tâm tới các kết quả trả về đầu tiên, việc xếp hạng đúng các thực thể vào 10 kết quả đầu tiên quan trọng hơn việc các xếp hạng sau đó. Do giới hạn thời gian làm thực nghiệm, nên tôi chỉ xây dựng tập dữ liệu học với 10 thực thể xếp hạng đầu tiên cho mỗi truy vấn. Cách xác định 10 thực thể đầu tiên:
• Tìm kiếm thực thể với mô hình xếp hạng Impression (Cài đặt Impression với hàm p(s|γ) = 1s) để tìm các thực thể với các trang chứa thực thể tương ứng • Tìm kiếm thuốc với máy tìm kiếm thông thường (cài đặt Lucene với hàm xếp
hạng BM25[63]) có được các trang tốt nhất theo đánh giá BM25.
• Từ 2 kết quả trên, lựa chọn 10 thực thể tốt nhất và sắp xếp để được kết quả trả về "đúng" cần có.
3.3.3 Kết quả và đánh giá
Kết quả có hàm tính hạng:
rf(t) = 0.0010×N + 0.0011×G+ 0.0120×L+ + 0.3305×SL+ 0.2953×GL+ 0.3601×M
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 35 Bảng 3.2: So sánh MRR, MAP của BM25, Impression, LTR
Phương pháp BM25 Impression LTR MRR 0.283 0.767 0.800 MAP 0.275 0.651 0.705 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 A v e ra g e P re ce si o n Query BM25 ER LTR