4 Tạo nhãn cụm tài liệu
3.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể
được bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng (có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếp hạng của máy tìm kiếm.
Dữ liệu học
Tập dữ liệu học gồmDT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tập truy vấn QT. Với mỗi truy vấn q∈QT,q =α(e1, ..., em, k1, ..., kl)có danh sách các thực thể (t(1i ..m)) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phù hợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ những phân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặc trưng của thực thể:
1. Tỷ lệ trang tài liệu chứa t phù hợp với q: N = |D
0|
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 31 2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q:
G= X
d∈DT, q(t)∈d
P R[d]
3. Trọng số cục bộ lớn nhất (công thức 3.3) củat với truy vấnq trên tất cả các tài liệu:
L= max
d∈DT, q(t)∈dmax
γ∈d p(α(γ))
Với γ là một quan sát của t trên tài liệu d
4. Tổng trọng số cục bộ củat trong tất cả các tài liệu chứa tphù hợp q:
SL= X
d∈DT, q(t)∈d, γ∈d
p(α(γ))
5. Tổng các tích trọng số cục bộ củat trong từng tài liệu chứatphù hợp q nhân với PR của tài liệu đó:
GL= X
d∈DT, q(t)∈d, γ∈d
p(α(γ))×PR[d]
6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t tương ứng:
M = max
d∈DT, q(t)∈d, γ∈d
p(α(γ))×PR[d]
Trong các công thức trên,p(α(γ))là trọng số cục bộ của thực thểt ứng với quan sát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khác nhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domain cụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này.
3.3 Thực nghiệm
Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu" mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 32 học một cách chính xác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìm kiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể và tìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vào máy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc.
Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thử nghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơn giản như sau:
• Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh, ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫu xác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO").
• Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc. Như mô hình đã đưa ra, trọng số cục bộ của một quan sátγ trênd cần được xác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càng khăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định:
p(α(γ)) = 1
Sγ
Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8.
Tài liệu: d = “Desipramin1 là2 thuốc3 được4 dùng5 điều6 trị7 trầm8 cảm9” Truy vấn: q=("trầm cảm" #drug)
Với quan sát: γ=(o1,o2) thì
o1 o2