Mô hình học xếp hạng trong máy tìm kiếm thực thể

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 38 - 41)

4 Tạo nhãn cụm tài liệu

3.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể

hình, thành phần được bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng (có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếp hạng của máy tìm kiếm.

Dữ liệu học

Tập dữ liệu học gồmDT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tập truy vấnQT. Với mỗi truy vấn q ∈QT, q =α(e1, ..., em, k1, ..., kl) có danh sách các thực thể (t(1..m)i ) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phù hợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ những phân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặc trưng của thực thể:

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 31 1. Tỷ lệ trang tài liệu chứa t phù hợp với q:

N = |D 0|

|DT| với ∀d∈D0cóq(t)∈d

2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q:

G= X

d∈DT, q(t)∈d

P R[d]

3. Trọng số cục bộ lớn nhất (công thức 3.3) của t với truy vấn q trên tất cả các tài liệu:

L= max

d∈DT, q(t)∈dmax

γ∈d p(α(γ)) Với γ là một quan sát củat trên tài liệud

4. Tổng trọng số cục bộ của t trong tất cả các tài liệu chứa t phù hợp q:

SL= X

d∈DT, q(t)∈d, γ∈d

p(α(γ))

5. Tổng các tích trọng số cục bộ củat trong từng tài liệu chứa t phù hợp qnhân với PR của tài liệu đó:

GL= X

d∈DT, q(t)∈d, γ∈d

p(α(γ))×PR[d]

6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t

tương ứng:

M = max

d∈DT, q(t)∈d, γ∈d

p(α(γ))×PR[d]

Trong các công thức trên, p(α(γ)) là trọng số cục bộ của thực thể t ứng với quan sát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khác nhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domain cụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này.

3.3 Thực nghiệm

Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu" mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh học một cách chính xác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìm kiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể và tìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vào máy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc. Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thử nghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơn giản như sau:

• Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh, ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫu xác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO"). • Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc.

Như mô hình đã đưa ra, trọng số cục bộ của một quan sát γ trên d cần được xác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càng khăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định:

p(α(γ)) = 1

Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8.

3.3.1 Công cụ sử dụng

Các chương trình phần mềm mã mở đã được sử dụng trong thực nghiệm này:

SV Mmap† là công cụ (tool) học giám sát với tối ưu MAP để học xếp hạng tài liệu. Trong thực nghiệm tôi sử dụng công cụ này áp dụng vào học mô hình xếp hạng thực thể.

∗http://biocaster.nii.ac.jp/

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 33

Tài liệu: d = “Desipramin1 là2 thuốc3được4 dùng5 điều6 trị7 trầm8 cảm9” Truy vấn: q=("trầm cảm" #drug)

Với quan sát: γ=(o1,o2) thì

o1 o2

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 38 - 41)

Tải bản đầy đủ (PDF)

(71 trang)