Dữ liệu danh mục ICD

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện 04 (Trang 43 - 52)

4.1.2 Phương pháp đánh giá kết quả tìm kiếm

Mục tiêu của việc đánh giá các phương pháp là để khẳng định được phương pháp này là thực sự tốt hơn phương pháp kia trong việc đạt được kết quả mong muốn

(chứ không phải là tốt hơn do ngẫu nhiên). Để đánh giá một hệ thống truy tìm thông tin, hai tiêu trí chính được sử dụng là mức độ chính xác của kết quả và thời gian trả kết quả của hệ thống. Trong phần lớn các nghiên cứu, việc đánh giá và so sánh thực nghiệm giữa các hệ thống chủ yếu tập trung vào tiêu chí về độ chính xác của kết quả. Để đánh giá chất lượng một xếp hạng sử dụng độ đo đánh giá để định lượng độ chính xác tìm kiếm.

Độ chính xác và độ đầy đủ [3]

Độ chính xác là tỉ lệ văn bản liên quan trong số văn bản được trả về. Precision = # (văn bản liên quan trả về)/# (văn bản trả về)

Độ đầy đủ là tỉ lệ văn bản liên quan được trả về trong tổng số văn bản liên quan. Recall = # (văn bản liên quan trả về)/# (văn bản liên quan)

Liên quan Không liên quan

Trả về A (TP) B (FP)

Không trả về C (FN) D (TN)

Ký hiệu P: độ chính xác, R: độ đầy đủ ta có công thức sau:

FP TP TP B A A P     FN TP TP C A A R    

Ví dụ: Với truy vấn “Bệnh tả” trong phương pháp đo Cosine cho văn bản ngắn Ký hiệu * là văn bản liên quan đến truy vấn

Ký hiệu - là văn bản không liên quan đến truy vấn

Bệnh tả - * * - * Độ chính xác 0/(0+1)=0 1/(1+1)=0.50 2/(2+1)=0.67 2/(2+2)=0.50 3/(3+2)=0.60 Độ đầy đủ 0/3=0 1/3=0.33 2/3=0.67 2/3=0.67 3/3=1

Độ chính xác trung bình (average precision - AP)

Ký hiệu vị trí của các văn bản liên quan trong danh sách kết quả:K1,K2,…,KR.

Độ chính xác trung bình: P Ki R

Ví dụ: Với truy vấn “Bệnh tả” như trên ta có 0.59 5 2 3 2 2 1 3 1           AP

Bình quân độ chính xác trung bình (Mean Average Precision - MAP)

Bình quân độ chính xác trung bình:    i i K P R Q MAP 1 1 @

Trong đó Ri là số văn bản trong bộ dữ liệu liên quan với truy vấn qi

Ví dụ: Với truy vấn “Bệnh dại” trong phương pháp đo Cosine cho văn bản ngắn ta tính được AP = 1.

Vậy MAP = (AP (“Bệnh tả”) + AP (“Bệnh dại”)) / 2 = (0.59 + 1) / 2 = 0.80 Một hệ thống tìm kiếm thường được chạy thử nghiệm trên nhiều truy vấn. Do đó các độ đo đã đề cập ở trên thường được tính trung bình trên tất cả các truy vấn sử dụng cho việc đánh giá các phương pháp.

4.2 Một số kết quả khi chạy chương trình

4.2.1 Kết quả khi chạy các phương pháp xếp hạng khác nhau cho cùng một truy vấn trên tập dữ liệu các loại bệnh vấn trên tập dữ liệu các loại bệnh

Người dùng tìm kiếm ví dụ với truy vấn “viêm họng”.

Hệ thống tìm kiếm dữ liệu trong bảng dữ liệu danh mục ICD những bản ghi nào có chứa cả 2 từ “viêm” và từ “họng” với câu lệnh truy vấn “SELECT * FROM ICD WHERE ICDName LIKE N'%viêm%' AND ICDName LIKE N'%họng%'”, sau đó thực hiện tính độ đo theo phương pháp xếp hạng, sắp xếp kết quả trả về. Dưới đây là kết quả tìm kiếm và kết quả các phương pháp xếp hạng với truy vấn “viêm họng”.

4.2.1.1Kết quả tìm kiếm

Truy vấn: viêm họng A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

A54.5

Viêm họng do lậu cầu J02

Viêm họng cấp J02.0

J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

J02.8

Viêm họng cấp do vi sinh vật xác định khác J02.9

Viêm họng cấp, không xác định J06.0

Viêm họng - thanh quản cấp J31

Viêm mũi, viêm mũi họng và viêm họng mãn

J31.1

Viêm mũi họng mãn

J31.2

Viêm họng mãn

Bảng 4.3. Kết quả tìm kiếm truy vấn “viêm họng”. 4.2.1.2Kết quả các phương pháp xếp hạng

Phương pháp xếp hạng Cosine

Độ đo Truy vấn: viêm họng

1 A54.5

Viêm họng do lậu cầu

1 J02.0

Viêm họng do liên cầu 1 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

1 J06.0

Viêm họng - thanh quản cấp

1 J02.8

1 J31.1 Viêm mũi họng mãn 1 J31.2 Viêm họng mãn 1 J02 Viêm họng cấp 1 J02.9 Viêm họng cấp, không xác định 0.980 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 0.948 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

Bảng 4.4. Kết quả xếp hạng Cosine truy vấn “viêm họng”.

Phương pháp xếp hạng Cosine Short Segments

Độ đo Truy vấn: viêm họng 0.707 J02

Viêm họng cấp 0.632 J31.2

Viêm họng mãn 0.577 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 0.577 J31.1

Viêm mũi họng mãn

0.534 A54.5

Viêm họng do lậu cầu 0.534 J02.0

0.534 J06.0

Viêm họng - thanh quản cấp 0.5 J02.9

Viêm họng cấp, không xác định 0.471 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

0.408 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

0.408 J02.8

Viêm họng cấp do vi sinh vật xác định khác

Bảng 4.5. Kết quả xếp hạng Cosine Short Segments truy vấn “viêm họng”.

Phương pháp xếp hạng Dice

Độ đo Truy vấn: viêm họng 0.666 J02

Viêm họng cấp 0.571 J31.2

Viêm họng mãn 0.5 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 0.5 J31.1

Viêm mũi họng mãn

0.444 A54.5

Viêm họng do lậu cầu 0.444 J02.0

Viêm họng do liên cầu 0.444 J06.0

Viêm họng - thanh quản cấp 0.4 J02.9

Viêm họng cấp, không xác định 0.363 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

0.285 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

0.285 J02.8

Viêm họng cấp do vi sinh vật xác định khác

Phương pháp xếp hạng Jaccard

Độ đo Truy vấn: viêm họng 0.5 J02

Viêm họng cấp 0.4 J31.2

Viêm họng mãn 0.333 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 0.333 J31.1

Viêm mũi họng mãn

0.285 A54.5

Viêm họng do lậu cầu 0.285 J02.0

Viêm họng do liên cầu 0.285 J06.0

Viêm họng - thanh quản cấp 0.25 J02.9

Viêm họng cấp, không xác định 0.222 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

0.166 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

0.166 J02.8

Viêm họng cấp do vi sinh vật xác định khác

Phương pháp xếp hạng Matching

Độ đo Truy vấn: viêm họng

2 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

2 A54.5

Viêm họng do lậu cầu

2 J02

Viêm họng cấp

2 J02.0

Viêm họng do liên cầu 2 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

2 J02.8

Viêm họng cấp do vi sinh vật xác định khác

2 J02.9

Viêm họng cấp, không xác định

2 J06.0

Viêm họng - thanh quản cấp

2 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 2 J31.1

Viêm mũi họng mãn

2 J31.2

Viêm họng mãn

Phương pháp xếp hạng Overlap

Độ đo Truy vấn: viêm họng

1 A50.03

Viêm họng do giang mai bẩm sinh sớm, Viêm thanh quản do giang mai bẩm sinh sớm

1 A54.5

Viêm họng do lậu cầu

1 J02

Viêm họng cấp

1 J02.0

Viêm họng do liên cầu 1 J02.0.-1

Viêm Tấy Lan Toả Vùng Họng

1 J02.8

Viêm họng cấp do vi sinh vật xác định khác

1 J02.9

Viêm họng cấp, không xác định

1 J06.0

Viêm họng - thanh quản cấp

1 J31

Viêm mũi, viêm mũi họng và viêm họng mãn 1 J31.1

Viêm mũi họng mãn

1 J31.2

Viêm họng mãn

4.2.2 Kết quả khi đánh giá các phương pháp với các truy vấn khác nhau

Kết quả khi tính độ chính xác trung bình trên các truy vấn sau đó tính bình quân độ chính xác trung bình ta có bảng kết quả sau:

Độ chính xác trung bình/Truy vấn Cosine Cosine Short Segments

Dice Jaccard Matching Overlap

Bệnh tả 0.589 1.000 1.000 1.000 1.000 1.000 Bệnh dại 1.000 1.000 1.000 1.000 1.000 1.000 Bệnh gan 0.362 0.532 0.347 0.532 0.395 0.395 Bệnh mắt 0.443 0.324 0.324 0.324 0.415 0.415 Tiểu đường 0.116 0.428 0.428 0.428 0.639 0.639 Suy thận 0.722 0.813 0.845 0.845 0.793 0.793 Vàng da 1.000 1.000 1.000 1.000 1.000 1.000 Béo phì 1.000 1.000 1.000 1.000 1.000 1.000 Bệnh lậu 0.915 0.544 0.544 0.544 0.502 0.502 Bệnh da 0.261 0.274 0.274 0.274 0.244 0.244 Cận thị 1.000 1.000 1.000 1.000 1.000 1.000 Loạn thị 0.796 0.933 0.933 0.933 0.809 0.809 Viêm họng 0.823 0.887 0.887 0.887 0.919 0.919 Viêm xoang 0.962 0.935 0.935 0.935 0.936 0.936 Bình quân độ chính xác trung bình/Truy vấn 0.714 0.762 0.751 0.764 0.761 0.761

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện 04 (Trang 43 - 52)

Tải bản đầy đủ (PDF)

(55 trang)