Mời các bạn cùng tìm hiểu đánh giá kết quả tìm kiếm; MRR; NDCG; sự phù hợp đa mức; xây dựng bộ dữ liệu đánh giá;... được trình bày cụ thể trong Bài giảng Tìm kiếm và trình diễn thông tin: Bài 8 do TS.Nguyễn Bá Ngọc biên soạn.
(IT4853) Tìm kiếm trình diễn thơng tin Đánh giá kết tìm kiếm Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung MRR NDCG Xây dựng liệu MRR MRR – Mean Reciprocal Rank Giả sử có văn phù hợp Tìm kiếm văn biết, Truy vấn định hướng, Tìm kiếm khẳng định (fact) Thời gian tìm kiếm tỉ lệ với vị trí văn phù hợp Phản ánh thời gian người dùng cần bỏ để tìm thấy kết phù hợp MRR Gọi K vị trí kết phù hợp với q RR (q ) K MRR(Q) RR(q) | Q | qQ 1 MRR(Q) | Q | qQ K q Nội dung MRR NDCG Xây dựng liệu Sự phù hợp đa mức Có thể sử dụng phù hợp đa mức để đo mức độ hữu ích tập kết quả; Người dùng đánh giá cao kết phù hợp trả về; Vị trí văn danh sách kết có ảnh hưởng tới tiếp nhận người dùng: Mức hữu ích bị thuyên giảm tăng dần khoảng cách tới đầu danh sách, Luật giảm giá trị phổ biến 1/log (rank) DCG DCG – Discounted cumulative gain CG – Cumulative Gain CG vị trí xếp hạng n Đặt mức độ phù hợp n văn r1, r2, …rn CG = r1+r2+…rn DCG vị trí n DCG = r1 + r2/log22 + r3/log23 + … rn/log2n Có thể sử dụng hệ số cho hàm log DCG DCG vị trí p: Cơng thức tương đương: Nhấn mạnh văn có độ phù hợp cao Ví dụ 10 văn xếp hạng đánh giá theo thang điểm phù hợp 0-3: 3, 2, 3, 0, 0, 1, 2, 2, 3, DG: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, DCG: 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61 10 NDCG NDCG – Normalized Discounted Cumulative Gain NDCG vị trí n Chia DCG vị trí n cho DCG vị trí n xếp hạng mẫu Xếp hạng mẫu thứ tự giảm dần mức độ phù hợp Giá trị chuẩn hóa phù hợp để so sánh xếp hạng với số lượng văn phù hợp khác NDCG độ đo phổ biến đánh giá kết tìm kiếm Web 11 Ví dụ văn bản: d1, d2, d3, d4 Giá trị mẫu Hàm xếp hạng1 Hàm xếp hạng2 i Thứ tự văn ri Thứ tự văn ri Thứ tự văn ri d4 d3 d3 2 d3 d4 d2 d2 d2 d4 d1 d1 d1 NDCGGT=1.00 NDCGRF1=1.00 NDCGRF2=0.9203 4.6309 4.6309 DCG RF DCGGT log log log log log log 2 2 2 4.2619 MaxDCG DCGGT 4.6309 DCGRF log log log 2 12 Nội dung MRR NDCG Xây dựng liệu đánh giá Đánh giá phù hợp Sự phù hợp trừu tượng Người dùng thường kết luận văn có phù hợp hay khơng sau đọc, Những người dùng khác có đánh giá khác phù hợp văn Cần sử dụng chung định nghĩa tường minh phù hợp cho nhóm xây dựng tập kết mẫu 14 Ví dụ truy vấn TREC Number: 351 Falkland petroleum exploration Description: What information is available on petroleum exploration in the South Atlantic near the Falkland islands? Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant Documents discussing petroleum exploration in continental South America are not relevant 15 Định nghĩa phù hợp TREC định nghĩa phù hợp sau: If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of it is relevant (regardless of how small the piece is in relation to the rest of the document) Giả sử bạn viết báo cáo chủ đề xét bạn muốn sử dụng thông tin chứa văn cụ thể báo cáo văn coi phù hợp Chỉ thực đánh giá nhị phân (“phù hợp" “không phù hợp"), văn coi phù hợp phần phù hợp (khơng quan tâm phần nhỏ tới mức so sánh với phần lại văn bản) 16 Kiểm định đánh giá phù hợp Kết thu thành viên sử dụng để đánh giá kết tìm kiếm đảm bảo tính thống ngưỡng xác định Đo thống cách nào? Mức độ thống kết thường đo hệ số Kappa 17 Hệ số Kappa P(E) = giá trị mong đợi tỉ lệ thống ngẫu nhiên, P(A) = tỉ lệ số lần thống đánh giá Thường chấp nhận к khoảng [2/3, 1.0] Ngược lại, cần điều chỉnh phương pháp đánh giá phù hợp sử dụng к nhỏ 18 Ví dụ tính số thống kê kappa Đánh giá Đánh giá Yes No Total Yes 300 20 320 No 10 70 80 Total 310 90 400 Theo dõi tỉ lệ số lần thống kết P(A) = (300 + 70)/400 = 370/400 = 0.925 Giá trị biên tổng hợp P(không phù hợp) = (80 + 90)/(400 + 400) = 170/800 = 0.2125 P(phù hợp) = (320 + 310)/(400 + 400) = 630/800 = 0.7878 Giá trị xác suất thống ngẫu nhiên P(E) = P(không phù hợp)2 + P(phù hợp)2 = 0.212522 + 0.787822 = 0.665 Chỉ số kappa к = (P(A) − P(E))/(1 − P(E)) = (0.925 − 0.665)/(1 − 0.665) = 0.776 (trong khoảng chấp nhận) 19 Bài tập GT1 GT2 q1 NRNNN NNNNR q2 NNRNN RNNNN So sánh hai giải thuật theo tham số MRR 20 21 ... phù hợp 0-3 : 3, 2, 3, 0, 0, 1, 2, 2, 3, DG: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2 .81 , 2/3, 3/3.17, = 3, 2, 1 .89 , 0, 0, 0.39, 0.71, 0.67, 0.95, DCG: 3, 5, 6 .89 , 6 .89 , 6 .89 , 7. 28, 7.99, 8. 66, 9.61,... văn phù hợp Tìm kiếm văn biết, Truy vấn định hướng, Tìm kiếm khẳng định (fact) Thời gian tìm kiếm tỉ lệ với vị trí văn phù hợp Phản ánh thời gian người dùng cần bỏ để tìm thấy kết phù... = (80 + 90)/(400 + 400) = 170 /80 0 = 0.2125 P(phù hợp) = (320 + 310)/(400 + 400) = 630 /80 0 = 0. 787 8 Giá trị xác suất thống ngẫu nhiên P(E) = P(không phù hợp)2 + P(phù hợp)2 = 0.212522 + 0. 787 822