Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
581,76 KB
Nội dung
IT4853 Tìm kiếm trình diễn thơng tin Bài Mơ hình nhị phân độc lập IIR.C11 Probabilistic information retrieval Bộ môn Hệ thống thông tin Viện CNTT & TT Nội dung Ứng dụng lý thuyết xác suất tìm kiếm Mơ hình nhị phân độc lập Mơ hình (Okapi) BM25 Lý thuyết xác suất tìm kiếm thơng tin Nhu cầu thơng tin người dùng Biểu diễn logic truy vấn So sánh Văn Khơng bảo tồn ngữ nghĩa Văn trả khơng chắn văn phù hợp Biểu diễn logic văn Có thể ứng dụng lý thuyết xác suất tìm kiếm thơng tin Lý thuyết xác suất tìm kiếm thơng tin (2) Bài tốn tìm kiếm thông tin: Cho câu truy vấn biểu diễn liệu văn bản, hệ thống phải xác định liệu văn có đáp ứng nhu cầu thơng tin hay khơng; Mơ hình Boolean lựa chọn văn thỏa mãn biểu thức truy vấn; mơ hình khơng gian vec-tơ xếp hạng theo độ tương đồng cosine Hệ thống tìm kiếm nắm bắt nhu cầu thông tin người dùng mức độ không chắn, không chắn khả văn đáp ứng nhu cầu thông tin; Lý thuyết xác suất tảng suy diễn điều kiện khơng chắn nói chung, đưa định văn văn phù hợp mô hình dựa xác suất nói riêng Tổng quan mơ hình xác suất Các mơ hình xác suất cổ điển: Nguyên tắc xếp hạng xác suất Mơ hình nhị phân độc lập, BestMatch25(Okapi) Tìm kiếm văn sử dụng mạng Bayes; Các mơ hình ngơn ngữ Hướng nghiên cứu mới, hiệu cao; Phương pháp xác suất phương pháp tồn từ lâu đề tài nóng tìm kiếm thơng tin đại Xếp hạng xác suất Ký hiệu Rd, q: biến nhị phân ngẫu nhiên: Rd,q = d phù hợp với q; Rd,q = 0, ngược lại Theo phương pháp xếp hạng xác suất, văn trả theo thứ tự giảm dần giá trị xác suất văn phù hợp với truy vấn: P(R=1|d, q) Nguyên tắc xếp hạng xác suất PRP giản lược : Thứ tự giảm dần xác suất văn phù hợp với truy vấn thứ tự tối ưu cho danh sách kết tìm kiếm PRP đầy đủ: IIR 11.2 Nguyên tắc xếp hạng xác suất: PRP: The Probability Ranking Principle Trọng số từ “Từ xuất văn biết phù hợp phải có trọng số cao so với trọng số từ trường hợp văn phù hợp này.” “Có thể xây dựng cách tính trọng số từ dựa giả thuyết phân bố từ vựng luật Bayes.” [Van Rijsbergen] Xếp hạng xác suất: Probabilistic Ranking Nội dung Ứng dụng lý thuyết xác suất tìm kiếm Mơ hình nhị phân độc lập Mơ hình (Okapi) BM25 Lý thuyết xác suất Quy tắc nhân xác suất (luật chuỗi): p( A,B)=p( A∧B) p( A,B)=p( A|B) p( B ) p( A,B)=p( B|A ) p( A ) Luật Bayes p ( B|A ) p( A ) p( A|B )= p( B ) 10 Bắt đầu thực truy vấn Hồn tồn khơng biết R N - n + 0.5 ct = log n + 0.5 Tương tự trọng số idf Có thể sử dụng giá trị để tính hạng ban đầu 23 Ví dụ mơ hình xác suất N −n+ w t =log n+0 ( ) 24 Cải thiện xếp hạng Nếu người dùng phản hồi văn phù hợp Xác định lại pi ri dựa thông tin ( )tin ( 1) Hoặc kết hợp với thơng |VR |+κp s+κp (2 ) i i i pi = = |VR|+κ S+κ κ trọng số biết Lặp lại để xác định xác văn phù hợp 25 Xác định pi ri nhờ vòng lặp Phù hợp phản hồi giả lập Giả sử pi số với xi truy vấn Ví dụ, pi = 0.5 với văn Giả sử tập V với văn xếp hạng cao theo mơ hình văn phù hợp Cần xác định lại pi ri, sử dụng phân bố từ V Đặt Vi tập văn có chứa xi , có pi = | Vi| / |V| Giả sử không trả đồng nghĩa với không phù hợp, ri = (ni – |Vi|) / (N – |V|) 26 Ví dụ trọng số phù hợp (s+ 5)( N −S−n+s+ ) w =log Văn số văn phù hợp t (n−s+ )( S−s+ )27 Tổng kết mơ hình BIM Mơ hình xác suất dựa lý thuyết xác suất để mơ hình hóa khơng chắn q trình tìm kiếm Sử dụng giả thuyết độc lập trình ước lượng giá trị xác suất Từ không xuất truy vấn không ảnh hưởng tới tính phù hợp (có pi = ri) Trọng số ban đầu thuật ngữ chưa có thơng tin văn phù hợp xác định tương tự idf Phù hợp phản hồi giả lập giúp cải thiện xếp hạng cách xác định lại xác suất thuật ngữ 28 Không sử dụng tần suất thuật ngữ nội văn Nội dung Ứng dụng lý thuyết xác suất tìm kiếm Mơ hình nhị phân độc lập Mơ hình (Okapi) BM25 29 Okapi BM25 BM25 “Best Match 25” Được phát triển hệ thống Okapi (City University London) Hiệu xác nhận thực nghiệm Sử dụng tần suất từ độ dài văn bản, không bổ xung nhiều tham số so với BIM (Robertson and Zaragoza 2009; Spärck Jones et al 2000) 30 Trọng số Okapi [ ] (|VR t|+1/2 ) / (|VNR t|+1/ ) RSV d =∑ [ log ׿ ( df t −|VR t|+1/ ) / ( N −df t −|VR|+|VR t|+1/ ) t ∈q ¿ ¿¿ ( k + 1) tf t,d k ( (1−b ) +b×( Ld / L ave ) ) +tf t,d [ × ( VRt – tập văn k +1 tf t,q phù hợp ]có ¿ ¿chứa t k +tf ) t,q ] ( s+ 1/ ) / ( S−s+1/ ) RSV d =∑ [ log ׿ ( n−s+ 1/ ) / ( N −n−S+s+ 1/ ) t ∈q ¿ ( k +1 )tf t,d ( k +1 ) tf t,q ¿¿ × ] ¿¿ k +tf t,q k ( ( 1−b )+b×( L d / Lave ) ) +tf t,d VNRt – không chứa t 31 Trọng số Okapi BM25 Khi từ xuất nửa số văn S = s = 0, thành phần: [ ( s+ 1/ ) / ( S −s+ 1/ ) log ( n−s+1 /2 ) / ( N −n−S+s+1 /2 ) ] nhận giá trị âm Trong trường hợp khơng có thơng tin văn phù hợp, sử dụng công thức: k + tf RSV d =∑ t∈q [ ( k +1 )tf t,d ( ) t,q N log ⋅ × df t k ( (1−b )+b×( Ld / Lave ) ) +tf t,d k +tf t,q ] 32 Trọng số Okapi Trọng số Okapi sử dụng thành phần “tf” tương tự VSM chuẩn hóa độ dài văn độ dài truy vấn độc lập vài tham số phụ thuộc liệu ( s+ 1/2 ) / ( S−s+1/ ) RSV d =∑ [ log ׿ ( n−s+ 1/2 ) / ( N −n−S+s+ 1/ ) t ∈q ¿ ( k +1 )tf t,d ( k +1 ) tf t,q ¿¿ × ] ¿¿ k +tf t,q k ( ( 1−b )+b×( L d / Lave ) ) +tf t,d [ ] 33 Tính trọng số Okapi BM25 [ RSV d =∑ log t∈q ] ( k +1 )tf t,d ( k +1 ) tf t,q N ⋅ × df t k ( (1−b )+b×( Ld / Lave ) ) +tf t,d k +tf t,q k1 = 1.2 k3 = b = 0.75 34 Khi có thơng tin văn phù hợp [ ] ( s+ 1/ ) / ( S−s+1/ ) ׿ ( n−s+ 1/ ) / ( N −n−S+s+ 1/ ) t ∈q ¿ ( k +1 )tf t,d ( k +1 ) tf t,q ¿¿ × ] ¿¿ k +tf t,q k ( ( 1−b )+b×( L d / Lave ) ) +tf t,d RSV d =∑ [ log k1 = 1.2 =7 k3 b = 0.75 (L ) avdl = 3.66 35 Bài tập 5.1 So sánh khác biệt trọng số tf-idf mơ hình khơng gian vec-tơ trọng số ci mơ hình BIM (trong trường hợp khơng có thơng tin văn phù hợp) 36 37