Xếp hạng lại kết quả trả về từ máy tìm kiếm
Giảng viên hướng dẫn: PGS.TS Nguyễn Kim Anh Sinh viên thực hiện: Nguyễn Anh Tuấn HTTT B – K51 Xếp hạng lại kết quả trả về từ máy tìm kiếm 1 Nội dung trình bày 1. Bài toán 2. Phương pháp 3. Cài đặt, đánh giá và kết luận 2 3 Máy tìm kiếm truyền thống … … … … … SBM … … … … … VSM 1 2 3 SBM – Standard Boolean Model VSM – Vector Space Model Kho tài liệu Tài liệu tương thích Tài liệu được xếp hạng 4 Truy vấn mập mờ tiger tiger Động vật (Tiger) Hãng máy bay (Tiger Airway) Hệ điều hành (Mac OS Tiger) Vận động viên (Tiger Woods) 5 Giải quyết Giải quyết RE-RANKING RE-RANKING Hướng ngữ cảnh truy vấn (Query context) Hướng ngữ cảnh truy vấn (Query context) Hướng phản hồi người dùng (User feedback) Hướng phản hồi người dùng (User feedback) 2 HƯỚNG TIẾP CẬN 6 2.Phương pháp 7 2.1.Hướng ngữ cảnh truy vấn Kịch bản A: Truy vấn được đệ trình và chỉnh sửa liên tục Kịch bản B: Truy vấn được đệ trình và người dùng thử từng kết quả. 2 kịch bản tìm kiếm 8 Ngữ cảnh truy vấn Query extensions Adjacent queries Query Context Tập các mở rộng thường nối tiếp sau truy vấn đang xét Tập các mở rộng thường nối tiếp sau truy vấn đang xét … Tập các truy vấn thường xuất hiện trước hoặc sau truy vấn đang xét Tập các truy vấn thường xuất hiện trước hoặc sau truy vấn đang xét 9 Sơ đồ tổng quan Tập kết quả đã xếp hạng Tập kết quả đã xếp hạng Đệ trình truy vấn Lưu trữ vào Query Logs Lưu trữ vào Query Logs Query Logs Query Logs Đi tìm ngữ cảnh của truy vấn Đi tìm ngữ cảnh của truy vấn Query Extensions + Adjacent queries Query Extensions + Adjacent queries Hiển thị kết quả NGƯỜI DÙNG MÁY TÌM KIẾM 10 Bước 1 Bước 2 Tính điềm và xếp hạng lại kết quả tìm kiếm Tính điềm và xếp hạng lại kết quả tìm kiếm [...]... thành Tách truy vấn thành các cụm từ thường các cụm từ thường xuyên dài nhất xuyên dài nhất Tập cụm từ Tập cụm từ thường thường xuyên xuyên Cập nhật tập Cập nhật tập cụm từ ứng cụm từ ứng viên viên Pha 1 Pha 2 Hiển thị kết quả Tính điểm và Tính điểm và xếp hạng lại kết xếp hạng lại kết quả tìm kiếm quả tìm kiếm Tập kết quả Tập kết quả đã xếp hạng đã xếp hạng MÁY TÌM KIẾM 16 Pha 1 OFSD (Online frequent... tập kết quả tương ứng truy vấn q được máy tìm kiếm xếp hạng và trả về với mỗi d ∈ D tính: • γ ∈ [0 1] : giá trị điều chỉnh tầm quan trọng giữa Qext và Qadj • tf (qi, d): tần số xuất hiện của truy vấn qi trong tài liệu d • Dqi: tập tài liệu d với d thỏa mãn tf (qi, d) > 0 Xếp hạng lại kết quả dựa trên giá trị RS(d,q) giảm dần • qf (qi): tần số xuất hiện của truy vấn qi trong query logs • R(d): thứ hạng. .. phiên tìm kiếm có từ 2-7 truy vấn, bao gồm 1-2 ý đồ tìm kiếm o Mỗi lần truy vấn click vào 1-4 liên kết cảm thấy tốt nhất 23 Đánh giá • • • • Các module hoạt động đúng yêu cầu đặt ra Chất lượng kết quả trả về tốt hơn Đánh giá còn mang tính ước lượng Khó khăn: o Thiếu nguồn dữ liệu truy vấn đầu vào khách quan o Dữ liệu thu thập còn ít và phân tán 24 Kết luận Hệ thống tìm kiếm dành cho Hệ thống tìm kiếm. .. ffuvà CM là những hằng số cho trước u và CM là những hằng số cho trước 17 Pha 2 Xếp hạng lại kết quả tìm kiếm: o B1: Tách truy vấn tập các cụm từ thường xuyên dài nhất: QFL = {P1, P2, …, Pn} o B2: Pj thuộc QFL Xây dựng các tập rankList(Pj): rankList(Pj) = {urlk , urlr , …, urlm} Hjk ≥ Hjr ≥ … ≥ Hjm o B3: url thuộc tập kết quả Xây dựng các tập rankList(url): rankList(urli) = {Rank(P1, urli), … Rank(Pn,... truy vấn lấy từ query log tương ứng với một khoảng thời gian xác định q là truy vấn đang xét Tìm 2 tập Qext và Qadj : Qadj (q) = {qadj | qadj ∈ Qnext (q) ∪ Qprev(q)} Qext(q) = {qext | q." ".qext ∈ Q} Qnext (q): tập các truy vấn thường được người dùng sử dụng sau khi nhập q Qprev (q): tập các truy vấn thường được người dùng sử dụng trước khi nhập q 11 Bước 2 Tính điểm và xếp hạng lại kết quả: Giả sử... Thuật toán tìm những cụm từ thường xuyên (frequent phrase) từ dòng dữ liệu (data stream) dựa trên tần suất xuất hiện của các cụm từ Điều kiện tần suất fp = np Điều kiện trọng số Wp = np – (tc – tp + 1) fu tc – tp + 1 fp : tần suất của cụm từ P np : số lần xuất hiện của P trong dòng dữ liệu tc : thứ tự truy vấn hiện tại tp : thứ tự truy vấn lần đầu P xuất hiện fp > fu Wp : trọng số của cụm từ P Wp >... urli) = vị trí urli trong rankList(Pj) o B4: Tính Rank(url) Xếp hạng lại theo Rank(url) tăng dần 18 3.Cài đặt, đánh giá và kết luận 19 Công cụ phát triển Server: Apache Tomcat v6.0.29 Search engine: Nutch v1.2 IDE: Eclipse Galileo 20 Giao diện hệ thống 21 Giao diện hệ thống 22 Cài đặt và thử nghiệm • Dữ liệu thu thập: khoảng 10000 tài liệu từ một số trang web nổi tiếng như dantri.com.vn, thongtincongnghe.com... truy vấn qi 14 Cải tiến p1 Cụm từ thường xuyên Các cụm từ có tần suất xuất hiện lớn hơn ngưỡng định trước pi o Giảm kích thước ma trận o Giảm kích thước ma trận o Giải quyết vấn đề thưa thớt o Giải quyết vấn đề thưa thớt pn url1 urlj urlm 15 Sơ đồ tổng quan NGƯỜI DÙNG Đệ trình truy vấn Phân tích truy vấn Phân tích truy vấn click url Ma trận cụm Ma trận cụm từ thường từ thường xuyên xuyên Tách truy... RS(d,q) giảm dần • qf (qi): tần số xuất hiện của truy vấn qi trong query logs • R(d): thứ hạng tài liệu d trong tập D(q) 12 2.2.Hướng phản hồi người dùng Tiêu đề SEARCH RESULTS Mô tả 1.ABCDEFGHJ Liên kết abcdefghj www.abc.com 2.ABCDEFGHJ abcdefghj www.abc.com 13 Lưu trữ dữ liệu click q1 qi Kích thước của ma trận Kích thước của ma trận tăng lên rất nhanh tăng lên rất nhanh Nhược điểm Giá trị ∑ Hijijcủa . cụm từ thường xuyên Ma trận cụm từ thường xuyên click url Tính điểm và xếp hạng lại kết quả tìm kiếm Tính điểm và xếp hạng lại kết quả tìm kiếm Hiển. K51 Xếp hạng lại kết quả trả về từ máy tìm kiếm 1 Nội dung trình bày 1. Bài toán 2. Phương pháp 3. Cài đặt, đánh giá và kết luận 2 3 Máy tìm kiếm truyền