(Đề tài NCKH) đánh giá kết quả tìm kiếm của các hệ thống truy tìm thông tin

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG ÐÁNH GIÁ KẾT QUẢ TÌM KIẾM CỦA CÁC HỆ THỐNG TRUY TÌM THƠNG TIN MÃ SỐ: T2014-49 SKC005499 Tp Hồ Chí Minh, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG ĐÁNH GIÁ KẾT QUẢ TÌM KIẾM CỦA CÁC HỆ THỐNG TRUY TÌM THƠNG TIN Mã số: T2014-49 Chủ nhiệm đề tài: CN Quách Đình Hồng Hồ Chí Minh, Tháng 11/2014 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG ĐÁNH GIÁ KẾT QUẢ TÌM KIẾM CỦA CÁC HỆ THỐNG TRUY TÌM THƠNG TIN Mã số: T2014-49 Chủ nhiệm đề tài: CN Qch Đình Hồng Thành viên đề tài: CN Qch Đình Hồng Hồ Chí Minh, Tháng 11/2014 Mục lục Mở đầu 1.1 Tổng quan tình hình nghiên cứu 1.2 Tính cấp thiết 1.3 Mục tiêu nghiên cứu 1.4 Cách tiếp cận 1.5 Phương pháp nghiên cứu 1.6 Đối tượng phạm vi nghiên 1.7 Nội dung nghiên cứu Tổng quan truy tìm thơng tin 2.1 Truy tìm thơng tin 2.2 Hệ thống truy tìm thơng tin 2.3 Mơ hình truy tìm thơng tin Giới thiệu đánh giá hệ thống truy tìm thơng tin 3.1 Tại phải đánh giá 3.2 Phương pháp Cranfield 3.3 Phương pháp TREC 3.3.1 3.3.2 i 3.3.3 Xây dựng sưu tập thử Các độ đo độ xác hệ thống truy tìm thơng tin 4.1 Độ xác độ bao phủ 4.2 Độ xác hạng thứ k (P@ 4.3 R-Precision 4.4 Độ xác trung bình 4.5 Tổng hợp, trung bình nội suy 4.6 Các độ đo khác Sử dụng thống kê để so sánh kết 5.1 Mẫu quần thể 5.2 Xác suất 5.3 Kiểm định giả thuyết lỗi loại 5.4 Mức độ ảnh hưởng 5.5 Khoảng tin cậy 5.6 So sánh hai hệ thống Thử nghiệm đánh giá 6.1 Chuẩn bị liệu 6.2 Đánh giá kết Kết luận kiến nghị 7.1 Các kết đạt 7.2 Giới hạn đề tài 7.3 Các kiến nghị Tài liệu tham khảo ii Danh sách hình vẽ 2.1 Hệ thống truy tìm thơng tin (phỏng theo Croft [17]) 3.1 Kỹ thuật tổng hợp (pooling) [30] 6.1 Đồ thị recall-precision iii Danh sách bảng 6.1 Giá trị precision ứng với mức recall 6.2 Độ xác thứ hạng k (P@k) 6.3 Độ xác phương pháp với khoảng tin cậy 95% 6.4 So sánh phương pháp iv Danh mục chữ viết tắt SIGIR - Special Interest Group on Information Retrieval CIKM - Conference on Information and Knowledge Management AAAI - Association for the Advancement of Artificial Intelligence IJCAI - International Joint Conference on Artificial Intelligence JASIST - Journal of American Society for Information Sciences and Technol-ogy JASIS - Journal of American Society for Information Sciences IJCAI - International Joint Conference on Artificial Intelligence TOIS - ACM Transactions on Information Systems TKDE - IEEE Transaction on Knowledge and Data Engineering IPM - Information Processing and Management TREC - Text Retrieval Conferfence v TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BM 08T Thông tin kết nghiên cứu C NGHOÀXÃH ICH NGH AVI TNAM c l p - T - H nh phúc KHOA CNTT Tp HCM, ngày THÔNG TIN K tháng năm T QU NGHIÊN C U Thông tin chung: - Tên đề tài: Đánh giá kết tìm kiếm hệ thống truy tìm thông tin - Mã số: T2014-49 - Chủ nhiệm: Quách Đình Hồng - Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh - Thời gian thực hiện: 1/2014 - 12/2014 M c tiêu: - Nghiên cứu kỹ thuật đánh giá so sánh hệ thống truy tìm thơng tin Tính m i sáng t o: - Tổng hợp nghiên cứu đánh giá so sánh hệ thống truy tìm thơng tin K t qu nghiên c u: - Báo cáo tổng kết phương pháp độ đo để đánh giá hệ thống truy tìm thơng tin - Chương trình minh họa để đánh giá so sánh kết phương pháp tập liệu thử nghiệm chuẩn S n ph m: - Báo cáo tổng kết chương trình minh họa Hi u qu , phương th c chuy n giao k t qu nghiên c u kh n ng áp d ng: - Là nguồn tài liệu phục vụ cho người có nhu cầu học tập nghiên cứu truy tìm thơng tin Trư ng n v (ký, họ tên, đóng dấu) Ch nhi m (ký, họ tên) tài Chương Mở đầu 1.1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài Sự bùng nổ thông tin thời đại khiến đối mặt với vấn đề tải thông tin Do vậy, việc tìm kiếm thơng tin cách nhanh chóng xác ngày trở thành nhu cầu cấp thiết Một lĩnh vực khoa học máy tính liên quan nhiều đến việc nghiên cứu phát triển kỹ thuật tìm kiếm truy tìm thơng tin (information retrieval) Nói ngắn gọn, khoa học tảng cho cơng cụ tìm kiếm Lĩnh vực cung cấp kỹ thuật tảng cho việc xây dựng hệ thống tìm kiếm thơng tin nhằm giúp người dùng tìm thơng tin (thường tài liệu dạng văn bản) thỏa mãn nhu cầu họ (thường diễn đạt dạng truy vấn) từ nguồn thông tin (thường lớn) lưu trữ máy tính [1] Truy tìm thơng tin lĩnh vực có truyền thống thực nghiệm lâu đời Mặc dù năm 1960, vấn đề đánh giá độ xác hệ thống tìm kiếm chủ đề nóng nay, với nhiều báo Chương Thử nghiệm đánh giá Trong chương này, mô tả liệu dùng để thử nghiệm, kết phương pháp phân tích thống kê so sánh phương pháp 6.1 Chuẩn bị liệu Dữ liệu Để thử nghiệm hệ thống sử dụng sưu tập tài liệu OHSUMED Bộ sưu tập tài liệu bao gồm 348,566 trích dẫn (trên tổng số khoảng triệu) 70 tạp chí y học giai đoạn 1987-1991, 106 truy vấn đánh giá liên quan cho truy vấn OHSUMED có dung lượng khoảng 400 MB Mỗi trích dẫn gồm tựa đề tài liệu (title), tóm tắt (abstract), từ khóa MeSH (Medical Subject Headings term), tác giả (author), tên ấn phẩm (source), loại ấn phẩm (publication type) Tiền xử lý Mỗi tài liệu (trích dẫn) từ OHSUMED tiền xử lý để lưu lại thông tin gồm id (là chuỗi xác định tài liệu), tên tài liệu (title), tóm tắt (abstract), từ khóa MeSH (Medical Subject Headings term), tác giả (author), http://ir.ohsu.edu/ohsumed/ 47 tên ấn phẩm (source), loại ấn phẩm (publication type) Lập mục Sau lấy thông tin gồm id, source, MeSH terms, title, publication type, abstract author tài liệu (trích dẫn) chúng tơi tiến hành lập mục OHSUMED theo thông tin dùng thư viện Lucene Tất thông tin lập mục Thông tin tần số xuất vị trí từ trường lưu lại 6.2 Đánh giá kết Tài liệu tìm kiếm xếp hạng dựa phương pháp (mơ hình) TFIDF [44], BM25 [45], DRF [46] LM [47] Bảng 6.1 hình 2.1 minh họa giá trị đồ thị recall-precision ứng với mơ hình tập liệu OHSUMED Bảng 6.2 mô tả độ xác phương pháp thứ hạng k khác (P@k) Bảng 6.3 mơ tả độ xác phương pháp với khoảng tin cậy 95% dùng kiểm đinh t (t test) Bảng 6.4 mô tả so sánh cặp kết MAP phương pháp khác nhau, với độ tin cậy 95%, giá trị p mô tả mức ý nghĩa khác biệt, giá trị d mô tả mức độ ảnh hưởng khác biệt Các kết phân tích (giá trị p, khoảng tin cậy hệ số ảnh hưởng d) cho phép ta rút số nhận xét sau: Phương pháp BM25 tốt so với hai phương pháp DFR TFIDF, khác biệt có ý nghĩa thống kê hệ số ảnh hưởng khác biệt nhỏ Sự khác biệt phương pháp BM25 LM khơng có ý nghĩa thống kê, hệ số ảnh hưởng khác biệt nhỏ http://lucene.apache.org/ 48 Bảng 6.1: Giá trị precision ứng với mức recall Recall 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Mean Average Precision - MAP Non-interpolated Các phương pháp DFR, LM TFIDF khơng có khác biệt đáng kể so với 49 Bảng 6.2: Độ xác thứ hạng k (P@k) Measures R-Precision P5 P10 P15 P20 P30 P100 P200 P500 P1000 Bảng 6.3: Độ xác phương pháp với khoảng tin cậy 95% dùng t-test Methods MAP BM25 0.183 (0.1475-0 DFR 0.1729 (0.1377-0 LM 0.1737 (0.1374-0 TFIDF 0.1704 (0.1368-0 50 Hình 6.1: Đồ thị recall-precision Bảng 6.4: So sánh phương pháp Method A BM25 BM25 BM25 DFR DFR LM 51 Chương Kết luận kiến nghị Trong chương này, mô tả kết đạt được, giới hạn kiến nghị 7.1 Các kết đạt Trong đề tài này, nghiên cứu đạt số kết sau: Khảo sát tổng quan lĩnh vực truy tìm thơng tin thành phần hệ thống truy tìm thơng tin tổng quát Nhấn mạnh tầm quan trọng việc đánh giá thực nghiệm để thực chứng ý tưởng kỹ thuật, đồng thời khảo sát phương pháp độ đo để đánh giá hệ thống truy tìm thông tin Khảo sát phương pháp thống kê dùng để so sánh thuật toán, kỹ thuật, phương pháp nói chung áp dụng cho truy tìm thơng tin nói riêng Tiến hành đánh giá so sánh kết phương pháp tập liệu thử nghiệm chuẩn dựa phương pháp, độ đo trình bày 52 7.2 Giới hạn đề tài Chương trình xây dựng nhằm mục đích mô cách đánh giá thực nghiệm phương pháp truy tìm thơng tin nên chưa trọng đến vấn đề chọn tham số tối ưu phương pháp Chưa thể thực đánh giá thử nghiệm với tập liệu TREC (vì khơng có quyền truy xuất) 7.3 Các kiến nghị Dưới số kiến nghị cho nghiên cứu tiếp theo: Việc so sánh phương pháp tập liệu chuẩn, dùng chung phổ biến truy tìm thơng tin góp phần quan trọng việc thúc đẩy lĩnh vực phát triển Các phân tích thống kê so sánh phương pháp quan trọng để biết phương pháp tốt thực ngẫu nhiên tốt thực tốt đến mức độ nào, có đáng kể hay khơng Cách tiếp cận nên mở rộng lĩnh vực khác khoa học máy tính Các kho liệu chuẩn có nội dung đa dạng (như tập liệu TREC) nên sử dụng để đánh giá so sánh hiệu phương pháp xác 53 Tài liệu tham khảo [1] Christopher D Manning, Prabhakar Raghavan, and Hinrich Schutzeă Introduc-tion to information retrieval Cambridge University Press, 2008 [2] ChengXiang Zhai Statistical language models for information retrieval Syn-thesis Lectures on Human Language Technologies Morgan & Claypool Pub-lishers, 2008 [3] Cyril Cleverdon The cranfield tests on index language devices Aslib Pro-ceedings, 19(6):173–194, 1967 [4] Cyril W Cleverdon The significance of the cranfield tests on index languages In SIGIR, pages 3–12, 1991 [5] C J Van Rijsbergen Information Retrieval, 2nd Edition Butterworth- Heinemann Newton, MA, USA, 1979 [6] E Voorhees and D Harman TREC: Experiment and evaluation in information retrieval MIT press Cambridge eMA MA, 2005 [7] Tefko Saracevic Evaluation of evaluation in information retrieval In SIGIR, pages 138–146, 1995 [8] S Mizzaro Relevance: The whole story Journal of the American Society for Information Science, 48(9):810–832, 1997 54 [9] Justin Zobel How reliable are the results of large-scale information retrieval experiments? In SIGIR, pages 307–314, 1998 [10] Chris Buckley and Ellen M Voorhees Retrieval evaluation with incomplete information In SIGIR, pages 25–32 ACM, 2004 [11] Ellen M Voorhees and Chris Buckley The effect of topic set size on retrieval experiment error In SIGIR, pages 316–323 ACM, 2002 [12] Mark Sanderson and Justin Zobel Information retrieval system evaluation: effort, sensitivity, and reliability In SIGIR, pages 162–169 ACM, 2005 [13] Ben Carterette, James Allan, and Ramesh Sitaraman Minimal test collections for retrieval evaluation In SIGIR, pages 268–275 ACM, 2006 [14] David A Hull Using statistical testing in the evaluation of retrieval experi-ments In SIGIR, pages 329–338 ACM, 1993 [15] Mark D Smucker, James Allan, and Ben Carterette A comparison of statistical significance tests for information retrieval evaluation In CIKM, pages 623– 632 ACM, 2007 [16] Ricardo A Baeza-Yates and Berthier A Ribeiro-Neto Modern information retrieval ACM Press / Addison-Wesley, 1999 [17] W Bruce Croft Knowledge-based and statistical approaches to text retrieval IEEE Intelligent Systems, 6(2):8–12, 1993 [18] Gerard Salton, A Wong, and C S Yang A vector space model for automatic indexing Commun ACM, 18(11):613–620, 1975 [19] S Robertson and K S Jones Relevance weighting of search terms Journal of the American Society for Information Science, (27), 1976 55 [20] Karen Sparck Jones, Steve Walker, and Stephen E Robertson A probabilistic model of information retrieval: development and comparative experiments part & Information Processing & Management, 36(6):779–808, 2000 [21] Jay M Ponte and W Bruce Croft A language modeling approach to informa-tion retrieval In SIGIR, pages 275–281, 1998 [22] Amit Singhal, Chris Buckley, and Mandar Mitra Pivoted document length normalization In SIGIR, pages 21–29, 1996 [23] Scott C Deerwester, Susan T Dumais, Thomas K Landauer, George W Fur-nas, and Richard A Harshman Indexing by latent semantic analysis JASIS, 41(6):391–407, 1990 [24] Christopher J C Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Gregory N Hullender Learning to rank using gradient descent In ICML, pages 89–96, 2005 [25] Tie-Yan Liu Learning to rank for information retrieval Springer-Verlag Berlin Heidelberg, 2011 [26] Gerald Salton The SMART Retrieval System: Experiments in Automatic Doc-ument Processing Prentice Hall, 1971 [27] Karen Sparck-Jones Information retrieval experiment Butterworths, 1981 [28] Chris Buckley and Ellen M Voorhees Evaluating evaluation measure stability In SIGIR, pages 33–40, 2000 [29] Peter Ingwersen and Kalervo Jarvelin The turn: Integration of information seeking and retrieval in context Springer-Verlag New York, Inc., 2005 56 [30] Ellen M Voorhees Trec: Continuing information retrieval’s tradition of ex-perimentation Communications of the ACM, 50:51–54, 2007 [31] Ben Carterette, Virgiliu Pavlu, Evangelos Kanoulas, Javed A Aslam, and James Allan Evaluation over thousands of queries In SIGIR, pages 651–658 ACM, 2008 [32] Stefano Mizzaro and Stephen Robertson Hits hits trec: exploring ir evaluation results with network analysis In SIGIR, pages 479–486 ACM, 2007 [33] L Schamber Relevance and information behavior Annual Review of Informa-tion Science and Technology, 29:3–48, 1994 [34] Ellen M Voorhees Variations in relevance judgments and the measurement of retrieval effectiveness In SIGIR, pages 315–323 ACM, 1998 [35] Peter Bailey, Nick Craswell, Ian Soboroff, Paul Thomas, Arjen P de Vries, and Emine Yilmaz Relevance assessment: are judges exchangeable and does it matter In SIGIR, pages 667–674 ACM, 2008 [36] Kenneth A Kinney, Scott B Huffman, and Juting Zhai How evaluator domain expertise affects search result relevance judgments In CIKM, pages 591–598 ACM, 2008 [37] Javed A Aslam, Virgiliu Pavlu, and Emine Yilmaz A statistical method for system evaluation using incomplete judgments In SIGIR, pages 541–548 ACM, 2006 [38] W Bruce Croft, Donald Metzler, and Trevor Strohman Search engines: Infor-mation retrieval in practice Pearson Education, 2009 57 [39] Kalervo Jarvelin and Jaana Kekalainen Cumulated gain-based evaluation of ir techniques ACM TOIS, 20(4):422–446, 2002 [40] Kalervo Jarvelin, Susan L Price, Lois M L Delcambre, and Marianne Lykke Nielsen Discounted cumulated gain based evaluation of multiple-query ir ses-sions In ECIR, pages 4–15, 2008 [41] Alistair Moffat and Justin Zobel Rank-biased precision for measurement of retrieval effectiveness ACM TOIS, 27(1):1–27, 2008 [42] Thorsten Joachims Evaluating retrieval performance using clickthrough data SIGIR Workshop on Mathematical/Formal Methods in Information Retrieval, pages 79–96, 2002 [43] Ben Carterette and Rosie Jones Evaluating search engines by modeling the relationship between relevance and clicks In Advances in Neural Information Processing Systems (NIPS), 2007 [44] Gerard Salton and Chris Buckley Term-weighting approaches in automatic text retrieval Information Processing and Management, 25(5):513–523, 1988 [45] Stephen Robertson and Hugo Zaragoza The probabilistic relevance frame-work: Bm25 and beyond Foundations and Trends in Information Retrieval, 3(4):333–389, 2009 [46] Gianni Amati and Cornelis J van Rijsbergen Probabilistic models of infor-mation retrieval based on measuring the divergence from randomness ACM TOIS, 20(4):357–389, 2002 [47] Chengxiang Zhai and John David Lafferty A study of smoothing methods for language models applied to information retrieval ACM TOIS, 22(2):179–214, 2004 58 ... pháp đánh giá so sánh kết tìm kiếm hệ thống truy tìm thơng tin Các phương pháp thống kê để so sánh hai phương pháp 1.4 Cách tiếp cận Tìm hiểu độ đo để đánh giá so sánh hệ thống truy tìm thơng tin. .. vực truy tìm thơng tin để có kiến thức sở việc xây dựng hệ thống tìm kiếm Khảo sát độ đo để đánh giá so sánh hệ thống truy tìm thơng tin Khảo sát phương pháp đánh giá so sánh hệ thống truy tìm. .. tượng nghiên cứu khác bao gồm: Các độ đo để đánh giá so sánh hệ thống truy tìm thông tin Các phương pháp so sánh kết hệ thống truy tìm thơng tin Các phương pháp thống kê để so sánh hai phương

Định dạng
Số trang	70
Dung lượng	685,42 KB