Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,5 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố công trình luận văn trước Học Viên Nguyễn Thu Trang ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến PGS.TS Hà Quang Thụy - Người thầy kính yêu, người hướng dẫn, bảo em tận tình từ bước nghiên cứu vàhồn thành luận văn Tôi chân thành cảm ơn thầy cô môn Các Hệ Thống Thông Tin, phịng thí nghiệm SISLAB, nhóm xemina Data Mining đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú giúp đỡ, hỗ trợ tơi q trình nghiên cứu, hồn thành đề tài Tơi cảm ơn thầy cán trường Công nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn tới gia đình bạn bè, đặc biệt bố, mẹ em trai nguồn động viên tinh thần to lớn với tôi, cổ vũ tin tưởng Nguyễn Thu Trang iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục MỞ ĐẦU 1 Xếp hạng đối tượng 1.1 Giới thiệu 1.2 Phương pháp PageRank 1.3 Xếp hạng đối tượng 1.4 Phương pháp đánh giá xếp hạng 1.5 Tổng kết Học xếp hạng 10 2.1 Giới thiệu 10 2.2 Phương pháp học xếp hạng 12 2.2.1 Hồi quy có thứ tự vàPairwise 12 2.2.2 Học xếp hạng danh sách Listwise 13 2.3 Tổng kết chương 14 Xếp hạng máy tìm kiếm thực thể 3.1 Máy tìm kiếm thực thể 15 16 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com v MỤC LỤC 3.2 Xếp hạng thực thể 21 3.2.1 Mơ hình Impression 22 3.2.2 Nhận xét, đánh giá mơ hình Impression 27 3.2.3 Mơ hình đề xuất 29 3.3 Thực nghiệm 31 3.3.1 Công cụ sử dụng 33 3.3.2 Dữ liệu 33 3.3.3 Kết đánh giá 35 3.4 Tổng kết chương 36 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu 37 4.2 Phương pháp lựa chọn nhãn 40 4.3 Học xếp hạng nhãn cụm 42 4.3.1 Các đặc trưng 43 4.3.2 Học hàm tính hạng 45 4.4 Thực nghiệm 46 4.4.1 Nguồn liệu 46 4.4.2 Dữ liệu học 47 4.4.3 Kết đánh giá 48 4.5 Tổng kết chương 49 Kết luận 51 Tài liệu tham khảo 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC A Dữ liệu vi 60 A.1 Dữ liệu tìm kiếm thuốc 60 A.2 Cây wiki 61 Danh sách hình vẽ 63 Danh sách bảng 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng ký hiệu từ viết tắt Từ viết tắt Mô tả Trang định nghĩa IR Information Retrieval SVM Suport Vector Machine LTR Learning To Rank MAP Mean Average Precision ?? vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Xếp hạng đối tượng (trang Web, tác giả, chủ đề, trường đại học, cơng ty ) có ý nghĩa quan trọng lĩnh vực khai phá liệu, trung tâm nhiều ứng dụng - điển hình máy tìm kiếm Các phương pháp tính hạng nghiên cứu phát triển từ nhiều năm trước, khoảng năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành vấn đề thu hút nhiều quan tâm SIGIR 2007 SIGIR 2008 tổ chức hội thảo chuyên đề học xếp hạng (learning to rank: LTR)[45] Học xếp hạng nhiều nhà khoa học giới quan tâm nghiên cứu ứng dụng, cải tiến hàm tính hạng máy tìm kiếm nhóm Yuehua Xu ICML năm 2007 [55], mơ hình tính hạng thực thể máy tìm kiếm thực thể nhóm tác giả Tao Cheng, Kevin Chang [15, 16, 17], sử dụng học xếp hạng để đánh giá trọng số cụm từ [61, 49] Luận văn Học xếp hạng tính hạng đối tượng tạo nhãn cụm tài liệu thực khảo sát, phân tích phương pháp học xếp hạng quan tâm từ đưa mơ hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể tiếng Việt, cụ thể tìm kiếm thực thể thuốc học xếp hạng để tạo nhãn cho cụm tài liệu Qua cho thấy ứng dụng to lớn ý nghĩa quan trọng toán học xếp hạng Luận văn gồm bốn chương, nội dung mô tả LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Chương Tổng quan xếp hạng đối tượng giới thiệu nội dung toán xếp hạng đặt vấn đề học xếp hạng đối tượng Chương Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng Đồng thời, chương giới thiệu thuật toán học sử dụng nhiều học xếp hạng máy véc-tơ hỗ trợ (SVM) hồi quy tuyến tính Chương Học xếp hạng máy tìm kiếm thực thể đưa mơ hình học xếp hạng đối tượng thực nghiệm tính hạng thực thể thuốc máy tìm kiếm thực thể Chương Gán nhãn cụm tài liệu phân tích, áp dụng báo cáo kết thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho cụm tài liệu Phần kết luận tổng kết tóm lược nội dung luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Xếp hạng đối tượng 1.1 Giới thiệu Trong nhiều ứng dụng cần xếp hạng đối tượng theo tiêu chí đó, đơn giản việc xếp hạng học sinh lớp theo điểm trung bình, hay xếp hạng trường đại học, đặc biệt việc xếp hạng kết trả máy tìm kiếm Xếp hạng đối tượng việc xếp đối tượng theo độ phù hợp với tiêu chí tùy vào ứng dụng cụ thể Do cần xác định hàm tính giá trị độ phù hợp để xếp đối tượng theo tiêu chí đặt ra, hàm gọi hàm tính hạng (ranking function: RF) Mỗi nói tới xếp hạng đối tượng quan tâm tới hàm tính hạng Một điển hình tốn xếp hạng việc xếp hạng kết trả máy tìm kiếm Trong máy tìm kiếm thơng thường (như Google, Yahoo) độ quan trọng hay gọi hạng trang đại lượng sở để xếp hạng Giá trị xác định dựa vào việc phân tích đồ thị liên kết trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG TẠO NHÃN CỤM TÀI LIỆU 50 cụm tài liệu Với kết đạt chất lượng tạo nhãn, cho ta sở để xây dựng phân cấp chủ đề web cho trang web tiếng Việt cách tự động LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Học xếp hạng lĩnh vực quan tâm Vấn đề xác định hạng đối tượng mà cụ thể máy tìm kiếm trang web thực thể có vai trị quan trọng giúp định hướng, dẫn người dùng đến với thông tin phù hợp theo nhu cầu Bên cạnh phát triển phương pháp phân cụm, đặt vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếp cận kết phân cụm định hướng tạo phân cấp chủ đề web tiếng Việt Luận văn tiếp cận vấn đề học xếp hạng nghiên cứu, đưa mơ hình, áp dụng vào máy tìm kiếm để nâng cao chất lượng máy tìm kiếm Luận văn đạt kết quả: • Phân tích vấn đề thời tốn xếp hạng, trình bày phương pháp học xếp hạng vài năm gần • Đưa mơ hình học xếp hạng thực thể thực nghiệm tìm kiếm thực thể lĩnh vực y tế - cụ thể thuốc tiếng Việt • Mơ-dul tạo nhãn cụm tài liệu có ứng dụng khơng máy tìm kiếm mà cịn việc tạo tạo danh bạ web (web directory) 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] Adami, G., Avesani, P., and Sona, D Clustering documents in a web directory In WIDM ’03: Proceedings of the 5th ACM international workshop on Web information and data management (New York, NY, USA, 2003), ACM, pp 66–73 [2] Agarwal, A., Chakrabarti, S., and Aggarwal, S Learning to rank networked entities In KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2006), ACM, pp 14–23 [3] Aguillo, I., Ortega, J L L., and Fernandez, M Webometric ranking of world universities: Introduction, methodology, and future developments Higher Education in Europe 33, 2-3 (July 2008), 233– 244 [4] Aguillo, I F Webometrics ranking of world universities In 3rd Meeting of the International Rankings Expert Group (IREG-3), (2007), Shanghai Jiao Tong University [5] Amini, M R., Usunier, N., and Gallinari, P Automatic text summarization based on word clusters and ranking algorithms In In Proceedings of the 27 th European Conference on Information Retrieval (2005), pp 142–156 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 53 [6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan, S Searching the web ACM Trans Interet Technol 1, (2001), 2–43 [7] Balmin, A., Hristidis, V., and Papakonstantinou, Y Objectrank: authority-based keyword search in databases In VLDB ’04: Proceedings of the Thirtieth international conference on Very large data bases (2004), VLDB Endowment, pp 564–575 [8] Burges, C Learning to rank for web search: Some new directions Keynote talk at SIGIR Ranking Workshop, 2007 [9] Burges, C J C., Ragno, R., and Le, Q V Learning to rank with nonsmooth cost functions In NIPS (2006), B Schăolkopf, J C Platt, T Hoffman, B Schăolkopf, J C Platt, and T Hoffman, Eds., MIT Press, pp 193–200 [10] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H Learning to rank: from pairwise approach to listwise approach In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp 129–136 [11] Chakrabarti, S Dynamic personalized pagerank in entity-relation graphs In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp 571–580 [12] Chakrabarti, S Learning to rank in vector spaces and social networks In WWW ’07: Tutorial - 16th international conference on World Wide Web (2007) [13] Chakrabarti, S., and Agarwal, A Learning parameters in entity relationship graphs from ranking preferences In PKDD (2006), pp 91– 102 [14] Chakrabarti, S., Khanna, R., Sawant, U., and Bhattacharyya, C Structured learning for non-smooth ranking losses LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 54 In KDD ’08: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2008), ACM, pp 88–96 [15] Cheng, T., and Chang, K C.-C Entity search engine: Towards agile best-effort information integration over the web In CIDR (2007), pp 108–113 [16] Cheng, T., Yan, X., and Chang, K C.-C Entityrank: searching entities directly and holistically In VLDB ’07: Proceedings of the 33rd international conference on Very large data bases (2007), VLDB Endowment, pp 387–398 [17] Cheng, T., Yan, X., and Chang, K C.-C Supporting entity search: a large-scale prototype search engine In SIGMOD ’07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data (New York, NY, USA, 2007), ACM, pp 1144–1146 [18] Cohen, W W., Schapire, R E., and Singer, Y Learning to order things In NIPS ’97: Proceedings of the 1997 conference on Advances in neural information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press, pp 451–457 [19] Collins, M., Schapire, R E., and Singer, Y Logistic regression, adaboost and bregman distances In Machine Learning (2000), pp 158–169 [20] Demartini, G., Firan, C S., Iofciu, T., Krestel, R., and Nejdl, W A model for ranking entities and its application to wikipedia Web Congress, Latin American (2008), 29–38 [21] Demartini, G., Firan, C S., Iofciu, T., and Nejdl, W Semantically enhanced entity ranking In WISE ’08: Proceedings of the 9th international conference on Web Information Systems Engineering (Berlin, Heidelberg, 2008), Springer-Verlag, pp 176–188 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 55 [22] Dmoz http://dmoz.org [23] Duh, K., and Kirchhoff, K Learning to rank with partiallylabeled data In SIGIR ’08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2008), ACM, pp 251–258 [24] Gelgi, F., Davulcu, H., and Vadrevu, S Term ranking for clustering web search results In WebDB (2007) [25] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F Cluster generation and cluster labelling for web snippets: A fast and accurate hierarchical solution In SPIRE (2006), pp 25–36 [26] Glover, E., Pennock, D M., Lawrence, S., and Krovetz, R Inferring hierarchical descriptions In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management (New York, NY, USA, 2002), ACM, pp 507–514 [27] Herbrich, R., Graepel, T., and Obermayer, K Support vector learning for ordinal regression In In International Conference on Artificial Neural Networks (1999), pp 97–102 [28] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L Retriever: Improving Web Search Engine Results Using Clustering Tech rep., University of Maryland Baltimore County, October 2000 [29] JNSP http://sourceforge.net/projects/jnsp/ [30] Joachims, T Making large-scale support vector machine learning practical Advances in kernel methods: support vector learning (1999), 169–184 [31] Joachims, T Optimizing search engines using clickthrough data In KDD ’02: Proceedings of the eighth ACM SIGKDD international LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 56 conference on Knowledge discovery and data mining (New York, NY, USA, 2002), ACM, pp 133–142 [32] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C Learning to rank for information retrieval (lr4ir 2007) SIGIR Forum 41, (2007), 58–62 [33] Klementiev, A., Roth, D., and Small, K An unsupervised learning algorithm for rank aggregation Machine Learning: ECML 2007 (2007), 616–623 [34] Lawrie, D., Croft, W B., and Rosenberg, A Finding topic words for hierarchical summarization In SIGIR ’01: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2001), ACM, pp 349–357 [35] Lawrie, D J., and Croft, W B Generating hierarchical summaries for web searches In SIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, pp 457–458 [36] Liu, T.-Y Learning to rank in information retrieval In WWW ’08: Tutorial - 17th international conference on World Wide Web (2008) [37] Mecca, G., Raunich, S., and Pappalardo, A A new algorithm for clustering search results Data Knowl Eng 62, (2007), 504–522 [38] Mei, Q., Shen, X., and Zhai, C Automatic labeling of multinomial topic models In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp 490–499 [39] Page, L., Brin, S., Motwani, R., and Winograd, T The pagerank citation ranking: Bringing order to the web Tech rep., Stanford University, 1998 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 57 [40] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.Y., and Li, H Learning to rank relational objects and its application to web search In WWW ’08: Proceeding of the 17th international conference on World Wide Web (New York, NY, USA, 2008), ACM, pp 407–416 [41] Radlinski, F., and Joachims, T Active exploration for learning rankings from clickthrough data In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp 570–579 [42] Raykar, V C., Duraiswami, R., and Krishnapuram, B A fast algorithm for learning a ranking function from large-scale data sets IEEE Trans Pattern Anal Mach Intell 30, (2008), 1158–1170 [43] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H Entity ranking on graphs: Studies on expert finding Tech Rep TRCTIT-07-81, University of Twente, 2007 [44] Sciencegateway http://www.sciencegateway.org/rank/index.html [45] SIGIR on LR4IR http://research.microsoft.com/users/LR4IR-2007/ http://research.microsoft.com/users/LR4IR-2008/ [46] Taylor, M., Guiver, J., Robertson, S., and Minka, T Softrank: optimizing non-smooth rank metrics In WSDM ’08: Proceedings of the international conference on Web search and web data mining (New York, NY, USA, 2008), ACM, pp 77–86 [47] Thom, J A., Pehcevski, J., and Vercoustre, A.-M Use of wikipedia categories in entity ranking CoRR abs/0711.2917 (2007) [48] Treeratpituk, P., and Callan, J Automatically labeling hierarchical clusters In dg.o ’06: Proceedings of the 2006 international conference on Digital government research (New York, NY, USA, 2006), ACM, pp 167–176 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 TÀI LIỆU THAM KHẢO [49] Treeratpituk, P., and Callan, J An experimental study on automatically labeling hierarchical clusters using statistical features In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp 707–708 [50] Vercoustre, A.-M., Thom, J A., and Pehcevski, J Entity ranking in wikipedia In SAC ’08: Proceedings of the 2008 ACM symposium on Applied computing (New York, NY, USA, 2008), ACM, pp 1101–1106 [51] Webometrics http://webometrics.org [52] WISDM http://wisdm.cs.uiuc.edu/ [53] Wu, T C.-W., and Hsu, W.-L using conditional random fields Web directory integration In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (Washington, DC, USA, 2006), IEEE Computer Society, pp 540–543 [54] Xu, J., and Li, H Adarank: a boosting algorithm for information retrieval In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp 391–398 [55] Xu, Y., and Fern, A On learning linear ranking functions for beam search In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp 1047– 1054 [56] Yang, C C., and Lin, J Integrating web directories by learning their structures In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp 1239–1240 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 59 [57] Yu, H Svm selective sampling for ranking with application to data retrieval In KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM, pp 354–363 [58] Yue, Y., Finley, T., Radlinski, F., and Joachims, T A support vector method for optimizing average precision In ACM Conference on Research and Development in Information Retrieval (SIGIR) (2007), pp 271–278 [59] Zaragoza, H., and Robertson, S The probabilistic relevance model: Bm25 and beyond, 2007 [60] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and Attardi, G Ranking very many typed entities on wikipedia In CIKM ’07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (New York, NY, USA, 2007), ACM, pp 1015–1018 [61] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J Learning to cluster web search results In SIGIR ’04: Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2004), ACM, pp 210–217 [62] Zhu, D., and Dreher, H Improving web search by categorization, clustering, and personalization In ADMA ’08: Proceedings of the 4th international conference on Advanced Data Mining and Applications (Berlin, Heidelberg, 2008), Springer-Verlag, pp 659666 ă [63] Zhu, J., Song, D., and Ruger, S Integrating document features for entity ranking Focused Access to XML Documents: 6th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle, Germany, December 17-19, 2007 Selected Papers (2008), 336–347 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục A Dữ liệu A.1 Dữ liệu tìm kiếm thuốc Tập nhân trang web để thu thập liệu cho tìm kiếm thực thể thuốc: http://www.thuoc.net.vn/Default.aspx?Mod=ClassifyDrugs http://thuoc.net.vn/giathuoc.asp http://www.cimsi.org.vn/Duoc pham/giathuoc/Index.htm http://www.cimsi.org.vn/Duoc pham/Thuoc goc/Thuocgoc1.asp http://www.cimsi.org.vn/Duoc pham/Phan loai thuoc/Phanloaithuoc.asp http://www.cimsi.org.vn/Duoc pham/Thongbao/index.asp http://www.cimsi.org.vn/Duoc pham/Danhmucthuoc/index.asp 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 PHỤ LỤC A DỮ LIỆU http://www.yduocngaynay.com/5-Duoc Pham.html http://www.tudienthuoc.net/tudienthuoc/search.asp 10 http://www.ykhoanet.com/duoc/duocpham/index.htm 11 http://www.ykhoanet.com/duoc/khainiemthuoc/index.htm 12 http://www.ykhoanet.com/duoc/sudungthuoc/index.htm 13 http://thuocviet.vn/ 14 http://www.thuocbietduoc.com.vn/thuoc/drgsearch.aspx 15 http://www.thuoc-suckhoe.com/ A.2 Cây wiki Cây phân mục lấy từ vn.wikipedia.com Nhãn Cong nghe thong tin Internet Sinh hoa hoc Sinh hoc Sinh hoc phan tu Te bao hoc Tin sinh hoc Duoc pham Số tài liệu cụm (36) (35) (14) (61) (27) (23) (12) (20) Bảng A.1: Dữ liệu học: cụm mức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 62 PHỤ LỤC A DỮ LIỆU Nhãn Dai hoc Mon hoc Truong trung hoc Hoc vi Phuong phap giao duc Tu Số tài liệu cụm (20) (6) (14) (24) (3) (8) Bảng A.2: Dữ liệu học - cụm chủ đề giáo dục Nhãn lop thu ho trau bo dong vat thuan hoa dong vat nguyen sinh dong vat ky sinh bo se bo ca da tron Số tài liệu cụm (13) (10) (8) (5) (2) (31) (7) Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật học Nhãn Cong nghe thong tin Internet Sinh hoa hoc Sinh hoc Sinh hoc phan tu Te bao hoc Tin sinh hoc Duoc khoa Y hoc Vien thong Thuc vat hoc Khoa hoc suc khoe Dong vat hoc Giao duc Số tài liệu cụm (778) (210) (14) (1283) (27) (23) (12) (25) (13) (23) (6) (4) (339) (2457) Bảng A.4: Dữ liệu wiki đầy đủ mức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ 2.1 Xếp hạng với SVM [31] 13 3.1 Đồ thị web với khung nhìn thực thể [16] 18 3.2 Mơ hình tìm kiếm truyền thống tìm kiếm thực thể [52] 19 3.3 Kiến trúc hệ thống[17] 20 3.4 Impression model [16] 22 3.5 Ví dụ rút trích thực thể thuốc 23 3.6 So sánh độ xác MRR [16] 29 3.7 Mô hình học xếp hạng máy tìm kiếm thực thể 30 3.8 Ví dụ xác định trọng số cục p(α(γ)) 32 3.9 So sánh độ xác trung bình AP query 36 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng 3.1 Ví dụ kết trả truy vấn q 17 3.2 So sánh MRR, MAP BM25, Impression, LTR 35 4.1 So sánh MRR, MTRR 49 4.2 So sánh Match@N 49 A.1 Dữ liệu học: cụm mức 61 A.2 Dữ liệu học - cụm chủ đề giáo dục 62 A.3 Dữ liệu kiểm tra - cụm chủ đề động vật học 62 A.4 Dữ liệu wiki đầy đủ mức 62 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... dựa vào học xếp hạng, phương pháp phân cụm H.Zeng Q.He [61] sử dụng học xếp hạng cụm từ làm nhãn 4.3 Học xếp hạng nhãn cụm Nhãn cụm tài liệu từ, cụm từ xác định từ tài liệu thuộc cụm Tất từ, cụm. .. Xếp hạng đối tượng Hạng trang PageRank độ đo để xếp hạng trang web Và vậy, coi hạng trang hàm xếp hạng đối tượng - cụ thể đối tượng trường hợp trang web Và ngày có nhiều nghiên cứu xếp hạng đối. .. chọn nhãn Trong tạo nhãn cụm phân cấp, giả thiết có sẵn phân cấp tốt cụm tài liệu cần tạo mô tả tốt cho cụm tài liệu gọi nhãn cụm Nhãn cụm cụm từ danh sách từ, cụm từ nói lên chủ đề chung cụm,