Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,49 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố công trình luận văn trước Học Viên Nguyễn Thu Trang ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến PGS.TS Hà Quang Thụy Người thầy kính yêu, người hướng dẫn, bảo em tận tình từ bước nghiên cứu hồn thành luận văn Tôi chân thành cảm ơn thầy cô môn Các Hệ Thống Thông Tin, phịng thí nghiệm SISLAB, nhóm xemina Data Mining đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú giúp đỡ, hỗ trợ tơi q trình nghiên cứu, hồn thành đề tài Tơi cảm ơn thầy cán trường Công nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB bạn bè nguồn động viên tinh thần to lớn với tôi, cổ vũ tin tưởng Nguyễn Thu Trang iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục MỞ ĐẦU 1 Xếp hạng đối tượng 1.1 Giới thiệu 1.2 Phương pháp PageRank 1.3 Xếp hạng đối tượng 1.4 Phương pháp đánh giá xếp hạng 1.5 Tổng kết Học xếp hạng 2.1 Giới thiệu 2.2 Phương pháp học xếp hạng 11 2.2.1 Hồi quy có thứ tự Pairwise 11 2.2.2 Học xếp hạng danh sách Listwise 13 2.3 Tổng kết chương 15 Xếp hạng máy tìm kiếm thực thể 16 3.1 Máy tìm kiếm thực thể 17 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com v MỤC LỤC 3.2 Xếp hạng thực thể 21 3.2.1 Mơ hình Impression 22 3.2.2 Nhận xét, đánh giá mơ hình Impression 27 3.2.3 Mơ hình đề xuất 29 3.3 Thực nghiệm 32 3.3.1 Công cụ sử dụng 32 3.3.2 Dữ liệu 33 3.3.3 Kết đánh giá 34 3.4 Tổng kết chương 36 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu 37 4.2 Phương pháp lựa chọn nhãn 39 4.3 Học xếp hạng nhãn cụm 42 4.3.1 Các đặc trưng 42 4.3.2 Học hàm tính hạng 44 4.4 Thực nghiệm 45 4.4.1 Nguồn liệu 45 4.4.2 Dữ liệu học 46 4.4.3 Kết đánh giá 47 4.5 Tổng kết chương 48 Kết luận 49 Tài liệu tham khảo 51 A Dữ liệu 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC vi A.1 Dữ liệu tìm kiếm thuốc 59 A.2 Cây wiki 60 Danh sách hình vẽ 62 Danh sách bảng 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng ký hiệu từ viết tắt Từ viết tắt Mô tả Trang định nghĩa IR Information Retrieval SVM Suport Vector Machine LTR Learning To Rank MAP Mean Average Precision OR Ordinal Regression 10 vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Xếp hạng đối tượng (trang Web, tác giả, chủ đề, trường đại học, cơng ty ) có ý nghĩa quan trọng lĩnh vực khai phá liệu, trung tâm nhiều ứng dụng - điển hình máy tìm kiếm Các phương pháp tính hạng nghiên cứu phát triển từ nhiều năm trước, khoảng năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành vấn đề thu hút nhiều quan tâm SIGIR 2007 SIGIR 2008 tổ chức hội thảo chuyên đề học xếp hạng (learning to rank: LTR)[49] Học xếp hạng nhiều nhà khoa học giới quan tâm nghiên cứu ứng dụng, cải tiến hàm tính hạng máy tìm kiếm nhóm Yuehua Xu ICML năm 2007 [59], mơ hình tính hạng thực thể máy tìm kiếm thực thể nhóm tác giả Tao Cheng, Kevin Chang [17, 18, 19], sử dụng học xếp hạng để đánh giá trọng số cụm từ [65, 53] Luận văn Học xếp hạng tính hạng đối tượng tạo nhãn cụm tài liệu thực khảo sát, phân tích phương pháp học xếp hạng quan tâm từ đưa mơ hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể tiếng Việt, cụ thể tìm kiếm thực thể thuốc học xếp hạng để tạo nhãn cho cụm tài liệu Qua cho thấy ứng dụng to lớn ý nghĩa quan trọng toán học xếp hạng Luận văn gồm bốn chương, nội dung mô tả Chương Tổng quan xếp hạng đối tượng giới thiệu nội dung toán xếp hạng đặt vấn đề học xếp hạng đối tượng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Chương Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng Đồng thời, chương giới thiệu thuật toán học sử dụng nhiều học xếp hạng máy véc-tơ hỗ trợ (SVM) hồi quy tuyến tính Chương Học xếp hạng máy tìm kiếm thực thể đưa mơ hình học xếp hạng đối tượng thực nghiệm tính hạng thực thể thuốc máy tìm kiếm thực thể Chương Gán nhãn cụm tài liệu phân tích, áp dụng báo cáo kết thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho cụm tài liệu Phần kết luận tổng kết tóm lược nội dung luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Xếp hạng đối tượng 1.1 Giới thiệu Trong nhiều ứng dụng cần xếp hạng đối tượng theo tiêu chí đó, đơn giản việc xếp hạng học sinh lớp theo điểm trung bình, hay xếp hạng trường đại học, đặc biệt việc xếp hạng kết trả máy tìm kiếm Xếp hạng đối tượng việc xếp đối tượng theo độ phù hợp với tiêu chí tùy vào ứng dụng cụ thể Do cần xác định hàm tính giá trị độ phù hợp để xếp đối tượng theo tiêu chí đặt ra, hàm gọi hàm tính hạng (ranking function: RF) Mỗi nói tới xếp hạng đối tượng quan tâm tới hàm tính hạng Một điển hình tốn xếp hạng việc xếp hạng kết trả máy tìm kiếm Trong máy tìm kiếm thơng thường (như Google, Yahoo) độ quan trọng hay gọi hạng trang đại lượng sở để xếp hạng Giá trị xác định dựa vào việc phân tích đồ thị liên kết trang web Với tập tài liệu D = d1 , dn , có truy vấn q người dùng máy tìm kiếm cần tìm tài liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Học xếp hạng lĩnh vực quan tâm Vấn đề xác định hạng đối tượng mà cụ thể máy tìm kiếm trang web thực thể có vai trị quan trọng giúp định hướng, dẫn người dùng đến với thông tin phù hợp theo nhu cầu Bên cạnh phát triển phương pháp phân cụm, đặt vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếp cận kết phân cụm định hướng tạo phân cấp chủ đề web tiếng Việt Luận văn tiếp cận vấn đề học xếp hạng nghiên cứu, đưa mơ hình, áp dụng vào máy tìm kiếm để nâng cao chất lượng máy tìm kiếm Luận văn đạt kết quả: • Phân tích vấn đề thời tốn xếp hạng, trình bày phương pháp học xếp hạng vài năm gần • Đưa mơ hình học xếp hạng thực thể thực nghiệm tìm kiếm thực thể lĩnh vực y tế - cụ thể thuốc tiếng Việt • Mơ-dul tạo nhãn cụm tài liệu có ứng dụng khơng máy tìm kiếm mà cịn việc tạo tạo danh bạ web (web directory) 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các cơng trình cơng bố tác giả [TTT08 ]Nguyen, C.-T., Nguyen, T.-T., Ha, Q.-T., Phan, X.-H., and Horiguchi,S Web Search Clustering and Labeling with Hidden Topics Journal of ACM Transaction on Asian Language Information Processing (ACMTALIP), 2008 (TALIP-08-0036, Resubmit after reviewed) [CTT08 ] Nguyễn Thi Thu Chung, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Hà Quang Thụy Đánh giá chất lượng phân cụm máy tìm kiếm tiếng Việt VNSEN Kỷ yếu Hội thảo Quốc gia Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông lần thứ XI (Huế, 12-13/6/2008 2008), [TNT06 ] Q.Ha, T., H.Nguyen, N., and T.Nguyen, T Improve Performance of PageRank Computation with Connected-Component PageRank International Journal of Natural Sciences and Technology, 1(1):53-60, 2006 [NNT05 ]Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc Giải pháp tính hạng trang modified adaptive pagerank máy tìm kiếm Chun sang "Các cơng trình nghiên cứu CNTT truyền thơng" Tạp chí Bưu Viễn thơng, 14: 65-71, 4-2005 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] Adami, G., Avesani, P., and Sona, D Clustering documents in a web directory In WIDM ’03: Proceedings of the 5th ACM international workshop on Web information and data management (New York, NY, USA, 2003), ACM, pp 66–73 [2] Agarwal, A., Chakrabarti, S., and Aggarwal, S Learning to rank networked entities In KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2006), ACM, pp 14–23 [3] Aguillo, I., Ortega, J L L., and Fernandez, M Webometric ranking of world universities: Introduction, methodology, and future developments Higher Education in Europe 33, 2-3 (July 2008), 233–244 [4] Aguillo, I F Webometrics ranking of world universities In 3rd Meeting of the International Rankings Expert Group (IREG-3), (2007), Shanghai Jiao Tong University [5] Amini, M R., Usunier, N., and Gallinari, P Automatic text summarization based on word clusters and ranking algorithms In In Proceedings of the 27 th European Conference on Information Retrieval (2005), pp 142–156 [6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan, S Searching the web ACM Trans Interet Technol 1, (2001), 2–43 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 52 [7] Balmin, A., Hristidis, V., and Papakonstantinou, Y Objectrank: authority-based keyword search in databases In VLDB ’04: Proceedings of the Thirtieth international conference on Very large data bases (2004), VLDB Endowment, pp 564–575 [8] Burges, C Learning to rank for web search: Some new directions Keynote talk at SIGIR Ranking Workshop, 2007 [9] Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamilton, N., and Hullender, G Learning to rank using gradient descent In ICML ’05: Proceedings of the 22nd international conference on Machine learning (New York, NY, USA, 2005), ACM, pp 89–96 [10] Burges, C J C., Ragno, R., and Le, Q V Learning to rank with nonsmooth cost functions In NIPS (2006), B Schăolkopf, J C Platt, T Hoffman, B Schăolkopf, J C Platt, and T Hoffman, Eds., MIT Press, pp 193–200 [11] Cao, Y., Xu, J., Liu, T.-Y., Li, H., Huang, Y., and Hon, H.-W Adapting ranking svm to document retrieval In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp 186–193 [12] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H Learning to rank: from pairwise approach to listwise approach In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp 129–136 [13] Chakrabarti, S Dynamic personalized pagerank in entity-relation graphs In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp 571–580 [14] Chakrabarti, S Learning to rank in vector spaces and social networks In WWW ’07: Tutorial - 16th international conference on World Wide Web (2007) [15] Chakrabarti, S., and Agarwal, A Learning parameters in entity relationship graphs from ranking preferences In PKDD (2006), pp 91–102 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 53 [16] Chakrabarti, S., Khanna, R., Sawant, U., and Bhattacharyya, C Structured learning for non-smooth ranking losses In KDD ’08: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2008), ACM, pp 88–96 [17] Cheng, T., and Chang, K C.-C Entity search engine: Towards agile besteffort information integration over the web In CIDR (2007), pp 108–113 [18] Cheng, T., Yan, X., and Chang, K C.-C Entityrank: searching entities directly and holistically In VLDB ’07: Proceedings of the 33rd international conference on Very large data bases (2007), VLDB Endowment, pp 387–398 [19] Cheng, T., Yan, X., and Chang, K C.-C Supporting entity search: a large-scale prototype search engine In SIGMOD ’07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data (New York, NY, USA, 2007), ACM, pp 1144–1146 [20] Chu, W., and Keerthi, S S New approaches to support vector ordinal regression In In ICML ’05: Proceedings of the 22nd international conference on Machine Learning (2005), pp 145–152 [21] Cohen, W W., Schapire, R E., and Singer, Y Learning to order things In NIPS ’97: Proceedings of the 1997 conference on Advances in neural information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press, pp 451–457 [22] Collins, M., Schapire, R E., and Singer, Y Logistic regression, adaboost and bregman distances In Machine Learning (2000), pp 158–169 [23] Demartini, G., Firan, C S., Iofciu, T., Krestel, R., and Nejdl, W A model for ranking entities and its application to wikipedia Web Congress, Latin American (2008), 29–38 [24] Demartini, G., Firan, C S., Iofciu, T., and Nejdl, W Semantically enhanced entity ranking In WISE ’08: Proceedings of the 9th international conference on Web Information Systems Engineering (Berlin, Heidelberg, 2008), Springer-Verlag, pp 176–188 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 54 [25] Dmoz http://dmoz.org [26] Duh, K., and Kirchhoff, K Learning to rank with partially-labeled data In SIGIR ’08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2008), ACM, pp 251–258 [27] Gelgi, F., Davulcu, H., and Vadrevu, S Term ranking for clustering web search results In WebDB (2007) [28] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F Cluster generation and cluster labelling for web snippets: A fast and accurate hierarchical solution In SPIRE (2006), pp 25–36 [29] Glover, E., Pennock, D M., Lawrence, S., and Krovetz, R Inferring hierarchical descriptions In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management (New York, NY, USA, 2002), ACM, pp 507–514 [30] Herbrich, R., Graepel, T., and Obermayer, K Support vector learning for ordinal regression In In International Conference on Artificial Neural Networks (1999), pp 97–102 [31] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L Retriever: Improving Web Search Engine Results Using Clustering Tech rep., University of Maryland Baltimore County, October 2000 [32] JNSP http://sourceforge.net/projects/jnsp/ [33] Joachims, T Making large-scale support vector machine learning practical Advances in kernel methods: support vector learning (1999), 169–184 [34] Joachims, T Optimizing search engines using clickthrough data In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2002), ACM, pp 133–142 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 55 [35] Joachims, T A support vector method for multivariate performance measures In Proceedings of the 22nd International Conference on Machine Learning (2005), ACM Press, pp 377–384 [36] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C Learning to rank for information retrieval (lr4ir 2007) SIGIR Forum 41, (2007), 58–62 [37] Klementiev, A., Roth, D., and Small, K An unsupervised learning algorithm for rank aggregation Machine Learning: ECML 2007 (2007), 616– 623 [38] Lawrie, D., Croft, W B., and Rosenberg, A Finding topic words for hierarchical summarization In SIGIR ’01: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2001), ACM, pp 349–357 [39] Lawrie, D J., and Croft, W B Generating hierarchical summaries for web searches In SIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, pp 457–458 [40] Liu, T.-Y Learning to rank in information retrieval In WWW ’08: Tutorial - 17th international conference on World Wide Web (2008) [41] Mecca, G., Raunich, S., and Pappalardo, A A new algorithm for clustering search results Data Knowl Eng 62, (2007), 504–522 [42] Mei, Q., Shen, X., and Zhai, C Automatic labeling of multinomial topic models In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp 490–499 [43] Page, L., Brin, S., Motwani, R., and Winograd, T The pagerank citation ranking: Bringing order to the web Tech rep., Stanford University, 1998 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 56 [44] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.-Y., and Li, H Learning to rank relational objects and its application to web search In WWW ’08: Proceeding of the 17th international conference on World Wide Web (New York, NY, USA, 2008), ACM, pp 407–416 [45] Radlinski, F., and Joachims, T Active exploration for learning rankings from clickthrough data In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp 570–579 [46] Raykar, V C., Duraiswami, R., and Krishnapuram, B A fast algorithm for learning a ranking function from large-scale data sets IEEE Trans Pattern Anal Mach Intell 30, (2008), 1158–1170 [47] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H Entity ranking on graphs: Studies on expert finding Tech Rep TR-CTIT-07-81, University of Twente, 2007 [48] Sciencegateway http://www.sciencegateway.org/rank/index.html [49] SIGIR on LR4IR http://research.microsoft.com/users/LR4IR-2007/ http://research.microsoft.com/users/LR4IR-2008/ [50] Taylor, M., Guiver, J., Robertson, S., and Minka, T Softrank: optimizing non-smooth rank metrics In WSDM ’08: Proceedings of the international conference on Web search and web data mining (New York, NY, USA, 2008), ACM, pp 77–86 [51] Thom, J A., Pehcevski, J., and Vercoustre, A.-M Use of wikipedia categories in entity ranking CoRR abs/0711.2917 (2007) [52] Treeratpituk, P., and Callan, J Automatically labeling hierarchical clusters In dg.o ’06: Proceedings of the 2006 international conference on Digital government research (New York, NY, USA, 2006), ACM, pp 167–176 [53] Treeratpituk, P., and Callan, J An experimental study on automatically labeling hierarchical clusters using statistical features In SIGIR ’06: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 57 Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp 707–708 [54] Vercoustre, A.-M., Thom, J A., and Pehcevski, J Entity ranking in wikipedia In SAC ’08: Proceedings of the 2008 ACM symposium on Applied computing (New York, NY, USA, 2008), ACM, pp 1101–1106 [55] Webometrics http://webometrics.org [56] WISDM http://wisdm.cs.uiuc.edu/ [57] Wu, T C.-W., and Hsu, W.-L Web directory integration using conditional random fields In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (Washington, DC, USA, 2006), IEEE Computer Society, pp 540–543 [58] Xu, J., and Li, H Adarank: a boosting algorithm for information retrieval In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp 391–398 [59] Xu, Y., and Fern, A On learning linear ranking functions for beam search In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp 1047–1054 [60] Yang, C C., and Lin, J Integrating web directories by learning their structures In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp 1239–1240 [61] Yu, H Svm selective sampling for ranking with application to data retrieval In KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM, pp 354–363 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO 58 [62] Yue, Y., Finley, T., Radlinski, F., and Joachims, T A support vector method for optimizing average precision In ACM Conference on Research and Development in Information Retrieval (SIGIR) (2007), pp 271–278 [63] Zaragoza, H., and Robertson, S The probabilistic relevance model: Bm25 and beyond, 2007 [64] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and Attardi, G Ranking very many typed entities on wikipedia In CIKM ’07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (New York, NY, USA, 2007), ACM, pp 1015–1018 [65] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J Learning to cluster web search results In SIGIR ’04: Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2004), ACM, pp 210–217 [66] Zheng, Z., Chen, K., Sun, G., and Zha, H A regression framework for learning ranking functions using relative relevance judgments In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp 287–294 [67] Zhu, D., and Dreher, H Improving web search by categorization, clustering, and personalization In ADMA ’08: Proceedings of the 4th international conference on Advanced Data Mining and Applications (Berlin, Heidelberg, 2008), Springer-Verlag, pp 659666 ă [68] Zhu, J., Song, D., and Ruger, S Integrating document features for entity ranking Focused Access to XML Documents: 6th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle, Germany, December 17-19, 2007 Selected Papers (2008), 336–347 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục A Dữ liệu A.1 Dữ liệu tìm kiếm thuốc Tập nhân trang web để thu thập liệu cho tìm kiếm thực thể thuốc: http://www.thuoc.net.vn/Default.aspx?Mod=ClassifyDrugs http://thuoc.net.vn/giathuoc.asp http://www.cimsi.org.vn/Duoc pham/giathuoc/Index.htm http://www.cimsi.org.vn/Duoc pham/Thuoc goc/Thuocgoc1.asp http://www.cimsi.org.vn/Duoc pham/Phan loai thuoc/Phanloaithuoc.asp http://www.cimsi.org.vn/Duoc pham/Thongbao/index.asp http://www.cimsi.org.vn/Duoc pham/Danhmucthuoc/index.asp http://www.yduocngaynay.com/5-Duoc Pham.html 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 PHỤ LỤC A DỮ LIỆU http://www.tudienthuoc.net/tudienthuoc/search.asp 10 http://www.ykhoanet.com/duoc/duocpham/index.htm 11 http://www.ykhoanet.com/duoc/khainiemthuoc/index.htm 12 http://www.ykhoanet.com/duoc/sudungthuoc/index.htm 13 http://thuocviet.vn/ 14 http://www.thuocbietduoc.com.vn/thuoc/drgsearch.aspx 15 http://www.thuoc-suckhoe.com/ A.2 Cây wiki Cây phân mục lấy từ vn.wikipedia.com Nhãn Cong nghe thong tin Internet Sinh hoa hoc Sinh hoc Sinh hoc phan tu Te bao hoc Tin sinh hoc Duoc pham Số tài liệu cụm (36) (35) (14) (61) (27) (23) (12) (20) Bảng A.1: Dữ liệu học: cụm mức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 PHỤ LỤC A DỮ LIỆU Nhãn Dai hoc Mon hoc Truong trung hoc Hoc vi Phuong phap giao duc Tu Số tài liệu cụm (20) (6) (14) (24) (3) (8) Bảng A.2: Dữ liệu học - cụm chủ đề giáo dục Nhãn lop thu ho trau bo dong vat thuan hoa dong vat nguyen sinh dong vat ky sinh bo se bo ca da tron Số tài liệu cụm (13) (10) (8) (5) (2) (31) (7) Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật học Nhãn Cong nghe thong tin Internet Sinh hoa hoc Sinh hoc Sinh hoc phan tu Te bao hoc Tin sinh hoc Duoc khoa Y hoc Vien thong Thuc vat hoc Khoa hoc suc khoe Dong vat hoc Giao duc Số tài liệu cụm (778) (210) (14) (1283) (27) (23) (12) (25) (13) (23) (6) (4) (339) (2457) Bảng A.4: Dữ liệu wiki đầy đủ mức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ 2.1 Xếp hạng với SVM [34] 13 2.2 Xác định ngưỡng phân thứ hạng [20] 13 3.1 Đồ thị web với khung nhìn thực thể [18] 19 3.2 Mơ hình tìm kiếm truyền thống tìm kiếm thực thể [56] 19 3.3 Kiến trúc hệ thống[19] 20 3.4 Impression model [18] 23 3.5 Ví dụ rút trích thực thể thuốc 24 3.6 So sánh độ xác MRR [18] 29 3.7 Mơ hình học xếp hạng máy tìm kiếm thực thể 3.8 Ví dụ xác định trọng số cục p(α(γ)) 33 3.9 So sánh độ xác trung bình AP query 35 30 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng 3.1 Ví dụ kết trả truy vấn q 18 3.2 So sánh MRR, MAP BM25, Impression, LTR 35 4.1 So sánh MRR, MTRR 48 4.2 So sánh Match@N 48 A.1 Dữ liệu học: cụm mức 60 A.2 Dữ liệu học - cụm chủ đề giáo dục 61 A.3 Dữ liệu kiểm tra - cụm chủ đề động vật học 61 A.4 Dữ liệu wiki đầy đủ mức 61 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... 4.3 42 Học xếp hạng nhãn cụm Nhãn cụm tài liệu từ, cụm từ xác định từ tài liệu thuộc cụm Tất từ, cụm từ có khả làm nhãn, cần tìm nhãn tốt có thể, tốn xếp hạng nhãn cụm Với S cụm xét, có cụm cha... 1.3 Xếp hạng đối tượng Hạng trang PageRank độ đo để xếp hạng trang web Và vậy, coi hạng trang hàm xếp hạng đối tượng - cụ thể đối tượng trường hợp trang web Và ngày có nhiều nghiên cứu xếp hạng. .. dựa vào học xếp hạng, phương pháp phân cụm H.Zeng Q.He [65] sử dụng học xếp hạng cụm từ làm nhãn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG TẠO NHÃN CỤM TÀI LIỆU 4.3 42 Học