4 Tạo nhãn cụm tài liệu
4.2 So sánh Match@N
Match@N N=1 N=2 N=3 N=4
Glover 0.29 0.43 0.57 1.00 RF 0.43 1.00 1.00 1.00 việc học hàm xếp hạng, cho chúng ta hàm xết hạng tốt hơn. 4.5 Tổng kết chương
Xếp hạng các nhãn ứng viên để tạo nhãn cụm tài liệu là một trong các ứng dụng của học xếp hạng đối tượng, cụ thể đối tượng ở đây là "nhãn" của
CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 50 cụm tài liệu. Với kết quả đạt được của chất lượng tạo nhãn, cho ta cơ sở để xây dựng cây phân cấp chủ đề web cho các trang web tiếng Việt một cách tự động.
KẾT LUẬN
Học xếp hạng là một lĩnh vực đang rất được quan tâm. Vấn đề xác định hạng của các đối tượng mà cụ thể trong máy tìm kiếm là các trang web và các thực thể có một vai trò quan trọng bởi nó giúp định hướng, chỉ dẫn người dùng đến với những thông tin phù hợp theo nhu cầu. Bên cạnh đó cùng sự phát triển của các phương pháp phân cụm, đặt ra vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếp cận kết quả phân cụm và định hướng tạo cây phân cấp chủ đề web tiếng Việt.
Luận văn này đã tiếp cận vấn đề học xếp hạng và nghiên cứu, đưa ra mô hình, áp dụng vào máy tìm kiếm để nâng cao chất lượng của máy tìm kiếm.
Luận văn đã đạt được những kết quả:
• Phân tích các vấn đề thời sự nhất về bài toán xếp hạng, trình bày các phương pháp học xếp hạng trong vài năm gần đây.
• Đưa ra mô hình học xếp hạng thực thể và thực nghiệm tìm kiếm thực thể trong lĩnh vực y tế - cụ thể là thuốc trong tiếng Việt.
• Mô-dul tạo nhãn cụm tài liệu có ứng dụng không chỉ trong máy tìm kiếm mà còn trong việc tạo tạo danh bạ web (web directory).
Tài liệu tham khảo
[1] Adami, G., Avesani, P., and Sona, D. Clustering documents in a web directory. InWIDM ’03: Proceedings of the 5th ACM international workshop on Web information and data management (New York, NY, USA, 2003), ACM, pp. 66–73.
[2] Agarwal, A., Chakrabarti, S., and Aggarwal, S. Learning to rank networked entities. In KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2006), ACM, pp. 14–23.
[3] Aguillo, I., Ortega, J. L. L., and Fernandez, M. Webometric ranking of world universities: Introduction, methodology, and future developments. Higher Education in Europe 33, 2-3 (July 2008), 233– 244.
[4] Aguillo, I. F. Webometrics ranking of world universities. In 3rd Meeting of the International Rankings Expert Group (IREG-3),(2007), Shanghai Jiao Tong University.
[5] Amini, M. R., Usunier, N., and Gallinari, P. Automatic text summarization based on word clusters and ranking algorithms. In In Proceedings of the 27 th European Conference on Information Retrieval
(2005), pp. 142–156.
TÀI LIỆU THAM KHẢO 53 [6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan, S. Searching the web. ACM Trans. Interet Technol. 1, 1 (2001), 2–43.
[7] Balmin, A., Hristidis, V., and Papakonstantinou, Y. Objec- trank: authority-based keyword search in databases. In VLDB ’04: Proceedings of the Thirtieth international conference on Very large data bases (2004), VLDB Endowment, pp. 564–575.
[8] Burges, C. Learning to rank for web search: Some new directions. Keynote talk at SIGIR Ranking Workshop, 7 2007.
[9] Burges, C. J. C., Ragno, R., and Le, Q. V. Learning to rank with nonsmooth cost functions. In NIPS (2006), B. Sch¨olkopf, J. C. Platt, T. Hoffman, B. Sch¨olkopf, J. C. Platt, and T. Hoffman, Eds., MIT Press, pp. 193–200.
[10] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H. Learning to rank: from pairwise approach to listwise approach. In ICML ’07: Proceedings of the 24th international conference on Machine learning
(New York, NY, USA, 2007), ACM, pp. 129–136.
[11] Chakrabarti, S. Dynamic personalized pagerank in entity-relation graphs. InWWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 571–580. [12] Chakrabarti, S. Learning to rank in vector spaces and social net- works. InWWW ’07: Tutorial - 16th international conference on World Wide Web (2007).
[13] Chakrabarti, S., and Agarwal, A. Learning parameters in entity relationship graphs from ranking preferences. InPKDD (2006), pp. 91– 102.
[14] Chakrabarti, S., Khanna, R., Sawant, U., and Bhat- tacharyya, C. Structured learning for non-smooth ranking losses.
TÀI LIỆU THAM KHẢO 54 In KDD ’08: Proceeding of the 14th ACM SIGKDD international con- ference on Knowledge discovery and data mining(New York, NY, USA, 2008), ACM, pp. 88–96.
[15] Cheng, T., and Chang, K. C.-C. Entity search engine: Towards agile best-effort information integration over the web. InCIDR(2007), pp. 108–113.
[16] Cheng, T., Yan, X., and Chang, K. C.-C. Entityrank: search- ing entities directly and holistically. In VLDB ’07: Proceedings of the 33rd international conference on Very large data bases (2007), VLDB Endowment, pp. 387–398.
[17] Cheng, T., Yan, X., and Chang, K. C.-C. Supporting entity search: a large-scale prototype search engine. In SIGMOD ’07: Pro- ceedings of the 2007 ACM SIGMOD international conference on Man- agement of data (New York, NY, USA, 2007), ACM, pp. 1144–1146. [18] Cohen, W. W., Schapire, R. E., and Singer, Y. Learning to
order things. In NIPS ’97: Proceedings of the 1997 conference on Ad- vances in neural information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press, pp. 451–457.
[19] Collins, M., Schapire, R. E., and Singer, Y. Logistic regres- sion, adaboost and bregman distances. In Machine Learning (2000), pp. 158–169.
[20] Demartini, G., Firan, C. S., Iofciu, T., Krestel, R., and Ne- jdl, W. A model for ranking entities and its application to wikipedia.
Web Congress, Latin American 0 (2008), 29–38.
[21] Demartini, G., Firan, C. S., Iofciu, T., and Nejdl, W. Se- mantically enhanced entity ranking. In WISE ’08: Proceedings of the 9th international conference on Web Information Systems Engineering
TÀI LIỆU THAM KHẢO 55 [22] Dmoz. http://dmoz.org.
[23] Duh, K., and Kirchhoff, K. Learning to rank with partially- labeled data. In SIGIR ’08: Proceedings of the 31st annual interna- tional ACM SIGIR conference on Research and development in infor- mation retrieval (New York, NY, USA, 2008), ACM, pp. 251–258. [24] Gelgi, F., Davulcu, H., and Vadrevu, S. Term ranking for clus-
tering web search results. In WebDB (2007).
[25] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F. Cluster generation and cluster labelling for web snippets: A fast and accurate hierarchical solution. In SPIRE (2006), pp. 25–36.
[26] Glover, E., Pennock, D. M., Lawrence, S., and Krovetz, R. Inferring hierarchical descriptions. In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management (New York, NY, USA, 2002), ACM, pp. 507–514.
[27] Herbrich, R., Graepel, T., and Obermayer, K. Support vec- tor learning for ordinal regression. In In International Conference on Artificial Neural Networks (1999), pp. 97–102.
[28] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L. Retriever: Improving Web Search Engine Results Using Clustering. Tech. rep., University of Maryland Baltimore County, October 2000.
[29] JNSP. http://sourceforge.net/projects/jnsp/.
[30] Joachims, T. Making large-scale support vector machine learning practical. Advances in kernel methods: support vector learning (1999), 169–184.
[31] Joachims, T. Optimizing search engines using clickthrough data. In KDD ’02: Proceedings of the eighth ACM SIGKDD international
TÀI LIỆU THAM KHẢO 56
conference on Knowledge discovery and data mining (New York, NY, USA, 2002), ACM, pp. 133–142.
[32] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank for information retrieval (lr4ir 2007).SIGIR Forum 41, 2 (2007), 58–62. [33] Klementiev, A., Roth, D., and Small, K. An unsupervised learning algorithm for rank aggregation. Machine Learning: ECML 2007 (2007), 616–623.
[34] Lawrie, D., Croft, W. B., and Rosenberg, A. Finding topic words for hierarchical summarization. InSIGIR ’01: Proceedings of the 24th annual international ACM SIGIR conference on Research and de- velopment in information retrieval (New York, NY, USA, 2001), ACM, pp. 349–357.
[35] Lawrie, D. J., and Croft, W. B. Generating hierarchical sum- maries for web searches. In SIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, pp. 457–458. [36] Liu, T.-Y. Learning to rank in information retrieval. In WWW ’08: Tutorial - 17th international conference on World Wide Web (2008). [37] Mecca, G., Raunich, S., and Pappalardo, A. A new algorithm
for clustering search results. Data Knowl. Eng. 62, 3 (2007), 504–522. [38] Mei, Q., Shen, X., and Zhai, C.Automatic labeling of multinomial topic models. In KDD ’07: Proceedings of the 13th ACM SIGKDD in- ternational conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 490–499.
[39] Page, L., Brin, S., Motwani, R., and Winograd, T. The pager- ank citation ranking: Bringing order to the web. Tech. rep., Stanford University, 1998.
TÀI LIỆU THAM KHẢO 57 [40] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.- Y., and Li, H. Learning to rank relational objects and its application to web search. In WWW ’08: Proceeding of the 17th international conference on World Wide Web (New York, NY, USA, 2008), ACM, pp. 407–416.
[41] Radlinski, F., and Joachims, T. Active exploration for learning rankings from clickthrough data. In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 570–579.
[42] Raykar, V. C., Duraiswami, R., and Krishnapuram, B. A fast algorithm for learning a ranking function from large-scale data sets.
IEEE Trans. Pattern Anal. Mach. Intell. 30, 7 (2008), 1158–1170. [43] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H.
Entity ranking on graphs: Studies on expert finding. Tech. Rep. TR- CTIT-07-81, University of Twente, 2007.
[44] Sciencegateway.http://www.sciencegateway.org/rank/index.html. [45] SIGIR. on LR4IR.http://research.microsoft.com/users/LR4IR-2007/
http://research.microsoft.com/users/LR4IR-2008/.
[46] Taylor, M., Guiver, J., Robertson, S., and Minka, T. Soft- rank: optimizing non-smooth rank metrics. InWSDM ’08: Proceedings of the international conference on Web search and web data mining
(New York, NY, USA, 2008), ACM, pp. 77–86.
[47] Thom, J. A., Pehcevski, J., and Vercoustre, A.-M. Use of wikipedia categories in entity ranking. CoRR abs/0711.2917 (2007). [48] Treeratpituk, P., and Callan, J. Automatically labeling hierar-
chical clusters. In dg.o ’06: Proceedings of the 2006 international con- ference on Digital government research (New York, NY, USA, 2006), ACM, pp. 167–176.
TÀI LIỆU THAM KHẢO 58 [49] Treeratpituk, P., and Callan, J. An experimental study on automatically labeling hierarchical clusters using statistical features. In
SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp. 707–708.
[50] Vercoustre, A.-M., Thom, J. A., and Pehcevski, J. Entity ranking in wikipedia. In SAC ’08: Proceedings of the 2008 ACM sym- posium on Applied computing (New York, NY, USA, 2008), ACM, pp. 1101–1106.
[51] Webometrics. http://webometrics.org. [52] WISDM. http://wisdm.cs.uiuc.edu/.
[53] Wu, T. C.-W., and Hsu, W.-L. Web directory integration using conditional random fields. In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence
(Washington, DC, USA, 2006), IEEE Computer Society, pp. 540–543. [54] Xu, J., and Li, H. Adarank: a boosting algorithm for information retrieval. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp. 391–398.
[55] Xu, Y., and Fern, A. On learning linear ranking functions for beam search. In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp. 1047– 1054.
[56] Yang, C. C., and Lin, J. Integrating web directories by learning their structures. In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 1239–1240.
TÀI LIỆU THAM KHẢO 59 [57] Yu, H. Svm selective sampling for ranking with application to data retrieval. In KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM, pp. 354–363.
[58] Yue, Y., Finley, T., Radlinski, F., and Joachims, T. A support vector method for optimizing average precision. InACM Conference on Research and Development in Information Retrieval (SIGIR) (2007), pp. 271–278.
[59] Zaragoza, H., and Robertson, S. The probabilistic relevance model: Bm25 and beyond, 2007.
[60] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and Attardi, G.Ranking very many typed entities on wikipedia. In CIKM ’07: Proceedings of the sixteenth ACM conference on Con- ference on information and knowledge management (New York, NY, USA, 2007), ACM, pp. 1015–1018.
[61] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J. Learn- ing to cluster web search results. InSIGIR ’04: Proceedings of the 27th annual international ACM SIGIR conference on Research and devel- opment in information retrieval (New York, NY, USA, 2004), ACM, pp. 210–217.
[62] Zhu, D., and Dreher, H. Improving web search by categorization, clustering, and personalization. In ADMA ’08: Proceedings of the 4th international conference on Advanced Data Mining and Applications
(Berlin, Heidelberg, 2008), Springer-Verlag, pp. 659–666.
[63] Zhu, J., Song, D., and R ¨uger, S. Integrating document features for entity ranking. Focused Access to XML Documents: 6th Interna- tional Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle, Germany, December 17-19, 2007. Selected Papers (2008), 336–347.
P h ụ l ụ c A
Dữ liệu
A.1 Dữ liệu tìm kiếm thuốc
Tập nhân các trang web để thu thập dữ liệu cho tìm kiếm thực thể thuốc: 1. http://www.thuoc.net.vn/Default.aspx?Mod=ClassifyDrugs
2. http://thuoc.net.vn/giathuoc.asp
3. http://www.cimsi.org.vn/Duoc pham/giathuoc/Index.htm
4. http://www.cimsi.org.vn/Duoc pham/Thuoc goc/Thuocgoc1.asp
5. http://www.cimsi.org.vn/Duoc pham/Phan loai thuoc/Phanloaithuoc.asp 6. http://www.cimsi.org.vn/Duoc pham/Thongbao/index.asp
7. http://www.cimsi.org.vn/Duoc pham/Danhmucthuoc/index.asp 60
PHỤ LỤC A. DỮ LIỆU 61 8. http://www.yduocngaynay.com/5-Duoc Pham.html 9. http://www.tudienthuoc.net/tudienthuoc/search.asp 10. http://www.ykhoanet.com/duoc/duocpham/index.htm 11. http://www.ykhoanet.com/duoc/khainiemthuoc/index.htm 12. http://www.ykhoanet.com/duoc/sudungthuoc/index.htm 13. http://thuocviet.vn/ 14. http://www.thuocbietduoc.com.vn/thuoc/drgsearch.aspx 15. http://www.thuoc-suckhoe.com/
A.2 Cây wiki
Cây phân mục được lấy từ vn.wikipedia.com
Nhãn Số tài liệu trong cụm Cong nghe thong tin (36)
Internet (35)
Sinh hoa hoc (14)
Sinh hoc (61)
Sinh hoc phan tu (27)
Te bao hoc (23)
Tin sinh hoc (12)
Duoc pham (20)
PHỤ LỤC A. DỮ LIỆU 62 Nhãn Số tài liệu trong cụm
Dai hoc (20)
Mon hoc (6)
Truong trung hoc (14)
Hoc vi (24)
Phuong phap giao duc (3)
Tu duy (8)
Bảng A.2: Dữ liệu học - cụm chủ đề giáo dụcNhãn Số tài liệu trong cụm Nhãn Số tài liệu trong cụm
lop thu (13)
ho trau bo (10)
dong vat thuan hoa (8) dong vat nguyen sinh (5)
dong vat ky sinh (2)
bo se (31)
bo ca da tron (7)
Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật họcNhãn Số tài liệu trong cụm Nhãn Số tài liệu trong cụm Cong nghe thong tin (778)
Internet (210)
Sinh hoa hoc (14)
Sinh hoc (1283)
Sinh hoc phan tu (27)
Te bao hoc (23)
Tin sinh hoc (12)
Duoc khoa (25)
Y hoc (13)
Vien thong (23)
Thuc vat hoc (6)
Khoa hoc suc khoe (4)
Dong vat hoc (339)
Giao duc (2457)
Danh sách hình vẽ
2.1 Xếp hạng với SVM [31] . . . 13
3.1 Đồ thị web với khung nhìn thực thể [16] . . . 18
3.2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [52] . . . 19
3.3 Kiến trúc hệ thống[17] . . . 20
3.4 Impression model [16] . . . 22
3.5 Ví dụ rút trích thực thể thuốc . . . 23
3.6 So sánh độ chính xác MRR [16] . . . 29
3.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể . . . 30
3.8 Ví dụ xác định trọng số cục bộ p(α(γ)) . . . 32
3.9 So sánh độ chính xác trung bình AP trên 5 query . . . 36
Danh sách bảng
3.1 Ví dụ kết quả trả về của truy vấn q . . . 17
3.2 So sánh MRR, MAP của BM25, Impression, LTR . . . 35
4.1 So sánh MRR, MTRR . . . 49
4.2 So sánh Match@N . . . 49
A.1 Dữ liệu học: cụm mức 1 . . . 61
A.2 Dữ liệu học - cụm chủ đề giáo dục . . . 62
A.3 Dữ liệu kiểm tra - cụm chủ đề động vật học . . . 62
A.4 Dữ liệu wiki đầy đủ mức 1 . . . 62