So sánh Match@N

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 56 - 71)

4 Tạo nhãn cụm tài liệu

4.2 So sánh Match@N

Match@N N=1 N=2 N=3 N=4 Glover 0.29 0.43 0.57 1.00 RF 0.43 1.00 1.00 1.00 hàm xết hạng tốt hơn. 4.5 Tổng kết chương

Xếp hạng các nhãn ứng viên để tạo nhãn cụm tài liệu là một trong các ứng dụng của học xếp hạng đối tượng, cụ thể đối tượng ở đây là"nhãn" của cụm tài liệu. Với kết quả đạt được của chất lượng tạo nhãn, cho ta cơ sở để xây dựng cây phân cấp chủ đề web cho các trang web tiếng Việt một cách tự động.

KẾT LUẬN

Học xếp hạng là một lĩnh vực đang rất được quan tâm. Vấn đề xác định hạng của các đối tượng mà cụ thể trong máy tìm kiếm là các trang web và các thực thể có một vai trò quan trọng bởi nó giúp định hướng, chỉ dẫn người dùng đến với những thông tin phù hợp theo nhu cầu. Bên cạnh đó cùng sự phát triển của các phương pháp phân cụm, đặt ra vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếp cận kết quả phân cụm và định hướng tạo cây phân cấp chủ đề web tiếng Việt.

Luận văn này đã tiếp cận vấn đề học xếp hạng và nghiên cứu, đưa ra mô hình, áp dụng vào máy tìm kiếm để nâng cao chất lượng của máy tìm kiếm.

Luận văn đã đạt được những kết quả:

• Phân tích các vấn đề thời sự nhất về bài toán xếp hạng, trình bày các phương pháp học xếp hạng trong vài năm gần đây.

• Đưa ra mô hình học xếp hạng thực thể và thực nghiệm tìm kiếm thực thể trong lĩnh vực y tế - cụ thể là thuốc trong tiếng Việt.

• Mô-dul tạo nhãn cụm tài liệu có ứng dụng không chỉ trong máy tìm kiếm mà còn trong việc tạo tạo danh bạ web (web directory).

Các công trình công bố của tác giả [TTT08 ]Nguyen, C.-T., Nguyen, T.-T., Ha, Q.-T., Phan, X.-H., and Horiguchi,S. Web Search Clustering and Labeling with Hidden Topics.

Journal of ACM Transaction on Asian Language Information Processing (ACM- TALIP), 2008. (TALIP-08-0036, Resubmit after reviewed).

[CTT08 ] Nguyễn Thi Thu Chung, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Hà Quang Thụy. Đánh giá chất lượng phân cụm trên máy tìm kiếm tiếng Việt VNSEN Kỷ yếu Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI.(Huế, 12-13/6/2008 2008), [TNT06 ]Q.Ha, T., H.Nguyen, N., and T.Nguyen, T. Improve Performance

of PageRank Computation with Connected-Component PageRank. Interna- tional Journal of Natural Sciences and Technology, 1(1):53-60, 2006.

[NNT05 ]Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc Giải pháp tính hạng trang modified adaptive pagerank trong máy tìm kiếm. Chuyên sang "Các công trình nghiên cứu về CNTT và truyền thông". Tạp chí Bưu chính Viễn thông, 14: 65-71, 4-2005

Tài liệu tham khảo

[1] Adami, G., Avesani, P., and Sona, D. Clustering documents in a web directory. In WIDM ’03: Proceedings of the 5th ACM international workshop on Web information and data management (New York, NY, USA, 2003), ACM, pp. 66–73.

[2] Agarwal, A., Chakrabarti, S., and Aggarwal, S. Learning to rank networked entities. In KDD ’06: Proceedings of the 12th ACM SIGKDD inter- national conference on Knowledge discovery and data mining (New York, NY, USA, 2006), ACM, pp. 14–23.

[3] Aguillo, I., Ortega, J. L. L., and Fernandez, M.Webometric ranking of world universities: Introduction, methodology, and future developments.Higher Education in Europe 33, 2-3 (July 2008), 233–244.

[4] Aguillo, I. F. Webometrics ranking of world universities. In 3rd Meeting of the International Rankings Expert Group (IREG-3), (2007), Shanghai Jiao Tong University.

[5] Amini, M. R., Usunier, N., and Gallinari, P. Automatic text summa- rization based on word clusters and ranking algorithms. In In Proceedings of the 27 th European Conference on Information Retrieval (2005), pp. 142–156. [6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan,

S. Searching the web. ACM Trans. Interet Technol. 1, 1 (2001), 2–43.

[7] Balmin, A., Hristidis, V., and Papakonstantinou, Y. Objectrank: authority-based keyword search in databases. In VLDB ’04: Proceedings of the Thirtieth international conference on Very large data bases (2004), VLDB Endowment, pp. 564–575.

[8] Burges, C. Learning to rank for web search: Some new directions. Keynote talk at SIGIR Ranking Workshop, 7 2007.

[9] Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamil- ton, N., and Hullender, G. Learning to rank using gradient descent. In

ICML ’05: Proceedings of the 22nd international conference on Machine learn- ing (New York, NY, USA, 2005), ACM, pp. 89–96.

[10] Burges, C. J. C., Ragno, R., and Le, Q. V. Learning to rank with non- smooth cost functions. In NIPS (2006), B. Sch¨olkopf, J. C. Platt, T. Hoffman, B. Sch¨olkopf, J. C. Platt, and T. Hoffman, Eds., MIT Press, pp. 193–200. [11] Cao, Y., Xu, J., Liu, T.-Y., Li, H., Huang, Y., and Hon, H.-W. Adapt-

ing ranking svm to document retrieval. In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp. 186–193.

[12] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H. Learning to rank: from pairwise approach to listwise approach. In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp. 129–136.

[13] Chakrabarti, S. Dynamic personalized pagerank in entity-relation graphs. InWWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 571–580.

[14] Chakrabarti, S. Learning to rank in vector spaces and social networks. In WWW ’07: Tutorial - 16th international conference on World Wide Web

(2007).

[15] Chakrabarti, S., and Agarwal, A. Learning parameters in entity rela- tionship graphs from ranking preferences. InPKDD (2006), pp. 91–102.

TÀI LIỆU THAM KHẢO 53 [16] Chakrabarti, S., Khanna, R., Sawant, U., and Bhattacharyya, C. Structured learning for non-smooth ranking losses. InKDD ’08: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2008), ACM, pp. 88–96.

[17] Cheng, T., and Chang, K. C.-C. Entity search engine: Towards agile best- effort information integration over the web. In CIDR (2007), pp. 108–113. [18] Cheng, T., Yan, X., and Chang, K. C.-C. Entityrank: searching entities

directly and holistically. In VLDB ’07: Proceedings of the 33rd international conference on Very large data bases (2007), VLDB Endowment, pp. 387–398. [19] Cheng, T., Yan, X., and Chang, K. C.-C. Supporting entity search: a

large-scale prototype search engine. In SIGMOD ’07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data (New York, NY, USA, 2007), ACM, pp. 1144–1146.

[20] Chu, W., and Keerthi, S. S. New approaches to support vector ordinal regression. In In ICML ’05: Proceedings of the 22nd international conference on Machine Learning (2005), pp. 145–152.

[21] Cohen, W. W., Schapire, R. E., and Singer, Y. Learning to order things. InNIPS ’97: Proceedings of the 1997 conference on Advances in neural information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press, pp. 451–457.

[22] Collins, M., Schapire, R. E., and Singer, Y. Logistic regression, ad- aboost and bregman distances. In Machine Learning (2000), pp. 158–169. [23] Demartini, G., Firan, C. S., Iofciu, T., Krestel, R., and Nejdl, W.

A model for ranking entities and its application to wikipedia. Web Congress, Latin American 0 (2008), 29–38.

[24] Demartini, G., Firan, C. S., Iofciu, T., and Nejdl, W. Semantically enhanced entity ranking. InWISE ’08: Proceedings of the 9th international con- ference on Web Information Systems Engineering (Berlin, Heidelberg, 2008), Springer-Verlag, pp. 176–188.

[25] Dmoz. http://dmoz.org.

[26] Duh, K., and Kirchhoff, K. Learning to rank with partially-labeled data. In SIGIR ’08: Proceedings of the 31st annual international ACM SIGIR con- ference on Research and development in information retrieval (New York, NY, USA, 2008), ACM, pp. 251–258.

[27] Gelgi, F., Davulcu, H., and Vadrevu, S. Term ranking for clustering web search results. In WebDB (2007).

[28] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F. Cluster generation and cluster labelling for web snippets: A fast and accurate hierar- chical solution. In SPIRE (2006), pp. 25–36.

[29] Glover, E., Pennock, D. M., Lawrence, S., and Krovetz, R. Infer- ring hierarchical descriptions. In CIKM ’02: Proceedings of the eleventh in- ternational conference on Information and knowledge management (New York, NY, USA, 2002), ACM, pp. 507–514.

[30] Herbrich, R., Graepel, T., and Obermayer, K. Support vector learn- ing for ordinal regression. In In International Conference on Artificial Neural Networks (1999), pp. 97–102.

[31] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L. Retriever: Improv- ing Web Search Engine Results Using Clustering. Tech. rep., University of Maryland Baltimore County, October 2000.

[32] JNSP. http://sourceforge.net/projects/jnsp/.

[33] Joachims, T. Making large-scale support vector machine learning practical.

Advances in kernel methods: support vector learning (1999), 169–184.

[34] Joachims, T.Optimizing search engines using clickthrough data. InKDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2002), ACM, pp. 133–142.

TÀI LIỆU THAM KHẢO 55 [35] Joachims, T. A support vector method for multivariate performance mea- sures. InProceedings of the 22nd International Conference on Machine Learn- ing (2005), ACM Press, pp. 377–384.

[36] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank for information retrieval (lr4ir 2007). SIGIR Forum 41, 2 (2007), 58–62.

[37] Klementiev, A., Roth, D., and Small, K. An unsupervised learning algorithm for rank aggregation. Machine Learning: ECML 2007 (2007), 616– 623.

[38] Lawrie, D., Croft, W. B., and Rosenberg, A. Finding topic words for hierarchical summarization. InSIGIR ’01: Proceedings of the 24th annual inter- national ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2001), ACM, pp. 349–357.

[39] Lawrie, D. J., and Croft, W. B. Generating hierarchical summaries for web searches. InSIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, pp. 457–458.

[40] Liu, T.-Y. Learning to rank in information retrieval. In WWW ’08: Tutorial - 17th international conference on World Wide Web (2008).

[41] Mecca, G., Raunich, S., and Pappalardo, A. A new algorithm for clus- tering search results. Data Knowl. Eng. 62, 3 (2007), 504–522.

[42] Mei, Q., Shen, X., and Zhai, C. Automatic labeling of multinomial topic models. In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 490–499.

[43] Page, L., Brin, S., Motwani, R., and Winograd, T. The pagerank citation ranking: Bringing order to the web. Tech. rep., Stanford University, 1998.

[44] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.-Y., and Li, H. Learning to rank relational objects and its application to web search. In WWW ’08: Proceeding of the 17th international conference on World Wide Web (New York, NY, USA, 2008), ACM, pp. 407–416.

[45] Radlinski, F., and Joachims, T. Active exploration for learning rankings from clickthrough data. In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 570–579.

[46] Raykar, V. C., Duraiswami, R., and Krishnapuram, B. A fast algo- rithm for learning a ranking function from large-scale data sets. IEEE Trans. Pattern Anal. Mach. Intell. 30, 7 (2008), 1158–1170.

[47] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H. Entity ranking on graphs: Studies on expert finding. Tech. Rep. TR-CTIT-07-81, University of Twente, 2007.

[48] Sciencegateway. http://www.sciencegateway.org/rank/index.html. [49] SIGIR. on LR4IR. http://research.microsoft.com/users/LR4IR-2007/

http://research.microsoft.com/users/LR4IR-2008/.

[50] Taylor, M., Guiver, J., Robertson, S., and Minka, T. Softrank: op- timizing non-smooth rank metrics. In WSDM ’08: Proceedings of the interna- tional conference on Web search and web data mining (New York, NY, USA, 2008), ACM, pp. 77–86.

[51] Thom, J. A., Pehcevski, J., and Vercoustre, A.-M. Use of wikipedia categories in entity ranking. CoRR abs/0711.2917 (2007).

[52] Treeratpituk, P., and Callan, J. Automatically labeling hierarchical clusters. Indg.o ’06: Proceedings of the 2006 international conference on Digital government research (New York, NY, USA, 2006), ACM, pp. 167–176.

[53] Treeratpituk, P., and Callan, J. An experimental study on automat- ically labeling hierarchical clusters using statistical features. In SIGIR ’06:

TÀI LIỆU THAM KHẢO 57

Proceedings of the 29th annual international ACM SIGIR conference on Re- search and development in information retrieval (New York, NY, USA, 2006), ACM, pp. 707–708.

[54] Vercoustre, A.-M., Thom, J. A., and Pehcevski, J. Entity ranking in wikipedia. In SAC ’08: Proceedings of the 2008 ACM symposium on Applied computing (New York, NY, USA, 2008), ACM, pp. 1101–1106.

[55] Webometrics. http://webometrics.org. [56] WISDM. http://wisdm.cs.uiuc.edu/.

[57] Wu, T. C.-W., and Hsu, W.-L.Web directory integration using conditional random fields. In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM Interna- tional Conference on Web Intelligence (Washington, DC, USA, 2006), IEEE Computer Society, pp. 540–543.

[58] Xu, J., and Li, H. Adarank: a boosting algorithm for information retrieval. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR con- ference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp. 391–398.

[59] Xu, Y., and Fern, A. On learning linear ranking functions for beam search. In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp. 1047–1054.

[60] Yang, C. C., and Lin, J. Integrating web directories by learning their structures. In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 1239–1240.

[61] Yu, H. Svm selective sampling for ranking with application to data retrieval. In

KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM, pp. 354–363.

[62] Yue, Y., Finley, T., Radlinski, F., and Joachims, T. A support vector method for optimizing average precision. In ACM Conference on Research and Development in Information Retrieval (SIGIR) (2007), pp. 271–278.

[63] Zaragoza, H., and Robertson, S.The probabilistic relevance model: Bm25 and beyond, 2007.

[64] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and Attardi, G. Ranking very many typed entities on wikipedia. In CIKM ’07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (New York, NY, USA, 2007), ACM, pp. 1015–1018. [65] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J. Learning to

cluster web search results. InSIGIR ’04: Proceedings of the 27th annual inter- national ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2004), ACM, pp. 210–217.

[66] Zheng, Z., Chen, K., Sun, G., and Zha, H. A regression framework for learning ranking functions using relative relevance judgments. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Re- search and development in information retrieval (New York, NY, USA, 2007), ACM, pp. 287–294.

[67] Zhu, D., and Dreher, H. Improving web search by categorization, cluster- ing, and personalization. In ADMA ’08: Proceedings of the 4th international conference on Advanced Data Mining and Applications (Berlin, Heidelberg, 2008), Springer-Verlag, pp. 659–666.

[68] Zhu, J., Song, D., and R ¨uger, S. Integrating document features for entity ranking. Focused Access to XML Documents: 6th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle, Germany, December 17-19, 2007. Selected Papers (2008), 336–347.

P h ụ l ụ c A

Dữ liệu

A.1 Dữ liệu tìm kiếm thuốc

Tập nhân các trang web để thu thập dữ liệu cho tìm kiếm thực thể thuốc: 1. http://www.thuoc.net.vn/Default.aspx?Mod=ClassifyDrugs

2. http://thuoc.net.vn/giathuoc.asp

3. http://www.cimsi.org.vn/Duoc pham/giathuoc/Index.htm

4. http://www.cimsi.org.vn/Duoc pham/Thuoc goc/Thuocgoc1.asp

5. http://www.cimsi.org.vn/Duoc pham/Phan loai thuoc/Phanloaithuoc.asp 6. http://www.cimsi.org.vn/Duoc pham/Thongbao/index.asp

7. http://www.cimsi.org.vn/Duoc pham/Danhmucthuoc/index.asp 8. http://www.yduocngaynay.com/5-Duoc Pham.html

9. http://www.tudienthuoc.net/tudienthuoc/search.asp 10. http://www.ykhoanet.com/duoc/duocpham/index.htm 11. http://www.ykhoanet.com/duoc/khainiemthuoc/index.htm 12. http://www.ykhoanet.com/duoc/sudungthuoc/index.htm 13. http://thuocviet.vn/ 14. http://www.thuocbietduoc.com.vn/thuoc/drgsearch.aspx 15. http://www.thuoc-suckhoe.com/

A.2 Cây wiki

Cây phân mục được lấy từ vn.wikipedia.com

Nhãn Số tài liệu trong cụm Cong nghe thong tin (36)

Internet (35)

Sinh hoa hoc (14)

Sinh hoc (61)

Sinh hoc phan tu (27)

Te bao hoc (23)

Tin sinh hoc (12)

Duoc pham (20)

PHỤ LỤC A. DỮ LIỆU 61 Nhãn Số tài liệu trong cụm

Dai hoc (20)

Mon hoc (6)

Truong trung hoc (14)

Hoc vi (24)

Phuong phap giao duc (3)

Tu duy (8)

Bảng A.2: Dữ liệu học - cụm chủ đề giáo dục

Nhãn Số tài liệu trong cụm

lop thu (13)

ho trau bo (10)

dong vat thuan hoa (8) dong vat nguyen sinh (5) dong vat ky sinh (2)

bo se (31)

bo ca da tron (7)

Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật học

Nhãn Số tài liệu trong cụm Cong nghe thong tin (778)

Internet (210)

Sinh hoa hoc (14)

Sinh hoc (1283)

Sinh hoc phan tu (27)

Te bao hoc (23)

Tin sinh hoc (12)

Duoc khoa (25)

Y hoc (13)

Vien thong (23)

Thuc vat hoc (6)

Khoa hoc suc khoe (4) Dong vat hoc (339)

Giao duc (2457)

Danh sách hình vẽ

2.1 Xếp hạng với SVM [34] . . . 13

2.2 Xác định ngưỡng phân thứ hạng [20] . . . 13

3.1 Đồ thị web với khung nhìn thực thể [18] . . . 19

3.2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56] . . . 19

3.3 Kiến trúc hệ thống[19] . . . 20

3.4 Impression model [18] . . . 23

3.5 Ví dụ rút trích thực thể thuốc . . . 24

3.6 So sánh độ chính xác MRR [18] . . . 29

3.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể . . . 30

3.8 Ví dụ xác định trọng số cục bộ p(α(γ)) . . . 33

3.9 So sánh độ chính xác trung bình AP trên 5 query . . . 35

Danh sách bảng

3.1 Ví dụ kết quả trả về của truy vấn q . . . 18

3.2 So sánh MRR, MAP của BM25, Impression, LTR . . . 35

Một phần của tài liệu LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf (Trang 56 - 71)

Tải bản đầy đủ (PDF)

(71 trang)