Kết quả thực nghiệm

Trước hết chúng ta so sánh trung bình các độđo trên toàn bộ các truy vấn. Kết quả

cho thấy hệ thống RHT với việc sử dụng chủđềẩn đem lại kết quả trung bình cao hơn so với RTF. Tại các độ đo MAP và NDCG@5 kết quả của RHT lần lượt là 0.75 và 0.84 (Hình 12).

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 RTF RHT MAP NDCG@11 NDCG@@3 NDCCG@5 T vấn kh H thống là 0.84 H

Hình 12. Trrung bình ccác độ đo ttrên tất cả các truy vấấn

Tiến hành s hác nhau.

so sánh trunng bình các độđo NDCCG@5 và MMAP trên từừng số lượnng truy

0.805 0.81 0.815 0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 Hình 13. T Hình 13 ch g RTF. Giá 4 tại số truy Trung bình ho thấy trun trị cực đại đ y vấn 40. 5 1 5 2 5 3 5 4 5 5 5 10 độ đo NDC ng bình độ đ đạt được là 20 49 CG@5 tại đo NDCG@ à 0.85 tại số 30 các sô lượn @5 của hệ t ố truy vấn 1 0 4 ng truy vấn thống RHT 10 và giá trị 40 RTF RHT n khác nhaau cao hơn so ị cựu tiểu đ o với hệ đạt được

0.7 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.8 10 20 30 40 RTF RHT

Hình 14. Trung bình độ đo MAP tại các số lượng truy vấn khác nhau

Hình 14 cho thấy trung bình độ đo MAP của RHT cao hơn so với hệ thống RTF. Giá trị cực đại đạt được là 0.79 tại số truy vấn 10 và cực tiểu là 0.75 tại số truy vấn 40.

Dưới đây là bảng giá trị các độđo tại một số truy vấn khác nhau trên hệ thống RHT.

Bảng 4. Giá trị các độ đo tại một số truy vấn khác nhau.

Truy vấn MAP NDCG@1 NDCG@3 NDCG@5

paint colors for bedrooms 0.91 0.93 0.82 0.91 tennis equipment 0.77 0.79 0.68 0.85 baseball bats 0.86 1.0 0.77 0.88 shirt deign 0.75 0.87 0.68 0.87 4.5. Đánh giá kết quả thực nghiệm

Thực nghiệm cho thấy mô hình xếp hạng quảng cáo đã được xây dựng đem lại kết quả khá tốt. Giá trị trung bình các độ đo NDCG@5 vào khoảng 0.82-0.84 và độđo MAP vào khoảng 0.73-0.75.

Một số nguyên nhân có thểảnh hưởng tới kết quả này:

• Việc sử dụng ý kiến người dùng để đánh giá kết quả: mỗi người dùng, đối với mỗi truy vấn có thể có những mục đích tìm kiếm cũng như mối quan tâm khác nhau. Điều này dẫn tới việc các kết quả có sự khác biệt lớn giữa

đánh giá của các người dùng.

• Việc sử dụng tiêu đề và mô tả trang web làm dữ liệu học: nội dung tiêu đề

và mô tả của trang web thường có tác dụng cho chúng ta một cái nhìn tổng quan về trang web đó. Tuy nhiên, với một số trang web được xây dựng không tốt, không theo tiêu chuẩn, tiêu đề và mô tả của trang web đó có thể

không có hoặc nội dung không liên quan tới nội dung trang web.

Mặt khác, thực nghiệm cũng đưa ra sự so sánh giữa việc sử dụng và không sử dụng chủđềẩn trong việc xếp hạng quảng cáo. Việc sử dụng chủđề ẩn đem lại kết quả khá khả

quan, trung bình độ đo NDCG@5 tăng 0.2 và MAP tăng 0.2 so với việc không sử dụng chủđề ẩn.

Từ những kết quả trên, ta thấy việc sử dụng mô hình chủđề ẩn nhằm xây dựng các

đặc trưng mới để biểu diễn quảng cáo có tác dụng tốt trong việc xếp hạng quảng cáo theo truy vấn của người dùng. Ngoài ra, việc khai thác các query logs để xây dựng tập dữ liệu học giúp mô hình khai thác được mối quan tâm của người dùng đối với từng truy vấn tìm kiếm.

Kết luận

Với tốc độ phát triển nhanh chóng của internet và máy tìm kiếm, việc giải quyết các vấn đề được đặt ra trong quảng cáo trực tuyến ngày càng trở nên cấp thiết. Bài toán xếp hạng quảng cáo trên máy tìm kiếm theo truy vấn của người dùng là một vấn đề đang nhận

được nhiều sự quan tâm ngày nay. Mục đích chính của khóa luận này nhằm đưa ra một phương pháp giải quyết cho bài toán nếu trên theo hướng tiếp cận sử dụng mô hình chủ đề ẩn.

Khóa luận đã đạt được những kết quả:

• Giới thiệu khái quát về quảng cáo trực tuyến, tình hình quảng cáo trực tuyến trên thế giới cũng nhưở Việt Nam.

• Phân tích một số phương pháp và mô hình đã được sử dụng trong quảng cáo trực tuyến.

• Đưa ra mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ

của chủ đề ẩn và kỹ thuật xếp hạng. Phương pháp khai thác query logs nhằm mục đích xây dựng tập dữ liệu học.

• Thực nghiệm và đánh giá kết quả của mô hình được đưa ra. Kết quả cho thấy trong một số trường hợp mô hình cải tiến độ chính xác tới 0.2.

Do giới hạn về thời gian cũng như kiến thức của tác giả nên khóa luận còn có một số điểm hạn chế, đó là chưa xây dựng được tập dữ liệu quảng cáo và module tìm kiếm quảng cáo theo truy vấn của người dùng. Những hạn chế này cần được tiếp tục nghiên cứu để

xây dựng một hệ thống hoàn thiện hơn, có thể áp dụng cho các máy tìm kiếm ở Việt Nam.

Tài liệu tham khảo Tiếng Việt

[1] Bộ Công Thương, Báo cáo thương mại điện tử Việt Nam năm 2008, http://www.mot.gov.vn.

[2] Nguyễn Thu Trang. “Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu”. Luận văn thạc sĩ, Đại học công nghệ, ĐHQGHN, 2008.

[3] Dân Trí, Báo điện tử Dân Trí http://dantri.com.

[4] Hiệp hội quảng cáo Việt Nam VAA, http://vaa.org.vn.

[5] Thư viện thông tin Zing Directory, http://directory.zing.vn/directory, 2008.

[6] Từđiển Bách khoa toàn thư Việt Nam http://dictionary.bachkhoatoanthu.gov.vn/ [7] VnExpress. Báo điện tử trực tuyến Việt Nam, http://vnexpress.net/.

Tiếng Anh

[8] Advertising Educational Foundation. Advertising & Society Review, Volume 6, Issue 1. E-ISSN 1154-7311, 2005.

[9] Kevin Amos, director-product development at search-engine marketing firm Impaqt Oser, 2004.

[10] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3:993-1022, January 2003.

[11] Andrei Z. Broder; Ciccolo, P.; Fontoura, M.; Gabrilovich, E.; Josifovski, V.; Riedel, L. Search advertising using web relevance feedback. In Proceeding of the

17th ACM conference on Information and knowledge management, 2008. Pages

1013-1022 .

[12] Yunbo Cao, Jun Xu, Tie-yan Liu, Hang Li, Yalou Huang, Hsiao-wuen Hon. Adapting ranking SVM to document retrieval. In Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2006.

[13] Chakrabarti, S. “Learning to rank in vector spaces and social networks”. Tutorial - 16th international conference on World Wide Web(2007).

[14] R. Herbrich, T. Graepel, and K. Obermayer. Large Margin Rank Boundaries for Ordinal Regression. Advances in Large Margin Classifiers, pages 115-132, 2000. [15] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008). Learning to

Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In Proc. of The 17th International World Wide Web Conference, http://www2008.org, 2008.

[16] Phan Xuan Hieu, “GibbsLDA++: A C/C++ and Gibbs Sampling based Implementation of Latent Dirichlet Allocation (LDA)”, http://gibbslda.sourceforge.net/, 2007.

[17] T. Hofmann. Probabilistic LSA. Proc. UAI, 1999.

[18] Ms. Duong Thu Huong, Public Relations & Operations Manager at IDG Ventures Vietnam based in Ho Chi Minh City, VietnamNet e-newspaper, http://VietnamNet.vn.

[19] K. Jarvelin and J. Kekalainen. IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pages 41-48, 2000.

[20] Kalervo Järvelin & Jaana Kekäläinen University of Tampere Department of Information Studies Finland. IR evaluation methods for retrieving highly relevant documents.. 2000.

[21] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank for information retrieval (lr4ir 2007). SIGIR Forum 41, 2 (2007), 58- 62.

[22] A. Lacerda, M.Cristo, M.Andre; G., W.Fan, N.Ziviani, and B.Ribeiro-Neto. Learning to Advertise. In SIGIR06, ACM: Proc.of the 29th annual intl.

ACMSIGIRconf., pages 8. CONCLUSION 549556, NewYork, NY, 2006.

[23] Liu, T.-Y. “Learning to rank in information retrieval”. In WWW '08: Tutorial - 17th international conference on World Wide Web (2008).

[24] B.Ribeiro-Neto, M.Cristo,P.B.Golgher, and E.S. de Moura. Impedance Coupling in Content-targeted Advertising. In SIGIR05, ACM: Proc. Of the 28th annual intl. ACMSIGIR conf., pages 496503, New York, NY, 2005.

[25] M.Richardson, E. Dominowska, R. Ragno. Predicting Clicks: Estimating the Click-Through Rate for New Ads. January 2007 In Proceedings of the 16th International World Wide Web Conference Pages: 521 - 530.

[26] G. Salton, A. Wong, C.S. Yang. A Vector Space Model for Automatic Indexing,

Communication of the ACM, Volum 18, Number 11, 1975.

[27] Le Dieu Thu, On the analysis of large-scale datasets towards online contextual advertising, thesis in Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008.

[28] Nguyen Cam Tu, (2008). Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents. MSc. thesis in Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008.

[29] Jun Xu, Yunbo Cao, Hang Li, Yalou Huang. Cost-sensitive learning of SVM for ranking. In ECML , 2006.

[30] W.Yih, J.Goodman, andV.R.Carvalho. Finding advertising keywords on web pages. In WWW06, ACM: Proc. Of the 15th intl. conf. on World Wide Web, pages 213222, NewYork, NY, 2006.

[31] H. J. Zeng, Q. C. He, Z. Chen, W. Y. Ma, J. Ma.Learning to Cluster Web Search Results.. In Proceedings of the ACM SIGIR Conference, 2004.

[32] CIA Advertising, www.ciaadvertising.org.

[33] Interactive Advertising Bureau (IAB) and Price Water House Coopers (PWC), Internet Advertising Revenue Report, http://www.iab.net.

[34] Internet Archive, http://www.archive.org.

[35] Joachims SVM-Rank toolkit http://svmlight.joachims.org/. [36] Microsoft Social Network MSN, http://www.msn.com/.

[37] Nutch: an open-source search engine, http://lucene.apache.org/nutch/.

[38] Online Advertising, news and quality online advertising information, http://www.onlineadvertising.net/.

Mô hình ước lượng CTR(Click Through Rate)

Xếp hạng trong máy tìm kiếm