Hình 4.2: Biểu đồ dữ liệu MovieLens với tham số k= 5 và γ =0 .003
3 Kĩ thuật phân tích ma trận cho hệ thống khuyến nghị
4.2 Phân tích kết quả và đánh giá
4.2.2 Nhận xét và đánh giá
Nhìn vào các kết quả trên, ta có một số đánh giá sau:
- Thuật toán FPSGD (đường màu xanh) có chỉ số RMSE tiệm cận về 0 nhanh hơn thuật toán DSGD (đường màu đỏ) và FPSGD có chỉ số RMSE nhỏ hơn DSGD. Điều này cho thấy, thuật toán FPSGD thực hiện nhanh và tốt hơn so với thuật toán DSGD.
- Thời gian chạy càng lâu thì RMSE càng tiệm cận về0nhanh hơn. Có thể nói, thuật toán có độ phức tạp phụ thuộc thời gian.
- Với k càng lớn thì RMSE càng nhỏ. Vì vậy, việc phân tích ma trận với các nhân tố ẩn k càng lớn thì các dự đoán càng chính xác hơn.
Kết quả thực nghiệm ở đây là trình bày so sánh các mô hình trực quan và hiệu quả cho phương pháp phân tích ma trận ứng dụng cho hệ thống khuyến nghị. Mô hình được biểu diễn bằng đồ thị các mối quan hệ của thuật toán DSGD và FPSGD với các đặc trưng tương quan. Các đánh giá nhằm kế thừa các thuật toán đánh giá và tìm kiếm hiệu quả cho người dùng về thông tin các sản phẩm, nội dung thông tin phù hợp với người dùng. Kết quả thử nghiệm trên bộ dữ liệu MovieLens cho thấy mô hình cho kết quả tốt hơn các phương pháp lọc cộng tác dựa trên độ tương quan và lọc theo nội dung thuần túy. Đặc
4.2 Phân tích kết quả và đánh giá 51
Ngoài ra, phương pháp thực nghiệm này có thể thực hiện trên bộ dữ liệu lớn hơn như bộ dữ liệu của Netflix với 100 triệu đánh giá (ratings) từ 480000 người dùng ngẫu nhiên trên 17000 tiêu đề phim. Bộ dữ liệu này được xây dựng nhằm hỗ trợ người tham gia giải thưởng Netflix. Nó được thu thập vào tháng 10 năm 1998 và tháng 12 năm 2005, phản ánh các phân phối của tất cả các xếp hạng đánh giá nhận được trong giai đoạn này.
Kết quả đạt được:
Trong quá trình thực hiện luận văn, học viên đã đạt được những kết quả sau:
- Nghiên cứu tổng quan về hệ khuyến nghị.
- Nghiên cứu tổng quan về phương pháp lọc cộng tác.
- Phân tích một số kĩ thuật phân tích ma trận (một trong những kĩ thuật của phương pháp lọc cộng tác) ứng dụng trong hệ khuyến nghị.
- Thử nghiệm và đánh giá với dữ liệu phim ảnh (MovieLens)
Định hướng phát triển tiếp theo của luận văn:
- Luận văn có thể phát triển theo hướng nghiên cứu các kĩ thuật phân tích ma trận khác cho hệ khuyến nghị như: phương pháp phân tích ma trận sử dụng chuỗi Markov Monte Carlo, áp dụng các phân phối xác suất phân tích ma trận,...
- Cài đặt và so sánh các thuật toán nhằm tối ưu RMSE, thử nghiệm trên các bộ dữ liệu lớn hơn như Netflix.
- Thử nghiệm mô hình với việc xây dựng một hệ thống khuyến nghị thương mại điện tử cụ thể.
Tài liệu tham khảo
[1] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B. Kantor, Recommender Sys- tems Handbook, Springer, 2011.
[2] Xiaoyuan Su, Taghi M. Khoshgoftaar,A Survey of Collaborative Filtering Techniques, Department of Computer Science and Engineering, Florida Atlantic University, 2009.
[3] Michael D.Ekstrand, John T. Riedl, Joseph A. Konstan, Collaborative Filtering Rec- ommender Systems, University of Minnesota, 2011.
[4] Yehuda Koren, Robert Bell and Chris Volinsky,Matrix Factorization Techniques For Recommender Systems, 2009.
[5] Shameem Ahamed Puthiya Parambath, Matrix Factorization Methods for Recom- mender Systems, Master’s Thesis in Computing Science, 2013.
[6] Julia Baum, Cynthia Cook, Michael Curtis, Joshua Edgerton, and Scott Rabidoux,
Parallelization of Matrix Factorization for Recommender Systems, Worcester Poly- technic Institute, Catawba College University of Maryland, Baltimore County, Cor- nell University, Wake Forest University, AT& T Labs - Research, 2011.
[7] Hsiang-Fu Yu, Cho-Jui Hsieh, Si Si, and Inderjit S. Dhillon, Parallel Matrix Factor- ization for Recommender Systems, Department of Computer Science, The University of Texa at Austin, Austin, 2013.
[8] Y. Koren, R. Bell, and C. Volinsky, Matrix Factorization Techniques for Recom- mender Systems, IEEE Computer, 2009.
[9] Balabanovic, M. and Y. Shoham. Fab: Content-based, collaborative recommendation, Communications of the ACM, 40(3):66-72,1997.
[10] R. Gemulla, P. J. Haas, E. Nijkamp, and Y. Sismanis,Large - scale Matrix Factoriza- tion with Distributed Stochastic Gradient Descent, Technical Report RJ10481, IBM Almaden Research Center, San Jose, CA, 2011, 2013.
[11] Wei-Sheng Chin, Yong Zhuang, Yu-chin Juan, and Chih-Jen LinA Fast Parallel SGD for Matrix Factorization in Shared Memory Systems, Dept. of Computer Science, National Taiwan University Taipei 106, Taiwan, 2013.
[12] T. Hofmann, Latent Semantic Models for Collaborative Filtering, ACM Trans. Inf. Syst., 22(1):89-115, 2004.
[13] C. Teflioudi, F. Makari, and R. Gemulla, Distributed Matrix Completion, In ICDM, pages 655-664, 2012.
[14] H. J Kushner and G. Yin, Stochastic Approximation and Recursive Algorithms and Applications, Springer, 2nd edition, 2003.
[15] Soboroff, I. and C. Nicholas, Combining content and collaboration in text filtering, In 43 IJCAI’99 Workshop,Machine Learning for Infomation Filtering, 1999.
[16] Basu, C., H. Hirsh and W. Cohen, Using social and content - based information in recommendation, In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
[17] Popescul, A., L. H. Ungar, D. M. Pennock, and S. Lawrence,Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environ- ments, In Proc. of the 17th Conf. on Uncertanty in Artificial Intelligence, Seattle, WA, 2001.
[18] Herlocker, J. L., Konstan, J. A., Borchers, A., Andriedl, An algorithmic framwork for performing collaborative filtering, InProceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SI- GIR’99). ACM, New York, 1999.
[19] G.Linden, B. Smith, and J. York, Amazon.com recommendations: Item - item col- laborative filtering, IEEE Internet Comput, 2003.
[20] Bell, R.M, and Koren, Y. 2007b, Scalable collaborative filtering with jointly derived neighborhood interpolation weights, In Proceedings of the IEEE International Con- ference on Data Mining (ICDM). IEEE Computer Society, 43 - 52.
[21] Gasbor Takács, István Pilászy, Bottyán Németh Major components of the Gravity Recommendation System, Volume 9, Issue 2, 2007.
[22] Gasbor Takács, István Pilászy, Bottyán Nesmeeth, Investigation of Various Matrix Factorization Methods for Large Recommender Systems, 2nd Netflix-KDD Workshop, August 24, 2008.
[23] Ansari, A., S. Essegaier, and R. Kohli, Internet recommendations systems, Journal of Marketing Research, pp. 363-375, 2000.
[24] Markus Weimer, Alexandros Karatzoglou, Alex Smola, Improving maximum margin matrix factorization, Mach Learn, 2008.
TÀI LIỆU THAM KHẢO 55
[25] Peter Forbes, Mu Zhu, Content-boosted Matrix Factorization for Recommender Sys- tems: Experiments with Recipe Recommendation, RecSys’11, October 23-27, 2011, Chicago, Illinois, USA.
[26] http://www.amazon.com
[27] https://www.netflix.com
[28] https://movielens.umn.edu