Phương pháp Số đánh giá i t trước 5 10 15 20 UserBased 0.82314 0.78935 0.81359 0.66134 ItemBased 0.93971 0.82314 0.81359 0.78188 Transfer-UserBased 0.62128 0.59447 0.53854 0.51292 Transfer-ItemBased 0.59856 0.57201 0.50778 0.50712
Hình 3.3 Giá trị MAE trên tập ml-100K
Giá tr MAE trong bảng trên được ước ượng từ trung ình của 10 lần thử nghiệm ngẫu nhiên. t quả thử nghiệm cho thấy cả hai phương pháp ọc c ng tác bằng phương pháp học chuy n giao đ u cho k t quả tốt hơn o ới phương pháp ọc U erBa ed à ItemBa ed. Sai ố MAE của phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm đ u nhỏ hơn trên mọi số ượng
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Movielens5 Movielens10 Movielens15 Movielens20
M A E UserBased ItemBased TF-UserBased TF-ItemBased
đánh giá cho trước của người d ng. Đi u đ c th khẳng đ nh phương pháp đ xuất cải thiện đáng k t quả dự đoán cho ọc c ng tác.
Trong trường hợp d liệu tương đối đầy đủ, cụ th à hi i t trước nhi u đánh giá của người d ng trong tập ki m tra, phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm cho lại k t quả tương đương nhau. Tuy nhiên, hi d liệu ít đi, cụ th à hi chỉ bi t trước 5 hoặc 10 đánh giá của người d ng i m tra thì trong đa ố trường hợp, học chuy n giao dựa ào ản phẩm cho sai số MAE nhỏ hơn o ới học chuy n giao dựa ào người d ng. L do chủ y u à do ực ượng của tập Cx xác đ nh theo (2.13) lớn hơn ực ượng của tập Si xác đ nh theo (2.9). Đi u này cho phép dự đoán các nhãn phân oại bổ ung ào quá trình huấn luyện theo người d ng tốt hơn.
3.5. Kết luận chương 3
Phương pháp ọc c ng tác ằng phương pháp học chuy n giao đã được trình ày trong luận n này à m t cách ti p cận mới. Bằng cách k t hợp 2 cách quan át: quan át theo người d ng à quan át theo ản phẩm đ huấn luyện b d liệu đánh giá. Trong đ , quá trình quan át theo người d ng ẽ bổ ung được các nhãn phân oại chắc chắn cho q trình tính tốn mức đ tương tự gi a các cặp sản phẩm. Ngược lại, quá trình quan át theo ản phẩm c ng ẽ bổ ung được các nhãn phân loại chắc chắn cho quá trình tính tốn mức đ tương tự gi a các cặp người d ng. Bằng cách này, trong trường hợp d liệu đầu ào thưa thớt đánh giá thì hệ thống vẫn c th đưa ra được các tư ấn c ích. Ưu đi m chủ y u của phương pháp này à việc phân oại đồng thời theo cả người d ng à ản phẩm cho phép ử dụng thông tin từ nh ng nh m người d ng hoặc sản phẩm tương tự nhau à nhờ vậy cải thiện đ chính xác phân oại hi c ít d liệu. K t quả thử nghiệm trên các d liệu Mo ieLen đã cho thấy phương pháp đ xuất cho k t quả tốt hơn hai phương pháp hác trong cả trường c đầy đủ d liệu à trường hợp c ít d liệu.
Trong thử nghiệm ban đầu, các phương pháp ọc c ng tác dựa theo người d ng, ọc c ng tác dựa theo sản phẩm à phương pháp mới lọc c ng tác ằng phương pháp học chuy n giao được o ánh qua các t quả thử nghiệm dựa trên
đ đo cơ ản M E. Các i m thử được thực hiện ở 3 thuật toán ới các tập d liệu c đ lớn hác nhau. C n cứ ào các t quả của ki m thử thì cách ti p cận lọc c ng tác ằng phương pháp học chuy n giao àm iệc tốt hơn các cách ti p cận lọc c ng tác thuần túy. Đặc biệt, trong các trường hợp d liệu thưa thớt.
KẾT LUẬN
Trong luận n em đã trình ày phương pháp cải ti n mới thay th cho hai phương pháp truy n thống của lọc c ng tác MemoryBa ed à U erBa ed à ItemBa ed. Hai phương pháp cải ti n Transfer-U erBa ed à Tran fer-ItemBased được xây dựng dựa trên cơ ở n n tảng các phương pháp học chuy n giao, mà cụ th à các thuật chuy n giao tri thức từ í dụ huấn luyện cho học chuy n giao quy nạp. Hai phương pháp mới được đưa ra nhằm cải thiện nh ng hạn ch cố h u của các hệ thống lọc c ng tác dựa ào nhớ trong tình trạng thưa thớt v d liệu. Các phương pháp ọc c ng tác dựa trên học chuy n giao đưa ra m t phương án tính đ tương quan gi a các người d ng à đ tương tự gi a các ản phẩm m t cách tin cậy hơn hi chỉ dựa ào nh ng người d ng, ản phẩm phải c giao nhau tối thi u sản phẩm, người ình chọn, qua đ oại bỏ đi nhưng thông tin hông tin cậy thu được từ nh ng người d ng, ản phẩm c q ít ình chọn giao nhau với người à ản phẩm cần dự đoán đánh giá. Bằng cách ti n hành ặp đi ặp lại lần ượt các quá trình quan át theo người d ng à quan át theo ản phẩm, m i quá trình ại bổ sung thêm nh ng nhãn phân oại chắc chắn mới cho các quá trình au, chúng ta đã quy nạp dần dần các tri thức từ d liệu huấn luyện bổ xung à àm đầy dần các ình chọn àm giảm ảnh hưởng của tình trạng d liệu thưa thớt. Các t quả thử nghiệm đã cho thấy các phương pháp ọc c ng tác dựa trên học chuy n giao cho k t quả dự đoán tốt hơn rất nhi u so với các phương pháp U erBa ed à ItemBa ed thuần túy. Đặc biệt à trong tình trạng d liệu thưa thớt, trong hi các phương pháp c c ME rất lớn thì các phương pháp dựa ào học chuy n giao vẫn c ME chấp nhận được.
Do thời gian nghiên cứu c hạn, n ng ực à inh nghiệm chưa nhi u, luận n tốt nghiệp này sẽ hông tránh hỏi nh ng thi u t à hạn ch . Em mong được sự đ ng g p i n của các các thầy, các cô, à của các ạn đ luận n của em được hoàn chỉnh hơn.
TÀI LIỆU THAM KHẢO
[1] TS. Nguyễn Duy Phương, TS Từ Minh Phương (2008), “Lọc c ng tác ằng phương pháp học đa nhiệm”.
[2] A. Blum, T. Mitchell (1998) “Combining labeled and unlabeled data with co-
training”.
[3] A. Yun- n Chen and D. McLeod, “Collaborative Filtering for Information
Recommendation Systems”.
[4] B. Sarwar, G. arypi , J. on tan, and J. Ried (2001), “Item-Based
Collaborative Filtering Recommendation Algorithms”.
[5] C.C. ggarwa , J.L. Wo f, .L. Wu, and P.S.Yu (1999), “Horting Hatches an
Egg: A New Graph-Theoretic Approach to Collaborative Filtering”.
[6] Diploma Thesis, Stephan Spiegel “A Hybrid Approach to Recommender Systems
based on Matrix Factorization”
[7] G. doma iciu , . Tuzhi in (2005), “Toward the Next Generation of
Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”.
[8] J. S. Breese, D. Heckerman, and C. Kadie (1998), “Empirical analysis of
Predictive Algorithms for Collaborative Filtering”.
[9] J. Wen, W. Zhou (2012) “An Improved Item-based Collaborative Filtering
Algorithm Based on Clustering Method”.
[10] J.L. Herlocker, J.A. Konstan, L.G. Terveen, and J.T. Riedl (2004), “Evaluating
Collaborative Filtering Recommender Systems”.
[11] Michael J. Pazzani, Daniel Billsus “Content-based Recommendation Systems”. [12]Mukund Deshpande, George Karypis “ Item-Based Top-N Recommendation Algorithm”.
[13] Rajat Raina, Alexis Battle, Honglak Lee, Benjamin Packer, Andrew Y.Ng. “Self-taught Learning: Transfer Learning from Unlabeled Data”.
[14] R. Jin, L. Si, and C. Zhai (2003), “Preference-Based Graphic Models for
Collaborative Filtering”.
[15] Sinno Jia in Pan. “Transfer Learning”.
[16] Sinno Jian in Pan, uiang Yang, Fe ow (2010) “A Survey on Transfer
Learning”.
[17] T. Hofmann (2004), “Latent Semantic Models for Collaborative Filtering”. [18] Wei Wang, Zhi-Hua Zhou (2010) “A New Analysis of Co-Training”.
[19] X. Su, T. M. ho hgoftaar (2009), “A Survey of Collaborative Filtering
Techniques”.
[20] . matriain, M. Torren , P. Re nic , M. Zan er. “Incremental collaborative
filtering via evolutionary co-clustering”.
[21] Z. Huang, H. Chen, D. Zeng (2004), “Applying Associative Retrieval
Techniques to Alleviate the Sparsity Problem in Collaborative Filtering”.
[22] Z. Huang, D. Zeng, H. Chen (2007), “Analyzing Consumer-product Graphs:
Empirical Findings and Applications in Recommender Systems”.
[23] Z. Huang, H. Chen, D. Zeng (2004), “Applying Associative Retrieval