SO SÁNH VÀ KẾT QUẢ

Phương pháp Co-Training-UserBased (ký hiệu là Co-UserBased) được so sánh với những phương pháp sau:

- Phương pháp UserBased sử dụng độ tương quan Pearson. Đây là phương pháp

lọc cộng tác dựa trên người dùng đã được trình bày trong Mục 2.1.

- Phương pháp ItemBased sử dụng độ tương quan Pearson. Đây là phương pháp lọc cộng tác dựa trên sản phẩm người dùng đã được trình bày trong Mục 2.1.

Bảng 3.1: Giá trị MAE trên tập ml-100K

Kích thước tập dữ

liệu huấn luyện Phương pháp

Số đánh giá biết trước

5 10 20 200 người dùng UserBased 0.732 0.711 0.645 ItemBased 0.742 0.722 0.673 Co-UserBased 0.621 0.594 0.512 Co-ItemBased 0.598 0.572 0.507 400 người dùng UserBased 0.694 0.675 0.644 ItemBased 0.711 0.697 0.653 Co-UserBased 0.615 0.615 0.587 Co-ItemBased 0.607 0.607 0.517 600 người dùng UserBased 0.693 0.686 0.686 ItemBased 0.697 0.687 0.687 Co-UserBased 0.548 0.519 0.511 Co-ItemBased 0.534 0.524 0.514

Bảng 3.2: Giá trị MAE trên tập ml-1M

Kích thước tập dữ

liệu huấn luyện Phương pháp

Số đánh giá biết trước

5 10 20 1.000 người dùng UserBased 0.792 0.779 0.764 ItemBased 0.789 0.774 0.732 Co-UserBased 0.764 0.752 0.716 Co-ItemBased 0.759 0.756 0.714 2.000 người dùng UserBased 0.734 0.725 0.663 ItemBased 0.731 0.739 0.657 Co-UserBased 0.685 0.654 0.615 Co-ItemBased 0.667 0.647 0.607 4.000 người dùng UserBased 0.713 0.688 0.686 ItemBased 0.719 0.675 0.618 Co-UserBased 0.684 0.642 0.597 Co-ItemBased 0.667 0.631 0.598

Bảng 3.3: Giá trị MAE trên tập ml-10M

Kích thước tập dữ liệu

huấn luyện Phương pháp

Số đánh giá biết trước

5 10 20 10.000 người dùng UserBased 0.763 0.724 0.716 ItemBased 0.788 0.729 0.723 Co-UserBased 0.712 0.694 0.647 Co-ItemBased 0.708 0.674 0.653 20.000 người dùng UserBased 0.734 0.615 0.664 ItemBased 0.746 0.618 0.672 Co-UserBased 0.689 0.643 0.622 Co-ItemBased 0.681 0.667 0.619 40.000 người dùng UserBased 0.796 0.766 0.684

Co-UserBased 0.688 0.669 0.616

Co-ItemBased 0.679 0.654 0.642

Giá trị MAE trong Bảng 3.1, Bảng 3.2 và Bảng 3.3 được ước lượng từ trung bình của 10 lần thử nghiệm ngẫu nhiên. Kết quả thử nghiệm cho thấy cả hai phương pháp lọc cộng tác bằng phương pháp Co-Training đều cho kết quả tốt hơn so với phương pháp lọc UserBased và ItemBased. Sai số MAE của phương pháp Co- Training-UserBased và Co-Training-ItemBased đều nhỏ hơn trên mọi kích thước dữ liệu huấn luyện và số lượng đánh giá cho trước của người dùng. Điều đó có thể khẳng định phương pháp cải thiện đáng kể kết quả dự đoán cho lọc cộng tác.

Trong trường hợp dữ liệu tương đối đầy đủ, cụ thể là khi biết trước nhiều đánh giá của người dùng trong tập kiểm tra, phương pháp Co-Training-UserBased và Co- Training-ItemBased cho lại kết quả tương đương nhau. Tuy nhiên, khi dữ liệu ít đi, cụ thể là khi chỉ biết trước 5 hoặc 10 đánh giá của người dùng kiểm tra thì trong đa số trường hợp, Co-Training-ItemBased cho sai số MAE nhỏ hơn so với Co-Training- UserBased. Lý do chủ yếu là do lực lượng của tập Cx xác định theo (2.13) lớn hơn lực lượng của tập Si xác định theo (2.9). Điều này cho phép dự đoán các nhãn phân loại bổ sung vào quá trình huấn luyện theo người dùng tốt hơn.

Phương pháp học bán giám sát được thử nghiệm và so sánh với những phương pháp sau:

- Phương pháp KNN dựa vào người dùng sử dụng độ tương quan Pearson (ký

hiệu là CF-UserBased). Đây là phương pháp tư vấn cộng tác chuẩn dựa vào người dùng được đề xuất trong [9].

- Phương pháp KNN dựa vào sản phẩm sử dụng độ tương quan Pearson (ký hiệu

là CF-ItemBased). Đây là phương pháp tư vấn cộng tác chuẩn dựa vào sản phẩm được đề xuất trong [10].

- Phương pháp KNN dựa vào hồ sơ người dùng sử dụng độ tương quan Pearson

(ký hiệu là CBF-UserBased). Đây là phương pháp tư vấn dựa vào việc so sánh mức độ tương tự giữa hai hồ sơ người dùng theo công thức (2.15).

- Phương pháp KNN dựa vào hồ sơ sản phẩm sử dụng độ tương quan Pearson (ký hiệu là CBF-ItemBased). Đây là phương pháp tư vấn dựa vào việc so sánh mức độ tương tự giữa hai hồ sơ sản phẩm theo công thức (2.26).

- Phương pháp tư vấn kết hợp KNN dựa vào người dùng và tập đặc trưng sản

phẩm sử dụng độ tương quan Pearson (ký hiệu là Hybrid-UserBased). Đây là phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson theo công thức (2.16).

- Phương pháp tư vấn kết hợp dựa theo sản phẩm và tập đặc trưng người dùng sử dụng độ tương quan Pearson (ký hiệu là Hybrid-ItemBased). Đây là phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson theo công thức (2.27).

Lấy ngẫu nhiên 4.000 người dùng trong tập MovieLens làm dữ liệu huấn luyện. Chọn ngẫu nhiên 1.000 người dùng trong số còn lại để làm 4 tập dữ liệu kiểm tra (test1.inp, test2.inp, test3.inp, test3.inp). Đối với mỗi tập dữ liệu kiểm tra, em thực hiện loại bỏ ngẫu nhiên các đánh giá sao cho số các đánh giá biết trước của mỗi người dùng đối với sản phẩm chỉ còn lại là 5, 10, 15 và 20 đánh giá. Tập test1.inp, test2.inp, test3.inp có số đánh giá giá biết trước lần lượt của mỗi người dùng là 5, 10, 15 tương ứng với trường hợp dữ liệu huấn luyện rất thưa [3]. Tập test4.inp có số đánh giá giá biết trước là 20 tương ứng với trường hợp dữ liệu huấn luyện thưa [3]. Chọn  = 4, 8, 12, 15 ứng với mỗi bộ test theo thứ tự để xác định xác định wis, vqx theo công thức (6), (10). Chọn 1= 4, 8, 12, 15 (cho mỗi tập dữ liệu theo thứ tự), 2= 10 và =0.9 (cho tất cả các tập dữ liệu kiểm tra) để xác định 𝑆𝑖, 𝑢𝑖𝑗, 𝐾𝑖 theo công thức (2.12), (2.16), (2.21), và 𝑆𝑥, 𝑝𝑥𝑦, 𝐾𝑥 theo công thức (2.23), (2.27), (2.32). Giá trị MAE trong Bảng 8 được lấy trung bình của 10 lần thử nghiệm ngẫu nhiên. Giá trị MAE nhỏ chứng tỏ phương pháp có kết quả dự đoán tốt [1, 2, 3].

Bảng 3.4: Giá trị MAE của các phương pháp

Phương pháp

Số lượng đánh giá biết trước trong tập kiểm tra 5 10 15 20 CBF-UserBased 0.865 0.859 0.855 0.835 CBF-ItemBased 0.894 0.883 0.875 0.845 CF-UserBased 0.824 0.817 0.821 0.813 CF-ItemBased 0.846 0.841 0.836 0.815 Hybrid-UserBased 0.793 0.792 0.791 0.702 Hybrid-ItemBased 0.798 0.788 0.782 0.695 Semi-Learning 0.672 0.629 0.617 0.585 Kết quả thử nghiệm cho thấy phương pháp tư vấn nội dung dựa vào hồ sơ người dùng và hồ sơ sản phẩm cho lại giá trị MAE lớn nhất so với các phương pháp còn lại. Phương pháp tư vấn cộng tác dựa vào đánh giá người dùng và đánh giá sản phẩm cho lại giá trị MAE nhỏ hơn so với các phương pháp tư vấn theo nội dung. Cụ thể, ứng với số lượng đánh giá biết trước trong tập kiểm tra là 5, 10, 15, 20, phương pháp CBF-UerBased và CBF-Itembased cho lại giá trị MAE lần lượt là 0.865, 0.859, 0.855,

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 5 10 15 20 M A E CBF-UserBased CBF-ItemBased CF-UserBased CF-ItemBased Hybrid-UserBased Hybrid-ItemBased Semi-Learning

0.835 và 0.894, 0.883, 0.876, 0.845 theo thứ tự. Trong khi đó, phương pháp CF- UserBased và CF-ItemBased cho lại giá trị MAE lần lượt là 0.824, 0.817, 0.821, 0.813 và 0.846, 0.841, 0.836, 0.815 theo thứ tự. Kết quả này hoàn toàn phù hợp với những nghiên cứu trước đây [1, 2].

Phương pháp Hybrid-UserBased cho lại giá trị MAE thấp hơn nhiều so với phương pháp CBF-UserBased và CF-UserBased. Cụ thể ứng với số lượng đánh giá biết trước trong tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBF-UserBased và CF- UserBased cho lại giá trị MAE lần lượt là 0.865, 0.859, 855, 0.835 và 0.824, 0.817, 0.821, 0.813 so với 0.793, 0.792, 0.791, 702 của phương pháp Hybrid-UserBased. Phương pháp Hybrid-ItemBased cũng cho lại giá trị MAE thấp hơn so với phương pháp CBF-ItemBased và CF-ItemBased. Với số lượng đánh giá biết trước trong tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBF-ItemBased và CF-ItemBased cho lại giá trị MAE lần lượt là 0.894, 0.833, 875, 0.845 và 0.846, 0.841, 0.836, 0.815 so với 0.798, 0.788, 0.782, 0.695 của phương pháp Hybrid-ItemBased. Điều này chỉ có thể lý giải phương pháp tính toán mức độ tương tự giữa các cặp người dùng trên tập đánh giá người dùng cùng các đặc trưng sản phẩm chính xác hơn so với phương pháp tính toán mức độ tương tự giữa các cặp người dùng chỉ dựa vào đánh giá người dùng hoặc hồ sơ người dùng. Phương pháp tính toán mức độ tương tự giữa các cặp sản phẩm trên tập đánh giá sản phẩm cùng các đặc trưng người dùng chính xác hơn so với phương pháp tính toán mức độ tương tự giữa các cặp sản phẩm chỉ dựa vào đánh giá sản phẩm hoặc hồ sơ sản phẩm.

Phương pháp Semi-Learning cho lại giá trị MAE thấp nhất ở tất cả các mức độ thưa thớt dữ liệu khác nhau. Đối với tập dữ liệu kiểm tra chỉ có 5 đánh giá biết trước, phương pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá trị MAE lần lượt là 0.793, 0.798 so với 0.672 của phương pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ có 10 đánh giá biết trước, phương pháp Hybrid-UserBased và Hybrid- ItemBased cho lại giá trị MAE lần lượt là 0.792, 0.788 so với 0.629 của phương pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ có 15 đánh giá biết trước, phương pháp

so với 0.617 của phương pháp Semi-Learning. Đặc biệt, với tập dữ liệu kiểm tra có 20 đánh giá biết trước, phương pháp cho lại giá trị MAE là 0.585. Điều này có thể khẳng định phương pháp xác định độ tương tự dựa trên tập không thưa đối với người dùng và sản phẩm là hoàn toàn tin cậy. Phương pháp chuyển giao kết quả dự đoán giữa quá trình bán giám sát tập đánh giá người dùng cùng tập đặc trưng sản phẩm và tập đánh giá sản phẩm cùng tập đặc trưng người dùng đã hạn chế hiệu quả vấn đề dữ liệu thưa của các phương pháp lọc.

3.4. Kết luận

Chương 3 của luận văn em đã trình bày các thử nghiệm và đánh giá kết quả thử nghiệm sử dụng tập dữ liệu MovieLen. Qua quá trình thử nghiệm cho thấy các thuật toán lọc kết hợp cho kết quả tốt hơn phương pháp lọc cộng tác thuần túy. Phương pháp đồng huấn luyện lọc kết hợp cũng cho kết quả dự đoán tốt hơn phương pháp lọc cộng tác bằngđồng huấn luyện.Từ quá trình thử nghiệm này có thể xem xét áp dụng các phương pháp kết hợp này vào hệ thống tư vấn .

KẾT LUẬN

Luận văn đã trình bày mô hình kết hợp giữa lọc cộng tác với lọc nội dung bằng cách tích hợp các đặc trưng sản phẩm, đặc trưng người dùng vào lọc cộng tác để tận dụng được lợi thế của cả hai phương pháp. Dựa trên cách kết hợp này luận văn đã trình bày các thuật toán lọc kết hợp dựa trên người dùng, lọc kết hợp dựa trên sản phẩm. Đặc biệt là phương pháp đồng huấn luyện cho mô hình kết hợp này. Phương pháp đồng huấn luyện cho mô hình kết hợp về cơ sở cũng dựa trên mô hình đồng huấn luyện của lọc cộng tác,nó kết hợp hai cách quan sát:quan sát theo người dùng và quan sát theo sản phẩm để huấn luyện bộ dữ liệu đánh giá. Tuy nhiện mô hình đồng huấn luyện mới khác ở mô hình cũ là sử dụng bộ dữ liệu đánh giá sau khi đã kết hợp với các đặc trưng của sản phẩm hoặc đặc trưng của người dùng.

Trong thử nghiệm ban đầu cho thấy:

- Các phương pháp lọc kết hợp dựa trên người dùng đều tốt hơn so với phương pháp lọc cộng tác dựa vào người dùng.

- Các phương pháp lọc kết hợp dựa trên sản phẩm đều tốt hơn so với phương

pháp lọc cộng tác dựa vào sản phẩm.

- Phương pháp đồng huấn luyện lọc kết hợp cho kết quả tốt hơn phương pháp

đồng huấn luyện lọc cộng tác .

- Mô hình kết hợp đã giải quyết phần nào vấn đề thưa thớt dữ liệu và cải thiện được chất lượng tư vấn .

Một số hướng phát triển của luận văn:

- Xác định việc tích hợp các đặc trưng của người dùng hay đặc trưng của sản phẩm vào mô hình kết hợp sẽ cho kết quả tốt hơn .

- Xây dựng ứng dụng áp dụng các thuật toán kết hợp lọc cộng tác với lọc nội dung.

TÀI LIỆU THAM KHẢO

1. Sarwar B., Karypis G., Konstan J., and Riedl J., “Item-Based Collaborative Filtering Recommendation Algorithms”, Proc. 10th Int’l WWW Conf (2001).

2. Robin D. Burke, “Hybrid Recommender Systems: Survey and

Experiments”. User Model. User-Adapt. Interact. 12(4): 331-370 (2002).

3. Do Thị Lien, Nguyen Duy Phuong,“ A Semi-supervised Learning for collabortive Filtering ” , KSE 2015.

4. Do Thị Lien, Nguyen Duy Phuong,“A Semi-supervised Learning for Hybrid Filtering ” , Fair 2016.

5. M. D. Ekstrand, J. T. Riedl and J. A. Konstan, “Collaborative Filtering Recommender System”. Foundations and Trends in Human–Computer Interaction, Vol 4, No2, 2010, pp 81:173.

6. Adomavicius G., Tuzhilin A., “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”, IEEE Transactions On Knowledge And Data Engineering, vol. 17, No. 6, 2005.

7. Claypool, M., Gokhale, A., Miranda, T., Murnikov, P., Netes, D., Sartin, M. “Combining content-based and collaborative filters in an online newspaper”. In: Proceedings of ACM SIGIR workshop on recommender systems, vol. 60. Citeseer (1999).

8. Herlocker J.L, Konstan J.A., Terveen L.G., and Riedl J.T., “Evaluating Collaborative Filtering Recommender Systems”, ACM Trans. Information Systems, vol. 22, No. 1 (2004), pp. 5-53.

9. W.Pan, Q. Yang,.” Transfer learning in heterogeneous collaborative filtering domains”., Artification Intelligence, Volume 197, April 2013, Pages 39–55. 10.W. Pan, E. Xiang, N. L Yang., “Transfer Learning in Collaborative Filtering for

Sparsity Reduction.,”. Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), pp:230-235.

11.W. Pan, E. Xiang, Q. Yang.,” Transfer Learning in CollaborativeFiltering with Uncertain Ratings,.”. Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (2012), pp:662-668.

12.Breese J. S., Heckerman D., and Kadie C., “Empirical analysis of Predictive Algorithms for Collaborative Filtering”, In Proc. of 14th Conf. on Uncertainty in Artificial (1998).

13.Raghavan, S., Gunasekar, S., Ghosh, J. “Review quality aware collaborative filtering”. In Proceedings of the sixth ACM conference on Recommender systems, pp. 123–130. ACM(2012).

14.Su X., Khoshgoftaar T. M., “A Survey of Collaborative Filtering Techniques.,”. Advances in Artificial Intelligence ,2009, pp.1-20.

15.http://grouplens.org/datasets/movielens/

16.https://en.wikipedia.org/wiki/Mean_absolute_error 17.http://www.grouplens.org/

PHÁT BIỂU BÀI TOÁN LỌC KẾT HỢP