Hệ gới ý với phân rã ma trận poisson và dropout Hệ gới ý với phân rã ma trận poisson và dropout Hệ gới ý với phân rã ma trận poisson và dropout luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN ĐỨC ANH NGUYỄN ĐỨC ANH HỆ THỐNG THÔNG TIN HỆ GỢI Ý VỚI PHÂN RÃ MA TRẬN POISSON VÀ DROPOUT LUẬN VĂN THẠC SĨ KHOA HỌC Hệ thống thông tin 2017A Hà Nội – Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN ĐỨC ANH HỆ GỢI Ý VỚI PHÂN RÃ MA TRẬN POISSON VÀ DROPOUT Chuyên ngành : Hệ thống thông tin LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Thân Quang Khoát Hà Nội – Năm 2018 Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội, đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền Thông Đồng thời xin gửi lời cảm ơn đặc biệt đến TS Thân Quang Khốt, ThS Ngơ Văn Linh, PGS.TS Nguyễn Thị Kim Anh Các thầy cô người dẫn tận tình, cho tơi kinh nghiệm q báu để hồn thành luận văn Tơi xin gửi lời cảm ơn tới gia đình Sự sát cánh động viên tinh thần từ gia đình ln động lực để tơi tiến lên phía trước Lời cam đoan Tôi - Nguyễn Đức Anh - cam kết luận văn cơng trình nghiên cứu thân hướng dẫn TS Thân Quang Khoát Các kết nêu luân vặn trung thực, chép cơng trình cơng bố khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày tháng năm 2018 Tác giả luận văn Nguyễn Đức Anh Xác nhận người hướng dẫn Tóm tắt Hiện tốn gợi ý ngày trở thành vấn đề quan trọng, mục tiêu thu hút người dùng nhằm thúc đẩy tương tác với hệ thống Tuy nhiên có vấn đề mà nghiên cứu ý tới, độ dài thơng tin sản phẩm Người dùng thường tiếp xúc với sản phẩm trước tiên mơ tả tóm tắt danh mục, tiêu đề mặt hàng hay báo thay tồn nội dung sản phẩm, hay nói cách khác, sản phẩm thường đưa tới người dùng ban đầu mô tả ngắn Mặc dù vấn đề khai thác thông tin mô tả ngắn không đề dễ dàng Chính vậy, luận văn đề cập tới vấn đề gợi ý sản phẩm mô tả ngắn đề xuất mơ hình học Poisson Matrix Factorization using Word Embedding Prior (PFEP) Ý tưởng sử dụng phân rã ma trận Poisson để mơ hình hóa tương tác rời rạc sử dụng tri thức tiên nghiệm từ biểu diễn nhúng từ để làm giàu thông tin cho biểu diễn sản phẩm Bên cạnh chúng tơi đề xuất thuật tốn học cho mơ hình với kết hợp kĩ thuật dropout để tăng khả dự đoán tổng qt hóa Những thí nghiệm liệu thử nghiệm mơ hình PFEP có chất lượng tốt phần lớn trường hợp so sánh với số mơ hình gợi ý Abstract Recently, recommendation plays an important role in systems, and one of its tasks is to attract user’s impression to increase user-system interactions However, there is a lack of concern about the length of item descriptions in most of the studies The users usually interact with items firstly by short text descriptions such as category and title of products or news In other words, items are provided to users firstly by their short descriptions Nonetheless, exploiting information from those short data is a challenging problem Therefore, this thesis focuses on the problem of recommendation for short item descriptions by proposing a new model called Matrix Factorization using Word Embedding Prior (PFEP) with the idea of using Poisson matrix factorization to model discrete user’s interactions and utilizing word embedding prior to enrich information to item representation In addition, we propose a learning algorithm for the model using the dropout technique to improve the predictive capacity and the generalization of the model The experimental results have shown that PFEP has higher quality in comparison with some state-of-the-art recommendation models in most cases Mục lục Lời cảm ơn Lời cam đoan Tóm tắt Abstract Danh sách thuật ngữ Danh sách ký hiệu Danh sách hình vẽ 10 Danh sách bảng 11 Tổng quan 12 Cơ sở lý thuyết 16 2.1 Mô hình đồ thị 16 2.2 Suy diễn biến phân 17 2.3 Một số phân phối xác suất phổ biến 18 2.3.1 Phân phối Gauss 18 2.3.2 Phân phối Poisson 19 2.3.3 Phân phối Gamma 19 2.3.4 Phân phối Multinomial 21 Phân rã ma trận 21 2.4.1 Tổng quan phân rã ma trận 21 2.4.2 Phân rã ma trận phương pháp Gaussian 23 2.4.3 Phân rã ma trận phương pháp Poisson 24 2.5 Dropout 26 2.6 Tri thức tiên nghiệm 27 2.4 Các nghiên cứu liên quan 3.1 29 Một số mơ hình gợi ý 29 3.1.1 Mô hình gợi ý dùng rã ma trận Gaussian dùng trọng số - WMF 29 3.1.2 Mơ hình gợi ý dùng phân rã ma trận Poisson phân cấp - HPF 30 3.1.3 Mơ hình gợi ý dùng phân rã ma trận Poisson kết hợp nội dung - CTMP 34 Nghiên cứu sử dụng tri thức tiên nghiệm mô hình xác suất 36 3.2 Mơ hình đề xuất 38 4.1 Mơ hình sinh 38 4.2 Học mô hình 40 4.2.1 Thuật toán học gradient ascent cho PFEP 40 4.2.2 Thuật thoán học loại bỏ PFEP-Dropout 44 Phân tích mơ hình 47 4.3 Thử nghiệm đánh giá 5.1 5.2 5.3 49 Thử nghiệm 49 5.1.1 Dữ liệu 49 5.1.2 Các phương pháp đối sánh 50 5.1.3 Độ đo đánh giá 50 5.1.4 Kịch thử nghiệm 50 5.1.5 Cài đặt 50 Kết đánh giá 51 5.2.1 Gợi ý với sản phẩm mô tả ngắn 51 5.2.2 Gợi ý với sản phẩm mô tả thông thường 51 Sự phụ thuộc vào siêu tham số 53 5.3.1 Sự phụ thuộc vào tỉ lệ loại bỏ dr 54 5.3.2 Sự phụ thuộc vào λ 55 5.3.3 Sự phụ thuộc vào K 56 Kết luận 57 Tài liệu tham khảo 58 Phụ lục 61 A Chi tiết bảng kết 61 Danh sách thuật ngữ PFEP Poisson Matrix Factorization using Word Embedding Prior WMF Weighted Matrix Factorization HPF Hierarchical Poisson Factorization Factorization Phân rã Mạng Neuron Mạng thần kinh Feedforward Truyền thẳng Ensemble (learning) (Học) kết hợp Multinomial Phân phối đa thức Dropout Loại bỏ Prior Tiên nghiệm Word Embedding Từ nhúng (biểu diễn nhúng) Variational Inference Suy diễn biến phân Variational distribution Phân phối biến phân Danh sách ký hiệu U Số lượng người dùng I Số lượng sản phẩm K Số chiều thuộc tính ẩn V Kích thước từ vựng R Ma trận tương tác người dùng sản phẩm rui Giá trị tương tác người dùng u sản phẩm i E Ma trận vector biểu diễn nhúng từ θ Ma trận thuộc tính người dùng θu Vector cột biểu diễn thuộc tính người dùng u β Ma trận thuộc tính sản phẩm βi Vector cột biểu diễn thuộc tính sản phẩm i 50 40 30 20 10 Movieslen-1M Recall (%) Precision (%) 30 Movieslen-1M 20 10 25 50 75 100 Top 25 50 75 100 Top (a) Movielens-1M Movieslen-10M Precision (%) 30 Recall (%) 40 20 10 50 Movieslen-10M 30 20 25 50 75 100 Top 25 50 75 100 Top (b) Movielens-10M Movieslen-20M 30 Recall (%) Precision (%) 40 20 10 50 Movieslen-20M 30 20 25 50 75 100 Top 25 50 75 100 Top (c) Movielens-20M Hình 5.1: Kết gợi ý liệu mô tả ngắn 52 Netflix 50 Netflix 30 Recall (%) Precision (%) 40 30 20 20 10 10 25 WMF 50 75 Top ConvMF 25 100 CTMP 50 75 Top HPF 100 PFEP-0.3 (d) Netflix Hình 5.1: Kết gợi ý liệu mô tả ngắn CiteuLike CiteuLike 30 Recall (%) Precision (%) 20 10 25 WMF 50 75 Top ConvMF 25 100 CTMP 50 75 Top HPF 100 PFEP-0.3 (a) CiteuLike Hình 5.2: Kết gợi ý liệu mô tả thông thường sản phẩm mô tả ngắn lẫn sản phẩm có mơ tả thơng thường 5.3 Sự phụ thuộc vào siêu tham số Chúng khảo sát phụ thuộc PFEP vào siêu tham số: tỉ lệ dropout dr, hệ số Gauss λ số lượng chiều ẩn K 53 Movielens-10M Precision (%) 35 30 25 20 50 Movielens-10M Recall (%) 40 30 20 25 50 75 100 Top 25 50 75 100 Top (a) Movielens-10M 35 Movielens-20M Movielens-20M 40 Recall (%) Precision (%) 30 25 30 20 15 50 20 25 50 75 100 Top 25 50 75 100 Top λ=0.01 λ=0.05 λ=0.1 λ=1 λ=10 λ=100 (b) Movielens-20M Hình 5.3: Độ thay đổi PFEP theo λ Movielens-10M Movielens-20M (dữ liệu mô tả ngắn) 5.3.1 Sự phụ thuộc vào tỉ lệ loại bỏ dr Các kết phụ lục A PFEP phụ thuộc vào tỉ lệ loại bỏ dr cho sản phẩm mô tả ngắn so với sản phẩm mô tả thông thường So sản phẩm mô tả ngắn, có biến động nhỏ độ xác độ bao phủ tỉ lệ loại bỏ thay đổi Trong với liệu mô tả thông thường, chất lượng PFEP có thay đổi lớn theo dr, tỉ lệ loại bỏ cao làm giảm chất lượng mơ hình Điều giải thích liệu mơ tả thơng thường chứa thông tin quan trọng, việc loại bỏ nhiều làm mát nhiều thông tin Trong với mô tả ngắn, nguồn cung cấp thông tin từ tri thức tiên nghiệm giúp mơ hình làm việc hiệu 54 CiteuLike CiteuLike 30 Recall (%) Precision (%) 20 25 50 75 Top 10 100 25 50 75 Top λ=0.01 λ=0.05 λ=0.1 λ=1 λ=10 λ=100 100 Hình 5.4: Độ thay đổi PFEP theo λ CiteuLike (dữ liệu mô tả thông thường) Movielens-1M Movielens-1M 50 Precision (%) 30 Recall (%) 40 25 30 20 15 20 25 50 75 Top K=50 100 K=100 25 K=150 50 75 Top 100 K=200 Hình 5.5: Độ thay đổi PFEP theo K Movielens-1M(dữ liệu mô tả ngắn) 5.3.2 Sự phụ thuộc vào λ Sự phụ thuộc PFEP theo λ cho sản phẩm mô tả ngắn mơ tả thơng thường trình bày Hình 5.3 5.4 Ta thấy liệu mơ tả thơng thường biến động theo λ so với sản phẩm mơ tả ngắn Thực tế với sản phẩm mô tả ngắn, giá trị λ lớn làm giảm chất lượng mơ hình Tham số λ định mức độ ảnh hưởng biểu diễn nội dung sản phẩm lên biểu diễn thuộc tính cuối sản phẩm Sản phẩm mơ tả ngắn chứa thơng tin, ảnh hưởng từ nội dung nên hạn chế Ngược lại sản phẩm thông tin chứa nhiều thơng tin hơn, ảnh hưởng lớn nội dung sản 55 CiteuLike CiteuLike Recall (%) Precision (%) 30 20 25 50 75 Top K=50 10 100 K=100 25 50 75 Top K=150 100 K=200 Hình 5.6: Độ thay đổi PFEP theo K CiteuLike (dữ liệu mô tả thông thường) phẩm có ích cho mơ hình 5.3.3 Sự phụ thuộc vào K Sự phụ thuộc PFEP theo số chiều ẩn K cho sản phẩm mô tả ngắn cho Movielens-1M cho sản phẩm mô tả thông thường CiteuLike thể Hình 5.5 Hình 5.6 Kết sản phẩm mô tả ngắn biến động theo K, giá trị K lớn có xu hướng làm giảm chất lượng mơ hình Trong kh đó, sản phẩm mơ tả thông thường thay đổi rõ rệt theo K, giá trị K tăng có xu hướng làm tăng chất lượng gợi ý Ta lý giải điều sau: với mô tả ngắn, lượng thông tin hạn chế K bị ảnh hưởng, ngồi K lớn sinh nhiễu làm giảm chất lượng mơ hình Ngược lại, mơ tả dài chứa nhiều thơng tin hơn, giá trị lớn K kéo theo khả mã hóa nhiều thơng tin giúp tăng chất lượng mơ hình 56 Chương Kết luận Ở luận văn này, chúng tơi đề xuất mơ hình PFEP nhằm mục tiêu đương đầu với việc gợi ý sản phẩm mơ tả ngắn Nó tích hợp mạng neuron truyền thẳng nhằm kết hợp hiệu tri thức tiên nghiệm từ biểu diễn nhúng từ với thông tin cung cấp từ mô tả sản phẩm Điều làm giàu thông tin từ biểu diễn nội dung sản phẩm trước đưa vào phân rã ma trận Poisson Bên cạnh đó, chúng tơi đề xuất phương pháp học đồng thời mạng neuron phân rã ma trân Poisson vào hàm mục tiêu Cuối áp dụng kĩ thuật học dropout để kế thừa điểm mạnh nhằm tăng cường chất lượng học mơ hiệu việc dự đoán Các kết liệu thử nghiệm cho thấy mô hình đề xuất chúng tơi cho kết đánh giá tốt phương pháp gợi ý đề xuất gần phần lớn liệu thử nghiệm Những kết hứa hẹn khả phát triển cho mơ hình Hiện khai thác tri thức tiên nghiệm từ biểu diễn từ bên phía sản phẩm, song bên cạnh cịn nhiều tri thức khác để thử nghiệm Chẳng hạn tri thức từ phía người dùng tuổi, giới tính, mơ tả thân Các nghiên cứu khai thác thêm thông tin tri thức tiên nghiệm để đưa vào mơ hình với mục đích tiếp tục cải thiện chất lượng gợi ý 57 Tài liệu tham khảo [1] Agarwal, D., Chen, B.C.: flda: matrix factorization through latent dirichlet allocation In: Proceedings of the third ACM international conference on Web search and data mining pp 91–100 ACM (2010) [2] Alfaro, M.E., Holder, M.T.: The posterior and the prior in bayesian phylogenetics Annu Rev Ecol Evol Syst 37, 19–42 (2006) [3] Banerjee, S., Ramanathan, K., Gupta, A.: Clustering short texts using wikipedia In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval pp 787–788 ACM (2007) [4] Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent dirichlet allocation the Journal of machine Learning research 3, 993–1022 (2003) [5] Diamond, G.A., Kaul, S.: Prior convictions: Bayesian approaches to the analysis and interpretation of clinical megatrials Journal of the American College of Cardiology 43(11), 1929–1939 (2004) [6] Duc, A.N., Van Linh, N., Kim, A.N., Than, K.: Keeping priors in streaming bayesian learning In: Pacific-Asia Conference on Knowledge Discovery and Data Mining pp 247–258 Springer (2017) [7] Gopalan, P., Hofman, J.M., Blei, D.M.: Scalable recommendation with hierarchical poisson factorization In: Association for Uncertainty in Artificial Intelligence (UAI) pp 326–335 (2015) [8] Gopalan, P.K., Charlin, L., Blei, D.: Content-based recommendations with poisson factorization In: Advances in Neural Information Processing Systems pp 3176–3184 (2014) [9] Hara, K., Saitoh, D., Shouno, H.: Analysis of dropout learning regarded as ensemble learning In: International Conference on Artificial Neural Networks pp 72–79 Springer (2016) [10] Hoffman, M.D., Blei, D.M., Wang, C., Paisley, J.: Stochastic variational inference The Journal of Machine Learning Research 14(1), 1303–1347 (2013) [11] Hu, Y., Koren, Y., Volinsky, C.: Collaborative filtering for implicit feedback datasets In: Data Mining, 2008 ICDM’08 Eighth IEEE International Conference on pp 263–272 Ieee (2008) 58 [12] Jo, Y., Oh, A.H.: Aspect and sentiment unification model for online review analysis In: ACM International Conference on Web Search and Data Mining pp 815–824 (2011) [13] Jordan, M.I., Ghahramani, Z., Jaakkola, T.S., Saul, L.K.: An introduction to variational methods for graphical models Machine learning 37(2), 183–233 (1999) [14] Khoat Than, T.D.: Dual online inference for latent dirichlet allocation In: Asian Conference on Machine Learning, Workshop and Conference Proceedings 37th (2014) [15] Kim, D., Park, C., Oh, J., Lee, S., Yu, H.: Convolutional matrix factorization for document context-aware recommendation In: Proceedings of the 10th ACM Conference on Recommender Systems pp 233–240 ACM (2016) [16] Koller, D., Friedman, N.: Probabilistic graphical models: principles and techniques MIT press (2009) [17] Koren, Y., Bell, R., Volinsky, C., et al.: Matrix factorization techniques for recommender systems Computer 42(8), 30–37 (2009) [18] Le, H.M., Cong, S.T., Van Linh, N., Than, K.: Collaborative topic model for poisson distributed ratings International Journal of Approximate Reasoning 95, 62–76 (2018) [19] Lee, D.D., Seung, H.S.: Learning the parts of objects by non-negative matrix factorization Nature 401(6755), 788 (1999) [20] Li, C., Duan, Y., Wang, H., Zhang, Z., Sun, A., Ma, Z.: Enhancing topic modeling for short texts with auxiliary word embeddings ACM Transactions on Information Systems (TOIS) 36(2), 11 (2017) [21] Lin, C., He, Y.: Joint sentiment/topic model for sentiment analysis In: ACM Conference on Information and Knowledge Management pp 375–384 (2009) [22] Mehrotra, R., Sanner, S., Buntine, W., Xie, L.: Improving lda topic models for microblogs via tweet pooling and automatic labeling In: Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval pp 889–892 ACM (2013) [23] Newman, M.E.J.: Power laws, pareto distributions and zipf’s law Contemporary Physics 46 (2005) [24] Sahami, M., Heilman, T.D.: A web-based kernel function for measuring the similarity of short text snippets In: Proceedings of the 15th international conference on World Wide Web pp 377–386 AcM (2006) [25] Saveski, M., Mantrach, A.: Item cold-start recommendations: learning local collective embeddings In: Proceedings of the 8th ACM Conference on Recommender systems pp 89–96 ACM (2014) 59 [26] Schă onhofen, P.: Identifying document topics using the wikipedia category network Web Intelligence and Agent Systems 7(2), 195–207 (2009) [27] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Dropout: A simple way to prevent neural networks from overfitting The Journal of Machine Learning Research 15(1), 1929–1958 (2014) [28] Srivastava, N., Hinton, G.E., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Dropout: a simple way to prevent neural networks from overfitting Journal of Machine Learning Research 15(1), 1929–1958 (2014) [29] Walpole, R.E., Myers, R.H., Myers, S.L., Ye, K.: Probability and statistics for engineers and scientists, vol Macmillan New York (1993) [30] Wang, C., Blei, D.M.: Collaborative topic modeling for recommending scientific articles In: Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining pp 448–456 ACM (2011) [31] Wang, H., Wang, N., Yeung, D.Y.: Collaborative deep learning for recommender systems In: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining pp 1235–1244 ACM (2015) [32] Zhang, Y., Mao, W., Zeng, D.: A non-parametric topic model for short texts incorporating word coherence knowledge In: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management pp 2017–2020 ACM (2016) [33] Zhao, H., Du, L., Buntine, W.: A word embeddings informed focused topic model In: Asian Conference on Machine Learning pp 423–438 (2017) 60 Phụ lục A Chi tiết bảng kết Bảng A.1: Độ xác trung bình gợi ý theo top-10 tới top-100 Movielen-1M Top 10 20 30 40 50 60 70 80 90 100 WMF 15.38 14.04 13.13 12.42 11.84 11.34 10.9 10.49 10.13 9.8 ConvMF 10.48 8.92 8.08 7.43 6.62 6.33 6.05 5.81 5.62 CTMP 26.96 21.91 19.34 16.92 14.98 14.32 13.02 12.26 11.33 10.79 HPF 32.18 27.03 23.8 21.53 19.8 18.38 17.21 16.2 15.33 14.58 PFEP 31.86 26.91 23.99 21.78 20.05 18.68 17.5 16.5 15.61 14.82 PFEP-0.1 31.76 27.02 23.93 21.72 20.02 18.65 17.45 16.45 15.57 14.79 PFEP-0.2 32.11 27.24 24.14 21.92 20.18 18.75 17.57 16.55 15.66 14.89 PFEP-0.3 31.63 26.91 23.86 21.71 20.01 18.63 17.49 16.46 15.59 14.83 PFEP-0.4 32.23 27.2 24.16 21.95 20.19 18.82 17.61 16.59 15.71 14.94 PFEP-0.5 32.03 27.19 24.15 21.88 20.16 18.76 17.6 16.55 15.66 14.89 61 Bảng A.2: Độ bao phủ trung bình gợi ý theo top-10 tới top-100 Movielen-1M Top 10 20 30 40 50 60 70 80 90 100 WMF 9.76 17.14 23 27.83 32.06 35.69 39.03 42.09 44.79 47.13 ConvMF 5.94 9.69 12.75 15.4 17.86 19.98 22.04 23.92 25.65 27.3 CTMP 12.29 19.05 24 28.38 32.02 34.6 37.52 39.64 41.6 43.56 HPF 14.34 22.76 28.96 34.05 38.35 42 45.21 47.96 50.48 52.77 PFEP 14.79 23.47 30.09 35.27 39.52 43.24 46.45 49.29 51.69 53.81 PFEP-0.1 14.72 23.46 29.98 35.13 39.47 43.22 46.33 49.14 51.53 53.67 PFEP-0.2 14.81 23.82 30.3 35.53 39.83 43.51 46.77 49.61 52.11 54.34 PFEP-0.3 14.42 23.19 29.65 34.98 39.26 42.93 46.17 48.97 51.48 53.67 PFEP-0.4 14.92 23.77 30.35 35.71 39.95 43.78 46.9 49.72 52.29 54.59 PFEP-0.5 14.63 23.58 30.06 35.24 39.67 43.4 46.73 49.55 52.02 54.37 Bảng A.3: Độ xác trung bình gợi ý theo top-10 tới top-100 Movielen-10M Top 10 20 30 40 50 60 70 80 90 100 WMF 25.47 23.49 21.72 20.19 18.95 17.92 17.03 16.25 15.55 14.94 ConvMF 14.62 12.15 10.64 9.54 8.73 8.11 7.61 7.18 6.82 6.51 CTMP 31.76 26.77 22.62 19.97 18.03 16.4 15.58 13.78 13.13 12.11 HPF 38.11 32.07 28.16 25.33 23.16 21.43 19.99 18.78 17.74 16.83 PFEP 39.01 33.11 29.14 26.23 23.98 22.18 20.68 19.42 18.33 17.38 PFEP-0.1 39.03 33.11 29.15 26.25 24.01 22.2 20.72 19.46 18.37 17.42 PFEP-0.2 39.39 33.41 29.4 26.47 24.21 22.39 20.88 19.61 18.51 17.55 PFEP-0.3 39.72 33.6 29.56 26.6 24.33 22.5 20.99 19.71 18.61 17.65 PFEP-0.4 39.9 33.75 29.68 26.71 24.42 22.58 21.06 19.78 18.67 17.7 PFEP-0.5 40.13 33.93 29.84 26.86 24.56 22.72 21.19 19.89 18.77 17.8 62 Bảng A.4: Độ bao phủ trung bình gợi ý theo top-10 tới top-100 Movielen-10M Top 10 20 30 40 50 60 70 80 90 100 WMF 14.43 24.46 31.66 37.1 41.54 45.29 48.51 51.32 53.77 55.98 ConvMF 12.92 19.84 24.74 28.37 31.42 34.14 36.59 38.79 40.75 42.61 CTMP 12.87 20.6 26.13 30.04 33.23 36.37 38.29 40.57 42.12 43.93 HPF 15.6 24.81 31.24 36.1 40.04 43.36 46.24 48.74 50.95 52.94 PFEP 16.39 26.16 32.81 37.79 41.78 45.1 47.92 50.4 52.58 54.53 PFEP-0.1 16.42 26.18 32.86 37.88 41.9 45.25 48.11 50.61 52.81 54.77 PFEP-0.2 16.47 26.31 33.04 38.09 42.15 45.53 48.41 50.93 53.15 55.14 PFEP-0.3 16.64 26.48 33.23 38.32 42.42 45.83 48.74 51.28 53.52 55.53 PFEP-0.4 16.73 26.6 33.38 38.47 42.55 45.98 48.91 51.47 53.72 55.72 PFEP-0.5 16.77 26.67 33.51 38.65 42.8 46.26 49.22 51.78 54.05 56.08 Bảng A.5: Độ xác trung bình gợi ý theo top-10 tới top-100 Movielen-20M Top 10 20 30 40 50 60 70 80 90 100 WMF 23.67 21.95 20.41 19.08 17.97 17.04 16.23 15.51 14.88 14.31 ConvMF 14.91 12.61 11.14 10.04 9.2 8.53 7.99 7.54 7.15 6.81 CTMP 29.4 24.36 21.48 19.08 17.42 15.67 14.32 13.32 12.31 11.44 HPF 35.7 30.09 26.49 23.88 21.88 20.28 18.95 17.83 16.87 16.02 PFEP 35.8 30.52 26.96 24.36 22.34 20.71 19.36 18.22 17.23 16.36 PFEP-0.1 35.29 30.4 26.98 24.43 22.43 20.81 19.46 18.31 17.32 16.45 PFEP-0.2 36.64 31.13 27.47 24.8 22.74 21.08 19.71 18.54 17.53 16.65 PFEP-0.3 36.04 30.95 27.4 24.77 22.73 21.08 19.71 18.55 17.55 16.67 PFEP-0.4 36.25 31.08 27.49 24.84 22.78 21.12 19.75 18.58 17.58 16.69 PFEP-0.5 36.79 31.37 27.71 25.02 22.93 21.27 19.88 18.7 17.68 16.79 63 Bảng A.6: Độ bao phủ trung bình gợi ý theo top-10 tới top-100 Movielen-20M Top 10 20 30 40 50 60 70 80 90 100 WMF 12.81 22.05 28.86 34.14 38.47 42.14 45.33 48.11 50.58 52.79 ConvMF 12.94 20.27 25.4 29.21 32.24 34.83 37.13 39.24 41.14 42.87 CTMP 12.08 18.62 23.42 26.79 30.04 32.4 34.98 36.62 38.53 39.59 HPF 13.87 22.14 28.01 32.49 36.13 39.26 41.97 44.37 46.52 48.47 PFEP 14.44 23.07 29.09 33.69 37.44 40.6 43.33 45.72 47.84 49.74 PFEP-0.1 14.31 23.1 29.25 33.97 37.79 41 43.76 46.18 48.34 50.29 PFEP-0.2 14.57 23.38 29.54 34.26 38.12 41.37 44.19 46.68 48.88 50.85 PFEP-0.3 14.21 23.14 29.39 34.14 38.02 41.3 44.13 46.62 48.85 50.85 PFEP-0.4 14.59 23.46 29.66 34.38 38.23 41.49 44.32 46.81 49.02 51.01 PFEP-0.5 14.74 23.65 29.87 34.6 38.48 41.78 44.63 47.13 49.37 51.37 Bảng A.7: Độ xác trung bình gợi ý theo top-10 tới top-100 Netflix Top 10 20 30 40 50 60 70 80 90 100 WMF 14.68 11.69 9.84 8.62 7.74 7.06 6.52 6.07 5.68 5.35 ConvMF 15.69 14.81 14.23 13.73 13.3 12.92 12.57 12.25 11.96 11.68 CTMP 41.9 36.39 32.7 29.77 27.94 25.55 23.81 22.59 20.86 19.74 HPF 50.2 44.36 40.46 37.5 35.1 33.09 31.38 29.88 28.55 27.37 PFEP 50.71 45.18 41.32 38.35 35.94 33.9 32.14 30.61 29.25 28.03 PFEP-0.1 50.79 45.2 41.32 38.35 35.93 33.89 32.13 30.6 29.24 28.02 PFEP-0.2 50.94 45.29 41.41 38.42 35.98 33.93 32.18 30.63 29.27 28.05 PFEP-0.3 51.09 45.38 41.49 38.49 36.04 33.99 32.22 30.68 29.32 28.1 PFEP-0.4 51.18 45.46 41.54 38.51 36.06 34 32.23 30.68 29.32 28.09 PFEP-0.5 50.87 45.13 41.24 38.25 35.85 33.82 32.07 30.55 29.2 27.99 64 Bảng A.8: Độ bao phủ trung bình gợi ý theo top-10 tới top-100 Netflix Top 10 20 30 40 50 60 70 80 90 100 WMF 6.19 9.84 12.54 14.77 16.7 18.37 19.87 21.21 22.41 23.5 ConvMF 4.43 8.18 11.57 14.67 17.53 20.2 22.68 25.03 27.22 29.3 CTMP 6.31 10.67 14.09 17.18 19.86 22.6 24.94 26.89 28.91 30.76 HPF 7.36 12.68 17.07 20.85 24.18 27.14 29.84 32.3 34.56 36.66 PFEP 7.54 13.09 17.66 21.58 25.02 28.08 30.85 33.36 35.67 37.8 PFEP-0.1 7.55 13.1 17.67 21.58 25.02 28.08 30.84 33.35 35.66 37.78 PFEP-0.2 7.59 13.15 17.73 21.65 25.07 28.13 30.9 33.41 35.71 37.84 PFEP-0.3 7.59 13.13 17.7 21.61 25.05 28.11 30.87 33.39 35.7 37.84 PFEP-0.4 7.63 13.21 17.78 21.7 25.12 28.18 30.94 33.45 35.76 37.88 PFEP-0.5 7.54 13.04 17.58 21.47 24.9 27.95 30.72 33.24 35.55 37.68 Bảng A.9: Độ xác trung bình gợi ý theo top-10 tới top-100 Citeulike Top 10 20 30 40 50 60 70 80 90 100 WMF 3.17 2.48 2.12 1.91 1.85 1.79 1.71 1.62 1.55 1.48 ConvMF 4.86 4.3 3.52 3.18 2.78 2.5 2.24 2.03 1.93 CTMP 5.8 4.73 4.09 3.55 3.16 2.88 2.65 2.47 2.33 2.21 HPF 5.47 4.47 3.78 3.26 2.91 2.63 2.43 2.26 2.11 PFEP 5.9 4.78 4.09 3.55 3.16 2.88 2.66 2.48 2.32 2.2 PFEP-0.1 5.93 4.82 4.14 3.6 3.22 2.94 2.71 2.54 2.38 2.25 PFEP-0.2 6.21 5.01 4.31 3.74 3.33 3.03 2.79 2.61 2.45 2.31 PFEP-0.3 6.16 4.96 4.27 3.7 3.31 3.02 2.8 2.62 2.46 2.32 PFEP-0.4 4.89 4.2 3.65 3.26 2.97 2.75 2.57 2.42 2.28 PFEP-0.5 5.84 4.74 4.07 3.52 3.15 2.87 2.65 2.46 2.31 2.17 65 Bảng A.10: Độ bao phủ trung bình gợi ý theo top-10 tới top-100 Citeulike Top 10 20 30 40 50 60 70 80 90 100 WMF 5.7 8.56 10.85 12.86 14.92 16.79 18.45 20.01 21.56 22.97 ConvMF 4.1 8.85 12.31 14.88 18.19 20.37 23.25 25.87 28.35 31.38 CTMP 9.39 14.22 18.3 21.61 24.18 26.7 28.85 30.88 32.88 34.73 HPF 8.7 13.39 16.61 19.19 21.51 23.52 25.54 27.35 28.83 30.46 PFEP 9.41 14.47 18.28 21.41 24.17 26.68 28.85 30.92 32.74 34.53 PFEP-0.1 9.35 14.52 18.51 21.79 24.62 27.09 29.42 31.54 33.44 35.2 PFEP-0.2 9.77 14.99 19.14 22.29 25.06 27.44 29.8 31.94 33.86 35.62 PFEP-0.3 9.5 14.62 18.72 21.83 24.74 27.3 29.63 31.8 33.8 35.53 PFEP-0.4 9.3 14.44 18.28 21.39 24.04 26.45 28.68 30.8 32.69 34.48 PFEP-0.5 8.97 13.83 17.45 20.36 22.93 25.26 27.35 29.19 30.87 32.46 66 ... Lúc kì vọng: E[xk ] = npk 2.4 2.4.1 Phân rã ma trận Tổng quan phân rã ma trận Trong phân rã ma trận [17, 19], ma trận R kích thước I × U phân thành tích hai ma trận chiều thấp hơn: β kích thước... sản phẩm dạng ma trận áp dụng chiến lược phân rã ma trận dạng tích hai ma trận chiều thấp, dự đoán giá trị khuyết thiếu ma trận tương tác [17] Gần đây, phương pháp phân rã ma trận Poisson Gauss... phụ z cho mơ hình phân rã ma trận Poisson 25 2.9 Ví dụ dropout 27 3.1 Mơ hình gợi ý dùng phân rã ma trận Poisson với phân cấp mức