Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
2,33 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH - TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH CHUYÊN NGÀNH: Thương mại điện tử Khóa luận tốt nghiệp XÂY DỰNG HỆ THỐNG ĐỀ XUẤT DỰA TRÊN MƠ HÌNH LỌC NƠRON CỘNG TÁC (NEURAL COLLABORATIVE FILTERING) Họ tên sinh viên: Nguyễn Minh Nhật Mã sinh viên: 31191025431 Lớp: EC001 Khóa: 45 Họ tên giáo viên hướng dẫn: Đặng Thái Thịnh Niên khóa: 2019 - 2023 Tp Hồ Chí Minh, ngày 23 tháng 10 năm 2022 I LỜI CÁM ƠN Đầu tiên, em xin chân thành bày tỏ lời cảm ơn đến thầy Đặng Thái Thịnh, thầy tận tình hướng dẫn, giúp đỡ đưa góp ý tỉ mỉ suốt thời gian qua Thầy người hỗ trợ em với ý tưởng đảm bảo tính phù hợp luận văn, qua giúp em hồn thiện khóa luận cách trọn vẹn Ngồi ra, em xin cảm ơn Ban lãnh đạo Trường Đại học UEH phòng ban trường tạo điều kiện, sở vật chất để em có hội môi trường học tập rèn luyện Bên cạnh đó, suốt q trình học tập trường Cơng nghệ Thiết kế - Đại học UEH, em nhận nhiều hỗ trợ, giúp đỡ từ thầy mơn, nên em xin đươc gửi lời cảm ơn đến tập thể thầy cơng tác Đại học UEH nói chung khoa cơng nghệ thơng tin kinh doanh nói riêng Em cám ơn thầy ln tận tâm bảo tạo điều kiện tốt cho sinh viên suốt trình học tập, nghiên cứu trường Những kiến thức mà chúng em nhận hành trang giúp chúng em vững bước, tự tin tương lai Cuối cùng, em xin cám ơn gia đình bạn bè - Những người ủng hộ, giúp đỡ động viên em suốt trình học tập qua I Mục lục LỜI CÁM ƠN I DANH MỤC THUẬT NGỮ VÀ CHỮ VIẾT TẮT IV DANH MỤC HÌNH ẢNH VI DANH MỤC BẢNG BIỂU VII MỞ ĐẦU VIII NỘI DUNG Chương Tổng quan hệ thống đề xuất 1.1 Giới thiệu hệ thống đề xuất 1.2 Một số khái niệm chung 1.3 Phương thức hoạt động hệ thống đề xuất 1.3.1 Phát biểu toán đề xuất 1.3.2 Các phương thức tiếp cận 1.4 Đo lường đánh giá hệ thống đề xuất 19 1.4.1 Mục tiêu đánh giá 20 1.4.2 Nguyên lý đánh giá 21 1.4.3 Loại thí nghiệm đánh giá 22 1.4.4 Phương diện đánh giá 26 Chương Mơ hình lọc Noron cộng tác (Neural Collaborative Filtering) 30 2.1 Giới thiệu học sâu 30 2.1.1 Tổng quan học sâu 30 2.1.2 Hệ thống đề xuất dựa học sâu 31 2.1.3 Các kỹ thuật học sâu 31 2.2 Lọc Nơron cộng tác cho tác vụ cá nhân hóa đánh giá 36 2.2.1 Giới thiệu hướng tiếp cận lọc Nơron cộng tác 36 2.2.2 Bài toán lọc nơron cộng tác 36 2.2.3 Kiến trúc tổng quát 38 2.2.4 Mơ hình GMF 40 2.2.5 Mơ hình MLP 41 2.2.6 Kết hợp GMF MLP 41 Chương Cài đặt, thử nghiệm mơ hình 42 3.1 Môi trường công cụ sử dụng 42 II 3.1.1 Bộ liệu mẫu Movielens 42 3.1.2 Google Colaboratory 43 3.1.3 Thư viện Tensorflow 44 3.1.4 Thư viện Pandas 44 3.1.5 Thư viện Numpy 44 3.1.6 Kho lưu trữ đề xuất Microsoft (Microsoft Recommender Repository) 45 3.2 Cài đặt mơ hình 48 3.2.1 Bộ liệu Movielens-100K 48 3.2.2 Chuẩn bị liệu 52 3.2.3 Huấn luyện mơ hình dựa thư viện Tensorflow 52 3.2.4 Dự đốn đánh giá mơ hình 53 3.2.5 Đánh giá Leave-one-out 56 3.2.6 Huấn luyện trước 56 3.3 Kiểm định giả thuyết thống kê 57 3.3.1 Mô tả 57 3.3.2 Kiểm định 59 3.3.3 Kiểm định 60 KẾT LUẬN VÀ ĐỀ XUẤT 61 TÀI LIỆU THAM KHẢO 63 PHỤ LỤC 67 III DANH MỤC THUẬT NGỮ VÀ CHỮ VIẾT TẮT STT Thuật ngữ Chữ viết tắt Diễn giải User U Người dùng Item I Mặt hàng Recommender System RS Hệ thống đề xuất Cold Start - Khởi động nguội Data Sparsity - Dữ liệu thưa Utility Matrix - Ma trận tương tác Features - Đặc trưng Overspecialization - Tính rập khuôn Content – Based - Dựa nội dung 10 Memory – Based - Dựa nhớ 11 Model – Based - Dựa mơ hình 12 Explicit Feedback - Phản hổi tường minh 13 Implicit Feedback - Phản hồi tiềm ẩn 14 Term Frequency - Inverse Document Frequency TF – IDF Tần số thuật ngữ - Tần số tài liệu nghịch đảo 15 Accuracy - Độ chuẩn xác 16 Precision - Độ xác 17 Activation Function - Hàm kích hoạt 18 Artificial Neural Network ANN Mạng Nơron nhân tạo 19 Laten Factor - Nhân tố tiềm ẩn 20 Dimensionality Reduction DR Giảm chiều liệu 21 Matrix Factorization MF 22 Decision Tree - Cây định 23 Regression - Hồi quy 24 Association Rule - Luật kết hợp Thừa số hóa/Phân rã ma trận IV 25 Clustering - Phân cụm 26 Collaborative Filtering CF Lọc cộng tác 27 Content Based Filtering CBF Lọc nội dung 28 Deep Learning DL Học sâu 29 Multi Layer Perceptron MLP Perceptron đa lớp 30 Auto Encoder AE Bộ mã hóa tự động 31 Recurrent Neural Network RNN Mạng nơron hồi tiếp 32 33 34 35 Generative Adversarial Networks Generalized Matrix Factorization Neural Matrix Factorization Neural Collaborative Filtering GAN GMF NeuMF 37 Inner product - NDCG 39 Mean Reciprocal Rank MRR 40 Mean Average Precision MAP 41 Mean Square Error MSE 42 Root Mean Square Error RMSE 43 Mean Absolute Error MAE 44 Normalized Mean Absolute Error tổng quát Mô hình phân rã ma trận Nơron - SGD Cumulative Gain Mơ hình phân rã ma trận Lọc Nơron cộng tác Stochastic Gradient Descent Normalized Discounted nghịch NCF 36 38 Mạng nơron khởi tạo đối NMAE Tích vơ hướng tổng qt/Tích Xếp hạng đối ứng trung bình Độ xác trung bình Sai số trung bình bình phương sai số trung bình bình phương theo bậc hai Sai số trung bình tuyệt đối Sai số trung bình tuyệt đối chuẩn hóa V DANH MỤC HÌNH ẢNH Hình 1: Mơ tả kiến trúc cấp cao hệ thống đề xuất dựa phương thức tiếp cận lọc nội dung Hình 2: Cơ chế lọc nội dung Hình 3: Nguyên lý hoạt động mạng Nơron nhân tạo 16 Hình 4: Khung đánh giá hệ thống đề xuất 20 Hình 5: Mạng Perceptron đa lớp 32 Hình 6: Bộ mã hóa tự động 33 Hình 7: Mạng Nơron tích chập 34 Hình 8: Mạng Nơron hồi tiếp 35 Hình 9: Mạng Nơron khởi tạo đối nghịch 35 Hình 10: Cách thức hoạt động phương pháp MF 37 Hình 11: Kiến trúc cấp cao hệ thống đề xuất dựa phương thức lọc Nơron cộng tác 38 Hình 12: Minh họa mơ hình NeuMF 42 Hình 13: Quy trình cơng việc kho lưu trữ đề xuất Microsoft 47 Hình 14: Phân bố liệu đánh giá 49 Hình 15: Thống kê số lượng phim dựa thể loại 50 Hình 16: Thống kê số lượng phim dựa năm phát hành 50 Hình 17: Thống kê lượt đánh giá dựa giới tính 51 Hình 18: Mức độ phổ biến thể loại theo giới tính 51 Hình 19: Đánh giá người dùng nam nữ 52 Hình 20: Biểu diễn thay đổi số số lượng nhân tố tiềm ẩn thay đổi 54 Hình 21: Ảnh hưởng TopK (1 - 10) lên NDCG 55 Hình 22: Ảnh hưởng TopK (10 - 25) lên NDCG 55 Hình 23: Phân bố liệu biến prediction 59 VI DANH MỤC BẢNG BIỂU Bảng 1: Tóm tắt phương pháp thí nghiệm 26 Bảng 2: So sánh phản hồi tường minh phản hồi tiềm ẩn 26 Bảng 3: Tổng quan thước đo đánh giá 30 Bảng 4: Phân loại hệ thống đề xuất dựa học sâu 31 Bảng 5: Các thuật toán kho lưu trữ đề xuất Microsoft 47 Bảng 6: Tổng quan liệu Movielens 48 Bảng 7: Giá trị dự đoán (lấy ngẫu nhiên 10 giá trị) cho người dùng u với phim i 53 Bảng 8: Thống kê ảnh hưởng việc thay đổi Epochs lên số đánh giá 54 Bảng 9: Thống kê ảnh hưởng việc thay đổi số lượng nhân tố tiềm ẩn 54 Bảng 10: Kết đánh giá Leave - one - out 56 Bảng 11: So sánh hiệu mơ hình huấn luyện trước 56 Bảng 12: Dữ liệu dự đoán 57 Bảng 13: Mô tả thuộc tính 57 Bảng 14: Thống kê mô tả biến Type 58 Bảng 15: Thống kê mô tả prediction rating 58 Bảng 16: Kết kiểm định Anova chiều nhóm phim có đánh giá Cao, Thấp, Trung bình 60 Bảng 17: Kết kiểm định Anova chiều nhóm phim có đánh giá Cao/Thấp Trung bình 60 VII MỞ ĐẦU Lý lựa chọn đề tài Sự tiến vượt bậc cơng nghệ nói chung mạng Internet nói riêng tạo điều kiện thuận lợi để thương mại điện tử phát triển cách mạnh mẽ thời gian gần Sự phát triển đem lại cho người tiêu dùng nhiều lợi ích, số khả lựa chọn tiếp cận với nhiều sản phẩm, dịch vụ đa dạng dễ dàng Tuy nhiên, đa dạng mặt lựa chọn trở nên tải mặt thông tin, gây bối rối cho người tiêu dùng Chính vậy, đề tài thực nhằm xây dựng hệ thống đề xuất dựa mơ hình lọc Nơron cộng tác, với nhiệm vụ phân tích liệu hành vi từ người dùng để từ đưa đề xuất ý nghĩa, hỗ trợ người dùng đưa lựa chọn dễ dàng nâng cao trải nghiệm người dùng Mục tiêu nghiên cứu Đề tài gồm mục tiêu nghiên cứu cụ thể sau: + Tìm hiểu, hệ thống hóa khái niệm liên quan đến hệ thống đề xuất + Tập trung vào giải toán đề xuất cộng tác dựa liệu tiềm ẩn + Ứng dụng khung mơ hình lọc Nơron cộng tác để mơ hình hóa tương tác người dùng mặt hàng, từ xây dựng hệ thống đề xuất phim dựa tập liệu mẫu Movielens Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài bao gồm: + Các khái niệm liên quan đến hệ thống đề xuất nói chung phương pháp lọc Nơron cộng tác nói riêng + Các hướng tiếp cận để xây dựng đánh giá hệ thống đề xuất Phương pháp nghiên cứu Hai phương pháp nghiên cứu thực đề tài là: phương pháp phân tích tổng hợp thu thập thông tin từ nguồn liệu thứ cấp VIII NỘI DUNG Chương 1.1 Tổng quan hệ thống đề xuất Giới thiệu hệ thống đề xuất Sự bùng nổ cơng nghệ thơng tin nói chung mạng Internet nói riêng, với xu tồn cầu hóa, tạo điều kiện để nhà cung cấp hàng hóa, dịch vụ hoạt động trực tuyến tiếp cận với khách hàng cách nhanh chóng dễ dàng mà khơng bị giới hạn mặt không gian địa lý Vô số thông tin sản phẩm, dịch vụ gửi đến khách hàng ngày Chẳng hạn như: năm 2019 phút có khoảng 500 xem video tải lên Youtube, năm 2021 quảng cáo Facebook Marketplace tiếp cận 562 triệu người, năm 2022 có khoảng 867 triệu tweet gửi ngày,… Đây vừa hội vừa thách thức cho người mua người bán Cụ thể, người mua, họ có nhiều lựa chọn để đáp ứng nhu cầu Tuy nhiên, với lượng thơng tin đồ sộ đến từ tảng tiếp thị, người mua gặp khó khăn việc định lựa chọn sử dụng sản phẩm: họ khơng biết nên mua loại hàng hóa nào, xem phim nào, hay nghe nhạc phù hợp với sở thích mong muốn thân Ngay việc thấu hiểu nhu cầu trở nên khó khăn phải đối mặt với tình trạng tải thông tin Đối với người bán, họ phải liên tục cá nhân hóa nỗ lực tiếp thị nhằm mang lại trải nghiệm tốt cho khách hàng giữ vững vị cạnh tranh thị trường Hệ việc thu thập khối lượng lớn liệu giao dịch trở nên phổ biến doanh nghiệp, qua cho phép phân tích sâu hành vi thị hiếu khách hàng thực (Sammut & Webb, 2017) Chính vậy, hệ thống đề xuất phát triển cách thức để đáp ứng nhu cầu kép người mua người bán cách tự động hóa việc tạo khuyến nghị dựa phân tích liệu (Sammut & Webb, 2017) Nhờ có hệ thống đề xuất, người mua dễ dàng tìm sản phẩm mong muốn vơ vàn sản phẩm hành Hơn nữa, họ thực tương tác với sản phẩm thích/khơng thích, bình luận, chia sẻ, Những tương tác sử dụng liệu đầu vào cho hệ • Số lượng nhân tố tiềm ẩn: kiểm sốt kích thước số chiều không gian tiềm ẩn Thông thường, số lượng nhân tố tiềm ẩn cao dẫn đến chất lượng dự đốn tốt • Kích thước lớp: kích thước lớp đầu vào lớp ẩn mơ hình MLP • Số lượng Epochs: xác định số lần lặp SGD 3.2.4 Dự đốn đánh giá mơ hình 3.2.4.1 Dự đốn Sau học mơ hình, điểm số dự đốn tính tốn với kết sau: UserID ItemID Dự đoán 5098 207.0 520.0 0.467869 12613 450.0 1222.0 0.007691 3236 125.0 395.0 0.118129 24053 907.0 313.0 0.389867 15274 542.0 230.0 0.058103 12902 456.0 395.0 0.012577 4094 172.0 483.0 0.379733 16195 588.0 72.0 0.154054 5628 230.0 570.0 0.001391 5169 210.0 502.0 0.222283 Bảng 7: Giá trị dự đoán (lấy ngẫu nhiên 10 giá trị) cho người dùng u với phim i 3.2.4.2 Đánh giá hiệu mơ hình Bốn thước đo sử dụng cho đánh giá tổng quát thước đo xếp hạng, bao gồm: Mean Average Precision (MAP), Normalized Discounted Cumulative Gain (NDGC), Precision@k Recall@k Epochs MAP@10 NDCG@10 Precision@10 Recall@10 100 0.048158 0.198736 0.179958 0.100628 200 0.046230 0.196140 0.177943 0.099803 300 0.048809 0.198308 0.179003 0.101096 53 Bảng 8: Thống kê ảnh hưởng việc thay đổi Epochs lên số đánh giá Số lượng MAP@10 NDCG@10 Precision@10 Recall@10 factor 0.048158 0.198736 0.179958 0.100628 0.049528 0.199752 0.180064 0.103170 10 0.051101 0.206568 0.183775 0.104744 16 0.043811 0.189082 0.172428 0.095296 32 0.041124 0.177184 0.162036 0.093766 64 0.034136 0.150662 0.136691 0.079205 Bảng 9: Thống kê ảnh hưởng việc thay đổi số lượng nhân tố tiềm ẩn Hình 20: Biểu diễn thay đổi số số lượng nhân tố tiềm ẩn thay đổi 54 Hình 21: Ảnh hưởng TopK (1 - 10) lên NDCG Hình 22: Ảnh hưởng TopK (10 - 25) lên NDCG 55 3.2.5 Đánh giá Leave-one-out Đối với mặt hàng tập liệu kiểm thử, 100 mẫu không người dùng tương tác lấy ngẫu nhiên, sau xếp hạng mẫu thử số 101 mặt hàng (1 tương tác 100 không được) Hiệu suất danh sách xếp hạng đánh giá Hit Ratio (HR) Normalized Discounted Cumulative Gain (NDCG) Sau cùng, giá trị lấy trung bình danh sách xếp hạng để có HR NDGC tổng thể liệu kiểm thử HR@10 NDGC@10 0.515376 0.409265 Bảng 10: Kết đánh giá Leave - one - out 3.2.6 Huấn luyện trước Nhằm đạt hiệu tốt hơn, GMF MLP khởi tạo ngẫu nhiên hội tụ (convergence) Sau tham số mơ hình sử dụng để làm tham số cho phần tương ứng NeuMF Đối với lớp đầu ra, trọng số hai mơ hình kết nối với: ℎ);3 ← U 𝛼ℎ2&3 V (1 − 𝛼)ℎ&69 Trong ℎDEF ℎEAG vectơ h mơ hình GMF MLP tiền huấn luyện, a siêu tham số xác định tỷ trọng hai mơ hình Khơng huấn luyện trước Có huấn luyện trước Số lượng factor MAP@10 NDGC@10 MAP@10 NDGC@10 0.048158 0.198736 0.044157 0.183570 0.049528 0.199752 0.050271 0.200220 10 0.051101 0.206568 0.049173 0.202871 16 0.043811 0.189082 0.047392 0.195406 32 0.041124 0.177184 0.039050 0.173657 64 0.034136 0.150662 0.024354 0.126189 Bảng 11: So sánh hiệu mơ hình huấn luyện trước 56 3.3 Kiểm định giả thuyết thống kê 3.3.1 Mô tả Giá trị dự đốn mơ hình xác suất mà người dùng u thực tương tác, cụ thể đánh giá phim i, với kết dự đoán sau: userID movie_id prediction rating Type 149 Trung 0,027429 bình 92 149 0,0036 Trung bình 328 149 0,003014 Trung bình 405 149 6,55E-05 Trung bình 534 149 0,009765 Trung bình 708 149 0,015566 Trung bình … … … … … … 24890 943 1330 2,21633470687266E- 2,5 Trung 07 bình Bảng 12: Dữ liệu dự đốn Tên thuộc tính Ý nghĩa userID Mã số người dùng u movie_id Mã số phim i prediction Giá trị dự đốn rating Điểm đánh giá trung bình phim i Type Xếp loại đánh giá phim i Bảng 13: Mơ tả thuộc tính Những phim với điểm đánh giá trung bình lớn xếp loại “Cao”, điểm đánh giá nhỏ xếp loại “Thấp” điểm đánh giá từ đến 57 xếp loại “Trung bình” Với 24891 quan sát từ tập liệu, ta thu thống kê mô tả biến Type, prediction rating sau: Count 24891 Unique Top Trung bình Freq 21590 Bảng 14: Thống kê mô tả biến Type prediction rating count 24891 24891 mean 0,348070511 3,364660377 std 0,303699381 0,545755528 1,48257E-14 25% 0,063351557 3,01875 50% 0,27189067 3,427777778 75% 0,597630322 3,791666667 max 0,998790383 Bảng 15: Thống kê mơ tả prediction rating 58 Hình 23: Phân bố liệu biến prediction 3.3.2 Kiểm định - Giả thuyết khơng: Có tương đồng giá trị trung bình nhóm xếp loại (Cao/Trung bình/Thấp) - Giả thuyết đối: Có khác biệt giá trị trung bình nhóm xếp loại Ta có kết kiểm định Anova chiều (One Way Anova) sau: 59 Df Sum Sq Mean Sq F Value Pr (>F) Type 122.3 61.16 700.4 F) Type 63.5 63.53 708.4