Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình hố chuỗi hành vi người dùng toán Hệ gợi ý NGUYỄN VĂN TÚC nguyentuc1003@gmail.com Ngành Khoa học máy tính Giảng viên hướng dẫn: PGS TS Thân Quang Khốt Viện: Cơng nghệ Thơng tin Truyền thông HÀ NỘI, 03/2021 Chữ ký GVHD Lời Cảm Ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Trong trình học tập trường, em thầy cô trang bị kiến thức quý báu, đặc biệt thầy cô Viện Công nghệ thông tin truyền thông Và may mắn em tham gia nghiên cứu Data Science Lab với thầy, bạn nhóm Machine Learning Em xin cảm ơn giúp đỡ bảo tận tình, lời khuyên tâm huyết không đường học tập PGS TS Thân Quang Khốt ThS Ngơ Văn Linh Nhờ kiến thức trình làm việc với thầy, em có nhiều kinh nghiệm, kiến thức để hồn thành luận văn cách tốt Em xin gửi lời cảm ơn tới gia đình bạn bè Gia đình bạn bè ln chỗ dựa vững giúp em có niềm tin để hồn thành cơng việc Nghiên cứu tài trợ Công ty TNHH Đầu tư Phát triển thị Gia Lâm thuộc Tập đồn Vingroup hỗ trợ Quỹ Đổi sáng tạo Vingroup (VINIF) Dự án mã số VINIF.2019.DA18 Học viên thực hiện: Nguyễn Văn Túc, CB190201 Lời cam đoan Tôi - Nguyễn Văn Túc - cam kết luận văn cơng trình nghiên cứu tơi hướng dẫn PGS TS Thân Quang Khoát Các kết nêu luận văn trung thực, chép cơng trình cơng bố khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày 06 tháng 04 năm 2021 Tác giả luận văn Nguyễn Văn Túc Xác nhận người hướng dẫn Học viên thực hiện: Nguyễn Văn Túc, CB190201 Abstract Collaborative Filtering (CF) is one of the most widely used and successful technologies in Recommender System CF-based techniques have achieved great success and had a wide range of application prospects in many fields such as e-commerce and social networks However, as big data arises, the CF-based approach often suffers from several challenges such as data sparsity, cold start, and scalability issues, which seriously affect the quality of recommendation Traditional CF such as matrix factorization techniques which decomposes the user-item interaction matrix into the product of two matrices of lower dimensions An important weakness of the Matrix Factorization (MF) is that the linear dot product cannot catch the complex nonlinear relations existing among the set of hidden factors Neural networks are used to learn the interaction function from data and has the ability to learn highly nonlinear relationships between users and items In recent years, Graph Convolutional Networks (GCNs) have demonstrated its superiority in Collaborative Filtering, where the data are often extremely sparse GCNs are able to exploit graph data as input to learn good embeddings of users and items, where a graph often contains semantic signals between items and/or users In this thesis, we show that good embeddings from GCNs are not enough to make accurate prediction on user-item pairs, and that taking a nonlinear operation for prediction from GCN embeddings would be really beneficial Our study results in four novel GCN-based models which surpass the state-of-the-art models in various metrics and can better deal with the challenge of sparsity We also discuss how to manage large graphs to efficiently train GCN-based models, which could be useful for practical applications Học viên thực hiện: Nguyễn Văn Túc, CB190201 Tóm Tắt Luận Văn Với phát triển ngày mạnh mẽ lĩnh vực thương mại điện tử, giao dịch trực tuyến diễn ngày nhiều phổ biến Theo đó, với số lượng lớn thông tin internet, người dùng cần biết chọn lọc thông tin phù hợp với nhu cầu sở thích cá nhân Bài toán gợi ý đời nhằm giải vấn đề này, hệ thống với chế gợi ý hợp lý thúc đẩy tương tác người dùng hệ thống gợi ý sản phẩm, dịch vụ hợp lý Trong thực tế, hệ thống gợi ý hợp lý giúp tiết kiệm thời gian người dùng tăng hài lòng người dùng sử dụng hệ thống Cho đến có nhiều nghiên cứu khác đưa mơ hình gợi ý áp dụng rộng rãi nhiều lĩnh vực như: website thương mại điện tử, trang web tin tức trực tuyến Bài toán đưa gợi ý dựa lịch sử tương tác người dùng sản phẩm toán nhiều quan tâm nghiên cứu doanh nghiệp Trong đó, hướng nghiên cứu lớn giả định có mối tương tác tiềm ẩn người dùng sản phẩm, đồng thời mối quan hệ chúng mơ hình hóa lớp hàm phi tuyến [7] Từ nhiều nghiên cứu đưa kiến trúc học sâu khác để mơ hình hóa quan hệ tiềm ẩn người dùng sản phẩm [12,14,19,20] điều thực cho thấy hiệu tốt nhiều liệu nghiên cứu khác Trong luận văn này, việc sử dụng vector biểu diễn ẩn tốt trước đưa vào lớp hàm phi tuyến hoàn toàn cải thiện hiệu mơ hình hệ gợi ý Chúng tơi tiến hành phân tích, đánh giá nhận xét hiệu việc sử dụng vector biểu diễn ẩn lấy từ mơ hình GCNs - mơ hình học biểu diễn cho đỉnh đồ thị trước đưa vào lớp hàm phi tuyến để đưa gợi ý cho người dùng Nội dung luận văn gửi đăng tạp chí User Modeling and User-Adapted Interaction https://www.springer.com/journal/11257 Học viên thực hiện: Nguyễn Văn Túc, CB190201 Mục lục Giới Thiệu Đề Tài 13 Cơ sở lý thuyết 2.1 Tổng quan hệ gợi ý 2.2 Các nhóm phương pháp hệ gợi ý 2.2.1 Gợi ý dựa nội dung (Content-based) 2.2.2 Gợi ý dùng lọc cộng tác (Collaborative Filtering) 2.2.3 Phân rã ma trận (MF - Matrix Factorization) 2.3 Lớp mơ hình mạng nơ-ron lọc cộng tác 2.3.1 Nhược điểm mơ hình phân tách ma trận 2.3.2 Mơ hình NeuMF 16 16 16 16 17 18 19 20 21 23 23 24 24 26 Các nghiên cứu liên quan 3.1 Hành vi tiềm ẩn hành vi rõ ràng toán gợi ý 3.2 Bài toán hệ gợi ý với liệu hành vi tiềm ẩn rõ ràng 3.2.1 Mô hình Implicit To Explicit (ITE) 3.2.2 Mơ hình Sequential Implicit To Explicit (SITE) 3.3 Sử dụng mạng đồ thị tích chập (GCNs) học biểu diễn từ đồ thị 3.3.1 Xây dựng đồ thị tri thức 3.3.2 Mơ hình GCNs Các 4.1 4.2 4.3 4.4 mơ hình thử nghiệm NCF-HoG NCF-HeG ITE-HoG ITE-HeG Thử 5.1 5.2 5.3 5.4 5.5 nghiệm đánh giá Tập liệu Nhóm mơ hình thử nghiệm Phương pháp đánh giá độ đo sử dụng Thiết lập tham số kết thực nghiệm Một số kịch thử nghiệm 5.5.1 Hiệu việc sử dụng GCNs user/item Học viên thực hiện: Nguyễn Văn Túc, CB190201 để học biểu diễn cho 29 30 32 35 35 36 38 40 42 42 43 43 44 45 45 5.5.2 5.5.3 5.5.4 5.5.5 5.6 5.5.6 Phân Hiệu mơ hình hóa liên kết bậc cao kết hợp với hàm dự đoán phi tuyến Hiệu mơ hình số lượng chiều vector ẩn thay đổi Hiệu mơ hình số lượng epochs thay đổi Hiệu mơ hình số lượng hàng xóm lấy mẫu Hiệu mơ hình độ thưa liệu tích lý thuyết thực nghiệm 46 47 48 48 49 52 Kết luận 54 Tài liệu tham khảo 55 Học viên thực hiện: Nguyễn Văn Túc, CB190201 Danh sách từ viết tắt thuật ngữ MF Phân rã ma trận MLP Mạng lan truyền tiến nhiều tầng Minibatch Đoạn liệu Train Học - huấn luyện Neural network Mạng nơ-ron Implicit Module Thành phần tiềm ẩn Explicit Module Thành phần tường minh Học viên thực hiện: Nguyễn Văn Túc, CB190201 Danh sách kí hiệu dùng đồ án U Tập người dùng V Tập sản phẩm M = |U|, N = |V| Số lượng người dùng sản phẩm X = (xui )M ×N Dữ liệu tương tác tiềm ẩn Y = (yui )M ×N Dữ liệu tương tác tường minh X+ Tập tương tác quan sát X X− Tập tương tác không quan sát X Y+ Tập tương tác quan sát Y Y− Tập tương tác không quan sát Y e(k) u Vector biểu diễn ẩn người dùng u tầng thứ k e(k) i Vector biểu diễn ẩn sản phẩm i tầng thứ k W (l) Ma trận trọng số tầng thứ l E (l) Ma trận biểu diễn tất đỉnh tầng thứ l A Ma trận kề đỉnh đồ thị D Ma trận bậc đỉnh đồ thị I Ma trận đơn vị Nu Tập sản phẩm tương tác người dùng u Nv Tập người dùng tương tác với sản phẩm i ||x|| Chuẩn bậc hai vector x σ(·) Hàm kích hoạt λ ||W ||F Trọng số điều chỉnh giá trị regularization Chuẩn Frobenius ma trận W Học viên thực hiện: Nguyễn Văn Túc, CB190201 10 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 21 22 Hình minh họa hướng tiếp cận dựa lọc nội dung lọc cộng tác Minh họa phân rã ma trận Ví dụ cho thấy hạn chế MF NeuMF Kiến trúc mơ hình Implicit To Explicit Kiến trúc mơ hình Sequential Implicit To Explicit Kiến trúc mơ hình Sequential Implicit To Explicit Xây dựng đồ thị đồng user graph, item graph Xây dựng đồ thị không đồng user - item graph Kiến trúc mơ hình NCF-HoG Kiến trúc mô hình NCF-HeG Mơ hình ITE-HoG Kiến trúc mơ hình ITE-HeG Hiệu mơ hình liệu LastFm số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu LastFm-2K số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu Retail Rocket số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu Recobell số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu LastFm số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu LastFm-2K số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu Retail rocket số biến ẩn K thay đổi Giá trị cao tốt Hiệu mơ hình liệu Recobell số biến ẩn K thay đổi Giá trị cao tốt Hiệu mô hình liệu Lastfm số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao tốt Học viên thực hiện: Nguyễn Văn Túc, CB190201 16 18 20 21 24 27 28 30 31 35 37 38 40 46 46 47 47 48 48 49 49 50 43 Bảng 1: Một số thống kê liệu Dataset LastFm LastFm-20K Retail rocket Recobell # Người dùng 406 892 36 751 206 203 # Sản phẩm 106 467 17 632 83 274 118 293 # Tương tác 174 621 172 253 396 965 293 783 # Độ thưa 99.596% 99.721% 99.987% 99.999% 5.2 Nhóm mơ hình thử nghiệm Chúng tơi chia ba nhóm mơ hình đưa vào đánh giá thử nghiệm này: Nhóm 1: Nhóm mơ sử dụng GCNs để học biểu diễn ẩn kết hợp với hàm tuyến tính để dự đốn • GCMC [1]: Mơ hình sử dụng GCNs để học biểu diễn ẩn cho người dùng sản phẩm đồ thị không đồng Kết dự đốn hàm tuyến tính với đầu vào hai vector ẩn • NGCF [11]: Giống với GCMC, NGCF sử dụng GCNs để học biểu diễn ẩn cho người dùng sản phẩm Tuy nhiên nhóm tác giả sử dụng nhiều tầng GCNs để với mục tiêu để học biểu diễn mức cao Nhóm 2: Nhóm mơ hình sử dụng one-hot kết hợp với hàm phi tuyến để đưa dự đoán Trong nhóm gồm hai mơ hình NeuMF ITE miêu tả phía Nhóm 3: Nhóm cuối sử dụng GCNs để học vector biểu diễn ẩn kêt hợp hàm phi tuyến tính việc đưa dự đốn: Trong nhóm bao gồm mơ hình: NCF-HoG, NCF-HeG, ITE-HoG ITE-HeG Chi tiết kiến trúc mơ hình đề cập chương 5.3 Phương pháp đánh giá độ đo sử dụng Trong thử nghiệm sử dụng phương pháp leave-one-out [8] để đánh giá hiệu mơ hình Cụ thể sau: Đối với người dùng • Lấy sản phẩm thời điểm sau mà người dùng có tương tác hành vi rõ ràng dùng làm tập liệu kiểm thử Tập liệu lại dùng để huấn luyện Học viên thực hiện: Nguyễn Văn Túc, CB190201 44 • Ở bước đánh giá, xếp hạng sản phẩm test với tất sản phẩm chưa tương tác người dùng, dựa điểm số dự đoán mơ hình Để giảm bớt thời gian tính tốn, chọn trước tập gồm ngẫu nhiên 999 sản phẩm mà người dùng chưa tương tác để xếp hạng thay lấy tồn tất Về độ đo sử dụng, sử dụng hai độ đo Hit Ratio (HR) Normalized Discounted Cumulative Gain (NDCG) để đánh giá kết vị trí sản phẩm test danh sách xếp hạng 1) Độ đo HR: Với người dùng, ta xem test item có nằm top K danh sách xếp hạng hay khơng Do gọi HR@K Ta có: HR@K =    1, test item nằm top K (66)   0, ngược lại 2) Độ đo NDCG: Độ đo HR@K quan tâm đến xuất test item top K Độ đo NDCG quan tâm đến xếp hạng test item danh sách, với ý nghĩa độ cao xếp hạng cao Công thức cho NDCG:    log(2) , test item vị trí i top K log(i + 1) N DCG@K = (67)   0, ngược lại HR@K NDCG@K cho toàn hệ thống tổng quát hóa sử dụng trung bình HR@K NDCG@K cho tồn người dùng 5.4 Thiết lập tham số kết thực nghiệm Thiết lập tham số chung cho mơ hình trên: • Số đặc trưng ẩn user item (số chiều vec-tơ đặc trưng cho user item): K ∈ {8, 16, 32, 64} • Tốc độ học (learning rate): lr ∈ {0.001, 0.0001} • Kích thước batch: batch-size ∈ {512, 1024, 2048} • Tham số : η ∈ {0.5, 1.0, 2.0} Học viên thực hiện: Nguyễn Văn Túc, CB190201 45 Một số tham số riêng dàng cho mô hình NCF-HoG, NCF-HeG, ITE-HoG, ITEHeG • Số hàng xóm nút đồ thị: 10 • Số hàng xóm thử nghiệm để lấy mẫu huấn luyện: Ne ∈ {1, 3, 5, 7, 10} 5.5 Một số kịch thử nghiệm 5.5.1 Hiệu việc sử dụng GCNs để học biểu diễn cho user/item Các hình 14, 15, 16, 17 thể hiệu mơ hình ứng với hai độ đo HR@10 NDCG@10 liệu khác số lượng biến ẩn K thay đổi khoảng {8, 16, 32, 64} Trong tất liệu, mơ hình dựa GCNs đem lại hiệu tốt so với mơ hình NCF ITE Điều thể hiệu việc sử dụng GCNs để đạt biểu diễn giàu thông tin so với sử dụng vector one-hot Trong hình 14, dễ dàng thấy hiệu mơ hình dựa GCNs (NCF-HoG, NCF-HeG, ITE-HoG, ITE-HeG) tăng dần số chiều vector ẩn tăng, độ đo NCF ITE biến động nhiên đạt cao số chiều vector ẩn K = 64 Trong hình 14, nhóm mơ hình dựa GCNs, NCF-HoG mơ hình có hiệu thất nhất, K = 64 độ đo NDCG@10 0.13 độ đo NDCG@10 cao đạt NCF ITE 0.071 (K = 64), 0.077 (K = 64) Trên liệu nhỏ LastFm-2K (hình 15) giá trị NDCG@10 NCF-HoG đạt cao 0.105 (K= 32), tương ứng với giá trị NCF 0.103 (K = 16) 0.095 (K = 16) Và kết tương tự xảy hai liệu lớn Retail Rocket Recobell (hình 16, 17) Điều thể việc vector biểu diễn ẩn user item học từ GCNs trước đưa vào lớp hàm phi tuyến tính đem lại hiệu tốt so với việc sử dụng vector one-hot Ngoài ra, xét nhóm mơ hình dựa GCNs (NCF-HoG, NCF-HeG, ITE-HoG, ITE-HeG), hiệu mơ hình mà vector biểu diễn user item học từ mạng không đồng (NCF-HeG, ITE-HeG) nhìn chung ln đem lại hiệu cao so với mơ hình học biểu diễn từ đồ thị đồng (NCF-HoG, ITE-HoG) Trong hình 16, độ đo NDCG@10 NCF-HeG 0.4698 (K = 64) ITE-HeG 0.4736 (K = 64), độ đo lớn thu từ hai mơ hình NCF-HoG ITE-HoG 0.4544 (K = 64) 0.4621 (K = 64) Kết tương tự đo liệu lại, thể hình 14, 15, 17 Học viên thực hiện: Nguyễn Văn Túc, CB190201 46 Hình 14: Hiệu mơ hình liệu LastFm số biến ẩn K thay đổi Giá trị cao tốt Hình 15: Hiệu mơ hình liệu LastFm-2K số biến ẩn K thay đổi Giá trị cao tốt 5.5.2 Hiệu mơ hình hóa liên kết bậc cao kết hợp với hàm dự đoán phi tuyến Hình 18, 19, 20, 21 thể độ đo HR@10 NDCG@10 mơ hình liệu với kích thước vector ẩn khác K ∈ {8, 16, 32, 64} Bốn mơ hình sử dụng GCNs để học vector biểu diễn user, item đồ thị khơng đồng chia thành nhóm: nhóm mơ hình khai thác kết nối bậc cao đồ thị kết nối user, item (NGCF) nhóm mơ hình khai thác kết nối bậc đồ thị (GCMC, NCF-HeG, ITE-HeG) Nhìn chung, NGCF đạt kết tốt so với GCMC hầu hết trường hợp Điều giải thích việc sử dụng GCNs nắm bắt mối quan hệ bậc cao người dùng sản phẩm, qua tạo vector biểu diễn tốt gián tiếp nâng cao chất lượng mơ hình Một nhận xét khác, với việc dùng chung biểu diễn từ GCNs, việc sử dụng hàm phi tuyến (bằng kiến trúc mạng học sâu) (NCF-HeG, ITE-HeG) việc đưa dự đoán cải thiện cách rõ rệt hiệu mơ hình so với việc sử dụng hàm tuyến tính đơn giản (GCMC, NGCF) Điều có Học viên thực hiện: Nguyễn Văn Túc, CB190201 47 Hình 16: Hiệu mơ hình liệu Retail Rocket số biến ẩn K thay đổi Giá trị cao tốt Hình 17: Hiệu mơ hình liệu Recobell số biến ẩn K thay đổi Giá trị cao tốt thể thấy việc sử dụng kiến trúc mạng nơ-ron mơ hình hóa tốt hành vi nguời dùng liệu tương tác Trong mơ hình NCF-HeG ITE-HeG, ta dễ dàng thấy ITE-HeG có kết tốt so với NCF-HeG, điều có nghĩa việc sử dụng kiến trúc mạng học sâu phù hợp trình dự đốn cải thiện hiệu mơ hình 5.5.3 Hiệu mơ hình số lượng chiều vector ẩn thay đổi Phần chúng tơi đánh giá hiệu mơ hình liệu có thay đổi số chiều vector ẩn biểu diễn cho người dùng sản phẩm Dễ dàng nhận thấy, liệu nhỏ (hình 15, 19), hầu hết mơ hình có xu hướng bị overfitting số chiều vector ẩn tăng từ 32 đến 64 Đối với liệu lớn (Retail Rocket, Recobell), mơ hình NCF-HoG, NCF-HeG, ITE-HoG, ITE-HeG có hiệu tăng dần số chiều vector ẩn tăng dần đến 64 (hình 16, 17) Ngược lại liệu này, hiệu mơ hình NCF, ITE dao động thất thường thường có xu hướng bị overfitting số chiều vector ẩn lớn (tăng từ 32 lên 64) (hình 14, 15, 17) Học viên thực hiện: Nguyễn Văn Túc, CB190201 48 Hình 18: Hiệu mơ hình liệu LastFm số biến ẩn K thay đổi Giá trị cao tốt Hình 19: Hiệu mơ hình liệu LastFm-2K số biến ẩn K thay đổi Giá trị cao tốt 5.5.4 Hiệu mơ hình số lượng epochs thay đổi Phần đánh giá hiệu mô hình số lượng epochs thay đổi trình huấn luyện, epoch lần tồn liệu huấn luyện Hình 22, 23, 24, 25 cho thấy hiệu mơ hình tương ứng liệu số lượng epoch tăng dần Độ đo đánh giá HR@10 NDCG@10, nhìn chung thấy mơ hình dựa GCNs để học biểu diễn cho người dùng, sản phẩm có hiệu tốt so với mơ hình sử dụng one-hot làm vector đầu vào Một chi tiết thú vị khác, mơ hình NCF-HoG, NCF-HeG, ITE-HoG, ITE-HeG đạt hiệu cao sau 20 epochs huấn luyện, điều có nghĩa việc huấn luyện rút ngắn nhiều, đặc biệt trường hợp liệu lớn Điều cho thấy mơ hình nhóm chúng tơi có khả mở rộng trường hợp đối mặt với liệu lớn 5.5.5 Hiệu mơ hình số lượng hàng xóm lấy mẫu Hình 26 thể chất lượng mơ hình ITE-HoG ITE-HeG Retail Rocket số lượng hàm xóm lấy mẫu tăng khoảng từ đến 10 Dễ Học viên thực hiện: Nguyễn Văn Túc, CB190201 49 Hình 20: Hiệu mơ hình liệu Retail rocket số biến ẩn K thay đổi Giá trị cao tốt Hình 21: Hiệu mơ hình liệu Recobell số biến ẩn K thay đổi Giá trị cao tốt thấy rằng, độ đo HR@10 NDCG@10 mơ hình tăng số lượng hàng xóm lấy mẫu tăng dần từ đến có xu hướng giảm số mẫu lấy tăng khoảng từ đến 10 Điều giải thích việc số mẫu tăng có nghĩa nhiều thơng tin tổng hợp điều dẫn đến biểu diễn tốt cho đỉnh Tuy nhiên, việc vector biểu diễn nút tổng hợp từ nhiều đỉnh hàng xóm dẫn đến làm lu mờ thơng tin Do vậy, cần cân nhắc việc lựa chọn số lượng hàng xóm để tổng hợp thơng tin quan trọng, số lượng phù hợp giúp khơng giảm khối lượng tính tốn khơng cần thiết mà cịn khơng bị làm thơng tin đỉnh tổng hợp 5.5.6 Hiệu mơ hình độ thưa liệu Hình 27 thể hiệu mơ hình độ thưa liệu tăng dần từ 70% đến 95 % Dễ thấy, hiệu nhóm mơ hình dùng GCNs kết hợp hàm phi tuyến dự đốn hành vi người dùng ln đạt hiệu cao nhóm mơ hình cịn lại (NCF, NGCF) Điều cho thấy nhóm Học viên thực hiện: Nguyễn Văn Túc, CB190201 50 Hình 22: Hiệu mơ hình liệu Lastfm số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao tốt Hình 23: Hiệu mơ hình liệu LastFm-2K số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao tốt Học viên thực hiện: Nguyễn Văn Túc, CB190201 51 Hình 24: Hiệu mơ hình liệu Retail Rocket số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao tốt Hình 25: Hiệu mơ hình liệu Recobell số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao tốt Học viên thực hiện: Nguyễn Văn Túc, CB190201 52 Hình 26: Hiệu mơ hình ITE-HoG, ITE-HeG liệu Retail rocket tăng dần số lượng hàng xóm lấy mẫu Số chiều vector ẩn (K = 8) Giá trị cao tốt Hình 27: Hiệu mơ hình dựa GCNs đo liệu LastFm2K trường hợp độ thưa liệu tăng dần Số chiều vector ẩn (K = 8) Giá trị cao tốt mơ hình GCNs kết hợp với lớp hàm phi tuyến giúp mơ hình CF đối đầu hiệu với trường hợp liệu thưa 5.6 Phân tích lý thuyết thực nghiệm Trong phần này, phân tích ưu điểm việc sử dụng GCNs để học biểu diễn tốt cho người dùng sản phẩm trước đưa vào mơ hình lọc cộng tác Đầu tiên, mơ hình hệ gợi ý dựa đồ thị biểu diễn mối quan hệ người dùng sản phẩm dạng cạnh trọng số cạnh thể cường độ mối quan hệ Chúng sử dụng loại đồ thị: đồng không đồng để biểu diễn cho mối quan hệ người dùng sản phẩm Trong nhóm đồ thị đồng (hình 8), vector biểu diễn đỉnh đạt cách tổng hợp từ đỉnh hàng xóm mà có tính chất với đỉnh Ví dụ: vector biểu diễn người dùng u tổng hợp từ hàng xóm Trong đồ thị đồng nhất, vector biểu diễn người dùng giống sở thích tương đồng Trong đồ thị khơng đồng (hình 9) mối Học viên thực hiện: Nguyễn Văn Túc, CB190201 53 quan hệ cặp người dùng, sản phẩm thể trực tiếp đồ thị gián tiếp đưa vào vector biểu diễn thơng qua sử dụng GCNs Thơng qua có vector biểu diễn mang nhiều thơng tin Trong phần thử nghiệm rằng, mơ hình NCF-HeG ITE-HeG đạt hiệu tốt hai mơ hình NCF-HoG ITE-HoG độ đo HIT@10 NDCG@10 Và mơ hình có kết tốt mơ hình sử dụng hàm phi tuyến tính với đầu vào one-hot vector (NCF, ITE), qua gián tiếp cho thấy hiệu sử dụng GCNs để học biểu diễn thay cho vector one-hot Sự kết hợp tuyến tính vector biểu diễn cho người dùng sản phẩm mối quan hệ phức tạp chúng [7] NeuMF [7] đưa dự đoán tương tác người dùng - sản phẩm cách kết hợp ý tưởng từ MLP phân rã ma trận (MF) ITE [18] mơ hình hóa tính thứ tự hành vi người dùng thông qua tầng MLP Từ thử nghiệm cho thấy việc kết hợp vector biểu diễn người dùng sản phẩm với hàm phi tuyến (NeuMF, ITE) cho hiệu vượt trội sử dụng phép biến đổi tuyến tính việc đưa dự đốn Học viên thực hiện: Nguyễn Văn Túc, CB190201 54 Kết luận Thông qua đồ án, đề xuất xây dựng đồ thị biểu diễn mối quan hệ người dùng - người dùng, sản phẩm - sản phẩm người dùng - sản phẩm từ liệu tương tác Từ đồ thị này, nhóm tiến hành thử nghiệm mơ hình NCF-HoG, NCF-HeG, ITE-HoG ITE-HeG Các mơ hình sử dụng mạng GCNs để nắm bắt tính chất đồ thị, làm giàu thơng tin cho vector biểu diễn trước đưa vào hàm phi tuyến tính (NCF, ITE) để đưa dự đốn Chúng tơi tiến hành thử nghiệm mơ hình tập liệu khác nhau, kết cho thấy nhóm mơ hình sử dụng GCNs để học vector biểu diễn cho đỉnh kết hợp với hàm phi tuyến thực đem lại cải thiện vượt trội so với mơ hình sở Bên cạnh chúng cịn có tốc độ hội tụ cao so với mơ hình NCF, ITE Để đối phó với vấn đề cold start toán hệ gợi ý, nhiều cơng trình sử dụng thêm thơng tin bên người dùng, sản phẩm để học biểu diễn giàu thơng tin thay sử dụng vector one-hot Chúng tơi coi hướng phát triển cho toán Học viên thực hiện: Nguyễn Văn Túc, CB190201 55 Tài liệu tham khảo Tài liệu [1] Rianne van den Berg, Thomas N Kipf, and Max Welling Graph convolutional matrix completion KDD Deep Learning Day - ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2018 [2] Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann Lecun Spectral networks and locally connected networks on graphs In International Conference on Learning Representations (ICLR2014), CBLS, April 2014, 2014 [3] Iván Cantador, Peter Brusilovsky, and Tsvi Kuflik 2nd workshop on information heterogeneity and fusion in recommender systems (hetrec 2011) In Proceedings of the 5th ACM conference on Recommender systems, RecSys 2011, New York, NY, USA, 2011 ACM [4] Michaăel Defferrard, Xavier Bresson, and Pierre Vandergheynst Convolutional neural networks on graphs with fast localized spectral filtering ICLR, 2016 [5] Michaăel Defferrard, Xavier Bresson, and Pierre Vandergheynst Convolutional neural networks on graphs with fast localized spectral filtering In Daniel D Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain, pages 3837–3845, 2016 [6] Prem Gopalan, Laurent Charlin, David M Blei, et al Content-based recommendations with poisson factorization In NIPS, volume 14, pages 3176– 3184, 2014 [7] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua Neural collaborative filtering In Proceedings of the 26th international conference on world wide web, pages 173–182, 2017 [8] Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua Fast matrix factorization for online recommendation with implicit feedback In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, pages 549–558, 2016 Học viên thực hiện: Nguyễn Văn Túc, CB190201 56 [9] Mikael Henaff, Joan Bruna, and Yann LeCun Deep convolutional networks on graph-structured data arXiv preprint arXiv:1506.05163, 2015 [10] Diederik P Kingma and Jimmy Ba Adam: A method for stochastic optimization In Yoshua Bengio and Yann LeCun, editors, 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, 2015 [11] Thomas N Kipf and Max Welling Semi-supervised classification with graph convolutional networks In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings, 2017 [12] Young-Jun Ko, Lucas Maystre, and Matthias Grossglauser Collaborative recurrent neural networks for dynamic recommender systems In Asian Conference on Machine Learning, pages 366–381 PMLR, 2016 [13] Yehuda Koren, Robert Bell, and Chris Volinsky Matrix factorization techniques for recommender systems Computer, 42(8):30–37, 2009 [14] Sheng Li, Jaya Kawale, and Yun Fu Deep collaborative filtering via marginalized denoising auto-encoder In Proceedings of the 24th ACM international on conference on information and knowledge management, pages 811–820, 2015 [15] Yujia Li, Daniel Tarlow, Marc Brockschmidt, and Richard S Zemel Gated graph sequence neural networks In Yoshua Bengio and Yann LeCun, editors, 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings, 2016 [16] Tuc Nguyen, Linh Ngo Van, and Khoat Than Modeling the sequential behaviors of online users in recommender systems In Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications II, volume 11413, page 114131O International Society for Optics and Photonics, 2020 [17] Hanhuai Shan and Arindam Banerjee Generalized probabilistic matrix factorizations for collaborative filtering In 2010 IEEE International Conference on Data Mining, pages 1025–1030 IEEE, 2010 Học viên thực hiện: Nguyễn Văn Túc, CB190201 57 [18] Anh Phan Tuan, Nhat Nguyen Trong, Duong Bui Trong, Linh Ngo Van, and Khoat Than From implicit to explicit feedback: A deep neural network for modeling the sequential behavior of online users In Asian Conference on Machine Learning, pages 1188–1203 PMLR, 2019 [19] Qinyong Wang, Hongzhi Yin, Zhiting Hu, Defu Lian, Hao Wang, and Zi Huang Neural memory streaming recommender networks with adversarial training In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 2467–2475, 2018 [20] Jian Wei, Jianhua He, Kai Chen, Yi Zhou, and Zuoyin Tang Collaborative filtering and deep learning based hybrid recommendation for cold start problem In 2016 IEEE 14th Intl Conf on Dependable, Autonomic and Secure Computing, 14th Intl Conf on Pervasive Intelligence and Computing, 2nd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress (DASC/PiCom/DataCom/CyberSciTech), pages 874–877 IEEE, 2016 Học viên thực hiện: Nguyễn Văn Túc, CB190201 ... tự động gợi ý video liên quan, gợi ý video mà người dùng thích, xem • Facebook gợi ý kết bạn, hiển thị quảng cáo, • Hệ thống gợi ý phim, videos: Netflix, MovieLens, MyClip.vn, • Gợi ý sản phẩm,... hành vi tiềm ẩn hành vi rõ ràng Sau chúng tơi trình bày hai phương pháp bật gần sử dụng kết hợp hai nhóm hành vi để cải thiện chất lượng hệ gợi ý 3.1 Hành vi tiềm ẩn hành vi rõ ràng toán gợi ý Trong. .. người dùng cần biết chọn lọc thông tin phù hợp với nhu cầu sở thích cá nhân Bài toán gợi ý đời nhằm giải vấn đề này, hệ thống với chế gợi ý hợp lý thúc đẩy tương tác người dùng hệ thống gợi ý

Tiêu đề	Mô Hình Hóa Chuỗi Hành Vi Người Dùng Trong Bài Toán Hệ Gợi Ý
Tác giả	Nguyễn Văn Túc
Người hướng dẫn	PGS. TS. Thân Quang Khoát
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	57
Dung lượng	1 MB