Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,47 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ANH DŨNG Ứng dụng mơ hình học sâu vào kĩ thuật lọc cộng tác dựa mô hình cho hệ thống khuyến nghị thương mại Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU Hà Nội – 09/2020 Mục lục LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU Chương 1: Tổng quan hệ thống khuyến nghị 1.Giới thiệu 2.Một số khái niệm chung hệ thống khuyến nghị 3.Phương thức hoạt động Hệ khuyến nghị 3.1.Phát biểu toán khuyến nghị 3.2.Các phương pháp tiếp cận xây dựng h 4.Các tiêu chuẩn đánh giá hệ khuyến nghị 4.1.Trung bình lỗi tuyệt đối 4.2.Sai số bình phương trung bình Chương 2: Hệ khuyến nghị dựa lọc cộng tác sử dụng kỹ thuật học sâu 1.Bài toán khuyến nghị dựa cộng tác 1.1.Lọc cộng tác dựa vào nhớ 1.2.Lọc cộng tác dựa mơ hình 2.Các mơ hình học sâu kết hợp với hệ khuyến nghị 2.1.Phân loại hệ thống khuyến nghị dựa t 2.2.Vai trò kỹ thuật học sâu 2.3.Một số hạn chế áp dụng mơ h Chương 3: Đề xuất mơ hình hệ khuyến nghị sử dụng kỹ thuật học sâu 1.Kiến trúc mơ hình 1.1.Lớp nhúng (Embedding layer): 1.2.Lớp nối (Concatenate layer): 1.3.Các lớp ẩn (Fully-connected layers): 1.4.Đầu hồi quy tuyến tính (Linear Reg 1.5.Hàm mục tiêu mơ hình: 2.Một số nhận xét mơ hình Chương 4: Cài đặt, thử nghiệm mơ hình đề xuất 1.Môi trường công cụ sử dụng 1.1.Bộ liệu mẫu Movielens 1.2.Thư viện MxNet 1.3.Máy chủ Colaboratory 2.Thực nghiệm đánh giá 2.1.Bộ liệu Movielens-20M: 2.2.Cài đặt thí nghiệm đánh giá kết thu 2.3.Đánh giá Kết luận Tài liệu tham khảo ii LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo TS Trần Trọng Hiếu – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình đào tạo, cung cấp cho tơi kiến thức vơ q giá, bổ ích tạo điều kiện tốt cho suốt trình học tập, nghiên cứu trường Cuối cùng, xin cảm ơn tất người thân u gia đình tồn thể bạn bè, đồng nghiệp người giúp đỡ, động viên tơi q trình học tập nghiên cứu chương trình sau đại học Đại học Cơng nghệ, ĐHQGHN Luận văn tài trợ đề tài cấp ĐHQGHN mã số QG-19.23 iii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ Quản lý hệ thống thơng tin “Ứng dụng mơ hình học sâu vào kĩ thuật lọc cộng tác dựa mơ hình cho hệ thống khuyến nghị thương mại” công trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng … năm 2020 Tác giả luận văn Trần Anh Dũng iv DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký C 10 11 12 13 R 14 v DANH MỤC HÌNH VẼ Hình 1.1: Ma trận tương tác Người dùng – Sản phẩm Hình 1.2: Cách thức hoạt động lọc cộng tác .6 Hình 1.3: Cơ chế hoạt động lọc theo nội dung Hình 1.4: Cơ chế lọc kết hợp 12 Hình 2.1: Quy trình khuyến nghị dựa cộng tác 15 Hình 2.2: Lọc cộng tác dựa theo người dùng 16 Hình 2.3: Lọc cộng tác dựa theo sản phẩm 17 Hình 2.4: Phân loại kiến trúc hệ khuyến nghị dựa kỹ thuật học sâu 21 Hình 2.5: Mạng noron đa lớp 22 Hình 2.6: Bộ mã hóa tự động 23 Hình 2.7: Mạng noron tích chập 24 Hình 2.8: Mạng noron hồi tiếp 25 Hình 2.9: Mạng noron sáng tạo đối nghịch 25 Hình 2.10: Mơ hình học sâu tăng cường [27] 26 Hình 3.1: Kiến trúc mơ hình Lọc cộng tác sâu 29 Hình 3.2: Vector thưa đại diện cho người dùng u 30 Hình 3.3: Nối vector đặc tính ẩn đối tượng để tạo thành vector đặc tính 32 Hình 3.4: Hoạt động lớp ẩn 33 Hình 3.5: Kiến trúc mạng sâu MLP 34 Hình 3.6: Đồ thị hàm sigmoid 35 Hình 3.7: Minh họa thuật tốn hồi quy tuyến tính 36 Hình 4.1: Kiến trúc khung phần mềm MxNet 40 Hình 4.2: Số lượng phim xuất theo năm 43 Hình 4.3: Số lượng phim theo thể loại 43 Hình 4.4: Định dạng liệu movies.csv 44 Hình 4.5: Thống kê liệu ml-20m 44 Hình 4.6: Thống kê liệu rating theo thể loại phim 45 Hình 4.7: Số lượng rating theo thể loại phim 45 Hình 4.8: Định dạng liệu genome_scores.csv 46 Hình 4.9: Ma trận điểm phù hợp Phim - Thẻ 47 vi Hình 4.10: Input layer với thơng tin thể loại phim 49 Hình 4.11: Kết tiền xử lý liệu genome-scores 50 Hình 4.12: Input layer với thông tin thể loại phim thông tin thẻ phim .50 Hình 4.13: Biểu đồ RMSE theo Epochs 53 Hình 4.14: Biểu đồ RMSE với kịch khởi động nguội 54 vii DANH MỤC BẢNG BIỂU Bảng 4-1: So sánh công cụ Colab Colab Pro 42 Bảng 4-2: Thông số liệu mẫu Movielens-20M 43 Bảng 4-3: Thống kê ảnh hưởng việc thay đổi cấu hình MLP lên giá trị RMSE 51 Bảng 4-4: Thống kê kết thí nghiệm 51 Bảng 4-5: Kết thí nghiệm kịch cold-start 52 viii Hình 4.9: Ma trận điểm phù hợp Phim - Thẻ 2.2 Cài đặt thí nghiệm đánh giá kết thu Nhằm kiểm tra khả mơ hình đề xuất việc mơ lại mối quan hệ phi tuyến tính tiềm ẩn ma trận Người dùng – Sản phẩm, tác giả luận văn sử dụng thuật tốn phân tích thừa số ma trận (Matrix Factorization) tác giả Funk [33] xây dựng làm mơ hình sở để đánh giá Phương pháp phân tích thừa số ma trận sử dụng hệ thống khuyến nghị để trích xuất vector nhân tố ẩn (latent factors) từ ma trận Người dùng – Sản phẩm để mô tả đặc điểm người dùng mặt hàng Tương tác (việc xếp hạng) người dùng sản phẩm xấp xỉ tích vơ hướng hai vector khơng gian ẩn (latent space) Theo đó, Item j mô tả vector User i mô tả vector Giá trị xếp hạng người dùng cho mặt hàng xấp xỉ theo công thức: ≈ ⃗⃗ ⋅⃗ 47 Mã nguồn cài đặt mơ hình đưa lên trang Github địa chỉ: https://github.com/anhdung28888/deepcf/blob/master/MxNet_Deep_Collaborative_Filtering_ml_20m_thesis_final.ipynb 2.2.1 Trường hợp liệu thưa 2.2.1.1 Mơ hình Genre DeepCF: Căn định dạng liệu chi tiết phim mô tả Hình 4.4: Định dạng liệu, trường genres chứa thông tin thể loại phim dạng text, phim thuộc nhiều thể loại, thông tin thể loại ngăn cách dấu “|” Do để chuẩn bị liệu đầu vào cho mơ hình, tác giả thực thủ tục tiền xử lý liệu sau: Chuyển đổi liệu thể loại phim từ dạng chuỗi sang dạng số ngun: ✓ Trích xuất tập hợp thơng tin thể loại phim ✓ Với phần tử tập hợp , thực gán thông tin _ Ánh xạ thông tin thể loại phim cho phim: ✓ Tạo mảng _ _ với số movieId phần tử nhận giá trị mảng _ 48 Người dùng Lớp nhúng Lớp nối MLP Hồi quy tuyến tính Hình 4.10: Input layer với thơng tin thể loại phim 2.2.1.2 Mơ hình Genre-Tag DeepCF: Căn định dạng liệu genome-scores mơ tả Hình 4.8, nhằm bổ sung liệu thẻ cho phim, tác giả thực tiền xử lý liệu sau: Trích xuất thơng tin thẻ có độ phù hợp cao với phim: ✓ Gom liệu bảng genome-scores theo movieId ✓ Trích xuất cặp liệu (movieId, tagId) có điểm relevance lớn vào dataframe 49 Ánh xạ lại thông tin thẻ cho phim: ✓ Tạo mảng _ với số movieId phần tử nhận giá trị mảng movieId Hình 4.11: Kết tiền xử lý liệu genome-scores Người dùng Lớp nhúng Lớp nối MLP Hồi quy tuyến tính Hình 4.12: Input layer với thơng tin thể loại phim thông tin thẻ phim 50 Số lượng layer Bảng 4-3: Thống kê ảnh hưởng việc thay đổi cấu hình MLP lên giá trị RMSE Epochs 10 20 50 Bảng 4-4: Thống kê kết thí nghiệm 2.2.2 Bài tốn Cold-start (Khởi động nguội) Nhằm đánh giá hiệu thuật toán DeepCF việc giải vấn đề khởi động nguội [32], tác giả đề xuất phương pháp đánh sau: Chuẩn bị kịch khởi động nguội: ✓ Trích xuất tập liệu cold-start: Chọn ngẫu nhiên 10% phim vào tập hợp chọn toàn liệu xếp hạng phim từ liệu xếp hạng 51 gốc đưa vào tập hợp Phần liệu xếp hạng lại sử dụng để huấn luyện mơ hình ✓ Huấn luyện mơ hình theo liệu Đánh giá hiệu thuật toán DeepCF: ✓ Tính sai số RMSE kết dự đốn giá trị rating giá trị rating thực tế tập hợp Epochs 10 20 50 Bảng 4-5: Kết thí nghiệm kịch cold-start 2.3 Đánh giá Đối với trường hợp liệu thưa mục 2.2.1, hiệu suất mơ hình DeepCF có tốc độ hội tụ nhanh so với mơ hình Funk MF: Với số lượt huấn luyện (epochs) từ – 10, hiệu suất mơ hình đề xuất tốt so với thuật toán gốc (giá trị RMSE nhỏ hơn) Tuy nhiên thời lượng huấn luyện lâu, mơ hình DeepCF có hiệu suất so với mơ hình Funk Matrix Factorization: 52 1.15 1.1 1.05 0.95 0.9 0.85 0.8 0.75 Hình 4.13: Biểu đồ RMSE theo Epochs Nguyên nhân gây tình trạng nói mơ hình DeepCF gặp phải tượng khớp khiến cho hiệu suất tập liệu validation đáng kể Để khắc phục tượng khớp cần bổ sung thêm vào hàm mục tiêu mơ hình thành phần điều hịa (regularization) Đối với tốn khởi động nguội nêu mục 2.2.2, hiệu suất mơ hình DeepCF tỏ vượt trội hẳn mơ hình Funk Matrix Factorization, mơ hình tích hợp nhiều thơng tin nội dung phim kết tốt hơn: 53 3.5 2.5 1.5 1 Hì Kết thí nghiệm biểu đồ khẳng định lại kết luận lý thuyết việc thuật toán khuyến nghị dựa lọc cộng tác túy tỏ không hiệu trường hợp xuất người dùng đối tượng Tuy nhiên hiệu suất thuật toán DeepCF tỏ tốt nhiều so với thuật tốn Funk MF cho thấy hiệu mơ hình học sâu MLP việc mơ quan hệ phi tuyến tính tiềm ẩn liệu Mặt khác, đồ thị cho thấy mơ hình DeepCF sử dụng thơng tin bổ trợ nhiều hiệu suất cải thiện Điều phù hợp với lý thuyết mát thông tin Hiện luận văn dừng lại việc kết hợp thơng tin bổ trợ cho phim, dataset Movielens cịn cung cấp thơng tin bổ trợ cho người dùng tuổi tác, giới tính Như hướng nghiên cứu luận văn vào cải tiến mơ hình DeepCF để sử dụng thông tin bổ trợ cho người dùng 54 Kết luận Các kết đạt Với ý tưởng nghiên cứu ứng dụng mơ hình học sâu vào hệ khuyến nghị, đề tài “ỨNG DỤNG CÁC MƠ HÌNH HỌC SÂU VÀO KĨ THUẬT LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH CHO CÁC HỆ THỐNG KHUYẾN NGHỊ THƯƠNG MẠI” đạt số mục tiêu sau: Luận văn trình bày kiến thức tổng quan hệ khuyến nghị phương pháp tiếp cận để xây dựng hệ thống khuyến nghị Hệ thống hóa sở lý thuyết hệ khuyến nghị phân tích, tổng hợp nghiên cứu liên quan nhằm đề quy trình lựa chọn cơng cụ thích hợp để xây dựng hệ thống khuyến nghị dựa lọc cộng tác Bước đầu xây dựng mơ hình kết hợp học sâu với kỹ thuật lọc cộng tác quy mô gần với thực tế đánh giá ưu, nhược điểm mô hình đề xuất so sánh với mơ hình khuyến nghị khác Hướng phát triển, mở rộng đề tài Nhằm cải thiện hiệu suất tương đương với số công trình cơng bố, mơ hình đề xuất tiếp tục nghiên cứu biện pháp mở rộng thêm đầu vào, tối ưu hóa siêu tham số huấn luyện điều chỉnh hàm mục tiêu mơ hình Với phát triển thương mại điện tử làm bùng nổ lượng thông tin không gian internet người dùng ngày có yêu cầu cao tính tiện ích hệ khuyến nghị, toán nhiều quan tâm nhà nghiên cứu hệ khuyến nghị toán gợi ý danh sách sản phẩm cho người dùng dựa sở thích Vì tương lai, tác giả nghiên cứu khả kết hợp mơ hình học sâu việc giải tốn nêu Hiện nay, việc nghiên cứu phát triển mơ hình học sâu đạt nhiều bước tiến lớn lĩnh vực học thuật áp dụng rộng rãi vào nhiều lĩnh vực thực tế đời sống thiết bị gia dụng thông minh có khả nhận lệnh điều khiển giọng nói, loại camera phát chuyển động thời gian thực,… Các nhà 55 nghiên cứu công ty phần mềm lớn cộng tác với để đưa số tiêu chuẩn mở nhằm giúp cho lập trình viên nhanh chóng cài đặt mơ hình học sâu lên ứng dụng Do để tối ưu hóa chi phí thời gian nghiên cứu, hướng phát triển luận văn tìm tịi nghiên cứu khả áp dụng chuẩn mở lưu trữ mơ hình học sâu để thử nghiệm hiệu mơ hình học sâu tiên tiến hệ khuyến nghị 56 Tài liệu tham khảo Isinkaye, F.O., Y.O Folajimi, and B.A Ojokoh, Recommendation systems: Principles, methods and evaluation Egyptian Informatics Journal, 2015 16(3): p 261-273 Guo, G Resolving Data Sparsity and Cold Start in Recommender Systems in User Modeling, Adaptation, and Personalization 2012 Berlin, Heidelberg: Springer Berlin Heidelberg Lops, P., M de Gemmis, and G Semeraro, Content-based Recommender Systems: State of the Art and Trends, in Recommender Systems Handbook, F Ricci, et al., Editors 2011, Springer US: Boston, MA p 73-105 Aggarwal, C.C., Model-Based Collaborative Filtering, in Recommender Systems: The Textbook 2016, Springer International Publishing: Cham p 71-138 Claypool, M., et al Combining Content-Based and Collaborative Filters in an Online Newspaper in SIGIR 1999 1999 Billsus, D and M.J Pazzani, A hybrid user model for news story classification, in Proceedings of the seventh international conference on User modeling 1999, Springer-Verlag: Banff, Canada p 99–108 Basu, C., H Hirsh, and W.W Cohen Recommendation as Classification: Using Social and Content-Based Information in Recommendation in AAAI/IAAI 1998 Burke, R., Knowledge-Based Recommender Systems Encyclopedia of library and information systems, 2000 69 Bennett, J., S Lanning, and N Netflix, The Netflix Prize 2009 10 Jannach, D., et al., Recommender Systems: An Introduction 2010: Cambridge University Press 11 Zhang, S., et al., Deep Learning Based Recommender System: A Survey and New Perspectives ACM Comput Surv., 2019 52(1): p Article 57 12 Mobasher, B., X Jin, and Y Zhou Semantically Enhanced Collaborative Filtering on the Web 2004 Berlin, Heidelberg: Springer Berlin Heidelberg 13 Kużelewska, U Advantages of Information Granulation in Clustering Algorithms 2013 Berlin, Heidelberg: Springer Berlin Heidelberg 14 Caruana, R and A Niculescu-Mizil, An empirical comparison of supervised learning algorithms, in Proceedings of the 23rd international conference on Machine learning 2006, Association for Computing Machinery: Pittsburgh, Pennsylvania, USA p 161–168 15 Larose, D.T., Discovering Knowledge in Data: An Introduction to Data Mining 2004: Wiley-Interscience 16 Ge, X., et al A new prediction approach based on linear regression for collaborative filtering in 2011 Eighth International Conference on Fuzzy Systems and Knowledge Discovery (FSKD) 2011 17 Koren, Y., R Bell, and C Volinsky, Matrix Factorization Techniques for Recommender Systems Computer, 2009 42(8): p 30-37 18 Candès, E.J and B Recht, Exact Matrix Completion via Convex Optimization Foundations of Computational Mathematics, 2009 9(6): p 717 19 Keshavan, R.H., A Montanari, and S Oh, Matrix Completion From a Few Entries IEEE Transactions on Information Theory, 2010 56(6): p 2980-2998 20 He, X., et al., Neural Collaborative Filtering, in Proceedings of the 26th International Conference on World Wide Web 2017, International World Wide Web Conferences Steering Committee: Perth, Australia p 173–182 21 Dziugaite, G.K and D.M Roy, Neural Network Matrix Factorization ArXiv, 2015 abs/1511.06443 22 Sedhain, S., et al., AutoRec: Autoencoders Meet Collaborative Filtering, in Proceedings of the 24th International Conference on World Wide Web 2015, Association for Computing Machinery: Florence, Italy p 111–112 58 23 He, X., et al., Outer product-based neural collaborative filtering, in Proceedings of the 27th International Joint Conference on Artificial Intelligence 2018, AAAI Press: Stockholm, Sweden p 2227–2233 24 Zhao, X., et al., Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018 25 Zhao, X., et al., Deep reinforcement learning for page-wise recommendations, in Proceedings of the 12th ACM Conference on Recommender Systems 2018, Association for Computing Machinery: Vancouver, British Columbia, Canada p 95–103 26 Zheng, G., et al., DRN: A Deep Reinforcement Learning Framework for News Recommendation 2018 167-176 27 Mao, H., et al., Resource Management with Deep Reinforcement Learning, in Proceedings of the 15th ACM Workshop on Hot Topics in Networks 2016, Association for Computing Machinery: Atlanta, GA, USA p 50–56 28 Schreiber, J., Deep matrix factorization using Apache MXNet 2017 29 Xue, H.-J., et al., Deep matrix factorization models for recommender systems, in Proceedings of the 26th International Joint Conference on Artificial Intelligence 2017, AAAI Press: Melbourne, Australia p 3203–3209 30 Vig, J., S Sen, and J Riedl, The Tag Genome: Encoding Community Knowledge to Support Novel Interaction ACM Trans Interact Intell Syst., 2012 2(3): p Article 13 31 Sen, S., J Vig, and J Riedl Tagommenders: connecting users to items through tags in WWW '09 2009 32 Xu, J., et al., Ice-breaking: mitigating cold-start recommendation problem by rating comparison, in Proceedings of the 24th International Conference on Artificial Intelligence 2015, AAAI Press: Buenos Aires, Argentina p 3981–3987 59 33 S Funk, “Netflix Update: Try This at Home,” Dec 2006; http://sifter.org/~simon/journal/20061211.html 34 https://paperswithcode.com/sota/collaborative-filtering-on-movielens-10m 35 https://www.statista.com/ 36 https://www.bigcommerce.com/blog/amazon-statistics/ 37 https://www.omnicoreagency.com/twitter-statistics/ 38 https://mathworld.wolfram.com/FrobeniusNorm.html 39 https://mxnet.apache.org/versions/1.4.1/architecture/overview.html 40 https://mxnet.apache.org/versions/1.7/api/python/docs/api/symbol/symbol.html 60 ... Chương 2: Hệ khuyến nghị dựa lọc cộng tác sử dụng kỹ thuật học sâu 1.Bài toán khuyến nghị dựa cộng tác 1.1 .Lọc cộng tác dựa vào nhớ 1.2 .Lọc cộng tác dựa mơ hình 2 .Các mơ hình học sâu kết... mơ hình học sâu hệ khuyến nghị lai ghép sâu kết hợp nhiều mơ hình học sâu để đưa kết khuyến nghị Hệ khuyến nghị với khối sở mạng noron Hệ khuyến nghị dựa học sâu Hệ khuyến nghị sử dụng mơ hình. .. dựng hệ khuyến nghị áp dụng mơ hình học sâu 2.1 Phân loại hệ thống khuyến nghị dựa kiến trúc hệ thống Một cách tổng quát, hệ thống khuyến nghị sử dụng mô hình học sâu phân loại thành loại [11] hệ