Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

66 16 0
Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục lục LỜI CẢM ƠN iii LỜI CAM ĐOAN iv DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU viii Chương 1: Tổng quan hệ thống khuyến nghị 1 Giới thiệu Một số khái niệm chung hệ thống khuyến nghị Phương thức hoạt động Hệ khuyến nghị 3.1 Phát biểu toán khuyến nghị 3.2 Các phương pháp tiếp cận xây dựng hệ thống khuyến nghị Các tiêu chuẩn đánh giá hệ khuyến nghị 12 4.1 Trung bình lỗi tuyệt đối 13 4.2 Sai số bình phương trung bình 13 Chương 2: Hệ khuyến nghị dựa lọc cộng tác sử dụng kỹ thuật học sâu 15 Bài toán khuyến nghị dựa cộng tác 15 1.1 Lọc cộng tác dựa vào nhớ 15 1.2 Lọc cộng tác dựa mơ hình 18 Các mơ hình học sâu kết hợp với hệ khuyến nghị 21 2.1 Phân loại hệ thống khuyến nghị dựa kiến trúc hệ thống 21 2.2 Vai trò kỹ thuật học sâu toán khuyến nghị 27 2.3 Một số hạn chế áp dụng mơ hình học sâu cho hệ khuyến nghị 28 Chương 3: Đề xuất mơ hình hệ khuyến nghị sử dụng kỹ thuật học sâu 29 Kiến trúc mơ hình 29 1.1 Lớp nhúng (Embedding layer): 29 1.2 Lớp nối (Concatenate layer): 31 1.3 Các lớp ẩn (Fully-connected layers): 32 1.4 Đầu hồi quy tuyến tính (Linear Regression Output): 36 i 1.5 Hàm mục tiêu mơ hình: 37 Một số nhận xét mơ hình 38 Chương 4: Cài đặt, thử nghiệm mơ hình đề xuất 39 Môi trường công cụ sử dụng 39 1.1 Bộ liệu mẫu Movielens 39 1.2 Thư viện MxNet 39 1.3 Máy chủ Colaboratory 41 Thực nghiệm đánh giá 42 2.1 Bộ liệu Movielens-20M: 42 2.2 Cài đặt thí nghiệm đánh giá kết thu 47 2.3 Đánh giá 52 Kết luận 55 Tài liệu tham khảo 57 ii DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu RS Diễn giải Recommender Tiếng Việt Hệ khuyến nghị System/RecSys U User Người dùng I Item Sản phẩm IF Information Filtering Lọc thông tin CBF Content-Based Filtering Lọc thông tin dựa nội dung CF Collaborative Filtering Lọc thông tin dựa cộng tác R Interaction Matrix/Utility Ma trận ghi nhận đánh giá người Matrix dùng sản phẩm tương tác Relevant Độ phù hợp Sparsity problem Vấn đề liệu thưa 10 Cold-start problem Vấn đề khởi động nguội r 11 ML Machine Learning Học máy 12 DL Deep Learning Học sâu 13 RMSE Root Mean Squared Hàm sai số trung bình bình phương Error 14 MF Matrix Factorization Phân tích thừa số ma trận v DANH MỤC HÌNH VẼ Hình 1.1: Ma trận tương tác Người dùng – Sản phẩm Hình 1.2: Cách thức hoạt động lọc cộng tác Hình 1.3: Cơ chế hoạt động lọc theo nội dung Hình 1.4: Cơ chế lọc kết hợp 12 Hình 2.1: Quy trình khuyến nghị dựa cộng tác 15 Hình 2.2: Lọc cộng tác dựa theo người dùng 16 Hình 2.3: Lọc cộng tác dựa theo sản phẩm 17 Hình 2.4: Phân loại kiến trúc hệ khuyến nghị dựa kỹ thuật học sâu 21 Hình 2.5: Mạng noron đa lớp 22 Hình 2.6: Bộ mã hóa tự động 23 Hình 2.7: Mạng noron tích chập 24 Hình 2.8: Mạng noron hồi tiếp 25 Hình 2.9: Mạng noron sáng tạo đối nghịch 25 Hình 2.10: Mơ hình học sâu tăng cường [27] 26 Hình 3.1: Kiến trúc mơ hình Lọc cộng tác sâu 29 Hình 3.2: Vector thưa đại diện cho người dùng u 30 Hình 3.3: Nối vector đặc tính ẩn đối tượng để tạo thành vector đặc tính 32 Hình 3.4: Hoạt động lớp ẩn 33 Hình 3.5: Kiến trúc mạng sâu MLP 34 Hình 3.6: Đồ thị hàm sigmoid 35 Hình 3.7: Minh họa thuật tốn hồi quy tuyến tính 36 Hình 4.1: Kiến trúc khung phần mềm MxNet 40 Hình 4.2: Số lượng phim xuất theo năm 43 Hình 4.3: Số lượng phim theo thể loại 43 Hình 4.4: Định dạng liệu movies.csv 44 Hình 4.5: Thống kê liệu ml-20m 44 Hình 4.6: Thống kê liệu rating theo thể loại phim 45 Hình 4.7: Số lượng rating theo thể loại phim 45 Hình 4.8: Định dạng liệu genome_scores.csv 46 Hình 4.9: Ma trận điểm phù hợp Phim - Thẻ 47 vi Hình 4.10: Input layer với thơng tin thể loại phim 49 Hình 4.11: Kết tiền xử lý liệu genome-scores 50 Hình 4.12: Input layer với thông tin thể loại phim thơng tin thẻ phim 50 Hình 4.13: Biểu đồ RMSE theo Epochs 53 Hình 4.14: Biểu đồ RMSE với kịch khởi động nguội 54 vii DANH MỤC BẢNG BIỂU Bảng 4-1: So sánh công cụ Colab Colab Pro 42 Bảng 4-2: Thông số liệu mẫu Movielens-20M 43 Bảng 4-3: Thống kê ảnh hưởng việc thay đổi cấu hình MLP lên giá trị RMSE 51 Bảng 4-4: Thống kê kết thí nghiệm 51 Bảng 4-5: Kết thí nghiệm kịch cold-start 52 viii Chương 1: Tổng quan hệ thống khuyến nghị Giới thiệu Trong trình phát triển ngành thương mại bán lẻ hàng hóa, dịch vụ, vấn đề nắm bắt thị hiếu, sở thích người tiêu dùng vấn đề có tính tảng, sống cịn ngành mà người bán lẻ muốn tồn thương trường cần phải giải thật tốt Trước máy tính đời, người bán lẻ thực nhiều biện pháp để ghi nhận thói quen người tiêu dùng sử dụng hóa đơn bán hàng để xem xét mặt hàng thường mua sắm nhau, vấn người mua sở thích mua sắm họ để từ đưa biện pháp giúp tối đa hóa doanh thu, tối ưu hóa chi phí doanh nghiệp Ví dụ, vào cửa hàng sách quen thuộc, chủ cửa hàng giới thiệu cho người khách vài sách tờ báo mà người khách quan tâm dựa sở thích thói quen khách Hiện với phát triển bùng nổ Internet làm xuất nhà cung cấp hàng hóa, dịch vụ hoạt động trực tuyến mạng xã hội cung cấp vô số thông tin sản phẩm, dịch vụ Ví dụ, năm 2019 phút có khoảng 500 phát video clip tải lên Youtube [35] , danh mục sản phẩm Amazon năm 2018 vào khoảng 12.000.000 sản phẩm [36], năm 2019 số lượng tweet xuất ngày Twitter 500 triệu dòng [37], Với lượng thơng tin đồ sộ vậy, nói Internet làm cho người dùng khơng cịn có đủ thời gian để xem xét lựa chọn tất thơng tin, phim, tạp chí hay hát… Người dùng khơng biết nên xem phim gì, đọc sách phù hợp với sở thích, nhu cầu thân Hơn nữa, doanh nghiệp việc phục vụ hàng hóa, dịch vụ sở thích, thị hiếu khách hàng giúp tối đa hóa doanh thu, đồng thời giúp lập kế hoạch dự trữ hàng hóa thích hợp để tối ưu hóa chi phí vận hành, từ làm gia tăng lợi nhuận cho doanh nghiệp Trong lĩnh vực xây dựng hệ tư vấn có nhiệm vụ cần giải dự đoán xếp hạng cho mặt hàng gợi ý danh sách mặt hàng [1] Nhiệm vụ dự đoán xếp hạng (rate prediction) nhằm mục tiêu tối ưu hóa dự đốn mức độ ưa thích người dùng mặt hàng cụ thể, nhiệm vụ gợi ý danh sách mặt hàng (ranking) nhằm giải vấn đề gợi ý cho người dùng danh sách mặt hàng mà họ nhiều khả có tương tác Trong hai nhiệm vụ nói trên, nhiệm vụ dự đốn xếp hạng người dùng cho sản phẩm đóng vai trị quan trọng điểm xếp hạng người dùng phản ánh mức độ hài lòng người dùng sản phẩm/dịch vụ Trong luận văn tập trung giải nhiệm vụ dự đoán xếp hạng người dùng sản phẩm Một số khái niệm chung hệ thống khuyến nghị Hệ thống khuyến nghị (Recommender System viết tắt RS) hệ thống sử dụng kỹ thuật công cụ phần mềm xử lý liệu người dùng liệu sản phẩm nhằm đáp ứng nhu cầu người dùng sản phẩm dịch vụ Trên sở thông tin khứ hành vi người dùng, hệ thống thực khai phá thông tin sở thích, thị hiếu tiêu dùng từ đưa gợi ý để hỗ trợ người dùng đưa định lựa chọn sản phẩm, dịch vụ đáp ứng sở thích Mặt hàng (Item) thuật ngữ chung để người dùng có tương tác hệ thống khuyến nghị Item sách, phim, truyện, tin tức Thông thường hệ thống khuyến nghị xây dựng phù hợp với loại hình sản phẩm định để đảm bảo hiệu khuyến nghị cho Item Trên thực tế để thu thập liệu Hồ sơ người dùng (User profile), người ta thường sử dụng theo hai phương pháp phương pháp phản hồi tường minh (explicit feedback) phương pháp phản hồi ẩn (implicit feedback) Đối với phương pháp phản hồi tường minh, hệ thống yêu cầu người dùng thực xếp hạng cụ thể cho Item để xây dựng hồ sơ người dùng Phương pháp cung cấp liệu người dùng trực tiếp cho hệ thống khuyến nghị (không phải thực công đoạn biến đổi trung gian) kết khuyến nghị đánh giá đáng tin cậy [1] Tuy cho đem lại kết khuyến nghị đáng tin cậy phương pháp yêu cầu người dùng phải thực thêm số thao tác với hệ thống, số trường hợp làm giảm trải nghiệm người dùng Bên cạnh đó, tâm lý chung người dùng không muốn chia sẻ q nhiều thơng tin mang tính chất riêng tư làm cho phương thức thu thập phản hồi tường minh thường gặp khó khăn q trình triển khai thực tế Nhằm khắc phục mặt hạn chế phương pháp thu thập phản hồi tường minh, phương pháp thu thập phản hồi ẩn ghi nhận dấu vết mà người dùng để lại hệ thống lịch sử mua hàng, lịch sử truy cập website, thời gian xem trang web, số lần click chuột vào siêu liên kết,… để suy luận thông tin sở thích người dùng Phương pháp giúp cải thiện trải nghiệm người dùng hệ thống nhiên khả mơ tả sở thích người dùng cho không tốt phương pháp phản hồi tường minh hệ thống phải thực khâu biến đổi trung gian để trích xuất thơng tin từ hành vi người dùng [1] Ma trận tương tác Người dùng – Sản phẩm (Utility Matrix/User – Item matrix) sở liệu mơ tả sở thích User với Item hệ thống Về mặt hình thức, sở liệu biểu diễn dạng ma trận hàng tương ứng với User, cột tương ứng với Item, giá trị ô ma trận giá trị rating User cho Item Mặt hàng 1 Mặt hàng Mặt hàng … Mặt hàng n ? … … … … … … … Người dùng m ? … Người dùng Người dùng ? 𝑹 Hình 1.1: Ma trận tương tác Người dùng – Sản phẩm Xuất phát từ nguyên nhân tâm lý, người dùng đánh giá tất Item mà họ trải nghiệm, thông thường người dùng đánh giá Item trạng thái tích cực (rất thích) tiêu cực (rất ghét) Vì thực tế ma trận tương tác Người dùng – Sản phẩm nói thường bị khuyết giá trị nhiều ô, vấn đề gọi vấn đề liệu thưa (data sparsity)[2] Vấn đề liệu thưa ma trận tương tác dẫn đến hệ thuật toán khuyến nghị dựa nhớ (memory-based recommendation algorithms)[1] hoạt động không hiệu Bên cạnh đó, trường hợp hệ thống xuất người dùng item chưa có tương tác ma trận Người dùng – Sản phẩm xuất hàng/cột bị trống hoàn toàn Vấn đề gọi vấn đề khởi động nguội (cold-start problem)[2] xảy hệ khuyến nghị dựa cộng tác hệ thống gặp phải item hoàn toàn khơng có tương tác nào, hệ khuyến nghị khơng thể khai thác thơng tin sở thích giống nhóm người dùng/item để đưa khuyến nghị Phương thức hoạt động Hệ khuyến nghị Trong thực tế, người tiêu dùng thực hành vi mua hàng, việc định họ thường đưa theo hai cách tiếp cận chính: Một xem xét thông tin chi tiết sản phẩm tính năng, cơng dụng, thành phần,… tùy thuộc vào mức độ phù hợp với nhu cầu sử dụng để đưa định Hai người dùng tham khảo ý kiến người xung quanh mức độ hài lòng sản phẩm để đưa định mua sắm Xuất phát từ quan sát nêu trên, hệ thống RS mô lại trình định người dùng theo hai cách tiếp cận khuyến nghị dựa lọc theo nội dung khuyến nghị dựa lọc theo cộng tác Trong cách tiếp cận dựa lọc theo nội dung, hệ thống RS dựa lịch sử tương tác người dùng với đối tượng thông tin thuộc tính đối tượng (nội dung đối tượng) để tìm thuộc tính (đặc tính) có ảnh hưởng lớn đến đánh giá người dùng Đặc điểm sở thích người dùng dựa đặc tính sản phẩm biểu diễn vector 𝑃𝑟𝑜𝑓𝑖𝑙𝑒(𝑈) = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) có phần tử tương ứng với yếu tố nội dung cấu tạo nên sản phẩm, giá trị trọng số 𝑤𝑖 mô tả tầm quan trọng thành phần nội dung thứ 𝑖 ảnh hưởng tới sở thích người dùng Tương tự với việc xây dựng User Profile, hệ thống RS sử dụng kỹ thuật Truy hồi thông tin (Information Retrieval – IR) nhằm phân tích đối tượng I dạng vector trọng số 𝐶𝑜𝑛𝑡𝑒𝑛𝑡(𝐼) = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) thành phần nội dung Ví dụ, thơng thường thơng tin mơ tả đối tượng thường thể dạng văn đoạn văn, viết, mẩu tin ngắn,… hệ thống RS sử dụng kỹ thuật IR trích xuất đặc tính từ khóa, n-grams, thực thể,… để xây dựng mơ hình đối tượng dạng vector từ khóa [3] Như vậy, theo cách tiếp cận lọc dựa nội dung, hệ thống RS thực ánh xạ sở thích người dùng nội dung đối tượng vào không gian vector (không gian thuộc tính sản phẩm) Do để đánh giá độ phù hợp sản phẩm I với người dùng U, hệ thống RS sử dụng độ đo cosine để đo lường tương đồng vector: tiện hữu hiệu giúp người dùng tìm kiếm hiểu biết vật, thông tin thẻ nguồn liệu hữu ích giúp cải thiện hiệu cho thuật toán khuyến nghị dựa cộng tác [31] movieId tagId relevance 1 0.02500 0.02500 0.05775 0.09675 0.14675 Hình 4.8: Định dạng liệu genome_scores.csv Khác với liệu xếp hạng ma trận liệu thưa, ma trận Tag-Genome ma trận dày, tất phim đánh giá điểm phù hợp với thẻ Điểm phù hợp (genome score) phim với thẻ số thực nằm dải [0; 1], liệu ml-20m có 1.128 thẻ phim mô tả thông tin nội dung vector có độ dài 1.128 phần tử 46 Hình 4.9: Ma trận điểm phù hợp Phim - Thẻ 2.2 Cài đặt thí nghiệm đánh giá kết thu Nhằm kiểm tra khả mơ hình đề xuất việc mô lại mối quan hệ phi tuyến tính tiềm ẩn ma trận Người dùng – Sản phẩm, tác giả luận văn sử dụng thuật tốn phân tích thừa số ma trận (Matrix Factorization) tác giả Funk [33] xây dựng làm mơ hình sở để đánh giá Phương pháp phân tích thừa số ma trận sử dụng hệ thống khuyến nghị để trích xuất vector nhân tố ẩn (latent factors) từ ma trận Người dùng – Sản phẩm để mô tả đặc điểm người dùng mặt hàng Tương tác (việc xếp hạng) người dùng sản phẩm xấp xỉ tích vơ hướng hai vector không gian ẩn (latent space) Theo đó, Item j mơ tả vector 𝑉𝑗 User i mô tả vector 𝑈𝑖 Giá trị xếp hạng người dùng 𝑈𝑖 cho mặt hàng 𝑉𝑗 xấp xỉ theo công thức: 𝑟̂𝑢𝑖 ≈ ⃗⃗⃗ 𝑈𝑖 ⋅ ⃗⃗𝑉𝑗 47 Mã nguồn cài đặt mơ hình đưa lên trang Github địa chỉ: https://github.com/anhdung28888/deepcf/blob/master/MxNet_Deep_Collaborative_Filtering_ml_20m_thesis_final.ipynb 2.2.1 Trường hợp liệu thưa 2.2.1.1 Mơ hình Genre DeepCF: Căn định dạng liệu chi tiết phim mơ tả Hình 4.4: Định dạng liệu, trường genres chứa thông tin thể loại phim dạng text, phim thuộc nhiều thể loại, thông tin thể loại ngăn cách dấu “|” Do để chuẩn bị liệu đầu vào cho mơ hình, tác giả thực thủ tục tiền xử lý liệu sau: Chuyển đổi liệu thể loại phim từ dạng chuỗi sang dạng số nguyên: ✓ Trích xuất tập hợp thông tin thể loại phim 𝐺 ✓ Với phần tử tập hợp 𝐺, thực gán thông tin 𝑙𝑎𝑏𝑒𝑙_𝑖𝑑𝑥𝑠 Ánh xạ thông tin thể loại phim cho phim: ✓ Tạo mảng 𝑡𝑟𝑎𝑖𝑛_𝑔𝑒𝑛𝑟𝑒𝑠 𝑣𝑎𝑙𝑖𝑑_𝑔𝑒𝑛𝑟𝑒𝑠 với số movieId phần tử nhận giá trị mảng 𝑙𝑎𝑏𝑒𝑙_𝑖𝑑𝑥𝑠 48 Người dùng Phim Thể loại Lớp nhúng Lớp nhúng Lớp nhúng Lớp nối MLP Hồi quy tuyến tính Hình 4.10: Input layer với thơng tin thể loại phim 2.2.1.2 Mơ hình Genre-Tag DeepCF: Căn định dạng liệu genome-scores mơ tả Hình 4.8, nhằm bổ sung liệu thẻ cho phim, tác giả thực tiền xử lý liệu sau: Trích xuất thơng tin thẻ có độ phù hợp cao với phim: ✓ Gom liệu bảng genome-scores theo movieId ✓ Trích xuất cặp liệu (movieId, tagId) có điểm relevance lớn vào dataframe 𝑡𝑎𝑔𝑠 49 Ánh xạ lại thông tin thẻ cho phim: ✓ Tạo mảng 𝑙𝑎𝑏𝑒𝑙_𝑡𝑎𝑔 với số movieId phần tử nhận giá trị mảng 𝑡𝑎𝑔𝑖𝑑 movieId tagId relevance 1036 0.99925 29 0.98100 451 0.97450 1116 0.97675 451 0.96575 … … … Hình 4.11: Kết tiền xử lý liệu genome-scores Người dùng Phim Thể loại Thẻ phim Lớp nhúng Lớp nhúng Lớp nhúng Lớp nhúng Lớp nối MLP Hồi quy tuyến tính Hình 4.12: Input layer với thông tin thể loại phim thông tin thẻ phim 50 Số lượng layer RMSE (Validation) @ 50 epochs DeepCF DeepCF with DeepCF with Genre Genre-Tag 0,826919 0,827035 0,826118 0,847022 0,839135 0,837378 0,840093 0,839927 0,844590 Bảng 4-3: Thống kê ảnh hưởng việc thay đổi cấu hình MLP lên giá trị RMSE Epochs Funk MF DeepCF DeepCF with Genre DeepCF with Genre-Tag RMSE RMSE % thay RMSE % thay RMSE % thay đổi so đổi so đổi so với Funk với Funk với Funk MF MF MF 10 0,829147 0,826606 0,31% 0,827999 0,14% 0,822100 0,85% 20 0,785532 0,823505 -4,83% 0,825408 -5,08% 0,821545 -4,58% 50 0,813484 0,847022 -4,12% 0,839135 -3,15% 0,837378 -2,94% Bảng 4-4: Thống kê kết thí nghiệm 2.2.2 Bài tốn Cold-start (Khởi động nguội) Nhằm đánh giá hiệu thuật toán DeepCF việc giải vấn đề khởi động nguội [32], tác giả đề xuất phương pháp đánh sau: Chuẩn bị kịch khởi động nguội: ✓ Trích xuất tập liệu cold-start: Chọn ngẫu nhiên 10% phim vào tập hợp 𝐼𝑐 chọn toàn liệu xếp hạng phim từ liệu xếp hạng 51 gốc đưa vào tập hợp 𝑅𝑐 Phần liệu xếp hạng lại 𝑅𝑐 sử dụng để huấn luyện mơ hình ✓ Huấn luyện mơ hình theo liệu 𝑅𝑤 Đánh giá hiệu thuật tốn DeepCF: ✓ Tính sai số RMSE kết dự đoán giá trị rating giá trị rating thực tế Epochs tập hợp 𝑅𝑐 Funk MF DeepCF DeepCF with Genre DeepCF with GenreTag RMSE RMSE % thay đổi RMSE % thay đổi so với so với Funk MF Funk MF 10 3,700010 1,273941 1,256807 1,34% 1,157541 9,14% 20 3,699980 1,245097 1,234086 0,88% 1,143547 8,16% 50 3,699934 1,346252 1,208109 10,26% 1,139432 15,36% Bảng 4-5: Kết thí nghiệm kịch cold-start 2.3 Đánh giá Đối với trường hợp liệu thưa mục 2.2.1, hiệu suất mơ hình DeepCF có tốc độ hội tụ nhanh so với mô hình Funk MF: Với số lượt huấn luyện (epochs) từ – 10, hiệu suất mơ hình đề xuất tốt so với thuật toán gốc (giá trị RMSE nhỏ hơn) Tuy nhiên thời lượng huấn luyện lâu, mơ hình DeepCF có hiệu suất so với mơ hình Funk Matrix Factorization: 52 Funk MF DCF Genre DCF Genre-Tag DCF 1.15 1.1 1.05 0.95 0.9 0.85 0.8 0.75 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Hình 4.13: Biểu đồ RMSE theo Epochs Nguyên nhân gây tình trạng nói mơ hình DeepCF gặp phải tượng q khớp khiến cho hiệu suất tập liệu validation đáng kể Để khắc phục tượng khớp cần bổ sung thêm vào hàm mục tiêu mơ hình thành phần điều hịa (regularization) Đối với toán khởi động nguội nêu mục 2.2.2, hiệu suất mơ hình DeepCF tỏ vượt trội hẳn mơ hình Funk Matrix Factorization, mơ hình tích hợp nhiều thơng tin nội dung phim kết tốt hơn: 53 Funk MF DCF Genre DCF Genre-Tag DCF 3.5 2.5 1.5 1 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Hình 4.14: Biểu đồ RMSE với kịch khởi động nguội Kết thí nghiệm biểu đồ khẳng định lại kết luận lý thuyết việc thuật toán khuyến nghị dựa lọc cộng tác túy tỏ không hiệu trường hợp xuất người dùng đối tượng Tuy nhiên hiệu suất thuật toán DeepCF tỏ tốt nhiều so với thuật toán Funk MF cho thấy hiệu mơ hình học sâu MLP việc mơ quan hệ phi tuyến tính tiềm ẩn liệu Mặt khác, đồ thị cho thấy mô hình DeepCF sử dụng thơng tin bổ trợ nhiều hiệu suất cải thiện Điều phù hợp với lý thuyết mát thông tin Hiện luận văn dừng lại việc kết hợp thông tin bổ trợ cho phim, dataset Movielens cịn cung cấp thơng tin bổ trợ cho người dùng tuổi tác, giới tính Như hướng nghiên cứu luận văn vào cải tiến mô hình DeepCF để sử dụng thơng tin bổ trợ cho người dùng 54 Kết luận Các kết đạt Với ý tưởng nghiên cứu ứng dụng mơ hình học sâu vào hệ khuyến nghị, đề tài “ỨNG DỤNG CÁC MƠ HÌNH HỌC SÂU VÀO KĨ THUẬT LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH CHO CÁC HỆ THỐNG KHUYẾN NGHỊ THƯƠNG MẠI” đạt số mục tiêu sau: Luận văn trình bày kiến thức tổng quan hệ khuyến nghị phương pháp tiếp cận để xây dựng hệ thống khuyến nghị Hệ thống hóa sở lý thuyết hệ khuyến nghị phân tích, tổng hợp nghiên cứu liên quan nhằm đề quy trình lựa chọn cơng cụ thích hợp để xây dựng hệ thống khuyến nghị dựa lọc cộng tác Bước đầu xây dựng mơ hình kết hợp học sâu với kỹ thuật lọc cộng tác quy mô gần với thực tế đánh giá ưu, nhược điểm mơ hình đề xuất so sánh với mơ hình khuyến nghị khác Hướng phát triển, mở rộng đề tài Nhằm cải thiện hiệu suất tương đương với số cơng trình cơng bố, mơ hình đề xuất tiếp tục nghiên cứu biện pháp mở rộng thêm đầu vào, tối ưu hóa siêu tham số huấn luyện điều chỉnh hàm mục tiêu mơ hình Với phát triển thương mại điện tử làm bùng nổ lượng thông tin không gian internet người dùng ngày có yêu cầu cao tính tiện ích hệ khuyến nghị, tốn nhiều quan tâm nhà nghiên cứu hệ khuyến nghị toán gợi ý danh sách sản phẩm cho người dùng dựa sở thích Vì tương lai, tác giả nghiên cứu khả kết hợp mơ hình học sâu việc giải toán nêu Hiện nay, việc nghiên cứu phát triển mơ hình học sâu đạt nhiều bước tiến lớn lĩnh vực học thuật áp dụng rộng rãi vào nhiều lĩnh vực thực tế đời sống thiết bị gia dụng thơng minh có khả nhận lệnh điều khiển giọng nói, loại camera phát chuyển động thời gian thực,… Các nhà 55 nghiên cứu công ty phần mềm lớn cộng tác với để đưa số tiêu chuẩn mở nhằm giúp cho lập trình viên nhanh chóng cài đặt mơ hình học sâu lên ứng dụng Do để tối ưu hóa chi phí thời gian nghiên cứu, hướng phát triển luận văn tìm tịi nghiên cứu khả áp dụng chuẩn mở lưu trữ mơ hình học sâu để thử nghiệm hiệu mơ hình học sâu tiên tiến hệ khuyến nghị 56 Tài liệu tham khảo Isinkaye, F.O., Y.O Folajimi, and B.A Ojokoh, Recommendation systems: Principles, methods and evaluation Egyptian Informatics Journal, 2015 16(3): p 261-273 Guo, G Resolving Data Sparsity and Cold Start in Recommender Systems in User Modeling, Adaptation, and Personalization 2012 Berlin, Heidelberg: Springer Berlin Heidelberg Lops, P., M de Gemmis, and G Semeraro, Content-based Recommender Systems: State of the Art and Trends, in Recommender Systems Handbook, F Ricci, et al., Editors 2011, Springer US: Boston, MA p 73-105 Aggarwal, C.C., Model-Based Collaborative Filtering, in Recommender Systems: The Textbook 2016, Springer International Publishing: Cham p 71-138 Claypool, M., et al Combining Content-Based and Collaborative Filters in an Online Newspaper in SIGIR 1999 1999 Billsus, D and M.J Pazzani, A hybrid user model for news story classification, in Proceedings of the seventh international conference on User modeling 1999, Springer-Verlag: Banff, Canada p 99–108 Basu, C., H Hirsh, and W.W Cohen Recommendation as Classification: Using Social and Content-Based Information in Recommendation in AAAI/IAAI 1998 Burke, R., Knowledge-Based Recommender Systems Encyclopedia of library and information systems, 2000 69 Bennett, J., S Lanning, and N Netflix, The Netflix Prize 2009 10 Jannach, D., et al., Recommender Systems: An Introduction 2010: Cambridge University Press 11 Zhang, S., et al., Deep Learning Based Recommender System: A Survey and New Perspectives ACM Comput Surv., 2019 52(1): p Article 57 12 Mobasher, B., X Jin, and Y Zhou Semantically Enhanced Collaborative Filtering on the Web 2004 Berlin, Heidelberg: Springer Berlin Heidelberg 13 Kużelewska, U Advantages of Information Granulation in Clustering Algorithms 2013 Berlin, Heidelberg: Springer Berlin Heidelberg 14 Caruana, R and A Niculescu-Mizil, An empirical comparison of supervised learning algorithms, in Proceedings of the 23rd international conference on Machine learning 2006, Association for Computing Machinery: Pittsburgh, Pennsylvania, USA p 161–168 15 Larose, D.T., Discovering Knowledge in Data: An Introduction to Data Mining 2004: Wiley-Interscience 16 Ge, X., et al A new prediction approach based on linear regression for collaborative filtering in 2011 Eighth International Conference on Fuzzy Systems and Knowledge Discovery (FSKD) 2011 17 Koren, Y., R Bell, and C Volinsky, Matrix Factorization Techniques for Recommender Systems Computer, 2009 42(8): p 30-37 18 Candès, E.J and B Recht, Exact Matrix Completion via Convex Optimization Foundations of Computational Mathematics, 2009 9(6): p 717 19 Keshavan, R.H., A Montanari, and S Oh, Matrix Completion From a Few Entries IEEE Transactions on Information Theory, 2010 56(6): p 2980-2998 20 He, X., et al., Neural Collaborative Filtering, in Proceedings of the 26th International Conference on World Wide Web 2017, International World Wide Web Conferences Steering Committee: Perth, Australia p 173–182 21 Dziugaite, G.K and D.M Roy, Neural Network Matrix Factorization ArXiv, 2015 abs/1511.06443 22 Sedhain, S., et al., AutoRec: Autoencoders Meet Collaborative Filtering, in Proceedings of the 24th International Conference on World Wide Web 2015, Association for Computing Machinery: Florence, Italy p 111–112 58 23 He, X., et al., Outer product-based neural collaborative filtering, in Proceedings of the 27th International Joint Conference on Artificial Intelligence 2018, AAAI Press: Stockholm, Sweden p 2227–2233 24 Zhao, X., et al., Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018 25 Zhao, X., et al., Deep reinforcement learning for page-wise recommendations, in Proceedings of the 12th ACM Conference on Recommender Systems 2018, Association for Computing Machinery: Vancouver, British Columbia, Canada p 95–103 26 Zheng, G., et al., DRN: A Deep Reinforcement Learning Framework for News Recommendation 2018 167-176 27 Mao, H., et al., Resource Management with Deep Reinforcement Learning, in Proceedings of the 15th ACM Workshop on Hot Topics in Networks 2016, Association for Computing Machinery: Atlanta, GA, USA p 50–56 28 Schreiber, J., Deep matrix factorization using Apache MXNet 2017 29 Xue, H.-J., et al., Deep matrix factorization models for recommender systems, in Proceedings of the 26th International Joint Conference on Artificial Intelligence 2017, AAAI Press: Melbourne, Australia p 3203–3209 30 Vig, J., S Sen, and J Riedl, The Tag Genome: Encoding Community Knowledge to Support Novel Interaction ACM Trans Interact Intell Syst., 2012 2(3): p Article 13 31 Sen, S., J Vig, and J Riedl Tagommenders: connecting users to items through tags in WWW '09 2009 32 Xu, J., et al., Ice-breaking: mitigating cold-start recommendation problem by rating comparison, in Proceedings of the 24th International Conference on Artificial Intelligence 2015, AAAI Press: Buenos Aires, Argentina p 3981–3987 59 33 S Funk, “Netflix Update: Try This at Home,” Dec 2006; http://sifter.org/~simon/journal/20061211.html 34 https://paperswithcode.com/sota/collaborative-filtering-on-movielens-10m 35 https://www.statista.com/ 36 https://www.bigcommerce.com/blog/amazon-statistics/ 37 https://www.omnicoreagency.com/twitter-statistics/ 38 https://mathworld.wolfram.com/FrobeniusNorm.html 39 https://mxnet.apache.org/versions/1.4.1/architecture/overview.html 40 https://mxnet.apache.org/versions/1.7/api/python/docs/api/symbol/symbol.html 60 ... hình học sâu hệ khuyến nghị lai ghép sâu kết hợp nhiều mơ hình học sâu để đưa kết khuyến nghị Hệ khuyến nghị với khối sở mạng noron Hệ khuyến nghị dựa học sâu Hệ khuyến nghị sử dụng mơ hình lai Hình. .. dựng hệ khuyến nghị áp dụng mơ hình học sâu 2.1 Phân loại hệ thống khuyến nghị dựa kiến trúc hệ thống Một cách tổng qt, hệ thống khuyến nghị sử dụng mơ hình học sâu phân loại thành loại [11] hệ khuyến. .. toán khuyến nghị với phương pháp tiếp cận xây dựng đánh giá thuật toán khuyến nghị Trong chương sâu vào mơ hình khuyến nghị cộng tác sử dụng kỹ thuật học sâu đề xuất mơ hình ứng dụng mạng học sâu

Ngày đăng: 09/08/2021, 11:50

Hình ảnh liên quan

Hình 1.1: Ma trận tương tác Người dùng – Sản phẩm - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 1.1.

Ma trận tương tác Người dùng – Sản phẩm Xem tại trang 9 của tài liệu.
Hình 1.2: Cách thức hoạt động của lọc cộng tác - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 1.2.

Cách thức hoạt động của lọc cộng tác Xem tại trang 12 của tài liệu.
Hình 1.3: Cơ chế hoạt động lọc theo nội dung Nh ững ưu điểm của phương pháp khuyến ngh ị  d ự a trên n ộ i dung:  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 1.3.

Cơ chế hoạt động lọc theo nội dung Nh ững ưu điểm của phương pháp khuyến ngh ị d ự a trên n ộ i dung: Xem tại trang 13 của tài liệu.
Hình 1.4: Cơ chế lọc kết hợp - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 1.4.

Cơ chế lọc kết hợp Xem tại trang 18 của tài liệu.
Hình 2.2: Lọc cộng tác dựa theo người dùng - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.2.

Lọc cộng tác dựa theo người dùng Xem tại trang 22 của tài liệu.
Hình 2.3: Lọc cộng tác dựa theo sản phẩm - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.3.

Lọc cộng tác dựa theo sản phẩm Xem tại trang 23 của tài liệu.
2. Các mơ hình học sâu kết hợp với hệ khuyến nghị - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

2..

Các mơ hình học sâu kết hợp với hệ khuyến nghị Xem tại trang 27 của tài liệu.
Hình 2.5: Mạng noron đa lớp - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.5.

Mạng noron đa lớp Xem tại trang 28 của tài liệu.
Hình 2.6: Bộ mã hĩa tự động - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.6.

Bộ mã hĩa tự động Xem tại trang 29 của tài liệu.
Hình 2.7: Mạng noron tích chập - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.7.

Mạng noron tích chập Xem tại trang 30 của tài liệu.
Hình 2.9: Mạng noron sáng tạo đối nghịch - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.9.

Mạng noron sáng tạo đối nghịch Xem tại trang 31 của tài liệu.
Hình 2.8: Mạng noron hồi tiếp - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.8.

Mạng noron hồi tiếp Xem tại trang 31 của tài liệu.
Hình 2.10: Mơ hình học sâu tăng cường [27] 2.1.2.H ệ khuyến nghị lai ghép sâu  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 2.10.

Mơ hình học sâu tăng cường [27] 2.1.2.H ệ khuyến nghị lai ghép sâu Xem tại trang 32 của tài liệu.
Chương 3: Đề xuất mơ hình hệ khuyến nghị sử dụng kỹ thuật học sâu 1.Ki ến trúc mơ hình  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

h.

ương 3: Đề xuất mơ hình hệ khuyến nghị sử dụng kỹ thuật học sâu 1.Ki ến trúc mơ hình Xem tại trang 35 của tài liệu.
Hình 3.2: Vector thưa đại diện cho người dùn gu - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 3.2.

Vector thưa đại diện cho người dùn gu Xem tại trang 36 của tài liệu.
Hình 3.4: Hoạt động của lớp ẩn Cho   - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 3.4.

Hoạt động của lớp ẩn Cho Xem tại trang 39 của tài liệu.
Hình 3.7: Minh họa thuật tốn hồi quy tuyến tính - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 3.7.

Minh họa thuật tốn hồi quy tuyến tính Xem tại trang 42 của tài liệu.
Bên cạnh hình thức sử dụng miễn phí Colab, Google cũng đưa ra lựa chọn gĩi thuê bao Colab Pro  cho người dùng cao cấp, với các hạn mức được nâng cao: bộ nhớ  RAM lên  đến 25 GB, thời gian sử dụng liên tục lên đến 24 tiếng - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

n.

cạnh hình thức sử dụng miễn phí Colab, Google cũng đưa ra lựa chọn gĩi thuê bao Colab Pro cho người dùng cao cấp, với các hạn mức được nâng cao: bộ nhớ RAM lên đến 25 GB, thời gian sử dụng liên tục lên đến 24 tiếng Xem tại trang 48 của tài liệu.
Bảng 4-2: Thơng số dữ liệu mẫu Movielens-20M Dữ liệu thống kê mơ tả về xếp hạng bộ phim như sau:  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Bảng 4.

2: Thơng số dữ liệu mẫu Movielens-20M Dữ liệu thống kê mơ tả về xếp hạng bộ phim như sau: Xem tại trang 49 của tài liệu.
Hình 4.5: Thống kê bộ dữ liệu ml-20m - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.5.

Thống kê bộ dữ liệu ml-20m Xem tại trang 50 của tài liệu.
Hình 4.7: Số lượng rating theo từng thể loại phim - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.7.

Số lượng rating theo từng thể loại phim Xem tại trang 51 của tài liệu.
Hình 4.8: Định dạng dữ liệu genome_scores.csv - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.8.

Định dạng dữ liệu genome_scores.csv Xem tại trang 52 của tài liệu.
Hình 4.10: Input layer với thơng tin thể loại phim - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.10.

Input layer với thơng tin thể loại phim Xem tại trang 55 của tài liệu.
Hình 4.12: Input layer với thơng tin thể loại phim và thơng tin thẻ phim - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.12.

Input layer với thơng tin thể loại phim và thơng tin thẻ phim Xem tại trang 56 của tài liệu.
Hình 4.11: Kết quả tiền xử lý dữ liệu genome-scores - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Hình 4.11.

Kết quả tiền xử lý dữ liệu genome-scores Xem tại trang 56 của tài liệu.
Bảng 4-4: Thống kê kết quả thí nghiệm 2.2.2.  Bài tốn Cold-start (Khởi động nguội)  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Bảng 4.

4: Thống kê kết quả thí nghiệm 2.2.2. Bài tốn Cold-start (Khởi động nguội) Xem tại trang 57 của tài liệu.
Bảng 4-3: Thống kê sự ảnh hưởng của việc thay đổi cấu hình MLP lên giá trị RMSE - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

Bảng 4.

3: Thống kê sự ảnh hưởng của việc thay đổi cấu hình MLP lên giá trị RMSE Xem tại trang 57 của tài liệu.
✓ Huấn luyện mơ hình theo dữ liệu  - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

u.

ấn luyện mơ hình theo dữ liệu Xem tại trang 58 của tài liệu.
Nguyên nhân gây ra tình trạng nĩi trên cĩ thể là do các mơ hình DeepCF đã gặp phải hiện tượng quá khớp khiến cho hiệu suất trên tập dữ liệu validation kém đi đáng kể - Luận văn ThS Ứng dụng các mô hình học sâu vào kĩ thuật lọc cộng tác dựa trên mô hình cho các hệ thống khuyến nghị thương mại

guy.

ên nhân gây ra tình trạng nĩi trên cĩ thể là do các mơ hình DeepCF đã gặp phải hiện tượng quá khớp khiến cho hiệu suất trên tập dữ liệu validation kém đi đáng kể Xem tại trang 59 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan