Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
907,17 KB
Nội dung
Tạp chí Khoa học Trường Đại học Cần Thơ Phần A: Khoa học Tự nhiên, Công nghệ Môi trường: 34 (2014): 81-91 XÂY DỰNG HỆ THỐNG GỢI Ý BÀI HÁT DỰA TRÊN PHẢN HỒI TIỀM ẨN Nguyễn Thái Nghe1 Nguyễn Tấn Phong2 Khoa Công nghệ Thông tin & Truyền thông, Trường Đại học Cần Thơ Cơ quan thường trú Đài Tiếng Nói Việt Nam, Khu vực Đồng sông Cửu Long Thông tin chung: Ngày nhận: 22/06/2014 Ngày chấp nhận: 30/10/2014 Title: Building a music recommendation based on implicit feedbacks Từ khóa: Hệ thống gợi ý, gợi ý hát, phản hồi tiềm ẩn, giải thuật BPR-MF Keywords: Recommender systems, music recommendation, implicit feedback, BPR-MF ABSTRACT Recommender systems is widely used in predicting user’s preferences based on their feedbacks to recommended new items that the users may like Recommender systems are applied in many different fields such as ecommerce (online shopping), entertainment (movies, music, etc.), and education (recommend learning resources such as books, newspapers, etc.) In this paper, we propose a solution for building a music recommender system using implicit feedbacks so that the system can recommend suitable songs to the users We develop a new system and integrate recommendation algorithm to this system We collect the feedbacks from the real users and evaluate the proposed solution based on their feedbacks Results show that our solution can be used for many current online music systems TÓM TẮT Hệ thống gợi ý (recommender systems – RS) thường sử dụng để dự đoán sở thích người dùng dựa vào phản hồi (feedbacks) họ nhằm gợi ý sản phẩm (item) mà người dùng thích RS ứng dụng nhiều lĩnh vực khác như: thương mại điện tử (bán hàng trực tuyến), giải trí (âm nhạc, phim ảnh ), giáo dục đào tạo (gợi ý nguồn tài nguyên học tập như: sách, báo, ) Trong viết này, giới thiệu giải pháp xây dựng Hệ thống gợi ý hát dựa vào phản hồi tiềm ẩn (implicit feedback) từ người dùng để gợi ý hát mà họ thích nghe Chúng lựa chọn phương pháp biểu diễn liệu, cài đặt tích hợp giải thuật gợi ý vào hệ thống, thu thập phản hồi từ người dùng đánh giá hiệu hệ thống dựa phản hồi Thực nghiệm cho thấy giải pháp hoàn toàn tích hợp vào hệ thống gợi ý âm nhạc có thị trường điện tử (bán hàng trực tuyến), giải trí (phim ảnh, âm nhạc, ), giáo dục đào tạo (gợi ý nguồn tài nguyên học tập sách, báo, ),… GIỚI THIỆU Hệ thống gợi ý (Recommender systems – RS) bước trở thành lĩnh vực nghiên cứu quan trọng ứng dụng thành công thực tiễn, giúp người dùng đối phó với vấn đề tải thông tin (Goldberg et al., 1992, Ricci et al., 2011) Hiện nay, RS nghiên cứu ứng dụng nhiều lĩnh vực khác như: thương mại Trên giới, có nhiều công ty, tổ chức áp dụng thành công hệ thống gợi ý nhằm gợi ý dịch vụ, sản phẩm thông tin cần thiết đến người dùng như: website mua sắm trực tuyến Amazon.com gợi ý cho khách hàng sản 81 Tạp chí Khoa học Trường Đại học Cần Thơ Phần A: Khoa học Tự nhiên, Công nghệ Môi trường: 34 (2014): 81-91 phẩm mà họ quan tâm, YouTube.com giới thiệu video clip cho người xem, gợi ý phim ảnh Netflix.com, MovieLens.org gợi ý nhạc Last.fm, Điều góp phần làm tăng doanh số bán hàng số lượng truy cập, download hệ thống, đồng thời giúp cho khách hàng tìm kiếm thông tin thú vị sản phẩm mà họ mong muốn dễ dàng người dùng (user-based) dựa mục tin (item-based) Dạng thứ tiếp cận theo mô hình (như mô hình Bayes, ) gần mô hình nhân tố tiềm ẩn (latent factor models) mô hình phân rã ma trận (Koren et al., 2009) (matrix factorization - đạt thành công đáng kể) Trong viết này, giới thiệu giải pháp xây dựng Hệ thống gợi ý hát dựa vào phản hồi tiềm ẩn (implicit feedback) từ người dùng Đây dạng toán gợi ý mục tin (item recommendation) (Ricci et al., 2011) Mặc dù, có nhiều phương pháp sử dụng cho vấn đề gợi ý mục tin dựa vào phản hồi tiềm ẩn, phổ biến kỹ thuật lọc cộng tác k-láng giềng (kNN), thường dùng tương quan pearson cosine để tính toán độ tương tự người dùng sở thích mục tin xếp hạng người dùng Gần đây, kỹ thuật phân rã ma trận sử dụng phổ biến ứng dụng thành công Tuy nhiên, giải thuật thích hợp cho hệ thống sử dụng phản hồi tường minh (explicit feedback) thông qua xếp hạng/đánh giá cụ thể Ở nước ta, có nhiều hệ thống (website) có chức gợi ý hệ thống gợi ý sản phẩm, hát, nhiên đa phần hệ thống gợi ý dựa thông tin như: gợi ý dựa nội dung giống (như gợi ý hát ca sĩ, thể loại, website nhaccuatui.vn, nhacso.net, ) hay loại sản phẩm, nhà cung cấp, (www.vatgia.com, www.enbac.com, ) Qua tìm hiểu, chưa thấy có nhiều hệ thống có tích hợp kỹ thuật state-ofthe-art, Matrix Factorization (Koren, 2009) hệ thống gợi ý Thương mại điện tử Việt Nam bước đầu phát triển, hệ thống gợi ý mở nhiều tiềm tương lai, kể nghiên cứu ứng dụng Cùng với phát triển mạnh mẽ loại hình truyền thông đa phương tiện âm nhạc nội dung phổ biến xem nhu cầu thiếu sống, chia sẻ nhiều người từ nhiều quốc gia có ngôn ngữ văn hóa khác Tuy nhiên, số lượng nhạc ngày tăng lên, đa dạng phong phú nội dung lẫn thể loại Vì vậy, vấn đề đặt người sử dụng muốn tìm nghe nhạc mà yêu thích, người sử dụng cần đến công cụ tìm kiếm Google và/hoặc vào website âm nhạc để tìm nghe Mặc dù vậy, có nhiều nhạc mà người sử dụng nghe thử hết để tìm mà họ thích (điều tốn thời gian mà lại không hiệu quả) Do đó, nhu cầu cần có hệ thống gợi ý có khả dự đoán mức độ ưa thích người sử dụng với nhạc gợi ý cho họ nhạc mà hệ thống cho phù hợp Ở đây, đề xuất sử dụng phản hồi tiềm ẩn từ người dùng (như tỷ lệ thời lượng mà người dùng nghe tổng thời lượng hát) từ đề xuất sử dụng giải thuật xếp hạng cá nhân Bayes (Rendle et al., 2009) để xây dựng “Hệ thống gợi ý hát” giải thuật hoạt động tốt liệu phản hồi tiềm ẩn HỆ THỐNG GỢI Ý (RECOMMENDER SYSTEMS - RS) Hệ thống gợi ý thường dựa vào ba khái niệm bản, tập người dùng U (user), tập mục tin I (item – sản phẩm, hát, video clip, ) phản hồi rui (feedback/ xếp hạng - rating) người dùng u mục tin i Các hệ thống gợi ý thường sử dụng kỹ thuật lọc công tác (collaborative filtering) để đưa dự đoán sở thích người dùng (user) mục tin (items – sản phẩm, sách, báo, phim, ) mà hệ thống cho phù hợp thông qua việc sử dụng xếp hạng (rating/feedback) khứ người dùng và/hoặc xếp hạng người dùng khác có sở liệu Lọc cộng tác thường tiếp cận theo dạng: lọc cộng tác dựa vào nhớ, cụ thể tiếp cận dựa Hình 1: Ma trận biểu diễn xếp hạng người dùng mục tin (user-item-rating matrix) 82 Phần A: Khoa học Tự nhiên, Công nghệ Môi trường: 34 (2014): 81-91 từ khứ), để dự đoán ô trống (của user hành), sau xếp kết dự đoán (ví dụ, từ cao xuống thấp) chọn Top-N items theo thứ tự, từ gợi ý chúng cho người dùng Có dạng toán RS dự đoán xếp hạng (rating prediction) dựa vào giá trị xếp hạng trước (là phản hồi tường minh người dùng, xếp hạng từ đến 5, thích/không thích, hay 0/1, ) để dự đoán giá trị xếp hạng tương lai, gợi ý mục tin (item recommendation) dựa vào phản hồi tiềm ẩn từ người dùng (như số lần click chuột, thời gian xem sản phẩm, nghĩa thông tin mà người dùng không trực tiếp đánh giá/xếp hạng) PHƯƠNG PHÁP BIỂU DIỄN DỮ LIỆU TIỀM ẨN CHO HỆ THỐNG GỢI Ý BÀI HÁT Với toán gợi ý mục tin, RS sử dụng phản hồi tiềm ẩn từ người dùng, thường chứa liệu tương tác/quan sát dương (positive observations) hay gọi phản hồi tích cực/dương (positive feedback) S U x I Còn mục tin mà người dùng chưa quan sát/tương tác (none-observed) trộn lẫn giá trị phản hồi âm (negative feedback – người dùng không thích mục này) giá trị thiếu (missing values – người dùng thích mục tương lai họ chưa thấy/tương tác với chúng) (Rendle et al., 2009) biểu diễn bên tay trái Hình Do đó, cách thông thường để tạo tập liệu huấn luyện với cặp (u, i) S thuộc lớp dương (positive class) gán giá trị 1, phần lại thuộc lớp âm (negative class) gán giá trị 0, bên tay phải Hình (Hu et al., 2008) Với toán dự đoán xếp hạng, thông tin thường biểu diễn ma trận Hình Ở đó, dòng user, cột item, ô giá trị xếp hạng biểu diễn phản hồi (như “mức độ thích - preference”) user item tương ứng Các ô có giá trị item mà user xếp hạng khứ Những ô trống item chưa xếp hạng (điều đáng lưu ý user xếp hạng cho vài item khứ, có nhiều ô trống ma trận – gọi ma trận cực thưa – sparse matrix) Như vậy, nhiệm vụ RS dựa vào ô có giá trị ma trận (dữ liệu thu i2 + ? + ? ? i3 + ? ? + + i4 ? + ? + ? u1 u2 u3 u4 u5 user u1 u2 u3 u4 u5 i1 ? + + ? ? item i1 1 0 i2 1 0 i3 0 1 i4 1 user Tạp chí Khoa học Trường Đại học Cần Thơ item Hình 2: Biểu diễn liệu RS dạng nhị phân “thích – prefer” hát cho người dùng u (>u) Giả sử hát i nghe người dùng u ((u, i) S) người dùng thích tất chưa nghe khác Ví dụ Hình bên trái, biểu diễn quan hệ “thích hơn” cho hát người dùng u1 như: Tuy nhiên, bất lợi lớn phương pháp suốt trình huấn luyện, mô hình không phân biệt đâu phản hồi âm (negative feedbacks – tức người dùng không thích) đâu giá trị cần dự đoán missing values negative values xem giá trị i2 >u1 i1 ; i2 >u1 i4 ; i3 >u1 i1 ; i3 >u1 i4 Trong hệ thống gợi ý hát đề xuất, sử dụng phương pháp trình bày tài liệu (Rendle et al., 2009), sử dụng phương pháp so sánh đôi (pair-wise ranking) thay đưa dự đoán xếp hạng cho mục tin thay giá trị cần xếp hạng giá trị âm Với hát mà người dùng nghe (như i2 i3 ứng với người dùng u1 Hình 3) hệ thống không sử dụng so sánh thích mô tả hệ thống ngầm hiểu người dùng có mức độ thích Tương tự, với hát mà người dùng chưa nghe (ví dụ, i1 i4 ứng với người dùng u1) hệ thống không sử dụng quan hệ “thích – prefer” chưa có thông tin Cụ thể, từ liệu có S tiến hành xây dựng lại tập liệu huấn luyện DS dựa vào mối quan hệ 83 Tạp chí Khoa học Trường Đại học Cần Thơ Phần A: Khoa học Tự nhiên, Công nghệ Môi trường: 34 (2014): 81-91 Bên phải Hình cách biễu diễn liệu sử dụng hệ thống Dấu + thể người dùng thích i j (lưu ý: gọi j để dễ theo dõi, chất i1 j1 nhau), dấu – thể người dùng thích j i dấu ? cặp hát cần xếp hạng sau Như vậy, hệ thống gợi ý hát cần dự đoán cho giá trị ? ma trận bên phải Hình 3, sau xếp chúng từ cao xuống thấp chọn N cần gợi ý ? + + ? ? + ? + ? ? i3 + ? ? + + i4 ? + ? + ? i2 + ? + i3 + ? i4 ? - item u1 u2 u3 u4 u5 i2 ? i4 ? ? - + item … user i1 j1 j2 j3 j4 item u1: i >u1 j i1 u5: i >u5 j i1 item j1 j2 j3 j4 ? ? i2 ? ? ? i3 + + + item Hình 3: Biểu diễn liệu DS dạng so sánh đôi (Rendle et al., 2009) Tập DS biểu diễn cách hình thức sau ( I u hát mà u nghe có phản hồi dương – thích): Ví dụ, với hát người dùng nghe 5phút/5phút (tỷ lệ 1.0) ngầm định họ thích hát mà họ 1phút/5phút (tỷ lệ = 0.2) DS : {(u, i, j) | i I u j I \ I u } GIẢI THUẬT SỬ DỤNG CHO HỆ THỐNG GỢI Ý BÀI HÁT VỚI PHẢN HỒI TIỀM ẨN Trong hệ thống gợi ý hát mà xây dựng, thông tin phản hồi tiềm ẩn từ người dùng hệ thống ghi nhận lại cách tự động Cụ thể, thay người dùng phải xếp hạng hay đánh giá hát, hệ thống ghi nhận lại thời lượng mà họ nghe hát (thời gian lâu đồng nghĩa với người dùng thích, dĩ nhiên có ngoại lệ không đáng kể) xem thời gian nghe thông tin phản hồi từ người dùng Do tính chất liệu trình bày, đề xuất sử dụng giải thuật xếp hạng cá nhân Bayes (Bayesian Personalize Ranking – BPR) 9cho hệ thống gợi ý hát có sử dụng liệu tiềm ẩn BPR tiêu chuẩn dùng để tối ưu hóa (optimization criteria) hàm mục tiêu, áp dụng cho nhiều kỹ thuật khác RS Ở sử dụng BPR-MF (dùng tiêu chuẩn tối ưu BPR cho kỹ thuật phân rã ma trận Matrix Factorization – MF) trình bày (Rendle et al., 2009) để cài đặt giải thuật gợi ý tích hợp vào hệ thống Bài viết giới thiệu khái niệm MF BPR-MF nhằm ứng dụng chúng vào xây dựng hệ thống đề xuất, bạn đọc quan tâm tham khảo chi tiết kỹ thuật (Rendle et al., 2009; Koren et al., 2009, Thai-Nghe et al., 2012) Do hát có thời lượng ngắn/dài khác nên chuyển đổi thời lượng mà người dùng nghe thành dạng tỷ lệ thời lượng Đây thông tin phản hồi từ người dùng u cho hát i: (1) 84 Tạp chí Khoa học Trường Đại học Cần Thơ Phần A: Khoa học Tự nhiên, Công nghệ Môi trường: 34 (2014): 81-91 Kỹ thuật phân rã ma trận (Matrix Factorization - MF) hệ số tắc hóa (regularization) nhằm làm giảm học vẹt (over-fitting) Giả sử sau trình tối ưu, ta nhận giá trị W H, đó, xếp hạng user u cho item i dự đoán công thức: Kỹ thuật phân rã ma trận việc chia ma trận lớn X thành hai ma trận có kích thước nhỏ W H, cho ta xây dựng lại X từ hai ma trận nhỏ xác tốt, nghĩa X ~ WHT, minh họa Hình (3) Ứng dụng kỹ thuật BPR-MF vào hệ thống gợi ý hát Trong hệ thống gợi ý hát, liệu phản hồi từ người dùng tiềm ẩn thuộc vấn đề gợi ý mục tin (item recommendation) nên đề xuất sử dụng giải thuật BPR-MF tính ưu việt loại tính chất liệu Hàm mục tiêu BPR-MF sau: Hình 4: Minh họa kỹ thuật phân rã ma trận Trong đó, W |U|×K ma trận mà dòng véc tơ bao gồm K nhân tố tiềm ẩn (latent factors) mô tả người dùng u; H |I|×K ma trận mà dòng véc tơ bao gồm K nhân tố tiềm ẩn mô tả cho item i (thông thường K