Bài viết Phương pháp xây dựng hệ thống gợi ý sản phẩm sử dụng phản hồi tiềm ẩn đề xuất một giải pháp xây dựng hệ thống gợi ý dành cho bán hàng trực tuyến sử dụng phản hồi tiềm ẩn (Implicit Feedbacks) từ người dùng.
Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000199 PHƯƠNG PHÁP XÂY DỰNG HỆ THỐNG GỢI Ý SẢN PHẨM SỬ DỤNG PHẢN HỒI TIỀM ẨN Lưu Nguyễn Anh Thư, Nguyễn Thái Nghe Khoa Công nghệ Thông tin Truyền thông, Trường Đại học Cần Thơ lnathu@cit.ctu.edu.vn, ntnghe@cit.ctu.edu.vn Tóm tắt: Hệ thống gợi ý (Recommender Systems) ứng dụng nhiều lĩnh vực giải trí, giáo dục, khoa học, đặc biệt thương mại điện tử Việc tích hợp kỹ thuật gợi ý vào hệ thống trực tuyến nhằm tự động phân tích hành vi khứ người dùng để dự đoán nhu cầu/sở thích họ tương lai, từ có đề xuất hợp lý cho người dùng cần thiết thực tế Bài viết đề xuất giải pháp xây dựng hệ thống gợi ý dành cho bán hàng trực tuyến sử dụng phản hồi tiềm ẩn (implicit feedbacks) từ người dùng Trước hết đề xuất phương pháp thu thập thông tin phản hồi tiềm ẩn, sau tìm hiểu phương pháp gợi ý phù hợp từ đề xuất sử dụng phương pháp tập hợp mơ hình để kết hợp mơ hình dự đốn nhằm tăng độ xác Kế đến việc cài đặt, điều chỉnh, kiểm thử và tích hợp mơ hình đề xuất vào hệ thống nhằm gợi ý sản phẩm phù hợp với sở thích người dùng Sau cùng, chúng tơi thu thập phản hồi từ người dùng thực nhằm đánh giá hiệu phương pháp đề xuất Kết cho thấy mơ hình đề xuất có khả gợi ý tốt cho người dùng hồn tồn tích hợp vào hệ thống bán hàng trực tuyến Từ khóa: Hệ thống gợi ý, bán hàng trực tuyến, phản hồi tiềm ẩn, kỹ thuật phân rã ma trận I GIỚI THIỆU Hệ thống gợi ý (Recommender System - RS) ứng dụng thành công thực tiễn giúp người dùng giải vấn đề tải thông tin Hiện nay, hệ thống gợi ý nghiên cứu ứng dụng nhiều lĩnh vực khác đặc biệt thương mại điện tử Trên giới, có nhiều cơng ty, tổ chức áp dụng thành công hệ thống gợi ý dịch vụ thương mại nhằm gợi ý dịch vụ, sản phẩm thông tin cần thiết đến người dùng như: website mua sắm trực tuyến Amazon (www.amazon.com) cung cấp cho khách hàng sản phẩm mà họ quan tâm, cổng video clip YouTube (www.youtube.com), gợi ý phim MovieLens (www.movielens.org), Việc gợi ý sản phẩm phù hợp góp phần làm tăng doanh số bán hàng số lượng truy cập, download hệ thống Đồng thời giúp cho khách hàng tìm kiếm thông tin thú vị sản phẩm mà họ muốn tìm dễ dàng Hệ thống gợi ý giúp người dùng chọn lựa thông tin phù hợp cho dựa hành vi/phản hồi (feedbacks) mà người dùng thực khứ Các phản hồi xác định cách tường minh (explicit feedback) thông qua việc đánh giá/xếp hạng (ví dụ, rating từ đến 5; hay like (1) dislike (0),…) mà người dùng bình chọn sản phẩm – trường hợp gọi dự đoán xếp hạng (rating prediction) [4] phản hồi xác định cách khơng tường minh hay gọi tiềm ẩn (implicit feedbacks) số lần click chuột, số lần chọn mua sản phẩm, thời gian mà người dùng duyệt/xem sản phẩm,… Rất nhiều hệ thống lớn thu thập thông tin phản hồi từ khách hàng cách tường minh, Ebay, Amazon, LastFM, NetFlix, người trực tiếp đánh giá sản phẩm, bình chọn từ (khơng thích) đến (rất thích); hay Youtube thu thập thơng tin qua like(&)/ disklike('), hệ thống khác [3] Thông qua việc thu thập phản hồi tường minh, hệ thống dễ dàng xác định mức độ yêu thích người dùng sản phẩm, từ dự đốn sản phẩm mà người dùng thích để gợi ý cho họ Tuy nhiên, điều gây bất lợi người dùng lúc sẳn sàng/vui lòng để lại phản hồi họ, hệ thống phải nên tự xác định người dùng cần thơng qua phản hồi tiềm ẩn Trong viết này, đề xuất giải pháp xây dựng hệ thống gợi ý cho bán hàng trực tuyến, sử dụng phản hồi tiềm ẩn từ người dùng (như số lần duyệt/xem sản phẩm, số lần mua sản phẩm) Trước hết đề xuất phương pháp thu thập khai thác thông tin phản hồi tiềm ẩn từ người dùng, sau lựa chọn đề xuất kết hợp mơ hình sử dụng thơng tin phản hồi tiềm ẩn Kế đến việc xây dựng hệ thống tích hợp giải thuật gợi ý vào hệ thống Sau có hệ thống hồn chỉnh, thu thập liệu từ người dùng thực nhằm đánh giá hiệu hệ thống gợi ý Kết cho thấy khả mà hệ thống gợi ý phù hợp với sở thích người dùng tốt II HỆ THỐNG GỢI Ý (Recommender Systems - RS) A Hệ thống gợi ý Mục đích hệ thống gợi ý dựa vào sở thích, thói quen, nhu cầu, khứ người sử dụng để dự đốn sở thích tương lai họ Trong hệ thống gợi ý người ta quan tâm đến đối tượng: người dùng (user), sản phẩm (item - item gọi chung mục tin viết liên quan đến gợi ý sản phẩm nên từ sau tạm gọi item sản phẩm) phản hồi người dùng sản phẩm, thường xếp hạng (rating) Lưu L Nguyễn Anh Thư, Nguyễn Thhái Nghe 601 Thông thường t người ta gọi U tậpp tất người dùng (users) v u ngưười dùng cụ thhể (u∈U) I tập tấất sản phẩm p (items) ssẽ gợi ý nnhư máy tính, sách, phim ản nh, i mộtt sản phẩm cụụ thể (i∈I) I tập c sản phẩm có c thể lên đến hàng trăm, hààng nghìn hoặcc chí hàng h triệu sản pphẩm m số ứng dụng, việc gợi g ý sách, phim p ảnh, âm nhạc Tương ttự vậy, tập p người dùng U lớn, lên đếến hàng triệu trường hợp R tập hợp h giá trị dùng để ước llượng ‘sở thích’ (preferencee) người dù dùng, rui∈R (R⊂ℜ) xếp hạng người n dùng u t sản phẩm m i Giá trị rui ccó thể xác định cách c tường miinh (explicit ffeedback) thông qua việc v đánh giá/xxếp hạng (ví ddụ, rating từ đến 5; hay lik ke (1)/ dislike (0),…) mà u đđã bình chọn ccho i – trường t hợp n gọi dự đốn đ xếp hạng (rating predicction) rui xáác định cáách không tườ ờng minh hay y gọi tiềm t ẩn (impliicit feedback)) số lần cllick chuột, số lần chọn mua sản phẩm, thờời gian mà u đđã duyệt/xem i,… [2][7] Bài B viết quuan tâm nhiều đến cách xác đđịnh rui không g tường minh Các thôông tin userr, item, feedbaack thường đư ược biểu diễn thông t qua mộột ma trận Hình Trong m dòng m người dùngg u, cột làà sản phẩm m i, giao giiữa dòng cộột phản hồi người dùng số s lần click ch huột hay chọn n mua sản phẩẩm,… Các có giá trị nh hững item mà user xxem chọn mua q khứ Nhữnng ô trống nnhững item chư ưa xem (điều ( đáng lưu u ý user click xem m chọn mu ua cho vài v item khứ, vậậy có nhiềuu trống g ma trận – gọi m ma trận thưa – ssparse matrix) Hình Ma trận biểu ddiễn xếp hạng củ người dùng t sản phẩm (u (user-item-ratingg matrix) RS dựa vàoo có giá g trị maa trận (dữ liệu thu đượcc từ q khứ), để dự đốn Nhiệm vụ R c trốngg (của user hiệện hành), sau xếp kếết dự đốn n (ví dụ, từ caoo xuống thấp) chọn To op-N items th heo thứ tự, từ gợi ý chúnng đến người ddùng Một cácch hình thức, ggọi Dtrain ⊆ U × I × R tập p liệu huấn n luyện, Dtest ⊆ U × I × R làà tập liệu kiiểm thử, m ánh xạ r: U × I→ R ((u, i) ↦ rui Mục tiêêu RS ttìm hàm ̂ : U × I → ℜ cho ξ(r, ̂ ) thỏa mãn điều kiệnn Ví dụ, d ξ m hàm ước lượng l lỗi M Mean Absolutte Error (MAE E) hay Root Mean M Squared E Error (RMSE)) cần ph hải tối tiiểu MAE RMSE = = |D test | ∑ (r (u, i, r) ∈ D ui test − rˆui ) (testrui − rˆ(u ,i ) )2 ∑ test | D | (u ,i ,r )∈D (1) (2) Hiện nay, có nhiều ggiải thuật đđược đề xuất cho hệ thống gợi ý, chúng ggom lại theo nhóm sau [1][2][7]: - g): người dùng g nhận gợi ý sản pphẩm ưa a thích xuất Gợi ý dựaa lọc cộngg tác (collaborrative filtering phát từ nhhững người cóó thị hiếuu sở thích với v Nhóm m dựa vàoo phương pháp chủ yếu u: o Phương pháp lláng giềng (N P Neighborhood based, gọ ọi Memory based), trongg dựa d liiệu khứ ccủa người dùnng “tương tự” – similarity (u user-based appproach), hoặcc dựa d liệu k nhữngg item “tương tự” (item-based approach) khứ o Dựa mơ hhình (Model-bbased): Nhóm liên quan D n đến việc xâyy dựng mơơ hình dự án dựa d liệu thu thậập trongg q khứ Nh hư mơ hình Baayesian, m mơ hình nhân tố tiềm ẩn (la atent factor m models): trongg kỹ thuật pphân rã ma trậận (matrix facttorization) m điển hình - Gợi ý dựaa nội dungg: người dùngg gợi ý sản phẩm p tương tựự với ssản phẩm đ người dùng ưa thích trước dựa nnội dung (như thuộc tín nh) sàn phẩẩm - Gợi ý dựaa cách tiếpp cận kết hợp:: kết hợp hai phương p pháp tiếp cận dựa trrên nội dung vvà lọc cộng tác c Sau chúng c tơi tóm lược lại ttrong kỹ k thuật g nhóm lọc cộnng tác hệ thống gợi ý v kỹ thuật sử s dụng phản hồi h tiềm ẩn, từ làm sở cho việc đề xuất x mơ hình cho hệ thống 602 PHƯ ƯƠNG PHÁP XÂ ÂY DỰNG HỆ TH HỐNG GỢI Ý SẢ ẢN PHẨM SỬ D DỤNG PHẢN HỒ ỒI TIỀM ẨN B B Kỹ thuật phân p rã ma trrận (matrix faactorization – MF) Kỹ thuậật phân rã ma ttrận (MF) m nhữn ng phương phááp dựa mơơ hình thành ccơng (stateof-the-art) o tronng RS [1][2] M MF việc chiia ma trận n lớn X thành hai h ma trận cóó kích thước nnhỏ W H, cho taa xây dự ựng lại X từ hhai ma trận nhỏỏ g xác càn ng tốt [5] X ~ WH HT minh hhọa trongg Hình Tron ng đó, W∈ℜ|UU|×K ma trận mà ddòng u véc tơ bao gồm g K nhân tốố tiềm ẩn (latent factors) môô tả người dùng u; H ∈ℜ ℜ|I|×K maa trận mà dòng i véc tơ bao gồm g K nhân tốố tiềm ẩn mô tảả cho item i (lư ưu ý: K