Hệ thống gợi ý (Recommender Systems – RS) được ứng dụng khá thành công trong thương mại điện tử, nó đưa ra dự đoán về các mục thông tin (items) mà người dùng có thể thích theo một trong hai cách – phản hồi tường minh và phản hồi tiềm ẩn. Phản hồi tường minh dựa vào các đánh giá, xếp hạng,… của người dùng trong quá khứ lên các items để gợi ý các items mà người dùng đó có thể thích trong tương lai. Phản hồi tiềm ẩn dựa vào các items mà người dùng từng lựa chọn, tham khảo hay xem các items đó để đưa ra các gợi ý cho người dùng. Tuy nhiên, vấn đề khó khăn chung của hầu hết hệ thống gợi ý là khi người dùng mới chưa có bất kỳ phản hồi nào trong hệ thống thì hầu như hệ thống không đưa ra gợi ý chính xác cho họ, đó chính là vấn đề khởi đầu lạnh hay còn gọi là vấn đề ―Coldstart‖. Trong bài viết này chúng tôi giới thiệu một giải pháp trong việc xử lý vấn đề người dùng mới dựa trên các thông tin, các thuộc tính (attributes) của người dùng mới. Qua đó, chúng tôi xây dựng các thực nghiệm để kiểm chứng tính khả thi của các mô hình. Kết quả thực nghiệm cho thấy giải pháp đề xuất có khả năng gợi ý khá tốt cho những người dùng mới.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00045 MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý Đinh Thế An Huy1, Châu Lê Sa Lin1, Nguyễn Hữu Hòa2, Nguyễn Thái Nghe2 Khoa Cơng nghệ Thông tin & Truyền Thông, Trường Cao đẳng Kinh tế - Kỹ thuật Cần Thơ Khoa Công nghệ Thông tin & Truyền Thông, Trường Đại học Cần Thơ dtahuy@ctec.edu.vn, clsalin@ctec.edu.vn, nhhoa@ctu.edu.vn, ntnghe@cit.ctu.edu.vn TÓM TẮT — Hệ thống gợi ý (Recommender Systems – RS) ứng dụng thành cơng thương mại điện tử, đưa dự đốn mục thơng tin (items) mà người dùng thích theo hai cách – phản hồi tường minh phản hồi tiềm ẩn Phản hồi tường minh dựa vào đánh giá, xếp hạng,… người dùng khứ lên items để gợi ý items mà người dùng thích tương lai Phản hồi tiềm ẩn dựa vào items mà người dùng lựa chọn, tham khảo hay xem items để đưa gợi ý cho người dùng Tuy nhiên, vấn đề khó khăn chung hầu hết hệ thống gợi ý người dùng chưa có phản hồi hệ thống hệ thống khơng đưa gợi ý xác cho họ, vấn đề khởi đầu lạnh hay gọi vấn đề ―Cold-start‖ Trong viết giới thiệu giải pháp việc xử lý vấn đề người dùng dựa thơng tin, thuộc tính (attributes) người dùng Qua đó, chúng tơi xây dựng thực nghiệm để kiểm chứng tính khả thi mơ hình Kết thực nghiệm cho thấy giải pháp đề xuất có khả gợi ý tốt cho người dùng Từ khoá — Hệ thống gợi ý, khởi đầu lạnh, vấn đề người dùng I GIỚI THIỆU Việc ứng dụng hệ thống gợi ý (recommender systems - RS) thương mại điện tử mang lại thành công nhiều lựa chọn cho người dùng Ví dụ hệ thống bán hàng trực tuyến, với hàng ngàn sản phẩm khác nhau, đa dạng mẫu mã, chất lượng, tiêu chí,…để khách hàng mua sản phẩm ưng ý lời tư vấn quan trọng, hệ thống gợi ý đóng vai trò người trung gian đưa tư vấn cho khách hàng Thực chất hệ thống hỗ trợ người dùng đưa định dựa thông tin mà thu thập từ ―hành vi‖ dựa phản hồi người dùng khứ Những phản hồi người dùng tường minh (explicit) hay tìm ẩn (implicit) Phản hồi tường minh người dùng trực tiếp đánh giá lên item như: bình chọn, xếp hạng cho items u thích…; phản hồi tiềm ẩn hệ thống tự động thu thập dựa hành vi người dùng chẳng hạn số lần click chuột vào item đó, thời gian xem xét item, số lần mua items… Có nhiều giải thuật xây dựng hệ thống gợi ý, nhiên phân thành ba nhóm [6][8]: Một là, gợi ý dựa nội dung: Hệ thống gợi ý dựa vào nội dung đưa kết sản phẩm có nhiều điểm tương tự với sản phẩm mà người dùng lựa chọn khứ Hai là, gợi ý dựa cộng tác: hệ thống gợi ý lọc cộng tác khai thác thông tin hành động khứ ý kiến cộng đồng người dùng để đưa dự đoán sản phẩm mà người dùng thích Ba là, gợi ý dựa cách tiếp cận kết hợp nhiều mơ hình dự đốn hệ thống gợi ý Tuy nhiên, khó khăn lớn phương pháp gợi ý dựa lọc cộng tác gặp phải người dùng chưa có phản hồi, đánh giá hệ thống, hệ thống khơng có liệu huấn luyện khơng thể đưa dự đốn cho người dùng mới, vấn đề khởi đầu lạnh (cold-start) hay gọi vấn đề ―Người dùng mới‖ (new user) hay ―Mục tin mới‖ (new item) hệ thống gợi ý Để khắc phục khó khăn vấn đề này, có nhiều nghiên cứu đưa giải pháp xử lý khác chúng tơi trình bày chi tiết mục III Trong viết này, đề xuất giải pháp xử lý vấn đề người dùng mới, sử dụng kỹ thuật phân rã ma trận (matrix factorization) – kỹ thuật thành công (state-of-the-art) hệ thống gợi ý [13] - kết hợp với thuộc tính (attributtes) người dùng để tìm độ tương đồng người dùng với người dùng khác hệ thống kết hợp với kỹ thuật hồi quy tuyến tính, từ đưa gợi ý cho họ Các tập liệu chuẩn sử dụng để đánh giá phương pháp đề xuất so sánh với phương pháp thường dùng xử lý người dùng phương pháp Global Average Item Average II HỆ THỐNG GỢI Ý (RECOMENDER SYSTEMS) Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thông tin (information filtering), sử dụng để dự đốn sở thích (preferences) hay xếp hạng (rating) mà người dùng (user) dành cho mục thơng tin (item) mà họ chưa xem xét tới khứ (item báo, phim, đoạn video clip, sách, ) [15] nhằm đưa gợi ý mục tin phù hợp cho người dùng Thông tin user-item-rating thường biểu diễn thông qua ma trận (rating matrix) mà dòng user, cột item, ô giá trị đánh giá đại diện cho mức độ ―thích‖ user dành cho item tương ứng Các trống người dùng chưa có đánh giá item Thơng thường có giá trị ít, người dùng đánh giá q khứ, tạo nên ma trận cực thưa (sparse matrix), minh họa bên trái Hình Gọi Đinh Thế An Huy, Châu Lê Sa Lin, Nguyễn Hữu Hòa, Nguyễn Thái Nghe 371 R|U|x |I| ma trận đánh giá users items, rij đánh giá user i item j Ví dụ: với i=2, j=4, r24 = 3, nghĩa người dùng thứ đánh giá sản phẩm thứ với mức đánh giá Mức độ đánh giá thường tỷ lệ thuận với mức độ yêu thích người dùng Một kỹ thuật hay dùng RS lọc cộng tác (collaborative filtering) Phương pháp dựa thông tin tương tác (như mua, bán, đánh giá, ) người dùng để đưa dự đoán dựa độ tương đồng sở thích người dùng với nhau, thành cơng kỹ thuật phân rã ma trận (Matrix Factorization - MF) MF việc chia ma trận lớn R thành hai ma trận có kích thước nhỏ P Q, cho ta xây dựng lại R từ hai ma trận nhỏ xác tốt, nghĩa R ~ P.QT [13] Kỹ thuật MF mô tả hình Hình Kỹ thuật phân rã ma trận |U|x |I| MF phân rã ma trận rating R thành ma trận P|U| x K Q|I| x K, P ma trận mà dòng u vector gồm K nhân tố tiềm ẩn (latent factors) mô tả người dùng u, Q ma trận mà dòng i vector gồm K nhân tố tiềm ẩn mô tả mục thông tin i; Khi đó, để tính rating ma trận R ta áp dụng công thức sau: K r p q ui đó: k 1 uk (1) ik r ui giá trị dự đoán người dùng u item i; p, q: vector ma trận P Q Mặc dù kỹ thuật áp dụng thành cơng, nhiên hạn chế kỹ thuật lọc cộng tác khác, vấn đề người dùng (hay vấn đề khởi đầu lạnh ―cold–start‖) Vấn đề xảy người dùng sản phẩm tham gia vào hệ thống; khơng có đủ thơng tin nên khó khăn để xác định người dùng (hoặc sản phẩm) tương đồng với người dùng (hoặc sản phẩm mới) Thông thường MF, gặp phải vấn đề này, người ta dùng kỹ thuật Global Average, Item Average, để dự đoán kết cho người dùng Một số phương pháp phức tạp khác đề xuất trình bày III NHỮNG NGHIÊN CỨU LIÊN QUAN Một nghiên cứu giải vấn đề Cold-start kỹ thuật FMF (Fucntion Matrix Factorization) [21] sử dụng mơ hình định, nút đưa truy vấn người dùng chọn câu trả lời để đến nút tiếp theo, từ hệ thống đưa gợi ý cho người dùng Hình Mơ hình giải vấn đề cold-start user kỹ thuật FMF Nghiên cứu Zeno Gantner, et.al [9] sử dụng ―Bayesian Personalized Ranking‖ để huấn luyện mơ hình dự đốn dựa vào ánh xạ từ thuộc tính đối tượng hệ thống đến nhân tố tiềm ẩn ma trận để tìm đánh giá cho đối tượng Một phương pháp khác Quickstep, hệ thống gợi ý lai (hybrid recommender system), giải vấn đề thực tế việc gợi ý báo khoa học trực tuyến để nhà nghiên cứu tìm thấy chúng Hành MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý 372 động duyệt web người dùng âm thầm giám sát thông qua máy chủ proxy đăng nhập URL thơng qua trình duyệt hoạt động bình thường Các phản hồi tường minh URL duyệt thơng tin lưu sở thích người dùng Nghiên cứu [11] xây dựng hệ thống gợi ý tích hợp Quickstep [15], kết hợp AKT ontology hệ thống OntoCoPI chứng minh cách tiếp cận tác giả để giảm cold-start hệ thống Một kỹ thuật khác giải tốt vấn đề cold-start Context-aware Semi-supervised Co-training algorithm (CSEL) [20], kỹ thuật xây dựng mô hình có khả tăng độ xác dự đoán cách kết hợp ngữ cảnh với kỹ thuật đồng huấn luyện có giám sát bán giám sát Nghiên cứu [19] đề xuất mơ hình hồi quy dựa vào thông tin cặp user/item Các thơng tin users tuổi, giới tính, nghề nghiệp… thông tin items tên sản phẩm, nhà sản xuất, năm sản xuất,…sau đưa tiên đoán để giải vấn đề cold-start Martin Saveski Amin Mantrach nghiên cứu [14] đưa phương pháp giải vấn đề Coldstart items Tác giả dựa vào đặc tính sản phẩm lựa chọn, đánh giá người dùng hệ thống items có đặc tính tương tự với items để huấn luyện cho mơ hình, từ đưa gợi ý cho items Một phương pháp khác giải vấn đề cold-start hệ thống gợi ý đề cập nghiên cứu [7] cách sử dụng mơ hình mạng xã hội (Network Sub-community) kết hợp với luật định (decision ontology) Mạng xã hội thực nhiệm vụ phân tích thơng tin người dùng hệ thống tìm mối tương quan người dùng với Theo đó, kiến trúc miền định xây dựng mơ hình dựa thơng tin người dùng có từ đưa gợi ý cho người dùng Nhìn chung có nhiều phương pháp giải vấn đề cold-start, nhiên phương pháp thường kết hợp với mơ hình xử lý phức tạp, điển hình mơ hình định [21], hệ thống gợi ý phải tương tác với người dùng để đánh giá câu trả lời, hay nghiên cứu [20] sử dụng kỹ thuật đồng huấn luyện bán giám sát có giám sát áp dụng mơ hình dựa vào ngữ cảnh từ đưa dự đốn Còn nghiên cứu [7] phải kết hợp với mơ hình mạng xã hội phức tạp để tìm mối tương quan người dùng, từ đưa gợi ý cho họ Trong nghiên cứu này, đề xuất hướng tiếp cận khác để xử lý vấn đề người dùng trình bày IV GIẢI PHÁP ĐỀ XUẤT Chúng đề xuất hai mơ hình để xử lý vấn đề cold-start người dùng (new user), trường hợp với mục thơng tin (new item) áp dụng tương tự Giải pháp phối hợp kỹ thuật phân rã ma trận (matrix factorixation) với việc dùng láng giềng lân cận (k-nearest neighbors) hay hồi quy tuyến tính (linear regression) để dự đốn nhân tố người dùng thơng qua thuộc tính họ Như minh họa hình đây, với người dùng (người thứ n+1) kỹ thuật MF hồn tồn khơng thể xác định nhân tố người dùng (user factor - dòng cuối ma trận P), khơng thể đưa dự đoán cho họ (n+1) user m items user (unew) Hình Minh họa kỹ thuật phân rã ma trận cho người dùng Để giải vấn đề này, dựa ý tưởng từ viết [9], thông qua thuộc tính người dùng chúng tơi giới thiệu cách: - Tìm người dùng tương đồng với người dùng (dùng phương pháp kNN thuộc tính họ) sau sử dụng nhân tố (user factors) người dùng tương đồng để tìm nhân tố cho người dùng Phương pháp đặt tên MF-kNN - Sử dụng thuộc tính người dùng để xây dựng mơ hình hồi quy, từ dự đốn nhân tố (factor) cho người dùng Phương pháp đặt tên MF-LR Chi tiết phương pháp trình bày Trước hết minh họa ma trận thuộc tính user có dạng Hình 4: (n + 1) user Đinh Thế An Huy, Châu Lê Sa Lin, Nguyễn Hữu Hòa, Nguyễn Thái Nghe user (unew) 373 ID Age 29 Attributes Sex Occ Status 15 n 45 n+1 34 … … Hình Ma trận thuộc tính user |U| x T Gọi A ma trận lưu trữ thuộc tính user, giá trị thuộc tính user chuẩn hóa để đưa thuộc tính dạng trị số dễ dàng ước lượng, tính tốn Ngồi ra, việc chuẩn hóa giúp giá trị thuộc tính chuyển vào miền giá trị xác định cho trước, giúp liệu cân Ví dụ so sánh hai người dùng u1 (độ tuổi 50, giới tính nam, nhóm nghề 2, độc thân) với người dùng u2 (20 tuổi, giới tính nữ, nhóm nghề 1, độc thân) rõ ràng thuộc tính độ tuổi chiếm ưu giá trị thuộc tính khác áp dụng cơng thức tìm độ tương đồng người dùng dựa vào giá trị thuộc tính thuộc tính độ tuổi (age) ảnh hưởng nhiều đến độ tương đồng người dùng * Phương pháp 1: Dự đoán nhân tố tiềm ẩn (latent factors) phương pháp láng giềng lân cận “kNearest Neighbors” (MF-kNN) Mơ hình chi tiết trình bày sơ đồ sau đây: Hình Mơ hình dự đoán nhân tố tiềm ẩn phương pháp MF-kNN Ý tưởng phương pháp phân loại người dùng vào lớp tương đồng với dựa vào độ tương đồng thuộc tính người dùng [25] Trong trường hợp unew người dùng xuất hệ thống chưa có đánh giá cho items nào, đề xuất dựa vào giá trị thuộc tính (attributes) user như: tuổi, giới tính, nghề nghiệp, để tìm độ tương đồng user (unew) với tất user tập liệu, sau xác định user tương đồng nhất, ta sử dụng nhân tố user tương đồng để xác định nhân tố cho user MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý 374 Trong viết dùng độ đo cosine (cosine similarity) để xác định độ tương đồng hai người dùng ua ub cơng thức: (3) đó: pai, pbi giá trị thuộc tính thứ i người dùng a b m số thuộc tính vector Giả sử sau dựa vào giá trị thuộc tính user để tìm độ tương đồng, với K=4 ta tập user tương H u1 , u , u5 , u6 => Trong ma trận phân rã P (với R~P.QT), dòng tương ứng với UID đồng với unew là: tương đồng với unew tập hợp factor tương đồng unew Attributes Sex Occ Status 29 15 3 34 22 19 45 user (unew) n+1 34 (n + 1) dòng Age (n + 1) user ID Ma trận QT Các factor tương đồng unew ? ? ? Ma trận P Hình Xác định factor tương đồng người dùng dựa vào độ tương đồng thuộc tính Dựa vào độ tương đồng unew user khác, tìm tập H user tương đồng với unew Khi tính factor unew ma trận P dựa vào công thức (4); f unewk đó: u 'H unew sim unew , u ' f u ' k u 'H unew (4) sim unew , u ' f unewk : factor dự đoán unew nhân tố tiềm ẩn thứ k sim(unew, u’) : độ tương đồng người dùng unew u’ fu’k: factor người dùng u’ nhân tố tiềm ẩn thứ k H: tập user tương đồng với unew Sau tìm giá trị factor unew dễ dàng tính lại rating unew theo công thức (1) * Phương pháp 2: Dự đốn nhân tố mơ hình hồi quy tuyến tính (MF-LR) Ý tưởng phương pháp dựa vào giá trị thuộc tính nhân tố (factors) user có hệ thống để tính tốn ảnh hưởng tuyến tính đến nhân tố người dùng Nhân tố người dùng Thuộc tính người dùng Người dùng Người dùng Ánh xạ tuyến tính Nhân tố xác định Nhân tố chưa xác định Hình Phương pháp mapping tuyến tính từ thuộc tính sang nhân tố người dùng Đinh Thế An Huy, Châu Lê Sa Lin, Nguyễn Hữu Hòa, Nguyễn Thái Nghe 375 Trong mơ hình này, chúng tơi sử dụng thuộc tính nhân tố xác định người dùng hệ thống kết hợp với kỹ thuật hồi quy tuyến tính để ánh xạ đến factor người dùng Gọi A = { a1, a2, a3,…, aw} tập hợp tất thuộc tính user (ai thuộc tính thứ i); P Q ma trận phân rã kỹ thuật phân rã ma trận từ ma trận rating R, với R~ P.QT Sau chuẩn hóa giá trị thuộc tính miền giá trị xác định cho trước, ta xây dựng mơ hình dự đốn nhân tố người dùng minh họa hình sau: a1 a2 a3 … aw f1 f2 … fk u1 … f1u1 f2u1 … fku1 … un … … … … f1un … f2un … … … fkun Linear Regression un+1 2 ? Người dùng unew ? ? ? Các factor unew Hình Dự đốn factor người dùng dựa factors người dùng có Trong mơ hình này, chúng tơi dựa vào giá trị thuộc tính (a1, a2, , aw) (xem predictors) kết hợp với user factor (f1, f2, ,fk) (xem thuộc tính đích – target class/attribute) tạo từ kỹ thuật phân rã ma trận, sau dùng Linear regression để xác định factor người dùng Sau tìm giá trị factor unew, ta hoàn tồn dự đốn xếp hạng người dùng theo công thức (1) kỹ thuật phân rã ma trận thông thường V KẾT QUẢ THỰC NGHIỆM a Dữ liệu dùng để đánh giá - Tập liệu hệ thống gợi ý phim Movielens 100k 1M (grouplens.org/datasets/movielens): Tập liệu 100K có 100.000 đánh giá thực 943 người dùng số lượng 1.682 phim; Tập liệu 1M có 1.000.209 đánh giá thực 6.040 người dùng số lượng 2000 phim, người dùng có đánh giá 20 phim mức đánh giá từ 5; - Tập liệu Restaurant & Consumer data (RCData, archive.ics.uci.edu/ml/machine-learning-databases/00232): Tập liệu thu thập từ phần hệ thống gợi ý nhà hàng theo đánh giá khách hàng thành phố đất nước México, mục tiêu tạo danh sách Ntop nhà hàng tốt theo bình chọn khách hàng Thông tin tập liệu dùng đê thực nghiệm trình bày bảng sau Bảng Mơ tả tập liệu thực nghiệm Data Set MovieLens 100K MovieLens 1M RC Data Users User-Attributes Items Items-Attributes Rating 943 6040 138 3 19 1682 2000 130 19 19 21 100,000 [1-5] 1,000,209 [1-5] 1,161 [1-3] Các tập liệu nên chuẩn hóa trước đưa vào mơ hình dự đốn b Phương pháp chuẩn hóa liệu đầu vào Có nhiều phương pháp chuẩn hóa liệu z-score normalization, normalization by decimal scaling, hay min-max normalization , viết chúng tơi thực chuẩn hóa liệu theo công thức MIN-MAX normalize sau: đó: v: giá trị cũ, v [minA, maxA]; v’: giá trị mới, v’ [new_minA, new_maxA]; MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý 376 Việc chuẩn hóa giúp liệu đầu vào định dạng giá trị thuộc miền giá trị xác định nhằm tránh độ lệch (biases) dùng độ đo tương đồng (như kNN) c Các độ đo dùng thực nghiệm Có nhiều phương pháp khác mà sử dụng để đo độ lỗi giải thuật như: Root Mean Squared Error (RMSE), MAE (Mean Absolute Error), F-Measure, Area Under the ROC curve (AUC),… phương pháp đánh giá thích hợp cho lĩnh vực khác Ở sử dụng độ đo phổ biến RMSE MAE để đánh giá hiệu phương pháp d Phương pháp đánh giá Chúng sử dụng kỹ thuật đánh giá phổ biến nghi thức k-folds cross validation Trong trình kiểm tra, để kiểm chứng hiệu mơ hình giải vấn đề Cold-start phân liệu tập test thành liệu có chứa: 25%, 50%, 100% người dùng mới; Kết đánh giá so sánh với phương pháp Global Average Item Average phương pháp đơn giản thường dùng trường hợp đánh giá cho người dùng mục tin e Kết thực nghiệm Kết thực nghiệm trình bày hình sau: 1.21 1.201 1.2 1.19 1.179 1.18 1.17 1.17 1.165 1.175 1.172 1.172 1.169 1.169 1.166 1.164 1.161 1.16 1.15 1.14 100% MF-KNN 50% MF-LR 25% Global Average Item Average Hình Thể độ đo lỗi RMSE tập liệu MovieLens 100K 0.99 0.983 0.98 0.967 0.97 0.96 0.96 0.95 0.954 0.952 0.95 0.959 0.953 0.958 0.95 0.949 0.94 0.93 100% MF-kNN 50% MF-LR Global Average 25% Item Average Hình 10 Thể độ đo lỗi MAE tập liệu MovieLens 100K 0.956 Đinh Thế An Huy, Châu Lê Sa Lin, Nguyễn Hữu Hòa, Nguyễn Thái Nghe 377 1.16 1.148 1.147 1.15 1.14 1.14 1.13 1.129 1.128 1.125 1.128 1.132 1.129 1.131 1.128 1.126 1.12 1.11 1.1 100% 50% MF-KNN MF-LR 25% Global Average Item Average Hình 11 Thể độ đo lỗi RMSE tập liệu Movie Lens 1M 0.935 0.931 0.93 0.93 0.925 0.925 0.92 0.915 0.919 0.917 0.915 0.919 0.917 0.915 0.913 0.915 0.912 0.91 0.905 0.9 100% 50% MF-kNN MF-LR 25% Global Average Item Average Hình 12 Thể độ đo lỗi MAE tập liệu Movie Lens 1M 0.555 0.551 0.55 0.546 0.548 0.548 0.542 0.545 0.545 0.542 0.538 0.54 0.533 0.535 0.53 0.549 0.535 0.528 0.525 0.52 100% MF-KNN 50% MF-LR Global Average 25% Item Average Hình 13 Thể độ đo lỗi RMSE tập liệu RC Data MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý 378 0.515 0.511 0.51 0.51 0.51 0.503 0.505 0.499 0.5 0.494 0.495 0.491 0.488 0.49 0.485 0.485 0.48 0.5 0.497 0.477 0.475 0.47 100% 50% MF-kNN MF-LR Global Average 25% Item Average Hình 14 Thể độ đo lỗi MAE tập liệu RC Data Kết thực nghiệm cho thấy phương pháp đề xuất có khả làm giảm lỗi cho mơ hình dự đốn xử lý vấn đề Cold-start hệ thống gợi ý Cụ thể, tập liệu MovieLens 100K MovieLens 1M, tỷ lệ 100% người dùng phương pháp MF-LR cho kết tốt phương pháp lại, tỷ lệ 50% 25% người dùng phương pháp đề xuất cho kết tốt so với Global Average Trên tập liệu RC Data, tương ứng với tập liệu có tỷ lệ người dùng 100%, 50% 25% phương pháp MF-KNN cho kết tốt phương pháp lại Thật vậy, tập liệu MovieLens nhiều tập liệu RC Data nên dùng MF-LR dựa mơ hình hồi quy tuyến tính cho kết dự đốn tốt hơn, ngược lại tập liệu RC Data user có nhiều thuộc tính tập MovieLens nên áp dụng phương pháp MF-KNN để tìm user tương đồng với người dùng dựa vào thuộc tính cho kết tốt VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua mơ hình mà chúng tơi đề xuất để xử lý vấn đề Cold-start hệ thống gợi ý phần giải hạn chế việc thiếu thông tin đánh giá người dùng hệ thống cách dựa vào thông tin cá nhân hay thuộc tính đối tượng Từ sử dụng kỹ thuật láng giềng lân cận hồi quy tuyến tính, kết hợp với kỹ thuật phân rã ma trận để đưa dự đoán cho người dùng Từ kết thực nghiệm cho thấy mơ hình đề xuất có độ lỗi thấp mơ hình gợi ý truyền thống (baseline) không phụ thuộc nhiều vào tỷ lệ người dùng hệ thống Nhìn chung mơ hình giải vấn đề Cold-start RS, nhiên tập liệu mà đối tượng có nhiều thuộc tính cho kết xác Việc áp dụng mơ hình đề xuất vào hệ thống gợi ý hoàn toàn khả thi để xử lý cho trường hợp cold-start Đối với item hệ thống, đề xuất phương pháp xử lý tương tự Từ kết thực nghiệm trên, để xử lý tốt cho trường hợp cold-start hệ thống gợi ý, hướng nghiên cứu đề tài phân tích sâu phương pháp giải vấn đề cold-start tác giả khác để làm sở đối chiếu với kết mơ hình đề xuất, từ chọn lọc, xử lý thêm nhiều thuộc tính có liên quan đến đối tượng cần gợi ý kết hợp với kỹ thuật gợi ý khác để giúp hệ thống đưa dự đốn xác Bên cạnh đó, cần kiểm chứng mơ hình nhiều tập liệu khác so sánh kỹ thuật đề xuất với phương pháp giải vấn đề cold-start khác TÀI LIỆU THAM KHẢO [1] G Adomavicius and A Tuzhilin, ―Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions,‖ IEEE Transactions on Knowledge and Data Engineering, vol.17, no.6,pp.734–749, 2005 [2] Asanov, Daniar "Algorithms and methods in recommender systems." Berlin Institute of Technology, Berlin, Germany (2011) [3] Andrew I Schein, Alexandrin Popescul, and Lyle H Ungar, David M Pennock ―Methods and Metrics for Cold-Start Recommendations‖ In SIGIR, pages 253-260 ACM, 2002 [4] D Agarwal and B.-C Chen ―Regression based latent factor models‖ ACM KDD 2009 [5] D Billsus and M Pazzani, ―Learning collaborative information filters,‖ in Proceedings of the 15th International Conference on Machine Learning (ICML '98), 1998 [6] Li Chen, Guanliang Chen, and Feng Wang ―Recommender systems based on user reviews: the state of the art‖ User Modeling and User-Adapted Interaction 25, pages: 99-154, 2015 Đinh Thế An Huy, Châu Lê Sa Lin, Nguyễn Hữu Hòa, Nguyễn Thái Nghe 379 [7] Meng, Chen, et al "A Method to Solve Cold-Start Problem in Recommendation System based on Social Network Subcommunity and Ontology Decision Model." 3rd International Conference on Multimedia Technology (ICMT-13) Atlantis Press, 2013 [8] Francesco Ricci, Lior Rokach, Bracha Shapira, and Paul B Kantor Recommender Systems Handbook (1st ed.) SpringerVerlag New York, Inc., New York, NY,USA, 2010 [9] Zeno Gantner, Lucas Drumond, Christoph Freudenthaler, Steffen Rendle and Lars Schmidt-Thieme ―Learning Attribute-toFeature Mappings for Cold-Start Recommendations‖, pages 176 – 185, IEEE, 2012 [10] Shien Ge and Xinyang Ge ―An SVD-based Collaborative Filtering approach to alleviate cold-start problems‖, 2012 9th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD), pages: 1474 – 1477, IEEE, 2012 [11] Guarino, N., Masolo, C and Vetere, G OntoSeek: ―Content-Based Access to the Web‖, IEEE Intelligent Systems, Vol 14,No 3, May/June 1999 [12] Koren Y ―Factor in the neighbors: Scalable and accurate collaborative filtering‖, AT&T Labs - Research 180 Park Ave, Florham Park, NJ 07932, 2010 [13] Koren Y, Bell R, 2009: ―Matrix Factorization Techniques for Recommender Systems‖, pages 42 – 49, IEEE [14] Martin Saveski, Amin Mantrach: "Item cold-start recommendations: learning local collective embeddings" RecSys '14 Proceedings of the 8th ACM Conference on Recommender systems Pages 89-96 ACM, 2014 [15] Nguyen Thai-Nghe An introduction to factorization technique for building recommendation systems Vol 6/2013, pages: 4453, Journal of Science - University of Da Lat, ISSN 0866-787X, 2013 [16] Nguyễn Thái Nghe, Nguyễn Hùng Dũng: ―Hệ thống gợi ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác‖ Tạp chí Khoa học Trường Đại học Cần Thơ, số 31a, trang 36-51 ISSN: 1859-2333, 2014 [17] Nguyen Thai-Nghe, Lars Schmidt-Thieme 2015 Factorization Forecasting Approach for User Modeling Journal of Computer Science and Cybernetics 133-148 Vol 31, No ISSN: 1813-9663 DOI: 10.15625/1813-9663/31/2/5860 [18] Seung-Taek Park, Wei Chu ―Pairwise preference regression for cold-start recommendation‖ In SIGIR, pages 21-28 ACM, 2009 [19] Mingxuan Sun , Ke Zhou, Fuxin Li , Guy Lebanon, Joonseok Lee, Hongyuan Zha ―Learning Multiple-Question Decision Trees for Cold-Start Recommendation‖ In SIGIR, pages 445-454 ACM, 2013 [20] Mi Zhang, Jie Tang, Xuchen Zhang, Xiangyang Xue: ―Addressing cold start in recommender systems: a semi-supervised cotraining algorithm‖ In SIGIR, pages:73-82 ACM, 2014 [21] Ke Zhou, Shuang-Hong Yang, and Hongyuan Zha ―Functional matrix factorizations for coldstart recommendation‖ In SIGIR, pages 315–324 ACM, 2011 [22] R D Snee: ―Validation of Regression Models: Methods and Examples‖, Technometrics, Vol.19, No.4 (Nov,1977), pp 415428 [23] Budura, A., Michel, S., Cudré-Mauroux, P., Aberer, K.: Neighborhood-Based Tag Prediction In: Aroyo, L., Traverso, P., Ciravegna, F., Cimiano, P., Heath, T., Hyvönen, E., Mizoguchi, R., Oren, E., Sabou, M., Simperl, E (eds.) ESWC 2009 LNCS, vol 5554, pp 608–622 Springer, Heidelberg (2009) [24] Shakhnarovish, D., Indyk: Nearest-Neighbor Methods in Learning and Vision The MIT Press (2005) [25] B Sarwar, G Karypis, J Konstan and J Riedl, "Item-based collaborative filtering recommendation algorithms," in Proceedings of the Tenth International Conference on the World Wide Web (WWW 10), pp 285-295, 2001 AN APROACH FOR COLD-START PROBLEM IN RECOMMENDER SYSTEMS Dinh The An Huy, Chau Le Sa Lin, Nguyen Huu Hoa, Nguyen Thai Nghe ABSTRACT — Recommender system (RS) is very successful in e-commerce It recommends the list of items for users by using implicit or explicit feedback Explicit feedback is based on reviews, ratings, of the users in the past Implicit feedback is based on the items that is chosen or viewed or clicked, etc by the user However, problem in RS is the new user (or new item) because the system has no feedback in the past, thus it can’t create the list of items for that new user (or new item) That problem is called ―coldstart problem‖ in the RS In this paper, we propose an approach to mitigate the cold-start problem based on attributes of the new user (e.g., ages, gender, occupation ) Experiments are built to verify the feasibility of the proposed models Keywords — Recommender systems, cold-start problem, new user, new item ... tương quan người dùng, từ đưa gợi ý cho họ Trong nghiên cứu này, đề xuất hướng tiếp cận khác để xử lý vấn đề người dùng trình bày IV GIẢI PHÁP ĐỀ XUẤT Chúng đề xuất hai mơ hình để xử lý vấn đề cold-start... định nhân tố cho user MỘT GIẢI PHÁP XỬ LÝ VẤN ĐỀ NGƯỜI DÙNG MỚI TRONG HỆ THỐNG GỢI Ý 374 Trong viết dùng độ đo cosine (cosine similarity) để xác định độ tương đồng hai người dùng ua ub cơng thức:... dụng mơ hình đề xuất vào hệ thống gợi ý hoàn toàn khả thi để xử lý cho trường hợp cold-start Đối với item hệ thống, đề xuất phương pháp xử lý tương tự Từ kết thực nghiệm trên, để xử lý tốt cho trường