ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 1 1, 2019 99 TƯ VẤN BẰNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN DỮ LIỆU KHÔNG PHẢI NHỊ PHÂN STATISTICAL IMPLICATIVE RATING BASED RECOMMEN[.]
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 1.1, 2019 99 TƯ VẤN BẰNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN DỮ LIỆU KHÔNG PHẢI NHỊ PHÂN STATISTICAL IMPLICATIVE RATING BASED RECOMMENDATION USING NON-BINARY DATA Phan Phương Lan1, Nguyễn Thị Thùy Linh1, Huỳnh Hữu Hưng2, Huỳnh Xuân Hiệp1 Trường Đại học Cần Thơ; {pplan, nttlinh, hxhiep}@ctu.edu.vn Trường Đại học Bách khoa - Đại học Đà Nẵng; hhhung@dut.edu.vn Tóm tắt - Bài báo đề xuất mơ hình tư vấn lọc cộng tác dựa người dùng sử dụng độ đo xếp hạng hàm ý thống kê cho liệu khơng phải nhị phân để dự đốn xếp hạng, từ gợi ý cho người cần tư vấn mục liệu phù hợp Hiệu mơ hình đề xuất đánh giá qua sai số dự đốn (sai số tuyệt đối trung bình bậc hai sai số bình phương trung bình) so sánh với hiệu mơ hình tư vấn lọc cộng tác dựa người dùng sử dụng hai độ đo phổ biến Pearson Cosine gói recommenderlab Kết thực nghiệm tập liệu mẫu MovieLens Dating cho thấy, mơ hình đề xuất có sai số dự đốn thấp so với mơ hình so sánh số xếp hạng biết trước người cần tư vấn nhiều Abstract - The paper proposes a recommendation model that uses the user based collaborative filtering approach and the statistical implicative rating measure on the non-binary data to predict the user ratings, then recommend the suitable items to users The performance of the proposed model is evaluated by the metrics mean absolute error and root mean square error; and compared to some existing models of recommenderlab package the user based collaborative filtering model using Cosine or Pearson The experimental results on two datasets MovieLens and Dating show that the predictive errors of the proposed model is lower than that of compared models when the number of known ratings of user (needing the recommendation) is greater than Từ khóa - Hệ tư vấn; độ đo xếp hạng hàm ý thống kê; lọc cộng tác dựa người dùng; sai số tuyệt đối trung bình; bậc hai sai số bình phương trung bình Key words - recommender system; statistical implicative rating measure; user based collaborative filtering; mean absolute error; root mean square error Đặt vấn đề Hệ tư vấn lọc cộng tác dựa người dùng (user based collaborative filtering recommender system) [1] thường sử dụng độ đo (như Cosine, Pearson,…) để tìm người dùng tương tự với người cần tư vấn Sau sử dụng thơng tin xếp hạng người để dự đốn xếp hạng người cần tư vấn cho sản phẩm gợi ý danh sách sản phẩm phù hợp với người Trong đó, phương pháp phân tích liệu hàm ý thống kê (statistical implicative analysis) [2] thường dựa độ đo số hàm ý, cường độ hàm ý, cường độ hàm ý có entropy, hay giá trị gắn kết để phát mối quan hệ mạnh đối tượng Vì vậy, độ đo hàm ý thống kê sử dụng để phát triển hệ tư vấn Một số nghiên cứu xây dựng hệ tư vấn dựa người dùng sử dụng độ đo phân tích hàm ý thống kê trình bày [3], [4] [3] đề xuất mơ hình tư vấn sử dụng độ đo dựa cường độ hàm ý cho liệu nhị phân; thực đánh giá mơ hình theo nhóm đo độ xác dự đốn sử dụng (như độ bao phủ - recall, độ xác – precision, độ đo điều hòa F1) Tuy nhiên, [3] xây dựng đánh giá mơ hình tư vấn cho loại liệu nhị phân [4] đề xuất mô hình tư vấn sử dụng độ đo dựa số hàm ý thực đánh giá mô hình theo nhóm đo độ xác dự đốn sử dụng nhóm đo độ xác dự đoán xếp hạng (như sai số tuyệt đối trung bình - MAE, bậc hai sai số bình phương trung bình - RMSE) Tuy nhiên, việc đánh giá theo MAE RMSE [4] chưa thực phù hợp cơng thức số hàm ý mà tác giả sử dụng dành cho liệu nhị phân, nên giá trị xếp hạng khơng dạng nhị phân (ví dụ: giá trị hay 5) tính (cùng có giá trị 1), từ ảnh hưởng đến việc dự đốn xếp hạng Ngồi ra, việc đánh giá mơ hình tư vấn đề xuất [4] chưa thực đầy đủ: dựa 25 láng giềng gần không nêu rõ số xếp hạng biết trước người cần tư vấn tập liệu kiểm thử.Vì vậy, để góp phần giải tồn vừa nêu, báo này, nhóm tác giả thực xây dựng đánh giá mơ hình tư vấn cho loại liệu nhị phân Cụ thể, đề xuất mơ hình tư vấn tiếp cận lọc cộng tác dựa người dùng độ đo để dự đoán xếp hạng người cần tư vấn cho mục liệu cụ thể Độ đo phát triển dựa cường độ hàm ý liệu nhị phân Tư vấn xếp hạng hàm ý thống kê liệu khơng phải nhị phân 2.1 Mơ hình tư vấn xếp hạng hàm ý thống kê liệu khơng phải nhị phân Mơ hình tư vấn xếp hạng hàm ý thống kê liệu nhị phân - phác họa Hình - sử dụng phương pháp lọc cộng tác dựa người dùng độ đo xếp hạng hàm ý thống kê Mơ hình tư vấn đề xuất có: • Một tập hữu hạn 𝑈 gồm 𝑛 𝑈 = {𝑢1 , 𝑢2 , … , 𝑢𝑛 } người dùng • Một tập hữu hạn 𝐼 gồm 𝑚 mục liệu (mục, item) 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } Mục mặt hàng, phim, hát, v.v • Một ma trận xếp hạng (ma trận đánh giá – rating matrix) 𝑅 lưu thông tin phản hồi người dùng mục liệu 𝑅 = (𝑟𝑗𝑘 )𝑛𝑥𝑚 với 𝑗 = 1, , 𝑛 𝑘 = 1, , 𝑚.𝑟𝑗𝑘 có giá trị khoảng [0, 1] Nếu giá trị 𝑅 chưa dạng này, chúng phải chuyển Phan Phương Lan, Nguyễn Thị Thùy Linh, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp 100 đổi [0, 1] Ví dụ, người dùng xếp hạng sản phẩm theo thang từ đến 5, giá trị xếp hạng người dùng 𝑢𝑗 cho sản phẩm 𝑖𝑘 giá trị quy đổi 𝑟𝑗𝑖 = 4/5 = 0.8 • Một vector 𝑅𝑢𝑎 có kích thước 𝑚.𝑅𝑢𝑎 [𝑖𝑘 ] với 𝑘 = 1, , 𝑚 lưu xếp hạng người dùng cần tư vấn 𝑢𝑎 cho mục liệu 𝑖𝑘 , rỗng (NA) 𝑢𝑎 chưa xếp hạng 𝑖𝑘 U x I →R 𝑢𝑎 x I →𝑅𝑢𝑎 Độ đo cường độ hàm ý𝜑 𝑢𝑎 x U → V Độ đo xếp hạng hàm ý KnnIR 𝑢𝑎 x I →𝑅𝑢′ 𝑎 Danh sách mục liệu có xếp hạng cao chưa xếp hạng 𝑢𝑎 Hình Mơ hình tư vấn xếp hạng hàm ý thống kê với liệu nhị phân Mơ hình tư vấn đề xuất hoạt động theo Giải thuật IIRUBCFRS với cơng việc thực hiện: • Xây dựng vector 𝑉 lưu cường độ hàm ý 𝜑(𝑢𝑎 , 𝑢𝑗 ) người cần tư vấn 𝑢𝑎 người dùng 𝑢𝑗 ∈ 𝑈 với 𝑗 = 𝑛 𝜑(𝑢𝑎 , 𝑢𝑗 ) tính theo cơng thức (2) Mục 2.2 • Dự đoán xếp hạng 𝑢𝑎 cho mục liệu thuộc 𝐼 dựa độ đo xếp hạng hàm ý KnnIR (K nearest neighbor Implicative Ratings) công thức (3) Mục 2.3 • Lọc lại danh sách mục liệu cách loại bỏ mục xếp hạng thực 𝑢𝑎 • Gợi ý cho 𝑢𝑎 mục liệu danh sách lọc có giá trị xếp hạng dự đoán IIRUBCFRS (vector 𝑅𝑢𝑎 ; ratingmatrix R; int knn){ V = Tinhcuongdohamy(𝑅𝑢𝑎 , R); 𝑅𝑢′ 𝑎 = Dudoanxephang(V, R, knn); Filteredlist = Loaibomucdaxephang(𝑅𝑢𝑎 , 𝑅𝑢′ 𝑎 ); Reclist = GoiyNmuc(Filteredlist); return Reclist; } Mục tiêu mơ hình tư vấn đề xuất dự đoán xếp hạng cho sai số tuyệt đối trung bình bậc hai sai số bình phương trung bình nhỏ so với số mô hình lọc cộng tác dựa người dùng có 2.2 Độ đo cường độ hàm ý Bên cạnh việc đề xuất hai độ đo quan trọng số hàm ý cường độ hàm ý cho loại biến nhị phân, phương pháp phân tích hàm ý thống kê cịn cập nhật công thức hai độ đo để áp dụng cho loại biến modal Biến 𝑎 gọi biến modal [2] giá trị 𝑎(𝑖) 𝑎 xác định đối tượng 𝑖 nằm khoảng [0, 1] Chỉ số hàm ý hai biến modal 𝑎, 𝑏 tính theo cơng thức (1) [2] Trong đó, 𝑎(𝑖) 𝑏̅(𝑖) giá trị biến 𝑎 𝑏̅ xác định đối tượng 𝑖; 𝑚𝑎 𝑚𝑏̅ giá trị trung bình biến 𝑎 𝑏̅ tương ứng với 1 𝑚𝑎 = ∑𝑖∈𝐸 𝑎(𝑖), 𝑚𝑏̅ = ∑𝑖∈𝐸 𝑏̅(𝑖) = ∑𝑖∈𝐸(1 − 𝑏(𝑖)) 𝑛 𝑛 𝑛 𝐸 gồm 𝑛 đối tượng mô tả tập hữu hạn biến modal; 𝑣𝑎 𝑣𝑏 phương sai hai biến 𝑎 𝑏 tương ứng với 𝑣𝑎 = ∑𝑖∈𝐸(𝑎(𝑖) − 𝑚𝑎 )2 , 𝑛 𝑣𝑏 = ∑𝑖∈𝐸(𝑏(𝑖) − 𝑚𝑏 )2 𝑛 𝑞𝑝 (𝑎, 𝑏̅) = 𝑛 ∑𝑖∈𝐸 𝑎(𝑖)𝑏̅(𝑖) − 𝑚𝑎 𝑚𝑏̅ )(𝑣 +𝑚2 ) (𝑣𝑎 +𝑚𝑎 𝑏 ̅ 𝑏 √ (1) 𝑛 Cường độ hàm ý mối quan hệ 𝑎,𝑏 xác định (2) [2] Trong đó, 𝑞𝑝 (𝑎, 𝑏̅) số hàm ý trình bày 𝜑(𝑎, 𝑏) = ∞ √2𝜋 𝑡2 ∫ 𝑒 − 𝑑𝑡 (2) 𝑞𝑝 (𝑎,𝑏̅ ) Để sử dụng độ đo cường độ hàm ý mơ hình tư vấn đề xuất, ta xem biến 𝑎 𝑏 người dùng cần tư vấn 𝑢𝑎 người dùng 𝑢𝑗 ∈ 𝑈với 𝑗 = 1, , 𝑛 tương ứng, 𝑖 mục liệu 𝑖𝑖 ∈ 𝐼 Như vậy, 𝜑(𝑎, 𝑏) 𝜑(𝑢𝑎 , 𝑢𝑗 ) ; 𝑎(𝑖) 𝑅𝑢𝑎 [𝑖𝑖 ] 𝑏(𝑖) 𝑅[𝑢𝑗 , 𝑖𝑖 ] (tức 𝑟𝑗𝑖 ) Giá cường độ hàm ý dùng để tìm láng giềng gần 𝑢𝑎 𝑢𝑘 𝑘𝑛𝑛 láng giềng gần 𝑢𝑎 𝜑(𝑢𝑎 , 𝑢𝑘 ) 𝑘𝑛𝑛 giá trị cao Giải thuật Tinhcuongdohamy tính cường độ hàm ý người dùng 𝑢𝑎 với người dùng 𝑢𝑗 (𝑗 = 1, , 𝑛) gồm bước sau: • Tính giá trị trung bình 𝑚𝑎 phương sai 𝑣𝑎 dựa xếp hạng người cần tư vấn 𝑢𝑎 • Với người dùng 𝑢𝑗 ∈ 𝑈, tính giá trị trung bình 𝑚𝑏 phương sai 𝑣𝑏 dựa xếp hạng người cần tư vấn 𝑢𝑗 , tính số hàm ý theo cơng thức (1) tính cường độ hàm ý theo cơng thức (2) ; • Lặp lại bước cho người dùng 𝑢𝑗 ∈ 𝑈 Tinhcuongdohamy(𝑅𝑢𝑎 , R){ mean_a = mean(𝑅𝑢𝑎 ); var_a = var(𝑅𝑢𝑎 ); for người dùng 𝑢𝑗 ∈ 𝑈 { mean_b = mean(R[j,]); var_b = var(R[j,]); sum_ab_ = sum(𝑅𝑢𝑎 *(1-R[j,]))/n; q_ab_ = (sum_ab_ - mean_a*(1-mean_b))/ sqrt((var_a+ mean_a^2)*(var_b+(1-mean_b)^2)/n); ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 1.1, 2019 V[j] = -pnorm(q_ab_); } return V; } 2.3 Độ đo xếp hạng hàm ý thống kê Giá trị xếp hạng (độ yêu thích) sản phẩm 𝑖 người dùng cần tư vấn 𝑢𝑎 gần giống giá trị xếp hạng sản phẩm 𝑖 người có sở thích (gọi chung láng giềng gần 𝑢𝑗 ) Việc tìm láng giềng dựa cường độ hàm ý hai người dùng Tuy nhiên, người dùng 𝑢𝑎 láng giềng 𝑢𝑗 có mối quan hệ hàm ý mạnh độ yêu thích 𝑢𝑗 sản phẩm 𝑖 thấp 𝑢𝑗 ảnh hưởng đến việc xếp hạng 𝑖 𝑢𝑎 ngược lại Vì vậy, nhóm tác giả đề xuất độ đo KnnIR để dự đoán xếp hạng người dùng 𝑢𝑎 cho mục liệu 𝑖𝑖 KnnIR giá trị xếp hạng quy đổi khoảng [0, 1] xác định theo công thức (3) 𝐾𝐼𝑅(𝑢𝑎 , 𝑖𝑖 ) 𝐾𝑛𝑛𝐼𝑅(𝑢𝑎 , 𝑖𝑖 ) = (3) 𝑚𝑎𝑥𝑖𝑙 ∈𝐼 𝐾𝐼𝑅(𝑢𝑎 , 𝑖𝑙 ) Trong (3), KIR (Kernel Implicative Rating) giá trị xếp hạng gốc người dùng 𝑢𝑎 cho mục liệu 𝑖𝑖 𝐾𝐼𝑅(𝑢𝑎 , 𝑖𝑖 ) tính (4) 𝑘𝑛𝑛 𝐾𝐼𝑅(𝑢𝑎 , 𝑖𝑖 ) = ∑ 𝜑(𝑢𝑎 , 𝑢𝑘 ) ∗ 𝑅(𝑢𝑘 , 𝑖𝑖 ) (4) 𝑘=1 Trong đó, 𝑘𝑛𝑛 số láng giềng gần 𝑢𝑎 ;𝜑(𝑢𝑎 , 𝑢𝑘 ) giá trị cường độ hàm ý 𝑢𝑎 với 𝑘𝑛𝑛 láng giềng gần 𝑢𝑘 ∈ 𝑈 𝑘 = 1, , kn𝑛; 𝑅(𝑢𝑘 , 𝑖𝑖 ) giá trị xếp hạng 𝑘𝑛𝑛 láng giềng gần 𝑢𝑘 cho mục liệu 𝑖𝑖 𝑅(𝑢𝑘 , 𝑖𝑖 ) xem trọng số cường độ hàm ý 𝜑(𝑢𝑎 , 𝑢𝑘 ) mục liệu 𝑖𝑖 Thực nghiệm 3.1 Dữ liệu Công cụ thực nghiệm 3.1.1 Dữ liệu thực nghiệm Bảng Thông tin chung tập mẫu trích xuất từ MovieLens Dating_4000 Tập liệu Số người dùng Số phim/ hồ sơ Số xếp hạng MovieLens 943 1,144 97,370 Dating_4000 4,000 12,476 337,830 MovieLens Dating hai tập liệu sử dụng thực nghiệm Tập liệu MovieLens [5] - lưu xếp hạng người dùng cho phim - thu thập thông qua trang web movielens.umn.edu khoảng thời gian bảy tháng Tập liệu Dating [6] lưu xếp hạng hẹn hò người dùng cho hồ sơ ứng viên Tập liệu MovieLens chứa: 943 người dùng; 1,664 phim 99,392 xếp hạng với giá trị từ đến tốt Tập liệu Dating có kích thước lớn nên chúng tơi lấy thông tin xếp hạng 4,000 người dùng tiến hành xây dựng ma trận xếp hạng Kết quả, tập liệu 101 Dating_4000 có: 4,000 người dùng; 76,685 hồ sơ ứng viên 520,732 xếp hạng với giá trị từ đến 10 10 tốt Để thực nghiệm mơ hình tư vấn đề xuất, trước tiên, chúng tơi thực tiền xử lý tập liệu cách quy đổi giá trị xếp hạng đoạn [0, 1] Cụ thể, giá trị xếp hạng quy đổi tính từ giá trị xếp hạng gốc chia cho tập MovieLens, chia cho 10 tập Dating_4000 Bên cạnh đó, nhằm tăng tính xác việc đưa gợi ý, thực loại bỏ phim/hồ sơ ứng viên xếp hạng số người dùng Cụ thể, giữ lại phim/hồ sơ xếp hạng từ 10 người trở lên để trích xuất tập liệu mẫu dùng thực nghiệm Thông tin chung tập mẫu trình bày Bảng Ngồi ra, qua việc xác định phân vị người dùng (p% = a cho biết có p% số người dùng mà người đánh giá từ a mục liệu trở xuống), ta có 0% số người dùng xếp hạng từ 17 phim trở xuống tập mẫu MovieLens 0% số người dùng xếp hạng từ hồ sơ trở xuống tập mẫu Dating_4000 Do đó, số xếp hạng biết trước (given) tối đa người cần tư vấn dùng cho đánh giá hiệu mơ hình đề xuất 17 tập mẫu MovieLens tập mẫu Dating_4000 Chi tiết phương pháp đánh giá hệ tư vấn trình bày Mục 3.2 3.1.2 Cơng cụ thực nghiệm Mơ hình tư vấn đề xuất cài đặt ngôn ngữ R tích hợp vào cơng cụ mà nhóm tác giả phát triển [7] Mơ hình đặt tên IIMUBCF (User Based Collaborative Filtering using Modal Implicative Intensity) Bên cạnh đó, nhóm tác giả cịn sử dụng mơ hình tư vấn lọc cộng tác dựa người dùng UBCF gói recommenderlab [8] để so sánh với mơ hình đề xuất Mơ hình UBCF dùng độ đo Cosine Pearson – độ đo phổ biến – để tìm láng giềng gần xây dựng danh sách gợi ý 3.2 Phương pháp đánh giá hệ tư vấn Phương pháp đánh giá chéo 𝑘-tập [9], độ đo sai số tuyệt đối trung bình (Mean Absolute Error MAE), bậc hai sai số bình phương trung bình (Root Mean Square Error – RMSE) [10] sử dụng để đánh giá hiệu hệ tư vấn Phương pháp đánh giá chéo 𝑘-tập [9] phân tách tập liệu thành 𝑘 tập có kích thước thực 𝑘 lần đánh giá sau lấy kết trung bình Ở lần đánh giá, (𝑘 − 1) tập sử dụng làm tập huấn luyện tập lại sử dụng làm tập kiểm thử Trong thực nghiệm này, 𝑘-tập đặt Tập liệu kiểm thử lại chia thành hai phần: tập liệu truy vấn (queryset) tập liệu đích (targetset) có kích thước Mỗi người dùng tập liệu truy vấn có 𝑔𝑖𝑣𝑒𝑛 xếp hạng biết trước chọn ngẫu nhiên Như vậy, người dùng tập liệu đích gồm xếp hạng lại Tập liệu huấn luyện với tập liệu truy vấn sử dụng để dự đoán xếp hạng người dùng (trong tập truy vấn) cho mục liệu chưa xếp hạng Tập liệu đích với xếp hạng dự đốn sử dụng để đánh giá hiệu hệ tư vấn Phan Phương Lan, Nguyễn Thị Thùy Linh, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp 102 Các độ đo MAE RMSE [10] giúp ta tính sai số dự đốn Hai độ đo có cơng thức tính (5) (6) Trong đó, |𝑡𝑎𝑟𝑔𝑒𝑡𝑠𝑒𝑡| tổng số xếp hạng tập liệu đích, 𝑟𝑖𝑗 xếp hạng thực người dùng 𝑢𝑖 cho mục liệu 𝑖𝑗 tập liệu đích 𝑟𝑖𝑗′ xếp hạng dự đoán người dùng 𝑢𝑖 cho mục liệu 𝑖𝑗 𝑀𝐴𝐸 = ∑ |𝑟𝑖𝑗 − 𝑟𝑖𝑗′ | (5) |𝑡𝑎𝑟𝑔𝑒𝑡𝑠𝑒𝑡| (𝑖,𝑗)∈𝑡𝑎𝑟𝑔𝑒𝑡𝑠𝑒𝑡 𝑅𝑀𝑆𝐸 = √ ∑(𝑖,𝑗)∈𝑡𝑎𝑟𝑔𝑒𝑡𝑠𝑒𝑡 (𝑟𝑖𝑗 − 𝑟𝑖𝑗′ )2 |𝑡𝑎𝑟𝑔𝑒𝑡𝑠𝑒𝑡| (6) Nhóm tác giả xây dựng ba hệ tư vấn IIM UBCFRS, Cosine UBCFRS Pearson UBCFRS, sau đánh giá hiệu chúng Hệ tư vấn thứ sử dụng mơ hình đề xuất IIMUBCF, hai hệ tư vấn cịn lại sử dụng mơ hình UBCF với độ đo Cosine Pearson tương ứng Các thông số sử dụng ba hệ tư vấn là: 𝑔𝑖𝑣𝑒𝑛 – số xếp hạng biết trước người dùng tập truy vấn, 𝑘𝑛𝑛 – số láng giềng gần nhất, 𝑡𝑖𝑚𝑒𝑠 – số lần đánh giá theo phương pháp 5-tập Giá trị MAE RMSE hệ tư vấn giá trị MAE RMSE trung bình 𝑡𝑖𝑚𝑒𝑠 lần đánh giá cho 𝑔𝑖𝑣𝑒𝑛 số láng giềng gần 𝑘𝑛𝑛 Sau đó, giá trị MAE RMSE ba hệ tư vấn so sánh với để đánh giá hiệu chúng Hệ tư vấn có hiệu tốt hệ có sai số MAE RMSE nhỏ 3.3 Kết thực nghiệm 3.3.1 Kết tập MovieLens Hình 2, Hình Hình hiển thị giá trị sai số RMSE hệ tư vấn có số given có số láng giềng gần knn thay đổi từ 10 đến 100 Cụ thể, giá trị tham số (given, times, knn) sử dụng Hình Hình (3, 8, 10 –100), (10, 3, 10 – 100), (9, 5, 10 – 100) tương ứng Kết Hình Hình cho thấy, hệ tư vấn sử dụng mơ hình đề xuất IIM UBCFRS có giá trị sai số thấp Kết Hình cho thấy, giá trị RMSE IIM UBCFRS thấp 𝑘𝑛𝑛 xét, Pearson UBCFRS cao phân đoạn 𝑘𝑛𝑛 từ 10 đến 60, Cosine UBCFRS cao phân đoạn 𝑘𝑛𝑛 lại Khi thay đổi giá trị 𝑡𝑖𝑚𝑒𝑠 số láng giềng gần (𝑘𝑛𝑛: 10 – 100), ta nhận kết tương tự Hình với 𝑔𝑖𝑣𝑒𝑛 có giá trị từ đến 8, Hình với 𝑔𝑖𝑣𝑒𝑛 có giá trị từ 10 đến 17 Hình với given = Hình Giá trị bậc hai sai số bình phương trung bình ba hệ tư vấn given = 3, time = knn:10 - 100 Hình Giá trị bậc hai sai số bình phương trung bình ba hệ tư vấn given = 10, time = knn:10 - 100 Hình Giá trị bậc hai sai số bình phương trung bình ba hệ tư vấn given = 9, time = knn:10 - 100 Hình Giá trị sai số tuyệt đối trung bình ba hệ tư vấn given: 2-17, time = knn = 50 Hình Sự chênh lệch giá trị RMSE (hay giá trị MAE) hai hệ tư vấn IIM UBCFRS Pearson UBCFRS given = 2, time = knn: 10 - 100 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 1.1, 2019 Hình hiển thị giá trị MAE hệ tư vấn với số lần đánh giá times = số láng giềng gần knn = 50 có given thay đổi từ đến 17 Kết Hình cho thấy giá trị sai số MAE hệ tư vấn sử dụng mơ hình đề xuất IIM UBCFRS thấp hầu hết giá trị given (từ đến 17); hệ tư vấn Cosine UBCFRS cao given từ đến 8; hệ tư vấn Pearson UBCFRS cao given lại Khi thay đổi giá trị 𝑡𝑖𝑚𝑒𝑠 gán giá trị từ 10 đến 100 cho 𝑘𝑛𝑛, ta nhận kết tương tự vừa phân tích Trong trường hợp given = 2, giá trị RMSE MAE IIM UBCFRS nhỏ Cosine UBCFRS không nhỏ mong đợi Chúng lớn giá trị RMSE MAE Pearson UBCFRS khoảng chênh lệch hai hệ thống giảm 𝑘𝑛𝑛 tăng Hình hiển thị chênh lệch giá trị RMSE (giá trị MAE) hệ thống IIM UBCFRS hệ thống Pearson UBCFRS Như vậy, với trường hợp ngoại trừ trường hợp given = 2, giá trị sai số dự đoán RMSE MAE hệ tư vấn sử dụng mô hình đề xuất IIM UBCFRS thấp Nói cách khác, mơ hình tư vấn đề xuất cho hiệu tốt mơ hình so sánh 3.3.2 Kết tập Dating_4000 Hình hiển thị giá trị sai số RMSE hệ tư vấn theo nhóm 𝑔𝑖𝑣𝑒𝑛 (lần lượt 2, 4) với số 𝑘𝑛𝑛 thay đổi (từ 10 đến 50) times = Hình Giá trị bậc hai sai số bình phương trung bình ba hệ tư vấn given: 2-4, time = knn:10 - 50 103 sai số dự đoán IIM UBCFRS cao Pearson UBCFRS tiến đến nhỏ 𝑘𝑛𝑛 tăng Hình hiển thị giá trị sai số MAE hệ tư vấn theo nhóm 𝑘𝑛𝑛 (lần lượt 10, 20, 30, 40 50) với 𝑔𝑖𝑣𝑒𝑛 thay đổi (từ đến 4) times = Kết Hình cho thấy, giá trị sai số MAE hệ tư vấn IIM UBCFRS thấp 𝑔𝑖𝑣𝑒𝑛 𝑘𝑛𝑛 từ 20 trở lên Trong trường hợp knn = 10, sai số MAE IIM UBCFRS cao Pearson UBCFRS given = tiến đến nhỏ 𝑔𝑖𝑣𝑒𝑛 tăng Do đó, với 𝑘𝑛𝑛 given >= 3, mơ hình đề xuất cho hiệu tốt mơ hình so sánh giá trị sai số dự đoán RMSE MAE hệ tư vấn sử dụng mơ hình đề xuất thấp Kết luận Bài báo xây dựng mơ hình tư vấn tiếp cận lọc cộng tác dựa người dùng sử dụng độ đo xếp hạng hàm ý thống kê liệu khơng phải nhị phân Mơ hình tư vấn đề xuất sử dụng độ đo để dự đoán xếp hạng người cần tư vấn cho mục liệu; từ gợi ý cho người mục liệu phù hợp Giá trị độ đo dựa giá trị cường độ hàm ý mạnh người cần tư vấn với người dùng khác thông tin xếp hạng biết người dùng cho mục liệu xét Mơ hình tư vấn đề xuất so sánh với mơ hình tư vấn lọc cộng tác dựa người dùng UBCF gói recommenderlab Mơ hình UBCF sử dụng hai độ đo phổ biến Cosine/Pearson để tìm láng giềng gần dự đốn xếp hạng Hiệu hệ tư vấn sử dụng mơ hình (được so sánh với nhau) đánh giá qua giá trị sai số dự đoán MAE RMSE Kết thực nghiệm hai tập mẫu MovieLens/ Dating_4000 cho thấy, mơ hình tư vấn đề xuất cho sai số dự đoán thấp số xếp hạng biết trước người cần tư vấn từ trở lên Tuy nhiên, số xếp hạng biết trước người cần tư vấn thấp (given = 2), hiệu mơ hình đề xuất chưa mong đợi Cụ thể, giá trị RMSE hay MAE mơ hình đề xuất cao mơ hình UBCF sử dụng độ đo Pearson chênh lệch giá trị hai mơ hình giảm số láng giềng gần tăng Vì vậy, nhóm tác giả nghiên cứu kỹ thuật lai ghép kết hợp mơ hình dựa luật với mơ hình đề xuất để khắc phục nhược điểm vừa nêu Ngồi ra, việc đánh giá mơ hình tư vấn có xem xét đến thứ tự mục liệu danh sách gợi ý cho người cần tư vấn chưa thực nghiên cứu Do đó, thời gian tới, nhóm tác giả thực đánh giá theo hướng để có nhìn đầy đủ hiệu mơ hình đề xuất Bên cạnh đó, nhóm tác giả thực nghiệm so sánh mơ hình đề xuất với số mơ hình tư vấn có khác TÀI LIỆU THAM KHẢO Hình Giá trị sai số tuyệt đối trung bình ba hệ tư vấn given: 2-4, time = knn:10 - 50 Kết Hình cho thấy, hệ tư vấn sử dụng mơ hình đề xuất IIM UBCFRS có giá trị sai số thấp 𝑘𝑛𝑛 𝑔𝑖𝑣𝑒𝑛 từ trở lên Trong trường hợp given = 2, [1] J.B Schafer, D Frankowski, J Herlocker, and S Sen, “Collaborative Filtering Recommender Systems”, The Adaptive Web, LNCS 4321, Springer-Verlag Berlin Heidelberg, pp 291-324, 2007 [2] R Gras and P Kuntz, “An overview of the Statistical Implicative Analysis (SIA) development”, Statistical Implicative Analysis, 104 [3] [4] [5] [6] Phan Phương Lan, Nguyễn Thị Thùy Linh, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp Studies in Computational Intelligence, Springer-Verlag, 127, pp 11-40, 2008 L P Phan, H H Huynh, and H X Huynh, “User based Recommender Systems using Implicative Rating Measure”, International Journal of Advanced Computer Science and Applications, Volume 10 Issue 11, 2017 Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Đặng Hoài Phương, Huỳnh Xuân Hiệp, “Hệ tư vấn lọc cộng tác theo người dùng dựa độ đo hàm ý thống kê”, Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ Thông tin (FAIR'9), pp 231-239, 2016 J Herlocker, J Konstan, A Borchers, J Riedl, “An Algorithmic Framework for Performing Collaborative Filtering”, Proceedings of the 1999 Conference on Research and Development in Information Retrieval Aug 1999 L Brozovsky and V Petricek, “Recommender System for Online Dating Service”, Proceedings of Znalosti 2007 Conference 2007 [7] L P Phan, N Q Phan, K M Nguyen, H H Huynh, H X Huynh, F Guillet, “Interestingnesslab: A Framework for Developing and Using Objective Interestingness Measures”, Advances in Intelligent Systems and Computing, Springer, 538: pp.302-311, 2017 [8] M Hahsler, “recommenderlab: A Framework for Developing and Testing Recommendation Algorithms”, Southern Methodist University, 2011 [9] R Kohavi, “A study of cross-validation and bootstrap for accuracy estimation and model selection.”, Proceedings of the14th International Joint Conference on Artificial Intelligence, pp.11371143, 1995 [10] A Gunawardana and G Shani, “A Survey of Accuracy Evaluation Metrics of Recommendation Tasks”, Journal of Machine Learning Research, pp 2935–2962, 10, 2009 (BBT nhận bài: 22/12/2018, hoàn tất thủ tục phản biện: 24/01/2019) ... →