Bài viết thực hiện một hệ thống sử dụng chủ yếu những tính chất đặc trưng của sản phẩm của các trang thương mại điện tử để đưa ra được hệ thống khuyến nghị với độ chính xác cao và hiệu năng tốt nhất.
1 ĐỀ XUẤT THUẬT TOÁN KHUYẾN NGHỊ THEO PHÂN BỐ DỰA TRÊN MƠ HÌNH HỖN HỢP GAUSSIAN Nguyễn Văn Đạt∗ , Tạ Minh Thanh‡† Inc., 13F Keangnam 72 Tower, Plot E6, Phạm Hùng, Nam Từ Liêm, Hà Nội † Học Viện Kỹ Thuật Quân Sự, 239 Hoàng Quốc Việt, Cầu Giấy, Hà Nội ∗ Sun* Tóm tắt—Ngày nay, hệ thống khuyến nghị tích hợp vào hầu hết trang thương mai điện tử giúp tăng cường suất bán hàng cho doanh nghiệp cách hỗ trợ người tiêu dùng tìm sản phẩm phù hợp, chất lượng Hiện nay, có nhiều thuật tốn khuyến nghị tốt hiệu quả, nhiên, thuật toán content-based recommendation thuật toán phổ biến sử dụng giai đoạn đầu dự án Trong số trường hợp, độ xác kết từ thuật toán content-based điều lo ngại toán liên quan đến độ tương tự phân phối thành phần Thêm nữa, phương pháp để đo độ tương đồng vấn đề quan trọng ảnh hưởng đến độ xác thuật toán content-based toán độ tương đồng phân phối Để giải hai vấn đề này, đề xuất thuật tốn content-based dựa mơ hình hỗn hợp gaussian giúp tăng độ xác cho kết đầu Mơ hình đề xuất thực nghiệm liệu rượu bao gồm số mùi vị, liệu tag mô tả vị rượu số trường thơng tin khác Thuật tốn gom n ghi dựa n vectors chiều thành k nhóm (k < n) trước áp dụng công thức để xếp kết trả So sánh kết mơ hình đề xuất với thuật toán phổ biến khác liệu trên, kết thực nghiệm thu không đạt độ xác tốt hơn, mà thời gian thực thi mơ hình vượt qua điều kiện cho việc áp dụng vào ứng dụng thực tế Từ khóa—Hệ thống khuyến nghị, Content-Based, mơ hình hỗn hợp gaussian, hệ thống khuyến nghị Tác giả liên hệ: Nguyễn nguyen.van.dat@sun-asterisk.com Văn Đạt, Email: Đến tòa soạn: 04/2020, chỉnh sửa: 7/2020, chấp nhận đăng: 07/2020 ‡ Corresponding author SỐ 02 (CS.01) 2020 phân phối, Gaussian Mixture Model - GMM, GaussianFilter Function, Collaborative Filtering I MỞ ĐẦU A Tổng quan Với phổ biến mạng Internet năm gần đây, công nghệ mang lại hội lớn phục vụ tự động hoá đến sống người Mặt khác, đa dạng dư thừa thông tin, nội dung website, thư viện số yếu tố dẫn đến ngày khó khăn việc tìm kiếm thơng tin thực cần thiết cho nhu cầu cá nhân [7, 11, 2] Hệ thống khuyến nghị (Recommendation systems) giải pháp hiệu để giải vấn đề mà không cần người dùng cung cấp yêu cầu cụ thể [31, 33] Thay vào đó, hệ thống khuyến nghị phân tích nội dung thuộc tính sản phẩm, đối tượng để tự động gợi ý thơng tin làm hài lịng nhu cầu sở thích người dùng [17, 15] Kiến trúc chung cho thuật toán content-based (CB) hiển thị hình Ngày nay, làm để xây dựng thiết kế thuật toán khuyến nghị trở thành chủ đề tập trung cần nghiên cứu Thuật toán content-base hệ thống khuyến nghị sử dụng rộng rãi tính đơn giản hiệu thời kỳ đầu dự án Theo Pasquale Lops et al [14] Chương “Content-based recommendation system: State of the Art and Trends" nhấn mạng có nhiều lợi ích thu từ thuật tốn content-based so với thuật toán loại Collaborative Filtering (CF) là: tính độc lập người dùng, minh bạch, vấn TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 61 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian cột so sánh khác thuộc tính hai sản phẩm (1 sản phẩm gốc (màu lam), sản phẩm gợi ý (màu cam)) trả việc sử dụng công thức xếp khoảng cách (biểu đồ trên) phân phối (biểu đồ dưới) Các toán khuyến nghị dựa xác xuất phân phối thuộc tính khơng thể giải phương pháp thơng thường Một điều khó khăn nữa, nội dung mô tả sản phẩm khơng đáng tin cậy, khơng đầy đủ, khơng xác gây giảm độ xác tốn CB [11] Hình 1: Cấu trúc hệ thống khuyến nghị dựa thuật tốn content-based B Đóng góp báo đề cold-start thêm sản phẩm Bên cạnh đó, thuật tốn cịn tồn tai mặt hạn chế như: giới hạn mặt nội dung cho việc phân tích, tính chun mơn hố, thiếu liệu đánh giá từ người dùng, hay thiếu độ xác cần thiết cho vài tốn đặc biệt Hangyu et al [29] sử dụng Gaussian mixture model (GMM) cho thuật toán khuyến nghị CF để giải vấn đề thưa thớt liệu đánh giá từ phía người dùng Chen et al [4] đề xuất mơ hình lai kết hợp GMM với thuật toán khuyến nghị item-based CF để dự đoán liệu đánh giá người dùng cho sản phẩm giúp làm tăng độ xác hệ thống khuyến nghị Rui Chen et al [3] tận dụng GMM với ma trận tăng cường factorization giúp làm giảm tác động tiêu cực liệu rời rạc nhiều chiều Trong ngữ cảnh toán gợi ý hát, Yoshii et al [30] đề xuất hệ thống khuyến nghị lai, việc kết hợp CF sử dụng liệu người dùng đánh giá giá trị thuộc tính content-based mơ hình hố GMM dựa MFCCs (Mel-frequency Cepstral Coefficients) qua việc tận dụng mạng Bayesian Tuy nhiên, có điểm cần lưu ý là, hệ thống lai hệ thống CF yêu cầu lịch sử hành vi người dùng để hoạt động hiệu quả, điều mà hệ thống CB giải mà khơng cần đến liệu kiểu Thêm nữa, thuật toán CB dựa phân phối thuộc tính sản phẩm chưa giải Một ví dụ điển hình việc sử dụng CB giúp tự động tìm kiếm sản phẩm tương đồng dựa phân phối khoảng cách hiển thị Hình 2, hai biểu đồ SỐ 02 (CS.01) 2020 Để giải hai vấn đề nêu trên, đề xuất phương pháp tiếp cận sử dụng GMM [25] để gom nhóm tất sản phẩm thành nhóm khác nhau, sau đó, áp dụng cơng thức lọc Gaussian tính trọng số (Gaussian Filter Function - GFF) phương pháp tính độ tương đồng để xếp kết trả Để chứng minh tính hiệu mơ hình, chúng tơi thực nghiệm so sánh với phương pháp CB phổ biến khác, Bag of Word (BOW)[1] với GFF (BOW + GFF), GMM với Euclidean Distance (ED) [13] (GMM + ED) Mơ hình đề xuất chúng tơi cố gắng thực hệ thống sử dụng chủ yếu tính chất đặc trưng sản phầm trang thương mại điện tử để đưa hệ thống khuyến nghị với độ xác cao hiệu tốt Dựa vào kết thực nghiệm, kết luận rằng, mơ hình chúng tơi khơng tốt hẳn độ xác, mà cịn đạt tốc Hình 2: Ví dụ việc sử dụng công thức khoảng cách phân phối cho hệ thống khuyến nghị dựa phân phối thuộc tính TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 62 Nguyễn Văn Đạt, Tạ Minh Thanh độ trả kết nhanh so với hai mơ hình đề xuất trước C Cấu trúc báo Trong báo này, tổ chức nội dung sau Các kiến thức liên quan trình bày mục Trong mục 3, kiến trúc chi tiết mơ tả mơ hình đưa Thí nghiệm đánh giá trình bày phần Kết luận, dự kiến nội dung cải thiện xu hướng nghiên cứu đưa mục II CÁC KỸ THUẬT LIÊN QUAN Trong mục này, trình bày số kỹ thuật liên quan cần sử dụng báo Chi tiết phần trình bày đây: A Hệ thống khuyến nghị Content-Based Đây thuật toán khuyến nghị phổ biến thơng dụng Thuật tốn dựa ý tưởng việc sử dụng mô tả đặc trưng thuộc tính sản phẩm cho mục đính khuyến nghị Bài tốn khuyến nghị chia làm nhánh chính: Chỉ phân tích thuộc tính sản phẩm, xây dựng hồ sơ người dùng cho cá nhân dựa đặc tính liệu đánh giá sản phẩm 1) Hệ thống khuyến nghị dựa phân tích thuộc tính sản phẩm: Với trường hợp liệu liệu thô, khiết thuộc tính sản phẩm, khơng có tính cá nhân hố, xây dựng hệ thống khuyến nghị dựa tương đồng thuộc tính Ví dụ, có N ghi Xn = {x1 , x2 , , xn } với xi có h thuộc tính xi = {p1 , p2 , , ph }; pi phản ánh giá trị đó ngồi đời thực, chẳng hạn như: giá cả, thẻ tags, nội dung miêu tả, nhãn hiệu Tư tưởng cố gắng tìm sản phẩm có vùng nội dung giống nhiều để nhóm chúng thành nhóm sản phẩm tương đồng 2) Xây dựng hồ sơ người dùng dựa thuộc tính sản phẩm: Trong trường hợp này, giả sử có C người dùng Un = {u1 , u2 , , uc }, n sản phẩm Xn = {x1 , x2 , , xn }, liệu đánh giá vài sản phẩm người dùng Tư tưởng tận dụng liệu đánh giá rời rạc người dùng để dự đoán số SỐ 02 (CS.01) 2020 sản phẩm có khả phù hợp với cá nhân, mang tính cá nhân hố Hệ thống phân tích sản phẩm đánh gía người dùng dựa vào để xây dựng lên hồ sơ sở thích cho người dùng Bộ hồ sơ biểu diễn dạng liệu có cấu trúc quan tâm người dùng toàn tập sản phẩm Về cách hoạt động, hệ thống dựa hồ sơ thuộc tính sản phẩm để đưa dự đoán đánh giá cho sản phẩm chưa người dùng xem đến đánh giá Và từ đó, dựa vào giá giá trị đánh giá để trả cho người dùng sản phẩm mà họ quan tâm B Độ đo tương đồng Trong thuật tốn content-based, cơng thức tính tốn mức độ tương đồng trực tiếp ảnh hưởng đến độ xác kết đầu Một số công thức phổ biến liệt kê đây: euclidean distance: công thức phổ biến dùng để đo độ tương đồng vectors việc tính tốn bậc hai tổng bình phương khoảng cách phần tử tương ứng vector: d(p, q) = (p1 − q1 )2 + (p2 − q2 )2 + + (pn − qn )2 n (pi − qi )2 = i (1) Trong pi , qi vectors tương ứng biểu diễn thuộc tính sản phẩm pi , qi dạng số Cosin: Công thức đo độ tương đồng hai vectors việc tính tốn cosine góc vectors [21] cosin(i, j) = i.j | i | | j | (2) Giá trị thước đo trả khoảng [-1, 1], i, j vectors tương ứng biểu diễn sản phẩm khác Pearson: Hệ số tương quan pearson phản ánh mức độ tương quan tuyến tính vectors [26], định nghĩa sau: TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 63 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian r∈ i,j(Ri ,r−Ri )(Rj ,r−Rj ) p(i, j) = r∈ i,j(Ri ,r−Ri )2 r∈ i,j(Rj ,r−Rj )2 (3) Giá trị p(i, j) trả nằm khoảng [1, 1], r phần giao phần khác vectors i, j Ri , Rj trung bình giá trị vectors i, j Jaccard: Độ tương đồng Jaccard thường sử dụng để đo độ tương đồng khác tập mẫu hữu hạn [19], định nghĩa sau: J(A, B) = |A∩B | |A|+|B |−|A∩B | (4) Trong đó, A B tập mẫu khác C Mơ hình hỗn hợp Gaussian (GMM) GMM hàm số tổng hợp từ nhiều Gaussians, sử dụng để giải toán liên quan đến liệu tập chứa phân phối khác [24, 5], phân phối định nghĩa k ∈ {1 K}, K số cụm liệu Mỗi Gaussian k hỗn hợp tổng hợp từ tham số sau: (i) Giá trị trung bình µ định nghĩa trung tâm cụm (ii) Hiệp phương sai Σ định nghĩa biên cụm (iii) Giá trị xác suất α định nghĩa mức độ lớn hay nhỏ hàm Gaussian GMM định nghĩa sau: k p(x) = (5) αi N (x|µi , Σi ), i=1 đó, N (x|µi , Σi ) thành phần thứ i mơ hình lai này, hàm mật độ xác suất vector x có n chiều tuân theo phân phối Gaussian định nghĩa sau: N (x) = n − 12 (x−µ)T (2π) | Σ | −1 (x−µ) , (6) Hình 3: Mơ hình hỗn hợp Gaussian Giả sử tập mẫu D = {x1 , x2 , x3 , , xm } tuân theo phân phối hỗn hợp Gaussian, sử dụng biến ngẫu nhiên zj ∈ {1, 2, , k} để biểu diễn thành phần hỗn hợp mẫu xj , giá trị khơng xác định Ngồi ra, nhận xác suất trước P (zj = i) zj tương ứng với αi (i = 1, 2, 3, , k) Theo lý thuyết Bayes [12], thu xác suất sau zj định nghĩa sau: p(zj − i|xj ) = = P (zj = i).p(xj |zj = i) p(xj ) αi N (xj |µi , Σi ) k l=1 αl N (xj |µl , Σl ) (8) Trong công thức trên, p(zj = i|xj ) biểu diễn xác suất sau mẫu xj sinh từ thành phần hỗn hợp Gaussian thứ i Giả sử γij = {1, 2, 3, , k} biểu diễn p(zj = i|xj ) Khi tham số mơ hình {(αi , µi , Σi )|1 ≤ i ≤ k} công thức tìm ra, cụm mơ hình hỗn hợp Gaussian chia mẫu D thành k cụm C = {C1 , C2 , , Ck } [24], nhãn cụm λj mẫu xj định nghĩa theo công thức sau: λj = arg maxi∈1,2,3, ,k γji (9) Dựa vào cơng thức, đưa xj vào cụm Cλj Tham số mơ hình {(αi , µi , Σi )|1 ≤ i ≤ k} giải thuật toán EM [16] D Tập liệu k αi = i=1 SỐ 02 (CS.01) 2020 (7) Mơ hình đề xuất chúng tơi thực liệu rượu, cụ thể hơn, rượu TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64 Nguyễn Văn Đạt, Tạ Minh Thanh Tuy nhiên, thực dataset khó, thiếu liệu liệu không đồng dẫn đến rời rạc liệu, đặc biệt số f1 , , f6 Vì vậy, nhiệm vụ trở nên khó khăn hơn, ảnh hưởng trực tiếp đến kết hệ thống Cụ thể hơn, 30% giá trị trường số rỗng, 2% không tồn số mùi vị tags Thêm nữa, nhiều giá trị tags khơng xác, khơng tin cậy cần tiền xử lý xoá bỏ nhiễu Dưới bảng thống kê giá trị rỗng liệu, số trường không liệt kê bảng III MƠ HÌNH Hình 4: Trực quan hoá số mùi vị sake loại rượu tiếng Nhật Bản Tập liệu thu thập từ liệu Sakenowa1 Đây trang web tiếng uy tín chuyên bán rượu sake xứ sở hoa anh đào Các thí nghiệm thuật tốn đề xuất thuật toán so sánh tiến hành thử nghiệm liệu Sakenowa so sánh với kết thực tế mà trang thương mại rượu Sakenowa sử dụng để khuyến nghị loại rượu cho khách hàng Bộ dataset tổng cộng chứa 1072 ghi đặc trưng 19 thuộc tính tên rượu, thương hiệu rượu, năm sản xuất, ảnh rượu, tags mùi vị rượu, số rượu (f1 , f2 , , f6 ) biểu diễn cho fruity, mellow, rich, mild, dry light, để nguyên văn gốc tiếng anh để giữ nguyên sắc tính trừu tượng số mùi vị này) Đáng ý hơn, tags mùi vị rượu, số rượu đóng vai trị quan trọng thuộc tính khác Khoảng giá trị số (f1 , · · · , f6 ) khoảng [0, 1], phần lớn giá trị thuộc [0.2, 0.6] Giá trị trường văn liệu ngơn ngữ nhật Nhiệm vụ thuật tốn khuyến nghị cách tự động trả loại rượu tương đồng, giống với loại rượu mà người dùng xem Hình mô số rượu dùng làm đặc trưng trang Sakenowa ĐỀ XUẤT THUẬT TỐN Trong phần này, chúng tơi giới thiệu giải thích chi tiết mơ hình đề xuất Như đề cập phần trước, nhiệm vụ phải trả sản phẩm rượu giống với sản phẩm mà khách hàng xem, dựa vào 19 thuộc tính sản phẩm Đặc biệt hơn, số mùi vị tags mùi vị tác nhân ảnh hưởng trực tiếp đến kết độ xác tính giác quan Vì vậy, chúng tơi chọn số mùi vị tags mùi vị kết tốt Càng giống số này, kết gợi ý cho người dùng xác Dựa nguyên lý này, đề xuất phương pháp tận dụng tương đồng phân phối liệu để tăng cường độ xác kết trả Trong đề xuất chúng tơi, thay sử dụng vector chiều để tính tốn độ tương đồng công thức cosine hay euclidean, sử dụng GMM để nhóm tất ghi thành K = {1, 2, 3, , k} nhóm, sau xếp kết nhóm với ghi nhóm Để xếp kết này, đề cập hoàn toàn sử dụng cơng thức tính độ tương đồng phổ biến cosine euclidean, nhiên, để thu kết tốt hơn, sử dụng cơng thức tính trọng số phân phối vector tuân theo phân Bảng I: Bảng thống kê trường liệu rỗng f1 Số thực 30.4 % Tags mùi vị Kiểu chuỗi 1.77 % Tên sản phẩm Kiểu chuỗi 13.4 % https://sakenowa.com SỐ 02 (CS.01) 2020 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 65 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian Hình 6: Trực quan hố GMM Hình 5: Mơ hình hoạt động thuật tốn phối Gaussian Mơ hình hoạt động mơ hình thuật tốn hiển thị Hình A Tiền xử lý liệu Thực tế rằng, text mining vô quan trọng toán liên quan đến văn bản, thuật toán CB ngoại lệ Hơn nữa, chọn tags mùi vị số mùi vị đặc trưng cho việc tính tốn mức độ tương đồng sản phẩm Trong đó, tags mùi vị tập văn viết tiếng Nhật cần làm cấu trúc lại trước đưa vào mô hình tính tốn Chúng tơi chuyển đổi số mùi vị thành số thực cần thực số thuật toán làm cấu trúc lại liệu văn tokenization, stemmings, stop word removal, tìm thay từ đồng nghĩa, lemmatization, [22, 6, 23] trước sử dụng Thêm nữa, trường số tags mùi vị tách thành từ có nghĩa, chúng tơi bỏ qua bước tokenization thực bước B Phân cụm Chúng tơi nhận kết dự đốn cuối phụ thuộc lớn vào số mùi vị SỐ 02 (CS.01) 2020 rượu Theo cách thông thường phổ biến, xây dựng vector biểu diễn tất thuộc tính loại rượu, tận dụng phương pháp so sánh độ tương đồng cosine euclidean để xếp trả top kết Tuy nhiên, vài trường hợp, số mùi vị tags khơng đủ độ xác, có nhiều độ nhiễu, dẫn đến ảnh hướng xấu đến kết cuối Thêm nữa, có vấn đề khơng dễ dàng nhận thấy ln ln có bù thuộc tính ta sử dụng thuật toán so sánh khoảng cách để đo tương đồng vectors Cụ thể không đồng số mùi vị kết trả Do đó, chúng tơi định nhóm tất sản phẩm dựa theo phân phối số mùi vị thành nhóm khác để đảm bảo sản phẩm có phân phối số nhóm với Nếu không thống việc chọn đặc trưng sản phẩm để phân cụm dựa theo phân phối thuộc tính dễ bị chi phối nhiều thơng tin nhiễu, giảm độ xác dẫn đến khó ứng dụng thuật tốn khuyến nghị Tham khảo Hình mơ hố sản phẩm sau phân cụm C Sắp xếp với hàm Gaussian Filter Chúng ta có K = {1, 2, 3, , k} cụm, giả sử sản phẩm truy vấn trung tâm cụm mà muốn tìm Vì vậy, mục tiêu tìm top m sản phẩm giống phân phối số thuộc tính, đó, Gaussian Filter Function (GFF) lựa chọn tốt so với cosine hay euclidean Công thức GFF định nghĩa sau: TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 66 Nguyễn Văn Đạt, Tạ Minh Thanh Gkl (fil , fjl ) = exp − (fil − fjl ) , 2σkl (10) đó, Gk (fil , fjl ) xem xét hàm tính trọng số cặp giá trị thứ l số mùi vị sản phẩm khác (i, j) cụm k , l = {1, 2, 3, , 6}, σkl độ lệch chuẩn giá trị số f thứ l cụm k , công thức σkl định nghĩa sau: nk i=1 (filk − µ)2 , nk − σkl = (11) đó, nk số lượng sản phẩm thuộc cụm k , filk giá trị thứ l f số mùi vị sản phẩm thứ i cụm k , µ giá trị trung bình thuộc tính fl nhóm k Chúng ta tính lượt cho số f số mùi vị cho cặp sản phẩm toàn sản phẩm cụm, xếp theo thứ tự giảm dần để tìm kết tốt D Khoảng cách Levenshtein so sánh tags Các tags mùi vị đóng vai trị quan trọng kết đầu ra, coi số có mức độ vai trò tương tự số mùi vị Để tính tốn so sánh mức độ giống giá trị tags sản phẩm, sử dụng levenshtein distance (LD) để giải vấn đề [8, 32] Công thức levenshtein distance định nghĩa bên dưới: max(i, j), min(i, j) = leva,b (i, j) = leva , b(i − 1, j) + = lev a , b(i, j − 1) + 1, ngược lại leva , b(i − 1, j − 1) + 1(ai =bj ) (12) E Công thức xếp cuối Kết hợp hàm tính trọng số cho số mùi vị hàm so sánh tags mùi vị levenshtein distance (LD), thiết lập công thức cho việc xếp kết đầu sau: K F Mơ hình giả mã Để rõ ràng hơn, chúng tơi đưa tiến trình xử lý thuật toán đề xuất dạng giả mã để người đọc dễ dàng hiểu hình dung tồn mơ hình đề xuất chúng tơi Hãy xem mơ hình giả mã sau: Algorithm 1: Mơ hình thuật toán đề xuất Đầu vào: Số cụm k Đầu ra: Top m sản phẩm tương khác tự sản phẩm Data: Bộ liệu L Tiền xử lý liệu cho trường văn Xây dựng ma trận vector chiều đại diện cho số mùi vị (f1 − f6 ) Lấy ma trận đầu vào cho GMM để phục vụ cho trình đào tạo lưu giá trị cụm tương ứng cho sản phẩm vào liệu for item in dataset - Lấy số cụm sản phẩm - Tìm tất sản phẩm có số cụm với sản phẩm truy vấn - Áp dụng công thức (13) để tính S(i, j ) cho cặp sản phẩm - Trả top m sản phẩm tương tự cách xếp theo thứ tự giảm dần end Gkl (i, j) + levtags (i, j), (13) S(i, j) = k=1 l=1 đó, Gkl hàm tính trọng số Gaussian Filter công thức (11) tương ứng với số thứ lth SỐ 02 (CS.01) 2020 số mùi vị rượu itemi itemj cụm k (k = {1, , K} K cụm), levtags (i, j) hàm levenshtein để so sánh mức độ tương đồng số tags hai vectors Chúng nhận rằng, giá trị S(i, j) vector lớn, có giống sản phẩm so sánh Vì vậy, chúng tơi xếp theo thứ tự giảm dần tất sản phẩm cụm trả top m sản phẩm giống với sản phẩm cụm IV KẾT QUẢ THỰC NGHIỆM Ở mục này, chứng minh tính đắn hiệu mơ hình đề xuất Bằng cách so sánh mơ hình đề xuất chúng tơi với hai thuật TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67 Đề xuất thuật toán khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian tốn phổ biến hiệu khác hệ thống CB BOW+GFF, GMM+ED Chúng chứng minh ảnh hưởng GMM lên độ xác tính hiệu GFF việc tính tốn mức độ tương đồng so với cosine euclidean A Phương pháp đánh giá Phương pháp đánh giá phổ biến hệ thống khuyến nghị thường Mean Square Error (MSE, trung bình bình phương lỗi) giá trị trung bình tổng bình phương lỗi [27] MSE nhỏ kết dự đoán đầu gần với kết thực tế Nó định nghĩa sau: M SE = N n (ri − ri )2 , (14) đó, ri vector biểu diễn sản phẩm dự đoán ra, ri vector gốc biểu diễn sản phẩm truy vấn Chúng sử dụng kết khuyến nghị từ Sakenowa thước đo chuẩn để so sánh với thuật tốn thực nghiệm Sakenowa website có uy tín, tính phổ biến, tiếng Nhật Bản nhiều năm Bên cạnh đó, kết khuyến nghị Sakenowa vô ấn tượng độ xác dịch vụ tin cậy lâu dài thực tế Người đọc truy vấn Sakenowa https://sakenowa.com/ B Phân tích thực nghiệm Trong phần này, vài thí nghiệm tiến hành để kiểm chứng ảnh hưởng GMM hệ thống gợi ý theo phân phối thuộc tính Mơ hình đề xuất chúng tơi thực qua bước thống kê liệu, làm liệu, nhóm tất sản phẩm vào cụm khác GMM cuối sử dụng GFF LD để xếp trả kết Để chứng thực hiệu GMM GFF cho kết dự đốn tốt hơn, chúng tơi chia thí nghiệm thành phần Đầu tiên, chúng tơi khơng sử dụng GMM, thay vào thuật tốn Bagof-word (BOW) [1] số thuộc tính tags mùi vị trước áp dụng GFF để xếp kết Ở thí nghiệm thứ 2, chúng tơi áp dụng GMM+ED để làm rõ tác dụng GMM Và cuối chúng tơi thí nghiệm mơ hình đề xuất SỐ 02 (CS.01) 2020 để chứng minh hiệu GMM GFF, đồng thời đưa so sánh đánh giá cho kết thí nghiệm 1) Thí nghiệm 1: BOW + GFF: Lý cho thí nghiệm để xác thực tác động GMM lên độ xác kết đầu so với thuật tốn BOW Do đó, thí nghiệm áp dụng BOW kết hợp với GFF kết đầu Đầu tiên, thực tiền xử lý liệu cho liệu văn stemming, replace synonyms, filling missing data, [22] Như đề cập mục trước, trường văn quan trọng viết ngôn ngữ Nhật, nên sử dụng số công cụ thư viện xử lý tiếng Nhật Ginza [9], Janome [10], JapaneseStemmer [18], lấy cảm hứng từ thuật toán Porter Stemming [28], để tiền xử lý Trước sử dụng GFF cho việc xếp kết quả, sử dụng BOW cho trường văn tiền xử lý để tìm ma trận vector biểu diễn cho sản phẩm Bước kế tiếp, sử dụng ma trận liệu đầu vào cho thuật tóan K-nearest neighbors (KNN) dựa ý tưởng thuật tốn khơng giám sát KNN ScikitLearn [20] để tìm top sản phẩm tương đồng dựa vào vectors Trong top sản phẩm này, áp dụng công thức S(i, j) (13) để lấy kết tốt 2) Thí nghiệm 2: GMM + ED: Ở mục này, tận dụng GMM để gom nhóm n sản phẩm vào k nhóm Tuy nhiên, chúng tơi áp dụng bước tiền xử lý cho liệu văn Thí nghiệm Sau đó, chúng tơi xây dựng ma trận chiều cho n sản phẩm, ma trận biểu diễn cho số mùi vị đưa vào GMM để huấn luyện Sau huấn luyện, kết cụm cho sản phẩm lưu lại Ở bước tiếp theo, chuyển liệu văn tags mùi vị thành ma trận biểu diễn từ dạng tần suất xuất từ toàn danh sách tags mùi vị cách sử dụng CountVectorizer Scikit-Learn [20], ghép với ma trận (n, 6) bên để có vector cuối biểu diễn đặc trưng cho sản phẩm Bước cuối cùng, để trả top sản phẩm tương tự với sản phẩm đầu vào, chúng tơi cần tìm đến cụm chứa sản phẩm áp dụng cơng thức ED xếp kết trả TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68 Nguyễn Văn Đạt, Tạ Minh Thanh Hình 7: MSE áp dụng BOW+GFF Hình 8: MSE áp dụng GMM+ED, GMM+GFF 3) Thí nghiệm 3: GMM + GFF: Hai thí nghiệm để chứng minh tầm quan trọng GMM GFF mơ hình đề xuất chúng tơi thí nghiệm Tương tự xử lý trên, thực bước tiền xử lý liệu văn hai thí nghiệm trước Tiếp theo xây dựng ma trận (n, 6) biểu diễn số mùi vị cho n sản phẩm đưa vào GMM liệu đầu vào để đào tạo Lưu lại giá trị cụm tương ứng sản phẩm Để gợi ý sản phẩm tương đồng với sản phẩm, chúng tơi cần tìm đến cụm mà sản phẩm thuộc coi trung tâm cụm sử dụng cơng thức (13) cặp cặp với sản phẩm khác cụm Sắp xếp giá trị thu theo thứ tự giảm dần thu kết tốt từ hệ thống khuyến nghị Hình 9: Biểu đồ thống kê mức độ tương đồng kết với sakenowa C Kết thí nghiệm so sánh Tại phần này, chúng tơi so sánh thuật tốn đề xuất với kết khuyến nghị từ Sakenowa thuật tốn CB khác Chúng tơi kết luận độ xác thuật tốn chúng tơi tốt Sakenowa hai thuật tốn cịn lại Kết so sánh thể Hình 7, Hình Hình Cả thí nghiệm trả top 10 SỐ 02 (CS.01) 2020 sản phẩm gần cho sản phẩm liệu Kết khuyến nghị từ Sakenowa cho sản phẩm trả từ API2 ; đó, f1 giá trị tương ứng cho số mùi vị Ở Hình 7, danh sách giá trị MSE thị chịu ảnh hưởng số neighboors khác https://sakenowa.com/api/v1/brands/flavor?f=0&f v f1 , f2 , f3 , f4 , f5 , f6 = TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 69 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian khoảng [25-39] KNN Chúng ta dễ dàng nhận ra, có xu hướng giảm, không đáng kể thời gian cho lần tính tốn chậm số neighboors tăng lên Tại Hình 8, khoảng cách MSE GMM+ED GMM+DFF hiển thị Dựa vào biểu đồ này, thấy GMM+GFF cho kết tốt so với GMM+ED chứng minh tác dụng GFF việc so sánh mức độ tương đồng Cả thí nghiệm hiển thị ảnh hưởng số cụm GMM lên MSE khoảng [65-85] Tại Hình 9, biểu đồ so sánh kết dự đốn tồn liệu mơ hình chúng tơi với kết gợi ý từ Sakenowa xây dựng danh sách thống kê phần trăm tương đồng qua giá trị cụm khác Ở Bảng II Bảng III, xây dựng bảng thống kê giá trị MSE sinh từ GMM+ED, BOW+GFF, GMM+GFF kết từ Sakenowa Dựa vào bảng thống kê nhận thấy thuật tốn GMM+GFF chúng tơi cho kết tốt hoàn toàn so với thuật tốn cịn lại, chứng minh tính hiệu thuật toán đề xuất liệu Thêm nữa, thời gian xử lý thể Bảng IV cho thấy tốt nhanh so với thuật toán đề xuất trước Bảng II: Giá trị MSE theo số lượng cụm GMM khác Số cụm 65 70 75 80 85 GMM+ED 0.02211 0.02135 0.02074 0.01939 0.01873 GMM+GFF 0.01738 0.01680 0.01613 0.01628 0.01580 Sakenowa 0.01868 0.01868 0.01868 0.01868 0.01868 Bảng III: Giá trị MSE ảnh hưởng số neighboors KNN Số neighbors 20 25 30 35 39 SỐ 02 (CS.01) 2020 BOW+GFF 0.05254 0.04624 0.04228 0.03895 0.03709 Sakenowa results 0.01868 0.01868 0.01868 0.01868 0.01868 Bảng IV: Thời gian dự đoán cho lần thực Thời gian BOW+GFF 0.1856s GMM+ED 0.0174s GMM+GFF 0.0156s V KẾT LUẬN Ở báo này, chúng tơi đề xuất thuật tốn hiệu cho toán gợi ý dựa theo phân phối thuộc tính hệ thống khuyến nghị sử dụng thuật toán CB, ứng dụng cho việc giải toán gợi ý rượu ứng dụng thực triển khai Nhật Ngoài ra, đề xuất công thức xếp cho danh sách kết tiềm thay sử dụng công thức phổ biến Cosine hay Euclidean Thuật tốn đề xuất khơng đạt độ xác cao, mà đạt tốc độ xử lý nhanh phù hợp với ứng dụng thực tế Thuật tốn hồn tồn áp dụng cho nhiều thuộc tính liệu khác thay thí nghiệm liệu rượu chúng tơi Mặc dù có nhiều ưu điểm, nhiên điểm hạn chế thuật tốn cần huấn luyện lại mơ hình sau có thêm lượng sản phẩm thêm vào Hướng nghiên cúu tương lai tìm cách cải thiện mơ hình GMM khâu phân cụm sản phẩm để đạt kết tốt TÀI LIỆU THAM KHẢO [1] Sounak Bhattacharya and Ankit Lundia “Movie Recommendation System Using Bag Of Words and Scikit-learn” In: International Journal of Engineering Applied Sciences and Technology 04 (Oct 2019), pp 526–528 DOI: 10.33564/IJEAST.2019 v04i05.076 [2] Dirk Bollen, Bart Knijnenburg, and Mark Willemsen “Understanding choice overload in recommender systems” In: Jan 2010, pp 63–70 DOI: 10.1145/1864708 1864724 [3] Rui Chen, Qingyi Hua, and Gao “A Hybrid Recommender System for Gaussian Mixture Model and Enhanced Social Matrix Factorization Technology Based on Multiple Interests” In: Mathematical Problems TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 70 Nguyễn Văn Đạt, Tạ Minh Thanh [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] in Engineering 2018 (Oct 2018), pp 1–22 DOI : 10.1155/2018/9109647 Kong Fan-sheng “Hybrid Gaussian pLSA model and item based collaborative filtering recommendation” In: Computer Engineering and Applications (2010) Dilan Găorăur and Carl Rasmussen “Dirichlet Process Gaussian Mixture Models: Choice of the Base Distribution” In: J Comput Sci Technol 25 (July 2010), pp 653–664 DOI: 10.1007/s11390- 0109355-8 Vairaprakash Gurusamy and Subbu Kannan “Preprocessing Techniques for Text Mining” In: Oct 2014 Ido Guy and David Carmel “Social Recommender Systems” In: Jan 2011, pp 283–284 DOI: 10 1145 / 1963192 1963312 Rishin Haldar and Debajyoti Mukhopadhyay “Levenshtein Distance Technique in Dictionary Lookup Methods: An Improved Approach” In: Computing Research Repository - CORR (Jan 2011) Mai Hiroshi and Masayuki “Ginza NLP Library” In: 25 (2019) URL: http://www anlp.jp/proceedings/annual_meeting/2019/ pdf_dir/F2-3.pdf Janomep y Janome 2019 URL: https : / / github.com/mocobeta/janome Shah Khusro, Zafar Ali, and Irfan Ullah “Recommender Systems: Issues, Challenges, and Research Opportunities” In: Feb 2016, pp 1179–1189 ISBN: 978-98110-0556-5 DOI: 10 1007 / 978 - 981 - 10 0557-2_112 Dar-Shyang Lee, Jonathan Hull, and B Erol “A Bayesian framework for Gaussian mixture background modeling” In: vol Oct 2003, pp III–973 DOI: 10.1109/ICIP 2003.1247409 Leo Liberti, Carlile Lavor, and Maculan “Euclidean Distance Geometry and Applications” In: SIAM Review 56 (May 2012) DOI : 10.1137/120875909 Pasquale Lops, Marco de Gemmis, and Giovanni Semeraro “Content-based Recommender Systems: State of the Art and Trends” In: Jan 2011, pp 73–105 DOI: 10.1007/978-0-387-85820-3_3 SỐ 02 (CS.01) 2020 [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] Linyuan Lău, Matỳs Medo, and Chi Ho Yeung Recommender systems” English In: Physics Reports 519.1 (Oct 2012), pp 1– 49 ISSN: 0370-1573 DOI: 10 1016 / j physrep.2012.02.006 Yang Lu, Xuemei Bai, and Feng Wang “Music Recommendation System Design Based on Gaussian Mixture Model” In: ICM 2015 2015 Prem Melville and Vikas Sindhwani “Recommender Systems” In: Jan 2011, pp 829–838 DOI: 10 1007 / 978 - - 387 30164-8_705 MrBrickPanda Japanese Stemmer 2019 URL : https : / / github com / MrBrickPanda / Japanese-stemmer Suphakit Niwattanakul, Jatsada Singthongchai, and Naenudorn “Using of Jaccard Coefficient for Keywords Similarity” In: Mar 2013 Fabian Pedregosa, Alexandre Varoquaux, and Michel “Scikit-learn: Machine learning in Python” In: Journal of machine learning research 12.Oct (2011), pp 2825– 2830 Simon Philip, Peter Shola, and Ovye Abari “Application of Content-Based Approach in Research Paper Recommendation System for a Digital Library” In: International Journal of Advanced Computer Science and Applications (Oct 2014) DOI: 10 14569/IJACSA.2014.051006 Reza Rahutomo, Febrian Lubis, and Muljo “Preprocessing Methods and Tools in Modelling Japanese for Text Classification” In: Aug 2019 DOI: 10.1109/ICIMTech.2019 8843796 Martin Rajman and Romaric Besanc¸on “Text Mining: Natural Language techniques and Text Mining applications” In: Proceedings of the 7th IFIP Working Conference on Database Semantics (DS-7) (Jan 1997) DOI: 10 1007 / 978 - - 387 - 35300 5_3 Carl Rasmussen “The Infinite Gaussian Mixture Model” In: vol 12 Apr 2000, pp 554–560 Douglas Reynolds “Gaussian Mixture Models” In: Encyclopedia of Biometrics TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 71 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian [26] [27] [28] [29] [30] [31] [32] [33] (Jan 2008) DOI: 10 1007 / 978 - - 387 73003-5_196 Philip Sedgwick “Pearson’s correlation coefficient” In: BMJ 345 (July 2012), e4483– e4483 DOI: 10.1136/bmj.e4483 Guy Shani and Asela Gunawardana “Evaluating Recommendation Systems” In: vol 12 Jan 2011, pp 257–297 DOI: 10 1007/978-0-387-85820-3_8 Karen Sparck Jones and Peter Willett, eds Readings in Information Retrieval San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1997 ISBN: 1558604545 Hangyu Yan and Yan Tang “Collaborative Filtering based on Gaussian Mixture Model and Improved Jaccard Similarity” In: IEEE Access PP (Aug 2019), pp 1–1 DOI: 10 1109/ACCESS.2019.2936630 Kazuyoshi Yoshii, Masataka Goto, and Kazunori Komatani “Hybrid Collaborative and Content-based Music Recommendation Using Probabilistic Model with Latent User Preferences.” In: Jan 2006, pp 296–301 Bo Zhu, Jesus Bobadilla, and Fernando Ortega “Reliability quality measures for recommender systems” In: Information Sciences (May 2018) B Ziolko, Jakub Gałka, and Dawid Skurzok “Modified Weighted Levenshtein Distance in Automatic Speech Recognition” In: Jan 2010 Harry Zisopoulos, Savvas Karagiannidis, and Demirtsoglou “Content-Based Recommendation Systems” In: (Nov 2008) A PROPOSAL OF ROBUST CONTENTBASED RECOMMENDATION SYSTEM USING GAUSSIAN MIXTURE MODEL the similarity calculation method is another crucial that affect the accuracy of content-based recommendation in probabilistic problems Face with these problems, we propose a new content-based recommendation based on the Gaussian mixture model to improve the accuracy with more sensitive results for probabilistic recommendation problems Our proposed method experimented in a liquor dataset including six main flavor taste, liquor main taste tags, and some other criteria The method clusters n liquor records relied on n vectors of six dimensions into k group (k < n) before applying a formula to sort the results Compared our proposed algorithm with two other popular models on the above dataset, the accuracy of the experimental results not only outweighs the comparison to those of two other models but also attain a very speedy response time in real-life applications Từ khóa—Recommendation system, ContentBased, Gaussian Mixture Model - GMM, Gaussian Filter Function, Collaborative Filtering Nguyễn Văn Đạt theo học Thạc sĩ Khoa học Máy tính Đại học cơng nghệ Đại học quốc gia hà nội, tốt nghiệp Kỹ sư Phần mềm trường Đại học Lê Quý Đôn năm 2017 Lĩnh vực nghiên cứu thị giác máy hệ thống khuyến nghị Tạ Minh Thanh nhận kỹ sư CNTT Thạc sĩ Khoa học Máy tính Học viện Phịng vệ Nhật Bản, vào năm 2005 2008 Ông Thanh giảng viên trường Đại học Lê Quý Đôn từ năm 2005 Năm 2015, ông nhận Tiến sĩ Khoa học Máy tính Học viện Cơng nghệ Tokyo, Nhật Bản Ơng cơng nhận chức danh Phó giáo sư Hội đồng Giáo sư nhà nước vào năm 2019 Ông thành viên Hiệp hội IPSJ Nhật Bản Hiệp hội IEEE Lĩnh vực nghiên cứu ông thuộc lĩnh vực thủy vân số, công nghệ mạng, bảo mật thông tin thị giác máy Tóm tắt—Recommendation systems play an very important role in boosting purchasing consumption for many manufacturers by helping consumers find the most appropriate items Furthermore, there is quite a range of recommendation algorithms that can be efficient; however, a content-based algorithm is always the most popular, powerful, and productive method taken at the begin time of any project In the negative aspect, somehow content-based algorithm results accuracy is still a concern that correlates to probabilistic similarity In addition, SỐ 02 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 72 ... THƠNG 65 Đề xuất thuật toán khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian Hình 6: Trực quan hố GMM Hình 5: Mơ hình hoạt động thuật tốn phối Gaussian Mơ hình hoạt động mơ hình thuật tốn... hình đề xuất chúng tơi với hai thuật TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 67 Đề xuất thuật tốn khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian toán phổ biến hiệu khác hệ thống.. .Đề xuất thuật toán khuyến nghị theo phân bố dựa mơ hình hỗn hợp Gaussian cột so sánh khác thuộc tính hai sản phẩm (1 sản phẩm gốc