Vietnam J Agri Sci 2021, Vol 19, No 4 : 520 - 534 T ạ p chí Khoa h ọ c Nông nghi ệ p Vi ệ t Nam 2021, 19(4 ): 520 - 534 www vnua edu vn 520 M Ộ T S Ố PH ƯƠ NG PHÁP G Ợ I Ý VÀ Ứ NG D Ụ NG TRONG TH ƯƠ NG M ẠI ĐIỆ N T Ử Hoàng Th ị Hà 1* , Ngô Nguy ễ n Th ứ c 2 1 Khoa Công ngh ệ thông tin, H ọ c vi ệ n Nông nghi ệ p Vi ệ t Nam 2 Sinh viên K57 - Khoa Công ngh ệ thông tin, H ọ c vi ệ n Nông nghi ệ p Vi ệ t Nam * Tác gi ả liên h ệ : htha@vnua edu vn Ngày nh ậ n bài: 20 07 2020 Ngày ch ấ p nh ận đăng: 2 9 03 2020 TÓM T Ắ T H ệ g ợ i ý (Recommender System) là công c ụ đư ợ c thi ế t k ế nh ằ m cung c ấ p nh ữ ng khuy ế n ngh ị h ữ u ích v ề s ả n ph ẩ m, d ị ch v ụ ,…cho ngư ờ i dùng H ệ g ợ i ý d ự a trên d ữ li ệ u v ề m ố i quan h ệ gi ữ a ngư ờ i dùng, s ả n ph ẩ m và các hành vi c ủ a ngư ờ i dùng trong qu á kh ứ đ ố i v ớ i s ả n ph ẩ m đ ể đưa ra nh ữ ng g ợ i ý thông minh, phù h ợ p v ớ i s ở thích c ủ a t ừ ng khách hàng H ệ g ợ i ý giúp khách hàng nhanh chóng đ ị nh v ị đư ợ c nh ữ ng s ả n ph ẩ m h ọ quan tâm đ ể t ừ đó đưa ra quy ế t đ ị nh đúng đ ắ n khi mua s ắ m online Trong bài báo này, chúng tôi trình bày t ổ ng quan m ộ t s ố phương pháp g ợ i ý, đánh giá đi ể m m ạ nh, đi ể m y ế u, so sánh hi ệ u qu ả th ự c hi ệ n c ủ a m ỗ i phương pháp Chúng tôi ch ỉ ra l ợ i ích mà các h ệ g ợ i ý mang l ạ i cho thương m ạ i đi ệ n t ử , đ ồ ng th ờ i nêu ra nh ữ ng thách th ứ c và gi ả i pháp kh ắ c p h ụ c K ế t qu ả th ự c nghi ệ m c ủ a chúng tôi trên 4 t ậ p d ữ li ệ u chu ẩ n (Movielens, Epinions, BookCrossing, LastFM) cho th ấ y m ỗ i phương pháp đ ề u có nh ữ ng ưu đi ể m và h ạ n ch ế riêng, không có phương pháp nào là t ố t nh ấ t trên t ấ t c ả các tiêu chí Ngoài ra, chúng tôi c ũ ng đưa ra quy trình chung đ ể xây d ự ng h ệ g ợ i ý trong các website thương m ạ i và th ự c hi ệ n tích h ợ p các k ỹ thu ậ t h ệ g ợ i ý trong website thương m ạ i đi ệ n t ử kh ắ c ph ụ c v ấ n đ ề ngư ờ i dùng m ớ i, s ả n ph ẩ m m ớ i (v ấ n đ ề này còn g ọ i là “Cold start problem” ) c ủ a các phươ ng pháp g ợ i ý cá nhân hóa T ừ khóa: H ệ g ợ i ý, l ọ c c ộ ng tác, g ợ i ý d ự a trên n ộ i dung, h ệ g ợ i ý k ế t h ợp, thương mại điệ n t ử Some Methods of Recommender System and its Application in E-Commerce ABSTRACT The designed recommender system is a tool to provide important suggestions forusers or customers Based on the datasets of user relationships, products, andprevious behavior of consumers, smart recommendations for the preferences of eachconsumer are given, which helps consumers tomake good decisions while shopping online In this article, we present an overview of some methodologies of recommendation systems, techniques of recommender systems, and evaluate the strengths and weaknesses of each technique, as well as comparedsome benefits of recommender systems in e-commerce Moreover, we report some challenges that the recommender systems are facing and list some solutions to solve these challenges Our experimental results on the four datasets ( Movielens 100k , Epinions,BookCrossing, LastFM ) showed that there was n o best recommendation algorithm in all evaluation metrics Finally, we buil t an e - commerce website that integrate d some different techniques of recommender systems such as non - personalized methods, personalized methods to recommend the right product for ea ch customer The experimental system gives some diverse suggestions to overcom e the problem "Cold start problem" of personalized methods Keywords: Recommender systems, collaborative filtering, content-based filtering, hyper filtering, E-Commerce 1 Đ Ặ T V Ấ N Đ Ề Trong nh Ăng nëm gæn đåy, cùng vĆ i s ă ph ổ bi ế n c û a m äng Internet và máy tính, thþĄng m äi điệ n t ā đã phát triể n nhanh chóng trên ph ä m vi toàn c æu ThþĄng mäi điệ n t ā đã thay đổ i hình th Ā c giao d ð ch truy ề n th ố ng Ngày càng có nhi ều ngþą i l ă a ch ọ n hình th Ā c mua s í m tr ă c tuy ến Trong khi đò, để m ć r ộ ng th ð trþą ng kinh doanh, các doanh nghi ệp đã xåy dă ng Ā ng d ý ng thþĄng mäi điệ n t ā và cung c ç p r ç t nhi ề u s â n ph è m trên website Tuy nhiên, khi thông tin Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 521 quá nhi ề u, khách hàng s ẽ t ố n th ąi gian để tìm s â n ph è m h ọ c æn Điề u này, làm gi â m s ă hài lòng và s ă trung thành c û a khách Để gi â i quy ế t v çn đề này, ý tþć ng chính c û a các chuyên gia thþĄng mäi điệ n t ā là thi ế t l ê p h ệ th ố ng g ợ i ý thông minh nh ì m khám phá ra các m ặ t hàng phù h ợ p nh ç t cho t ÿng ngþą i dùng V Ć i h ệ th ố ng g ợ i ý t ă độ ng, khách hàng có th ể nhanh chóng truy c êp đþợ c s â n ph è m h ợ p v Ć i s ć thích và nhu c æ u c û a h ọ , ti ế t ki ệ m th ą i gian tìm s â n ph è m cho ngþą i dùng (Thomas, 2006) Nh Ă ng nëm g æ n đåy, các k ỹ thu ê t h ệ g ợ i đã và đang đþ ợ c nghiên c Ā u, Ā ng d ý ng ć nhi ề u lïnh v ă c Trong thþĄng m ä i đi ệ n t ā , h ệ g ợ i ý mang l ä i nhi ề u l ợ i ích cho c â ngþ ą i cung c ç p d ð ch v ý và ngþ ą i s ā d ý ng d ð ch v ý (Ionos, 2017) H æ u h ế t các công ty thþĄng m ä i l Ć n nhþ: Amazon (Amazon com), CDNOW ( www cdnow com), eBay (eBay c om), Alibaba (Alibaba com ), MovieFinder (MovieFinder com), Y outube com, F acebook com, „ đ ề u s ā d ý ng các k ỹ thu ê t g ợ i ý trong website c û a h ọ đ ể nâng cao tr â i nghi ệ m cho khách hàng, nâng cao ch ç t lþ ợ ng d ð ch v ý và tëng doanh thu bán hàng Tuy nhiên, ć Vi ệ t Nam - m ộ t qu ố c gia có r ç t nhi ề u ti ề m nëng v ề thþĄng m ä i đi ệ n t ā (Vi ễ n Thông, 2020) l ä i có s ố lþ ợ ng website thþĄng m ä i tích h ợ p h ệ g ợ i ý không nhi ề u (Nguy ễ n Hùng Düng & Nguy ễ n Thái Nghe, 2013) Hi ệ n Vi ệ t Nam đang cò 44% doanh nghi ệ p đã tham gia xåy d ă ng website thþĄng m ä i, nhþng ch î có 32% doanh nghi ệ p đþ ợ c đánh giá cao kênh bán hàng thông qua trang web (Nguy ễ n Thanh Hþng, 2019) Bài báo này trình bày t ổ ng quan các phþĄng pháp gợi ý, đánh giá hiệ u qu â c û a các thu ê t toán g ợ i ý (Content - based, user - based và item - based) trên m ộ t s ố t ê p d Ă li ệ u chu è n bao g ồ m: Movielens, Epinions, BookCrossing và LastFM Chúng tôi th â o lu ê n nh Ă ng đi ể m m ä nh, đi ể m y ế u c û a m ỗ i phþĄng pháp, thách th Ā c và gi â i pháp kh í c ph ý c khi xây d ă ng h ệ g ợ i ý trong thþĄng m ä i đi ệ n t ā Đ ồ ng th ą i, chúng tôi đþa ra quy trình xåy d ă ng h ệ g ợ i ý trong các website thþĄng m ä i và th ă c hi ệ n cài đ ặ t các k ỹ thu ê t h ệ g ợ i ý trong website thþĄng m ä i đi ệ n t ā K ế t qu â cài đ ặ t cho th ç y, khi website đ þ ợ c tích h ợ p các ph þĄ ng pháp h ệ g ợ i ý h ệ th ố ng s ẽ t ă đ ộ ng đþ a ra nh Ă ng g ợ i ý thông minh, đ a d ä ng t Ć i ng þ ą i dùng 2 CÁC K Ỹ THU Ậ T H Ệ G Ợ I Ý Các k ỹ thu ê t h ệ g ợi ý thþąng đþợ c chia thành hai nhóm chính là: h ệ g ợ i ý cá nhân hóa và h ệ g ợ i ý không cá nhân hóa Chúng tôi t ê p trung gi Ć i thi ệ u tóm t ít phþĄng pháp gợ i ý không cá nhân hóa và m ộ t s ố thu ê t toán g ợ i ý cá nhân hóa tiêu bi ểu thþąng đþợ c s ā d ý ng trong các trang thþĄng mäi điệ n t ā 2 1 H ệ g ợ i ý không cá nhân hóa (non - personalized recommend er system s ) Là nhòm phþĄng pháp không dă a vào h ồ sĄ cá nhân t ÿ ng khách hàng mà ch î d ăa vào đặ c tính c û a s â n ph è m (s â n ph è m m Ć i) và đánh giá t ÿ c ộ ng đ ồ ng nhþ: s â n ph è m bán ch ä y nh ç t, s â n ph è m đþ ợ c đánh giá t ố t nh ç t,„ (Singh, 2019) 2 2 H ệ g ợ i ý cá nhân hóa (personalized recommend er system s ) Nhòm phþĄng pháp này đþợc đánh giá là mang l ä i hi ệ u qu â cao đố i v Ći thþĄng m äi điệ n t ā N ế u doanh nghi ệ p hi ể u rõ t ÿ ng khách hàng c û a mình d ă a trên nh Ă ng gì h ọ tþĄng tác và mua hàng trên m ä ng, doanh nghi ệ p có th ể tþ vç n cho khách hàng nh Ă ng s â n ph è m phù h ợ p v Ć i mong mu ố n và s ć thích c ûa khách hĄn (Google & Temasek, 2018) Khách hàng s ẽ ti ế t ki ệm đþợ c th ą i gian tìm ki ế m s â n ph èm, mua đþợ c nh Ă ng mòn hàng đúng sć thích T ÿ đò, doanh nghiệ p s ẽ tëng đþợ c s ố lþợng ngþąi mua hàng, tëng giá trð đĄn hàng, tëng doanh số bán hàng Theo nghiên c Ā u c û a Schafer & cs (2001) , n ế u doanh nghi ệ p s ā d ý ng phþĄng pháp g ợ i ý cá nhân hòa đ ể g ā i email t Ć i khách hàng thì t ỷ l ệ giao d ð ch thông qua email cao hĄn g ç p hai l æ n so v Ć i các email đþ ợ c g ā i không áp d ý ng phþĄng pháp này (Stephan, 2019) Do đò, các phþĄng pháp g ợ i ý cá nhån hòa làm tëng m Ā c đ ộ tþĄng tác và chuy ể n đ ổ i trong giao d ð ch thþĄng m ä i đi ệ n t ā M ộ t s ố phþĄng pháp gợ i ý thu ộ c lo ä i cá nhân hóa nh þ sau: M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 522 2 2 1 G ợ i ý d ự a trên n ộ i dung (Content- based filtering) PhþĄng pháp gợ i ý này d ă a trên mô t â c û a s â n ph è m và profile c û a t ÿng ngþą i dùng (không quan tåm đến ngþą i dùng khác) G ợ i ý d ă a trên n ộ i dung s ẽ thu th ê p h ồ sĄ cûa ngþą i dùng: h ọ tên, gi Ć i tính, ngh ề nghi ệ p và tþĄng tác c ûa cá nhån ngþą i dùng trên các s â n ph è m, sau đò so sánh đặc điể m các s â n ph èm trong cĄ s ć d Ă li ệ u v Ći đặc điể m các s â n ph è m mà khách hàng đã quan tåm để g ợ i ý cho khách hàng 2 2 2 L ọ c c ộ ng tác (Collaborative Filtering - CF) L ọ c c ộ ng tác g ợ i ý s â n ph è m t Ći ngþą i dùng d ă a trên l ð ch s ā tþĄng tác sâ n ph è m c û a chính ngþąi dùng đò kế t h ợ p quan điể m c û a nh Ă ng ngþąi dùng khác Đåy là kỹ thu ê t m änh và đã đþợ c áp d ý ng khá thành công trong các h ệ th ống thþĄng mä i l Ć n L ọ c c ộ ng tác thu th ê p ph â n h ồ i t ÿ nhi ều ngþąi dùng đố i v Ć i s â n ph è m, lþu trĂ ph â n h ồ i c û a ngþąi dùng dþĆ i d ä ng ma tr ên ngþą i dùng (users) - s â n ph è m (items) M ỗ i dòng là m ột vectĄ chĀ a giá tr ð ph â n h ồ i c û a ngþąi dùng đố i v Ć i các s â n ph èm Sau đò, tính độ tþĄng tă gi Ă a các users ho ặ c gi Ă a các items trong h ệ th ố ng, tìm ra m ối tþĄng quan và đþa ra g ợ i ý phù h ợp Độ tþĄng tă gi Ă a các user ho ặ c gi Ăa các item đþợ c tính theo công th Ā c Cosin ho ặ c Pearson B â ng 1 là ma tr ê n bi ể u di ễn đánh giá cû a ngþą i dùng trên các s â n ph è m Hình 1 Mô hình h ệ g ợ i ý d ự a trên n ộ i dung B â ng 1 Ma tr ậ n bi ể u di ễn ngườ i dùng - s â n ph ẩ m c ủ a ti ế p c ậ n l ọ c c ộ ng tác Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 523 Cò hai phþĄng pháp lọ c c ộ ng tác: User-based: D ă đoán dă a trên s ă tþĄng tă gi Ăa các users Ý tþć ng quan tr ọ ng c ûa phþĄng pháp này là nh Ăng khách hàng tþĄng tă có xu hþĆ ng s ā d ý ng nh Ă ng s â n ph èm tþĄng tă (Singh & Pramod, 2019) N ế u hai khách hàng A, B có l ð ch s ā đánh giá các sâ n ph èm tþĄng tă nhau thì User-baseds ẽ d ă đoán khách hàng A có kh â nëng sẽ quan tâm t Ć i nh Ă ng s â n ph è m chþa đþợ c tr â i nghi ệm nhþng đã đþợ c khách hàng B thích và ngþợ c l äi PhþĄng pháp này phân tích ma tr ê n user- item để tìm ra nh Ă ng ngþąi dùng tþĄng tă Item-based : D ă đoán dă a trên s ă tþĄng tă gi Ă a các items Hai s â n ph èm i và i’ đã đþợ c c ộng đồng đánh giá tþĄng tă nhau thì có th ể s ẽ đþợc đánh giá tþĄng tă b ć i nh Ăng ngþą i dùng còn l äi PhþĄng pháp này phån tích ma trê n user- item để nh ê n di ệ n các s â n ph èm tþĄng tă Ngày nay, k ỹ thu ê t l ọ c c ộng tác đþợ c s ā d ý ng khá ph ổ bi ến trên các trang thþĄng m äi điệ n t ā l Ćn nhþ Amazon, Tiki, Youtube và Facebook 2 2 3 Phương pháp kế t h ợ p (hybrid method) PhþĄng pháp này kế t h ợ p gi Ă a k ỹ thu ê t g ợ i ý d ă a trên n ộ i dung và l ọ c c ộ ng tác K ỹ thu ê t này đþợ c xem là khá hi ệ u qu â và gi â i quy ế t đþợ c v çn đề “cold - start problem” trong rç t nhi ề u nghiên c Āu Trang thþĄng mäi điệ n t ā điển hình đã Ā ng d ýng phþĄng pháp này là Spotify com H ọ đã tích hợp phþĄng pháp hệ g ợ i ý t ổ ng h ợp để t ä o ra danh sách các bài hát hàng tu æ n cho t ÿ ng khách hàng riêng bi ệ t Website đã tổ ng h ợ p d Ă li ệu ngþą i dùng d ă a trên thói quen nghe nh ä c và nh Ăng ngþąi dùng tþĄng tă để t ä o ra m ột danh sách các bài hát độc đáo phù h ợ p v Ć i s ć thích c û a t ÿ ng khách hàng 2 3 M ụ c tiêu c ủa các phương pháp gợ i ý M ý c tiêu c ûa các phþĄng pháp gợi ý đþợ c th ể hi ệ n trong b â ng 2 Hình 2 Ti ế n trình l ọ c c ộ ng tác Hình 3 L ọ c c ộ ng tác d ự a trên User-based và Item-based M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 524 Hình 4 Mô hình h ệ g ợ i ý k ế t h ợ p B â ng 2 M ụ c tiêu khái ni ệ m c ủa các phương pháp gợ i ý Phương pháp (Methods) Mục tiêu (concept goals) Đầu vào (Inputs) Gợi ý không cá nhân hóa (N on - personalized recommender systems ) Gợi ý những sản phẩm mà người dùng có thể thích dựa trên sản phẩm mới hoặc ý kiến cộng đồng Lọc dựa trên nội dung (Content - based filtering) Gợi ý những sản phẩm khách hàng có thể thích dựa trên hồ sơ cá nhân của người dùng và độ tương tự giữa các sản phẩm trong cơ sở dữ liệu với những sản phẩm mà khách hàng đã thích trong quá khứ Thuộc tính (item attributes) của sản phẩm hoặc Profiles của người dùng Lọc cộng tác (Collaborative Filtering) Gợi ý những sản phẩm mà người dùng có thể thích dựa trên những người dùng có sở thích tương tự Đánh giá của User + Đánh giá của cộng đồng Phương p háp kết hợp (Hybrid method) Gợi ý những sản phẩm mà người dùng có thể thích dựa trên việc kết hợp Content - based filtering và Collaborative Filtering Thuộc tính của sản phẩm+ đánh giá của Users và cộng đồng 3 VAI TRÒ C Ủ A H Ệ G Ợ I Ý TRONG TH ƯƠ NG M Ạ I ĐI Ệ N T Ử Trong thþĄng mäi điệ n t ā , h ệ g ợ i ý đòng vai trñ nhþ m ộ t “chuyên gia” thông minh h ỗ tr ợ khách hàng trong quá trình tìm và ch ọ n mua s â n ph è m H ệ g ợ i ý thúc đ è y thþĄng m ä i đi ệ n t ā (Schafer & cs , 2001) theo các cách sau: - Chuy ể n khách vãng lai thành ng þą i mua hàng (Converting Browsers into Buyers): Khách vãng lai thþąng ghé thëm w ebsite để xem trang web mà không mua hàng Các h ệ th ố ng g ợ i ý s ẽ hi ể u nhu c æ u c û a khách, hi ể n th ð nh Ă ng s â n ph è m mà khách thích, ho ặc đang muố n tìm mua B ì ng cách này, h ệ th ố ng s ẽ chuy ể n nh Ă ng khách vãng lai thành khách mua hàng - Tëng cþą ng bán chéo (Increasing Cross - sell): Các h ệ th ố ng g ợ i ý c â i thi ệ n bán chéo b ì ng cách đ ề xu ç t các m ặ t hàng liên quan đ ế n s â n ph è m, các s â n ph è m ph ý ki ệ n b ổ sung cho khách mua hàng - Xây d ă ng lòng trung thành (Building Loyalty): Trong chi ến lþợ c kinh doanh, vi ệc đä t đþợ c lòng trung thành c ûa ngþą i tiêu dùng là m ột điề u c æ n thi ế t Khi lòng trung thành c û a khách hàng tëng lên, lợ i nhu ên cüng sẽ tëng lên (Reichheld & F , 1993) Các h ệ th ố ng g ợ i ý c â i ti ế nlòng trung thành b ì ng cách tìm hi ể u, thu th ê p thông tin, nhu c æ u, s ć thích và các m ố i quan tâm c û a khách T ÿ đò, s ā d ý ng các thu ê t toán thông minh cá nhån hòa đ ể g ợ i ý phù h ợ p chot ÿ ng khách hàng, giúp h ọ hài lòng, có ni ề m tin quay l ä i trang web đ ể mua hà ng V Ć i nh Ă ng kh â nëng trên, hệ g ợ i ý mang l ä i tr â i nghi ệ m t ố t cho khách hàng, giúp khách hàng gi â m th ą i gian tìm ki ế m s â n ph è m, nâng cao t ỷ l ệ chuy ể n đ ổ i mua hàng, c â i thi ệ n vi ệ c b ó gi ó hàng và gi Ă khách quay tr ć l ä i mua hàng T ÿ đò, h ệ g ợ i ý giúp các thþĄ ng nhån tëng giá tr ð đĄn hàng trung bình, tëng doanh thu bán hàng (Dias & cs , 2008; Jordan, 2016; Stephan, 2019) Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 525 4 THÁCH TH Ứ C C Ủ A H Ệ G Ợ I Ý TRONG TH ƯƠ NG M ẠI ĐIỆ N T Ử VÀ GI Ả I PHÁP KH Ắ C PH Ụ C 4 1 V ấn đề khách hàng m ớ i, s â n ph ẩ m m ớ i (Cold-startproblem) M ộ t trong nh Ă ng thách th Ā c đ ố i v Ć i b ç t k ỳ h ệ th ố ng g ợ i ý nào là v ç n đ ề ngþ ą i dùng m Ć i (new user) ho ặ c s â n ph è m m Ć i (new item) H ồ sĄ c û a ngþ ą i dùng r ỗ ng và h ọ chþa x ế p h ä ng b ç t k ỳ s â n ph è m nào Vì v ê y, các gi â i thu ê t g ợ i ý không th ể hi ể u đþ ợ c khách hàng và kh ông d ă đoán đþ ợ c s ć thích, nhu c æ u c û a h ọ (Sharma & Gera, 2013) V ç n đ ề này g ọ i là “ Cold start problem” và có th ể đþ ợ c gi â i quy ế t b ì ng cách s ā d ý ng h ệ g ợ i ý không cá nhån hòa đ ể g ợ i ý nh Ă ng s â n ph è m m Ć i, nh Ă ng s â n ph è m bán ch ä y, nh Ă ng s â n ph è m đþ ợ c nhi ề u n gþ ą i đánh giá cao, (Schafer & cs , 2007; Mohamed & cs , 2019) 4 2 V ấ n đ ề kh â năng m ở r ộ ng và hi ệ u su ấ t th ờ i gian th ự c Khi lþ ợ ng d Ă li ệ u ngày càng l Ć n d æ n lên, làm th ế nào đ ể các h ệ g ợ i ý làm vi ệ c hi ệ u qu â đang là m ố i quan tâm c û a các nhà khoa h ọ c và c û a doanh nhân s ā d ý ng h ệ th ố ng thþĄng m ä i đi ệ n t ā V Ć i website l Ć n, h ệ th ố ng ph â i t ä o ra các g ợ i ý trong vñng đĄn v ð giây trong khi ph ý c v ý hàng trëm ho ặ c hàng ngàn ngþ ą i tiêu dùng cùng m ộ t lúc S ố lþ ợ ng yêu c æ u g ợ i ý đ ồ ng th ą i ngày càng l Ć n, s ố lþ ợ ng s â n ph è m ngày càng tëng, hành vi tþĄng tác c û a ngþ ą i dùng trên các s â n ph è m ngày càng nhi ề u Hi ệ n t ä i, đ ể gi â i quy ế t ph æ n nào v ç n đ ề này ngoài vi ệ c đ æ u tþ l Ć n hĄn cho các h ệ th ố ng tính toán m ä nh c æ n ph â i áp d ý ng thêm các thu ê t toán gi â m chi ề u, x ā lý song song và đ ặ c bi ệ t nên ch ä y các thu ê t toán offline đ ể có th ể g ợ i ý online nhanh hĄn (Khusro & cs , 2016) Tuy nhiên, đåy là v ç n đ ề khó và đang là m ộ t thách th Ā c c û a các h ệ th ố ng g ợ i ý 4 3 V ấ n đ ề thưa th ớ t c ủ a d ữ li ệ u đánh giá (Sparsity ) M ộ t thách th Ā c n Ăa đố i v Ć i h ệ g ợ i ý t ä i các trang thþĄng mäi điệ n t ā là s ă thþa thĆ t v ề d Ă li ệu khách hàng đánh giá sâ n ph è m R ç t nhi ề u website, lþợng khách hàng đánh giá trênsâ n ph è m r ç t ít, nên các thu ê t toán g ợi ý khò đoán đþợ c s ć thích c ûa ngþąi dùng Đåy cüng là mộ t v çn đề l Ć n c û a các h ệ g ợ i ý (Sharma & Gera, 2013) B ć i d Ă li ệ u ph âi đû l Ć n các thu ê t toán g ợ i ý m Ć i có nh Ă ng g ợ i ý chính xác Các nhà khoa h ọ c đã và đang cố g í ng nghiên c Āu để làm gi â m v ç n đề này, nhþng hiệ n v é n còn là m ộ t bài toán khó c æn đþợ c nghiên c Ā u nhi ều hĄn DþĆi đåy là mộ t s ố gi âi pháp đþợc đề xu ç t (Khusro & cs , 2016): Gi â i pháp 1: S ā d ý ng mô hình g ợi ý đa chi ề u (Adomavicius & cs , 2005) và s ā d ý ng các k ỹ thu ê t hi ệ u qu â gi â i quy ế t bài toán d ă đoán đố i v Ć i ma tr ên thþa nhþ giâ i pháp c û a Xue & cs (2015), gi â i pháp c û a Lei & cs (2019) Gi â i pháp 2: D ă a trên nh Ă ng ph â n h ồ i ti ề m è n c ûa ngþąi dùng (implicit feedback) nhþ: lð ch s ā xem hàng, mua hàng„ để b ổ sung d Ă li ệ u vào ma tr ên ngþą i dùng - s â n ph è m nh ì m h ä n ch ế m Ā c đ ộ thþa c û a ma tr ê n ít ngþ ą i dùng đánh giá Gi â i pháp 3: Chia s ẻ thông tin ngþą i dùng gi Ă a các trang web không có c änh tranh, đặ c bi ệ t có th ể khai thác thêm d Ă li ệ u t ÿ các trang m ä ng xã h ội Thông tin ngþą i dùng càng nhi ề u, càng đæy đû s ẽ giúp các thu ê t toán g ợ i ý hi ể u khách hàng hĄn và tþ vçn chính xác hĄn Lþu ý, các bên khi chia s ẻ d Ă li ệu ngþą i dùng ph â i cam k ế t ch î dùng d Ă li ệu đþợ c chia s ẻ để ph ý c v ý tþ v ç n t ốt hĄ n và có trách nhi ệ m b â o v ệ thông tin ngþą i dùng 5 ĐÁNH GIÁ CÁC PHƯƠ NG PHÁP G Ợ I Ý 5 1 Điể m m änh và điể m y ế u c ủ a các phương pháp h ệ g ợ i ý B â ng 3 là k ế t lu ê n c û a chúng tôi v ề nh Ă ng þu điể m và h ä n ch ế c ûa các phþĄng pháp hệ g ợ i ý 5 2 Đánh giá độ chính xác c ủ a các ph ươ ng pháp g ợ i ý 5 2 1 D ữ li ệ u th ự c nghi ệ m Chúng tôi đánh giá hiệ u qu â th ă c hi ệ n c û a các thu ê t toán content-based, user-based, item based đã đþợ c gi Ć i thi ệ u ć trên b ì ng cách ch ä y th ā nghi ệ m trên 4 t ê p d Ă li ệ u chu è n: Movielens M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 526 (GroupLens, 1998) , Epinions ( Trademark Notice, 2003) , BookCrossing ( University of Freiburg , 2004) , LastFM ( Group L ens , 2011 ) 5 2 2 Ph ươ ng pháp đá nh giá và môi tr ườ ng th ử nghi ệ m a Ph ươ ng pháp đá nh giá Chúng tôi chia t ê p d Ă li ệ u ra làm 2 ph æ n, l ç y ng é u nhiên 70% t ê p d Ă li ệ u để training và 30% d Ă li ệ u còn l äi để testing Chúng tôi th ă c hi ệ n 5 l æ n l ặ p trên các t ê p d Ă li ệu Độ đo NRMSE (Normalized Root Mean Square Error) và th ą i gian th ă c hi ện (time) đþợ c chúng tôi s ā d ýng để đánh giá hiệ u qu â c û a các thu ê t toán Độ đo N RMSE dù ng để xác đð nh sai s ố chu è n hóa c û a các thu êt toán và đþợ c xác đð nh b ì ng công th Ā c: max min RMSE NRMSE Rating Rating Trong đò: n 2 i i 1 1 RMSE p r n v Ć i n là s ố quan sát, p i là giá tr ð d ă đoán đánh giá cû a s â n ph è m i và r i là giá tr ð đánh giá th ă c t ế c û a s â n ph è m i Rating max , Rating min l æn lþợt là điể m l Ć n nh ç t và nh ó nh çt cho phép ngþą i dùng đánh giá b Môi trườ ng th ử nghi ệ m Môi trþąng đþợ c s ā d ý ng th ā nghi ệ m là máy tính Intel(R) Corei5-6300U, CPU @ 2 5GHz, RAM 8GB và ngôn ng Ă Python trên h ệ điề u hành Microsoft Window 10 B â ng 3 Điể m m änh và điể m y ế u c ủa các phương pháp gợ i ý STT Phương pháp Điểm mạnh Điểm yếu 1 Gợi ý không cá nhân hóa ( N on - personalized recommender systems ) 1 Đơn giản 2 Gợi ý không phụ thuộc vào dữ liệu của khách hàng trên hệ thống nên áp dụng được cho mọi khách hàng, giúp tăn g cơ hội chuyển đổi khách hàng 1 Gợi ý chung chung, không cá nhân hóa đến từng khách hàng Vì vậy mọi khách đều có kết quả gợi ý giống nhau 2 Lọc dựa trên nội dung ( Content - based filtering ) 1 Hệ thống k hông sử dụng dữ liệu của người dùng khác mà vẫn gợi ý được những sản phẩm phù hợp với sở thích của từng khác hhàng riêng biệt 2 Có khả năng gợi ý được cả những sản phẩm mới cho người dùng 1 Hệ thống phải phân tích và dò tìm tất cả các đặc trưng của sả n phẩm để tạo ra danh sách gợi ý, nên có thể chậm hoặc nếu hồ sơ về sản phẩm không đúng có thể dẫn đến gợi ý sai 2 Không thể gợi ý nếu khách hàng không có lịch sử đánh giá xem/thích các sản phẩm trên hệ thống Với khách hàng mới, hệ thống không thể cung cấ p gợi ý phù hợp 3 Không gợi ý được thêm các sở thích mới của khách 4 Lọc cộng tác ( Collaborative Filtering ) 1 Hệ thống không cần sử dụng đến hồ sơ nhân khẩu học của người dùng để gợi ý sản phẩm 2 Có khả năng dự đoán được sở thích và nhu cầu của ngư ời dùng mà không cần hiểu sản phẩm 3 Có thể gợi ý tới người dùng những sản phẩm bên ngoài sở thích đang có Nhữngnhững sản phẩm này có thể phù hợp sở thích mới của họ 1 Không thể gợi ý nếu khách hàng chưa từng tương tác với các mặt hàng 2 Không thể g ợi ý được các sản phẩm mới hoặc sản phẩm chưa được ai đánh giá 3 Khi lượng sản phẩm lớn nhưng số lượng khách hàng đánh giá không nhiều thì phương pháp này không hiệu quả 5 Phương pháp tổng hợp ( Hybrid method ) 1 Kết hợp tất cả các ưu điểm của phương pháp Content - based filtering và Collaborative Filtering 1 Không thể gợi ý cho người dùng mới 2 Khi lượng sản phẩm lớn nhưng số lượng khách hàng đánh giá không nhiều thì phương pháp này không hiệu quả Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 527 B â ng 4 Thông tin các t ậ p d ữ li ệ u th ử nghi ệ m Dat asets #Items #Users # Rating Range Rating Mô tả Movielens 100K 1,700 1,000 100,000 1÷5 Chứa đánh giá của người dùng trên các các bộ phim Mỗi bộ phim có các đặc trưng (id, title, realise date, type, rating, time ) Epinion 138,738 49,290 139,738 1÷5 Chứa quan điểm của người dùng về các sản phẩm thương mại BookCrossing 271,379 278,858 1,149,780 1÷10 Chứa đánh giá của người dùng về sách LastFM 17,632 1,892 92,834 Số lần các bài hát được bật bởi users Chứa danh sách top những bài hát được người dùng nghe nhiều nhất ( 2100 users and 18,745) 5 2 3 K ế t qu â th ử nghi ệ m K ế t qu â ć b â ng 5 cho th ç y, thu ê t toán Content - based c ó th ą i gian ch ä y nhanh hĄn User - based và Item - based, nhþng đ ộ chính xác không cao Gi Ă a thu ê t toán User - based và Item - based, n ế u xét v ề sai s ố c û a d ă đoán thìti ế p c ê n l ọ c c ộ ng tác d ă a trên s â n ph è m (Item - based) cho sai s ố th ç p hĄn (hay cho đ ộ chính xác cao hĄn) ti ế p c ê n l ọ c c ộ ng tác d ă a trênngþ ą i dùng (User - based) v Ć i t ỷ l ệ 3/4 t ê p d Ă li ệ u Tuy nhiên, xét v ề th ą i gian th ă c hi ệ n thì phþĄ ng pháp l ọ c c ộ ng tác d ă a trên ngþ ą i dùng th ă c hi ệ n nhanh hĄn nhi ề u so v Ć i phþĄng pháp l ọ c c ộ ng tác d ă a trên s â n ph è m c â giai đo ä n hu ç n luy ệ n (training) và giai đo ä n ki ể m th ā (testing) ć c â 4 t ê p d Ă li ệ u Do đò, cò th ể nói phþĄng pháp l ọ c c ộ ng tác d ă a trên User - based s ẽ có kh â nëng m ć r ộ ng (scability) t ố t hĄn phþĄng pháp Item - based V ì v ê y, khó có thu ê t toán nào là t ố t nh ç t trên m ọ i tiêu chí Tùy theo m ý c đích g ợ i ý và Ā ng d ý ng th ă c t ế đ ể ch ọ n phþĄng pháp g ợ i ý phù h ợ p 6 TÍCH H Ợ P H Ệ G Ợ I Ý TRONG H Ệ TH Ố NG BÁN HÀNG TR Ự C TUY Ế N Để th ā nghi ệ m tr ă c quan h ệ g ợ i ý Ā ng d ý ng trong thþĄng mäi điệ n t ā , chúng tôi ti ế n hành xây d ă ng h ệ th ố ng bán sách tr ă c tuy ế n tích h ợ p v Ć i các thu ê t toán g ợ i ý đã trình bày ć trên H ệ th ố ng s ā d ý ng thu ê t toán g ợ i ý không cá nhån hòa để hi ể n th ð các s â n ph è m m Ć i, s â n ph è m bán ch ä y nh ç t, s â n ph è m đþ ợ c þa thích nh ç t Đ ặ c bi ệ t, h ệ th ố ng tích h ợ p m ộ t s ố k ỹ thu ê t g ợ i ý cá nhån hòa nhþ: phþĄng pháp g ợ i ý d ă a trên n ộ i dung, phþĄng pháp g ợ i ý l ọ c c ộ ng tác đ ể thông báo cho khách hàng nh Ă ng s â n ph è m h ọ có th ể thích, h ỗ tr ợ khách hàng trong quá trình tìm mua s â n ph è m 6 1 T ổ ng quan v ề cách ti ế p c ậ n Cách ti ế p c ê n t ổ ng quan c ûa chúng tôi đþợ c th ể hi ệ n trong hình 5 6 2 Lu ồ ng x ử lý chính trong h ệ th ố ng Lu ồ ng x ā lý chính trong h ệ th ống đþợ c th ể hi ệ n trong h ình 6 Gi â i thích: H ệ th ố ng s ẽ ki ể m tra xem khách hàng cò đëng nh ê p hay không N ế u khách hàng cò đëng nh ê p, h ệ th ố ng s ẽ ki ể m tra xem khách hàng đã cò đ ộ tþĄngt ă v Ć i ngþ ą i khác hay chþa, n ế u có thì s ẽ s ā d ý ng mô hình l ọ c c ộ ng tác đ ể hi ể n th ð thông ti n g ợ i ý, ngþ ợ c l ä i h ệ th ố ng s ẽ ki ể m tra xem khách hàng có thông tin cá nhân đ ể quy ế t đ ð nh l ă a ch ọ n mô hình nhân kh è u h ọ c ho ặ c không cá nhån đ ể đþa ra g ợ i ý cho khách hàng Trþ ą ng h ợ p g ợ i ý d ă a trên mô hình không cá nhân thì s ẽ đþa ra nh Ă ng s â n ph è m m Ć i, s â n ph è m bán ch ä y, s â n ph è m đþ ợ c nhi ề u khách hàng quan tâm Trong trþą ng h ợp khách hàng không đëng nh ê p, h ệ th ố ng s ẽ ki ể m tra l ð ch s ā khách hàng đã tÿ ng truy c ê p vào trang web d ă a vào IP máy tính mà khách hàng truy c ê p, h ệ th ố ng s ẽ lþu vế t l ä i l ð ch s ā quá trình truy c ê p N ế u có thông tin d ăa theo đð a ch î IP, h ệ th ố ng s ẽ đþa ra g ợ i ý v ề nh Ă ng s â n ph èm mà khách hàng đã t ÿ ng xem M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 528 B â ng 5 Sai s ố d ự đoán và thờ i gian th ự c hi ệ n trung bình 5 l ầ n ch ä y c ủ a các ph ươ ng pháp l ọ c c ộ ng tác Dataset Thuật toán NRMSE Thời g ian(sec) Training testing Movielens (100K) Content - based 0,317 0,093 0,027 User - based 0,280 1,126 3,107 Item - based 0,288 0,147 7,793 Epinion User - based 0,285 6,515 158,91 Item - based 0,254 7,518 3869,7 BookCrossing User - based 0,248 9,126 171,73 Item - based 0,282 20,142 4030,5 LastFM User - based 0,0131 4,313 165,398 Item - based 0,0103 39,326 4431,387 Ghi chú: giá tr ị t ố t nh ấ t c ủ a các tiêu chí trên m ỗ i t ậ p d ữ li ệu được tô đậ m Hình 5 T ổ ng quan v ề cách ti ế p c ậ n 6 3 Ti ế n trình g ợ i ý trong h ệ th ố ng website thương mä i Ti ế n trình g ợ i ý s â n ph è m trong h ệ th ố ng thþĄng mäi điệ n t ā đþợ c th ể hi ệ n trong h ình 7 Ti ế n trình này bao g ồ m 3 giai đo ä n: Giai đoä n 1: Thu th êp thông tin ngþą i dùng Để có th ể d ă đoán đþợ c s ć thích c ûa ngþą i dùng, h ệ th ố ng ph â i h ọ c m ộ t mô hình ngþ ą i dùng (User model) Mô hình ngþ ą i dùng mà chúng tôi thu th ê p là các d Ă li ệ u c û a ngþ ą i dùng nhþ: thông tin cá nhån, thông tin l ð ch s ā tþĄng tác c û a ngþ ą i dùng trên s â n ph è m Giai đoä n 2: S ā d ý ng các thu ê t toán g ợ i ý : Giai đo ä n này, chúng tôi s ā d ý ng d Ă li ệ u thu th ê p đþ ợ c ć giai đo ä n 1 và d Ă li ệ u s â n ph è m đ ể ch ä y 2 nhóm thu ê t toán: - Nhóm 1: S ā d ý ng thu ê t toán g ợ i ý không cá nhân hóa (Non - personalized) để g ợ i ý các s â n ph è m m Ć i, s â n ph è m bán ch ä y, s â n ph è m đþợ c nhi ều ngþąi đánh giá - Nhóm 2: S ā d ý ng nhóm thu ê t toán cá nhån hòa đã trình bày ć m ýc 2 2 để g ợ i ý cho khách hàng: thu ê t toán nhân kh è u h ọ c, thu ê t toán g ợ i ý d ă a trên n ộ i dung (content - based) , thu ê t toán l ọ c c ộ ng tác (Collaborative fi ltering) đ ể đoán các s â n ph è m phù h ợ p v Ć i khách hàng Giai đoä n 3: G ợ i ý: Giai đoän này, cën cĀ vào t ÿng đặc điể m c û a khách hàng, h ệ th ố ng s ẽ d ă đoán và gợ i ý nh Ă ng s â n ph è m mà khách hàng có th ể thích 6 4 M ộ t s ố giao di ệ n k ế t qu â chính ứ ng v ớ i 3 giai đoä n g ợ i ý c ủ a h ệ th ố ng 6 4 1 Trang đánh giá sả n ph ẩ m Giao di ện đánh giá sâ n ph èm đþợ c th ể hi ệ n trong h ình 8 Tương tác c ủ a User - item (User product interacti ons) (products cataluge) Thông tin v ề U sers (products cataluge) (peocduct Thông tin v ề s ả n ph ẩ m (products cataluge) (Peocduct Recommender System Danh sách các s ả n ph ẩ m g ợ i ý cho khách Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 529 Hình 6 Lu ồ ng x ử lý chính trong h ệ th ố ng Hình 7 Ti ế n trình g ợ i ý trong h ệ th ố ng 6 4 2 M ộ t s ố trang hu ấ n luy ệ n mô hình - Trang th ố ng kê đánh giá s â n ph è m c û a ng þ ą i dùng đþ ợ c th ể hi ệ n trong hình h ình 9 - Trang đo lþ ą ng đ ộ tþĄng t ă gi Ă a các ngþ ą i dùng đþ ợ c th ể hi ệ n trong h ình 10 6 4 3 Các k ế t qu ả g ợ i ý s ả n ph ẩ m a Đố i v ớ i khách hàng m ớ i N ế u là khách hàng m Ć i (khách hàng chþa đánh giá bç t k ỳ s â n ph è m nào), khi h ọ tìm ki ế m m ộ t s â n ph è m, h ệ th ố ng s ẽ hi ể n th ð danh sách nh Ă ng s â n ph è m m Ć i và nh Ă ng s â n ph è m tþĄng tă mà nhi ều ngþąi quan tåm để g ợ i ý cho khách hàng b Đ ố i v ớ i khách hàng thành viên N ế u khách hàng là thành viên c û a h ệ th ố ng, t ÿng cò đánh giá sâ n ph è m, website s ẽ g ợ i ý nh Ă ng s â n ph è m m Ć i, s â n ph è m nhi ề u ngþą i quan tâm, s â n ph èm tþĄng tă Ngoài ra, h ệ th ố ng còn d ăa vào độ tþĄng tă gi Ăa các ngþą i Thu th ậ p thông tin (Information collection) H ọ c (Learning) D ự đoán/G ợ i ý (Recommender System) Ph ả n h ồ i (Feedback) M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 530 dùng để hi ể n th ð nh Ă ng s â n ph è m mà khách hàng chþa đþợ c tr â i nghi ệ m nhþng đã đþợ c các khách hàng tþĄng tă khác đánh giá cao - Trang g ợ i ý nh Ă ng s â n ph èm ngþą i dùng có th ể thích đþợ c th ể hi ệ n trong hình 12 - Trang hi ể n th ð nh Ă ng s â n ph è m khách hàng đã xem hoặc đã mua đþ ợ c th ể hi ệ n trong h ình 13 - Trang g ợ i ý s â n ph è m có th ể đþợ c mua cùng nhau đþợ c th ể hi ệ n trong h ình 14 Nhþ vê y, b ì ng vi ệ c xây d ă ng m ộ t Ā ng d ý ng thþĄng mäi điệ n t ā có tích h ợp đa dä ng các phþĄng pháp hệ g ợi ý, website đã tă động đþa ra cho khách hàng các g ợi ý khá thông minh, đa d ä ng, tr ă c quan, phù h ợ p v Ć i t ÿ ng cá nhân khách hàng và đã khí c ph ýc đþợ c v çn đề ngþą i dùng m Ć i, s â n ph è m m Ć i V Ć i nh Ă ng kh â nëng trên cho th ç y, h ệ g ợ i ý mang l ä i tr â i nghi ệ m t ố t chokhách hàng, giúp khách hàng gi â m th ą i gian tìm ki ế m s â n ph è m, tëng đ ộ hài lñng, tëng c Ą h ộ i mua hàng v à nâng cao t ỷ l ệ chuy ể n đ ổ i mua hàng Hình 8 Giao di ện đánh giá sâ n ph ẩ m c ủa ngườ i dùng Hình 9 Giao di ệ n k ế t qu â đánh giá sâ n ph ẩ m c ủa ngườ i dùng Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 531 Hình 10 Giao di ện đo lường độ tương tự gi ữa các ngườ i dùng Hình 11 Giao di ệ n g ợ i ý cho ngư ờ i dùn g m ớ i M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 532 Hình 12 Giao di ệ n g ợ i ý các s â n ph ẩm ngườ i dùng có th ể thích Hình 13 Giao di ệ n hi ể n th ị nh ữ ng s â n ph ẩm người dùng đã xem/mua Hình 14 Giao di ệ n g ợ i ý các s â n ph ẩ m hay mua cùng nhau Hoàng Th ị Hà, Ngô Nguy ễ n Th ứ c 533 7 K Ế T LU Ậ N H ệ g ợ i ý có vai trò r ç t quan tr ọ ng trong thþĄn g m äi điệ n t ā Nó là m ộ t trong nh Ăng vü khí m ä nh m ẽ giúp nhi ề u doanh nghi ệp tëng doanh s ố bán hàng, là m ộ t trong nh Ă ng nhân t ố t ä o nên s ă thành công c ûa các trang thþĄng mä i điệ n t ā và s ẽ đþợ c Ā ng d ý ng r ộ ng rãi trong tþĄng lai Trong nghiên c Ā u này, chúng tôi đã trình bày t ổ ng quan v ề h ệ g ợ i ý, khám phá nh Ă ng tác độ ng c û a h ệ g ợi ý đố i v Ći thþĄng mäi điệ n t ā B ì ng th ă c nghi ệm, chúng tôi đã so sánh đþợ c hi ệ u qu â th ă c hi ệ n c ûa các phþĄng pháp gợ i ý Content-based, User-based và Item-based, đánh giá đþợ c nh Ăng đ i ể m m änh, điể m y ế u c û a m ỗi phþĄng pháp gợ i ý Ngoài ra, chúng tôi báo cáo thách th Ā c c ûa các phþĄng pháp gợ i ý khi áp d ýng trong thþĄng mäi điệ n t ā và ch î ra gi â i pháp kh í c ph ý c Cu ối cùng, chúng tôi đã xåy d ă ng thành công h ệ th ố ng bán hàng tr ă c tuy ế n có tích h ợp các phþĄng pháp gợ i ý khác nhau, bao g ồ m k ỹ thu ê t g ợ i ý không cá nhân hóa (Non-personalized) và các k ỹ thu ê t g ợ i ý cá nhân hóa hi ệ u qu â nhþ: gợ i ý d ă a trên n ộ i dung (Content-based filtering), l ọ c c ộ ng tác (User- based, Item-based) Qua đò, ngþąi đọ c hi ểu đþợ c n ề n t â ng lý thuy ế t h ệ g ợi ý, điể m m änh, điể m y ế u c û a các h ệ g ợi ý cüng nhþ quy trình xåy d ă ng m ộ t Ā ng d ýng thþĄng mäi điệ n t ā có tích h ợp các phþĄng pháp g ợ i ý trong th ă c t ế HþĆ ng nghiên c Āu trong tþĄng lai cûa lïnh v ă c này còn khá r ộ ng m ć, đặ c bi ệ t là các k ỹ thu ê t g ợ i ý cá nhân hóa Chúng tôi s ẽ ti ế p t ý c nghiên c Ā u, c â i ti ế n Ā ng d ý ng các thu ê t toán g ợ i ý trong lïnh vă c e- commerce, lïnh vă c e - learning đ ể tr ợ giúp ngþ ą i dùng trong quá trình mua hàng, tìm ki ế m tài li ệ u cüng nhþ h ỗ tr ợ quá trình h ọ c t ê p tr ă c tuy ế n L Ờ I C ẢM ƠN Chúng tôi c âm Ąn Khoa Công nghệ thông tin, H ọ c vi ệ n Nông nghi ệ p Vi ệt Nam đã tä o điề u ki ệ n t ố t nh çt để chúng tôi th ă c hi ệ n nghiên c Ā u này TÀI LI Ệ U THAM KH Ả O Adomavicius G , Sankaranarayanan R , Sen S & Tuzhilin A (2005) Incorporating contextual information in recommender systems using a multidimensional approach ACM Transactions on Information Systems (TOIS) pp 103-145 Dias M B , Locher D , Li M , El-Deredy W & Lisboa P J (2008) The value of personalised recommender systems to e-business: a case study Proceedings of the 2008 ACM conference on Recommender systems pp 291-294 GroupLens (1998) MovieLens 100K Dataset, Retrieved from https://grouplens org/datasets/ movielens/ on October 03, 2020 Grouplens (2011) Last FM Retrieved from https://grouplens org/datasets/hetrec-2011 on October 03, 2020 Google & Temasek (2018) Báo cáoReport e-Conomy SEA 2018, Retrieved from https://www thinkwithgoogle com/_qs/documents/ 6730/Report_e-Conomy_SEA_2018_by_Google_ Temasek_v pdf on March 20, 2020 Ionos (2017) Recommendation systems in e- commerce US: IONOS Inc Retrieved from https://www ionos com/digitalguide/online-mark eting/online-sales/how-to-use-recommendation- systems-in-e-commerce on May 15, 2020 Jordan T (2016) New insight from Experian Marketing Services helps brands prepare for the holiday season https://www experianplc com Khusro S , Ali Z & Ullah I (2016) Recommender systems: issues, challenges, and research opportunities In Information Science and Applications (ICISA) 2016 Springer In Information Science and Applications (ICISA) Lei Tang, Zongtao Duan, Yishui Zhu, Junchi Ma & Zihang Liu (2019) Recommendation for Ridesharing Groups Through Destination Prediction on Trajectory Data IEEE Transactions on Intelligent Transportation Systems 99: 14 Mohamed M H , Khafagy M H & Ibrahim M H (2019) Recommender Systems Challenges and Solutions survey International Conference on Innovative Trends in Computer Engineering (ITCE) Nguy ễn Hùng Dũng & Nguyễ n Thái Nghe (2013) H ệ th ố ng g ợ i ý s ả n ph ẩ m trong bán hàng tr ự c tuy ế n s ử d ụ ng k ỹ thu ậ t l ọ c c ộ ng tác T ạ p chí Khoa h ọ c, Trường Đạ i h ọ c C ần Thơ 31: 15 Nguy ễn Thanh Hưng (2019) Báo cáo ch ỉ s ố thương m ại điệ n t ử 2019 Hi ệ p h ội thương mại điệ n t ử Vi ệ t Nam Reichheld & F F (1993) Loyalty-based management Harvard business review 71(2): 64-73 M ộ t s ố ph ươ ng pháp g ợ i ý và ứ ng d ụ ng trong th ươ ng m ại điệ n t ử 534 Schafer Ben J , Joseph Konstan & John Riedl (2001) E - commence Recommendation Applications Data Mining and Knowledge Discovery 5(1 - 2): 115 - 153 Sharma L & Gera A (2013) A survey of recommendation system: Research challenges International Journal of Engineering Trends and Technology (IJETT) 4(5): 1989-1992 Singh P (2019) A Survey of Recommendation Systems in Electronic Commerce Apress, Berkeley, CA pp 123-157 Stephan S (2019) Personalized Product Recommendation Tips and Stats Retrieved fromhttps://www barilliance com/personalized- product-recommendations-stats/ on Feb 25, 2020 Thomas T (2006) Designing recommender systems for e-commerce: an integration approach ACM International Conference Proceeding Series ACM press New York, USA 8 Trademark Notice (2003) Epinions dataset Retrieved from http://www trustlet org/epinions html on October 03, 2020 University of Freiburg (2004) BookCrossing, Retrieved from http://www2 informatik uni- freiburg de/~cziegler/BX/ on October 03, 2020 Vi ễn Thông (2020) Thương mại điệ n t ử Vi ệ t Nam 2020 s ẽ ra sao? Truy c ậ p t ừ https://vnexpress net/kinh-doanh/thuong-mai-dien- tu-viet-nam-2020-se-ra-sao-4045309 html, ngày10 tháng 3 năm 2020 Xue A Y , Qi J , Xie X , Zhang R , Huang J & Li Y (2015) Solving the data sparsity problem in destination p rediction The VLDB Journal 24(2): 219 - 243
Trang 1MỘT SỐ PHƯƠNG PHÁP GỢI Ý VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ
Hoàng Thị Hà1*, Ngô Nguyễn Thức2
1Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
2Sinh viên K57 - Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
*Tác giả liên hệ: htha@vnua.edu.vn
TÓM TẮT
Hệ gợi ý (Recommender System) là công cụ được thiết kế nhằm cung cấp những khuyến nghị hữu ích về sản phẩm, dịch vụ,…cho người dùng Hệ gợi ý dựa trên dữ liệu về mối quan hệ giữa người dùng, sản phẩm và các hành
vi của người dùng trong quá khứ đối với sản phẩm để đưa ra những gợi ý thông minh, phù hợp với sở thích của từng khách hàng Hệ gợi ý giúp khách hàng nhanh chóng định vị được những sản phẩm họ quan tâm để từ đó đưa
ra quyết định đúng đắn khi mua sắm online Trong bài báo này, chúng tôi trình bày tổng quan một số phương pháp gợi ý, đánh giá điểm mạnh, điểm yếu, so sánh hiệu quả thực hiện của mỗi phương pháp Chúng tôi chỉ ra lợi ích mà các hệ gợi ý mang lại cho thương mại điện tử, đồng thời nêu ra những thách thức và giải pháp khắc phục Kết quả thực nghiệm của chúng tôi trên 4 tập dữ liệu chuẩn (Movielens, Epinions, BookCrossing, LastFM) cho thấy mỗi phương pháp đều có những ưu điểm và hạn chế riêng, không có phương pháp nào là tốt nhất trên tất cả các tiêu chí Ngoài ra, chúng tôi cũng đưa ra quy trình chung để xây dựng hệ gợi ý trong các website thương mại và thực hiện tích hợp các kỹ thuật hệ gợi ý trong website thương mại điện tử khắc phục vấn đề người dùng mới, sản phẩm mới (vấn
đề này còn gọi là “Cold start problem”) của các phương pháp gợi ý cá nhân hóa
Từ khóa: Hệ gợi ý, lọc cộng tác, gợi ý dựa trên nội dung, hệ gợi ý kết hợp, thương mại điện tử
Some Methods of Recommender System and its Application in E-Commerce
ABSTRACT The designed recommender system is a tool to provide important suggestions forusers or customers Based on the datasets of user relationships, products, andprevious behavior of consumers, smart recommendations for the preferences of eachconsumer are given, which helps consumers tomake good decisions while shopping online In this article, we present an overview of some methodologies of recommendation systems, techniques of recommender systems, and evaluate the strengths and weaknesses of each technique, as well as comparedsome benefits of recommender systems in e-commerce Moreover, we report some challenges that the recommender systems are facing and list some solutions to solve these challenges Our experimental results on the four datasets (Movielens100k, Epinions,BookCrossing, LastFM) showed that there was no best recommendation algorithm in all evaluation metrics Finally, we built an e-commerce website that integrated some different techniques of recommender systems such as non-personalized methods, personalized methods to recommend the right product for each customer The experimental system gives some diverse suggestions to overcome the problem "Cold start problem" of personalized methods
Keywords: Recommender systems, collaborative filtering, content-based filtering, hyper filtering, E-Commerce
1 ĐẶT VẤN ĐỀ
Trong nhĂng nëm gæn đåy, cùng vĆi să phổ
biến cûa mäng Internet và máy tính, thþĄng
mäi điện tā đã phát triển nhanh chóng trên
phäm vi toàn cæu ThþĄng mäi điện tā đã thay
đổi hình thĀc giao dðch truyền thống Ngày càng
có nhiều ngþąi lăa chọn hình thĀc mua sím trăc tuyến Trong khi đò, để mć rộng thð trþąng kinh doanh, các doanh nghiệp đã xåy dăng Āng dýng thþĄng mäi điện tā và cung cçp rçt nhiều sân phèm trên website Tuy nhiên, khi thông tin
Trang 2quá nhiều, khách hàng sẽ tốn thąi gian để tìm
sân phèm họ cỉn Điều này, làm giâm să hài
lịng và să trung thành cûa khách Để giâi quyết
vçn đề này, ý tþćng chính cûa các chuyên gia
thþĄng mäi điện tā là thiết lêp hệ thống gợi ý
thơng minh nhìm khám phá ra các mặt hàng
phù hợp nhçt cho tÿng ngþąi dùng VĆi hệ thống
gợi ý tă động, khách hàng cĩ thể nhanh chĩng
truy cêp đþợc sân phèm hợp vĆi sć thích và nhu
cỉu cûa họ, tiết kiệm thąi gian tìm sân phèm
cho ngþąi dùng (Thomas, 2006)
NhĂng nëm gỉn đåy, các kỹ thuêt hệ gợi đã
và đang đþợc nghiên cĀu, Āng dýng ć nhiều lïnh
văc Trong thþĄng mäi điện tā, hệ gợi ý mang
läi nhiều lợi ích cho câ ngþąi cung cçp dðch vý
và ngþąi sā dýng dðch vý (Ionos, 2017) Hỉu hết
các cơng ty thþĄng mäi lĆn nhþ: Amazon
(Amazon.com), CDNOW (www.cdnow.com),
eBay (eBay.com), Alibaba (Alibaba.com),
MovieFinder (MovieFinder.com), Youtube.com,
Facebook.com,„ đều sā dýng các kỹ thuêt gợi ý
trong website cûa họ để nâng cao trâi nghiệm
cho khách hàng, nâng cao chçt lþợng dðch vý và
tëng doanh thu bán hàng Tuy nhiên, ć Việt
Nam - một quốc gia cĩ rçt nhiều tiềm nëng về
thþĄng mäi điện tā (Viễn Thơng, 2020) läi cĩ số
lþợng website thþĄng mäi tích hợp hệ gợi ý
khơng nhiều (Nguyễn Hùng Düng & Nguyễn
Thái Nghe, 2013) Hiện Việt Nam đang cị 44%
doanh nghiệp đã tham gia xåy dăng website
thþĄng mäi, nhþng chỵ cĩ 32% doanh nghiệp
đþợc đánh giá cao kênh bán hàng thơng qua
trang web (Nguyễn Thanh Hþng, 2019)
Bài báo này trình bày tổng quan các
phþĄng pháp gợi ý, đánh giá hiệu quâ cûa các
thuêt tốn gợi ý (Content-based, user-based và
item-based) trên một số têp dĂ liệu chuèn bao
gồm: Movielens, Epinions, BookCrossing và
LastFM Chúng tơi thâo luên nhĂng điểm
mänh, điểm yếu cûa mỗi phþĄng pháp, thách
thĀc và giâi pháp khíc phýc khi xây dăng hệ gợi
ý trong thþĄng mäi điện tā Đồng thąi, chúng tơi
đþa ra quy trình xåy dăng hệ gợi ý trong các
website thþĄng mäi và thăc hiện cài đặt các kỹ
thuêt hệ gợi ý trong website thþĄng mäi điện tā
Kết quâ cài đặt cho thçy, khi website đþợc tích
hợp các phþĄng pháp hệ gợi ý hệ thống sẽ tă
động đþa ra nhĂng gợi ý thơng minh, đa däng tĆi ngþąi dùng
2 CÁC KỸ THUẬT HỆ GỢI Ý
Các kỹ thuêt hệ gợi ý thþąng đþợc chia thành hai nhĩm chính là: hệ gợi ý cá nhân hĩa
và hệ gợi ý khơng cá nhân hĩa Chúng tơi têp trung giĆi thiệu tĩm tít phþĄng pháp gợi ý khơng cá nhân hĩa và một số thuêt tốn gợi ý cá nhân hĩa tiêu biểu thþąng đþợc sā dýng trong các trang thþĄng mäi điện tā
2.1 Hệ gợi ý khơng cá nhân hĩa (non-personalized recommender systems )
Là nhịm phþĄng pháp khơng dăa vào hồ sĄ
cá nhân tÿng khách hàng mà chỵ dăa vào đặc tính cûa sân phèm (sân phèm mĆi) và đánh giá
tÿ cộng đồng nhþ: sân phèm bán chäy nhçt, sân phèm đþợc đánh giá tốt nhçt,„ (Singh, 2019)
2.2 Hệ gợi ý cá nhân hĩa (personalized recommender systems)
Nhịm phþĄng pháp này đþợc đánh giá là mang läi hiệu quâ cao đối vĆi thþĄng mäi điện tā Nếu doanh nghiệp hiểu rõ tÿng khách hàng cûa mình dăa trên nhĂng gì họ tþĄng tác và mua hàng trên mäng, doanh nghiệp cĩ thể tþ vçn cho khách hàng nhĂng sân phèm phù hợp vĆi mong muốn và sć thích cûa khách hĄn (Google & Temasek, 2018) Khách hàng sẽ tiết kiệm đþợc thąi gian tìm kiếm sân phèm, mua đþợc nhĂng mịn hàng đúng sć thích Tÿ đị, doanh nghiệp sẽ tëng đþợc số lþợng ngþąi mua hàng, tëng giá trð đĄn hàng, tëng doanh số bán hàng
Theo nghiên cĀu cûa Schafer & cs (2001), nếu doanh nghiệp sā dýng phþĄng pháp gợi ý cá nhân hịa để gāi email tĆi khách hàng thì tỷ lệ giao dðch thơng qua email cao hĄn gçp hai lỉn
so vĆi các email đþợc gāi khơng áp dýng phþĄng pháp này (Stephan, 2019) Do đị, các phþĄng pháp gợi ý cá nhån hịa làm tëng mĀc độ tþĄng tác và chuyển đổi trong giao dðch thþĄng mäi điện tā
Một số phþĄng pháp gợi ý thuộc lội cá nhân hĩa nhþ sau:
Trang 32.2.1 Gợi ý dựa trên nội dung
(Content-based filtering)
PhþĄng pháp gợi ý này dăa trên mô tâ cûa
sân phèm và profile cûa tÿng ngþąi dùng
(không quan tåm đến ngþąi dùng khác) Gợi ý
dăa trên nội dung sẽ thu thêp hồ sĄ cûa ngþąi
dùng: họ tên, giĆi tính, nghề nghiệp và tþĄng
tác cûa cá nhån ngþąi dùng trên các sân phèm,
sau đò so sánh đặc điểm các sân phèm trong cĄ
sć dĂ liệu vĆi đặc điểm các sân phèm mà khách
hàng đã quan tåm để gợi ý cho khách hàng
2.2.2 Lọc cộng tác (Collaborative
Filtering - CF)
Lọc cộng tác gợi ý sân phèm tĆi ngþąi dùng
dăa trên lðch sā tþĄng tác sân phèm cûa chính
ngþąi dùng đò kết hợp quan điểm cûa nhĂng ngþąi dùng khác Đåy là kỹ thuêt mänh và đã đþợc áp dýng khá thành công trong các hệ thống thþĄng mäi lĆn Lọc cộng tác thu thêp phân hồi tÿ nhiều ngþąi dùng đối vĆi sân phèm, lþu trĂ phân hồi cûa ngþąi dùng dþĆi däng ma trên ngþąi dùng (users) - sân phèm (items) Mỗi dòng là một vectĄ chĀa giá trð phân hồi cûa ngþąi dùng đối vĆi các sân phèm Sau đò, tính
độ tþĄng tă giĂa các users hoặc giĂa các items trong hệ thống, tìm ra mối tþĄng quan và đþa
ra gợi ý phù hợp Độ tþĄng tă giĂa các user hoặc giĂa các item đþợc tính theo công thĀc Cosin hoặc Pearson
Bâng 1 là ma trên biểu diễn đánh giá cûa ngþąi dùng trên các sân phèm
Hình 1 Mô hình hệ gợi ý dựa trên nội dung Bâng 1 Ma trận biểu diễn người dùng - sân phẩm của tiếp cận lọc cộng tác
Trang 4Cò hai phþĄng pháp lọc cộng tác:
User-based: Dă đoán dăa trên să tþĄng tă
giĂa các users Ý tþćng quan trọng cûa phþĄng
pháp này là nhĂng khách hàng tþĄng tă có xu
hþĆng sā dýng nhĂng sân phèm tþĄng tă
(Singh & Pramod, 2019) Nếu hai khách hàng A,
B có lðch sā đánh giá các sân phèm tþĄng tă
nhau thì User-basedsẽ dă đoán khách hàng A
có khâ nëng sẽ quan tâm tĆi nhĂng sân phèm
chþa đþợc trâi nghiệm nhþng đã đþợc khách
hàng B thích và ngþợc läi PhþĄng pháp này
phân tích ma trên user-item để tìm ra nhĂng
ngþąi dùng tþĄng tă
Item-based : Dă đoán dăa trên să tþĄng tă
giĂa các items Hai sân phèm i và i’ đã đþợc
cộng đồng đánh giá tþĄng tă nhau thì có thể sẽ
đþợc đánh giá tþĄng tă bći nhĂng ngþąi dùng
còn läi PhþĄng pháp này phån tích ma trên
user-item để nhên diện các sân phèm tþĄng tă
Ngày nay, kỹ thuêt lọc cộng tác đþợc sā
dýng khá phổ biến trên các trang thþĄng
mäi điện tā lĆn nhþ Amazon, Tiki, Youtube
và Facebook
2.2.3 Phương pháp kết hợp (hybrid method)
PhþĄng pháp này kết hợp giĂa kỹ thuêt gợi
ý dăa trên nội dung và lọc cộng tác Kỹ thuêt này đþợc xem là khá hiệu quâ và giâi quyết đþợc vçn đề “cold - start problem” trong rçt nhiều nghiên cĀu Trang thþĄng mäi điện tā điển hình đã Āng dýng phþĄng pháp này là Spotify.com Họ đã tích hợp phþĄng pháp hệ gợi
ý tổng hợp để täo ra danh sách các bài hát hàng tuæn cho tÿng khách hàng riêng biệt Website
đã tổng hợp dĂ liệu ngþąi dùng dăa trên thói quen nghe nhäc và nhĂng ngþąi dùng tþĄng tă
để täo ra một danh sách các bài hát độc đáo phù hợp vĆi sć thích cûa tÿng khách hàng
2.3 Mục tiêu của các phương pháp gợi ý
Mýc tiêu cûa các phþĄng pháp gợi ý đþợc thể hiện trong bâng 2
Hình 2.Tiến trình lọc cộng tác
Hình 3 Lọc cộng tác dựa trên User-based và Item-based
Trang 5Hình 4 Mô hình hệ gợi ý kết hợp
Bâng 2 Mục tiêu khái niệm của các phương pháp gợi ý
Phương pháp (Methods) Mục tiêu (concept goals) Đầu vào (Inputs)
Gợi ý không cá nhân hóa
(Non-personalized
recommender systems)
Gợi ý những sản phẩm mà người dùng có thể thích dựa trên sản phẩm mới hoặc ý kiến cộng đồng
Lọc dựa trên nội dung
(Content-based filtering)
Gợi ý những sản phẩm khách hàng có thể thích dựa trên hồ sơ cá nhân của người dùng và độ tương tự giữa các sản phẩm trong cơ sở dữ liệu với những sản phẩm mà khách hàng đã thích trong quá khứ
Thuộc tính (item attributes) của sản phẩm hoặc Profiles của người dùng
Lọc cộng tác (Collaborative
Filtering)
Gợi ý những sản phẩm mà người dùng có thể thích dựa trên những người dùng có sở thích tương tự
Đánh giá của User + Đánh giá của cộng đồng
Phương pháp kết hợp
(Hybrid method)
Gợi ý những sản phẩm mà người dùng có thể thích dựa trên việc kết hợp Content-based filtering và Collaborative Filtering
Thuộc tính của sản phẩm+ đánh giá của Users và cộng đồng
3 VAI TRÒ CỦA HỆ GỢI Ý TRONG
THƯƠNG MẠI ĐIỆN TỬ
Trong thþĄng mäi điện tā, hệ gợi ý đòng vai
trñ nhþ một “chuyên gia” thông minh hỗ trợ
khách hàng trong quá trình tìm và chọn mua
sân phèm Hệ gợi ý thúc đèy thþĄng mäi điện tā
(Schafer & cs., 2001) theo các cách sau:
- Chuyển khách vãng lai thành ngþąi mua
hàng (Converting Browsers into Buyers): Khách
vãng lai thþąng ghé thëm website để xem trang
web mà không mua hàng Các hệ thống gợi ý sẽ
hiểu nhu cæu cûa khách, hiển thð nhĂng sân
phèm mà khách thích, hoặc đang muốn tìm
mua Bìng cách này, hệ thống sẽ chuyển nhĂng
khách vãng lai thành khách mua hàng
- Tëng cþąng bán chéo (Increasing
Cross-sell): Các hệ thống gợi ý câi thiện bán chéo bìng
cách đề xuçt các mặt hàng liên quan đến sân
phèm, các sân phèm phý kiện bổ sung cho
khách mua hàng
- Xây dăng lòng trung thành (Building Loyalty): Trong chiến lþợc kinh doanh, việc đät đþợc lòng trung thành cûa ngþąi tiêu dùng là một điều cæn thiết Khi lòng trung thành cûa khách hàng tëng lên, lợi nhuên cüng sẽ tëng lên (Reichheld & F., 1993) Các hệ thống gợi ý câi tiếnlòng trung thành bìng cách tìm hiểu, thu thêp thông tin, nhu cæu, sć thích và các mối quan tâm cûa khách Tÿ đò, sā dýng các thuêt toán thông minh cá nhån hòa để gợi ý phù hợp chotÿng khách hàng, giúp họ hài lòng, có niềm tin quay läi trang web để mua hàng
VĆi nhĂng khâ nëng trên, hệ gợi ý mang läi trâi nghiệm tốt cho khách hàng, giúp khách hàng giâm thąi gian tìm kiếm sân phèm, nâng cao tỷ lệ chuyển đổi mua hàng, câi thiện việc bó gió hàng và giĂ khách quay trć läi mua hàng
Tÿ đò, hệ gợi ý giúp các thþĄng nhån tëng giá trð đĄn hàng trung bình, tëng doanh thu bán hàng (Dias & cs., 2008; Jordan, 2016; Stephan, 2019)
Trang 64 THÁCH THỨC CỦA HỆ GỢI Ý TRONG
THƯƠNG MẠI ĐIỆN TỬ VÀ GIẢI PHÁP
KHẮC PHỤC
4.1 Vấn đề khách hàng mới, sân phẩm mới
(Cold-startproblem)
Một trong nhĂng thách thĀc đối vĆi bçt kỳ
hệ thống gợi ý nào là vçn đề ngþąi dùng mĆi (new
user) hoặc sân phèm mĆi (new item) Hồ sĄ cûa
ngþąi dùng rỗng và họ chþa xếp häng bçt kỳ sân
phèm nào Vì vêy, các giâi thuêt gợi ý không thể
hiểu đþợc khách hàng và không dă đoán đþợc sć
thích, nhu cæu cûa họ (Sharma & Gera, 2013)
Vçn đề này gọi là “Cold start problem” và có thể
đþợc giâi quyết bìng cách sā dýng hệ gợi ý không
cá nhån hòa để gợi ý nhĂng sân phèm mĆi,
nhĂng sân phèm bán chäy, nhĂng sân phèm
đþợc nhiều ngþąi đánh giá cao, (Schafer & cs.,
2007; Mohamed & cs., 2019)
4.2 Vấn đề khâ năng mở rộng và hiệu suất
thời gian thực
Khi lþợng dĂ liệu ngày càng lĆn dæn lên,
làm thế nào để các hệ gợi ý làm việc hiệu quâ
đang là mối quan tâm cûa các nhà khoa học và
cûa doanh nhân sā dýng hệ thống thþĄng mäi
điện tā VĆi website lĆn, hệ thống phâi täo ra
các gợi ý trong vñng đĄn vð giây trong khi phýc
vý hàng trëm hoặc hàng ngàn ngþąi tiêu dùng
cùng một lúc Số lþợng yêu cæu gợi ý đồng thąi
ngày càng lĆn, số lþợng sân phèm ngày càng
tëng, hành vi tþĄng tác cûa ngþąi dùng trên các
sân phèm ngày càng nhiều Hiện täi, để giâi
quyết phæn nào vçn đề này ngoài việc đæu tþ lĆn
hĄn cho các hệ thống tính toán mänh cæn phâi
áp dýng thêm các thuêt toán giâm chiều, xā lý
song song và đặc biệt nên chäy các thuêt toán
offline để có thể gợi ý online nhanh hĄn (Khusro
& cs., 2016) Tuy nhiên, đåy là vçn đề khó và
đang là một thách thĀc cûa các hệ thống gợi ý
4.3 Vấn đề thưa thớt của dữ liệu đánh giá
(Sparsity)
Một thách thĀc nĂa đối vĆi hệ gợi ý täi các
trang thþĄng mäi điện tā là să thþa thĆt về dĂ
liệu khách hàng đánh giá sân phèm Rçt nhiều
website, lþợng khách hàng đánh giá trênsân phèm rçt ít, nên các thuêt toán gợi ý khò đoán đþợc sć thích cûa ngþąi dùng Đåy cüng là một vçn đề lĆn cûa các hệ gợi ý (Sharma & Gera, 2013) Bći dĂ liệu phâi đû lĆn các thuêt toán gợi
ý mĆi có nhĂng gợi ý chính xác Các nhà khoa học
đã và đang cố gíng nghiên cĀu để làm giâm vçn
đề này, nhþng hiện vén còn là một bài toán khó cæn đþợc nghiên cĀu nhiều hĄn DþĆi đåy là một
số giâi pháp đþợc đề xuçt (Khusro & cs., 2016): Giâi pháp 1: Sā dýng mô hình gợi ý đa chiều (Adomavicius & cs., 2005) và sā dýng các
kỹ thuêt hiệu quâ giâi quyết bài toán dă đoán đối vĆi ma trên thþa nhþ giâi pháp cûa Xue &
cs (2015), giâi pháp cûa Lei & cs (2019)
Giâi pháp 2: Dăa trên nhĂng phân hồi tiềm
èn cûa ngþąi dùng (implicit feedback) nhþ: lðch
sā xem hàng, mua hàng„ để bổ sung dĂ liệu vào
ma trên ngþąi dùng - sân phèm nhìm hän chế mĀc độ thþa cûa ma trên ít ngþąi dùng đánh giá Giâi pháp 3: Chia sẻ thông tin ngþąi dùng giĂa các trang web không có cänh tranh, đặc biệt có thể khai thác thêm dĂ liệu tÿ các trang mäng xã hội Thông tin ngþąi dùng càng nhiều, càng đæy đû sẽ giúp các thuêt toán gợi ý hiểu khách hàng hĄn và tþ vçn chính xác hĄn Lþu ý, các bên khi chia sẻ dĂ liệu ngþąi dùng phâi cam kết chî dùng dĂ liệu đþợc chia sẻ để phýc vý tþ vçn tốt hĄn và có trách nhiệm bâo vệ thông tin ngþąi dùng
5 ĐÁNH GIÁ CÁC PHƯƠNG PHÁP GỢI Ý
5.1 Điểm mänh và điểm yếu của các phương pháp hệ gợi ý
Bâng 3 là kết luên cûa chúng tôi về nhĂng
þu điểm và hän chế cûa các phþĄng pháp hệ gợi ý
5.2 Đánh giá độ chính xác của các phương pháp gợi ý
5.2.1 Dữ liệu thực nghiệm
Chúng tôi đánh giá hiệu quâ thăc hiện cûa các thuêt toán content-based, user-based, item based đã đþợc giĆi thiệu ć trên bìng cách chäy thā nghiệm trên 4 têp dĂ liệu chuèn: Movielens
Trang 7(GroupLens, 1998), Epinions (Trademark
Notice, 2003), BookCrossing (University of
Freiburg, 2004), LastFM (GroupLens, 2011)
5.2.2 Phương pháp đánh giá và môi trường
thử nghiệm
a Phương pháp đánh giá
Chúng tôi chia têp dĂ liệu ra làm 2 phæn,
lçy ngéu nhiên 70% têp dĂ liệu để training và
30% dĂ liệu còn läi để testing Chúng tôi thăc
hiện 5 læn lặp trên các têp dĂ liệu.Độ đo
NRMSE (Normalized Root Mean Square Error)
và thąi gian thăc hiện (time) đþợc chúng tôi sā
dýng để đánh giá hiệu quâ cûa các thuêt toán
Độ đo NRMSE dùng để xác đðnh sai số
chuèn hóa cûa các thuêt toán và đþợc xác đðnh
bìng công thĀc:
RMSE NRMSE
Rating Rating
Trong đò:
1
1
n
vĆi n là số quan sát, pi là giá trð dă đoán đánh giá cûa sân phèm i và ri là giá trð đánh giá thăc tế cûa sân phèm i
Ratingmax, Ratingmin læn lþợt là điểm lĆn nhçt
và nhó nhçt cho phép ngþąi dùng đánh giá
b Môi trường thử nghiệm
Môi trþąng đþợc sā dýng thā nghiệm là máy tính Intel(R) Corei5-6300U, CPU @ 2.5GHz, RAM 8GB và ngôn ngĂ Python trên hệ điều hành Microsoft Window 10
Bâng 3 Điểm mänh và điểm yếu của các phương pháp gợi ý
1 Gợi ý không cá nhân
hóa (Non-personalized
recommender
systems)
1 Đơn giản
2 Gợi ý không phụ thuộc vào dữ liệu của khách hàng trên hệ thống nên áp dụng được cho mọi khách hàng, giúp tăng cơ hội chuyển đổi khách hàng
1 Gợi ý chung chung, không cá nhân hóa đến từng khách hàng Vì vậy mọi khách đều
có kết quả gợi ý giống nhau
2 Lọc dựa trên nội dung
(Content-based
filtering)
1 Hệ thống không sử dụng dữ liệu của người dùng khác mà vẫn gợi ý được những sản phẩm phù hợp với sở thích của từng khác hhàng riêng biệt
2 Có khả năng gợi ý được cả những sản phẩm mới cho người dùng
1 Hệ thống phải phân tích và dò tìm tất cả các đặc trưng của sản phẩm để tạo ra danh sách gợi ý, nên có thể chậm hoặc nếu hồ sơ
về sản phẩm không đúng có thể dẫn đến gợi ý sai
2 Không thể gợi ý nếu khách hàng không
có lịch sử đánh giá xem/thích các sản phẩm trên hệ thống.Với khách hàng mới, hệ thống không thể cung cấp gợi ý phù hợp
3 Không gợi ý được thêm các sở thích mới của khách
4 Lọc cộng tác
(Collaborative
Filtering)
1 Hệ thống không cần sử dụng đến hồ sơ nhân khẩu học của người dùng để gợi ý sản phẩm
2 Có khả năng dự đoán được sở thích và nhu cầu của người dùng mà không cần hiểu sản phẩm
3 Có thể gợi ý tới người dùng những sản phẩm bên ngoài sở thích đang có
Nhữngnhững sản phẩm này có thể phù hợp sở thích mới của họ
1 Không thể gợi ý nếu khách hàng chưa từng tương tác với các mặt hàng
2 Không thể gợi ý được các sản phẩm mới hoặc sản phẩm chưa được ai đánh giá
3 Khi lượng sản phẩm lớn nhưng số lượng khách hàng đánh giá không nhiều thì phương pháp này không hiệu quả
5 Phương pháp tổng
hợp (Hybrid method)
1 Kết hợp tất cả các ưu điểm của phương pháp Content-based filtering và Collaborative Filtering
1 Không thể gợi ý cho người dùng mới
2 Khi lượng sản phẩm lớn nhưng số lượng khách hàng đánh giá không nhiều thì phương pháp này không hiệu quả
Trang 8Bâng 4 Thơng tin các tập dữ liệu thử nghiệm
Datasets #Items #Users # Rating Range Rating Mơ tả
Movielens 100K 1,700 1,000 100,000 1÷5 Chứa đánh giá của người dùng trên các các
bộ phim Mỗi bộ phim cĩ các đặc trưng (id, title, realise date, type, rating, time ) Epinion 138,738 49,290 139,738 1÷5 Chứa quan điểm của người dùng về các
sản phẩm thương mại BookCrossing 271,379 278,858 1,149,780 1÷10 Chứa đánh giá của người dùng về sách LastFM 17,632 1,892 92,834 Số lần các bài hát
được bật bởi users
Chứa danh sách top những bài hát được người dùng nghe nhiều nhất (2100 users and 18,745)
5.2.3 Kết quâ thử nghiệm
Kết quâ ć bâng 5 cho thçy, thuêt tốn
Content - based cĩ thąi gian chäy nhanh hĄn
User-based và Item-based, nhþng độ chính xác
khơng cao GiĂa thuêt tốn User-based và
Item-based, nếu xét về sai số cûa dă đốn
thìtiếp cên lọc cộng tác dăa trên sân phèm
(Item-based) cho sai số thçp hĄn (hay cho độ
chính xác cao hĄn) tiếp cên lọc cộng tác dăa
trênngþąi dùng (User - based) vĆi tỷ lệ 3/4 têp
dĂ liệu Tuy nhiên, xét về thąi gian thăc hiện
thì phþĄng pháp lọc cộng tác dăa trên ngþąi
dùng thăc hiện nhanh hĄn nhiều so vĆi phþĄng
pháp lọc cộng tác dăa trên sân phèm câ giai
độn huçn luyện (training) và giai độn kiểm
thā (testing) ć câ 4 têp dĂ liệu Do đị, cị thể nĩi
phþĄng pháp lọc cộng tác dăa trên User - based
sẽ cĩ khâ nëng mć rộng (scability) tốt hĄn
phþĄng pháp Item - based Vì vêy, khĩ cĩ thuêt
tốn nào là tốt nhçt trên mọi tiêu chí Tùy theo
mýc đích gợi ý và Āng dýng thăc tế để chọn
phþĄng pháp gợi ý phù hợp
6 TÍCH HỢP HỆ GỢI Ý TRONG HỆ THỐNG
BÁN HÀNG TRỰC TUYẾN
Để thā nghiệm trăc quan hệ gợi ý Āng dýng
trong thþĄng mäi điện tā, chúng tơi tiến hành
xây dăng hệ thống bán sách trăc tuyến tích hợp
vĆi các thuêt tốn gợi ý đã trình bày ć trên
Hệ thống sā dýng thuêt tốn gợi ý khơng cá
nhån hịa để hiển thð các sân phèm mĆi, sân
phèm bán chäy nhçt, sân phèm đþợc þa thích
nhçt Đặc biệt, hệ thống tích hợp một số kỹ
thuêt gợi ý cá nhån hịa nhþ: phþĄng pháp gợi ý dăa trên nội dung, phþĄng pháp gợi ý lọc cộng tác để thơng báo cho khách hàng nhĂng sân phèm họ cĩ thể thích, hỗ trợ khách hàng trong quá trình tìm mua sân phèm
6.1 Tổng quan về cách tiếp cận
Cách tiếp cên tổng quan cûa chúng tơi đþợc thể hiện trong hình 5
6.2 Luồng xử lý chính trong hệ thống
Luồng xā lý chính trong hệ thống đþợc thể hiện trong hình 6
Giâi thích: Hệ thống sẽ kiểm tra xem khách hàng cị đëng nhêp hay khơng Nếu khách hàng
cị đëng nhêp, hệ thống sẽ kiểm tra xem khách hàng đã cị độ tþĄngtă vĆi ngþąi khác hay chþa, nếu cĩ thì sẽ sā dýng mơ hình lọc cộng tác để hiển thð thơng tin gợi ý, ngþợc läi hệ thống sẽ kiểm tra xem khách hàng cĩ thơng tin cá nhân
để quyết đðnh lăa chọn mơ hình nhân khèu học hoặc khơng cá nhån để đþa ra gợi ý cho khách hàng Trþąng hợp gợi ý dăa trên mơ hình khơng
cá nhân thì sẽ đþa ra nhĂng sân phèm mĆi, sân phèm bán chäy, sân phèm đþợc nhiều khách
hàng quan tâm
Trong trþąng hợp khách hàng khơng đëng nhêp, hệ thống sẽ kiểm tra lðch sā khách hàng
đã tÿng truy cêp vào trang web dăa vào IP máy tính mà khách hàng truy cêp, hệ thống sẽ lþu vết läi lðch sā quá trình truy cêp Nếu cĩ thơng tin dăa theo đða chỵ IP, hệ thống sẽ đþa
ra gợi ý về nhĂng sân phèm mà khách hàng đã tÿng xem
Trang 9Bâng 5 Sai số dự đốn và thời gian thực hiện trung bình 5 lần chäy
của các phương pháp lọc cộng tác
Training testing Movielens (100K) Content - based 0,317 0,093 0,027
Ghi chú: giá trị tốt nhất của các tiêu chí trên mỗi tập dữ liệu được tơ đậm.
Hình 5 Tổng quan về cách tiếp cận
6.3 Tiến trình gợi ý trong hệ thống website
thương mäi
Tiến trình gợi ý sân phèm trong hệ thống
thþĄng mäi điện tā đþợc thể hiện trong hình 7
Tiến trình này bao gồm 3 giai độn:
Giai độn 1: Thu thêp thơng tin ngþąi dùng
Để cĩ thể dă đốn đþợc sć thích cûa ngþąi
dùng, hệ thống phâi học một mơ hình ngþąi
dùng (User model) Mơ hình ngþąi dùng mà
chúng tơi thu thêp là các dĂ liệu cûa ngþąi dùng
nhþ: thơng tin cá nhån, thơng tin lðch sā tþĄng
tác cûa ngþąi dùng trên sân phèm
Giai độn 2: Sā dýng các thuêt tốn gợi ý:
Giai độn này, chúng tơi sā dýng dĂ liệu thu
thêp đþợc ć giai độn 1 và dĂ liệu sân phèm để
chäy 2 nhĩm thuêt tốn:
- Nhĩm 1: Sā dýng thuêt tốn gợi ý khơng
cá nhân hĩa (Non - personalized) để gợi ý các
sân phèm mĆi, sân phèm bán chäy, sân phèm đþợc nhiều ngþąi đánh giá
- Nhĩm 2: Sā dýng nhĩm thuêt tốn cá nhån hịa đã trình bày ć mýc 2.2 để gợi ý cho khách hàng: thuêt tốn nhân khèu học, thuêt
tốn gợi ý dăa trên nội dung (content - based),
thuêt tốn lọc cộng tác (Collaborative filtering)
để đốn các sân phèm phù hợp vĆi khách hàng Giai độn 3: Gợi ý: Giai độn này, cën cĀ vào tÿng đặc điểm cûa khách hàng, hệ thống sẽ
dă đốn và gợi ý nhĂng sân phèm mà khách hàng cĩ thể thích
6.4 Một số giao diện kết quâ chính ứng với
3 giai độn gợi ý của hệ thống
6.4.1 Trang đánh giá sản phẩm
Giao diện đánh giá sân phèm đþợc thể hiện trong hình 8
Tương tác của User-item (User product interactions) (products cataluge)
Thơng tin
về Users (products cataluge)
(peocduct
Thơng tin về sản phẩm
(products cataluge)
(Peocduct
Recommender System
Danh sách các sản phẩm gợi ý cho khách
Trang 10Hình 6 Luồng xử lý chính trong hệ thống
Hình 7 Tiến trình gợi ý trong hệ thống
6.4.2 Một số trang huấn luyện mô hình
- Trang thống kê đánh giá sân phèm cûa
ngþąi dùng đþợc thể hiện trong hình hình 9
- Trang đo lþąng độ tþĄng tă giĂa các ngþąi
dùng đþợc thể hiện trong hình 10
6.4.3 Các kết quả gợi ý sản phẩm
a Đối với khách hàng mới
Nếu là khách hàng mĆi (khách hàng chþa
đánh giá bçt kỳ sân phèm nào), khi họ tìm
kiếm một sân phèm, hệ thống sẽ hiển thð danh sách nhĂng sân phèm mĆi và nhĂng sân phèm tþĄng tă mà nhiều ngþąi quan tåm để gợi ý cho
khách hàng
b Đối với khách hàng thành viên
Nếu khách hàng là thành viên cûa hệ thống, tÿng cò đánh giá sân phèm, website sẽ gợi ý nhĂng sân phèm mĆi, sân phèm nhiều ngþąi quan tâm, sân phèm tþĄng tă Ngoài ra,
hệ thống còn dăa vào độ tþĄng tă giĂa các ngþąi
Thu thập thông tin (Information collection)
Học (Learning)
Dự đoán/Gợi ý (Recommender System)
Phản hồi (Feedback)