Mục tiêu nghiên cứu Chuyên đề sử dụng một số phương pháp Machine Learning khác nhau nhằmxây dựng một hệ thống kết hợp giúp gợi ý bán chéo sản pham hang mỹ phẩm trên các trang thương mại
Trang 1NS QG0) x rs x ^ (WG
SÀN TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN [A ( `
KHOA TOÁN KINH TE
Đề tài:ỨNG DỤNG MACHINE LEARNING TRONG VIỆC GỢI Ý
BAN CHÉO SAN PHAM KHI MUA HÀNG TRỰC TUYẾN:
TRUONG HỢP HÀNG MỸ PHAM
Sinh viên thực hiện : Nguyễn Vân Nhi
Mã sinh viên : 11183817
Lớp : Toán kinh tế 60Giảng viên hướng dẫn : PGS.TS Nguyễn Thị Minh
HÀ NỘI, 12/2021
Trang 2Chuyên dé thực tập — Chuyên ngành Toán kinh tế
LỜI CẢM ƠN
Trước tiên, tôi xin dành lời cảm ơn chân thành và sâu sắc tới cô PGS.TSNguyễn Thị Minh, người đã trực tiếp hướng dan, khuyến khích, chi bảo và tạo điều
kiện cho tôi trong suốt quá trình thực hiện chuyên dé tot nghiép cua minh
Tôi cũng xin dành lời cảm on chân thành tới tập thể các thầy cô giáo khoaToán Kinh tế của trường Đại học Kinh té Quốc dân vì đã tận tình đào tạo, cung
cap cho tôi những kiến thức vô cùng quý giá, bồ ich và đã tạo những điều kiện totnhất cho tôi trong suốt quá trình học tập, nghiên cứu tại trường
Du vậy, trong quá trình thực hiện, do vốn kiến thức và kinh nghiệm của tôicòn hạn chế nên chuyên đề sẽ không thé tránh khỏi những sai sót, kính mong nhận
được thêm những đóng góp quý báu của quý thay cô để tôi có thể bồ sung và hoànthiện chuyên dé được tốt hon
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Vân Nhi
11183817 — Nguyễn Vân Nhi 1
Trang 3Chuyên đề thực tập — Chuyên ngành Toán kinh tế
2 Mur ti€u nghién Cu 0n - 7
3 Đối tượng và phạm Vi nghiên cứu - 2-2 eseseestesessesseseessesseees 7
4 Phương pháp nghiên CỨu - - - G2233 * +13 EEEEEErereresrrerrrrresres 8
5 KẾt cấu che 8Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU 9
1.1 Một số khái niệm - 2 2© £+S2+EESEEEEE2E12E1271 7112112111121 1e crxee 9
1.1.1 Khái niệm thương mại điện tỬ 5 + S S3 strereerrrrerrrrree 9
1.1.2 Khái niệm về mỹ phẩm -2- 22 2 E+©E+£E££EE+EE+EEtEEzEErrkrrxrred 101.2 Thị trường thương mại điện tir va đặc điểm của hang mỹ phẩm 11
1.2.1 Các đặc điểm của thương mại điện tỬ - 5+ ++cc+<<xsscxsees+ 111.2.2 Thực trạng và xu hướng phát triển của của thương mại điện tử 121.2.3 Đặc điểm của hàng hóa mỹ phẩm - 2 2 s+z+£++zx+zxezed 14
1.4 Tông quan nghiên €ứu - 2-2 £©2£2 E+EE+EE££EE+EEEEEerErErrrxerkerxee 29
1.5 Khoảng trống nghiên cứu - - 22 2 s+SE+EEc£ESEEtEEerErrrxrrxrrkerxee 33
Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU - 2-2 ©<+2s£+cxz+cse2 34
2.1 Phương pháp Machine Learning - - s se 34
2.2 Thuật toán Lọc cộng tác Vùng lân cận (Neighborhood - Based
2.3 Thuật toán Lọc cộng tác Phân rã ma tran (Matrix Factorization
Collaborative Filtering) - - - LH HH HH HH HH ng HH Hiệt 43
2.3.1 Giới thiệu về thuật toán -ccccccxvtserxtrrerrtrrrrrtrrrrrkrrrrk 43
11183817 — Nguyễn Vân Nhi 2
Trang 4Chuyên đề thực tập — Chuyên ngành Toán kinh tế
2.3.2 Phương pháp Gradient Ïesce€nt - - c+S- ssssssserseerrsererree 46
2.4 Tiêu chuẩn đánh giá độ tin cậy của giải thuật -: 47
Chương 3 UNG DUNG MACHINE LEARNING DE XÂY DỰNG HE THONG GOI Ý BAN CHEO SAN PHAM KHI MUA HANG MY PHAM
TRUC TUYỂN ooocccccccccccccccsscsssessessessesssesscsessussssssecsessussssssessessussuseseesessessseeseses 48
3.1 Dữ liệu và phân tích thống kê dữ liệu 2 2 5s s2 48
3.1.1 Nguồn dữ liệu - 2-2 2 S£ SE EEE1EE121121121E 11111111111 xe 48
3.1.2 Phân tích thống kê 2-22 +£+EE++EE+EE+2EE+2EEEEEEEEESEkrrrrrrkrsred 483.2 Ứng dụng Lọc cộng tác Vùng lân cận để dự đoán giá trị xếp hạng của
người dùng cho các sản phẩm - 2-22 2+SE£EEtEE2EEcEEeEEEEErrxrrkervee 523.3 Ứng dụng Lọc cộng tác Phân rã ma trận để dự đoán giá trị xếp hạng
của người dùng cho các sản phẩm 2-2 + 2EE£EEtExtzEzrxrrxerxee 54
3.4 So sánh và thảo luận c5 2< + + HH HH HH giết 56
KET LUẬN 2- 2-5521 22221 E21271211211221112112112111111121111 11.1 xexe 60
TÀI LIEU THAM KHAO 2- 2-52 2E2+EE£EECEEEtEEEEEEEEEEEEErrkerrkerrkee 61
11183817 — Nguyễn Vân Nhi 3
Trang 5Chuyên đề thực tập — Chuyên ngành Toán kinh tế
DANH MỤC BANG BIEU
Bảng 2.1 Ma trận tiện ích R ban đâu 5 25+ *+*E+EEeerrerererrserrsee 36
Bang 2.2 Ma trận R sau khi được chuẩn hóa theo hàng -: 38
Bảng 2.3 Ma trận tương tự giữa các người dùng S - S2 38
Bang 2.4 Ma trận dự đoán xếp hạng chuẩn hóa theo phương pháp Lọc cộng tác
Vùng lân cận dựa trên người dùng - - + 1+1 ** 1191191 ng ng nh key 40
Bảng 2.5 Ma trận tiện ích R ban n0 41Bang 2.6 Ma tran R sau khi duoc chuẩn hóa theo COt c.ccccccccscssecessseseesseeeseeeees 41Bang 2.7 Ma trận tương tự giữa các sản pham S wo.cececccescsseeseeseeseeseeeseseeseaees 42Bang 2.8 Ma trận dự đoán xếp hạng chuẩn hóa theo phương pháp Lọc cộng tácVùng lân cận dựa trên sản phẩm 2-22 5¿2x22E++£E++Ex++EErzExerxeerxesrree 42Bảng 3.1 Thống kê mô tả các giá trị xếp hạng -2 -¿2¿©5++cx++zxcsxees 49Bảng 3.2 Top 20 sản phẩm nhận nhiều lượt đánh giá nhất . 50
Bang 3.3 Thông tin các bộ dữ liệu thử nghiệm - 5-5555 S<sssseeeres 51
Bang 3.4 Số điểm k lân cận tối ưu - ¿2 £+++£E++E2EE£EEtEkerkerrxrrxerkeee 52Bảng 3.5 Kết quả đánh giá RMSE và MAE của thuật toán Lọc cộng tác Phân rãma trận khi không có hệ số chính tắc hóa - 2-2 2 2+£2+E+£E+£++£+zszzezz 54Bảng 3.6 Kết quả đánh giá RMSE và MAE của thuật toán Lọc cộng tác Phân rã
¡80 - 55
Bảng 3.7 Danh sách gợi ý 10 sản phẩm của thuật toán Lọc cộng tác Vùng lân cậndựa trên sản phẩm - ¿- ¿2 ESE+SE+SE+EE2EESEEEEEEEEEEEEEE11211211211217111 11111 xe 58Bang 3.8 Dánh sách gợi ý 10 sản phẩm của thuật toán Loc cộng tác Phân rã ma
trận dựa trên sản phẩm 58
11183817 — Nguyễn Vân Nhi 4
Trang 6Chuyên đề thực tập — Chuyên ngành Toán kinh tế
DANH MỤC HÌNH VE
Hình 1.1 Ví dụ về hiện tượng đuôi dài trong phân bố đánh giá sản phẩm 28
Hình 2.1 Minh họa thuật toán phân rã ma trận - «+5 + «+++<+++2 44
Hình 3.1 Số lượt đánh giá của mỗi mức xếp hạng -2- ¿z5 49Hình 3.2 Tỷ lệ số lượt đánh giá của mỗi mức xếp hạng c -« «+ 49Hình 3.3 Số lượt được đánh giá của mỗi sản phẩm 49Hình 3.4 Phân phối số lượt đánh giá của mỗi người dùng -: 51Hình 3.5 Minh họa về ma trận tiện ích của bộ dữ liệu - - ss+s+csss+s+z 51
Hình 3.6 Đánh gia anh hưởng của quy mô vùng lân cận với thuật toán User — User
Hình 3.10 So sánh RMSE va MAE giữa hai thuật toán «<+<< «52 56
11183817 —Nguyén Van Nhi 5
Trang 7Chuyên đề thực tập — Chuyên ngành Toán kinh tế
LỜI MỞ ĐẦU
1 Lí do chọn đề tài
Trong những năm gan đây, thế giới đã chứng kiến sự phát triển bùng nỗ cả
về chất lượng và số lượng người sử dụng mạng Internet Tính đến tháng 1/2021,trên thế giới có tới 4.66 tỷ người dùng, tương đương với tỷ lệ thâm nhập Internet
trên toàn cầu ở mức 59.5% Riêng tại Việt Nam, số người sử dụng Internet làkhoảng 68.72 triệu người, chiếm 70.3% dân số Internet không chỉ góp phần thayđối một số cách thức sinh hoạt và làm việc hàng ngày của con người mà còn kéotheo sự phát triển nhanh chóng của một trong những thị trường đang rất được cácnhà dau tư, doanh nghiệp cũng như người tiêu dùng quan tâm — Thương mại điện
tử Báo cáo Chỉ số thương mại điện tử Việt Nam 2021 của Hiệp hội Thương mại
điện tử Việt Nam chỉ ra rằng nước ta có nhiều tiềm năng về phát triển thương mại
điện tử Theo đó, thương điện tử Việt Nam năm 2020 tăng 16% và đạt quy mô trên
14 tỷ USD, đáng chú ý nhất là lĩnh vực bán lẻ hàng hoá trực tuyến (tăng 46%).Báo cáo này cũng dự đoán tốc độ tăng trưởng trung bình giai đoạn 2020 — 2025 là
29% và tới năm 2025 quy mô thương mại điện tử nước ta đạt 52 tỷ USD.
Với tốc độ phát triển nhanh như vậy đòi hỏi các công ty phải biết đổi mới
và nâng cao chất lượng dịch vụ chăm sóc khách hàng Vấn đề nắm bắt thị hiếu,
sở thích của người tiêu dùng khi đó trở thành một van dé có tính nền tảng, sống
còn của ngành mà bat kì người bán nào nếu muốn tồn tại trên thị trường đều cầnphải giải quyết thật tốt Trước kia, những người bán lẻ đã thực hiện nhiều biệnpháp dé ghi nhận thói quen của người tiêu dùng như sử dụng các hóa đơn bán hàngđể xem xét các mặt hàng thường được mua sắm cùng nhau, phỏng vấn người mua
về sở thích mua sắm của ho dé từ đó đưa ra những biện pháp giúp tối đa hóa doanhthu, tối ưu hóa chỉ phí của doanh nghiệp Ví dụ, khi đi vào một cửa hàng sách quenthuộc, chủ cửa hàng sẽ giới thiệu cho người khách một vài quyền sách hoặc tờ báomà người khách đó có thể quan tâm dựa trên sở thích hoặc thói quen của khách
hàng Nhưng với thương mại điện tử, hình thức mà người mua và người bán
không cần gặp gỡ trực tiếp và họ giao dịch với nhau trên các trang web, việc xây
dựng một trợ lý bán hàng tự động là vô cùng quan trọng và cũng chính là một thách
thức lớn Vấn đề này có thể được giải quyết bằng việc tích hợp các Hệ thông gợiý (Recommender Systems) trong các website bán hàng Với lượng thông tin đồ séxuất hiện tràn lan trên các website, người tiêu dùng không thê có đủ thời gian đểxem xét tất cả các sản phẩm, dịch vụ Khi đó, hệ thống gợi ý như một chuyên gia
11183817 — Nguyễn Vân Nhi 6
Trang 8Chuyên đề thực tập — Chuyên ngành Toán kinh tế
tư vấn, dự đoán thông minh sở thích của khách hàng và cung cấp những thông tin
mà họ thực sự quan tâm.
Các kỹ thuật hệ gợi ý đã và đang được nghiên cứu, ứng dụng một cách mạnh
mẽ và mang lại lợi ích cho cả người cung cấp dịch vụ và người sử dụng dịch vụ.Trong lĩnh vực xây dựng hệ gợi ý có hai nhiệm vụ cơ bản cần được giải quyết làdự đoán xếp hạng cho từng mặt hàng và gợi ý danh sách mặt hàng Nhiệm vụ dựđoán xếp hạng (rating prediction) nhăm mục tiêu tối ưu hóa dự đoán mức độ ưa
thích của người dùng đối với từng mặt hàng cụ thé, trong khi đó nhiệm vụ gợi ý
danh sách mặt hàng (ranking) nhằm giải quyết vẫn đề gợi ý cho người dùng danhsách mặt hàng mà họ nhiều khả năng có tương tác nhất Trong hai nhiệm vụ nóitrên, nhiệm vụ dự đoán xếp hang của người dùng cho sản phẩm đóng vai trò quantrọng vì điểm xếp hạng của người dùng phản ánh mức độ hài lòng của người dùngđối với sản phẩm/dịch vụ Hầu hết các trang thương mại lớn trên thế giới, như:Amazon.com, Alibaba.com, ebay.com đều sử dụng các kỹ thuật gợi ý trong
website của mình để nâng cao trải nghiệm cho khách hàng, nâng cao chất lượngdịch vụ và thu lại lợi nhuận tốt hơn Ở Việt Nam, những trang thương mại điện tửthành công, như: Lazada.vn, Shopee.com, Thegioididong.com, Tiki.vn đều có
sử dụng hệ gợi ý trong hệ thống thông tin Tuy nhiên, hiện nay, phần lớn các trang
thương mại điện tử trong nước mới chỉ dừng ở mức gợi ý chung chung, chưa có
tính cá nhân hóa.
Gần đây, nhờ có các công cụ mới phát triển dựa trên Machine Learning,
như kỹ thuật gợi ý dựa trên nội dung hay lọc cộng tác đã giúp xây dựng các hệ gợi
ý cá nhân hóa, nâng cao trải nghiệm khách hàng Vậy nên, chuyên đề sẽ tập trungtìm hiểu và ứng dụng một số thuật toán Machine Learning trong việc gợi ý bánchéo sản phẩm khi mua hàng trực tuyến Mặt hàng được chon dé nghiên cứu làhang mỹ phẩm — một mặt hàng điển hình trên các sàn thương mại điện tử
2 Mục tiêu nghiên cứu
Chuyên đề sử dụng một số phương pháp Machine Learning khác nhau nhằmxây dựng một hệ thống kết hợp giúp gợi ý bán chéo sản pham hang mỹ phẩm trên
các trang thương mại điện tử.
3 Đối tượng và phạm vi nghiên cứu
e - Đối tượng nghiên cứu: Chuyên đề tập trung nghiên cứu về hệ thống gợi ýcũng như các thuật toán giúp xây dựng hệ thống gợi ý bán chéo sản phẩm hàng mỹphẩm khi mua sắm trực tuyến
11183817 — Nguyễn Vân Nhi 7
Trang 9Chuyên đề thực tập — Chuyên ngành Toán kinh tế
e Pham vi nghiên cứu: Các khách hang đã từng trải nghiệm mua hàng mỹ
phẩm trực tuyến trên trang Thương mại điện tử Amazon
4 Phương pháp nghiên cứu
Đề hoàn thành mục tiêu nghiên cứu, chuyên đề sử dụng kết hợp các phương
pháp nghiên cứu định tính và định lượng.
e Phuong pháp định tính: Chuyên đề đã tông hợp, phân tích các nghiên cứucó nội dung tương tự ở cả trong, ngoài nước, đưa ra những lý thuyết về hệ thốnggợi ý cũng như các thuật toán xây dựng hệ thống gợi ý
e Phuong pháp định lượng: Chuyên dé tiến hành thử nghiệm xây dựng hệthống gợi ý bán chéo hàng mỹ phẩm trực tuyến bằng cách ứng dụng các phươngpháp phân tích thống kê và các thuật toán Machine Learning
5 Két cau
Chuyên dé có kết cấu gồm 4 phan chính là:Chương 1 Cơ sở lý luận và tổng quan nghiên cứu
Chương 2 Phương pháp nghiên cứu
Chương 3 Ứng dụng Machine Learning đề xây dựng hệ thống gợi ý bán chéo sảnphẩm khi mua hàng mỹ phẩm trực tuyến
Kết luận
11183817 — Nguyễn Vân Nhi 8
Trang 10Chuyên đề thực tập — Chuyên ngành Toán kinh tế
Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU
Ở chương này, chuyên đề trình bày một số khái niệm liên quan đến thươngmại điện tử và sản phẩm hang mỹ phẩm, đồng thời nêu ra thực trang cũng như xuhướng phát triển của thị trường này Bên cạnh đó là đưa ra các cơ sở lý luận về hệ
thống gợi ý bao gồm giới thiệu chung, vai trò cũng như phương thức hoạt động
của hệ thống Chuyên đề cũng tiến hành tổng hợp, phân tích về tình hình nghiêncứu trong và ngoài nước, từ đó chỉ ra những khoảng trống trong các nghiên cứutrước đề đưa tới định hướng nghiên cứu của chuyên đề này
1.1 Một số khái niệm
1.1.1 Khái niệm thương mại điện tử
Thương mại đóng vai trò rất quan trọng trong việc luân chuyên hàng hóa,dịch vụ giữa các doanh nghiệp, nhóm và cá nhân, là phần không thể thiếu đối vớibất kì một hoạt động kinh doanh hay bất cứ doanh nghiệp nào Trong đó, thương
mại điện tử những năm gan đây phát triển nhanh và mạnh, được đánh giá là ngành
kinh tê trọng diém của nhiêu quôc gia.
Theo WTO, thuật ngữ “Thương mại điện tử” được hiểu là sản xuất, phânphối, tiếp thị, bán hoặc cung cấp hàng hóa và dịch vụ băng phương tiện điện tử
Theo Ủy ban châu Âu, “Thuong mại điện tử có thê được định nghĩa chung
là việc mua bán hàng hóa hoặc dịch vụ, giữa các doanh nghiệp, hộ gia đình, cá
nhân hay tô chức tư nhân, thông qua các giao dịch điện tử được thực hiện quainternet hoặc các mạng máy tính trung gian khác Thuật ngữ này bao gồm việc đặt
hàng hàng hóa và dịch vụ thông qua mạng máy tính, nhưng việc thanh toán và
phân phối hàng hóa hoặc dịch vụ cuối cùng có thể được thực hiện bằng hình thứctrực tuyến hoặc thủ công”
Có rất nhiều các định nghĩa khác nhau về thương mại điện tử nhưng nhìnchung đều giống nhau ở bản chất của hoạt động thương mại điện tử đó là chú trọng
đến việc mua bán trực tuyến trên co sở môi trường Internet thông qua các nền tang
hoặc trang web bán hàng (còn gọi là trang thương mại điện tử).
Thương mại điện tử đem lại nhiều lợi ích cho cả doanh nghiệp, người tiêudùng và xã hội Đối với doanh nghiệp: giúp doanh nghiệp tăng khả năng mở rộngthị trường, giảm chỉ phí tiếp thị, bán hàng và cung ứng, giúp cải thiện hệ thốngphân phối của doanh nghiệp, giảm chi phí thông tin, chi phí quản lý và thời gianxử lý giấy tờ, tăng cường mối liên hệ với khách hàng dễ dàng hơn thông qua việcgiao tiếp thuận tiện trên mạng Internet, Đối với người tiêu dùng: có nhiều lựachọn về sản phẩm, dịch vụ, giảm thiểu thời gian mua hàng và chỉ phí đi lại, tạo cơ
11183817 — Nguyễn Vân Nhi 9
Trang 11Chuyên đề thực tập — Chuyên ngành Toán kinh tế
hội mua được sản phẩm với giá bán thấp hơn, tiếp cận được nhiều thông tin hơn Ngày nay đã xuất hiện nhiều website chuyên cung cấp dịch vụ đánh giá về sảnphẩm và nhà cung cấp, so sánh giá cả giữa các website bán hàng Hơn nữa, ngườitiêu dùng có thể trực tiếp đưa ra các đánh giá của mình về nhiều khía cạnh liên
quan tới giao dịch mua sắm, giúp cho những người khác có nhiều cơ hội chọn lựasản phẩm phù hợp nhất, hoặc chọn được người bán cung cấp dịch vụ tốt nhất, hoặcmua được sản phẩm với giá rẻ nhất Đối với xã hội: kích thích phát triển công nghệ
thông tin góp phần vào sự chuyên dịch và hội nhập kinh tế của đất nước
Về phân loại các hình thức thương mại điện tử hiện nay cũng có khá nhiềucách phân loại Dựa theo sự phân chia thành 2 nhóm nhà sản xuat/nha cung cấp và
người tiêu dùng, khách hàng, thương mại điện tử được phân loại theo 9 hình thức
chính:
o Doanh nghiệp với Doanh nghiệp (B2B)
Doanh nghiệp với Khách hàng (B2C) Doanh nghiệp với Nhân viên (B2E) Doanh nghiệp với Chính phủ (B2G)
Chính phủ với Doanh nghiệp (G2B)
o Thuong mai dién tir truyén théng
o Thương mại điện tự hiện dai
- T-commerce (thương mại truyền hình)
- M-commerce (thương mại di động)
1.1.2 Khái niệm về mỹ phẩm
Trong những năm trở lại đây, nhu cầu sống và điều kiện sống của conngười ngày càng cao, dẫn đến việc ngoài những điều kiện cơ bản như ăn — mặc -ở, con người dan có những thói quen tiêu dùng cao hơn dé chăm sóc và hoàn thiệnbản thân Chính vì vậy, mỹ phẩm đã trở thành một người bạn quen thuộc trong giỏtiêu dùng của rất nhiều người, đặc biệt là đối với phụ nữ Có rất nhiều định nghĩakhác nhau được đặt ra cho loại hàng hóa này Ở đây chuyên đề sẽ nêu ra một vài
khái niệm điển hình như tại Mỹ, Cục Quan lí thực phẩm và dược phẩm (FDA)
kiểm soát mỹ phẩm đã định nghĩa mỹ phẩm là "chat dùng dé bôi thoa vào cơ thé
Trang 12Chuyên đề thực tập — Chuyên ngành Toán kinh tế
người nhằm tây sạch, tô điểm, tăng cường độ thu hút hoặc thay đổi diện mạo màkhông ảnh hưởng đến cấu trúc hoặc chức năng của cơ thể” Định nghĩa rộng nàybao gồm tất cả những chất liệu được sử dụng làm thành phần của một loại mỹ
phẩm (ngoại trừ xà phòng)” Ở Việt Nam, theo Bộ Y tế quy định: “Sản pham mỹphẩm là một chat hay chế phẩm được sử dụng dé tiếp xúc với những bộ phận bênngoài cơ thể con người (da, hệ thống lông tóc, móng tay, móng chân, môi và cơquan sinh dục ngoài) hoặc răng và niêm mạc miệng với mục đích chính là dé làmsạch, làm thơm, thay đôi diện mạo, hình thức, điều chỉnh mùi cơ thể, bảo vệ cơ thé
hoặc giữ cơ thể trong điều kiện tốt
Các loại mỹ phẩm phổ biến bao gồm son môi, phan mắt, phan má, phanphủ, kem nền, sữa rửa mặt và sữa dưỡng thé, sữa tắm và dầu gội hay các sản phamtạo kiểu tóc (gel vuốt tóc, gôm xit tóc, ), nước hoa Mỹ phẩm là sản phẩm chỉ
“ Các bên tiến hành giao dịch trong thương mại điện tử không tiếp xúc trực
tiếp với nhau và không đòi hỏi phải biết nhau từ trước
Trong thương mại truyền thống, các giao dich được tiến hành trực tiếp và
thực hiện chủ yếu theo nguyên tắc vật lý như chuyên tiền, séc hóa đơn, vận đơn,
gửi báo cáo Các phương tiện viễn thông như: fax, telex, chỉ được sử dụng détrao đổi số liệu kinh doanh Việc sử dụng các phương tiện điện tử trong thươngmại truyền thống chỉ để truyền tải thông tin một cách trực tiếp giữa các đối tác
trong cùng một giao dịch, cho phép mọi người tham gia từ các vùng xa xôi hẻo
lánh đến các khu đô thị lớn, tạo điều kiện cho tất cả mọi người ở khắp mọi nơi đều
có cơ hội ngang nhau tham gia vào thị trường giao dịch toàn cầu và không đòi hỏi
nhất thiết phải có mối quan hệ quen biết với nhau.s Các giao dịch thương mại truyền thống được thực hiện với sự ton tại củakhái niệm biên giới quốc gia, còn thương mại điện tử được thực hiện trong một thị
trường không có biên giới (thị trường thống nhất toàn cẩu) Thương mại điện tửtrực tiếp tác động tới môi trường cạnh tranh toàn câu
Việc thương mại điện tử phát triển giúp cho máy tính cá nhân trở thành cửasố cho doanh nghiệp hướng ra ngoài thị trường trên khắp thé giới
Trang 13Chuyên đề thực tập — Chuyên ngành Toán kinh tế
quan chứng thực có nhiệm vụ chuyên đi, lưu giữ các thông tin giữa các bên tham
gia giao dịch thương mại điện tử, đồng thời họ cũng xác nhận độ tin cậy của các
thông tin trong giao dịch thương mại điện tử.
“ Đối với thương mại truyền thong thì mang lưới thông tin chỉ là phươngtiện dé trao đồi dữ liệu”, còn đối với thương mại điện tử thì mạng lưới thông tin
chính là thị trưởng.
Nhiều loại hình kinh doanh mới được hình thành thông qua Thương mạiđiện tử Các trang web phổ biến như Yahoo hay Google đóng một vai trò quantrọng trong việc cung cấp thông tin trên mạng, trở thành “khu chợ khống lồ” trên
Internet Hoạt động thương mại điện tử diễn ra trên hình thức online có nghĩa người
bán muốn bán được sản phẩm của mình thì bắt buộc phải có hệ thống thông tin của
sản phẩm cũng như dịch vụ chăm sóc khách hàng để người mua có thể tiếp cậnđược dịch vụ một cách tốt nhất trước khi quyết định mua chúng
Những đặc điểm trên đây của thương mại điện tử giúp cho các đơn vị cóthể dễ dàng tìm được đối tác tốt hay những sản phâm ưng ý nhất nhờ đặc điểm phikhoảng cách, phi thời gian của nó, điều đó làm tăng khả năng tiếp cận của thịtrường và đặc biệt là khả năng xử lý giao dịch nhanh chóng, tối ưu hóa, đem đếnnhững trải nghiệm người dùng tốt nhất
1.2.2 Thực trạng và xu hướng phát triển của của thương mại điện tử
Dưới sự ảnh hưởng nặng nề của đại dich COVID-19, trong khi nhiều ngànhkinh tế khác khó khăn, chật vật xoay sở thì thương mại điện tử lại có những điểm
sáng và tiếp tục ghi nhận sự tăng trưởng doanh thu ấn tượng Thị trường thương
mại điện tử toàn cầu được dự báo sẽ tiếp tục có những bước tăng trưởng mạnh mẽvề doanh thu trong những năm tới Nhận định này một lần nữa được nhắn mạnhtrong Sách trắng Thương mại điện tử Việt Nam năm 2021 vừa được Cục Thươngmại điện tử và Kinh tế số công bố Theo đó, doanh thu thương mại điện tử B2Ctoàn cầu năm 2020 đạt 4.280 USD Con số này được dự đoán là sẽ tiếp tục tănglên là 4.891 tỷ USD vào năm 2021 và cán mốc 6.388 tỷ USD vào năm 2024 Trung
Trang 14Chuyên đề thực tập — Chuyên ngành Toán kinh tế
Quốc và Hoa Kỳ được kỳ vọng là hai trong số các quốc gia có mức tăng trưởng
doanh thu thương mại điện tử B2C ấn tượng, dự báo sẽ đạt 3.565 tỷ USD và 1.204
tỷ USD vào năm 2024.
Khu vực Đông Nam Á, cũng được đánh giá sẽ có những bứt phá về tăngtrưởng doanh thu và quy mô thị trường Báo cáo kinh tế Internet khu vực ĐôngNam A năm 2020 của Google, Temasek và Bain&Company dự báo đến năm 2025,doanh thu thương mại điện tử khu vực sẽ cán mốc 172 tỷ USD Con số này năm
2020 là 62 tỷ USD và năm 2019 là 38 tỷ USD Một số nước như Indonesia, Thái
Lan và Phillipines được dự báo có mức doanh thu thương mại điện tử tăng trưởng vượt bậc trong những năm tới Năm 2020, mức doanh thu ở Indonesia là 32 tỷ
USD và Thái Lan là 9 tỷ USD nhưng tới năm 2025, con số này sẽ đạt mức 83 tỷ
USD và 24 tỷ USD Cũng theo báo cáo này, dịch bệnh Covid-19 đã tạo cú huých
mạnh tới phát triển thương mại điện tử tại Việt Nam nói riêng Tỷ lệ người muasăm trực tuyến mới trong tổng số người mua săm trực tuyến tại Việt Nam chiếmtỷ lệ cao nhất (khoảng 41%) Tỷ lệ này trung bình ở cả khu vực Đông Nam Á là
khoảng 36%, Indonesia và Phillipines cùng 37%, Malaysia 36%, Singapore và Thái Lan cùng 30%.
Trong tương lai, thương mại điện tử được dự đoán sẽ phát triển mạnh mẽ
nhờ sự hỗ trợ của công nghệ học máy (Machine Learning) với những xu hướng
chính như sau:
“ Nâng cao hiệu qua hoạt động nội bộ
Hoạt động của các cửa hàng thương mại điện tử có thé được thực hiện hiệuquả hơn nhờ học máy Bên cạnh việc quản lý dữ liệu về doanh số bán hàng, chiphí lưu kho, các thuật toán học máy còn giúp dự đoán chính xác các biến động vềcung cau theo thời gian thực Việc chủ động nắm bắt được xu hướng sẽ giúp các
cửa hàng giành ưu thế trước các đối thủ Thêm vào đó, học máy còn giúp xây dựng
các hệ thống phát hiện gian lận trong thương mại điện tử.
s* Xây dựng các chiến dịch tiếp thị phù hợp hon
Một chiến dịch tiếp thị sẽ là tốt nếu nó có thé tiếp cận được với những đối
tượng khách hàng phù hợp nhất với chiến dịch Nói cách khách đây chính là bàitoán tìm kiếm khách hàng tiềm năng Trong thời đại dữ liệu như hiện nay, các cửahàng thương mại điện tử có quyền truy cập được lượng thông tin lớn hơn bao giờhết Từ các mẫu thu thập được như những sản phẩm mà khách hang thể hiện quan
tâm hoặc lượt truy cập của khách hàng với trang web, các thuật toán học máy thực
hiện việc phân khúc khách hàng một cách chính xác Có thé là phân loại khách
Trang 15Chuyên đề thực tập — Chuyên ngành Toán kinh tế
hàng tiềm năng dựa theo sở thích của họ, từ đó giúp đề xuất xây dựng những chiếndịch tiếp thị phù hợp cho từng nhóm khách hàng
s* Cải thiện dich vụ khách hàng
Với thương mại điện tử, việc giao dịch được thực hiện bat kê không gian và
thời gian Do đó, việc cung cấp các hỗ trợ đa kênh hoạt động 24/7 cho khách hànglà rất cần thiết Không cần phải thuê thêm một lực lượng lao động dé xây dựng
thực hiện công việc hỗ trợ này, các thuật toán học máy cho phép cải thiện dịch vụ
khách hàng thông qua Chatbots Đây là hướng tiếp cận đang được rất nhiều websitethực hiện khi nó giúp giải quyết các truy van phô biến và hướng khách hàng đếncác sản phẩm cụ thê giống như một người trợ lý ảo Các phản hồi cũng được thuthập và dùng dé điều chỉnh nâng cấp hệ thống trong tương lai, giúp các thông tinđem tới cho khách hàng là tốt nhất
s* Tăng cường chuyển đổi
Ty lệ chuyên đổi từ những khách hàng truyền thống thành những người muasắm trực tuyến là vấn đề mà bất kỳ trang web thương mại điện tử nào cũng đềuquan tâm Các kỹ thuật học máy hiện nay giúp gia tăng tỷ lệ này bằng cách cảithiện các công cụ tìm kiếm tại chỗ và các dé xuất sản phẩm Thông qua xử lý ngônngữ tự nhiên, hệ thống có thé hiểu được những gì khách hàng nhập trên thanh tim
kiếm Sau đó, nó sử dụng những gi đã được huấn luyện từ trước dé hiển thị những
gì mà khách hàng thực sự muốn tìm kiếm, ngay cả khi họ không nhập tên của một
sản phâm cụ thé hoặc một mô tả chính xác Các đề xuất sản phâm được hỗ trợ bởi
công nghệ học máy cũng thông minh hơn khi nó có thể phân tích hành vi của khách
hàng từ dữ liệu truy cập website thương mại điện tử của họ và giới thiệu những
sản phẩm tương tự với thứ mà họ thé hiện sự quan tâm trước đây Đây chính là bàitoán gợi ý bán chéo sản phẩm mà nội dung chuyên dé này hướng tới
1.2.3 Đặc điểm của hàng hóa mỹ phẩm
Đối với mặt hàng này, người tiêu dùng rat khó có thê kiểm nghiệm được
chất lượng của chúng một cách chính xác trước khi đưa ra quyết định tiêu dùng,
bởi lẽ mặt hàng mỹ phẩm không giống như những mặt hàng thông thường có thékiểm chứng bằng cách sờ nắm như vải vóc, quan áo, mà chỉ có thé thấy được
công dụng qua một thời gian dài sử dụng Tuy nhiên một mặt hàng được sử dụng
trực tiếp trên da hoặc thông qua đường uống và được tạo ra từ rất nhiều chất hoáhọc như mỹ phẩm thì nếu sử dụng hàng không chất lượng sau một thời gian dài sẽ
dẫn đến những ảnh hưởng về sức khoẻ và nhan sắc Do đó, đánh giá của nhữngkhách hàng trước đó được coi là yếu tố quan trọng để người tiêu dùng lựa chọn
Trang 16Chuyên đề thực tập — Chuyên ngành Toán kinh tế
mua một sản phẩm mỹ phẩm Ngoài ra, một số những đặc điểm về mỹ phẩm cầnđược nắm rõ như sau:
Thành phần của mỹ phẩmLà sự kết hợp từ các hợp chất hữu cơ và hợp chất vô cơ để tạo nên nhữngphản ứng như làm trắng da, tạo màu, dưỡng ầm, Hợp chất hữu cơ được sử dụngđiển hình là dầu và mỡ tự nhiên đã tinh chế cũng như một loại tác nhân có sốc hóadầu Hợp chất vô cơ là những khoáng chất đã qua xử lý như oxit sắt, oxit kẽm vàtalc Trong đó, oxit kẽm và oxit sắt được phân vào những hợp chat sắc tố, tức là
chất tạo màu không khả năng hòa tan trong dung môi
Tiêu chí phân loại mỹ pham
Dựa vào tính năng và mục đích sử dụng cũng như thành phần, công thứcvà cách thức sử dụng của sản phẩm và định nghĩa về my phâm.” Thông thường mỹphẩm được chia làm ba loại:
> Mỹ phẩm dùng ngoài da: các sản phẩm trang điểm bên ngoài (như sảnphẩm make up, gel son móng, sáp vuốt tóc, ) Các sản phẩm này chỉ tác độnglên bề mặt bên và ít đi sâu vảo sinh lí da
> My phẩm dự phòng là những loại mỹ phẩm giúp chăm sóc da, dưỡng da
làm chậm lại các biến đổi sinh lý của da (lão hóa, khô da) và bảo vệ da khỏi sự
xâm hại của các tác nhân bên ngoài (ô nhiễm, tia UV, chất kích ứng).> Các sản phẩm chữa trị là những sản pham được dùng khi người ta đã thatbại trong việc dự phòng và đối mặt với các tổn thương về da và sinh lí bên trong
Khi đó, người ta phải chăm sóc và khắc phục chúng bằng các sản phâm như làmcăng, làm âm, phục hôi, giảm béo, chống rụng tóc,
Ngoài ra mỹ phâm còn có thê được phân loại theo các bộ phận mà nó cho
tác dụng như sau:
> Những san phẩm dành cho mặt gồm: sữa rửa mặt, phan phủ, son, serum,
toner, các sản phâm tri mụn, nam,
> Những san phâm dành cho co thé như: lăn khử mii, sữa tắm, sữa dưỡng
thể, nước hoa,
> Những san phẩm dành cho móng: gel sơn móng, dung dich rửa tay khô,
nước rửa tay,
> Những sản phẩm dành cho trẻ so sinh: dau tắm, phẩm rom, > Những sản phẩm dành cho tóc: dau gội, dau xả, gel xịt tóc, gel dưỡng
tóc,
Trang 17Chuyên đề thực tập — Chuyên ngành Toán kinh tế
Dựa trên đặc tính của mỹ phẩm là tạo ra những ảnh hưởng/hiệu quả không
mang tính vĩnh viễn và cần phải sử dụng thưởng xuyên để duy trì hiệu quả; các sảnphẩm điều chỉnh vĩnh viễn, phục hồi hoặc làm thay đổi chức năng cơ thé bằng cơchế miễn dịch, trao đổi chất hoặc cơ chế dược lý không được phân loại là mỹphẩm
> Sản pham dùng đường uống, tiêm hoặc tiếp xúc với những phan khác cothê thì không được phân loại vào mỹ phẩm
> Một số cụm từ thường không được chap nhận trong việc công bồ tinh năng
mỹ phẩm theo từng loại sản phẩm:
7 Các từ mang ý nghĩa cua việc chữa khỏi vĩnh viễn như “trị”, “điều trị”,
“chữa trị”, không được chấp nhận trong việc công bồ tính năng cũng nhuđặt tên sản phẩm mỹ phẩm
“ _ Những sản phâm có mục đích sử dụng như khử trùng, khử khuẩn, kháng
khuẩn chỉ được chấp nhận là phù hợp với tính năng của mỹ phâm nếu đượccông bồ là công dụng thứ hai của sản phẩm
Xu hướng mỹ phẩm trên thị trường hiện nay được chia làm hai loại chính:> Đầu tiên là duoc mỹ phẩm: La su kết hợp dan xen giữa mỹ phẩm(Cosmetics) và dược mỹ phẩm (Pharmaceuticals), vừa có tác dụng làm đẹp, chăm
sóc da vừa có tác dụng như thuốc điều trị đối với làn da Hiện nay Dược mỹ phẩmđang được biết đến và sử dụng rộng rãi trong nhiều ngành hàng mỹ phẩm, đặc biệt
là mỹ phẩm spa.> Thứ hai là hóa my phẩm: La một dang my phẩm được sử dung chăm sóc dahàng ngày, trong đó thường được chế tạo từ các hoạt chất tạo mùi hương thơm,
dưỡng da khỏe, đẹp Thanh phan cấu tao chủ yếu của hóa mỹ phẩm thường đượclàm từ các nguyên liệu dưới dạng sáp, bột, dầu, chất long, và một sé dang
nguyên liệu khác giúp tao hương thom và màu sắc Công dung của hóa mỹ phẩm
trong chăm sóc và làm đẹp chủ yếu là: Làm sạch, làm trăng da, dưỡng da, bảo vệ
da chống nứt nẻ, tạo độ âm cần thiết cho da, ngăn vừa rụng tóc, làm mượt tóc,
Hóa mỹ phâm thường có ở kem đánh răng, nước hoa, son môi, thuốc nhuộm tóc,bút kẻ mat,
1.3 Cơ sở lý luận
1.3.1 Giới thiệu về hệ thống gợi ý
Hệ thống gợi ý là một mảng khá rộng của Machine Learning, xuất hiện sauphân loại và hồi quy vì Internet mới chỉ thực sự bùng nỗ khoảng 10-15 năm gần
Trang 18Chuyên đề thực tập — Chuyên ngành Toán kinh tế
đây Mục đích chính của các hệ thống gợi ý là dự đoán mức độ quan tâm của mộtuser tới một item nào đó, qua đó có xây dựng các chiến lược gợi ý phù hợp
Hệ thống gợi ý là một hệ thống sử dụng các kỹ thuật và công cụ phần mềmdé xử lý dữ liệu người dùng và dữ liệu sản phẩm nhằm đáp ứng nhu cầu của người
dùng về sản phẩm hoặc dịch vụ Dựa trên thông tin về hành vi của người dùngtrong quá khứ, hệ thống trích xuất thông tin về sở thích và thị hiểu của người tiêudùng, từ đó đưa ra các gợi ý hỗ trợ người dùng đưa ra quyết định trong việc lựa
chọn sản phẩm, dịch vụ phù hợp với sở thích của mình
Có hai thực thé chính trong các hệ thống gợi ý là người dùng và sản phẩm
Mỗi người dùng có mức quan tâm tới từng sản phẩm là khác nhau Sản phẩm làthuật ngữ chung đề chỉ những gì người dùng có tương tác trong hệ thông gợi ý Đócó thê là sách, phim, truyện, tin tức Thông thường hệ thống gợi ý sẽ được xâydựng phù hợp với một loại hình sản phẩm nhất định dé đảm bảo hiệu quả gợi ý chosản pham đó
1.3.2 Vai trò của hệ thống gợi ý
Đối với nhà cung cấp/nhà sản xuấts Tăng số lượng các sản phẩm bán ra cho các hệ thong thương mại điện tử
Đây có lẽ là chức năng quan trọng nhất của hệ thống gợi ý Thay vì người
dùng chỉ mua một sản phẩm mà họ cần, họ được gợi ý mua những sản phẩm cóthể họ cũng quan tâm mà bản thân họ không nhận ra Hệ thống gợi ý tìm ra nhữngmối quan tâm ân Bang cách đó, hệ thống gợi ý làm gia tăng nhu cầu của ngườidùng và gia tăng số lượng sản phẩm bán ra Tương tự đối với các hệ thống phi
thương mại, hệ thống gợi ý sẽ giúp người dùng tiếp cận với nhiều đối tượngthông tin mang tính đa chiều và được nhiều người quan tâm hơn
s Bán các sản phẩm da dạng hơn trên các hệ thong thương mại điện tử
Đây là chức năng quan trọng thứ hai của hệ thống gợi ý Hầu hết các hệthong thương mại đều có các sản phẩm hết sức là đa dang và phong phú Khi nam
bắt được nhu cầu của người dùng, hệ thống gợi ý dễ dàng mang đến sự đa dạngtrong sự lựa chọn hàng hóa Từ đó đòi hỏi các hệ thống thương mại điện tử cung
cấp nhiều sản phâm đa dạng và phù hợp với người dùng hơn
s Tăng sự hài lòng người dùng
Vai trò chủ đạo của hệ thống gợi ý là hiểu nhu cầu của người dùng, gợi ýcho họ những thứ họ cần Người dùng sẽ tìm thấy các gợi ý thú vị, có hiệu quả,chính xác, gợi ý kip thời và một giao diện đẹp có thể tối ưu việc sử dụng và làmtăng sự hài lòng của người dùng trong hệ thống Chính vì vậy hệ thống gợi ý tăng
Trang 19Chuyên đề thực tập — Chuyên ngành Toán kinh tế
sự hài lòng của người dùng trên hệ thống và lựa chọn ưu tiên khi họ có những băn
khoăn hoặc khi chưa có kiến thức về sản phẩm
s Tăng độ tin cậy, độ trung thực của người dùng
Một khi hệ thống gợi ý cho người dùng những lựa chọn và họ hài lòng vềnhững gợi ý đó thì lòng tin của họ đối với hệ thống (nơi mà giúp họ tìm ra những
thứ họ thực sự quan tâm) được nâng lên một cach dang kê Đây thật sự là một điều
thích thú và thu hút người dùng Có một điểm quan trọng là hệ thống gợi ý hoạtđộng dựa trên những xếp hạng thật từ chính bản thân người dùng trong quá khứ
Do đó, khi người dùng càng tin cậy vào hệ thống, đưa ra những đánh giá trung
thực cho các sản pham, hệ thống sẽ mang lại cho người dùng nhiều gợi ý chínhxác hơn, phù hợp với nhu cầu, sở thích của họ
“ Hiểu rõ những gì người dùng muốn
Đây là một chức năng quan trọng khác của hệ thống gợi ý được thừa kế từnhiều ứng dụng khác nhau là thu thập hoặc dự đoán sở thích người dùng thông quahệ thống Điều này giúp cho các nhà phát triển dịch vụ có thể quyết định tái sử
dụng các item theo mục tiêu cải thiện quản lý cửa hàng hoặc tiễn hành sản xuất
Đối với người dùng:& Tìm ra một số sản phẩm tốt nhất
Hệ thống gợi ý tới người ding một số sản phẩm được xếp hạng và dự đoán
số người dùng khác thích chúng Đây là chức năng chính mà nhiều hệ thống thương
mại điện tử sử dụng
“ Tìm ra tat cả sản phẩm tot
Gợi ý tat cả sản phâm mà có thé làm hài lòng nhu cầu của khách hàng Trongnhiều trường hợp không đủ thông tin để đưa ra các sản phâm tốt nhất Điều nàychỉ đúng khi số lượng sản pham liên quan tương đối nhỏ hoặc khi hệ gợi ý là chứcnăng quan trọng trong ứng dụng tài chính và y tế
s Chỉ duyệt tìm
Trang 20Chuyên đề thực tập — Chuyên ngành Toán kinh tế
Trong tác vụ này, người dùng duyệt các danh mục mà không có ý định mua
sản phẩm nào, tác vụ này đưa ra gợi ý giúp người dùng duyệt tìm các sản phẩm có
nhiều khả năng thuộc vào phạm vi sở thích của người dùng với phiên truy cập xác
định Đây là tác vụ được hỗ trợ bởi các kỹ thuật đa phương tiện.
s Tìm kiếm các gợi ÿ tin trởng
Một số người dùng không tin tưởng vào các hệ thông gợi ý, họ tham gia vàohệ thống đề thấy được các hệ thống này đưa ra gợi ý tốt tới mức nào Do đó, một
số hệ thống có thé đưa ra các chức năng chính xác dé cho phép họ thử nghiệm hànhvi của họ, ngoài các yêu cầu gợi ý
“ Cai thiện hỗ sơ cá nhân người dùng
Người dùng có khả năng cung cấp thông tin, những gì họ thích, không thíchvới hệ thong gợi ý Điều này là hết sức cần thiết dé đưa ra các gợi ý mang tính chấtcá nhân hóa Nếu như hệ thống không xác định tri thức về người dùng đang hoạtđộng thì nó chỉ có thé đưa ra các gợi ý giống nhau
s Bày tỏ ý kiến của mình
Một số người dùng có thé không quan tâm tới các gợi ý, đúng hơn, nhữnggi quan trọng với họ là được góp ý kiến, đánh giá về sản phẩm, giúp ích người
khác khi lựa chọn sản phẩm này.
s Tác động tới những người dùng khác
Trong hệ thống gợi ý trên web, có nhiều người tham gia với mục tiêu của
họ là tác động tới hệ thống gợi ý, dẫn tới ảnh hưởng tới người dùng khác khi mua
một sản pham cụ thé (thông qua đánh giá sản pham, ) Tác động của họ có thêthúc đây hoặc gây bat lợi cho sản phẩm
1.3.3 Phương thức hoạt động
Trong thực tế, khi người tiêu dùng thực hiện hành vi mua hàng, việc ra quyết
định của họ thường được đưa ra theo hai cách tiếp cận chính: Một là xem xét những
thông tin chỉ tiết về sản phâm như tinh năng, công dụng, thành phan, tùy thuộc
vào mức độ phù hợp với nhu cầu sử dụng dé đưa ra quyết định Hai là người dùngcó thể tham khảo ý kiến của những người xung quanh về mức độ hài lòng đối với
sản phẩm dé đưa ra quyết định mua sắm của mình Xuất phát từ quan sát nêu trên,hệ thống gợi ý mô phỏng lại quá trình ra quyết định của người dùng theo một số
cách tiếp cận như: hệ gợi ý đơn giản, hệ gợi ý dựa trên lọc nội dung, hệ gợi ý dựatrên lọc cộng tác, hệ gợi ý lai ghép Trong đó, hai hướng phổ biến nhất hiện nay là
lọc theo nội dung và lọc theo cộng tác.
Trang 21Chuyên đề thực tập — Chuyên ngành Toán kinh tế
1.3.3.1 Hệ gợi ý đơn giản
Là hệ thống giúp đưa ra các đề xuất tông quát cho mọi người dùng, dựa trênmức độ phô biến và/hoặc thé loại sản phẩm Một ví dụ nổi bật của hệ gợi ý này là
IMDB Top 250 với ý tưởng cơ bản là những bộ phim nỗi tiếng hơn và được giớiphê bình đánh giá cao hơn sẽ có xác suất được khán giả bình thường thích cao hơn.Nhược điểm của hệ thống kiểu này là không mang tính cá nhân hóa khi mà mọikhách hàng đều nhận được những dé xuất giống hệt nhau
1.3.3.2 Hệ gợi ý dựa trên lọc nội dung (Content-based Filtering)
Là mô hình gợi ý thực hiện dựa trên việc so sánh nội dung thông tin mô tả
sản phẩm, nhằm tim ra các sản phẩm tương tự với những sản phâm mà người dùngđã từng quan tâm dé giới thiệu cho họ những sản phẩm này Ví dụ, trong hệ gợi ýphim, hệ thống sẽ tìm ra các đặc tính chung của các phim như diễn viên, đạo diễn,thể loại mà người đã đánh giá cao trong quá khứ dé giới thiệu các phim có đặc tinhtương tự mà người dùng chưa xem “Các phương pháp tiếp cận cho mô hình hợi ýdựa trên lọc nội dung có nguồn gốc từ lĩnh vực truy van thông tin, trong đó mỗisản phâm được biểu diễn bằng một hồ sơ sản phẩm, mỗi người dùng được biểudiễn bằng một hồ sơ người dùng Các phương pháp dự đoán của mô hình này thựchiện dựa vào việc xem xét các hồ sơ sản phẩm có mức độ phù hợp cao với hồ sơ
người dùng.”
Phương pháp gợi ý này có một số điểm mạnh như:
“ss Một là, hệ thống không yêu cầu cần có quá nhiều dữ liệu từ những ngườidùng khác đề đạt được độ chính xác của các gợi ý Đối với phương pháp lọc dựa
trên cộng tác hệ gợi ý cần phải phân tích toàn bộ dữ liệu tương tác dé tìm ra cácquy luật (là những sản phẩm được người dùng ưa thích) thì mới có thé đưa ra gợiý, tuy nhiên với phương pháp lọc dựa trên nội dung thì hệ thống chỉ dựa trên thông
tin nội dung sản phẩm và dit liệu tương tác của từng người dùng cụ thé dé đưa ra gợi ý.
“ Hai là, có thé đưa ra gợi ý về các sản phẩm mới dựa trên thông tin mô tảcó săn mà không cần phải có dit liệu tương tác từ người dùng Điều này xuất pháttừ cơ chế hoạt động của lọc nội dung dựa trên phân tích về nội dung cấu tạo nên
sản phâm dé đưa ra gợi ý, do đó khi một sản phẩm mới xuất hiện trong hệ thốngthì chi cần nội dung của sản pham này “tương tự” với những sản phâm trước đó đãđược người dùng ưa thích sẽ được hệ thống gợi ý cho người dùng
& Balà, trong trường hợp người dùng có những sở thích đặc thù dựa trên nội
dung của sản phẩm nhưng những sản phẩm này lai không phổ biến trong dữ liệu
11183817 — Nguyễn Vân Nhi 20
Trang 22Chuyên đề thực tập — Chuyên ngành Toán kinh tế
ma trận tương tác thì hệ thống vẫn có khả năng khám phá được nhờ thông tin nội
dung.
Tuy nhiên, phương pháp này còn chứa một vài những nhược điểm sau:
om“ Quá tập trung chuyên ngành - hệ thống chỉ gợi ý được các sản phẩm có
các đặc tính đúng với profile của từng người dùng mà không tận dụng được thông tin từ những người dùng khác có sở thích tương tự Ví dụ, một độc giả quan tâm
đến các bài báo thuộc lĩnh vực kinh tế sẽ rất khó nhận được giới thiệu các bài báothuộc lĩnh vực thể thao hoặc công nghệ
% Vẫn đề trích chọn đặc trưng - hệ gợi ý dựa trên lọc nội dung kế thừa và pháttriển chủ yếu dựa vào các phương pháp trích chọn đặc trưng trong lĩnh vực truyvẫn thông tin ĐỀ có một tập các đặc trưng đầy đủ, các thuộc tính sản phẩm và hồsơ người dùng phải được biểu diễn dưới dạng phù hợp dé máy tính có thé tự độngphân tích, tính toán trọng số các đặc trưng nội dung Vấn đề này sẽ càng khó khăn
hơn khi phải trích chọn các đặc trưng nội dung cho các đối tượng dữ liệu đa phương
tiện như hình ảnh, âm thanh hay dịch vụ 1.3.3.3 Hệ gợi ý dựa trên lọc cộng tac (Collaborative Filtering)
La một kỹ thuật đã được ứng dụng thành công trong nhiều ứng dụng thươngmại điện tử như Amazon, Netflix “Nó là một trong những giải pháp hiệu qua dégiải quyết van đề bùng né thông tin cho các hệ thống trực tuyến nơi mà số lượngngười dùng tăng lên rất nhanh Hệ gợi ý dựa trên lọc cộng tác giới thiệu các sảnphẩm cho người dùng cụ thé dựa trên sự tương đồng của các sản phâm đã đượcxếp hang bởi các người dùng khác Hệ thống tim các sản phâm cho các người dùngkhác mà họ có cùng sở thích với người dùng cần gợi ý Ví dụ, trong hệ thống lọccộng tác giới thiệu phim cho người dùng, hệ thống tìm nhóm người dùng trong quákhứ có cùng sở thích với người dùng cần gợi ý Sau đó, hệ thống giới thiệu các
phim được đánh giá cao bởi nhóm người dùng này cho người dùng cần gợi ý.” Hệ
tư vẫn dựa trên lọc cộng tác được phân chia thành hai nhóm:
(1) | Nhóm dựa trên bộ nhớ:
Các hệ gợi ý thuộc nhóm này sử dụng toàn bộ các sản phẩm được xếp hạng
dé sinh ra kết quả gợi ý hoặc dự đoán Hai cách tiếp cận phô biến nhất của nhóm
này là Lọc cộng tác vùng lân cận dựa trên người dùng và Lọc cộng tác vùng
lân cận dựa trên sản phẩm Nhìn chung, ưu điểm của phương pháp lọc cộng tác
dựa trên bộ nhớ là thuật toán tường minh, dễ học hiểu tuy nhiên còn tồn tại một số
hạn chê:
Trang 23Chuyên đề thực tập — Chuyên ngành Toán kinh tế
*
% Vấn đề khởi động nguội (Cold-start Problem) - khiến thuật toán gợi ý dựatrên bộ nhớ hoạt động không hiệu quả do xuất hiện người dùng hoặc sản phẩm mớichưa có tương tác nảo vé người dùng mới, giống như hệ gợi ý dựa trên lọc nộidung, để tìm chính xác các sản phẩm người dùng quan tâm, hệ gợi ý dựa trên lọc
cộng tác phải ước lượng được sở thích của người dùng đối với các sản phâm mới
thông qua những đánh giá của họ trong quá khứ Trong trường hợp một người dùng
mới, chưa có bất cứ đánh giá nào cho các sản phâm, khi đó hệ thống không thểđưa ra những kết quả gợi ý chính xác cho người dùng này Về sản phẩm mới, đốivới các hệ gợi ý dùng trong thương mại điện tử, các sản phẩm thường xuyên đượcbồ sung mới Một sản phẩm mới sẽ không có bat cứ đánh giá nào của người dùngcho sản phẩm này Do đó, hệ thống không thê gợi ý sản phẩm này cho bắt kỳ người
dùng nào.
oo Bản chat của thuật toán là mô hình dự đoán chỉ áp dụng cho từng ngườidùng cụ thé, mỗi khi cần dự đoán cho một người dùng khác hệ thống sẽ phải xây
dựng lại mô hình từ dữ liệu ban đầu Trong trường hợp hệ thống chứa nhiều dữ
liệu người dùng và đối tượng (cỡ vài chục triệu bản ghi trở lên) thì chi phí thờigian tính toán là rất lớn
“ Van đề dữ liệu thưa (Sparsity Data Problem) - kết qua dự đoán của hệ gợi
ý dựa trên lọc cộng tác phụ thuộc chủ yếu vào các đánh giá của người dùng đối vớicác sản phẩm trong quá khứ (ma trận xếp hạng của người dùng cho các sản phẩm).Tuy nhiên, trong các hệ thống thực tế, số lượng người dùng và số lượng sản phẩm
là rất lớn (hàng triệu người dùng và hàng nghìn sản phẩm), nhưng mỗi người dùngchỉ đánh giá trên một số sản phẩm mà họ quan tâm và mỗi sản phẩm chỉ được đánhgiá bởi một nhóm người dùng Vì thế ma trận xếp hạng của người dùng cho cácsản phẩm luôn là một ma trận dữ liệu thưa
(2) Nhóm dựa trên mô hình:
Phương pháp lọc cộng tác dựa trên mô hình thực hiện tính toán trước các
mô hình dự đoán bằng các thuật toán khai phá dữ liệu/học máy sau đó sử dụng môhình này để tính toán trực tiếp giá trị xếp hạng của người dùng
Dựa trên các kỹ thuật học máy tiên tiến, phương pháp lọc cộng tác dựa trênmô hình đạt được độ chính xác tương đương nhưng lại cải thiện được đáng kếnhững hạn chế của phương pháp lọc cộng tác dựa trên bộ nhớ Trong khi đóphương pháp dựa trên bộ nhớ yêu cầu lưu trữ toàn bộ ma trận tương tác vào bộnhớ máy tinh dé thực hiện tính toán lại kết quả gợi ý cho từng người dùng thì kích
thước của các mô hình thu được từ nhóm phương pháp dựa trên mô hình sau quá
11183817 — Nguyễn Vân Nhi 22
Trang 24Chuyên đề thực tập — Chuyên ngành Toán kinh tế
trình huấn luyện là rất nhỏ so với kích thước của dit liệu gốc Điều giúp tiết kiệm
không gian lưu trữ của bộ nhớ máy tính Ngoài ra, tốc độ tính toán ra kết quả tính
toán nhìn chung được rút ngắn hơn khá nhiều so với phương pháp dựa trên bộ nhớ.Nguyên nhân cũng xuất phát từ kích thước mô hình sau khi huấn luyện là tươngđối nhỏ, do đó thời gian cần thiết để truy vấn mô hình cũng ít hơn nhiều so vớiviệc truy vấn lại toàn bộ dữ liệu huấn luyện Bên cạnh đó, phương pháp này còngiải quyết tốt van đề khi gặp hiện tượng dữ liệu thưa
Một số cách tiếp cận tiêu biểu thuộc lớp các phương pháp lọc cộng tác dựa
trên mô hình là:
%% Luật kết hop (Associate rules): Các thuật toán khai phá luật kết hợp trích
xuất các quy tắc dự đoán sự xuất hiện của một mặt hàng dựa trên sự hiện diện của
các mặt hàng khác trong một giao dịch Ví dụ, với một tập hợp các giao dịch, trong
đó mỗi giao dịch là một tập hợp các mục, quy tắc kết hợp áp dụng dang A —› B,
trong đó A và B là hai tập hợp các mục Thuật toán khai phá luật kết hợp có thểtạo ra mô hình sở thích của người dùng nhỏ hơn rất nhiều so với dữ liệu gốc giúpcải thiện hiệu quả lưu trữ cũng như hiệu suất Mặc dù các thuật toán khai phá luậtkết hợp đã chứng minh được hiệu quả trong lĩnh vực khai phá dữ liệu và hỗ trợ cánhân hóa quá trình ra quyết định của người dùng tuy nhiên hiện nay hướng đi này
vẫn chưa trở thành hướng nghiên cứu chủ đạo đối với hệ thống gợi ý
% Phân cum (Clustering): Các kỹ thuật phân cụm đã được áp dung trong các
lĩnh vực khác nhau như nhận dạng mẫu, xử lý ảnh, phân tích dữ liệu thống kê và
khám phá tri thức Thuật toán phân cụm cô gắng phân vùng một tập hợp dữ liệu
thành một tập hợp các cụm con đề khám phá các cụm/nhóm có ý nghĩa tồn tại bên
trong chúng Một phương pháp phân cụm tốt sẽ tạo ra các cụm chất lượng cao,
trong đó độ tương tự trong cụm là cao, trong khi độ tương tự giữa các cụm là thấp
Khi các nhóm đã được hình thành, giá trị xếp hạng trung bình của những ngườidùng thuộc cùng một nhóm sử dụng dé áp dụng cho người dùng cá nhân Trongtình huống người dùng có thê thuộc vào nhiều cụm khác nhau, gợi ý được đưa ra
dựa trên mức trung bình trên các theo mức độ tham gia của người dùng đó vào các
cụm Thuật toán Kmeans và thuật toán sơ đồ tự tổ chức (Self Organized Map —SOM) là 2 phương pháp được sử dụng phổ biến nhất trong số các phương pháp
phân cụm K-means nhận một tham số đầu vào, và sau đó phân vùng một tập hợp
n mục thành K cụm SOM là một phương pháp học tập không giám sát, dựa trên
kỹ thuật phan cụm noron nhân tạo Kỹ thuật phân cụm có thé được sử dụng dé
giảm sô lượng cum ứng viên trong các thuật toán dựa trên cộng tác.
11183817 — Nguyễn Vân Nhi 23
Trang 25Chuyên đề thực tập — Chuyên ngành Toán kinh tế
“se Cây quyết định (Decision tree): Thuật toán cây quyết định xây dựng biểuđồ suy luận dạng cây được xây dựng bang cách phân tích một tập hợp các ví dụ
huấn luyện được đánh nhãn Sau đó, chúng được áp dụng dé phân loại các ví dumới (chưa xuất hiện) Nếu được huấn luyện bằng dữ liệu đủ tốt, thuật toán câyquyết định có khả năng đưa ra những dự đoán rất chính xác Ưu điểm là thuật toáncây quyết định dé hiểu hơn so với các thuật toán phân lớp khác như Support VectorMachine và ANN vì chúng kết hợp các câu hỏi đơn giản về dữ liệu theo cách dễhiểu Bên cạnh đó Cây quyết định cũng có khả năng xử lý tốt trường hợp các đối
tượng có các đặc tính hỗn hợp (bao gồm cả các trường thông tin dạng số thực và
trường thông tin dạng phân loại) và trường hợp đối tượng có đặc tính bị khuyết giá
tri.
“ Mang noron nhân tao (Artificial Neural Network — ANN): Mang noron là
một cấu trúc bao gồm nhiều nút noron kết ni lẫn nhau và được sắp xếp lại theocau trúc xếp lớp Các kết nỗi giữa các nút được gan trọng số tương ứng với độ ảnhhưởng của nút đó lên các nút xung quanh Mạng noron có khả năng xấp xỉ các hàmphi tuyến có khả năng mô phỏng được mỗi liên hệ phức tạp ẩn trong dit liệu Nhượcđiểm của mạng noron là hiệu năng phụ thuộc nhiều vào cấu trúc của mạng noronvà việc tìm ra cau trúc mạng tối ưu là rất khó khăn
“ Hồi quy (Regression): Là kỹ thuật được áp dụng rộng rãi dé nghiên cứu mốiquan hệ giữa biến phụ thuộc và các biến giải thích Một số kỹ thuật hồi quy thườnggap như nội suy đường cong (Curve fitting), dự đoán, kiểm định giả thuyết thống
kê, Trong đó kỹ thuật nội suy đường cong có thé hữu ích trong việc nhận diệncác xu hướng an trong tap dữ liệu (Vi du: Tuyén tinh, parabolic, )
s Mô hình nhân to tiém ẩn (Latent Factor Models): Là kỹ thuật biến đổi cảngười dùng và sản phâm vào cùng một không gian đặc trưng tiềm ân, được đánhgiá là một trong những mô hình thành công và phô biến nhất trong các hệ thống
gợi ý hiện nay Các nhân tổ ân thường là các thông tin mô tả về cả người dùng vàsản phẩm (một loại metadata) Ví dụ với mặt hàng mỹ phẩm, các nhân té ân có thé
là chủng loại, màu sắc, hãng sản xuất của sản phẩm.
1.3.3.4 Hệ gợi ý lai ghép (Hybrid Recommendation)
Các hệ thống kết hợp kết quả gợi ý từ các phương pháp theo một cách nàođó đang là một đề tài được nhiều nhà khoa học hướng đến “Cụ thê một số phương
pháp lai ghép đã được nghiên cứu như sau:
& Lai ghép theo trọng số (Weighted): Hệ thong RS sử dụng giá trị xếp hangtừ thuật toán lọc theo nội dung và giá tri xếp hạng từ thuật toán lọc cộng tác đề kết
11183817 — Nguyễn Vân Nhi 24
Trang 26Chuyên đề thực tập — Chuyên ngành Toán kinh tế
hợp lại thành một giá trị xếp hạng duy nhất bang cách tính tong theo trọng số đối
với từng phương pháp Claypool và cộng sự trong đã xây dựng hệ thống gợi ý tintức P-tango bao gồm 02 bộ phận gợi ý dựa trên nội dung và gợi ý dựa trên cộng
tác Ban đầu kết quả gợi ý đưa ra bởi từng bộ gợi ý được gán trọng số bằng nhau,tuy nhiên trọng số sẽ được điều chỉnh theo kết quả gợi ý của bộ phận nào đưa ra là
chính xác hoặc không chính xác Ưu điểm của phương pháp gợi ý lai ghép theotrọng số là tính tường minh của kết quả gợi ý
s Lai ghép bang cách chuyển đổi (Switching): Hệ thông RS tự động chuyênđổi qua lại giữa các phương pháp gợi ý tùy thuộc vào tình huống cụ thé Một ví dụ
là hệ thống DailyLearner gợi ý tin tức cho người dùng chuyền đổi giữa hai mô hình
NearestNeighbor (short-term model) và mô hình Naive Bayesian Classifier
(long-term model) dé dự đoán sở thích về tin tức của người dùng trong ngắn hạn và dai
hạn tùy thuộc vào mô hình nào đem lại kết quả dự đoán có độ tin cậy cao hơn.
s Lai ghép hỗn hợp (Mixed): Đối với bài toán gợi ý danh sách sản phẩm chongười dùng, hệ thống RS có thể tạo ra một danh sách gợi ý từ kết quả của nhiềuthuật toán khác nhau Lai ghép bang cách kết hợp nhiều đặc tính (Featurecombination): Các đặc tính trích xuất từ nhiều nguồn dữ liệu khác nhau được đưavào một thuật toán gợi ý duy nhất đưa ra kết quả Ví dụ hệ thống Pipper sử dụnggiá trị xếp hạng (ratings) như là một đặc tính đầu vào của thuật toán gợi ý dựa trên
nội dung.
s Lai ghép bằng việc xếp tang (Cascaded): Hé thống RS sử dụng một thuật
toán gợi ý đề điều chỉnh kết quả tư vấn được sinh ra bởi một thuật toán khác Nhờnguyên lý sàng lọc kết quả này mà hệ thống RS lai xếp tầng có khả năng chốngnhiễu (tolerant to noise) khá tốt Ví dụ hệ thống gợi ý nhà hàng Entree Chicagodựa trên hệ gợi ý tri thức (knowledge-based RS) FindMe đề hiệu chỉnh kết quả đưa
ra bởi thuật toán lọc cộng tác.
s Lai ghép tăng cường đặc tính (Feature Augmenfafion): Trong phương pháp
lai ghép này, kết quả của một thuật toán gợi ý được sử dụng làm đầu vào bé trợcho một thuật toán gợi ý khác bên cạnh các đầu vào từ dữ liệu thô có sẵn
1.3.4 Ma trận tiện ích
1.3.4.1 Giới thiệu Ma trận tiện ích
Ma trận tiện ích (Ma trận tương tác Người dùng — Sản phẩm) là một cơ sởdữ liệu mô tả sở thích của mỗi øgười dùng với từng sản phẩm trong hệ thống gợiý Về mặt hình thức, cơ sở dữ liệu này có thể biéu diễn dưới dạng ma trận trong đó
mỗi hàng tương ứng với một người dùng, mỗi cột tương ứng với một sản phâm,
11183817 — Nguyễn Vân Nhi 25
Trang 27Chuyên đề thực tập — Chuyên ngành Toán kinh tế
giá trị tại mỗi 6 của ma trận chính là giá trị rating của người dùng cho sản phẩmđó Không có ma trận tiện ích, hệ thống gần như không thể gợi ý được sản phâmtới người dùng Vì vậy, việc xây dựng ma trận tiện ích là tối quan trọng trong cáchệ thống gợi ý
1.3.4.2 Xây dựng Ma trận tiện ích
Giả định rằng Ma trận tiện ích (ký hiệu là R) cấp m x n là ma trận chứa mngười dùng và n sản phẩm Dữ liệu xếp hạng của người dùng +; đối với sản phẩmvj được ký hiệu là ?;; Tuy nhiên, việc xây dựng ma trận này thường gặp nhiều khókhăn Trên thực tế, có hai hướng tiếp cận phô biến dé xác định giá trị đánh giá 7; jcho mỗi cặp (người dùng, sản phẩm) trong ma trận tiện ích là phương pháp phanhồi tường minh (explicit feedback) và phương pháp phản hồi an (implicit
feedback).
Đối với phương pháp phản hồi tường minh, hệ thống yêu cầu người dùng
thực hiện xếp hang cụ thé cho từng sản phẩm để xây dựng hồ sơ người dùng
Phương pháp này cung cấp dữ liệu người dùng trực tiếp cho hệ thống gợi ý (không
phải thực hiện các công đoạn biến đổi trung gian) và kết quả gợi ý được đánh giálà đáng tin cậy hơn cả Amazon là một trong những trang TMĐT luôn khuyếnkhích người dùng thực hiện đánh giá sản phẩm bằng cách gửi mail nhắc nhở rất
nhiều lần Các cách xếp hạng có thể được sử dụng của phương pháp này là:s Xếp hạng liên tục (Continuous ratings): Các xếp hạng được chỉ định trênthang liên tục, tương ứng với các mức độ thích hoặc không thích về sản phâm đó
Một vi dụ về hệ thống như vậy là Hệ tư van Jester về những câu chuyện cười, trong
đó các xếp hạng là các gái trị bất kỳ từ -10 đến 10 Hạn chế của phương pháp này
là nó tạo ra gánh nặng cho người dùng khi phải suy nghĩ ra giá trị thực từ vô sốcác khả năng Vậy nên cách tiếp cận này hiếm khi được sử dụng
s Xếp hạng theo khoảng (Imerval-based ratings): Các xếp hạng thường đượcchỉ định là các số tự nhiên liên tiếp từ 1 đến 5, hoặc từ 1 đến 7, đôi thi có thé làthang 10 hoặc 20 Các số ở hai đầu thể hiện 2 trạng thái đối nghịch nhau, chănghạn như 1 là rất ghét, 7 là rất thích; 1 là rat không hài lòng, 5 là rất hài lòng Nóichung, các giá trị xếp hạng tích cực và tiêu cực thường được để cân bằng đề tránhcho thang đo bị lệch Trong một số trường hợp, tùy chọn “Trung lập” (thường làgiá trị nằm ở trung điểm) có thé được bỏ qua, khi đó, người dùng bắt buộc phải
đưa ra lựa chọn của mình Một giả định quan trọng ở đây là các giá trị xác định rõ
ràng khoảng cách giữa các xếp hạng và khoảng cách giữa các cặp giá trị xếp hạngliền kề nhau là như nhau Những tính toán thống kê như khoảng biến thiên, trung
11183817 — Nguyễn Vân Nhi 26
Trang 28Chuyên đề thực tập — Chuyên ngành Toán kinh tế
bình, độ lệch chuẩn có thể được sử dụng với thang do này Đây có thé được xemlà cách xếp hạng được sử dụng phô biến nhất hiện nay
“se Xếp hang theo thứ bậc (Ordinal ratings): Các xếp hạng được sap xếp theomột quy ước nào đó về thứ bậc hay sự hơn kém, nhưng không cho biết khoảng
cách giữa chúng Ví dụ các nhà nghiên cứu thị trường có thể đề nghị khách hàngxếp hạng mức độ ưa thích của họ với 5 sản phẩm khác nhau theo thứ tự ưa thíchnhất Khi đó, khách hàng sẽ xếp thứ tự 1 rồi đến 2, 3, 4 và 5 cho từng sản phẩm
Tuy được cho là đem lại kết quả gợi ý đáng tin cậy hơn nhưng phương pháp này
yêu cầu người dùng phải thực hiện thêm một số thao tác với hệ thống, do đó có thé
làm giảm trải nghiệm người dùng Bên cạnh đó, tâm lý chung của người dùng
không muốn chia sẻ quá nhiều thông tin mang tính chất riêng tư do đó làm chophương thức thu thập phản hồi tường minh thường gặp khó khăn trong quá trìnhtriển khai thực tế
Nhằm khắc phục mặt hạn chế của phương pháp thu thập phản hồi tườngminh, phương pháp thu thập phản hồi ân ghi nhận những dấu vết mà người dùngđể lại trên hệ thống như lịch sử mua hàng, lịch sử truy cập website, thời gian xemmột trang web, số lần click chuột vào các siêu liên kết, dé suy luận thông tin vềsở thích của người dùng Ví dụ nếu một người dùng mua một sản phẩm trênAmazon, xem một clip trên Youtube (có thể là nhiều lần), hay đọc một bài báo, thìcó thé khang định rằng ngừời dùng này thích sản phâm đó “Facebook cũng dựatrên việc bạn like những nội dung nào để hiển thị newfeed của ban những nội dungliên quan Bạn càng đam mê Facebook, Facebook càng được hưởng lợi, thế nên nóluôn mang tới bạn những thông tin mà khả năng cao là bạn muốn đọc Với cáchnày, ta chỉ xây dựng được một ma trận với các thành phan là 1 và 0 (Xếp hạng nhịphân — Binary ratings), với 1 thé hiện người dùng thích sản phẩm, 0 thé hiện chưa
có thông tin Trong trường hợp nay, 0 không có nghĩa là thấp hon 1, nó chỉ có
nghĩa là ngừời dùng chưa cung cấp thông tin Chúng ta cũng có thể xây dựng ma
trận với các giá trị cao hơn 1 thông qua thời gian hoặc số lượt mà người dùng xem
một sản phâm nào đó (Xếp hạng đơn vị - Unary ratings) Đôi khi, nút dislike cũngmang lại những lợi ích nhất định cho hệ thống, lúc này có thể gán giá trị tương ứngbằng -1.” Phương pháp này giúp cải thiện trải nghiệm của người dùng đối với hệthống tuy nhiên khả năng mô tả sở thích của người dùng được cho là không tốtbăng phương pháp phản hồi tường minh do hệ thống phải thực hiện các khâu biếnđổi trung gian dé trích xuất thông tin từ hành vi của người dùng
11183817 — Nguyễn Vân Nhi 27
Trang 29Chuyên đề thực tập — Chuyên ngành Toán kinh tế
1.3.4.3 Hiện tượng đuôi dài trong thương mại
Việc phân bé xếp hang giữa các sản phẩm trên thực tế thường mang thuộc
tính “đuôi dai” Tức là chỉ có một phần nhỏ các sản phẩm được đánh giá thườngxuyên, nên đây còn được gọi là các sản phâm phô biến Trong khi đó, phần lớn các
sản phầm hiếm khi nhận được đánh giá Điều này dẫn đến sự phân bổ của các xếphạng cơ bản bị sai lệch cao Ví dụ về sự phân bồ các đánh giá được minh họa trongHình 1.1 Trục tung hiển thị tần số sản phẩm được xếp hạng Trục hoành cho biết
các sản phẩm xếp theo thứ tự giảm dan của số lần được đánh giá Rõ ràng là hauhết các sản phâm đều chỉ được đánh giá một số ít lần Sự phân bổ xếp hạng như
vậy sẽ có ảnh hưởng quan trọng tới quá trình xây dựng hệ thống gợi ý
ITEM INDEX ORDERED BY DECREASING FREQUENCY
Hình 1.1 Vi dụ về hiện tượng đuôi dài trong phân bồ đánh giá sản phẩm
(Nguồn: Aggarwal, C C, 2016)Trong nhiều trường hợp, các mặt hàng có tần số cao có xu hướng là các mặthàng tương đối cạnh tranh với mức lợi nhuận ít hơn cho người bán Còn các sảnpham có tần số thấp hơn có tỷ suất lợi nhuận cao hơn Trên thực tế, các phân tíchcho thay răng nhiều công ty chăng hạn như Amazon.com, đã tối đa hóa lợi nhuận
của họ bang cách bán những sản phâm có tính “đuôi dài”
Vì sự hiếm hoi của các xếp hạng quan sát được ở “đuôi đài” nên nói chunglà sẽ khó khăn dé cung cấp các dự đoán xếp hạng chính xác cho sản phẩm trong
phần “đuôi dài” Trên thực tế, nhiều thuật toán gợi ý có xu hướng chỉ đề xuất cácmặt hàng phổ biến, thay vì các mặt hàng khác Hiện tượng nay có tác động tiêu
11183817 — Nguyễn Vân Nhi 28
Trang 30Chuyên đề thực tập — Chuyên ngành Toán kinh tế
cực đến sự đa dạng của các sản phẩm mà doanh nghiệp cung cấp, và khiến người
dùng nhanh “chán” khi chỉ nhận được cùng một tập hợp đề xuất các mặt hàng đã
quá phổ biến
Thực tế này đôi khi khiến cho các kết quả dự đoán sử dụng thuật toán vùnglân cận có thể bị sai lệch vì nhiều khi xếp hạng của những sản phẩm phổ biếnkhông mang tính đại diện cho các sản phâm “đuôi dai” và sự phân bổ của xếp hạngtrên các sản phâm phô biến thường khác với nhóm sản phẩm “đuôi dai”
1.4 Téng quan nghiên cứu
Một số nghiên cứu nước ngoài
Schafer, Konstan va Riedl (1999) đã đưa ra khái niệm chung, phân loại cũng
như các hướng tiếp cận dựa trên phân tích giao diện về hệ thống gợi ý của 6 doanhnghiệp thương mại điện tử lớn thời điểm đó, bao gồm: Amazon.com, CDNow,
eBay, Levis, Moviefinder.com, Reel.com Tại thời điểm nghiên cứu, gợi ý dựa trêntương quan giữa các người dùng là phương pháp được sử dụng nhiều nhất Ý tưởngcủa phương pháp là khám phá những người dùng có sở thích gần giống nhau dégợi ý cho họ những sản phẩm mà họ có thé thích vì những người dùng khác tươngtự cũng đã thích sản phẩm này Giao diện của các trang web khi đó sẽ chỉ hiển thị“top N_ list” là n sản phẩm mà hệ thống dự đoán là người dùng sẽ thích, giá trị n
này là mặc định cho tất cả các người dùng Phương pháp gợi ý dựa trên các sảnphẩm tương tự xếp thứ 2, và gợi ý dựa trên giá trị xếp hạng trung bình xếp thứ 3
về độ phô biến Tuy nhiên nghiên cứu này chỉ dừng lại việc cung cấp các lý thuyếtma chưa hè tiễn hành xây dựng hệ thong dựa trên dtr liệu thực nghiệm dé đánh gái
hiệu quả của các phương pháp.
Sarwar và cộng sự (2000) đã đề xuất một mô hình gợi ý trong lĩnh vựcthương mại điện tử bằng thuật toán Lọc cộng tác vùng lân cận được hình thànhtrong không gian chiều thấp dựa trên độ tương tự giữa các người dùng Ý tưởngnày được các tác giả đưa ra từ việc trực quan là trong các không gian chiều thấp
thường ít xảy ra hiện tượng dữ liệu thưa hơn Nghiên cứu này sử dụng 2 tệp dữ
liệu đánh giá khác nhau để so sánh hiệu quả của thuật toán là bộ Movilens và dữliệu mua hàng trên trang thương mại điện tử Fingerhut Inc Chất lượng các kết quagợi ý khi thực hiện giảm chiều không gian với bộ dữ liệu của Fingerhut được đánhgiá là tốt hơn nhưng nó lại không hiệu quả với bộ Movilens Tuy nhiên nghiên cứuchưa đưa ra được lý giải cho vấn đề này, do đó không xác định được thuật toán sẽthực sự hiệu quả với bộ dữ liệu như thế nào Quá trình “learning” cũng tương đốiphức tạp khi vừa phải xác định quy mô tối ưu của vùng lân cận vừa tiến hành chạy
11183817 — Nguyễn Vân Nhi 29
Trang 31Chuyên đề thực tập — Chuyên ngành Toán kinh tế
đi chạy lại mô hình với các kích thước khác nhau dé tìm ra số chiều hợp lý Trongnăm 2001, chính nhóm tác giả này cũng đưa ra một nghiên cứu về kỹ thuật Lọc
cộng tác dựa trên độ tương tự giữa các sản phẩm với bộ dit liệu Movilens Kết qua
chỉ ra rằng chất lượng gợi ý của mô hình dựa trên sản phâm có tốt hơn so với dựa
trên người dùng Nguyên nhân được đưa ra là do việc tính toán độ tương tự giữa
các người dùng có thé không thực sự hiệu quả khi mà quy mô của mô hình liên tụcphải mở rộng vì số lượng khách hàng thay đổi thường xuyên Tuy nhiên sự cải
thiện là không lớn.
Các nghiên cứu của Su và Khoshgoftaar (2009); Bobadilla và cộng sự
(2013); Shi và cộng sự (2014) đã chỉ ra rằng hệ thống gợi ý là một trong những hệthống quan trọng nhất ứng dụng trong phân tích dữ liệu lớn và giúp cải thiện hoạtđộng cho nhiều doanh nghiệp Và các hệ thống sử dụng lọc cộng tác là phổ biếnnhất trong kinh doanh cũng như trong nghiên cứu vì tính đơn giản và mức hiệusuất cao mà nó đạt được Nhiều công ty thương mại điện tử, chăng hạn như
Amazon (Linden va cộng sự, 2003), Google (Das và cộng sự, 2007), và Facebook
(Shapira và cộng sự, 2013), dang sử dung hệ thống gợi ý như một phan không théthiếu trong công việc kinh doanh của họ Tuy nhiên hầu hết các nghiên cứu nàychỉ dừng lại ở mức áp dụng thuật toán Lọc cộng tác điển hình dựa trên sự giốngnhau giữa các người dùng hoặc sản pham đã có từ trước mà chưa đưa ra được cácgiải pháp cho những hạn chế mà thuật toán này gặp phải như vấn đề khởi động
nguội hay dữ liệu thưa.
Koren, Bell và Volinsky (2009) đã lần đầu đề xuất một hướng đi mới chohệ gợi ý Lọc cộng tác là sử dụng kỹ thuật Phân rã ma trận Kết quả thực nghiệmdựa trên bộ dữ liệu phim của Netflix cho thấy mức độ cải thiện Root Mean SquareError (RMSE - Sai số trung bình bình phương) của kỹ thuật này lên tới 10.06%
Tuy nhiên kỹ thuật này được đánh giá là có thời gian huấn luyện tương đối lâu, khi
hệ thống sẽ phải tiến hành lặp lại việc phân rã các ma trận sao cho tối thiểu hóa
ham ton that
Một nghiên cứu nổi bat khác về hệ thống gợi ý trong thương mại điện tử làcủa nhóm tác giả Hwangbo, Kim và Cha (2018) Các tác giả đã đề xuất một phươngpháp mới đề khuyến nghị sản phẩm thời trang cho khách hàng bằng cách mở rộngthuật toán Lọc cộng tác truyền thong hiện có vào thời điểm đó dé phản ánh các đặcđiểm của hang thời trang Nghiên cứu chỉ ra rằng thực tế là các sản phẩm thời trangcó thể được bán cả online lẫn offline, do đó sự yêu thích của khách hàng cho cácsản pham c6 thé duoc thé hién qua số lần nhấp chuột trực tuyến hoặc dữ liệu mua
11183817 — Nguyễn Vân Nhi 30
Trang 32Chuyên đề thực tập — Chuyên ngành Toán kinh tế
hàng ngoại tuyến Bên cạnh đó, sở thích của khách hàng đối với các sản phẩm thời
trang nhìn chung có xu hướng giảm dan theo thời gian Kết quả thực nghiệm cho
thấy hệ thống hoạt động đạt hiệu suất tốt hơn các phương pháp Lọc cộng tác trước
đó Tuy nhiên, các tác gia không đưa ra được lý giải của việc sử dụng dữ liệu trực
tuyến và ngoại tuyến, cũng như ảnh hưởng của sự yêu thích giảm dan theo thời
gian.
Wang và cộng sự (2018) trong nghiên cứu của mình đã chỉ ra rằng các hệ
thống gợi ý dựa trên Lọc cộng tác tuy được sử dụng rộng rãi nhưng thường có xu
hướng chỉ đề xuất các mặt hàng phổ biến Đây có thé xem là nghiên cứu đầu tiênđề cập tới hiện tượng “đuôi dài” trong lĩnh vực thương mại điện tử Các tác giảđưa ra một cách tiếp cận mới cho Lọc cộng tác được gọi là “Innovator-based” tứclà dựa trên “sự sáng tạo” Khái niệm “sáng tạo” ở đây được dùng dé chỉ nhữngngười dùng có khả năng phát hiện ra các sản phâm nằm ở phần “đuôi đài” Nghiêncứu sử dụng độ đo Precision và Recall dé đánh giá hiệu quả của việc gợi ý Trong
Số lượng sản phẩm mua bởi người dùng
Kết quả thực nghiệm từ bộ dữ liệu khách hàng của Tập đoàn Alibaba cho thấy,
phương pháp mới này có hiệu suất tốt về tính mới và phạm vi bao phủ các sảnphầm được gợi ý Tuy nhiên chất lượng dự đoán đánh giá qua 2 độ đo trên lại kém
hơn so với thuật toán dựa trên người dùng.
Feng và cộng sự (2018) đã đưa ra một hướng cải thiện cho thuật toán Lọc
cộng tác vùng lân cận dựa trên người dùng Nghiên cứu đưa ra một độ đo tương tự
mới dựa trên 3 yếu tố Si, So, Sa, giúp cải thiện đáng ké van dé dữ liệu thưa thớt
Trong đó, ŠS¡ được sử dụng dé xác định sự giống nhau giữa những người dùng (tínhtoán qua độ do Cosine), S2 được đưa ra dé kiểm soát các cặp người dùng có tỷ lệnhỏ trong số các sản phẩm cùng nhận được mức đánh giá nhưu nhau (tỷ trọng củacác mặt hàng có cùng mức đánh giá mà nhỏ thi giá trị của Sa sẽ thấp), còn S3 sửdụng để đề chỉ ra sở thích xếp hạng của từng người dùng Theo đo, mức tương tự
giữa 2 người dùng được tính toán theo công thức như sau:
sim(u,v) = S\(M,V) S;(M,V) S.(M,V) Két quả thu nghiệm trên 4 bộ dữ liệu