Bài viết này giới thiệu một hệ thống dé xuất phim như vậy dựa trên Machine Learning với các thuật toán Lọc cộng tác dựa trên bộ nhớ với hai cách tiếp cận người dùng và mục tin; nhằm gợi
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
KHOA TOÁN KINH TÊ
CHUYÊN ĐỀ TỐT NGHIỆP
NGÀNH TOÁN KINH TẾ
BES STS OES BS 248 2 2 8 SES SES STS IS OBS 2S 2 2 8 SIS SIS OBS OR OR 2S 2S SS SIS IS OR OR OR 9S ES IS OK OR OK OR RE
Đề tài:
Giảng viên hướng dẫn: TS Nguyễn Quang Huy
Sinh viên thực hiện: Nguyễn Lương Liệu
HÀ NỘI - 11/2022
Trang 2TRƯỜNG ĐẠI HỌC KINH TÊ QUỐC DÂN
KHOA TOÁN KINH TE
CHUYÊN ĐỀ TỐT NGHIỆP
333K 33k 3k 3 5 2 3K tk 2S 3É 3k 2 9 3K 246 26 2S FAS 2S 2g 3K 28 2S FS 3< 2k 2g 3É 28 28 tk 3É 2k 3 2 2 OK šk
Đề tài: Ung dụng Machine Learning trong xây dựng hệ
thông đề xuât phim ảnh
Giảng viên hướng dẫn: TS Nguyễn Quang Huy
Sinh viên: Nguyễn Lương Liệu
Mã sinh viên: 11192734
Lớp chuyên ngành: Toán kinh tế 61
HÀ NỘI - 11/2022
Trang 3Lời cam đoan
Tôi là Nguyễn Lương Liệu, mã số sinh viên 11192734, sinh viên lớp Toán kinh tế
61, khoa Toán kinh tế.
Tôi xin cam đoan toàn bộ nội dung được trình bày trong đề tài tốt nghiệp "Ung dungMachine Learning trong xây dựng hệ thông đề xuất phim ảnh" là kết quả quá trình tìm hiểu
và nghiên cứu của tôi dưới dự hướng dẫn của TS Nguyễn Quang Huy Mọi thông tin tham khảo đều có nguồn gốc rõ ràng và được trích dẫn hợp pháp Tôi xin chịu hoàn toàn trách
nhiệm với những nội dung được viết trong chuyên đề này
Hà Nội, ngày 5 thang 11 năm 2022
Tác giả
Nguyễn Lương Liệu
Trang 4Lời cảm ơn
Để hoàn thành được chuyên đề tốt nghiệp này, đã có sự nỗ lực đến từ bản thân em và
những đóng góp không nhỏ đến từ những cá nhân khác Đầu tiên, em xin được gửi lời cảm
ơn đến TS Nguyễn Quang Huy, giảng viên hướng dẫn của em Những góp ý và sự chỉ bảo
của thầy đã giúp em hoàn thiện được chuyên dé này Bên cạnh đó, em cũng xin cảm ơn chịNguyễn Vân Nhi, cựu sinh viên lớp Toán Kinh tế 60, người chị đã truyền cảm hứng cho ýtưởng dé tài này Ngoài ra, xin cảm ơn sự đồng hành của các bạn cùng nhóm chuyên dé, đãluôn chia sẻ những khó khăn cùng nhau trong quá trình thực hiện đề tài
Tuy rằng em đã cố gắng để hoàn thành đề tài này một cách tốt nhất, nhưng những
thiếu sót han không thể tránh khỏi Em hi vọng được đón nhận những ý kiến nhận xét của
các thay cô trong hội đồng khoa học để em có thể có được những kinh nghiệm và bài học
hữu ích cho quá trình nghiên cứu sau này.
Trang 5Mục lục
Danh mục ký hiệu và từ viết tắt
Danh mục hình ve
Danh mục bảng biểu
Tóm tắt
GIỚI THIEU CHUNG
Đặt vân đề
Phạm vi, đối tượng và phương pháp nghiên cứu
Bố cục chuyên đề
Chương 1 CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN NGHIÊN CỨU 1.1 Một số khái nệm cơbản
1.1.1 Hoc máy (Machine Learning) 1.1.2 Hệ thống đề xuất (Recommendation Systen)
1.2 Tổng quan một hệ thống để xuấtcơbản
1.2.1 Các thành phan cơ ban của một hệ thống đề xuất
1.2.2 Biểu diễn thông tin trong một hệ thống để xuất
1.2.3 Các giai đoạn của quá trình đềxuất
1.2.4 Hồ sơ người dùng (User profile)
1.2.5 Các dạng phản hồi chính của hệ thống
1.3 Một số vấn đề và thách thức của hệ thống đề xuất
1.3.1 Khoi động chậm (Cold-start)
1.3.2 Dữ liệu thưa (Data sparsity)
iii
iv
Trang 613.3 Khảnăng mởrộng (Scalability) 9
13.4 Từ đồng nghĩa (Synonymy) ee 9 1.3.5 Quyển riêng tu (Privacy) ee 9 1.4 Tổng quan một số nghiên cứu liên quan - 10
Chương 2 THUẬT TOÁN ĐỀ XUẤT 11 2.1 Phân loại các thuậttoán Ặ Q Q Q Q Q Q S 11 2.2 Thuật toán Loc cộng tác dựa trên bộ nhớ (Memory-based CF) 12
2.2.1 Tính toán độ tươngtự Ặ Q eee eee 13 2.2.2 _ Thuật toán Lọc cộng tác dựa trên người dùng (UBCF) 13
2.2.3 _ Thuật toán Loc cộng tác dựa trên muctin(JBCF) 18
2.3 Ưu điểm của thuật toán Lọc cộng tác 20
2.4 Đánh giá thuật toán đề xuất 20
2.4.1 Các chỉ số về độ chính xác thốngkê - 21
2.4.2 Cac chỉ số về độ chính xác hỗ trợ quyết định 21
Chương 3 UNG DUNG CUA HỆ THONG ĐỀ XUẤT TRONG THUC TIẾN 23 3.1 Những lợi ích của hệ thống dé xuất 23
3.1.1 Đối với doanhnghiệp 23
3.1.2 Đối vớ kháhhàng 25
3.2 Ứng dụng của hệ thống dé xuất trong một số lĩnh vực 25
3.2.1 Xuhướng th trường Ặ.Ặ 0.02000 000 ee 25 3.2.2 Một số trường hợp tiêu biểu sử dụngRS 26
Chương 4 DỮ LIỆU VÀ KẾT QUÁ NGHIÊN CỨU 28
4.1 DữlệunghincỨu 2 0 Q Q QOQ Q Q2 28
4.2 Tiền xử lý dữ liệu ee 30
Trang 743 Khám phá dữ liệu Ặ.Ặ.Ặ Q Q Q QQ QQ
4.3.1
4.3.2 4.3.3 4.3.4
Khám phá các giá trị của xếp hạng
Khám phá những bộ phim đã được xem
Khám phá xếp hạng trung bình
Hình dung matrận
44 Chuẩn bị dữ liệu TQ ee eee 4.4.1 4.4.2 Lựa chọn dữ liệu lên quannhat
Chuẩn hóa dữ liệu
4.5 Xây dựng hệ thống
đềxuất -4.6 Đưa ra đề xuất cho người dùng
KẾT LUẬN Kết quả đạt được 2 Q Q Q Q TQ TQ Q Q v Những hạn chế của nghiên cứu
Hướng nghiên cứu tiếp theo
Tài liệu tham khảo
Phụ lục
48
50
Trang 8Chuyên dé tốt nghiệp
Danh mục ký hiệu và từ viết tắt
CF Lọc cộng tác (Collaborative Filtering)
IBCF Loc cộng tac dựa trên bộ nhớ (Item-based Collaborative Filtering)
Ma trận U-I Ma trận người dùng — mục tin
MAE Sai số trung bình tuyệt đối
MBCF Loc cộng tác dua trên bộ nhớ (Memory-based Collaborative Filtering)
ML Hoc may (Machine Learning)
RMSE Sai số bình phương trung bình căn bậc hai
RS Hệ thống dé xuất (Recommendation System)
UBCF Loc cộng tac dựa trên người dùng (User-based Collaborative Filtering)
Neuyén Luong Liéu — 11192734 i
Trang 9Chuyên dé tốt nghiệp
Danh mục hình vẽ
Hình 1.1 Hình 1.2
Hình 2.1
Hình 2.2
Hình 2.3
Hình 2.4 Hình 2.5 Hình 2.6 Hình 2.7 Hình 3.1 Hình 3.2 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.6 Hình 4.7 Hình 4.8 Hình 4.9
Hình 4.10
Hình 4.11 Hình 4.12 Hình 4.13
Các dé xuất bài hát của Spotify
Quá trình đề xuất
Các thuật toán đề xuất
Lọc cộng tác dựa trên người dùng
Ma trậnU-I Q Q Q Q Q Q Q S Tính trung bình đánh giá của người dùng
Ma trận U-Ichuẩnhóa
Lọc cộng tác dựa trên mụcfn
Tính trung bình đánh giá của mục tn
Đề xuất "Dành riêng cho ban" tại trang chủ của Lazada
Hàng loạt danh mục bài hát gợi ý từ Spotify cho người dùng lựa chọn Mô phỏng cấu trúc bộ dữ liệu MovieLens
Một số quan sát của MovieLenseMeta
Một số quan sát của MovieLenseUser
Tần suất các giá trị xếphạng
Các bộ phim được xem nhiều nhất
Phân bố các giá trị xếp hạng trungbình
Xếp hạng trung bình của những bộ phim có lượt xem trên 100 Ma trận MovieLense Ặ Q Q ee ee Các dòng đầu tiên và các cột của ma trận
Ma trận người dùng và bộ phim lên quan
Dòng và cột đầu tiên của ma trận sau khi đã lọc theo tiêu chí
Xếp hạng trung bình mỗi người dùng sau khi đã lọc theo tiêu chi
Các dòng và cột đầu tiên của ma trận sau khi chuẩn hóa
Nguyễn Lương Liệu — 11192734
25 28 20
20
30 31 32 33 34
35
36 37 38 39
il
Trang 10Chuyên dé tốt nghiệp
Hình 4.14 Đồ thị precision-recall của IBCF với các giá trị k khác nhau 41
Hình 4.15 Đồ thi precision-recall của UBCF với các giá trị k khác nhau 42
Hình 4.16 So sánh hiệu quả của hai thuậttoán 43
Hình 4.17 Những bộ phim có lượt xem cao nhất trong tập kiểm tra 45
Nguyễn Lương Liệu — 11192734 iii
Trang 11Chuyên dé tốt nghiệp
Danh mục bảng biểu
Bảng I.I Ma trận người dùng- mụctin - 5
Bang 4.1 Top 10 bộ phim được dé xuất cho người dùng của UBCF 44
Bảng 4.2 Top 10 bộ phim được đề xuất cho người dùng claIBCF 44
Nguyễn Lương Liệu — 11192734 1V
Trang 12Chuyên dé tốt nghiệp
Tóm tắt
Hệ thống đề xuất phim nhằm giúp những người yêu thích phim ảnh bằng cách gợi
ý phim nên xem mà không cần phải trải qua quá trình lựa chọn lâu dài từ một kho phim lớn lên tới hàng nghìn, hàng triệu bộ phim gây mat thời gian và khó hiểu Bài viết này giới thiệu một hệ thống dé xuất phim như vậy dựa trên Machine Learning với các thuật toán Lọc
cộng tác dựa trên bộ nhớ với hai cách tiếp cận người dùng và mục tin; nhằm gợi ý những
bộ phim được cá nhân hóa phù hợp với sở thích của người dùng Nghiên cứu sử dụng bộ dữ
liệu MovieLens 100K với khoảng gần 100 nghìn xếp hạng đến từ hơn nhiều người dùng và
bộ phim khác nhau.
Nguyễn Lương Liệu — 11192734 V
Trang 13Chuyên dé tốt nghiệp
GIỚI THIỆU CHUNG
Dat van đề
Bat đầu từ ky nguyên Web 2.0, Internet bắt đầu lớn lên và phát triển với tốc độ chóng
mặt Nhiều cơ hội, chẳng hạn như chia sẻ kiến thức, thông tin và ý kiến với những người
dùng khác, đã xuất hiện Điều này đã tạo điều kiện thuận lợi cho sự phát triển của các mạng
xã hội như Facebook hay Twitter Ngày nay, các tác giả có thể chia sẻ sáng tạo của họ với
hàng triệu độc giả trên toàn cầu Các nhạc sĩ nghiệp dư có thể trở nên nổi tiếng nhanh hơn
bao giờ hết chỉ bằng cách tải lên các bản nhạc của họ Giới kinh doanh đã tìm thấy nhiều
khách hàng hơn và thu được lợi nhuận trên internet Một loạt các cửa hàng trực tuyến, hoặc đấu giá mở ra trên Internet.
Ngày nay, mọi người dùng Internet đều có thể mua hầu hết mọi mặt hàng ở bất kỳquốc gia nào trên thế giới Trái ngược với các cửa hàng thực, các cửa hàng trực tuyến không
bị giới hạn về địa điểm Tuy nhiên, mọi người đã gặp phải một van đề mới Lượng thông tin, vật phẩm trở nên vô cùng lớn dẫn đến tình trạng quá tải thông tin Nó đã trở thành một chướng ngại để người dùng tìm thấy những gì mà họ đang thực sự tim kiếm Các công cụ
tìm kiếm như Google hay Bing đã giải quyết được một phần vấn đề đó, tuy nhiên, việc sắpxếp thứ tự ưu tiên và cá nhân hóa thông tin lại không có Các nhà phát triển đã tìm thấy giảipháp trong các hệ thống dé xuất Hệ thống dé xuất là một ứng dụng lọc thông tin được cánhân hóa và đưa ra cách hiểu sở thích của người dùng và gợi ý những điều phù hợp với họ
bằng cách xem xét thói quen trong số các lượt thích và xếp hạng của họ đối với nhiều thứ
khác nhau (Das et al., 2017).
Những lợi ích của hệ thống đề xuất đem lại không chỉ dừng lại như vậy, nó còn nângcao trải nghiệm khách hàng, tăng doanh thu cho doanh nghiệp dẫn đến sự phổ biến của hệthống dé xuất trong những năm gan đây Theo Grand View Research (2021), quy mô thịtrường công cụ đề xuất toàn cầu được định giá 1,77 tỷ USD vào năm 2020 và dự kiến sẽ mởrộng với tốc độ tăng trưởng kép hàng năm là 33,0% từ năm 2021 đến năm 2028 Các lĩnh
vực ứng dụng ứng dụng hệ thống đề xuất cũng mở rộng hơn từ thương mại điện tử, giải trí
trực tuyến đến y tế, giáo dục Trong đó, dịch vụ xem phim trực tuyến là một đại diện tiêubiểu cho dịch vụ giải trí trực tuyến với các hệ thống đề xuất phim Hệ thống đề xuất phim
đã tiết kiệm hàng giờ tìm kiếm và lựa chọn phim của người dùng, đồng thời giúp nhà cungcấp tiếp thị tốt hơn các sản phẩm đến khách hàng
Nguyễn Lương Liệu — 11192734 1
Trang 14Chuyên dé tốt nghiệp
Sự phát triển của các thuật toán dựa trên Học máy gần đây như Lọc cộng tác hay Lọckết hợp đã giúp cải thiện chất lượng của các hệ thống đề xuất Trong nghiên cứu này sẽ tậptrung tìm hiểu và ứng dụng một số thuật toán Machine Learning trong để xây dựng một hệthống đề xuất đưa ra gợi ý phim đến người dùng
Phạm vi, đối tượng và phương pháp nghiên cứu
« Đối tượng nghiên cứu: Hệ thông đề xuất và các khía cạnh của nó
* Pham vi nghiên cứu: Nghiên cứu tập trung trình bày các khía cạnh của một hệ thống
dé xuất bao gồm khái niệm, quá trình dé xuất và thuật toán được dé cập chủ yếu về
thuật toán Lọc cộng tác với hai tiếp cận người dùng và mục tin Bên cạnh đó cũng đềcập đến những lợi ích của hệ thống dé xuất và ứng dụng của nó trong một số lĩnh vực
¢ Phương pháp nghiên cứu: Phương pháp Machine Learning được sử dụng trong thực
hiện xây dựng một hệ thống đề xuất phim, trong đó kĩ thuật Kiểm chứng chéo (Cross validation) được dùng để tính toán các chỉ số đánh giá để cho ra hiệu quả đề xuất tốt
nhất
Bo cục chuyên đề
Chuyên đề tốt nghiệp với dé tài "Ung dung Machine Learning trong xây dựng hệ
thông dé xuất phim ảnh" được câu trúc gồm 6 chương chính như sau:
¢ Giới thiệu chung
« Chương 1 Cơ sở lý thuyết và phương pháp luận
« Chương 2 Thuật toán đề xuất
* Chương 3 Ung dụng của hệ thống đề xuất trong thực tiễn
« Chương 4 Dữ liệu và kết quả nghiên cứu
» Kết luận
Nguyễn Lương Liệu — 11192734 2
Trang 15Chuyên dé tốt nghiệp
Chương 1 CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN NGHIÊN CỨU
1.1 Một số khái niệm cơ bản
1.1.1 Học máy (Machine Learning)
Theo IBM Cloud Education (2020), Hoc máy hay Machine Learning (ML) là một
nhánh cua Trí tuệ nhân tạo (AI) và khoa hoc máy tính, tập trung vào việc sử dung đữ liệu
và thuật toán để bắt chước cách con người học, dần dần cải thiện độ chính xác của nó
Học máy là một thành phần quan trọng của lĩnh vực khoa học dữ liệu đang phát triển.Thông qua việc sử dụng các phương pháp thống kê, các thuật toán được đào tạo để đưa racác phân loại hoặc dự đoán và khám phá những thông tin chỉ tiết chính (key insights) trongcác dự án khai thác dữ liệu Các quyết định được đưa ra là kết quả của những thông tin
này này tác động mạnh mẽ đến các chỉ số tăng trưởng chính trong các ứng dụng và doanh
nghiệp.
1.12 Hệ thông dé xuất (Recommendation System)
Hệ thống dé xuất (RS) hay còn gọi là hệ thống gợi ý, hệ gợi ý hoặc hệ dé xuất làmột lớp con của Học máy sử dụng dữ liệu lớn để đề xuất hoặc giới thiệu các sản phẩm bổsung cho người tiêu dùng (NVIDIA, 2021) Nó có thể dựa trên nhiễu tiêu chí khác nhau,bao gồm các giao dịch mua trong quá khứ, lịch sử tìm kiếm, thông tin nhân khẩu học và
các yếu tố khác Hệ thống dé xuất rất hữu ích vì chúng giúp người dùng khám phá các sản
phẩm và dịch vụ mà họ có thể chưa tự tìm thấy
Hệ thống đề xuất được đào tạo để hiểu sở thích, các quyết định trước đây và đặc điểm
của con người và sản phẩm bằng cách sử dụng dữ liệu thu thập được về các tương tác của
họ Chúng bao gồm hiển thị, nhấp chuột, thích và mua hàng Do khả năng dự đoán sở thích
và mong muốn của người tiêu dùng ở mức độ được cá nhân hóa cao, hệ thống giới thiệuđược các nhà cung cấp nội dung và sản phẩm yêu thích Họ có thể hướng người tiêu dùngđến bắt kỳ sản phẩm hoặc dịch vụ nào mà họ quan tâm, từ sách đến video, lớp học sức khỏe
cho đên quân áo.
Nguyễn Lương Liệu — 11192734 3
Trang 16Suýt Nữa Thì Nham Mat Thay M Minh Yeu Nhau Tu Cảm Ơn Và Xin Lỗi Tình Ca Hoàng Dũ Phút Ban Đầu
Andiez Nguyên Hà Quang Trung Chillies Hoang Dũng Vũ
Hình 1.1 Các dé xuất bài hát của Spotify
1.2 Tổng quan một hệ thống đề xuất cơ bản
1.2.1 Các thành phan co bản của một hệ thong dé xuất
Để làm việc hay xây dựng một hệ thống thông tin mới thì cần phải định hình đượcnhững thành phan gi để tạo ra chúng Trong RS, thông thường người ta quan tâm đến ba
thông tin chính (Thai Nghe, 2016):
¢ Người dùng (User) Người dùng là đối tượng làm việc của một hệ gợi ý đồng thời lànguồn cung cấp các dữ liệu cho hoạt động của hệ thống thông qua một loạt các phản
hôi.
¢ Mục tin (Item) Mục tin có thể là sản phẩm trên các trang bán hàng, bài hát trên các
trang nghe nhạc hay một người dùng khác trên mạng xã hội tùy vào mục đích dé xuất
của hệ thống Các mục tin cũng là kết quả đề xuất được gửi đến người dùng chính
¢ Phan hoi (Feedback) Phản hồi thể hiện sự quan tâm của người dùng lên mục tin đó,
thường là các xếp hạng hoặc đánh giá (rating); hay thậm chí có thể là số lần nhấp chuột
vào mục tin, thời gian trung bình tương tác với mục tin Thành phần này đóng vai trò
là cơ sở gợi ý cho người dùng.
Nguyễn Lương Liệu — 11192734 4
Trang 17Chuyên dé tốt nghiệp
1.2.2 Biểu diễn thông tin trong một hệ thông dé xuất
Sau khi đã thu thập được các thông tin trên của hệ thông bằng một cách nào đó, việc
cần làm là phải biểu diễn các thông tin đó dưới dạng có thể tính toán được Một cách hiệuquả đó là sử dụng ma trận Một ma trận được tạo ra để biểu diễn những thành phần trên của
hệ thống được gọi là ma trận người dùng - mục tin (users — items matrix), gọi tắt là ma
trận U-I (Bảng 1.1) Nó thể hiện "mức độ ưa thích" của từng người dùng lên các mục tin tương ứng.
Bang 1.1 Ma trận người dùng — mục tin
Trong ma trận U-I, mỗi cột là một người dùng, mỗi dòng là một mục tin và mỗi 6
là một giá trị phản hồi (chẳng hạn đánh giá) đại diện cho mức độ ưa thích của từng người
dùng lên các mục tin tương ứng Những ô có giá trị cho biết những mục tin mà người dùng
đã đánh giá trong quá khứ Ngược lại, những ô còn trống cho biết rằng người dùng chưa
đánh giá những mục tin đó.
Nhiệm vu của một hệ dé xuất chính là dựa vào các thông tin được biết trong quá khứcủa người dùng, RS sẽ dé xuất cho người dùng đó các mục tin mà người dùng chưa biết.Nói cách khác, RS dựa vào các 6 đã có giá trị để dự đoán các giá trị tại các 6 còn trống
trong ma trận U-I Sau đó sắp xếp theo thứ tự mức độ ưa thích giảm dần từ đó gợi ý cho
người dùng.
1.2.3 Các giai đoạn của quá trình dé xuất
Quá trình đề xuất bao gồm ba giai đoạn chính, đó là Thu thập thông tin, Học tập và
Dự đoán/đề xuất (Isinkaye et al., 2015) Quá trình được thể hiện một cách tổng quan qua
Hình 1.2.
Nguyễn Lương Liệu — 11192734 5
Trang 18Chuyên dé tot nghiệp
¢ Giai đoạn thu thập thông tin (Information collection phase) Giai đoạn nay thu
thập thông tin liên quan của người dùng để tạo hồ sơ người dùng hoặc mô hình cho
các nhiệm vụ dự đoán bao gồm đặc điểm, hành vi của người dùng hoặc nội dung củacác tài nguyên mà người dùng truy cập Một hệ đề xuất không thể hoạt động chính xáccho đến khi hồ sơ người dùng hoặc mô hình đã được xây dựng tốt Hệ thống cần biết
nhiều nhất có thể từ người dùng để đưa ra khuyến nghị hợp lý ngay từ khi bắt đầu
« Giai đoạn học tập (Learning phase) Giai đoạn này áp dụng một số thuật toán họctập để lọc và khai thác các tính năng của người dùng từ phản hồi thu thập được trong
giai đoạn thu thập thông tin.
¢ Giai đoạn dự đoán/đề xuất (Prediction/recommendation phase) Từ kết qua của
giai đoạn học tập, giai đoạn này đề xuất hoặc dự đoán loại mặt hàng mà người dùng
có thể thích.
1.2.4 Hồ sơ người dùng (User profile)
Trong giai đoạn thu thập thông tin, ta đã đề cập đến hồ sơ người dùng Mọi thông tinđược thu thập trong giai đoạn này đều dùng để tạo hồ sơ người dùng, phục vụ cho các giai
Nguyễn Lương Liệu — 11192734 6
Trang 19Chuyên dé tốt nghiệp
đoạn kế tiếp Hồ sơ người dùng là tập hợp thông tin cá nhân được liên kết với một ngườidùng cụ thể Thông tin này bao gồm các kỹ năng nhận thức, khả năng trí tuệ, phong cáchhọc tập, sở thích và sự tương tác với hệ thống Hồ sơ người dùng thường được sử dụng đểtruy xuất thông tin cần thiết để xây dựng mô hình người dùng Do đó, một hồ sơ người dùng
mô tả một mô hình người dùng đơn giản Sự thành công của bat kỳ hệ thống dé xuất nào
phụ thuộc phần lớn vào khả năng thể hiện sở thích hiện tại của người dùng Các mô hình
chính xác cần thiết phải có được các dé xuất có liên quan và chính xác từ bất kỳ kỹ thuật
dự đoán nào.
1.2.5 Các dạng phản hôi chính của hệ thông
Hệ thống đề xuất dựa trên các loại đầu vào là các phản hồi khác nhau để thực hiệnđưa ra các dé xuất Các phản hồi này được chia làm 2 dạng chính, là phản hồi tường minh
va phản hồi ngụ ý.
Phản hồi tường minh (Explicit feedback) là dạng thông tin phản hồi được xác một
cách cụ thể và rõ ràng như thông qua việc đánh giá/xếp hạng (Thai Nghe, 2016); chẳng hạn
xếp hạng cho bộ phim từ 1* đến 5*, gửi like hoặc dislike cho 1 sản phẩm Nó thể hiện sự
quan tâm rõ ràng của người dùng đối với mục tin Hệ thống thường nhắc nhở người dùngthông qua giao diện hệ thống cung cấp xếp hạng cho các mục tin để thu thập loại phản hồi
này, nhằm xây dựng và cải thiện mô hình Độ chính xác của đề xuất phụ thuộc vào số lượng
xếp hạng được cung cấp bởi người dùng Điểm thiếu sót duy nhất của dạng thông tin này
là, nó đòi hỏi hành động từ người dùng và người dùng không phải lúc nào cũng sẵn sàng
cung cấp đủ thông tin
Mặc dù thực tế là phản hồi tường minh đòi hỏi nhiều nỗ lực từ người dùng, song nóvẫn được đánh giá là cung cấp dữ liệu đáng tin cậy hơn, vì không liên quan đến việc tríchxuất các sở thích từ các hành động, và nó cũng cung cấp tính minh bach trong quá trình déxuất dẫn đến chất lượng và độ tin cậy cao hơn trong các dé xuất Isinkaye et al (2015)
Phản hồi ngụ ý (Implicit feedback) là dang phản hồi được thu thập gián tiếp bằng
cách suy luận sở thích của người dùng gián tiếp thông qua quan sát hành vi của người dùng
Hệ thống sẽ ghi lại các hành động khác nhau của người dùng (chẳng hạn như lịch sử mua
hàng, lịch sử điều hướng, thời gian dành cho một số trang web, số lần nháy chuột vào nútchức năng nào đó) từ đó suy đoán mối quan tâm của người dùng về các mục tin hay đánhgiá của của họ lên chúng Đây là cách mà phản hồi ngụ ý được xác định Phản hồi ngụ ý
Nguyễn Lương Liệu — 11192734 7
Trang 20Chuyên dé tốt nghiệp
không phụ thuộc vào sự chủ động của người dùng để đưa ra thông tin, mà bằng cách suyluận sở thích của người dùng từ hành vi của họ với hệ thống
Dang phản hồi này mặc dù không yêu cau sự nỗ lực từ người dùng và dé dang thu
thập hơn, nhưng nó ít chính xác hơn (Isinkaye et al., 2015) Tuy nhiên, người ta cũng lập
luận rang dữ liệu sở thích ngầm trên thực tế có thể khách quan hơn, vì không có sai lệch(bias) phát sinh từ việc người dùng phản hồi theo cách xã hội mong muốn hoặc nhu cầu
duy trì hình anh bản thân trước người khác (Buder & Schwind, 2012).
Một dạng phản hồi khác, ít thông dụng hơn hai dạng ở trên là phản hồi kết hợp
(Hybrid feedback) Nó thường được sử dụng trong các hệ thống dé xuất kết hợp Dạng
phản hồi này có được thông qua sự kết hợp của cả phản hồi tường minh và phản hồi ngụ ý
Người ta có thể kết hợp bang cách sử dụng phản hồi ngụ ý làm kiểm tra cho các phản hồi
tường minh hoặc cho phép người dùng đưa ra phản hồi tường minh chỉ khi anh ta chọn bay
tỏ sự quan tâm rõ ràng (Isinkaye et al., 2015) Việc kết hợp giúp tận dụng được điểm mạnh
của hai dạng phản hồi ngụ ý và tường minh, giúp hệ thống hoạt động tốt nhất.
1.3 Một số van đề và thách thức của hệ thong đề xuất
có thể được giải quyết bằng nhiều cách như:
s Yêu cầu người dùng mới ngay từ đầu đánh giá một số mặt hàng
« Yêu cầu nêu rõ sở thích của người dùng mới
« Đề xuất các mặt hàng cho người dùng mới dựa trên thông tin nhân khẩu học đã thu
thập.
1.3.2 Dit liệu thưa (Data sparsity)
Đây là van dé xảy ra khi đa số người dùng không đánh giá hầu hết các mục và do đó,
ma trận người dùng — mục tin trở nên rất thưa thớt (P Kumar & Thakur, 2018) Sử dụng cácphương pháp Lọc cộng tác và các phương pháp tiếp cận khác, các hệ thống dé xuất thường
Nguyễn Lương Liệu — 11192734 8
Trang 21Chuyên dé tốt nghiệp
tao ra các vùng lân cận của người dùng bằng cách sử dụng hồ sơ của họ Nếu người dùng
chỉ đánh giá một vài mặt hàng thì khá khó để xác định sở thích của họ và có thể liên quan
đến sai vùng lân cận Dữ liệu thưa là vấn đề của việc thiếu thông tin (Asanov, 201 1)
1.3.3 Kha năng mở rộng (Scalability)
Hệ thống dé xuất đang phải đối mặt với một trong những van dé sống còn hang đầuvới tập dữ liệu lớn trong thực tế được gọi là khả năng mở rộng (P Kumar & Thakur, 2018).Với sự tăng lên của số lượng người dùng và mặt hàng thì khối lượng của tập dữ liệu cũng
tăng theo, hệ thống cần nhiễu tài nguyên hơn để xử lý thông tin và hình thành các đề xuất.
Tức là khi tập dữ liệu nhỏ, thuật toán hoạt động tốt nhưng không thể tạo ra kết quả thỏamãn với tập dif liệu kích thước lớn Do đó, rất khó áp dung kỹ thuật dé xuất với các tập dữliệu động và khổng lồ được tạo ra bởi sự tương tác giữa người dùng với mục tin Vấn dé
này cũng được giải quyết bằng sự kết hợp của nhiều loại bộ lọc và cải tiến vật lý của các hệ
thống (Asanov, 2011) Một số kỹ thuật có thể được sử dụng để giải quyết như Giảm chiều,
Bayesian Networks, Phân cụm (P Kumar & Thakur, 2018).
1.3.4 Tit dong nghia (Synonymy)
Đây là tình huống dé cập đến các mục tin tương tự có tên hoặc mục nhập khác nhau(Isinkaye et al., 2015) Hầu hết các hệ thống dé xuất đều gặp khó khăn trong việc phân biệt
giữa các mặt hàng có liên quan chặt chế với nhau, chang hạn như sự khác biệt giữa vi du:
"quần áo trẻ em" và "quần áo em bé" Hệ thống lọc cộng tác thường không tìm thấy sự phùhợp nào giữa hai thuật ngữ để có thể tính toán sự giống nhau của chúng Vấn đề từ đồng
nghĩa có thể được giải quyết bằng cách sử dụng các phương pháp (Isinkaye et al., 2015;
P Kumar & Thakur, 2018):
« Xây dung từ đồng nghĩa
¢ Phân tích giá trị đơn lẻ (SVD)
» Lập chỉ mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing)
1.3.5 Quyên riêng tư (Privacy)
Quyền riêng tư là một van dé nhạy cảm Thuật toán dé xuất yêu cầu đầu vào nhiềuthông tin nhất có thể về người dùng, bao gồm dữ liệu nhân khẩu học và dữ liệu về vị trí củamột người dùng cụ thể để tạo ra các đề xuất được cá nhân hóa có chất lượng (P Kumar &Thakur, 2018) Điều này có thể dẫn đến các van dé về quyền riêng tư và bảo mật dữ liệu
Nguyễn Lương Liệu — 11192734 9
Trang 22Chuyên dé tốt nghiệp
Do đó, cần phải thiết kế một kỹ thuật để có thể sử dụng hợp lý và cẩn thận dữ liệu người
dùng bằng cách đảm bảo rằng thông tin người dùng không bị lọt ra ngoài và bị sử dụng cho
các mục dich lừa đảo Nhiều doanh nghiệp đã đưa ra biện pháp bảo vệ hiệu quả quyền riêng
tư của người dùng bằng cách sử dụng các thuật toán và chương trình chuyên biệt
1.4 Tổng quan một số nghiên cứu liên quan
Li and Yamada (2004) đã đề xuất một thuật toán học tập quy nạp Ở đây, xây dựng
một mô hình cây để hiển thị khuyến nghị của người dùng de Campos et al (2010) đã
thực hiện một phân tích về cả các kỹ thuật khuyến nghị truyền thống Vì cả hai kỹ thuật này đều có những trở ngại nhất định, ông đã đề xuất một hệ thống khác là sự kết hợp của
mang Bayes và kỹ thuật cộng tác Trong bai báo của Sharma and Mann (2013) cũng da
phân tích các kỹ thuật dé xuất khác nhau được sử dụng bao gồm cộng tác, kết hợp và dựatrên nội dung Ngoài ra, nó cũng mô tả những ưu và nhược điểm của những cách tiếp cậnnày Kuzelewska (2014) đề xuất phân cụm như một cách tiếp cận để xử lý các dé xuất Hai
phương pháp phân cụm đã được phân tích: giải pháp dựa trên Centroid và phương pháp dựa
trên bộ nhớ M Kumar et al (2015) giới thiệu MOVREC, một hệ thống dé xuất phim dựatrên các phương pháp lọc cộng tác Lọc cộng tác lấy dữ liệu từ tất cả người dùng và dựatrên đó tạo ra các để xuất Chiru et al (2015) cũng đưa ra một hệ thống giới thiệu phim, sửdụng lịch sử của người dùng để tạo dé xuất Virk et al (2015) đã trình bày một hệ thốngkết hợp Hệ thống này kết hợp cả phương pháp cộng tác và dựa trên nội dung
Qua một số nghiên cứu trên đây, có thể thấy rằng hệ thống đề xuất đã đạt được tên
tuổi và sự công nhận quan trọng trong giới nghiên cứu Chúng thường xuyên được xem xét
trong các ứng dụng đa dạng trong các lĩnh vực của nhiều ngành khoa học và công nghệ
khác nhau.
Nguyễn Lương Liệu — 11192734 10
Trang 23Chuyên dé tốt nghiệp
Chương 2 THUẬT TOÁN ĐỀ XUẤT
2.1 Phân loại các thuật toán
Hiện nay có nhiều thuật toán dé xuất được ra đời và phát triển, tuy nhiên có thể phân
loại chúng vào trong các nhóm chính (Das et al., 2017; Hà & Thức, 2021; Isinkaye et al., 2015; Thai Nghe, 2016).
Không cá nhân
hóa Cá nhân hóa
Lọc cộng tác
Lọc dựa trên mG Dựa trên bộ nhỏ
Phân cụm, Phân
rã ma trận, Mạng
Bayes, Mạng Neural
° Nhóm thuật toán Lọc cộng tác (Collaborative Filtering).
— Phương pháp Lọc dựa trên bộ nhớ (Memory-based Filtering), còn được gọi là
Phương pháp láng giéng (Neighborhood-based) Trong đó hệ thống được xây dựng
dựa trên dữ liệu quá khứ của người dùng tương tự (user-based approach), hoặc là dựa trên dữ liệu quá khứ của những item tương tự (item-based approach).
Nguyễn Lương Liệu — 11192734 11
Trang 24Chuyên dé tốt nghiệp
- Phương pháp Lọc dựa trên mô hình (Model-based Filtering) Nhóm này liên
quan đến việc xây dựng các mô hình dự đoán dựa trên dữ liệu thu thập được
trong quá khứ Nhu mô hình Bayesian, các mô hình nhân tố tiềm ẩn (latent factor
models), trong đó kỹ thuật phân rã ma trận (matrix factorization) là một điển hình.
¢ Nhóm thuật toán Lọc dựa trên nội dung (Content-based Filtering) Nhóm này gợi
ý các mục tin dựa vào hồ sơ người dùng hoặc dựa vào nội dung/thuộc tính của những
mục tin tương tự mà người dùng đã từng chọn trong quá khứ.
¢ Nhóm thuật toán Loc kết hợp (Hybrid Filtering) Kết hợp các thuật toán lọc cộng tác
và lọc theo nội dung với nhau.
¢ Nhóm thuật toán Không cá nhân hóa (Non-personalization) Các thuật toán ở nhómnày không dựa vào hồ sơ cá nhân của từng khách hàng mà chỉ dựa vào đặc tính của sảnphẩm và đánh giá từ cộng đồng như: sản phẩm bán chạy nhất, sản phẩm được đánh giátốt nhất (Hà & Thức, 2021)
Nghiên cứu này sẽ tập trung trình bày nhóm thuật toán Lọc cộng tác dựa trên bộ nhớ
theo hai hướng tiếp cận là dựa trên người dùng và dựa trên mục tin Đây là nhóm thuật toán
cổ điển và thường được sử dụng trong hệ thống gợi ý
2.2 Thuật toán Loc cộng tac dựa trên bộ nhớ (Memory-based CF)
Thuật toán Lọc cộng tác (CF) được xây dựng dựa trên lý thuyết về sự đồng sở thích
của những người dùng khác nhau Hiểu đơn giản, nếu k người dùng đánh giá cho ¡ sản
phẩm tương tự nhau hoặc có hành vi tương tự nhau thì họ sẽ có đánh giá hoặc các hành vi tương tự với các sản phẩm khác.
Cụ thể, nếu trên một hệ thống nghe nhạc, có hai người dùng đều cùng nghe một vài
bản nhạc Khi người dùng thứ nhất đã nghe một bài hát mà người dùng thứ hai chưa nghe,
khả năng cao là người dùng thứ hai cũng sẽ muốn nghe bản nhạc đó Do đó, hệ thống sé dé
xuất bài hát ấy cho người dùng này.
Thuật toán Lọc cộng tác dựa trên bộ nhớ (MBCF) là một nhánh của CF, nó xây dựng
hệ thống đề xuất bằng cách xem xét hành vi trước đây của người dùng (xếp hạng được đưa
ra cho các mặt hàng đó, các mặt hàng đã chọn hoặc mua trước đó) Sau đó đối sánh với
những người dùng có sở thích liên quan (hoặc thay vào đó là các sản phẩm phù hợp với sở Nguyễn Lương Liệu — 11192734 12
Trang 25Chuyên dé tốt nghiệp
thích) bằng cách tính toán sự tương đồng giữa các hồ sơ của ho để rồi đưa ra các dé xuất
Những người dùng như vậy tạo nên một nhóm được gọi là vùng lân cận (neighborhood).
Một người dùng nhận được đề xuất cho những mặt hàng mà anh ta chưa đánh giá trước đây
nhưng đã được người dùng trong vùng lân cận của anh ta đánh giá tích cực.
Các gợi ý được tạo ra bởi MBCF có thể là dự đoán (prediction) hoặc dé xuất
(recom-mendation) Dự đoán là một giá trị số z„¡, thể hiện điểm xếp hang dự đoán của người dùngcho mục tin i, trong khi Đề xuất là danh sách N mục tin hang dau (list of top N items) mangười dùng sẽ thích nhất MBCF có hai hướng tiếp cận đó là dựa trên người dùng va dựa
trên mục tin.
2.2.1 Tính toán độ tương tự
Ở trên đã đề cập sự tương đồng giữa các hồ sơ người dùng, những hồ sơ người dùng
có sự tương đồng cao sẽ tạo thành một vùng lân cận Sự tương đồng có một vai trò quantrọng trong việc xác định các người dùng hay mục tin lân cận để đưa ra gợi ý Để hệ thống
có thể làm việc được thì ta cần phải tính toán được sự tương đồng này Trong RS, sự tương
đồng này được gọi là độ tương tự (similarity) và có thể được tính bằng nhiều phương pháp
khác nhau Hai cách phổ biến nhất được dùng để tính toán đại lượng này là độ tương tự
Cosine và tương quan Pearson (Isinkaye et al., 2015; Kangas, 2002; Thai Nghe, 2016).
* Độ tương tự Cosine (Cosine Similarity) đo lường sự giống nhau giữa hai vectơ bằngcách tính toán cosin của góc giữa hai vector Giá trị của nó nằm trong khoảng (0; 1)
tuyến tính giữa hai biến Nó được sử dung để tính toán độ tương tự giữa hai người dùng
hoặc giữa hai mục tin.
ball -X)0i~Y)
va X)*JJS7_¡0i—P)?
2.2.2 Thuật toán Lọc cộng tác dựa trên người dùng (UBCF)
siMpearson(X Y) = "xy =
Thuật toán được dé xuất vào cuối những năm 1990 bởi giáo su Jonathan L.Herlocker
của Đại hoc Minnesota (Asanov, 2011) Ở đây, người dùng đóng vai trò chính Nếu đa số
Nguyễn Lương Liệu — 11192734 13
Trang 26Chuyên dé tot nghiệp
người dùng có cùng sở thích thì họ sẽ tham gia vào một nhóm gọi là vùng lân cận UBCF
đưa ra các dé xuất cho người dùng dựa trên đánh giá các mục tin của những người dùng
khác trong vùng lân cận Nếu mục tin được những người dùng lân cận đánh giá tích cực, nó
sẽ được giới thiệu cho người dùng.
Users Items
High similarity
Hình 2.2 Lọc cộng tác dựa trên người dùng
Ý tưởng thực hiện thuật toán như sau:
» Biểu diễn mỗi người dùng bằng một vector đặc tính (feature vector) được xây dung từ
những phản hồi của người dùng với các mục tin trong quá khứ Từ đó, tính toán độ
tương tự giữa những người dùng.
« Dé đo lường mức độ yêu thích của người dùng với mục tin i, ta sẽ chọn ra k người
dùng đã từng đánh giá i và có độ tương tự với là cao nhất Sau đó, dựa vào phản hồicủa k người dùng đó với i để tính toán ra kết quả
* Cuối cùng, dự đoán những mục tin mà u yêu thích nhất để gợi ý
Các bước cụ thể của thuật toán sẽ được trình bày sau đây.
a) Chuẩn hóa ma trận U-I
Nguyễn Lương Liệu — 11192734 14
Trang 27Chuyên dé tốt nghiệp
Như đã đề cập ở phần trước, các thông tin (bao gồm người dùng, mục tin và phảnhồi) mà hệ thống thu thập được sẽ được biểu diễn ở dạng ma trận, gọi là ma trận U-I Ví dụ
như Hình 2.3.
Ở bước đầu tiên của thuật toán, ta đã đề cập đến việc tính toán độ tương tự giữa người
dùng này với những người dùng khác Để thực hiện tính toán, cần xây dựng các vectors đặctính cho mỗi người dùng rồi áp dụng một hàm có khả năng đo đọ độ tương tự giữa cácvector với nhau Các vectors này được lấy trực tiếp từ ma trận U-I chứ không dùng dif liệungoài (như thông tin mô tả mục tin) Với mỗi người dùng, thông tin duy nhất biết được là
các đánh giá mà anh ta đã thực hiện, tức cột tương ứng với người dùng đó trong ma trận
U-I Thực tế là giá trị các cột này thường bị trống rất nhiều vì mỗi người dùng thường chỉđánh giá một số lượng rất nhỏ các mục tin
Giải pháp là phải giúp hệ thống điển vào các giá trị trống sao cho việc điền khôngảnh hưởng nhiều tới sự giống nhau giữa các vectors Nó chỉ phục vụ cho việc tính độ tương
tự chứ không phải là suy luận ra giá trị cuối cùng Một cách đơn giản, có thể thay vào đó
giá trị "0" Điều này không thực sự tốt vì giá trị "0" tương ứng với mức độ quan tâm thấp
nhất Hay một cách khác là thay thế bằng giá trị trung bình của thang đo đánh giá, ví dụ
"2.5" với thang đo 5 trong trường hợp Hình 2.3 Tuy nhiên theo cách này, những giá tri sẽ
gap hạn chế với những người dùng dé tính hoặc khó tính Người dùng dé tính sẽ đánh giá
5 đồng nghĩa với việc yêu thích, còn khi không thích sẽ cho ít sao hơn, như 2 điểm hoặc 3điểm Khi đó, "2.5" khiến những đánh giá không thích sẽ trở thành tiêu cực (negative) Với
Nguyễn Lương Liệu — 11192734 15
Trang 28Chuyên dé tốt nghiệp
người dùng khó tính, họ thậm chí chỉ cho 3 điểm khi thích và dưới 3 khi không thích Hợp
lý nhất, ta sẽ sử dụng giá trị trung bình cộng đánh giá của mỗi người dùng
3.2 | 2/5 | 2.5 1.33 | 2.5 15 | 3.33
Hình 2.4 Tính trung bình đánh giá của người dùng
Cụ thể, sau khi tính được giá trị trung bình đánh giá của mỗi người dùng, ta sẽ không
sử dụng luôn các giá trị này thay cho các ô "?" Thay vào đó, lấy các giá trị đánh giá của
mỗi người dùng trừ đi giá trị đánh giá trung bình tương ứng của người dùng đó Với giá trị
"2" thay bằng giá trị 0 Cách làm này giúp phân loại đánh giá thành 2 loại: giá trị âm (người
dùng không thích mục tin) và giá trị dương (người dùng yêu thích mục tin) Các giá trị bằng
0, tương ứng với những mục tin chưa được đánh giá Cách làm này được gọi là chuẩn hóa
ma trận U-I và kết quả thu được ma trận U-I chuẩn hóa (Hình 2.5)
Nguyễn Lương Liệu — 11192734 16
Trang 29Chuyên dé tốt nghiệp
b) Tính toán độ tương tự giữa các người dùng
Sau khi chuẩn hóa ma trận, ta cần tính toán độ tương tự giữa những người dùng Độ
tương tự được xác định theo hai phương pháp Độ tương tự Cosine và tương quan Pearson
đã được dé cập ở trên như sau (Thai Nghe, 2016):
SIMcosine (u, u') =
SIM pearson (u, u') =
Trong đó:
r„¡ Vary; là đánh giá của người dùng và trên mục tin i tương ứng.
I, là tập các mục tin được đánh giá bởi cả người dùng và người dùng uv’.
7, là giá trị đánh giá trung bình trên tất cả các mục tin của người dùng u
7 là giá trị đánh giá trung bình trên tat cả các item của người dùng u’
c) Dự đoán
Sau khi tính toán độ tương tự giữa những người dùng, ta sẽ dự đoán đánh giá người
dùng với mỗi mục tin dựa trên k người dùng lân cận (neighbor users) Công thức phổ biến
thường được sử dụng để dự đoán đánh giá của người dùng z lên mục tin i được xác định:
Nguyễn Lương Liệu — 11192734 17
Trang 30Chuyên dé tot nghiệp
aA = - Lwex, Sim(u, wu’) (Twi — Tw)
Tui = Tut ; P
S„.cKụ |Sim(w, 0')|
Trong đó:
sim(u,u’) là độ tương tự giữa người dùng và được tính toán theo phương pháp Cosine
hoặc Pearson như ở trên.
k„ là số người dùng lân cận của người dùng u
Thực hiện dự đoán cho các ô có giá trị bằng 0, sau đó cộng lại với các giá trị đánh
giá trung bình (ở bước chuẩn hóa) theo từng cột, chúng ta sẽ thu được ma trận hoàn thiện.
2.2.3 Thuật toán Lọc cộng tác dựa trên mục tin (IBCF)
Thuật toán này được dé xuất bởi các nhà nghiên cứu tại Dai học Minnesota vào năm
2001 (Asanov, 2011) IBCE đưa ra đề xuất cho người dùng dựa trên độ tương tự giữa các
mục tin mà người dùng đã xếp hạng trước đó Những mục tin có độ tương tự cao sẽ tạo nên
vùng lân cận và gọi là mục tin lân cận Một mục tin sé được dé xuất cho người dùng khi mà
mục tin lân cận của nó được xếp hạng tích cực bởi người dùng này.
Users Items
High similarity
Hình 2.6 Lọc cộng tác dựa trên mục tin
Tương tự như UBCF, thuật toán này được thực hiện như sau:
Nguyễn Lương Liệu — 11192734 18
Trang 31Chuyên dé tốt nghiệp
* Biểu diễn mỗi mục tin bằng một vector đặc tính, rồi tính toán độ tương tự giữa chúng
s Tính mức độ yêu thích của người dùng với mục tin i bằng cách chọn ra k mục tin đãtừng được đánh giá và có độ tương tự với i cao nhất Sau đó, dựa vào phản hồi của uvới k mục tin đó để đưa ra kết quả
* Cuối cùng, chọn các mục tin được dự đoán là yêu thích nhất để gợi ý
Về mặt kỹ thuật, IBCF có thể thực hiện theo UBCF bằng cách chuyển vị ma trận
U-I, coi như mục tin đánh giá người dùng Sau khi tính được kết quả, chúng ta lại thực hiện
chuyển vị một lần nữa sẽ thu được kết quả cuối cùng Các bước cụ thể được tiến hành khátương tự so với UBCE Đầu tiên, tại bước chuẩn hoán ma trận U-I, chúng ta sẽ tính trung
bình cộng đánh giá của các mục tin thay vì của người dùng như trong UBCF Ta sẽ sử dụng
lại ví dụ Hình 2.3 để minh họa.
siMeosine (i, i’) =
Neuyén Luong Liéu — 11192734 19
Trang 32Chuyên dé tốt nghiệp
Lucy (Tui — Tj )uit — Fit)
i Euctiy (Fai —Fi P /Zucuiy( it yi! — Fy)?
SIM pearson (i, i’) =
Trong đó:
rự¡ Var, là đánh giá của người dùng u trên mục tin i và 7’.
Uj là tập các người dùng có đánh trên cả hai mục tin i va i’.
7; là giá trị đánh giá trung bình của tất cả các người dùng lên i
7, là giá trị đánh giá trung bình của tat cả các người dùng lên 7.
Cuối cùng là dự đoán ra đánh giá của những người dùng với mỗi mục tin, tương tự
như UBCF Công thức dự đoán đánh giá của người dùng z lên mục tin i được xác định:
k, là số mục tin lân cận của i
Sau khi dự đoán được các đánh giá chưa biết, sau đó cộng lại với các giá trị đánh giá
trung bình theo từng hàng, chúng ta sẽ thu được ma trận U-I day đủ.
2.3 Ưu điểm của thuật toán Lọc cộng tác
* Không yêu cau các tinh năng chi tiết và dữ liệu theo ngữ cảnh về sản phẩm hoặc mặt
hàng Nó chỉ cần ma trận U-I để đào tạo mô hình.
* Các thuật toán lọc cộng tác không dành thời gian cho việc phát triển ngôn ngữ, phân
tích tài liệu và phát triển các công cụ phân tích cú pháp và các thuật toán gốc từ
(word-stemming), chúng tập trung vào các thuật toán phân cụm.
* Có thể giúp người dùng khám phá sở thích mới ngay cả khi họ không tích cực tìm kiếm
bằng cách dé xuất các mặt hàng mới tương tự như những gì họ quan tâm
2.4 Đánh giá thuật toán đề xuất
Chất lượng của thuật toán đề xuất có thể được đánh giá bằng cách sử dụng các tiêu
chí khác nhau Loại tiêu chí được sử dụng phụ thuộc vào loại thuật toán lọc Bài viết này sẽ
Nguyễn Lương Liệu — 11192734 20
Trang 33Chuyên dé tốt nghiệp
đề cập đến tiêu chí phản ánh độ chính xác của thuật toán, bao gồm các chỉ số đo lường độchính xác hỗ trợ quyết định và thống kê (Isinkaye et al., 2015) Mức độ phù hợp của mỗichỉ số phụ thuộc vào các đặc trưng của tập dif liệu và loại nhiệm vụ mà hệ thống gợi ý sẽ
thực hiện.
2.4.1 Các chỉ sé về độ chính xác thông kê
Các chỉ số về độ chính xác thống kê đánh giá độ chính xác của kỹ thuật lọc bằng
cách so sánh trực tiếp xếp hạng dự đoán với xếp hạng thực tế của người dùng Sai số trungbình tuyệt đối (MAE), Sai số bình phương trung bình căn bậc hai (RMSE) thường được sửdụng làm thước đo độ chính xác thống kê (Isinkaye et al., 2015)
MAE là giá trị trung bình của độ lệch tuyệt đối giữa xếp hạng dự đoán và xếp hạngthực tế Nó được tính như sau:
Thakur, 2018).
RMSE là độ đo phổ biến mà cộng đồng người dùng trong lĩnh vực RS thường sử
dụng (Thai Nghe, 2016) Nó thu được bằng cách bình phương chênh lệch giữa xếp hạng dự
đoán và xếp hạng thực tế, rồi cộng lại với nhau, chia cho số dự đoán và sau đó lấy căn bậc
[1
RMSE = | /— Y (Pui — ru)”
RMSE chú trong nhiều hơn đến các sai số tuyệt đồi lớn hơn va RMSE càng thấp thì
hai của kết quả.
độ chính xác của khuyến nghị càng tốt (Thai Nghe, 2016)
2.4.2 Các chỉ sô về độ chính xác hỗ trợ quyết định
Các chỉ số này giúp đánh giá hiệu quả của việc đề xuất Một đề xuất được xem là phù
hợp khi người dùng lựa chọn mục tin từ danh sách các mục tin đã được hệ thống đề xuất.
Nguyễn Lương Liệu — 11192734 21
Trang 34Chuyên dé tot nghiệp
Các chỉ số được sử dụng phổ biến là Precision và Recall (Isinkaye et al., 2015; P Kumar
& Thakur, 2018; Thai Nghe, 2016).
Precision là tỉ lệ giữa số các mục tin được dé xuất chính xác trên tổng số các mục tin
được dé xuất
Các đề xuât mục tin chính xác
Precision = — z : =
Tổng sô mục tin được dé xuat
Con Recall là tỉ lệ giữa số các dé xuất mục tin chính xác và số các dé xuất mục tin
hữu ích, tức những mục tin được gợi ý cho người dùng và họ thực sự đã lựa chọn chúng.
Recall cho biết khả năng đề xuất mặt hàng phù hợp với nhu cầu người dùng của hệ thống
Các dé xuất mục tin chính xác
Recall =
Các đề xuất mục tin hữu ích
Nguyễn Lương Liệu — 11192734 22
Trang 35Chuyên dé tốt nghiệp
Chương 3 UNG DỤNG CUA HỆ THONG ĐỀ XUẤT TRONG THỰC
TIEN
3.1 Những lợi ích của hệ thong đề xuất
Hệ thống dé xuất là một thành phần quan trọng thúc đẩy trải nghiệm người dùngđược cá nhân hóa, tương tác sâu hơn với khách hàng và các công cụ hỗ trợ quyết định mạnh
mẽ trong bán lẻ, giải trí, chăm sóc sức khỏe, tài chính và các ngành khác Trên một số nền
tảng thương mại lớn nhất, các đề xuất chiếm tới 30% doanh thu Việc cải thiện 1% chấtlượng của các đề xuất có thể mang lại doanh thu hàng tỷ đô la (NVIDIA, 2021) Không chỉđối với những doanh nghiệp, hệ thống đề xuất cũng dem lại cho khách hàng — những ngườidùng tương tác trực tiếp với hệ gợi ý một số lợi ích
3.1.1 Đối với doanh nghiệp
* Tăng doanh số bán hàng Một trong những lợi thế ấn tượng nhất của việc sử dụng hệ
thống dé xuất là tăng doanh số cho các nhãn hàng trực tuyến Với các công cụ dé xuất
khác nhau như “Được dé xuất cho bạn”, “Dành riêng cho bạn”, “Các sản phẩm liên
quan”, “Best sellers”, các cửa hàng trực tuyến có thể cung cấp cho khách hàng nhiều
lựa chọn hơn khi họ đang mua sắm Do đó, các phương pháp này giúp tăng số lượng
mặt hàng cũng như giá trị trung bình trên mỗi đơn đặt hàng Một ví dụ đáng chú ý vềcác doanh nghiệp trực tuyến thành công khi áp dung các công cụ dé xuất sản phẩm
là Amazon Thống kê năm 2015 đã cho thấy 35% tổng doanh thu của Amazon đến từ
các tác động tích cực của các công cụ khuyến nghị mà thương gia trực tuyến khổng 16
này đã sử dụng (Jones & Groom, 2019).
* Tao sự hài lòng của khách hàng Các công cụ dé xuất sản phẩm thể hiện rat tốt trong
việc tạo ra cảm giác hài lòng giữa những người tiêu dùng trong và ngay cả sau phiên
tìm kiếm của họ Khi họ nhập các từ khóa để tìm kiếm các sản phẩm mong muốn của
mình, các thuật toán sẽ phân tích dựa trên một số tiêu chí như từ khóa, lần mua trước,
để tìm ra thị hiéu va sở thích của khách hang Do đó, khách truy cập có thể nhận được
dé xuất thích hợp khi ho đang mua sắm Ngay cả khi họ hoàn thành việc mua một sảnphẩm, quản lý cửa hàng cũng có thể gửi đề xuất cho người vừa mua hàng qua email
của họ hoặc các phiên mua sắm tiếp theo của ho Các dé xuất thích hợp vào đúng thời
điểm và đúng nơi giúp các trình duyệt web dé dàng tìm ra những gi họ muốn Day là
Nguyễn Lương Liệu — 11192734 23
Trang 36Chuyên dé tot nghiệp
cách mà hệ thống dé xuất sản phẩm tao ra sự giữ chân khách hàng cho tất cả khách
truy cập của họ.
* Chuyển khách vãng lai thành người mua hàng (Hà & Thức, 2021) Khách vãng lai
thường ghé thăm trang web để xem mà không mua hàng Người dùng thường lựa chọn
dịch vụ miễn phí mà không nâng cấp lên gói thành viên Bằng cách liên tục đưa ranhững dé xuất phù hợp với sở thích của người dùng và khách hang, các hệ thống gợi
ý giúp xây dựng được cảm tình ban đầu đối của khách đối với nhãn hàng Các doanhnghiệp cũng có nhiều khả năng khiến họ trở thành người đăng ký trung thành hoặc
người mua sam.
* Giảm khối lượng công việc va chi phí Khối lượng dữ liệu cần thiết để tạo trải nghiệm
mua sắm cá nhân cho mỗi khách hàng thường quá lớn để có thể quản lý theo cách thủcông Bên cạnh đó, để quảng bá sản phẩm đến với nhiều khách hàng hơn đòi hỏi doanhnghiệp phải bỏ ra một lượng lớn chi phí marketing Hệ thống dé xuất là một công cụ
tự động hóa tuyệt vời, giúp tối ưu quy trình này Nó giúp giảm bớt khối lượng côngviệc cho các nhân viên Công nghệ thông tin, đồng thời giúp tiết kiệm chi phí quảngcáo và nâng cao hiệu suất marketing của nhãn hàng khi mà hệ gợi ý giúp đưa những
sản phẩm đến đúng những khách hàng đang có nhu cầu.
(T Áo Len Cổ Cao Mẫu Áo Khoác Bò Phối Ghép Dầu dưỡng bóng mượt, Áo Khoác Nhung Kẻ Soc (TT) Tay Thâm Kim, VếtỔ, Nước Cân Bang Da Simple
Mới Thu Đông 2022 Áo Le Màu Tương Phản Thu Hút phục hồi hư tổn tóc Lab Khâu Cổ Điển Retro Đồng Vết Ri Sét Trên Vải - M79 Kind To Skin Soothing
(TT Áo Len Cố Chữ VMàu QE) Áo Len Dài Tay Rộng CD [HÀNG NƯỚC ANH] Áo Len Rách Cảm Giác GED Áo Hoodie Lót Lông Dầu gội Không Silicone
Tron Sanh Điệu Instagram Rai Mẫu Mới Thu Đông Combo SIMPLE Sạch Da Thiết Kế Viên Lông Phong Mau Tron Áo Khoác Nam Giảm gàu Lab Nature N~ „
151.000 đ 138.000 đ 79.000 đ 108.000 đ 54.000 đ 195.000 đ Tin nhắn
Hình 3.1 Dé xuất "Dành riêng cho ban" tại trang chủ của Lazada
Nguyễn Lương Liệu — 11192734 24