Chuyên đề tốt nghiệp: Ứng dụng Machine Learning trong xây dựng hệ thống đề xuất phim ảnh

Bài viết này giới thiệu một hệ thống dé xuất phim như vậy dựa trên Machine Learning với các thuật toán Lọc cộng tác dựa trên bộ nhớ với hai cách tiếp cận người dùng và mục tin; nhằm gợi

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

KHOA TOÁN KINH TÊ

CHUYÊN ĐỀ TỐT NGHIỆP

NGÀNH TOÁN KINH TẾ

BES STS OES BS 248 2 2 8 SES SES STS IS OBS 2S 2 2 8 SIS SIS OBS OR OR 2S 2S SS SIS IS OR OR OR 9S ES IS OK OR OK OR RE

Đề tài:

Giảng viên hướng dẫn: TS Nguyễn Quang Huy

Sinh viên thực hiện: Nguyễn Lương Liệu

HÀ NỘI - 11/2022

Trang 2

TRƯỜNG ĐẠI HỌC KINH TÊ QUỐC DÂN

KHOA TOÁN KINH TE

CHUYÊN ĐỀ TỐT NGHIỆP

333K 33k 3k 3 5 2 3K tk 2S 3É 3k 2 9 3K 246 26 2S FAS 2S 2g 3K 28 2S FS 3< 2k 2g 3É 28 28 tk 3É 2k 3 2 2 OK šk

Đề tài: Ung dụng Machine Learning trong xây dựng hệ

thông đề xuât phim ảnh

Giảng viên hướng dẫn: TS Nguyễn Quang Huy

Sinh viên: Nguyễn Lương Liệu

Mã sinh viên: 11192734

Lớp chuyên ngành: Toán kinh tế 61

HÀ NỘI - 11/2022

Trang 3

Lời cam đoan

Tôi là Nguyễn Lương Liệu, mã số sinh viên 11192734, sinh viên lớp Toán kinh tế

61, khoa Toán kinh tế.

Tôi xin cam đoan toàn bộ nội dung được trình bày trong đề tài tốt nghiệp "Ung dungMachine Learning trong xây dựng hệ thông đề xuất phim ảnh" là kết quả quá trình tìm hiểu

và nghiên cứu của tôi dưới dự hướng dẫn của TS Nguyễn Quang Huy Mọi thông tin tham khảo đều có nguồn gốc rõ ràng và được trích dẫn hợp pháp Tôi xin chịu hoàn toàn trách

nhiệm với những nội dung được viết trong chuyên đề này

Hà Nội, ngày 5 thang 11 năm 2022

Tác giả

Nguyễn Lương Liệu

Trang 4

Lời cảm ơn

Để hoàn thành được chuyên đề tốt nghiệp này, đã có sự nỗ lực đến từ bản thân em và

những đóng góp không nhỏ đến từ những cá nhân khác Đầu tiên, em xin được gửi lời cảm

ơn đến TS Nguyễn Quang Huy, giảng viên hướng dẫn của em Những góp ý và sự chỉ bảo

của thầy đã giúp em hoàn thiện được chuyên dé này Bên cạnh đó, em cũng xin cảm ơn chịNguyễn Vân Nhi, cựu sinh viên lớp Toán Kinh tế 60, người chị đã truyền cảm hứng cho ýtưởng dé tài này Ngoài ra, xin cảm ơn sự đồng hành của các bạn cùng nhóm chuyên dé, đãluôn chia sẻ những khó khăn cùng nhau trong quá trình thực hiện đề tài

Tuy rằng em đã cố gắng để hoàn thành đề tài này một cách tốt nhất, nhưng những

thiếu sót han không thể tránh khỏi Em hi vọng được đón nhận những ý kiến nhận xét của

các thay cô trong hội đồng khoa học để em có thể có được những kinh nghiệm và bài học

hữu ích cho quá trình nghiên cứu sau này.

Trang 5

Mục lục

Danh mục ký hiệu và từ viết tắt

Danh mục hình ve

Danh mục bảng biểu

Tóm tắt

GIỚI THIEU CHUNG

Đặt vân đề

Phạm vi, đối tượng và phương pháp nghiên cứu

Bố cục chuyên đề

Chương 1 CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN NGHIÊN CỨU 1.1 Một số khái nệm cơbản

1.1.1 Hoc máy (Machine Learning) 1.1.2 Hệ thống đề xuất (Recommendation Systen)

1.2 Tổng quan một hệ thống để xuấtcơbản

1.2.1 Các thành phan cơ ban của một hệ thống đề xuất

1.2.2 Biểu diễn thông tin trong một hệ thống để xuất

1.2.3 Các giai đoạn của quá trình đềxuất

1.2.4 Hồ sơ người dùng (User profile)

1.2.5 Các dạng phản hồi chính của hệ thống

1.3 Một số vấn đề và thách thức của hệ thống đề xuất

1.3.1 Khoi động chậm (Cold-start)

1.3.2 Dữ liệu thưa (Data sparsity)

iii

iv

Trang 6

13.3 Khảnăng mởrộng (Scalability) 9

13.4 Từ đồng nghĩa (Synonymy) ee 9 1.3.5 Quyển riêng tu (Privacy) ee 9 1.4 Tổng quan một số nghiên cứu liên quan - 10

Chương 2 THUẬT TOÁN ĐỀ XUẤT 11 2.1 Phân loại các thuậttoán Ặ Q Q Q Q Q Q S 11 2.2 Thuật toán Loc cộng tác dựa trên bộ nhớ (Memory-based CF) 12

2.2.1 Tính toán độ tươngtự Ặ Q eee eee 13 2.2.2 _ Thuật toán Lọc cộng tác dựa trên người dùng (UBCF) 13

2.2.3 _ Thuật toán Loc cộng tác dựa trên muctin(JBCF) 18

2.3 Ưu điểm của thuật toán Lọc cộng tác 20

2.4 Đánh giá thuật toán đề xuất 20

2.4.1 Các chỉ số về độ chính xác thốngkê - 21

2.4.2 Cac chỉ số về độ chính xác hỗ trợ quyết định 21

Chương 3 UNG DUNG CUA HỆ THONG ĐỀ XUẤT TRONG THUC TIẾN 23 3.1 Những lợi ích của hệ thống dé xuất 23

3.1.1 Đối với doanhnghiệp 23

3.1.2 Đối vớ kháhhàng 25

3.2 Ứng dụng của hệ thống dé xuất trong một số lĩnh vực 25

3.2.1 Xuhướng th trường Ặ.Ặ 0.02000 000 ee 25 3.2.2 Một số trường hợp tiêu biểu sử dụngRS 26

Chương 4 DỮ LIỆU VÀ KẾT QUÁ NGHIÊN CỨU 28

4.1 DữlệunghincỨu 2 0 Q Q QOQ Q Q2 28

4.2 Tiền xử lý dữ liệu ee 30

Trang 7

43 Khám phá dữ liệu Ặ.Ặ.Ặ Q Q Q QQ QQ

4.3.1

4.3.2 4.3.3 4.3.4

Khám phá các giá trị của xếp hạng

Khám phá những bộ phim đã được xem

Khám phá xếp hạng trung bình

Hình dung matrận

44 Chuẩn bị dữ liệu TQ ee eee 4.4.1 4.4.2 Lựa chọn dữ liệu lên quannhat

Chuẩn hóa dữ liệu

4.5 Xây dựng hệ thống

đềxuất -4.6 Đưa ra đề xuất cho người dùng

KẾT LUẬN Kết quả đạt được 2 Q Q Q Q TQ TQ Q Q v Những hạn chế của nghiên cứu

Hướng nghiên cứu tiếp theo

Tài liệu tham khảo

Phụ lục

48

50

Trang 8

Chuyên dé tốt nghiệp

Danh mục ký hiệu và từ viết tắt

CF Lọc cộng tác (Collaborative Filtering)

IBCF Loc cộng tac dựa trên bộ nhớ (Item-based Collaborative Filtering)

Ma trận U-I Ma trận người dùng — mục tin

MAE Sai số trung bình tuyệt đối

MBCF Loc cộng tác dua trên bộ nhớ (Memory-based Collaborative Filtering)

ML Hoc may (Machine Learning)

RMSE Sai số bình phương trung bình căn bậc hai

RS Hệ thống dé xuất (Recommendation System)

UBCF Loc cộng tac dựa trên người dùng (User-based Collaborative Filtering)

Neuyén Luong Liéu — 11192734 i

Trang 9

Danh mục hình vẽ

Hình 1.1 Hình 1.2

Hình 2.1

Hình 2.2

Hình 2.3

Hình 2.4 Hình 2.5 Hình 2.6 Hình 2.7 Hình 3.1 Hình 3.2 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.6 Hình 4.7 Hình 4.8 Hình 4.9

Hình 4.10

Hình 4.11 Hình 4.12 Hình 4.13

Các dé xuất bài hát của Spotify

Quá trình đề xuất

Các thuật toán đề xuất

Lọc cộng tác dựa trên người dùng

Ma trậnU-I Q Q Q Q Q Q Q S Tính trung bình đánh giá của người dùng

Ma trận U-Ichuẩnhóa

Lọc cộng tác dựa trên mụcfn

Tính trung bình đánh giá của mục tn

Đề xuất "Dành riêng cho ban" tại trang chủ của Lazada

Hàng loạt danh mục bài hát gợi ý từ Spotify cho người dùng lựa chọn Mô phỏng cấu trúc bộ dữ liệu MovieLens

Một số quan sát của MovieLenseMeta

Một số quan sát của MovieLenseUser

Tần suất các giá trị xếphạng

Các bộ phim được xem nhiều nhất

Phân bố các giá trị xếp hạng trungbình

Xếp hạng trung bình của những bộ phim có lượt xem trên 100 Ma trận MovieLense Ặ Q Q ee ee Các dòng đầu tiên và các cột của ma trận

Ma trận người dùng và bộ phim lên quan

Dòng và cột đầu tiên của ma trận sau khi đã lọc theo tiêu chí

Xếp hạng trung bình mỗi người dùng sau khi đã lọc theo tiêu chi

Các dòng và cột đầu tiên của ma trận sau khi chuẩn hóa

Nguyễn Lương Liệu — 11192734

25 28 20

20

30 31 32 33 34

35

36 37 38 39

il

Trang 10

Hình 4.14 Đồ thị precision-recall của IBCF với các giá trị k khác nhau 41

Hình 4.15 Đồ thi precision-recall của UBCF với các giá trị k khác nhau 42

Hình 4.16 So sánh hiệu quả của hai thuậttoán 43

Hình 4.17 Những bộ phim có lượt xem cao nhất trong tập kiểm tra 45

Nguyễn Lương Liệu — 11192734 iii

Trang 11

Danh mục bảng biểu

Bảng I.I Ma trận người dùng- mụctin - 5

Bang 4.1 Top 10 bộ phim được dé xuất cho người dùng của UBCF 44

Bảng 4.2 Top 10 bộ phim được đề xuất cho người dùng claIBCF 44

Nguyễn Lương Liệu — 11192734 1V

Trang 12

Tóm tắt

Hệ thống đề xuất phim nhằm giúp những người yêu thích phim ảnh bằng cách gợi

ý phim nên xem mà không cần phải trải qua quá trình lựa chọn lâu dài từ một kho phim lớn lên tới hàng nghìn, hàng triệu bộ phim gây mat thời gian và khó hiểu Bài viết này giới thiệu một hệ thống dé xuất phim như vậy dựa trên Machine Learning với các thuật toán Lọc

cộng tác dựa trên bộ nhớ với hai cách tiếp cận người dùng và mục tin; nhằm gợi ý những

bộ phim được cá nhân hóa phù hợp với sở thích của người dùng Nghiên cứu sử dụng bộ dữ

liệu MovieLens 100K với khoảng gần 100 nghìn xếp hạng đến từ hơn nhiều người dùng và

bộ phim khác nhau.

Nguyễn Lương Liệu — 11192734 V

Trang 13

GIỚI THIỆU CHUNG

Dat van đề

Bat đầu từ ky nguyên Web 2.0, Internet bắt đầu lớn lên và phát triển với tốc độ chóng

mặt Nhiều cơ hội, chẳng hạn như chia sẻ kiến thức, thông tin và ý kiến với những người

dùng khác, đã xuất hiện Điều này đã tạo điều kiện thuận lợi cho sự phát triển của các mạng

xã hội như Facebook hay Twitter Ngày nay, các tác giả có thể chia sẻ sáng tạo của họ với

hàng triệu độc giả trên toàn cầu Các nhạc sĩ nghiệp dư có thể trở nên nổi tiếng nhanh hơn

bao giờ hết chỉ bằng cách tải lên các bản nhạc của họ Giới kinh doanh đã tìm thấy nhiều

khách hàng hơn và thu được lợi nhuận trên internet Một loạt các cửa hàng trực tuyến, hoặc đấu giá mở ra trên Internet.

Ngày nay, mọi người dùng Internet đều có thể mua hầu hết mọi mặt hàng ở bất kỳquốc gia nào trên thế giới Trái ngược với các cửa hàng thực, các cửa hàng trực tuyến không

bị giới hạn về địa điểm Tuy nhiên, mọi người đã gặp phải một van đề mới Lượng thông tin, vật phẩm trở nên vô cùng lớn dẫn đến tình trạng quá tải thông tin Nó đã trở thành một chướng ngại để người dùng tìm thấy những gì mà họ đang thực sự tim kiếm Các công cụ

tìm kiếm như Google hay Bing đã giải quyết được một phần vấn đề đó, tuy nhiên, việc sắpxếp thứ tự ưu tiên và cá nhân hóa thông tin lại không có Các nhà phát triển đã tìm thấy giảipháp trong các hệ thống dé xuất Hệ thống dé xuất là một ứng dụng lọc thông tin được cánhân hóa và đưa ra cách hiểu sở thích của người dùng và gợi ý những điều phù hợp với họ

bằng cách xem xét thói quen trong số các lượt thích và xếp hạng của họ đối với nhiều thứ

khác nhau (Das et al., 2017).

Những lợi ích của hệ thống đề xuất đem lại không chỉ dừng lại như vậy, nó còn nângcao trải nghiệm khách hàng, tăng doanh thu cho doanh nghiệp dẫn đến sự phổ biến của hệthống dé xuất trong những năm gan đây Theo Grand View Research (2021), quy mô thịtrường công cụ đề xuất toàn cầu được định giá 1,77 tỷ USD vào năm 2020 và dự kiến sẽ mởrộng với tốc độ tăng trưởng kép hàng năm là 33,0% từ năm 2021 đến năm 2028 Các lĩnh

vực ứng dụng ứng dụng hệ thống đề xuất cũng mở rộng hơn từ thương mại điện tử, giải trí

trực tuyến đến y tế, giáo dục Trong đó, dịch vụ xem phim trực tuyến là một đại diện tiêubiểu cho dịch vụ giải trí trực tuyến với các hệ thống đề xuất phim Hệ thống đề xuất phim

đã tiết kiệm hàng giờ tìm kiếm và lựa chọn phim của người dùng, đồng thời giúp nhà cungcấp tiếp thị tốt hơn các sản phẩm đến khách hàng

Nguyễn Lương Liệu — 11192734 1

Trang 14

Sự phát triển của các thuật toán dựa trên Học máy gần đây như Lọc cộng tác hay Lọckết hợp đã giúp cải thiện chất lượng của các hệ thống đề xuất Trong nghiên cứu này sẽ tậptrung tìm hiểu và ứng dụng một số thuật toán Machine Learning trong để xây dựng một hệthống đề xuất đưa ra gợi ý phim đến người dùng

Phạm vi, đối tượng và phương pháp nghiên cứu

« Đối tượng nghiên cứu: Hệ thông đề xuất và các khía cạnh của nó

* Pham vi nghiên cứu: Nghiên cứu tập trung trình bày các khía cạnh của một hệ thống

dé xuất bao gồm khái niệm, quá trình dé xuất và thuật toán được dé cập chủ yếu về

thuật toán Lọc cộng tác với hai tiếp cận người dùng và mục tin Bên cạnh đó cũng đềcập đến những lợi ích của hệ thống dé xuất và ứng dụng của nó trong một số lĩnh vực

¢ Phương pháp nghiên cứu: Phương pháp Machine Learning được sử dụng trong thực

hiện xây dựng một hệ thống đề xuất phim, trong đó kĩ thuật Kiểm chứng chéo (Cross validation) được dùng để tính toán các chỉ số đánh giá để cho ra hiệu quả đề xuất tốt

nhất

Bo cục chuyên đề

Chuyên đề tốt nghiệp với dé tài "Ung dung Machine Learning trong xây dựng hệ

thông dé xuất phim ảnh" được câu trúc gồm 6 chương chính như sau:

¢ Giới thiệu chung

« Chương 1 Cơ sở lý thuyết và phương pháp luận

« Chương 2 Thuật toán đề xuất

* Chương 3 Ung dụng của hệ thống đề xuất trong thực tiễn

« Chương 4 Dữ liệu và kết quả nghiên cứu

» Kết luận

Trang 15

Chương 1 CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN NGHIÊN CỨU

1.1 Một số khái niệm cơ bản

1.1.1 Học máy (Machine Learning)

Theo IBM Cloud Education (2020), Hoc máy hay Machine Learning (ML) là một

nhánh cua Trí tuệ nhân tạo (AI) và khoa hoc máy tính, tập trung vào việc sử dung đữ liệu

và thuật toán để bắt chước cách con người học, dần dần cải thiện độ chính xác của nó

Học máy là một thành phần quan trọng của lĩnh vực khoa học dữ liệu đang phát triển.Thông qua việc sử dụng các phương pháp thống kê, các thuật toán được đào tạo để đưa racác phân loại hoặc dự đoán và khám phá những thông tin chỉ tiết chính (key insights) trongcác dự án khai thác dữ liệu Các quyết định được đưa ra là kết quả của những thông tin

này này tác động mạnh mẽ đến các chỉ số tăng trưởng chính trong các ứng dụng và doanh

nghiệp.

1.12 Hệ thông dé xuất (Recommendation System)

Hệ thống dé xuất (RS) hay còn gọi là hệ thống gợi ý, hệ gợi ý hoặc hệ dé xuất làmột lớp con của Học máy sử dụng dữ liệu lớn để đề xuất hoặc giới thiệu các sản phẩm bổsung cho người tiêu dùng (NVIDIA, 2021) Nó có thể dựa trên nhiễu tiêu chí khác nhau,bao gồm các giao dịch mua trong quá khứ, lịch sử tìm kiếm, thông tin nhân khẩu học và

các yếu tố khác Hệ thống dé xuất rất hữu ích vì chúng giúp người dùng khám phá các sản

phẩm và dịch vụ mà họ có thể chưa tự tìm thấy

Hệ thống đề xuất được đào tạo để hiểu sở thích, các quyết định trước đây và đặc điểm

của con người và sản phẩm bằng cách sử dụng dữ liệu thu thập được về các tương tác của

họ Chúng bao gồm hiển thị, nhấp chuột, thích và mua hàng Do khả năng dự đoán sở thích

và mong muốn của người tiêu dùng ở mức độ được cá nhân hóa cao, hệ thống giới thiệuđược các nhà cung cấp nội dung và sản phẩm yêu thích Họ có thể hướng người tiêu dùngđến bắt kỳ sản phẩm hoặc dịch vụ nào mà họ quan tâm, từ sách đến video, lớp học sức khỏe

cho đên quân áo.

Trang 16

Suýt Nữa Thì Nham Mat Thay M Minh Yeu Nhau Tu Cảm Ơn Và Xin Lỗi Tình Ca Hoàng Dũ Phút Ban Đầu

Andiez Nguyên Hà Quang Trung Chillies Hoang Dũng Vũ

Hình 1.1 Các dé xuất bài hát của Spotify

1.2 Tổng quan một hệ thống đề xuất cơ bản

1.2.1 Các thành phan co bản của một hệ thong dé xuất

Để làm việc hay xây dựng một hệ thống thông tin mới thì cần phải định hình đượcnhững thành phan gi để tạo ra chúng Trong RS, thông thường người ta quan tâm đến ba

thông tin chính (Thai Nghe, 2016):

¢ Người dùng (User) Người dùng là đối tượng làm việc của một hệ gợi ý đồng thời lànguồn cung cấp các dữ liệu cho hoạt động của hệ thống thông qua một loạt các phản

hôi.

¢ Mục tin (Item) Mục tin có thể là sản phẩm trên các trang bán hàng, bài hát trên các

trang nghe nhạc hay một người dùng khác trên mạng xã hội tùy vào mục đích dé xuất

của hệ thống Các mục tin cũng là kết quả đề xuất được gửi đến người dùng chính

¢ Phan hoi (Feedback) Phản hồi thể hiện sự quan tâm của người dùng lên mục tin đó,

thường là các xếp hạng hoặc đánh giá (rating); hay thậm chí có thể là số lần nhấp chuột

vào mục tin, thời gian trung bình tương tác với mục tin Thành phần này đóng vai trò

là cơ sở gợi ý cho người dùng.

Trang 17

1.2.2 Biểu diễn thông tin trong một hệ thông dé xuất

Sau khi đã thu thập được các thông tin trên của hệ thông bằng một cách nào đó, việc

cần làm là phải biểu diễn các thông tin đó dưới dạng có thể tính toán được Một cách hiệuquả đó là sử dụng ma trận Một ma trận được tạo ra để biểu diễn những thành phần trên của

hệ thống được gọi là ma trận người dùng - mục tin (users — items matrix), gọi tắt là ma

trận U-I (Bảng 1.1) Nó thể hiện "mức độ ưa thích" của từng người dùng lên các mục tin tương ứng.

Bang 1.1 Ma trận người dùng — mục tin

Trong ma trận U-I, mỗi cột là một người dùng, mỗi dòng là một mục tin và mỗi 6

là một giá trị phản hồi (chẳng hạn đánh giá) đại diện cho mức độ ưa thích của từng người

dùng lên các mục tin tương ứng Những ô có giá trị cho biết những mục tin mà người dùng

đã đánh giá trong quá khứ Ngược lại, những ô còn trống cho biết rằng người dùng chưa

đánh giá những mục tin đó.

Nhiệm vu của một hệ dé xuất chính là dựa vào các thông tin được biết trong quá khứcủa người dùng, RS sẽ dé xuất cho người dùng đó các mục tin mà người dùng chưa biết.Nói cách khác, RS dựa vào các 6 đã có giá trị để dự đoán các giá trị tại các 6 còn trống

trong ma trận U-I Sau đó sắp xếp theo thứ tự mức độ ưa thích giảm dần từ đó gợi ý cho

người dùng.

1.2.3 Các giai đoạn của quá trình dé xuất

Quá trình đề xuất bao gồm ba giai đoạn chính, đó là Thu thập thông tin, Học tập và

Dự đoán/đề xuất (Isinkaye et al., 2015) Quá trình được thể hiện một cách tổng quan qua

Hình 1.2.

Trang 18

Chuyên dé tot nghiệp

¢ Giai đoạn thu thập thông tin (Information collection phase) Giai đoạn nay thu

thập thông tin liên quan của người dùng để tạo hồ sơ người dùng hoặc mô hình cho

các nhiệm vụ dự đoán bao gồm đặc điểm, hành vi của người dùng hoặc nội dung củacác tài nguyên mà người dùng truy cập Một hệ đề xuất không thể hoạt động chính xáccho đến khi hồ sơ người dùng hoặc mô hình đã được xây dựng tốt Hệ thống cần biết

nhiều nhất có thể từ người dùng để đưa ra khuyến nghị hợp lý ngay từ khi bắt đầu

« Giai đoạn học tập (Learning phase) Giai đoạn này áp dụng một số thuật toán họctập để lọc và khai thác các tính năng của người dùng từ phản hồi thu thập được trong

giai đoạn thu thập thông tin.

¢ Giai đoạn dự đoán/đề xuất (Prediction/recommendation phase) Từ kết qua của

giai đoạn học tập, giai đoạn này đề xuất hoặc dự đoán loại mặt hàng mà người dùng

có thể thích.

1.2.4 Hồ sơ người dùng (User profile)

Trong giai đoạn thu thập thông tin, ta đã đề cập đến hồ sơ người dùng Mọi thông tinđược thu thập trong giai đoạn này đều dùng để tạo hồ sơ người dùng, phục vụ cho các giai

Trang 19

đoạn kế tiếp Hồ sơ người dùng là tập hợp thông tin cá nhân được liên kết với một ngườidùng cụ thể Thông tin này bao gồm các kỹ năng nhận thức, khả năng trí tuệ, phong cáchhọc tập, sở thích và sự tương tác với hệ thống Hồ sơ người dùng thường được sử dụng đểtruy xuất thông tin cần thiết để xây dựng mô hình người dùng Do đó, một hồ sơ người dùng

mô tả một mô hình người dùng đơn giản Sự thành công của bat kỳ hệ thống dé xuất nào

phụ thuộc phần lớn vào khả năng thể hiện sở thích hiện tại của người dùng Các mô hình

chính xác cần thiết phải có được các dé xuất có liên quan và chính xác từ bất kỳ kỹ thuật

dự đoán nào.

1.2.5 Các dạng phản hôi chính của hệ thông

Hệ thống đề xuất dựa trên các loại đầu vào là các phản hồi khác nhau để thực hiệnđưa ra các dé xuất Các phản hồi này được chia làm 2 dạng chính, là phản hồi tường minh

va phản hồi ngụ ý.

Phản hồi tường minh (Explicit feedback) là dạng thông tin phản hồi được xác một

cách cụ thể và rõ ràng như thông qua việc đánh giá/xếp hạng (Thai Nghe, 2016); chẳng hạn

xếp hạng cho bộ phim từ 1* đến 5*, gửi like hoặc dislike cho 1 sản phẩm Nó thể hiện sự

quan tâm rõ ràng của người dùng đối với mục tin Hệ thống thường nhắc nhở người dùngthông qua giao diện hệ thống cung cấp xếp hạng cho các mục tin để thu thập loại phản hồi

này, nhằm xây dựng và cải thiện mô hình Độ chính xác của đề xuất phụ thuộc vào số lượng

xếp hạng được cung cấp bởi người dùng Điểm thiếu sót duy nhất của dạng thông tin này

là, nó đòi hỏi hành động từ người dùng và người dùng không phải lúc nào cũng sẵn sàng

cung cấp đủ thông tin

Mặc dù thực tế là phản hồi tường minh đòi hỏi nhiều nỗ lực từ người dùng, song nóvẫn được đánh giá là cung cấp dữ liệu đáng tin cậy hơn, vì không liên quan đến việc tríchxuất các sở thích từ các hành động, và nó cũng cung cấp tính minh bach trong quá trình déxuất dẫn đến chất lượng và độ tin cậy cao hơn trong các dé xuất Isinkaye et al (2015)

Phản hồi ngụ ý (Implicit feedback) là dang phản hồi được thu thập gián tiếp bằng

cách suy luận sở thích của người dùng gián tiếp thông qua quan sát hành vi của người dùng

Hệ thống sẽ ghi lại các hành động khác nhau của người dùng (chẳng hạn như lịch sử mua

hàng, lịch sử điều hướng, thời gian dành cho một số trang web, số lần nháy chuột vào nútchức năng nào đó) từ đó suy đoán mối quan tâm của người dùng về các mục tin hay đánhgiá của của họ lên chúng Đây là cách mà phản hồi ngụ ý được xác định Phản hồi ngụ ý

Trang 20

không phụ thuộc vào sự chủ động của người dùng để đưa ra thông tin, mà bằng cách suyluận sở thích của người dùng từ hành vi của họ với hệ thống

Dang phản hồi này mặc dù không yêu cau sự nỗ lực từ người dùng và dé dang thu

thập hơn, nhưng nó ít chính xác hơn (Isinkaye et al., 2015) Tuy nhiên, người ta cũng lập

luận rang dữ liệu sở thích ngầm trên thực tế có thể khách quan hơn, vì không có sai lệch(bias) phát sinh từ việc người dùng phản hồi theo cách xã hội mong muốn hoặc nhu cầu

duy trì hình anh bản thân trước người khác (Buder & Schwind, 2012).

Một dạng phản hồi khác, ít thông dụng hơn hai dạng ở trên là phản hồi kết hợp

(Hybrid feedback) Nó thường được sử dụng trong các hệ thống dé xuất kết hợp Dạng

phản hồi này có được thông qua sự kết hợp của cả phản hồi tường minh và phản hồi ngụ ý

Người ta có thể kết hợp bang cách sử dụng phản hồi ngụ ý làm kiểm tra cho các phản hồi

tường minh hoặc cho phép người dùng đưa ra phản hồi tường minh chỉ khi anh ta chọn bay

tỏ sự quan tâm rõ ràng (Isinkaye et al., 2015) Việc kết hợp giúp tận dụng được điểm mạnh

của hai dạng phản hồi ngụ ý và tường minh, giúp hệ thống hoạt động tốt nhất.

1.3 Một số van đề và thách thức của hệ thong đề xuất

có thể được giải quyết bằng nhiều cách như:

s Yêu cầu người dùng mới ngay từ đầu đánh giá một số mặt hàng

« Yêu cầu nêu rõ sở thích của người dùng mới

« Đề xuất các mặt hàng cho người dùng mới dựa trên thông tin nhân khẩu học đã thu

thập.

1.3.2 Dit liệu thưa (Data sparsity)

Đây là van dé xảy ra khi đa số người dùng không đánh giá hầu hết các mục và do đó,

ma trận người dùng — mục tin trở nên rất thưa thớt (P Kumar & Thakur, 2018) Sử dụng cácphương pháp Lọc cộng tác và các phương pháp tiếp cận khác, các hệ thống dé xuất thường

Trang 21

tao ra các vùng lân cận của người dùng bằng cách sử dụng hồ sơ của họ Nếu người dùng

chỉ đánh giá một vài mặt hàng thì khá khó để xác định sở thích của họ và có thể liên quan

đến sai vùng lân cận Dữ liệu thưa là vấn đề của việc thiếu thông tin (Asanov, 201 1)

1.3.3 Kha năng mở rộng (Scalability)

Hệ thống dé xuất đang phải đối mặt với một trong những van dé sống còn hang đầuvới tập dữ liệu lớn trong thực tế được gọi là khả năng mở rộng (P Kumar & Thakur, 2018).Với sự tăng lên của số lượng người dùng và mặt hàng thì khối lượng của tập dữ liệu cũng

tăng theo, hệ thống cần nhiễu tài nguyên hơn để xử lý thông tin và hình thành các đề xuất.

Tức là khi tập dữ liệu nhỏ, thuật toán hoạt động tốt nhưng không thể tạo ra kết quả thỏamãn với tập dif liệu kích thước lớn Do đó, rất khó áp dung kỹ thuật dé xuất với các tập dữliệu động và khổng lồ được tạo ra bởi sự tương tác giữa người dùng với mục tin Vấn dé

này cũng được giải quyết bằng sự kết hợp của nhiều loại bộ lọc và cải tiến vật lý của các hệ

thống (Asanov, 2011) Một số kỹ thuật có thể được sử dụng để giải quyết như Giảm chiều,

Bayesian Networks, Phân cụm (P Kumar & Thakur, 2018).

1.3.4 Tit dong nghia (Synonymy)

Đây là tình huống dé cập đến các mục tin tương tự có tên hoặc mục nhập khác nhau(Isinkaye et al., 2015) Hầu hết các hệ thống dé xuất đều gặp khó khăn trong việc phân biệt

giữa các mặt hàng có liên quan chặt chế với nhau, chang hạn như sự khác biệt giữa vi du:

"quần áo trẻ em" và "quần áo em bé" Hệ thống lọc cộng tác thường không tìm thấy sự phùhợp nào giữa hai thuật ngữ để có thể tính toán sự giống nhau của chúng Vấn đề từ đồng

nghĩa có thể được giải quyết bằng cách sử dụng các phương pháp (Isinkaye et al., 2015;

P Kumar & Thakur, 2018):

« Xây dung từ đồng nghĩa

¢ Phân tích giá trị đơn lẻ (SVD)

» Lập chỉ mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing)

1.3.5 Quyên riêng tư (Privacy)

Quyền riêng tư là một van dé nhạy cảm Thuật toán dé xuất yêu cầu đầu vào nhiềuthông tin nhất có thể về người dùng, bao gồm dữ liệu nhân khẩu học và dữ liệu về vị trí củamột người dùng cụ thể để tạo ra các đề xuất được cá nhân hóa có chất lượng (P Kumar &Thakur, 2018) Điều này có thể dẫn đến các van dé về quyền riêng tư và bảo mật dữ liệu

Trang 22

Do đó, cần phải thiết kế một kỹ thuật để có thể sử dụng hợp lý và cẩn thận dữ liệu người

dùng bằng cách đảm bảo rằng thông tin người dùng không bị lọt ra ngoài và bị sử dụng cho

các mục dich lừa đảo Nhiều doanh nghiệp đã đưa ra biện pháp bảo vệ hiệu quả quyền riêng

tư của người dùng bằng cách sử dụng các thuật toán và chương trình chuyên biệt

1.4 Tổng quan một số nghiên cứu liên quan

Li and Yamada (2004) đã đề xuất một thuật toán học tập quy nạp Ở đây, xây dựng

một mô hình cây để hiển thị khuyến nghị của người dùng de Campos et al (2010) đã

thực hiện một phân tích về cả các kỹ thuật khuyến nghị truyền thống Vì cả hai kỹ thuật này đều có những trở ngại nhất định, ông đã đề xuất một hệ thống khác là sự kết hợp của

mang Bayes và kỹ thuật cộng tác Trong bai báo của Sharma and Mann (2013) cũng da

phân tích các kỹ thuật dé xuất khác nhau được sử dụng bao gồm cộng tác, kết hợp và dựatrên nội dung Ngoài ra, nó cũng mô tả những ưu và nhược điểm của những cách tiếp cậnnày Kuzelewska (2014) đề xuất phân cụm như một cách tiếp cận để xử lý các dé xuất Hai

phương pháp phân cụm đã được phân tích: giải pháp dựa trên Centroid và phương pháp dựa

trên bộ nhớ M Kumar et al (2015) giới thiệu MOVREC, một hệ thống dé xuất phim dựatrên các phương pháp lọc cộng tác Lọc cộng tác lấy dữ liệu từ tất cả người dùng và dựatrên đó tạo ra các để xuất Chiru et al (2015) cũng đưa ra một hệ thống giới thiệu phim, sửdụng lịch sử của người dùng để tạo dé xuất Virk et al (2015) đã trình bày một hệ thốngkết hợp Hệ thống này kết hợp cả phương pháp cộng tác và dựa trên nội dung

Qua một số nghiên cứu trên đây, có thể thấy rằng hệ thống đề xuất đã đạt được tên

tuổi và sự công nhận quan trọng trong giới nghiên cứu Chúng thường xuyên được xem xét

trong các ứng dụng đa dạng trong các lĩnh vực của nhiều ngành khoa học và công nghệ

khác nhau.

Trang 23

Chương 2 THUẬT TOÁN ĐỀ XUẤT

2.1 Phân loại các thuật toán

Hiện nay có nhiều thuật toán dé xuất được ra đời và phát triển, tuy nhiên có thể phân

loại chúng vào trong các nhóm chính (Das et al., 2017; Hà & Thức, 2021; Isinkaye et al., 2015; Thai Nghe, 2016).

Không cá nhân

hóa Cá nhân hóa

Lọc cộng tác

Lọc dựa trên mG Dựa trên bộ nhỏ

Phân cụm, Phân

rã ma trận, Mạng

Bayes, Mạng Neural

° Nhóm thuật toán Lọc cộng tác (Collaborative Filtering).

— Phương pháp Lọc dựa trên bộ nhớ (Memory-based Filtering), còn được gọi là

Phương pháp láng giéng (Neighborhood-based) Trong đó hệ thống được xây dựng

dựa trên dữ liệu quá khứ của người dùng tương tự (user-based approach), hoặc là dựa trên dữ liệu quá khứ của những item tương tự (item-based approach).

Trang 24

- Phương pháp Lọc dựa trên mô hình (Model-based Filtering) Nhóm này liên

quan đến việc xây dựng các mô hình dự đoán dựa trên dữ liệu thu thập được

trong quá khứ Nhu mô hình Bayesian, các mô hình nhân tố tiềm ẩn (latent factor

models), trong đó kỹ thuật phân rã ma trận (matrix factorization) là một điển hình.

¢ Nhóm thuật toán Lọc dựa trên nội dung (Content-based Filtering) Nhóm này gợi

ý các mục tin dựa vào hồ sơ người dùng hoặc dựa vào nội dung/thuộc tính của những

mục tin tương tự mà người dùng đã từng chọn trong quá khứ.

¢ Nhóm thuật toán Loc kết hợp (Hybrid Filtering) Kết hợp các thuật toán lọc cộng tác

và lọc theo nội dung với nhau.

¢ Nhóm thuật toán Không cá nhân hóa (Non-personalization) Các thuật toán ở nhómnày không dựa vào hồ sơ cá nhân của từng khách hàng mà chỉ dựa vào đặc tính của sảnphẩm và đánh giá từ cộng đồng như: sản phẩm bán chạy nhất, sản phẩm được đánh giátốt nhất (Hà & Thức, 2021)

Nghiên cứu này sẽ tập trung trình bày nhóm thuật toán Lọc cộng tác dựa trên bộ nhớ

theo hai hướng tiếp cận là dựa trên người dùng và dựa trên mục tin Đây là nhóm thuật toán

cổ điển và thường được sử dụng trong hệ thống gợi ý

2.2 Thuật toán Loc cộng tac dựa trên bộ nhớ (Memory-based CF)

Thuật toán Lọc cộng tác (CF) được xây dựng dựa trên lý thuyết về sự đồng sở thích

của những người dùng khác nhau Hiểu đơn giản, nếu k người dùng đánh giá cho ¡ sản

phẩm tương tự nhau hoặc có hành vi tương tự nhau thì họ sẽ có đánh giá hoặc các hành vi tương tự với các sản phẩm khác.

Cụ thể, nếu trên một hệ thống nghe nhạc, có hai người dùng đều cùng nghe một vài

bản nhạc Khi người dùng thứ nhất đã nghe một bài hát mà người dùng thứ hai chưa nghe,

khả năng cao là người dùng thứ hai cũng sẽ muốn nghe bản nhạc đó Do đó, hệ thống sé dé

xuất bài hát ấy cho người dùng này.

Thuật toán Lọc cộng tác dựa trên bộ nhớ (MBCF) là một nhánh của CF, nó xây dựng

hệ thống đề xuất bằng cách xem xét hành vi trước đây của người dùng (xếp hạng được đưa

ra cho các mặt hàng đó, các mặt hàng đã chọn hoặc mua trước đó) Sau đó đối sánh với

những người dùng có sở thích liên quan (hoặc thay vào đó là các sản phẩm phù hợp với sở Nguyễn Lương Liệu — 11192734 12

Trang 25

thích) bằng cách tính toán sự tương đồng giữa các hồ sơ của ho để rồi đưa ra các dé xuất

Những người dùng như vậy tạo nên một nhóm được gọi là vùng lân cận (neighborhood).

Một người dùng nhận được đề xuất cho những mặt hàng mà anh ta chưa đánh giá trước đây

nhưng đã được người dùng trong vùng lân cận của anh ta đánh giá tích cực.

Các gợi ý được tạo ra bởi MBCF có thể là dự đoán (prediction) hoặc dé xuất

(recom-mendation) Dự đoán là một giá trị số z„¡, thể hiện điểm xếp hang dự đoán của người dùngcho mục tin i, trong khi Đề xuất là danh sách N mục tin hang dau (list of top N items) mangười dùng sẽ thích nhất MBCF có hai hướng tiếp cận đó là dựa trên người dùng va dựa

trên mục tin.

2.2.1 Tính toán độ tương tự

Ở trên đã đề cập sự tương đồng giữa các hồ sơ người dùng, những hồ sơ người dùng

có sự tương đồng cao sẽ tạo thành một vùng lân cận Sự tương đồng có một vai trò quantrọng trong việc xác định các người dùng hay mục tin lân cận để đưa ra gợi ý Để hệ thống

có thể làm việc được thì ta cần phải tính toán được sự tương đồng này Trong RS, sự tương

đồng này được gọi là độ tương tự (similarity) và có thể được tính bằng nhiều phương pháp

khác nhau Hai cách phổ biến nhất được dùng để tính toán đại lượng này là độ tương tự

Cosine và tương quan Pearson (Isinkaye et al., 2015; Kangas, 2002; Thai Nghe, 2016).

* Độ tương tự Cosine (Cosine Similarity) đo lường sự giống nhau giữa hai vectơ bằngcách tính toán cosin của góc giữa hai vector Giá trị của nó nằm trong khoảng (0; 1)

tuyến tính giữa hai biến Nó được sử dung để tính toán độ tương tự giữa hai người dùng

hoặc giữa hai mục tin.

ball -X)0i~Y)

va X)*JJS7_¡0i—P)?

2.2.2 Thuật toán Lọc cộng tác dựa trên người dùng (UBCF)

siMpearson(X Y) = "xy =

Thuật toán được dé xuất vào cuối những năm 1990 bởi giáo su Jonathan L.Herlocker

của Đại hoc Minnesota (Asanov, 2011) Ở đây, người dùng đóng vai trò chính Nếu đa số

Trang 26

người dùng có cùng sở thích thì họ sẽ tham gia vào một nhóm gọi là vùng lân cận UBCF

đưa ra các dé xuất cho người dùng dựa trên đánh giá các mục tin của những người dùng

khác trong vùng lân cận Nếu mục tin được những người dùng lân cận đánh giá tích cực, nó

sẽ được giới thiệu cho người dùng.

Users Items

High similarity

Hình 2.2 Lọc cộng tác dựa trên người dùng

Ý tưởng thực hiện thuật toán như sau:

» Biểu diễn mỗi người dùng bằng một vector đặc tính (feature vector) được xây dung từ

những phản hồi của người dùng với các mục tin trong quá khứ Từ đó, tính toán độ

tương tự giữa những người dùng.

« Dé đo lường mức độ yêu thích của người dùng với mục tin i, ta sẽ chọn ra k người

dùng đã từng đánh giá i và có độ tương tự với là cao nhất Sau đó, dựa vào phản hồicủa k người dùng đó với i để tính toán ra kết quả

* Cuối cùng, dự đoán những mục tin mà u yêu thích nhất để gợi ý

Các bước cụ thể của thuật toán sẽ được trình bày sau đây.

a) Chuẩn hóa ma trận U-I

Trang 27

Như đã đề cập ở phần trước, các thông tin (bao gồm người dùng, mục tin và phảnhồi) mà hệ thống thu thập được sẽ được biểu diễn ở dạng ma trận, gọi là ma trận U-I Ví dụ

như Hình 2.3.

Ở bước đầu tiên của thuật toán, ta đã đề cập đến việc tính toán độ tương tự giữa người

dùng này với những người dùng khác Để thực hiện tính toán, cần xây dựng các vectors đặctính cho mỗi người dùng rồi áp dụng một hàm có khả năng đo đọ độ tương tự giữa cácvector với nhau Các vectors này được lấy trực tiếp từ ma trận U-I chứ không dùng dif liệungoài (như thông tin mô tả mục tin) Với mỗi người dùng, thông tin duy nhất biết được là

các đánh giá mà anh ta đã thực hiện, tức cột tương ứng với người dùng đó trong ma trận

U-I Thực tế là giá trị các cột này thường bị trống rất nhiều vì mỗi người dùng thường chỉđánh giá một số lượng rất nhỏ các mục tin

Giải pháp là phải giúp hệ thống điển vào các giá trị trống sao cho việc điền khôngảnh hưởng nhiều tới sự giống nhau giữa các vectors Nó chỉ phục vụ cho việc tính độ tương

tự chứ không phải là suy luận ra giá trị cuối cùng Một cách đơn giản, có thể thay vào đó

giá trị "0" Điều này không thực sự tốt vì giá trị "0" tương ứng với mức độ quan tâm thấp

nhất Hay một cách khác là thay thế bằng giá trị trung bình của thang đo đánh giá, ví dụ

"2.5" với thang đo 5 trong trường hợp Hình 2.3 Tuy nhiên theo cách này, những giá tri sẽ

gap hạn chế với những người dùng dé tính hoặc khó tính Người dùng dé tính sẽ đánh giá

5 đồng nghĩa với việc yêu thích, còn khi không thích sẽ cho ít sao hơn, như 2 điểm hoặc 3điểm Khi đó, "2.5" khiến những đánh giá không thích sẽ trở thành tiêu cực (negative) Với

Trang 28

người dùng khó tính, họ thậm chí chỉ cho 3 điểm khi thích và dưới 3 khi không thích Hợp

lý nhất, ta sẽ sử dụng giá trị trung bình cộng đánh giá của mỗi người dùng

3.2 | 2/5 | 2.5 1.33 | 2.5 15 | 3.33

Hình 2.4 Tính trung bình đánh giá của người dùng

Cụ thể, sau khi tính được giá trị trung bình đánh giá của mỗi người dùng, ta sẽ không

sử dụng luôn các giá trị này thay cho các ô "?" Thay vào đó, lấy các giá trị đánh giá của

mỗi người dùng trừ đi giá trị đánh giá trung bình tương ứng của người dùng đó Với giá trị

"2" thay bằng giá trị 0 Cách làm này giúp phân loại đánh giá thành 2 loại: giá trị âm (người

dùng không thích mục tin) và giá trị dương (người dùng yêu thích mục tin) Các giá trị bằng

0, tương ứng với những mục tin chưa được đánh giá Cách làm này được gọi là chuẩn hóa

ma trận U-I và kết quả thu được ma trận U-I chuẩn hóa (Hình 2.5)

Trang 29

b) Tính toán độ tương tự giữa các người dùng

Sau khi chuẩn hóa ma trận, ta cần tính toán độ tương tự giữa những người dùng Độ

tương tự được xác định theo hai phương pháp Độ tương tự Cosine và tương quan Pearson

đã được dé cập ở trên như sau (Thai Nghe, 2016):

SIMcosine (u, u') =

SIM pearson (u, u') =

Trong đó:

r„¡ Vary; là đánh giá của người dùng và trên mục tin i tương ứng.

I, là tập các mục tin được đánh giá bởi cả người dùng và người dùng uv’.

7, là giá trị đánh giá trung bình trên tất cả các mục tin của người dùng u

7 là giá trị đánh giá trung bình trên tat cả các item của người dùng u’

c) Dự đoán

Sau khi tính toán độ tương tự giữa những người dùng, ta sẽ dự đoán đánh giá người

dùng với mỗi mục tin dựa trên k người dùng lân cận (neighbor users) Công thức phổ biến

thường được sử dụng để dự đoán đánh giá của người dùng z lên mục tin i được xác định:

Trang 30

aA = - Lwex, Sim(u, wu’) (Twi — Tw)

Tui = Tut ; P

S„.cKụ |Sim(w, 0')|

Trong đó:

sim(u,u’) là độ tương tự giữa người dùng và được tính toán theo phương pháp Cosine

hoặc Pearson như ở trên.

k„ là số người dùng lân cận của người dùng u

Thực hiện dự đoán cho các ô có giá trị bằng 0, sau đó cộng lại với các giá trị đánh

giá trung bình (ở bước chuẩn hóa) theo từng cột, chúng ta sẽ thu được ma trận hoàn thiện.

2.2.3 Thuật toán Lọc cộng tác dựa trên mục tin (IBCF)

Thuật toán này được dé xuất bởi các nhà nghiên cứu tại Dai học Minnesota vào năm

2001 (Asanov, 2011) IBCE đưa ra đề xuất cho người dùng dựa trên độ tương tự giữa các

mục tin mà người dùng đã xếp hạng trước đó Những mục tin có độ tương tự cao sẽ tạo nên

vùng lân cận và gọi là mục tin lân cận Một mục tin sé được dé xuất cho người dùng khi mà

mục tin lân cận của nó được xếp hạng tích cực bởi người dùng này.

Users Items

High similarity

Hình 2.6 Lọc cộng tác dựa trên mục tin

Tương tự như UBCF, thuật toán này được thực hiện như sau:

Trang 31

* Biểu diễn mỗi mục tin bằng một vector đặc tính, rồi tính toán độ tương tự giữa chúng

s Tính mức độ yêu thích của người dùng với mục tin i bằng cách chọn ra k mục tin đãtừng được đánh giá và có độ tương tự với i cao nhất Sau đó, dựa vào phản hồi của uvới k mục tin đó để đưa ra kết quả

* Cuối cùng, chọn các mục tin được dự đoán là yêu thích nhất để gợi ý

Về mặt kỹ thuật, IBCF có thể thực hiện theo UBCF bằng cách chuyển vị ma trận

U-I, coi như mục tin đánh giá người dùng Sau khi tính được kết quả, chúng ta lại thực hiện

chuyển vị một lần nữa sẽ thu được kết quả cuối cùng Các bước cụ thể được tiến hành khátương tự so với UBCE Đầu tiên, tại bước chuẩn hoán ma trận U-I, chúng ta sẽ tính trung

bình cộng đánh giá của các mục tin thay vì của người dùng như trong UBCF Ta sẽ sử dụng

lại ví dụ Hình 2.3 để minh họa.

siMeosine (i, i’) =

Neuyén Luong Liéu — 11192734 19

Trang 32

Lucy (Tui — Tj )uit — Fit)

i Euctiy (Fai —Fi P /Zucuiy( it yi! — Fy)?

SIM pearson (i, i’) =

Trong đó:

rự¡ Var, là đánh giá của người dùng u trên mục tin i và 7’.

Uj là tập các người dùng có đánh trên cả hai mục tin i va i’.

7; là giá trị đánh giá trung bình của tất cả các người dùng lên i

7, là giá trị đánh giá trung bình của tat cả các người dùng lên 7.

Cuối cùng là dự đoán ra đánh giá của những người dùng với mỗi mục tin, tương tự

như UBCF Công thức dự đoán đánh giá của người dùng z lên mục tin i được xác định:

k, là số mục tin lân cận của i

Sau khi dự đoán được các đánh giá chưa biết, sau đó cộng lại với các giá trị đánh giá

trung bình theo từng hàng, chúng ta sẽ thu được ma trận U-I day đủ.

2.3 Ưu điểm của thuật toán Lọc cộng tác

* Không yêu cau các tinh năng chi tiết và dữ liệu theo ngữ cảnh về sản phẩm hoặc mặt

hàng Nó chỉ cần ma trận U-I để đào tạo mô hình.

* Các thuật toán lọc cộng tác không dành thời gian cho việc phát triển ngôn ngữ, phân

tích tài liệu và phát triển các công cụ phân tích cú pháp và các thuật toán gốc từ

(word-stemming), chúng tập trung vào các thuật toán phân cụm.

* Có thể giúp người dùng khám phá sở thích mới ngay cả khi họ không tích cực tìm kiếm

bằng cách dé xuất các mặt hàng mới tương tự như những gì họ quan tâm

2.4 Đánh giá thuật toán đề xuất

Chất lượng của thuật toán đề xuất có thể được đánh giá bằng cách sử dụng các tiêu

chí khác nhau Loại tiêu chí được sử dụng phụ thuộc vào loại thuật toán lọc Bài viết này sẽ

Trang 33

đề cập đến tiêu chí phản ánh độ chính xác của thuật toán, bao gồm các chỉ số đo lường độchính xác hỗ trợ quyết định và thống kê (Isinkaye et al., 2015) Mức độ phù hợp của mỗichỉ số phụ thuộc vào các đặc trưng của tập dif liệu và loại nhiệm vụ mà hệ thống gợi ý sẽ

thực hiện.

2.4.1 Các chỉ sé về độ chính xác thông kê

Các chỉ số về độ chính xác thống kê đánh giá độ chính xác của kỹ thuật lọc bằng

cách so sánh trực tiếp xếp hạng dự đoán với xếp hạng thực tế của người dùng Sai số trungbình tuyệt đối (MAE), Sai số bình phương trung bình căn bậc hai (RMSE) thường được sửdụng làm thước đo độ chính xác thống kê (Isinkaye et al., 2015)

MAE là giá trị trung bình của độ lệch tuyệt đối giữa xếp hạng dự đoán và xếp hạngthực tế Nó được tính như sau:

Thakur, 2018).

RMSE là độ đo phổ biến mà cộng đồng người dùng trong lĩnh vực RS thường sử

dụng (Thai Nghe, 2016) Nó thu được bằng cách bình phương chênh lệch giữa xếp hạng dự

đoán và xếp hạng thực tế, rồi cộng lại với nhau, chia cho số dự đoán và sau đó lấy căn bậc

[1

RMSE = | /— Y (Pui — ru)”

RMSE chú trong nhiều hơn đến các sai số tuyệt đồi lớn hơn va RMSE càng thấp thì

hai của kết quả.

độ chính xác của khuyến nghị càng tốt (Thai Nghe, 2016)

2.4.2 Các chỉ sô về độ chính xác hỗ trợ quyết định

Các chỉ số này giúp đánh giá hiệu quả của việc đề xuất Một đề xuất được xem là phù

hợp khi người dùng lựa chọn mục tin từ danh sách các mục tin đã được hệ thống đề xuất.

Trang 34

Các chỉ số được sử dụng phổ biến là Precision và Recall (Isinkaye et al., 2015; P Kumar

& Thakur, 2018; Thai Nghe, 2016).

Precision là tỉ lệ giữa số các mục tin được dé xuất chính xác trên tổng số các mục tin

được dé xuất

Các đề xuât mục tin chính xác

Precision = — z : =

Tổng sô mục tin được dé xuat

Con Recall là tỉ lệ giữa số các dé xuất mục tin chính xác và số các dé xuất mục tin

hữu ích, tức những mục tin được gợi ý cho người dùng và họ thực sự đã lựa chọn chúng.

Recall cho biết khả năng đề xuất mặt hàng phù hợp với nhu cầu người dùng của hệ thống

Các dé xuất mục tin chính xác

Recall =

Các đề xuất mục tin hữu ích

Trang 35

Chương 3 UNG DỤNG CUA HỆ THONG ĐỀ XUẤT TRONG THỰC

TIEN

3.1 Những lợi ích của hệ thong đề xuất

Hệ thống dé xuất là một thành phần quan trọng thúc đẩy trải nghiệm người dùngđược cá nhân hóa, tương tác sâu hơn với khách hàng và các công cụ hỗ trợ quyết định mạnh

mẽ trong bán lẻ, giải trí, chăm sóc sức khỏe, tài chính và các ngành khác Trên một số nền

tảng thương mại lớn nhất, các đề xuất chiếm tới 30% doanh thu Việc cải thiện 1% chấtlượng của các đề xuất có thể mang lại doanh thu hàng tỷ đô la (NVIDIA, 2021) Không chỉđối với những doanh nghiệp, hệ thống đề xuất cũng dem lại cho khách hàng — những ngườidùng tương tác trực tiếp với hệ gợi ý một số lợi ích

3.1.1 Đối với doanh nghiệp

* Tăng doanh số bán hàng Một trong những lợi thế ấn tượng nhất của việc sử dụng hệ

thống dé xuất là tăng doanh số cho các nhãn hàng trực tuyến Với các công cụ dé xuất

khác nhau như “Được dé xuất cho bạn”, “Dành riêng cho bạn”, “Các sản phẩm liên

quan”, “Best sellers”, các cửa hàng trực tuyến có thể cung cấp cho khách hàng nhiều

lựa chọn hơn khi họ đang mua sắm Do đó, các phương pháp này giúp tăng số lượng

mặt hàng cũng như giá trị trung bình trên mỗi đơn đặt hàng Một ví dụ đáng chú ý vềcác doanh nghiệp trực tuyến thành công khi áp dung các công cụ dé xuất sản phẩm

là Amazon Thống kê năm 2015 đã cho thấy 35% tổng doanh thu của Amazon đến từ

các tác động tích cực của các công cụ khuyến nghị mà thương gia trực tuyến khổng 16

này đã sử dụng (Jones & Groom, 2019).

* Tao sự hài lòng của khách hàng Các công cụ dé xuất sản phẩm thể hiện rat tốt trong

việc tạo ra cảm giác hài lòng giữa những người tiêu dùng trong và ngay cả sau phiên

tìm kiếm của họ Khi họ nhập các từ khóa để tìm kiếm các sản phẩm mong muốn của

mình, các thuật toán sẽ phân tích dựa trên một số tiêu chí như từ khóa, lần mua trước,

để tìm ra thị hiéu va sở thích của khách hang Do đó, khách truy cập có thể nhận được

dé xuất thích hợp khi ho đang mua sắm Ngay cả khi họ hoàn thành việc mua một sảnphẩm, quản lý cửa hàng cũng có thể gửi đề xuất cho người vừa mua hàng qua email

của họ hoặc các phiên mua sắm tiếp theo của ho Các dé xuất thích hợp vào đúng thời

điểm và đúng nơi giúp các trình duyệt web dé dàng tìm ra những gi họ muốn Day là

Trang 36

cách mà hệ thống dé xuất sản phẩm tao ra sự giữ chân khách hàng cho tất cả khách

truy cập của họ.

* Chuyển khách vãng lai thành người mua hàng (Hà & Thức, 2021) Khách vãng lai

thường ghé thăm trang web để xem mà không mua hàng Người dùng thường lựa chọn

dịch vụ miễn phí mà không nâng cấp lên gói thành viên Bằng cách liên tục đưa ranhững dé xuất phù hợp với sở thích của người dùng và khách hang, các hệ thống gợi

ý giúp xây dựng được cảm tình ban đầu đối của khách đối với nhãn hàng Các doanhnghiệp cũng có nhiều khả năng khiến họ trở thành người đăng ký trung thành hoặc

người mua sam.

* Giảm khối lượng công việc va chi phí Khối lượng dữ liệu cần thiết để tạo trải nghiệm

mua sắm cá nhân cho mỗi khách hàng thường quá lớn để có thể quản lý theo cách thủcông Bên cạnh đó, để quảng bá sản phẩm đến với nhiều khách hàng hơn đòi hỏi doanhnghiệp phải bỏ ra một lượng lớn chi phí marketing Hệ thống dé xuất là một công cụ

tự động hóa tuyệt vời, giúp tối ưu quy trình này Nó giúp giảm bớt khối lượng côngviệc cho các nhân viên Công nghệ thông tin, đồng thời giúp tiết kiệm chi phí quảngcáo và nâng cao hiệu suất marketing của nhãn hàng khi mà hệ gợi ý giúp đưa những

sản phẩm đến đúng những khách hàng đang có nhu cầu.

(T Áo Len Cổ Cao Mẫu Áo Khoác Bò Phối Ghép Dầu dưỡng bóng mượt, Áo Khoác Nhung Kẻ Soc (TT) Tay Thâm Kim, VếtỔ, Nước Cân Bang Da Simple

Mới Thu Đông 2022 Áo Le Màu Tương Phản Thu Hút phục hồi hư tổn tóc Lab Khâu Cổ Điển Retro Đồng Vết Ri Sét Trên Vải - M79 Kind To Skin Soothing

(TT Áo Len Cố Chữ VMàu QE) Áo Len Dài Tay Rộng CD [HÀNG NƯỚC ANH] Áo Len Rách Cảm Giác GED Áo Hoodie Lót Lông Dầu gội Không Silicone

Tron Sanh Điệu Instagram Rai Mẫu Mới Thu Đông Combo SIMPLE Sạch Da Thiết Kế Viên Lông Phong Mau Tron Áo Khoác Nam Giảm gàu Lab Nature N~ „

151.000 đ 138.000 đ 79.000 đ 108.000 đ 54.000 đ 195.000 đ Tin nhắn

Hình 3.1 Dé xuất "Dành riêng cho ban" tại trang chủ của Lazada

Tiêu đề	Ứng Dụng Machine Learning Trong Xây Dựng Hệ Thống Đề Xuất Phim Ảnh
Tác giả	Nguyễn Lương Liệu
Người hướng dẫn	TS. Nguyễn Quang Huy
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Toán Kinh Tế
Thể loại	chuyên đề tốt nghiệp
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	73
Dung lượng	18,02 MB