1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng Dụng Hệ Thống Gợi Ý Trong Dịch Vụ Tài Chính Ngân Hàng.pdf

60 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng hệ thống gợi ý trong dịch vụ tài chính ngân hàng
Tác giả Nguyễn Đức Trường
Người hướng dẫn TS. Hoàng Tuấn Anh
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Khoa học dữ liệu
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 60
Dung lượng 2,16 MB

Nội dung

1.4Các phương pháp tiếp cận điển hìnhDưới đây sẽ trình bày tổng quan về các phương pháp tiếp cận chính được áp dụng cho bàitoán hệ khuyến nghị.Hình 1.2: Các phương pháp chính của hệ gợi

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN ĐỨC TRƯỜNG

ỨNG DỤNG HỆ THỐNG GỢI ÝTRONG DỊCH VỤ TÀI CHÍNH NGÂN HÀNG

LUẬN VĂN THẠC SĨ

Ngành: Khoa học dữ liệu

Hà Nội - 2023

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN ĐỨC TRƯỜNG

ỨNG DỤNG HỆ THỐNG GỢI Ý

TRONG DỊCH VỤ TÀI CHÍNH NGÂN HÀNG

LUẬN VĂN THẠC SĨ

Khoa: Toán - Cơ - Tin học

Chuyên ngành: Khoa học dữ liệu

Mã số: 8904468.01QTD

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Hoàng Tuấn Anh

Hà Nội – 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung bản luận văn “Ứng dụng hệ thống gợi ý trong dịch

vụ tài chính ngân hàng” là do tôi tìm hiểu, nghiên cứu, tham khảo và tổng hợp từ các

nguồn tài liệu khác nhau và làm theo hướng dẫn của người hướng dẫn khoa học Các

nguồn tài liệu tham khảo, tổng hợp đều có nguồn gốc rõ ràng và trích dẫn theo đúng quy

định

Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình Nếu có điều gì sai trái,

tôi xin chịu mọi hình thức kỷ luật theo quy định

Hà Nội, tháng 12 năm 2023

Người cam đoan

Nguyễn Đức Trường

Trang 4

LỜI CẢM ƠN

Trước hết em xin gửi lời cảm ơn chân thành đến các thầy cô ở Khoa Toán - Cơ - Tin

học, thuộc Đại học Khoa học tự nhiên Hà Nội đã nhiệt tình và tâm huyết truyền đạt cho

em những kiến thức quý báu trong suốt thời gian học tập tại trường Em xin gửi lời cảm

ơn sâu sắc đến TS Hoàng Tuấn Anh đã nhiệt tình, tận tâm định hướng, hướng dẫn và

cho em những lời khuyên bổ ích để em hoàn thành luận văn tốt nghiệp này Cuối cùng,

em xin cảm ơn gia đình, bạn bè đã luôn động viên và ủng hộ em trong suốt quá trình học

tập và hoàn thành luận văn này

Do kiến thức của em còn nhiều hạn chế và còn nhiều bỡ ngỡ, nên không tránh khỏi

những thiếu sót Em rất mong nhận được những ý kiến đóng góp quý báu từ phía quý

thầy cô và các bạn để luận văn được hoàn thiện hơn

Hà Nội, tháng 12 năm 2023

Học viên

Nguyễn Đức Trường

Trang 5

1.1 Giới thiệu chung 12

1.2 Bài toán giải quyết 13

1.3 Tác dụng của hệ thống khuyến nghị trong ngân hàng 15

1.4 Các phương pháp tiếp cận điển hình 16

1.5 Mục tiêu và phương pháp nghiên cứu của luận văn 18

Trang 6

2.2.3 Neural Collaborative Filtering (NCF) 31

2.2.4 Bayesian Personalized ranking (BPR) 35

2.3 So sánh độ phức tạp của các thuật toán 40

2.3.1 KNN 40

2.3.2 SVD 41

2.3.3 NCF 41

2.3.4 BPR 42

2.4 Tiêu chuẩn đánh giá 42

2.4.1 Trung bình của sai số tuyệt đối 42

2.4.2 Sai số bình phương trung bình 43

2.4.3 Các độ đo phân loại, xếp hạng 43

2.5 Những hạn chế của phương pháp lọc cộng tác trong hệ khuyến nghị 46

3 Thực nghiệm và đánh giá 473.1 Tổng quan về bộ dữ liệu và bài toán đặt ra 47

3.2 Các thống kê cơ bản 50

Trang 7

3.3 Thực nghiệm và kết quả 55

3.4 Nhận xét về kết quả thực nghiệm 56

3.5 Kết luận và hướng phát triển 57

Trang 8

BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT

6 NMAE Normalized Mean absolute error Trung bình sai số tuyệt đối đã

được chuẩn hóa

biến

Trang 9

Danh sách bảng

2.1 Ma trận đánh giá dày đặc 26

2.2 Ma trận đánh giá thưa thớt 26

2.3 Độ phức tạp tính toán của các thuật toán 40

3.1 Các thông tin về dữ liệu người dùng 48

3.2 Thông tin về dữ liệu sản phẩm 49

3.3 Mô tả dữ liệu đầu vào sau khi đã xử lý 55

3.4 Các chỉ số đánh giá thực nghiệm của các mô hình 56

Trang 10

Danh sách hình vẽ

1.1 Ví dụ về hệ thống khuyến nghị của Amazon 13

1.2 Các phương pháp chính của hệ gợi ý 16

1.3 Ví dụ một mô hình kỹ thuật lọc dựa theo nội dung 17

2.6 Minh họa Precision@k 44

3.1 Số lượng khách hàng theo thời gian 50

3.2 Số lượng khách hàng theo từng sản phẩm và giới tính 51

3.3 Số lượng sản phẩm được sở hữu 51

3.4 Số lượng sản phẩm theo mức thu nhập 52

3.5 Số lượng sản phẩm nắm giữ theo thời gian quan hệ với ngân hàng 52

3.6 Tỷ lệ nắm giữ sản phẩm theo độ tuổi 53

Trang 11

LỜI NÓI ĐẦUTư vấn, gợi ý hay khuyến nghị sản phẩm và hỗ trợ khách hàng mua sắm, sử dụng dịch vụ làrất quan trọng, vì chúng ảnh hưởng trực tiếp đến doanh thu và lợi nhuận của các doanh nghiệp.Hiện nay, các hệ thống gợi ý được sử dụng rộng rãi, đặc biệt trong lĩnh vực thương mại điện tử(eBay, Amazon, ) và mạng xã hội (Facebook, Instagram, ).

Phần lớn các hệ thống khuyến nghị phát triển dựa trên ba phương pháp chính: Lọc dựatrên nội dung (Content-based filtering), Lọc dựa trên cộng tác (Collaborative Filtering) và sựkết hợp cả hai phương pháp này (Hybrid) Lọc dựa trên nội dung là phương pháp đề xuất cácsản phẩm hoặc dịch vụ mới dựa trên nội dung của chúng và lịch sử sử dụng dịch vụ của ngườidùng Lọc dựa trên cộng tác là phương pháp đề xuất dịch vụ cho người dùng dựa trên lịch sửvà đánh giá của sản phẩm hoặc dịch vụ từ những người dùng khác có sở thích tương tự

Hiện nay, các sản phẩm và dịch vụ của ngân hàng ngày càng đa dạng Việc tìm kiếm vàtiếp cận khách hàng tiềm năng để giới thiệu sản phẩm phù hợp với họ là một ưu tiên hàng đầu,đặc biệt trong bối cảnh ứng dụng dữ liệu lớn và chuyển đổi số ngày nay Vì vậy, trong luận vănnày sẽ nghiên cứu và ứng dụng các mô hình thích hợp cho bài toán dịch vụ trong lĩnh vực ngânhàng Nội dung chính của luận văn này bao gồm những vấn đề chính sau:

Vấn đề 1: Tìm hiểu về hệ thống khuyến nghịVấn đề 2: Tìm hiểu một số thuật toán thuộc nhóm lọc cộng tácVấn đề 3: Thử nghiệm trên bộ dữ liệu và đánh giá

Từ các kết quả đó, luận văn cũng đã đưa ra các hướng giải quyết cho việc ứng dụng của hệgợi ý trong lĩnh vực ngân hàng

Trang 12

Chương 1Tổng quan về hệ thống khuyến nghị

Hệ thống khuyến nghị (Recommender System – RS), hay còn gọi là hệ thống gợi ý là mộthệ thống lọc thông tin nhằm dự đoán đánh giá sở thích, mối quan tâm, nhu cầu của người dùngđể đưa ra một hoặc nhiều mục, sản phẩm, dịch vụ mà người dùng có thể sẽ quan tâm (đánhgiá) với xác suất lớn nhất

Trong những năm gần đây, hệ thống khuyến nghĩ đã trở lên phổ biến và được sử dụng trongnhiều lĩnh vực khác nhau như truyền hình, tin tức, dịch vụ tài chính, viễn thông, thương mạiđiện tử và mạng xã hội Một vài ví dụ phổ biến và dễ gặp nhất như là gợi ý kết bạn trênFacebook dựa vào các đặc điểm như sinh sống cùng vị trí, học cùng trường, làm cùng cơ quan,hay đơn giản là có cùng sở thích, quan tâm với một lĩnh vực nào đó trên Facebook Amazoncó hệ thống khuyến nghị các sản phẩm cho người dùng Hệ thống khuyến nghị là thành phầnkhông thể thiếu của các nền tảng trực tuyến cung cấp đa dạng các loại hình dịch vụ, từ cácwebsite thương mại điện tử tới nền tảng đào tạo trực tuyến Theo McKinsey, 35% doanh thucủa Amazon được tạo ra từ các tương tác với hệ thống khuyến nghị của hãng này Một thốngkê khác cũng cho thấy 75% thời lượng xem phim trên Netflix được thực hiện nhờ các khuyếnnghị được cá nhân hoá [1]

Một trong những mô hình đơn giản nhất của hệ thống khuyến nghị đó chính là bảng xếphạng: bài hát có nhiều người nghe nhất, các bộ phim nhiều người xem nhất, các sản phẩm cónhiều người mua nhất Hệ thống không có thông tin gì của người sử dụng, nó sẽ dự đoán ở mứcđơn giản nhất là có nhiều người mua sản phẩm này nhất thì xác suất người dùng nó đang tưvấn sẽ mua sản phẩm này cũng cao nhất Tuy nhiên, cách tiếp cận này gặp phải nhiều hạn chế,như vấn đề về sự đa dạng của sản phẩm và khả năng cá nhân hóa cho người dùng

Trang 13

Hình 1.1: Ví dụ về hệ thống khuyến nghị của Amazon

Ý tưởng của hệ thống khuyến nghị cũng xuất phát từ hành vi của người mua hàng: ngườimua hàng thường sẽ hỏi bạn bè, chuyên gia, hay từ chính người bán hàng tư vấn cho mình vềsản phẩm họ có ý định mua Người được hỏi sẽ tiến hành thu thập thông tin từ người mua baogồm: nhu cầu sử dụng, đặc điểm sản phẩm, màu sắc, chức năng yêu thích, kết hợp với kiếnthức hiểu biết của mình về sản phẩm để đưa ra đề xuất, lời khuyên sản phẩm phù hợp nhất chongười mua Ở một mức cao hơn, người được hỏi sẽ liên hệ, liên tưởng những người đã từng muasản phẩm mà có đặc điểm tương đồng với người mua, từ đó họ dự đoán người mua sẽ có khảnăng thích sản phẩm nào nhất để đưa ra khuyến nghị cho người mua

Chúng ta coi người dùng (user) là những thực thể thực hiện các tương tác (ví dụ: mua hàng,đánh giá xếp hạng, v.v.) trong hệ thống Chúng ta gọi các item là đối tượng mà người dùng cóthể tương tác (ví dụ: sản phẩm, v.v.) Các tham số đặc trưng cho môi trường (ví dụ: thời gian,thiết bị, vị trí ) được xác định là ngữ cảnh (context) Hơn nữa, chúng ta coi các tùy chọn thựctế (ví dụ: bộ lọc, quy tắc, ) là các ràng buộc của việc đề xuất Cả người dùng và các mặt hàngđều có thể được mô tả bằng dữ liệu đặc trưng (ví dụ: tuổi, giới tính đối với người dùng; thể loại,giá đối với mặt hàng)

Có hai dạng chính trong RS là dự đoán đánh giá (rating prediction) dựa vào các giá trịđánh giá trước đó (là những phản hồi tường minh của người dùng, như đánh giá từ 1 đến 5,hoặc thích/không thích, hay 0/1, ) để dự đoán các giá trị đánh giá trong tương lai, và gợi ýmục gợi ý (item recommendation) dựa vào các phản hồi tiềm ẩn từ người dùng (như số lần click

Trang 14

chuột, thời gian xem sản phẩm, nghĩa là những thông tin mà người dùng không trực tiếp đánhgiá/xếp hạng).

Phát biểu bài toán:Input:

+ Cho tập người dùng U , mỗi người dùng ui thuộc U có các đặc điểm I “ ti1, i2, , iku

+ Một tập các sản phẩm, dịch vụ (gọi chung là sản phẩm) P , mỗi sản phẩm pj có các đặcđiểm đặc trưng J “ tj1, j2, , jxu

+ Một ma trận R “ prijq với i “ 1, , N ; j “ 1, , M , còn gọi là ma trận đánh giá, thểhiện mối quan hệ giữa tập người dùng U và tập sản phẩm P Trong đó rij là đánh giácủa người dùng ui cho sản phẩm pj, N và M lần lượt là số người dùng và số sản phẩm.Trong các phần sau của luận văn, mức độ quan tâm/ưa thích của người dùng đối với sảnphẩm có thể được thể hiện, hoặc gọi là mức đánh giá của người dùng đối với sản phẩm.Output:

Danh sách các sản phẩm pj thuộc P mà chưa được đánh giá bởi ui và được ui đánh giá caonhất

Để giải bài toán này chúng ta cần xây dựng hàm F pui, piq để ước lượng đánh giá của ngườidùng ui đối với sản phẩm pi, từ đó sẽ lấy ra được danh sách các sản phẩm/dịch vụ được đánhgiá (có khả năng người dùng chọn) cao nhất

Tùy thuộc vào phương pháp sử dụng ta có nhiều cách xây dựng hàm F , các cách xây dựnghàm F phụ thuộc chủ yếu bởi các yếu tố sau:

+ Đặc điểm của người dùng ui (lọc theo nội dung người dùng): điều này được đánh giá chủquan bởi các quy luật tự nhiên, hoặc các quy tắc cơ bản Ví dụ ui là nam thì sẽ có xuhướng mua các sản phẩm của nam hơn các sản phẩm của nữ, ui trẻ tuổi sẽ thích nghenhững bản nhạc trẻ, v.v

+ Đặc điểm của sản phẩm pj (lọc theo nội dung sản phẩm): giống như lọc theo nội dungngười dùng, các sản phẩm có đặc điểm giống nhau, thì cũng có khả năng được 1 ngườidùng đánh giá như nhau

+ Lịch sử giao dịch của người dùng ui: từ lịch sử giao dịch có thể suy ra ngành/vấn đề/chủđề mà ui quan tâm, do đó những sản phẩm có cùng lĩnh vực sẽ có độ liên quan cao hơn.Ví dụ một người đã từng mua áo và giầy đá bóng thì có thể dự đoán người này yêu bóngđá, thích thể thao Từ đó suy ra người này sẽ có khả năng sử dụng dịch vụ hoặc mua cácsản phẩm thể thao cao hơn các dịch vụ/sản phẩm khác

Trang 15

+ Những người dùng ut khác có cùng các đặc điểm giống ui: với quan niệm rằng nhữngngười dùng giống nhau sẽ thích, đánh giá những sản phẩm giống nhau Các đặc điểm củautbao gồm tập đặc điểm I ban đầu, kết hợp với các đặc điểm cộng tác như cùng mua mặthàng nào đó, có các hành vi mua hàng giống nhau, Việc tìm hiểu những mặt hàng/dịchvụ mà ut đã từng quan tâm sẽ đưa ra được những gợi ý phù hợp cho người dùng ui.

hàngCác chính sách và chiến lược cá nhân hóa giúp các ngân hàng củng cố vị thế của họ trên thịtrường và thúc đẩy doanh số bán hàng, từ đó dẫn đến tăng doanh thu BCG, một công ty tưvấn toàn cầu, ước tính rằng với mỗi 100 tỷ đô la tài sản, một ngân hàng có thể đạt được mứctăng trưởng doanh thu lên tới 300 triệu đô la bằng cách cá nhân hóa các tương tác với kháchhàng của mình [11]

Ngoài việc tăng doanh thu, có nhiều cách khác mà các ngân hàng có thể hưởng lợi từ việccá nhân hóa:

• Tỷ lệ tương tác và chuyển đổi cao hơn: Hệ thống có thể đề xuất các giao dịch hoặc kếhoạch tài chính phù hợp để khuyến khích khách hàng thực hiện các hoạt động tài chính.Ngoài ra, hệ thống có thể gửi thông báo và nhắc nhở đề xuất để giúp khách hàng theodõi giao dịch, thanh toán hóa đơn, hoặc thực hiện các hành động khác

• Lợi tức đầu tư (ROI) cao hơn, hệ quả có được từ việc tiết kiệm nguồn lực, chi phí: Bằngcách tăng cường tỷ lệ chuyển đổi và tương tác, ngân hàng có thể đạt được ROI cao hơntừ các chiến lược quảng cáo và tiếp thị

• Lòng trung thành và khả năng giữ chân khách hàng được cải thiện: Cung cấp trải nghiệmcá nhân hóa và đáp ứng nhanh chóng đến nhu cầu của khách hàng giúp tăng khả nănggiữ chân khách hàng trong thời gian dài

• Trải nghiệm khách hàng tốt hơn: Hệ thống có thể phân tích thông tin về lịch sử tài khoản,giao dịch trước đó để đề xuất sản phẩm và dịch vụ phù hợp với nhu cầu của khách hàng.Tóm lại, hệ thống khuyến nghị trong ngân hàng không chỉ tăng cường tương tác và chuyểnđổi, mà còn mang lại lợi tức đầu tư cao hơn, giảm chi phí, cải thiện lòng trung thành của kháchhàng và cung cấp trải nghiệm khách hàng tốt hơn

Trang 16

1.4Các phương pháp tiếp cận điển hìnhDưới đây sẽ trình bày tổng quan về các phương pháp tiếp cận chính được áp dụng cho bàitoán hệ khuyến nghị.

Hình 1.2: Các phương pháp chính của hệ gợi ý

Trong đó:• Content-based filtering: Lọc dựa trên nội dung• Collaborative filtering: Lọc cộng tác

• Hybrid Approach: Cách tiếp cận kết hợp/lai• Memory-based approach: Lọc cộng tác dựa trên bộ nhớ• Model-based approach: Lọc cộng tác dựa trên mô hình• User-based : Dựa trên người dùng

• Item based: Dựa trên sản phẩm• Clustering Methods: Các phương pháp phân cụm• Matrix Factorization Methods: Các phương pháp thừa số hóa ma trậnỞ phần trên, chúng ra có thể thấy rằng có 2 hướng tiếp cận chính để xây dựng bài toánkhuyến nghị:

• Cách 1 là dựa trên nội dung (Content-based): Hệ thống dựa trên nội dung tập trung vàocác thuộc tính của mặt hàng, tính tương tự của sản phẩm được xác định bằng cách đo sựtương tự trong các thuộc tính của chúng

Trang 17

• Cách 2 là lọc cộng tác (Collaborative-Filtering) tập trung vào mối quan hệ giữa người sửdụng và các mặt hàng Tính tương tự của các sản phẩm được xác định bởi sự tương đồngvề đánh giá của những mặt hàng đó bởi những người dùng đã đánh giá cả hai mặt hàng.• Ngoài ra, các hệ thống khuyến nghị ngày nay thường kết hợp cả 2 hướng tiếp cận trên

khi triển khai trong môi trường thực tế, gọi là hệ thống khuyến nghị lai (Hybrid).Lọc dựa trên nội dung (Content-based ) dựa trên mô tả của sản phẩm và thông tin củangười dùng Trong hệ thống khuyến nghị dựa trên nội dung, thuật toán cố gắng đề xuất cácmục tương tự như các mục mà người dùng thích trong quá khứ (hoặc đang kiểm tra trong hiệntại) Đặc biệt, các ứng viên khác nhau được so sánh với các mục được đánh giá trước đây bởingười sử dụng và các mục phù hợp nhất được khuyến khích Vấn đề chính của phương pháp nàylà bị giới hạn bởi nội dung của sản phẩm, chỉ tư vấn được các sản phẩm tương tự trong cùngmục nội dung

Hình 1.3: Ví dụ một mô hình kỹ thuật lọc dựa theo nội dung

Trong hình 1.3, ta thấy người dùng A thích bộ phim A; bộ phim C có tính chất tương tựnhư phim A Do đó, bộ phim C được giới thiệu cho người dùng A

Lọc cộng tác (Collaborative-Filtering)[12] dựa trên việc thu thập và phân tích một lượnglớn thông tin về hành vi, hoạt động hoặc sở thích của người dùng và dự đoán những gì ngườidùng sẽ thích dựa trên sự tương đồng với người dùng khác Ưu điểm chính của phương pháptiếp cận lọc cộng tác là nó không dựa vào nội dung có thể phân tích được của máy và do đó, nócó khả năng đề xuất chính xác các hạng mục phức tạp như phim ảnh mà không đòi hỏi sự hiểubiết về chính bản thân nó Lọc cộng tác dựa trên giả định rằng những người đồng ý trong quákhứ sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong

Trang 18

quá khứ Khi xây dựng một mô hình từ hành vi của người dùng, sự phân biệt thường được thựchiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn.

Trong thực tế, với lượng dữ liệu lớn, việc biết trước các đặc trưng ban đầu để thực hiệnphương pháp Lọc dựa trên nội dung tương đối khó khăn và mất nhiều nguồn lực, vì vậy phươngpháp Lọc cộng tác được ứng dụng phổ biến hơn Trong các phần tiếp theo của luận văn, chúngta sẽ đi chi tiết hơn về phương pháp này

vănMục tiêu và phương pháp nghiên cứu của luận văn bao gồm các mục sau:1 Mục tiêu: Đưa ra những điểm hạn chế, khó khăn áp dụng các thuật toán machine learning

áp dụng cho dữ liệu trong ngân hàng, và thử nghiệm một số mô hình để đánh giá Điềunày giúp xác định phạm vi và hướng tiếp cận của nghiên cứu

2 Đánh giá và kết quả: Mô tả các tiêu chí đánh giá được sử dụng để đánh giá hiệu suất củathuật toán đề xuất

3 Đưa ra phương án đề xuất: Đề xuất những phương pháp cải tiến cho hệ thống gợi ý tronglĩnh vực ngân hàng nhằm nâng cao độ chính xác của hệ thống khuyến nghị, cùng với đólà các ứng dụng thực tiễn có thể tích hợp trong hệ thống ngân hàng hiện nay

Trang 19

Chương 2Phương pháp lọc cộng táctrong bài toán hệ thống gợi ý

Phương pháp lọc cộng tác là một phương pháp trong hệ thống gợi ý được sử dụng để tạora các gợi ý cá nhân dựa trên hành vi và sự tương tác của người dùng trong quá khứ Phươngpháp này dựa trên giả định rằng những người dùng (user) có sự tương đồng trong hành vi và sởthích cũng có khả năng có những sự tương đồng trong việc đánh giá và lựa chọn các sản phẩm(items) trong tương lai

Trong phương pháp lọc cộng tác, có hai hướng chính là lọc cộng tác dựa trên bộ nhớ(memory-based) và lọc cộng tác dựa trên mô hình (model-based) Mỗi hướng có ưu điểm vànhược điểm riêng, và sự chọn lựa giữa lọc cộng tác dựa trên bộ nhớ và lọc cộng tác dựa trên môhình thường phụ thuộc vào yêu cầu cụ thể của ứng dụng và đặc tính của dữ liệu Về tổng quan,ý tưởng của 2 hướng đó như sau:

• Lọc cộng tác dựa trên bộ nhớ (Memory-Based Collaborative Filtering): Phương pháp nàydựa trên việc sử dụng dữ liệu thực tế của người dùng để tạo ra dự đoán hoặc đề xuất Nósử dụng sự tương tự giữa người dùng hoặc sản phẩm để thực hiện dự đoán

• Lọc cộng tác dựa trên mô hình (Model-Based Collaborative Filtering): Phương pháp nàyxây dựng một mô hình dự đoán từ dữ liệu đánh giá Thay vì sử dụng trực tiếp sự tươngtự giữa người dùng hoặc sản phẩm, nó sử dụng mô hình thống kê hoặc máy học để tìmra mối quan hệ giữa các mẫu trong dữ liệu

Phương pháp lọc cộng tác dựa trên bộ nhớ (Memory-based Collaborative Filtering) [21] làphương pháp sử dụng toàn bộ dữ liệu có được về người dùng và sản phẩm/dịch vụ để tạo ra dự

Trang 20

đoán Các hệ thống sử dụng phương pháp này thường tìm ra tập người dùng (thường hay đượcgọi là láng giềng) - những người mà đã có lịch sử sử dụng/đánh giá sản phẩm/dịch vụ, sau đósử dụng nhiều thuật toán khác nhau để tính toán dự đoán đánh giá sản phẩm Một trong nhữngkỹ thuật phổ biến và được sử dụng rộng rãi nhất của phương pháp này là lọc cộng tác dựa trênláng giềng gần nhất (nearest – neighbor) Vì phương pháp này sử dụng toàn bộ dữ liệu có đượcđể dự đoán trực tiếp nên tốn nhiều bộ nhớ để lưu trữ, không hiệu quả đối với hệ thống có dữliệu thưa thớt.

Có hai cách tiếp cận dựa trên bộ nhớ phổ biến đó là:• Hệ thống lọc dựa trên người dùng sẽ tìm ra tập người dùng tương tự với người dùng đang

xét dựa trên các sản phẩm mà các người dùng đó cùng đánh giá, sau đó sẽ dự đoán đánhgiá của người dùng u với sản phẩm p dựa trên đánh giá trung bình (hoặc theo trọng số)của nhóm người dùng tương tự

• Hệ thống lọc dựa trên sản phẩm sẽ tìm ra các sản phẩm tương tự nhau dựa vào nhómngười cùng đánh giá các sản phẩm đó, hệ thống dự đoán đánh giá của người dùng u1 vớisản phẩm p1 dựa trên đánh giá trung bình (hoặc có trọng số) của các sản phẩm tương tự

Việc đo độ tương tự giữa người dùng hoặc sản phẩm quyết định đến hiệu quả của phươngpháp này, do đó cần chọn phương pháp đo độ tương tự phù hợp với từng bài toán, từng kiểu dữliệu khác nhau Các phương pháp đo độ tương tự phổ biến hiện nay: khoảng cách Manhattan,khoảng cách Euclidean, hệ số tương quan Pearon, hệ số tương tự Cosine

2.1.1Một số phương pháp tính độ đo tương tự

Phần này sẽ trình bày về các phương pháp đo độ tương tự và việc áp dụng độ đo đó cho bàitoán lọc cộng tác dựa trên bộ nhớ [10].Chúng ta ký hiệu:

- u, v là hai người dùng trong bài toán gợi ý.- rup , rvp , rui , rvi lần lượt là đánh giá của người dùng u và v cho sản phẩm p, i

- Pu, Pv lần lượt là tập sản phẩm mà người dùng u và v đã đánh giá, m là tổng số sảnphẩm chung của u và v

- ru, rv là trung bình tất cả đánh giá của người dùng u và v

- Iui , Ivi là tập các thuộc tính của người dùng u và v, i “ 1, 2, 3, , k

a) Khoảng cách Manhattan

Độ tương tự giữa người dùng u và người dùng v được tính dựa trên các sản phẩm mà haingười dùng này cùng đánh giá:

Trang 21

rup´ rvp

ˇˇˇ

(2.1)Công thức này tính tổng của các hiệu giữa đánh giá của hai người dùng đối với cùng mộtsản phẩm, sau đó lấy giá trị tuyệt đối của hiệu đó Khoảng cách Manhattan được sử dụng tronglọc cộng tác khi muốn đo độ chênh lệch tuyến tính giữa đánh giá của hai người dùng trên cácsản phẩm

c) Hệ số tương quan Pearson

Phương pháp này tính toán độ tương quan thống kê giữa xếp hạng chung của hai ngườidùng để xác định sự giống nhau của họ Công thức tính hệ số tương quan Pearson như sau:

Spearsonpu, vq “

ř

iPPuXPvprui´ ¯ruqprvi´ ¯rvqb

ř

iPPuXPvprui´ ¯ruq2

iPPuXPvprvi´ ¯rvq2

(2.3)

Hệ số tương quan Pearson có giá trị nằm trong đoạn r´1, 1s Nếu S ą 0 thì hai người dùngcó xu hướng đánh giá giống nhau, S ă 0 thì hai người dùng này có xu hướng đánh giá tráingược nhau Khoảng cách này đo lường sự tương đồng dựa trên sự tương quan giữa các thànhphần của hai vector, phù hợp cho dữ liệu có tính chất định lượng và phân phối chuẩn

d) Hệ số tương tự Cosine

Hệ số tương tự Cosine mô phỏng người dùng trong không gian vector pru, rv là vector đánhgiá của u và v), sau đó lấy cosine của góc tạo bởi các vector này để tính độ tương tự giữa cácngười dùng:

Trang 22

SCospu, vq “ ru¨ rv

||ru||2||rv||2

“ iPPuviXPvruirvib

ř

iPPuXPvpruiq2

iPPuXPvprviq2

(2.4)

Cũng giống như hệ số tương quan Pearson, hệ số tương quan Cosine có giá trị nằm trongđoạn r´1, 1s Nếu S ą 0 thì hai người dùng có xu hướng đánh giá giống nhau, S ă 0 thì haingười dùng này có xu hướng đánh giá trái ngược nhau

2.1.2Phương pháp K- láng giềng gần nhất

Phương pháp K- láng giềng gần nhất (K-nearest neighbor)[24] hay còn gọi là KNN là mộttrong những phương pháp truyền thống phổ biến và đơn giản nhất được sử dụng trong phươngpháp lọc cộng tác dựa trên bộ nhớ Tuy sử dụng lượng lớn dữ liệu để dự đoán gây tốn bộ nhớ,nhưng nó cho kết quả nhanh và hiệu quả trong nhiều trường hợp Ý tưởng của phương phápnày là những người dùng tương tự nhau sẽ có khả năng thích những sản phẩm giống nhau Mụctiêu của KNN tìm ra k đối tượng - láng giềng (người dùng hoặc sản phẩm) “gần” với đối tượngđang xét nhất Từ k đối tượng tìm được, ta tính toán ước lược của đối tượng dựa trên các đánhgiá của k đối tượng gần nhất Đại lượng “gần” ở đây có thể được đo bằng khoảng cách hoặc độtương tự giữa các đối tượng với nhau

Các hệ hống khuyến nghị bằng cách tiếp cận dựa trên bộ nhớ thường được phân ra làm haiphương pháp cơ bản là KNN dựa trên người dùng và KNN dựa trên sản phẩm:

a) KNN dựa trên người dùng:

Ý tưởng của phương pháp này là để dự đoán đánh giá của người dùng u với sản phẩm i, tađi tìm k người dùng vi, i “ p1, 2, 3, , kq tương tự u nhất Từ đánh giá thực tế k người dùng vi

với sản phẩm i ta có thể tính ước lượng đánh giá của u lên i Các bước cụ thể như sau:1 Tính khoảng cách/ độ tương tự của toàn bộ người dùng khác với người dùng u.2 Tìm tập k người dùng pv1, v2, , vkq có độ tương tự gần giống với u nhất

3 Tính ước lượng đánh giá rui của người dùng u với sản phẩm i theo công thức sau [9]:

ˆrui“

ř

vPNkipuq

simpu, vq ¨ rvi

ř

vPNkipuq

Trong đó:• ˆrui là giá trị dự đoán đánh giá của người dùng u cho sản phẩm i.• Nk

ipuq là tập hợp k người dùng giống nhất với người dùng u đối với sản phẩm i

Trang 23

• simpu, vq biểu thị độ đo tương tự giữa người dùng u và v.• rvi là đánh giá mà người dùng v đã đưa ra cho sản phẩm i.• Dấu ř được sử dụng để thực hiện tổng theo tất cả các người dùng v trong "neighborhood".

b) KNN dựa trên sản phẩm

Ý tưởng của phương pháp KNN dựa trên sản phẩm [25] như sau:Để xác định đánh giá của người dùng u lên sản phẩm i, chúng ta đi tìm các sản phẩm tươngtự như i Và dựa trên đánh giá của người dùng u lên các sản phẩm tương tự này để ước lượngđánh giá của u với i, từ đó đưa ra quyết định có tư vấn i cho u hay không Các hệ thống khuyếnnghị sản phẩm thường sử dụng độ đo Cosine để tính độ tương tự giữa các sản phẩm Công thứcước lượng đánh giá của người dùng u cho sản phẩm i như sau [9]:

ˆrui“

ř

jPNkupiqsimpi, jq ¨ ruj

upiq là tập hợp k sản phẩm giống nhất với sản phẩm i đối với người dùng u.• simpi, jq là độ đo tương tự giữa sản phẩm i và sản phẩm j

• ruj là đánh giá mà người dùng u đã đưa ra cho sản phẩm j

c) Các biến thể của phương pháp KNN

Phương pháp KNN có thể kết hợp với các phương pháp chuẩn hóa dữ liệu như chuẩn hóaZ (Z-Score) và chuẩn hóa trung bình (Mean) để cải thiện hiệu suất và đảm bảo tính nhất quántrong quá trình dự đoán Các biến thể này giúp loại bỏ sự chệch trong cách mà người dùng đánhgiá các sản phẩm Nếu một người dùng có xu hướng đánh giá cao hơn hoặc thấp hơn trung bình,chuẩn hóa này giúp điều chỉnh đánh giá của họ để phản ánh đúng hơn về mức độ yêu thích Vềcụ thể:

- KNNWithMeans: Trong biến thể này, KNN được kết hợp với phương pháp chuẩn hóa trungbình (mean normalization) [9] Cụ thể, mỗi đánh giá được chuẩn hóa bằng cách trừ đi đánh giátrung bình của người dùng hoặc sản phẩm tương ứng

ˆrui“ µu`

ř

vPNkipuqsimpu, vq ¨ prvi´ µvq

ř

vPNkipuqsimpu, vqˆ

rui“ µi`

ř

jPNkupiqsimpi, jq ¨ pruj ´ µjq

ř

jPNkupiqsimpi, jq

(2.7)

Trang 24

Trong đó:• ˆrui là giá trị dự đoán cho sự tương tác giữa người dùng u và sản phẩm i.• µu là đánh giá trung bình của người dùng u.

• µv là đánh giá trung bình của người dùng v trong "neighborhood"của i cho u.- KNNWithZScore: Trong biến thể này, KNN được kết hợp với phương pháp chuẩn hóaZ-Score [9] Điều này liên quan đến việc chuẩn hóa mỗi đánh giá để đảm bảo rằng chúng cóphân phối chuẩn với giá trị trung bình 0 và độ lệch chuẩn 1

ˆrui“ µu` σu`

ř

vPNkipuqsimpu, vq ¨ prvi´ µvq{σv

ř

vPNkipuqsimpu, vqˆ

rui“ µi` σi`

ř

jPNkupiqsimpi, jq ¨ pruj ´ µjq{σj

ř

jPNkupiqsimpi, jq

(2.8)

Trong đó:• ˆrui: Giá trị dự đoán cho sự tương tác giữa người dùng u và sản phẩm i.• µu: Đánh giá trung bình của người dùng u

• σu: Độ lệch chuẩn của đánh giá của người dùng u.• Nk

ipuq: Tập hợp k láng giềng gần nhất của người dùng u đối với sản phẩm i.• simpu, vq: Độ đo tương tự giữa người dùng u và người dùng v

• rvi: Đánh giá mà người dùng v đã đưa ra cho sản phẩm i.• µv: Đánh giá trung bình của người dùng v

• σv: Độ lệch chuẩn của đánh giá của người dùng v

Phương pháp lọc dựa trên mô hình (Model-based Collaborative Filtering) [21] sử dụng dữliệu đã đánh giá của người dùng để huấn luyện và xây dựng một mô hình đánh giá Từ mô hìnhsau khi huấn luyện ta có thể tính toán ước lượng đánh giá của người dùng cho các sản phẩmchưa được đánh giá Ưu điểm của phương pháp này là chỉ cần thực hiện huấn luyện một lần, môhình đánh giá sau khi huấn luyện có kích thước nhỏ hơn nhiều so với dữ liệu ban đầu, không tốnkhông gian lưu trữ Tuy nhiên chi phí và thời gian cho việc xây dựng mô hình đánh giá tươngđối lớn

Trang 25

Mô hình nhân tố ẩn

Mô hình nhân tố ẩn (Latent factor models) [16] [20] ánh xạ cả người dùng và các sản phẩmvào cùng một không gian đặc trưng tiềm ẩn, là một trong những mô hình thành công nhất vàphổ biến nhất trong các hệ thống tư vấn khuyến nghị Hầu hết, các mô hình hiện tại trong môhình này xác định cả yếu tố ẩn của người dùng và các yếu tố ẩn của sản phẩm Các nhân tốẩn thường là các thông tin mô tả về người dùng và sản phẩm (một loại metadata) Ví dụ trongphim ảnh, các nhân tố ẩn có thể là thể loại phim (hài, hành động, kinh dị, ), diễn viễn trongphim, tâm lý nhân vật của bộ phim, phân loại phim cho người lớn hoặc trẻ em,

Hình 2.1: Ví dụ về một mô hình nhân tố ẩn

Hình 2.1 là minh hoạ đơn giản về phương pháp tiếp cận tiềm ẩn, đặc trưng cho cả ngườidùng và phim sử dụng hai trục - nam so với nữ và viễn tưởng (escapist) hay chân thực (serious).Đối với mô hình này, dự đoán đánh giá của một người dùng cho một bộ phim, so với đánh giátrung bình của bộ phim, tương đương với vị trí của bộ phim và người dùng đó trên đồ thị Ởđây, ta có thể dự đoán người dùng Gus có thể thích “Dumb and Dumber”, “Independence Day”và không thích “The Color Purple”, “Sense and Sensibility” Một số người dùng như Dave làtrung lập

Phương pháp thừa số hóa ma trận (Matrix factorization – MF)

Cho tập người dùng U “ tu1, u2, u3, , uNu và tập sản phẩm P “ tp1, p2, p3, , pMu, với Nvà M lần lượt là số người dùng và số sản phẩm Ma trận R “ trij, i “ 1, 2, , N, j “ 1, 2, , M ulà ma trận đánh giá của tập U và P , trong đó rij là đánh giá của người dùng ui cho sản phẩm

Trang 26

pj Ta quy định rij “ m khi chưa biết đánh giá của người dùng ui đối với sản phẩm pj (hayngười dùng ui chưa đánh giá pj) Khi toàn bộ giá trị rij của ma trận R đều khác m, ta có matrận đánh giá dày đặc:

Phương pháp thừa số hóa ma trận ánh xạ người dùng và sản phẩm vào một không gian Rf,sự tương tác giữa người dùng và sản phẩm được mô hình hóa trong không gian này Khi đó,

Trang 27

mỗi sản phẩm i được liên kết với một vector sản phẩm qiP Rf, mỗi người dùng u được liên kếtvới một vector người dùng puP Rf.

Đối với mỗi sản phẩm i, các yếu tố qi đo mức độ tích cực hoặc tiêu cực của sản phẩm đó.Đối với mỗi người dùng u cụ thể, các yếu tố pu đo lường mức độ quan tâm của người dùng đóđối với các sản phẩm về các yếu tố tích cực hoặc tiêu cực tương ứng Sự tương tác giữa ngườidùng u và sản phẩm i được mô hình bằng tích vô hướng của vector sản phẩm và vector ngườidùng, qJ

i pu.Giá trị ước tính đánh giá của người dùng u đối với sản phẩm i dựa trên việc tính toán sựtương tác trong không gian Rf [7]

Hình 2.2: Ví dụ về hệ thống khuyến nghị của Amazon

Vấn đề thách thức chính là tính toán để lập ánh xạ của từng sản phẩm và người dùng đếncác vector nhân tố qi, pu P Rf Dựa vào công thức (2.9), ta có thể dễ dàng ước tính đánh giácủa một người dùng cho bất kỳ sản phẩm nào

Quá trình phân tích ma trận có thể phải đối mặt với vấn đề tổn thất Giá trị tổn thất Lđược tính dựa trên các sản phẩm mà người dùng đã đánh giá, và giá trị trung bình của hàmtổn thất càng nhỏ thì tính hiệu quả của mô hình càng được đánh giá cao, và ngược lại:

Trang 28

tương lai Do đó, hệ thống nên tránh việc mô hình quá khớp (overfiting) bằng cách chuẩn hóacác tham số đã học.

Phương pháp sử dụng các đặc trưng ưu tiên (Biased Matrix Factorization)Một lợi ích của cách tiếp cận thừa số hóa ma trận trong lọc cộng tác là tính linh hoạt củanó trong việc xử lý các khía cạnh dữ liệu khác nhau và các yêu cầu ứng dụng cụ thể khác nhau.Công thức (2.9) cố gắng nắm bắt sự tương tác giữa các người dùng và các sản phẩm để tạo racác giá trị đánh giá khác nhau Tuy nhiên, nhiều biến thể được quan sát thấy trong các giá trịxếp hạng là do các hiệu ứng liên quan đến người dùng hoặc sản phẩm, được gọi là các đặc trưngưu tiên (biases hoặc intercepts), các đặc trưng này không phụ thuộc vào bất cứ sự tương tácnào Ví dụ: trong một số hệ thống lớn, một số người dùng có xếp hạng cao hơn những ngườikhác và đối với một số sản phẩm có xu hướng được xếp hạng cao hơn so với những sản phẩmkhác Do đó, có thể thấy một số sản phẩm được xem là tốt hơn (hoặc tồi tệ hơn) một số sảnphẩm khác Chính vì vậy, ta có thể xác định thêm thành phần đặc trưng ưu tiên này vào đặctrưng của người dùng và đặc trưng của sản phẩm để mô hình hóa Mô hình hóa một xấp xỉ đặctrưng ưu tiên có thể được tính như sau:

Trong đó:+ bui là thành phần đặc trưng ưu tiên của người dùng u và sản phẩm i

+ µ là đánh giá trung bình tổng thể.+ bu và bi lần lượt là sai lệch tương ứng với giá trị trung bình của người dùng u và sản phẩm

i.Áp dụng vào công thức (2.9), ta có công thức tính ước lượng đánh giá sử dụng đặc trưng ưutiên như sau:

Trang 29

đánh giá, trên các ứng dụng web dù cho người dùng nào đã đánh giá sản phẩm i thấp hay cao.Ở mức độ nào đó, thao tác đánh giá đã là 1 yếu tố tiềm ẩn phản ánh mức độ ưa thích của ngườidùng Điều này dẫn đến một số phương pháp ví dụ như SVD++, được chứng minh là mang lạiđộ chính xác vượt trội so với SVD [4] Theo đó, SVD++ thêm một vector yếu tố (yj P Rf) chomỗi sản phẩm, và các yếu tố sản phẩm này được sử dụng để mô tả đặc tính của sản phẩm, bấtkể liệu nó đã được đánh giá hay chưa Sau đó, ma trận yếu tố của người dùng được mô hìnhhóa Dự đoán đánh giá của người dùng u cho sản phẩm i được tính theo công thức sau [5]:

ˆrui“ µ ` bi` bu` qJi

Ở đây:• ˆrui là đánh giá dự đoán của người dùng u cho sản phẩm i.• µ là đánh giá trung bình toàn cục

• bi và bu là các tham số độ lệch cho sản phẩm i và người dùng u tương ứng.• qi là vector nhúng của sản phẩm i

• pu là vector nhúng của người dùng u.• Npuq là tập hợp các sản phẩm mà người dùng u đã đánh giá.• yj là vector nhúng của sản phẩm j

• |Npuq| là kích thước của tập hợp Npuq

Trang 30

Quá trình học của mô hình

Quá trình giải bài toán là tối thiểu hóa hàm tổn thất, một trong những phương pháp phổbiến là Stochastic Gradient Descent (SGD) Về cơ bản, thuật toán thực hiện các bước sau chomột số lần lặp nhất định, cả 2 phương mô hình SVD và SVD++ đều có thể sử dụng SGD đểgiải, cụ thể như sau:

- Với mô hình SVD: Quá trình cập nhật các tham số trong quá trình huấn luyệncủa phương pháp SVD như sau [9]:

ÿ

jPN puq

Ngày đăng: 21/09/2024, 09:15

w