1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Khai thác sự đa dạng trong tư vấn thông tin liên lĩnh vực

80 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai thác sự đa dạng trong tư vấn thông tin liên lĩnh vực
Tác giả Đặng Thị Hà
Người hướng dẫn TS. Nguyễn An Tế
Trường học Trường Đại học Sư phạm TP.HCM
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 80
Dung lượng 6,64 MB

Nội dung

Hầu hết các hệ thống tư vẫn hiện nay chỉ quan tâm đến một lĩnh vực cụ thể đề tư vấn thông tin cho NSD, ví dụ hệ thống MovieLens sẽ giới thiệu cho NSD những thông tin liên quan đến sở thí

Trang 1

BO GIAO DUC VA DAO TAO TRUONG BAI HOC SU PHAM TP.HCM

THÀNH PHÓ HỖ CHÍ MINH - 2018

Trang 2

BO GIAO DUC VA DAO TAO TRƯỜNG ĐẠI HỌC SƯ PHAM TP.HCM

Trang 3

nghệ thông tin — Trường Đại học Sư phạm TP HCM đã hỗ trợ và tạo điều kiện cho tôi

trong thời gian qua

Cuối củng, tôi xin bảy tỏ lòng biết ơn sâu sắc đôi với gia đình đã luôn động viên và giúp đỡ tôi trong suốt quá trình học tập cũng như thực hiện luận văn

TP HCM tháng 9 năm 2018 Học viên thực hiện

Đặng Thị Hà

Trang 4

MUC LUC

DANH MUC THUAT NGT VA VIET TAT

DANH MUC CAC BANG

DANH MUC HINH VE

Trang 5

2.3 Đánh giá các hệ thông tiếp cận tư vấn liên lĩnh vực - +52 +zcszsxsscsee2 24

2.3.3 Thuật toán tính độ lỗi của hệ thống tư vấn 26

Chương 3 MÔ HÌNH TƯ VẤN LIÊN LĨNH VỰC 225 52c 2c2eeererreei 28

3.1 Hệ thống tư vấn liên lĩnh Vực . - 2S: S211 212111 1E1518151 1221181112111 1E see 28

3.2 Bài toán tư vấn liên lĩnh vựC ¿- ¿+5 ++t S222 2381235121 18211815121 1118151151211 ExxeE 31 3.3 Thuật toán tư vấn liên lĩnh vực CRF -S: 2: 2222122 2111812121211 xe 33

Chương 4 KHAI THÁC SỰ ĐA DẠNG TRONG TƯ VẤN THÔNG TIN LIÊN

in );A¿iieẼ 42

4.1 Cơ sở đề xuất thuật toán CRF cái tiẾn -á- 5: 22c S22t 12121211 xsekrrei 42 4.2 Thuật toán tư vấn liên lĩnh vực CRF cải tiến 75-52 cccccccscccceea 43 4.3 Giải pháp ánh xạ hồ sơ của NSD theo giái thuật CRE cái tiến 44 4.3.1Thuật toán ánh xạ NSD trên lĩnh vực $ —> T của CRF cải tiến 45 4.3.2 Thuật toán ánh xạ NSD T — § của CRE cải tiến -22-cce 52

4.4 Các bước tạo danh sách tư vấn cho NSD theo thuật toán CRE cải tiến 53

Chuong 5 THUC NGHIEM 0.0.0.0.ccccccccccsccesessececsssececssesecscesesecseesststscasesstseasesseaeateneees 56

5.1 Cơ sở đữ liệu thực nghiệm - - - Q2 2221110112312 3229322111 ve 56

Trang 6

5.2 Quy trình thực nghiỆm - n nh ng tk kh 58 5.3 Kết quá thực nghiệm và bàn luận 5 2212223 112225125 5112112151 111tr 59

5.3.1 Kết quá thực nghiệm I1: Thống kê theo độ đo RSME cho Amazon Sách-

Trang 7

DANH MUC THUAT NGU VA VIET TAT

Cross Recommendation Framework

Collaborative Filtering

Content-based Filtering

Context-aware Collaborative Filtering

Người Sử Dụng

Context-aware Recommender System

Matrix Factorization Recommender

Hệ thống f van (recommender system)

CRF

CF CbF CACF NSD CARS

MF RS

Trang 8

DANH MUC CAC BANG

Bang 2 1 Ma tran đánh giá theo NSD cc cceeeeeeeeecceceeeeeeeeeeeeeeeseseeseeeeeaaaaeeeeeeeseess 15 Bang 2 2 Ma trận ước lượng đánh giá theo san PHAM .cceceeeeceeeeecesesereeeseeereees 16 Bang 2 4 Ma trận đánh giả phim 5 c2 1111322111111 TT TH ket 20 Bảng 2 5 Ma trận đánh giả sách 2c c c1 1nnn ST TT HT tk 21 Bảng 2 6 Ma trận đánh giá sách sau chuẩn hóa - 5-2 3222123 E812 2E EEzrrrrrei 21 Bảng 2 7 Ma trận đánh giả phim 1111113221111 1T TT TH ket 22 Bang 2 § Ma trận đánh giá phim sau chuân hóa . 2 ¿552222222 2Ezt+xsesxersxea 22 Bảng 4 1 Ma trận đánh giá sách trước khi chuẩn hóa - 55252222 2222c2£+z c2 47 Bảng 4 2 Ma trận đánh giá sau khi chuẩn hóa - 2 2225 22 E13 E2 EErrrksrrrrxree 48 Bang 4 3 Ma trận đánh giá phim trước khi chuân hóa 52552525252 <+xs5e2 48

Bang 4 4 Ma trận đánh gia phim sau khi chuẩn hóa - 5c 52525252 S+x+esxsesa 49 Bảng 5 5 Mô tả CSDL Sách và Phim của ÄmZ0n c0 221 nnn nhe 57 Bang 5 6 Kết quả thực nghiệm theo độ đo RSME cho Amazon L00K - 59 Bảng 5 7 Kết quả thực nghiệm theo độ đo MAE trên Amzon 100K - 61

Trang 9

1 Các thành phản trong hệ thống tư vấn - ¿5 2222522222 xrxrxexsrree 11

2 Minh họa hệ thong tu van - loc CỘng (ÁC TS nen He 14

1 Ví dụ minh họa về khái niệm lĩnh vực ở 4 mức [41] -=-s-: 30

2 Nhiệm vụ của hệ thống tư vấn liên lĩnh vực [4] - - +scsc+x+sxscssz 32

1 Sơ đồ các bước thực hiện CRF cải tiến 22:22 2 S222 xerreeree 43

2 Mô hình ánh xạ hồ sơ NSD trong CRE cải tiến .- 255cc ccssce2 45

3 Phân bố user của Phim-Sách trên CSDL Amazon - sec sex cseszexss 58

4 Kết quả thực nghiệm theo độ đo RSME 5 S2 2213 32122 E22 Esrrre 60

5 Kết quá thực nghiệm theo độ đo \MAI 5-2 22222123 E121 EeErsres 61

6 Kết quá thực nghiệm theo độ đo CBDD - G5 2212321 51231111 1E Eerrrei 63

7 Kết quá so sánh tư vẫn trên sách theo các phương pháp -: 64

8 Kết quá so sánh một lĩnh vực với CRF trên Movies -.-: 52 s55: 65

Trang 10

Chương 1 GIOI THIEU

Chương 1 sẽ trình bày một số vấn đề đã thúc đây luận văn đi tìm hiểu và tiễn hành nghiên cứu về các hệ thống tư vấn liên lĩnh vực Tiếp theo đó, chương mở đầu này cũng sẽ giới thiệu những mục tiêu, nội dụng nghiên cứu và tóm tắt những kết quả đạt được của luận văn

1.1 Đặt vấn đề

Từ nhiều năm nay, sự ra đời của những hệ thông như Google, Netflix, Amazon đã giúp chúng ta giải quyết nhu cầu về thông tin trong nhiều lĩnh vực của cuộc sống hằng ngày Thông thường, sau khi cung cấp một vài từ khóa hay những điều kiện lựa chọn

sản phâm thể hiện nhu cầu, nguoi su dung (NSD) sẽ nhận được một danh sách rất lớn

những thông tin hay sản phẩm có liên quan Lúc này, NSD phái đối mặt với một vấn đề qua tai thong tin (information overload) nghĩa là danh sách kết quả trả về chứa quá nhiều thông tin (có khi lên đến hàng triệu thông tin) và họ phải tốn nhiều thời gian, công sức

để loại bỏ những thông tin không phù hợp và chọn lọc lại những gì thật sự có ích NSD cũng có thể tính chế lại tập từ khóa hay điều kiện lựa chọn để thu hẹp danh sách thông tin kết quá, nhưng vấn đề mấu chốt ở đây là các hệ thống đã đồng nhất nhu cầu của mọi

cá nhân trong từng lĩnh vực tương ứng [3] Nhìn chung, danh sách kết quả chứa những thông tin có liên quan nhưng không ít trong số đó là không phù hợp với NSD Ví dụ, nếu cùng thời điểm mà một giáo sư hay một chuyên gia và một sinh viên ngành công nghệ thông tin cùng nhập những từ khóa giống nhau thì cá hai đều sẽ nhận được danh sách kết quả giống như nhau, trong đó có một phần danh sách chỉ phù hợp với người

này và không phủ hợp với người kia vì trình độ và nhu cầu của hai đối tượng là khác

nhau

Hệ thống tư vấn (Recommender Systems) mang lại nhiều ý nghĩa to lớn giúp cho người sử dụng vượt qua tình trạng quá tải thông tin và đã trở thành một công cụ mạnh

Trang 11

mẽ và phô biến hiện nay Những ý nghĩa của hệ thong tu van co thể liệt kê như sau: khả năng đưa ra các dịch vụ cá nhân hóa, hướng tới từng đối tượng khách hàng cụ thê; tăng mức tín nhiệm và trung thành của khách hàng; tăng doanh thu, tang CTR (click through rate); thêm hiểu biết về khách hàng

Mội số giá trị cụ thể do các hãng lớn công bố khi ap dung céng nghé tu van: Netflix,

hệ thông cung cấp phim bán quyền trực tuyến, 2/3 số phim được xem từ hệ thông tư vấn Amazon, hệ thông bán hàng trực tuyến hàng đầu thê giới hiện nay, 35% doanh số bán hàng từ kết quả của tư vẫn Google New đem lại 38% click-throughs Choicestream:

28% NSD quyết định mua sản phâm âm nhạc khi họ tìm được sản phâm yêu thích từ

những tư vấn của hệ thông [7]

Hiện nay các hệ thống tư vấn đã và đang ứng dụng rộng rãi trong lĩnh vực công nghệ thông tin và truyền thông nhằm tư vấn một cách phù hợp cho NSD cũng như các nhà cung cấp dịch vụ các thông những thông tin, hàng hóa, dịch vụ, hay thông tin thị trường, hành vi của người dùng Ví dụ, các hệ thống như Facebook, Amazon, MovieLens cung cấp những chức năng giới thiệu những thông tin về kết bạn, sách, phim ảnh theo nhu cầu hay sở thích của từng NSD [4] Đa số các hệ thống tư vấn hiện

nay được dựa trên hai cách tiếp cận chính: tiếp cận dựa trên nội dung (Content-based

Filtering - CbF) và tiếp cận dựa trên sự cộng tac (Collaborative Filtering — CF) [6] Theo cách tiếp cận dựa trên nội dung (CbF), mỗi NSD có một hồ sơ đặc trưng (profile) theo từng lĩnh vực bao gồm những thông tin mô tả khác nhau như: tên, tuổi, giới tính, nghề nghiệp, thói quen, vùng địa lý Sau đó, hệ thống so khớp giữa hồ sơ NSD và sản phâm, hàng hóa, hay thông tin (gọi chung là item) đề cung cấp các thông tin về các items phù hợp với hồ sơ NSD Ngược lại, NSD phải phản hồi cho hệ thông những đánh giá (ratings) trên những gì mình đã nhận được để hệ thông có thê cập nhật

hồ sơ NSD một cách đúng đắn Cách tiếp cận này không đánh đồng nhu cầu của mọi cá nhân như trong lĩnh vực, nhưng theo lối mòn trong khai thác, nghĩa là một khi hồ sơ NSD đã “ôn định” thì NSD chỉ nhận được những gì được mô tá trong hồ sơ và không

có cơ hội khám phá những lĩnh vực mới mà có thê cũng rất đáng quan tâm

Trang 12

Trong cach tiếp cận dựa trên sự cộng tác (CF), dựa trên một ma trận đánh giá R (ratings matrix), hệ thong sẽ xác định một cộng đồng cho NSD dựa trên độ tương đồng của các NSD trong ma trận R Sau khi xác định cộng đồng, NSD sẽ được hệ thong tu vấn những items mà cộng đồng của mình cho điểm cao Ưu điểm của CF chính là sự chia sẻ thông tin giữa những NSD, và đã giải quyết được vấn đề lỗi mòn trong khai thác

vì thông qua cộng đồng của mình, NSD có thê khám phá thêm những chủ đề mới, ngay

cả khi không có hồ sơ NSD

Hầu hết các hệ thống tư vẫn hiện nay chỉ quan tâm đến một lĩnh vực cụ thể đề tư vấn thông tin cho NSD, ví dụ hệ thống MovieLens sẽ giới thiệu cho NSD những thông tin liên quan đến sở thích phim ảnh, Facebook tư vẫn kết bạn cho NSD dựa trên các thỏi quen giao tiếp trên mạng xã hội Hiện nay có rất ít hệ thống tư vẫn cho NSD dựa trên ngữ cảnh của nhiều lĩnh vực Zihan [38] đề xuất hệ thống tư vấn mới dựa trên đa lĩnh

vực tại hội nghị AAAI-I6 cho học tích cực (Active Learning) Kết quả thực nghiệm cho thay tính khả thị của việc khai thác liên lĩnh vực cho hoạt động tư vấn trong học tập so

với tư vấn một cách độc lập theo từng lĩnh vực riêng lẻ Ngoài ra, Kotkov [13] đang nghiên cứu phát triên một hệ thống tư vấn liên lĩnh vực cho các items chồng lắp trên

nhiều lĩnh vực, và Zhenzhen đã đề xuất mô hình CRUS [39] cho việc tư vấn liên lĩnh

vực dựa trên độ đo sự tương đồng của NSD

Trong phạm vi nghiên cứu này, luận văn quan tâm đến những hệ thống tư vấn liên lĩnh vực, ví dụ giữa phim và sách, nhằm mục đích hướng đến tính đa dạng phong phú của thông tin tu van Giá sử một NSD (u4) chỉ mới có những đánh giá về phim mà chưa

có đánh giá về sách thì không thê tư vẫn sách cho u¡ được Nhưng giả sử NSD uy gan với một NSD nao đó (u*) mà u* nằm trong cộng đồng nào đó thì có thể u¡ cũng thuộc

vào cộng đồng do Cu thé: Gia str trong lĩnh vực Di thì u1 được xếp vào cộng đồng Gi

mà trong G44 lại có một NSD uz mà ua thuộc lĩnh vực Da nhưng Uz này lại được xếp vào cộng đồng Ga vậy thì có khả năng u cũng được xếp vào Gas Tóm lại, đối với NSD mới

có khả năng dựa vào độ tương đồng của NSD mới với NSD trong danh sách NSD có đánh giá trên nhiêu lĩnh vực đê xếp vào cộng đông

Trang 13

Phat triển mô hình tư vấn liên lĩnh vực sẽ giúp nâng cao khả năng ứng dụng của hệ

thống tư vấn trong thực tế, đặc biệt là trong lĩnh vực thương mại điện tử Bởi vì NSD

của các hệ thống thông tin, nhất là trong thương mại điện tử, thường thao tác trên các items của nhiều lĩnh vực khác nhau Ví dụ, NSD Lazada sẽ tìm kiếm mua sm items vé

đô dùng dân dụng, sách, nhu yêu phẩm, hay các thiết bị điện tử

Ngoài ra, tư vấn liên lĩnh vực sẽ giúp các công ty phát triển hệ thống tư van tái sử dụng thông tin về hành vi của NSD của hệ thống hiện tại khi phát triển tính nang tu van cho các ltems của lĩnh vực mới của hệ thống Vi dụ, hệ thống ban dau chi tu van NSD trong việc lựa chọn phim anh để xem Sau đó, hệ thống phát triển thêm sản phẩm ca nhạc để phục vụ NSD thì các dữ liệu phân tích hành vi NSD trên việc lựa chọn phim

ảnh sẽ được tái sử dụng cho hệ thống tư vấn ca nhạc

1.2 Mục tiêu của luận văn

Phân lớn các hệ thông tư vấn đều chỉ chú trọng đến độ chính xác (precision) của các thuật toán tư vấn và chưa đáp ứng hoàn toản nhu cầu rất đa dang cua NSD Vi du, một danh sách tư vấn các đầu sách có độ chính xác cao, có thể phù hợp với sở thích của NSD, nhung lai rat gần giống nhau, như tập hợp nhiều phiên bản/tái bản của cùng một đầu sách hay cùng một chủ đề về Nha Trang, thì có vẻ đơn điệu, và không thích hợp bằng một danh sách tư vấn chứa những đầu sách mang tính đa dạng (diversity) nhưng vẫn bảo đám được một độ chính xác nhất định Rõ ràng các hệ thống tư vấn liên lĩnh vực sẽ giúp tăng tính đa dạng trong kết quả tư vấn hơn hệ thống tư vấn trên một lĩnh vực Do đó, luận văn xác định mục tiêu phát triển hệ thông tư vấn liên lĩnh vực (ví dụ hai lĩnh vực: sách và phim) có xét tới yếu tô giá trị thuộc tính của các items (ví dụ sách

thì có các thể loại như sách truyện, sách học thuật ) dé tang tinh da dang so với cach

tiếp cận truyền thông của hệ thông tư vẫn trên một lĩnh vực

Ngoài ra, chất lượng của thông tin tu van con duoc thé hién qua tinh mdi (novelty),

có nghĩa là hệ thong co kha nang tu van nhimg items ma NSD chưa hè biết đến Ví dụ, một NSD ưa thích những bài thơ tình của tác giả Chấn Uy, khi đó việc tư vẫn một truyện

Trang 14

ngắn của cùng tác giá có thể được đánh giá là có tính mới mẻ Vì vậy, luận văn đặt ra mục tiêu phát triển một mô hình tư vấn liên lĩnh vực thay vì tư vấn trên một lĩnh vực như cách tiếp cận truyền thống

1.3 Nội dung thực hiện và Đối tượng nghiên cứu

Nhằm đạt được những mục tiêu đã nêu, về mặt lý thuyết, luận văn sẽ tiễn hành nghiên cứu những công trình, những thuật toán có liên quan đến các phương pháp tư

vân liên lĩnh vực Những công việc cụ thê bao gôm:

- Khao sat hiện trạng về các hệ thông tư vấn đã có, phân tích ưu và khuyết điểm của những phương pháp được áp dụng phô biến hiện nay

-_ Tìm hiểu về các thuật toán liên lĩnh vực, các thuật toán tư vẫn đạt hiệu quả cao nhu: phan chia item (item splitting), phan ra ma tran (matrix factorization), hay phuong phap contextualizing users’ latent features,

- Nghiên cứu khả năng khai thác các cộng đồng đa tiêu chí thông qua việc xem xét thêm mỗi quan hệ giữa 2 lĩnh vực và các cộng đồng

-_ Xây dựng những thuật toán tư vấn liên lĩnh vực với mối quan tâm đặc biệt đến giá trị thuộc tính của các items, sự tương đồng giữa NSD trong nhiều lĩnh vực khác nhau

Về mặt thực nghiệm, những thuật toán tư vấn do luận văn đề xuất sẽ được thử

nghiệm và đánh giá theo phương pháp offline, nghĩa là thuật toán sẽ được thử nghiệm trên một bộ dữ liệu mẫu Amazon trong lĩnh vực hệ thống tư vấn sách và phim Quá trình thử nghiệm của luận văn sẽ được tiễn hành theo những bước chính như sau:

-_ Chuẩn bị dữ liệu

-_ Xây dựng quy trình thử nghiệm (protocol)

- _ Tiến hành thử nghiệm theo phương pháp offline

- Phan tích và đánh giá kết quả

Đối tượng nghiên cứu chính của luận văn là hệ thống tư vấn liên lĩnh vực Trong

Trang 15

do, linh vue [8] được định nghĩa gọn là tập các đánh giá (rating) được tạo ra trên cùng một phân phối dtr ligu “A domain is a collection of ratings which are drawn under the same data distribution” Trong cac hé thong tu van “truyén thong”, ma tran danh gia R

theo từng lĩnh vực được thể hiện qua một hàm hai biến:

Ra: UserDomaina x Altem> Arating Re:UserDomaing xX Bitem> Brating Trong khi dé tài cần quan tâm nghiên cứu thêm các yếu tố về ngữ cảnh trong ma

trận đánh giá:

Rcomexr: User x ABiem x RelationContextzeABanating

Luận văn tập trung khai thác sự tương đồng giữa NSD trong từng lĩnh vực với tập NSD chung của nhiều lĩnh vực để phản ánh ngữ cảnh mối liên hệ giữa các lĩnh vực

Về mặt lý thuyết, đề tài sẽ tiễn hành nghiên cứu những độ đo và những thuật toán giúp tăng cường những khía cạnh chất lượng tư vấn (diversity, novelty, serendipity) trong điều kiện liên lĩnh vực, giới hạn hai lĩnh vực Đồng thời phát triển mô hình tương quan giữa 2 lĩnh vực để tận dụng thông tin trung gian của lĩnh vực này tư vẫn NSD vào lĩnh vực kia (xem hình 1.1)

Ratings trén linh \afings trên lĩnh vực vực nguồn

Trang 16

1.4 Tóm tắt những đóng góp của luận văn

Luận văn đã sử dụng những khái niệm cơ bản về hệ thống tư vấn, nghiên cứu và

thực nghiệm một mô hình liên lĩnh vực (thuật toán CRF), sau đó luận văn đề xuất một

thuật toán CRF cải tiễn để cải cách ánh xạ này hồ sơ NSD nhằm tăng cường sự đa dạng

trong danh sách tư vấn Trên cơ sở đó, luận văn cài đặt hệ thông thử nghiệm mô hình đề

xuất bằng C# với thư viện tư vấn MyMediaLite va thu viện hỗ trợ các thuật toán máy hoc CSS

Luận văn đã tiễn hành thử nghiệm các phương pháp đề xuất cũng như phân tích kết quả ở nhiều khía cạnh khác nhau Thông qua kết quả thực nghiệm, luận văn đã cho thay hé thong tư vấn liên lĩnh vực (cài đặt dựa trên thuật toán CRF và CRF cải tiễn) giúp giải quyết một phần các thách thức trong tư vấn liên lĩnh vực:

e Van dé NSD mdi

e Van dé san pham mdi

e Van dé dé liéu thua

Đồng thời, kết quả thực nghiệm cũng cho thay thuat toan CRF cải tiến do luận văn

đề xuất đạt hiệu quả cao hơn thuật toán CRF

1.5 Bồ cục của luận văn

Bồ cục của luận văn được trình bày thành 6 chương như sau:

Chương 1 giới thiệu tông quan về những vấn đề của hệ thống tư vẫn, nêu lên mục tiêu, nội dung nghiên cứu và những kết quả đạt được của luận văn

Chương 2 trình bày hiện trạng của các hệ thống tư vấn

Chương 3 trình bày hệ thông tư vấn liên lĩnh vực và mô hình toán tư vấn liên lĩnh vực

Trang 17

Chương 4 trình bày giải pháp đề xuất cai tién dé tăng tính đa dạng trong mô hình

tư vân liên lĩnh vực

Chương 5 trình bảy quá trình tiến hành cũng như kết quả thực nghiệm của thuật

toán được đề xuất trên bộ dữ liệu Amazon Những đánh giá và phân tích cũng được trình

bày nhằm giúp cho việc áp dụng mô hình cải tiễn đã đề xuất

Chương 6 là phần kết luận và nêu lên một số hướng phát triển trong tương lai của

luận văn

Trang 18

Chương 2 HỆ THÓNG TƯ VÂN

Chương 2 sẽ trình bày hiện trạng nghiên cứu có liên quan đến luận văn, bao gỗm phan tổng quan về hệ thống tr vấn, các cách tiếp cận

chính và các kỹ thuật (đặc biệt kỹ thuật Matrix Factorization duoc danh

giá là có hiệu quả cao) thường được áp dụng trong hệ thống tư vấn

2.1 Khái niệm dùng trong hệ thống tư vấn

Hệ thống tư vấn thường được sử dụng đề dự đoán sở thích của NSD dựa vào những phản hồi của NSD nhằm gợi ý cho họ các sán phẩm mà NSD có thê thích Hệ thống tư vấn hiện nay đang được ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại điện

tử (bán hàng trực tuyến, gợi ý các sản phâm nên phù hợp với nhu cầu của NSD), trong giải trí và truyền thông đa phương tiện (tư vấn phim, nhạc, tin tức mà NSD có thé quan tâm), trong giáo dục và đào tạo (gợi ý nguôn học liệu phù hợp với nhu cầu học tập ) Ví dụ, hệ thống bán hàng trực tuyến của Amazon nhằm mục đích tôi ưu hóa việc mua sắm trực tuyến của khách hàng Hệ thông phân tích những khách hàng nào đã chọn những sản phẩm theo dữ liệu trong quá khứ (dữ liệu này được xếp hạng dựa vào bình chọn, đánh giá trên sản phẩm, sô lần click chuột trên sản phẩm ) từ đó hệ thông sẽ dự đoán NSD có thể yêu thích sản phâm nào để đưa ra những gợi ý phù hợp

Trong hầu hết các trường hợp, bài toán tư vẫn được coi là bài toán ước lượng trước đánh gia (rating) của các sản phẩm (phim, sách, nhu yếu phẩm, nhà hàng ) chưa được NSD xem xét Việc ước lượng này dựa trên đánh giá của chính NSD này hoặc của những NSD khác Admovicius và Tuzhinlin [1,5] đã đưa ra các khái niệm dùng trong hệ thống

tư vân như sau:

Không gian NSD (User Space): la tập tất cả các NSD mà hệ thống quan sát được

Trang 19

đề thực hiện việc phân tích, goi y tu van Ky hiéu U = {u1, uz, ., Un}

Khong gian tu van (Recommendation Items Space): la tập tat ca các đối tượng sẽ duoc goi y tu van cho NSD Tùy vào từng lớp bài toán cụ thể, các đối tượng có thể là sách, phim, báo, địa điểm, món ăn, hay khóa học Ký hiệu Ì = {H, la, , Im}

Ham hitu ich (Useful function): là ánh xạ f(u, p): U x P.R dùng để ước lượng mức độ hữu ích Trong đó, p là một đối tượng trong không gian tư vấn P, u là một NSD trong không gian NSD U R là tập có thứ tự các số nguyên hoặc thực trong một khoảng nhất định Tập R phô biến là 1-5 (tương tự đánh giá 5 sao các ứng dụng hay nhà hàng

khách sạn)

Bài toán tư vấn:

Cho trước:

U ={Uu;¡, uz, ,un}

|={i, la, , Im}

Xác định hàm hữu ích f(u,p): U x I2 R Giá trị f(U,p) sẽ giúp tiên đoán u thích p nhiều hay ít, hay nói cách khác p hữu ích thé nao véi NSD u

Đối với mỗi NSD u, hệ thống tư vấn sẽ chọn TopN đối tượng p hữu ích đối với u

để tư vẫn lrepN = <H, la, , IopN> với Top << m Việc chọn TopN tùy thuộc vào nhu cầu thông tin của NSD, cũng như mục đích cung cấp thông tin của hệ thông tư vấn Một

giá trị top phô biến là Top10

Việc xây dựng hàm hữu ích f và ước lượng giá trị của các đôi tượng tư vấn p cho NSD u có thể thực hiện bằng nhiều phương pháp như: dựa vào kinh nghiệm, heuristic, máy học, lý thuyết xấp xi

Một cách tổng quát ta có các hoạt động của hệ tư vẫn gồm 3 bước (xem hình 2 L):

Trang 20

Bước I: Thu thập thông tin của NSD khi NSD tương tác với hệ thông và lưu vào trong hồ sơ NSD

Bước 2: Hệ thống xác định mỗi quan tâm của NSD và thực thi một thuật toán tư vấn nhằm so sánh, đánh giá mối liên hệ đối với hồ sơ của NSD tương tự khác hoặc đối với hô sơ sản phâm đã có

Bước 3: Đề xuất một tập hợp những sản phâm NSD có thê quan tâm

Hồ sơ người dùng ;

" Š ¬

CSDL sản Hệ thông “huêu” người dùng thích

We, #

Các đối tượng tư vấn -

* Phim Tư vấn Thu thập thông tÌn

* Sich Ap đụng một thuật người đùng

* Trang Web toán tư vấn CP

* Tin tite

` ¿ -“\

‹ „ (Cactwvan `

Người dùng mục tiêu

Trang 21

(3) Thanh phan tư vấn sử dụng một thuật toán dé tu van cho NSD

2.2 Các hệ thống tư vấn

Dựa vào cách xác định ước lượng hang/diém cho các san phâm đối với NSD, hệ tư vấn thường được chia thành ba loại chính: Thứ nhdt /v các hệ thống dựa vào CbF, tư vấn những items tương đồng với những gì mà NSD ưa thích trong quá

khứ Thư hai la phuong pháp CE, tư vấn những items dựa vào những ý kiến đánh giá

trong cộng đồng của NSD Thứ 2z /à cách tiếp cận lai ghép kết hợp cá hai phương pháp trên dé tan dung uu điểm và hạn chế nhược điểm của từng cách tiếp cận 2.2.1 Tiếp cận theo nội dụng (CbF)

Cách tiếp cận CbF gợi ý cho NSD những sản phẩm tương tự với các sản phẩm từng

được họ đánh giá cao Ví dụ, bạn đang dạo chơi trên một trang thương mại điện tử với

mục đích ban dau la tìm một chiếc quần bò nam Sau đó một loạt các sản phẩm liên quan

đến thời trang nam được gợi ý cho bạn nào là balo, túi xách, thắt lưng và sau đó bạn

nhận ra rằng mình đã bị cuốn theo những sản phẩm hay ho kia mà đôi khi còn quên mất luôn mục đích mình vào đây để làm gì

Những Items tương tự với các ifems từng được đánh giá cao tức là gợi ý những items tương đồng về mặt nội dung voi nhimg items ma NSD do đã ưa thích, đã mua, đã xem hay đã cho đánh giá (rating) cao trong quá khứ [32] Trong cách tiếp cận này, mỗi NSD sẽ sở hữu một hồ sơ đặc trưng (profile) mô tả chủ yếu những sở thích hay sự quan tâm của NSD tùy theo phạm vi của ứng dụng như danh sách các thể loại phim, thê loại nhạc yêu thích hay những lĩnh vực nghiên cứu đang quan tâm Sau đó, hệ thông sẽ so khớp thông tin mô tá trong hồ sơ và phần biêu diễn nội dung của item để dự đoán mức

độ ưa thích của NSD dành cho 1tem đó

Đề thực hiện lọc theo nội dung, ta cần giải quyết hai vấn dé: thứ nhất là biêu diễn Content(p) dưới dạng vector trọng số các nội dung, thứ hai là tính độ tương đồng giữa

hồ sơ NSD và hồ sơ sản phẩm

Trang 22

Phương pháp dựa vào nội dung thường đạt hiệu quả cao khi việc trich chon và biểu diễn các đặc trưng của 1tem thành vector được thực hiện một cách hợp lý Tuy nhiên,

thách thức lớn của kỹ thuật này là phải làm thể nào đề trích chọn được các đặc trưng của

item, trong khi đối với một số lĩnh vực ứng dụng như âm nhạc hay tranh anh thi việc

phân tích và biêu diễn nội dung của item không phải lúc nào cũng được thực hiện một cách dễ dàng

Bên cạnh đó, các items được tư vấn dựa theo bộ lọc nội dung rat ít khi thể hiện

được tính đa dạng và bất ngờ vì NSD có thê dễ dàng hình dung trước hệ thống sẽ tư vẫn những items co ndi dung tương tự như những 1tems mà mình đã thích trước đó Ví dụ,

nếu NSD thích phim tinh cam thi hệ thong tu van áp dụng lọc theo nội dung sẽ chỉ tư

vấn những phim thuộc thể loại tình cảm và điều này có thê gây nên sự nhàm chán cho

NSD vì không có khả năng khám phá những thê loại mới có thê rất thú vị mà trước đây

Hệ tư vấn CF gợi ýcho NSD những sản phẩm mà những người cùng sở thích với

họ đánh giá cao Nghĩa là hệ thống sẽ phân tích những NSD có cùng đánh giá, cùng mua hiện tại Sau đó tìm ra danh sách các Items khác cũng được đánh giá bởi cac NSD này, xếp hạng và gợi ý cho NSD Tư tưởng của phương pháp này chính là dựa trên sự tương đông về sở thích giữa những NSD đề đưa ra các gợi ý

Trang 23

likely buy

Hình 2 2 Minh họa hệ thống tư vấn - lọc cộng tác

Lọc cộng tác [29] là một trong các cách tiếp cận thành công để xây dựng các hệ

thống tư vẫn Khác với lọc theo nội dung, lọc cộng tác sẽ dựa trên những đánh giá của

nhóm NSD hợp “gu” với NSD uc để ước lượng giá trị U(C,S) (giá trị hữu ích của sản phẩm s với NSD uạy Trong kịch bán điển hình của lọc cộng tác, thì có một danh sách n NSD {u¡, ua, , zn} và một danh sách m sản phẩm và {i1, iz, ., im } mdi NSD uj cd mat tập các sản phâm lu mà NSD đó đã đánh giả hoặc các sở thích của họ đã được thu thập

Ví dụ 2.1: Xét bài toán lọc cộng tác với ma trận đánh giá R = (ri) trong hé gom 5 NSD U ={u1, u2, u3, u4, u5} và 7 sản phẩm P = {p1, p2, p3, p4, p5, p6, p7,} Mỗi NSD

đều đưa ra các đánh gia cua minh về các sản phẩm theo thang bac {@, 1, 2, 3, 4, 5} Gia

trị rị= Ø được hiểu là NSD uj chua danh gia hoac chwa bao gid biét dén san pham pj Các giá trị rs+ =2? là sản phẩm hệ thông cần dự đoán cho NSD ua (xem bang 2.1)

Ví dụ 2.2, tập với NSD đã cho, thực hiện huấn luyện theo NSD ta tìm được K:={u2}, Ka={us}, Ka={Uz} Và các giá trị dự đoán chắc chắn sẽ được điền cho u¡ là

ris=5, ri4=5 Giá trị dự đoán chắc chắn sẽ được điền cho ua là rze=2 Giá trị dự đoán

chắc chăn sẽ được điền cho u3 là ra;=4, ras=4 (xem bảng 2.)

14

Trang 24

Bang 2 1 Ma tran danh gia theo NSD

Voi Ki={ps}, Ka={p7}, K7={ps,p4} thi cac giá trị dự đoán chắc chắn sẽ được điền cho pi la ra1 = 2, cho ps la rs3=4 cho p7 la ra7=5 (xem bảng 2.2)

Trang 25

Bang 2 2 Ma trận ước lượng đánh giá theo sản phẩm

2.2.3 Tiếp cận theo lai ghép (hybrid):

Những phương pháp khác nhau đều có ưu và nhược điểm riêng Đề tận dụng điểm mạnh và hạn chế điểm yếu của những phương pháp khác nhau, nhiều nghiên cứu tiếp cận theo hướng kết hợp nhiều phương pháp với nhau, tạm gọi là tiếp cận kết hợp/lai để

tư vẫn cho NSD Burker đã khảo sát các phương pháp kết hợp và trình bày tóm tắt 7 hương pháp phô biến: lai trọng 36, lai chuyén đôi, lai trộn, lai kết hợp đặc trưng, lai theo đợt, lai tăng cường đặc trưng, lai Meta [2] Phương pháp lai trọng sô đánh mức độ quan trọng khác nhau cho các kỹ thuật tư vấn, sau đó hợp nhất đề cung cấp kết luận cuối cùng Phương pháp lai chuyển đổi sẽ phân loại tùy tình huông đề lựa chọn kỹ thuật thích hợp Nói cách khác, tùy thuộc vào tình hình, hệ thống lai chuyển đôi sẽ thay đổi từ một kỹ thuật này sang một kỹ thuật khác Phương pháp trộn thì kết quá của nhiều kỹ thuật được trình bày tại cùng một thời điểm Phương pháp lai kết hợp đặc trưng sử dùng đặc trưng

từ những nguồn hệ thông tư vẫn khác nhau được kết hợp nhu là đầu vào cho một kỹ

thuật

Trang 26

2.3 Các kỹ thuật trong hệ thống tư van

2.3.1 Kỹ thuật K-INN dùng Users/Hems

K-NN là phương pháp để gom cụm các đối tượng dựa vào khoáng cách gần nhất giữa đôi tượng cần xếp lớp với tất cả các đối tượng trong tập dữ liệu Một đối tượng được phân lớp dựa vào K láng giềng của nó Trong đó, K là một số nguyên dương được

xác định trước khi thực hiện thuật toán

Thông thường, có hai cách tiếp cận của lọc cộng tác theo mô hình K láng giềng:

Hệ thống dựa trên NSD (User_KNN) - tức là dự đoán dựa trên sự tương tự giữa các NSD và hệ thông dựa trên sản phẩm (ltem_KNN) - dự đoán dựa trên sự tương tự giữa các sản phẩm Hệ thống dựa trên NSD (User_KNN) xác định sự tương tự giữa hai NSD thông qua việc so sánh các đánh giá của họ trên cùng sản phâm, sau đó dự đoán đánh giá sản phẩm ¡ bởi NSD u, hay chính là đánh giá trung bình của những NSD tương tự với NSD u

Độ tương tự giữa NSD u và NSD u' có thê được tính theo Pearson (L Herlocker

et al., 1999 [9]) vì phân tích thực nghiệm cho thấy rằng đối với hệ thông dựa trên NSD

thi tính độ tương tự theo Pearson sẽ tốt hơn so với một vài cách khác như độ tương tự

theo cap bac cia Spearman (Spearman’s rank correlation) hay 46 twong ty theo bình phương trung bình (mean squared difference) Cong thirc 2.1 tính độ tương tự theo Pearson:

Set Tui — WCwi - Fu

ĐỀ Cui — Fy)? Diet, Cui — Fw)? (2.1)

SIMpearson (u, u')=

Từ đó, tính độ hữu ích của Item ¡ cho NSD u theo công thức (2.2):

x wex,sim(u, 1) (ru — Tự)

Trang 27

2.3.2 Kỹ thuật phân rã ma trận SVD

Bài toán phân rã giá trị riêng được phát biêu như sau: với bất kỳ ma trận A kích thước M x X nào đó có sô ÄZ >N, có thê được viết dưới dạng tích của một ma trận U trực giao theo cột có kích thước M x W, một ma trận chéo W có kích thước N x X với các số trên đường chéo là không âm, và ma trận chuyên vị của một ma trận trực giao V

có kích thước Wx ÄÑ

Đường chéo khởi tao r cua S(S1,Sa, ,Sr) có các đặc trưng SiPO va $1>92> .> sr

Trong đó, F cột đầu tiên của U là vector riêng của AAT và đại diện cho các vector riêng

trái của A trong không gian mở rộng cột, r cột đầu tiên của V là vector riêng của AT A và đại diện cho các vector riêng phải của A trong không gian mở rộng hàng Nếu chúng ta chỉ tập trung vào các Fr giá trị riêng khác không, kích thước hiệu quả SVD [32] của ma trận Ù, S và V sẽ trở thành Mf x 7, r X r var X Ñ tương ứng

Một thuộc tính quan trọng của SVD, đặc biệt hữu ích trong các hệ tư vấn là nó có

thể cung cấp giá trị xấp xỉ thấp nhất Bằng cách giữ lại k << r giá trị riêng của S và loại

bỏ các phân còn lại (tức là giữ k giá trị riêng lớn nhất), dựa trên thực tế là các mục trong

S đều được sắp xếp, chúng ta sẽ giảm số chiều của dữ liệu và hy vọng sẽ nắm bắt được mỗi quan hệ "tiềm ân” quan trọng nhưng hiện tại không rõ ràng trong các đại diện ban đầu của ma trận A Kết quả đường chéo ma tran duoc goi la Sk Ma tran U va V cũng nên được giảm cho phù hợp U được tạo ra bằng cách loại bỏ r-k cột từ ma trận U V được tạo ra bằng cách loại bỏ r - k hàng từ ma trận V Ma trận Ax được định nghĩa trong công thức (2.4) như sau:

Trang 28

Thuật toán 3.1: Thuật toán Thuật toan SVD

và tính giá trị trung bình của tất cá các cột rị , trong đó j = 1 N

2.2 Thay thế tất cả các mục ma trận không có giá trị, biểu hiện

bằng 2, với cột trung bình tương ứng r¡ ta thu được ma trận mới

Rẻ

2.3 Trừ các giá trị trung bình hàng tương ứng r¡ của tất cả các giá

tri trong ma trận vừa thu được R’, ta thu duoc ma trận chuẩn hóa

R

3 Tính toán SVD của ®” và có được ma trận U, S và V, có kích thước lượt là 4 x Ä⁄, #x N, và N x N tương ứng Mối quan hệ được thê hiện b công thức (2.5):

4 Giảm chiều bằng cách giữ chỉ k đường chéo từ ma trận S dé có được r

ma trận & x & ký hiệu Sx Tương tự như vậy ta có ma trận Ủ và V với kí

thước Ä⁄ x &k và k x N được tạo ra Ta thu được ma trận Rgizm dựa trên côi

thức (2.3):

Rgiam = Ủy x Sx x Vi (2.6)

Trang 29

Lấy trung bình của các rating của user: Điều này giống như việc xem xét xem cộng dong mạng sẽ rating như thế nào lên các sản phẩm trước đó Tự đó sẽ lấy giá trị trung bình của việc rating để chuân hóa dữ liệu Vì vậy, luận văn đề xuất sử dụng giá trị trung

bình này

Trang 31

Xét ví dụ 2.4

Ma trận đánh giá phím của người dùng được cho trong bang 2.7 như sau:

Bảng 2 6 Ma trận đánh giá phim

Trang 32

d(x,y) = pen - y,)? (2.7)

Khoang cach Minkowski:

Khoang cach Cosin:

Trong cac khoang cach trén khoang cach Manhattan co chi phi tinh toán thấp nên

thường dùng trong lĩnh vực khai thác và tư vấn dữ liệu vì dữ liệu thường có số chiều lớn

hơn nhiều so với 2 hay 3 chiều trong không gian Vì vậy, luận văn đề xuất sử dụng khoảng cách Manhattan được cho trong công thức (2.11) để tính sự tương đồng trong đánh giá của 2 NSD:

SIM(U¿, U:) = d(RatingUser:,RatingUser:;) (2.11) Trong đó, d dùng khoảng cách Manhattan, RatingUser:, RatingUser: lần lượt là vector đánh giá của User, User2 cho các items của hệ thông

Ví dụ 2.5, theo các ma trận đánh gia cho trong bang 2.6 và bảng 2.8 như trên thị: Sim(u:, ua) = dmanhattan(RatingUser;, RatingUsers)

Trang 33

= |8-3|*|4-3|*I3-4|+|4-4|+|1-1|

sim(uz, U3) = dmanhattan(RatingUserz, RatingUsers)

= J1-3|*|4-3|*|4-4|+|5-4|+|2-1|

2.3 Đánh giá các hệ thống tiếp cận tư vấn liên lĩnh vực

Có rất nhiều định nghĩa khác nhau về tư vấn liên lĩnh vực được đưa ra tùy thuộc vào lĩnh vực đang xem xét

2.3.1 Nghỉ thức kiểm tra

Nghĩ thức kiêm tra phô biến được đề cập là hold-out và k-fold Trong cả hai nghỉ

thức này, tập dữ liệu được phân thành 2 tập: tập huấn luyện và tập kiểm tra

Nghĩ thức hold-out: chia tách tập dữ liệu thành hai phần, một phần dùng đề học và một phần dùng đề kiểm tra Thông thường, lấy ngẫu nhiên 2/3 tập dữ liệu để học và 1⁄3

để kiểm tra (trong một số trường hợp tỷ lệ chia nay 1a 1/2 va 1/2) Co thé lap lai qua trình này k lần va tính trung bình

Nghĩ thức k-fold: chia tập dữ liệu ban đầu thành k phần bằng nhau Quá trình học

và kiểm tra được thực hiện k lần, mỗi lần sử dụng k-1 fold để huấn luyện và | fold dé kiểm tra Sau đó tính trung bình k lần kiểm tra

2.3.2 Tiéu chi danh gia

Mội số tiêu chí đánh giá khác nhau đã được sử dụng trong các hệ thông tư vấn Việc đánh giá chính xác các dự đoán có thể sử dụng theo phương pháp sai số trung bình (Mean Square Error - MSE), căn bậc hai của sai số bình phương trung bình (Root Mean

24

Trang 34

Square Error — RMSE), sai sé tuyệt đối trung bình (Mean Absolute Error — MAE) Tinh

chính xác của các dự đoán đo được trên n quan sat

Các chỉ số này thích hợp cho bộ dữ liệu không phải nhị phân và cho kết quả giá trị

dự đoán là sô Nó giúp đo mức độ sai số của dự đoán Các giá trị này sẽ bằng 0 nếu kết quả dự đoán chính xác, giá trị này càng cao thì hiệu quả của hệ thông càng thấp

Đối với bộ dữ liệu nhị phân thường sử dụng các chỉ số khác như precision, recall,

F score, R_ score do Breese, J.S and D Heckerman đề xuất năm 1998 [12]

Trang 35

2.3.3 Thuật toán tính độ lỗi của hệ thông tư vẫn

Thuật toán 3.2: Thuật toán tính độ lôi RMSE

lnput: một tập User u đã huân luyện

Output: độ lỗi RMSE của hệ thống

2 Tính độ lỗi RSME của từng NSD

Duyệt qua các NSD trong hệ thông

Double delta = realRating - guessRating;

RSME = delta * delta;

Trang 36

Thuật toán 3.3: Thuật toán tính độ lỗi MAE

Input: mot tap User u đã huan luyén

Output: d6 16i Final MAE

2 Tính độ lỗi MAE cua ting NSD

Duyệt qua các NSD trong hệ thông

Double delta = realRating - guessRating;

MAE = Math.abs(delta);

Size++;

Cudi duyét

3 Tính độ lỗi RSME của hệ thông

FinalMAE = MAE/ size;

Trang 37

Chuwong 3 MO HINH TU VAN LIEN LINH VUC

Chương 3 sẽ giới thiệu tổng quan về hệ thống tư vấn liên lĩnh vực, trình bày một thuật toán liên lĩnh vực (CRF) và những đóng góp về mặt

lý thuyết của luận văn trong thuật toán CRF

3.1 Hệ thống tư vấn liên lĩnh vực

Theo truyền thống, hầu hết các hệ thống tư vấn chỉ tập trung vào một lĩnh vực cụ thê để cung cap thong tin cho NSD, vi dy Netflix gidi thiệu các chương trình phim và truyền hình, Barnes & Noble giới thiệu về sách, Last.fữm tư vấn các bài hát và album nhạc, Hạn chế của hệ thống tư vẫn trên một lĩnh vực là dù NSD có nhu cầu đa dang

cũng luôn chỉ nhận được danh sách tư vấn được hình thành từ lĩnh vực nảy NSD phải tham gia đồng thời nhiều hệ thống tu van thuộc nhiều lĩnh vực, mắt nhiều công sức khai

báo trùng lắp nhiều thông tin Trong thực tế, có thé ton tại sự tương quan giữa các items trong các lĩnh vực khác nhau Tại sao chúng ta không đồng thời giới thiệu thêm một bộ phim kinh điển như “Pursuit Of Happiness” khi NSD đang tìm kiếm những quyền sách về hạnh phúc gia đình; hay là một ứng dụng du lịch có thê giới thiệu thêm một sự kiện văn hóa có liên quan Bằng cách tư vấn đồng thời nhiều kĩnh vực khác nhau nhưng có sự liên quan, các trải nghiệm của NSD có thể sẽ được cải thiện khi được cung cấp nhiều sự tư vấn mang tính đa dạng và bất ngờ thú vị

Chúng ta nhận thấy, các trang web thương mại điện tử lớn như Amazon và eBay thường lưu trữ thông tin phản hồi của NSD về các mặt hàng thuộc nhiều lĩnh vực, và

NSD cũng thường bày tỏ sở thích họ với nhiều chủ đề Điều này sẽ mở rộng lợi ích cho

tất cá các đữ liệu về NSD sẵn có trong các hệ thống của các lĩnh vực khác nhau để tạo

ra nhiều thông tin tư vấn tốt hơn Như vậy, thay vì cung cấp thông tin tư vấn từng lĩnh

vuc (vi du: phim, sách và nhạc) một cách độc lập, những trì thức có được trong lĩnh vực

Trang 38

này có thê được chuyên tải và khai thác trong một lĩnh vực mục tiêu khác

Vấn đề khởi đầu lạnh (cold — start) gây trở ngại cho các hệ thống tư vấn truyền thống do thiếu thông tin về NSD hoặc thiếu thông tin về các items Việc nghiên cứu phương pháp tư vấn liên lĩnh vực nhằm góp phần giải quyết một phần vấn đề này Tư vấn liên lĩnh vực sẽ dùng thông tin của NSD và sản phẩm trong lĩnh vực này để tư vấn NSD các items của lĩnh vực khác Liên lĩnh vực mong muốn khai thác thông tin từ các lĩnh vực khác nhau để làm phong phú thêm danh sách cần tư vấn Ví dụ, thê loại phim yêu thích của NSD có thê được bắt nguồn từ các thê loại sách mà họ yêu thích

Tư vấn liên lĩnh vực dựa trên giả định rằng có tồn tại mối quan hệ giữa hồ sơ NSD trong các lĩnh vực khác nhau Điều đó được khẳng định trong các nghiên cứu của Shapira

và các cộng sự [42], họ đã phát hiện ra sự phụ thuộc giữa các lĩnh vực khác nhau Hệ

thống tư vấn liên lĩnh vực khai thác các mối quan hệ phụ thuộc này bằng cách xem xét

sự tương đồng giữa các tập NSD hoặc tập các items Sau đó, hệ thống áp dụng nhiều kỹ thuật đê làm phong phú kiến thức trong lĩnh vực mục tiêu, và nâng cao chất lượng danh

sách tư vân được tạo ra

Tư vấn liên lĩnh vực đem lại nhiều lợi ích cho cả NSD và nhà cung cấp dịch vụ Vì sao không tư vấn cho NSD xem phim Forest Gump khi họ đang tìm kiếm sách về tạo cảm hứng cho bản thân? Vì sao không tư vẫn phim khoa học cho NSD thích các sách khoa học viễn tưởng?

Có nhiều định nghĩa khác nhau liên quan đến tư vấn liên lĩnh vực Ricci và các

cộng sự chia khái niệm lĩnh vực được xét ở 4 mức [41]:

- _ Mức thuộc tính sản phẩm (item atribute level): Các items cùng lĩnh vực nếu chúng có cùng loại, có cùng thuộc tính Hai items được coi là thuộc về các lĩnh

vực riêng biệt (khác nhau) nếu chúng có sự khác nhau nhất định về gia tri cua thuộc tính Ví dụ, hai bộ phim thuộc về các lĩnh vực riêng biệt nếu chúng có

các thể loại khác nhau, như phim hành động và hài kịch (xem hình 3 la) Trong

Trang 39

hình 3.1, souree domain là lĩnh vực nguồn có sẵn những tri thức về NSD hay

về items đề khai thác nhằm tạo ra những thông tim tư van trong lĩnh vực mục

tiêu (target domain)

- _ Mức loại (type level): Các items cùng lĩnh vực nêu chúng có loại tương tự và

chia sẻ một số thuộc tính Hai items được coi là thuộc về các lĩnh vực riêng

biệt (khác nhau) nếu chúng có các tập con thuộc tính khác nhau Ví dụ: phim

và chương trình truyền hình thuộc về các lĩnh vực riêng biệt, vì mặc dù chúng

có nhiều thuộc tính chung (tiêu đề, thể loại) nhưng chúng vẫn khác nhau so với

một số khác (ví dụ: thuộc tính trực tiếp cho chương trình truyền hình (xem hình

3.1b))

-_ Mức sản phẩm (item level): Các items không cùng lĩnh vực nêu chúng không

thuộc cùng một loại Ví dụ: phim và sách thuộc về các lĩnh vực khác nhau, mặc

dù chúng có một số thuộc tính chung (tiêu đề, năm phát hành/năm xuất bản (xem hinh 3.1c))

- Mitc hé théng (system level): Các items không cùng lĩnh vực nêu chúng thuộc

về các hệ thống riêng biệt Ví dụ, phim được xếp hạng trong bộ giới thiệu MovieLens và phim được xem trong dịch vụ phát trực tuyến video Netflix

Hình 3 1 Ví dụ minh họa về khái niệm lĩnh vực ở 4 mức [41]

Trang 40

3.2 Bài toán tư vấn liên lĩnh vực

Về mặt hình thức, bài toán tư vấn liên lĩnh vực được phát biểu như sau:

- Gọi S là lĩnh vực nguồn (source domain) va T là lĩnh vực mục tiêu (target domain)

- U,R 1an lượt là tap NSD, tai nguyén (cac items)

- Y 1atép con cia U xR, moi u thuộc U thì Y“=u x R chính là hồ sơ (profile) của NSD u Yế' là hồ sơ của NSD u trong lĩnh vực nguồn Tương tự như vậy Y# là

hồ sơ của NSD u trong lĩnh vực mục tiêu

- _ Ủs là tập những NSD có đánh giá trên lĩnh vực nguồn, Uz là tập những NSD

có đánh giá trên lĩnh vực mục tiêu Ứs ; là tập những NSD có đánh giá cả trên

2 lĩnh S và T

Ricci [41] va cac céng sự đã phân loại các bài toán liên lĩnh vực như sau:

Tư vấn liên lĩnh vực nhằm mục đích khai thác tri thức về NSD hay về items trong một lĩnh vực nguồn nhằm làm tăng hiệu quá tư vấn ở lĩnh vực mục tiêu Gọi D, là lĩnh vực nguôn, D; là lĩnh vực mục tiêu U,, U; lần lượt là danh sach NSD va I,, !+ lần lượt

là các items trên các lĩnh vực Ð, và D; Môt số bài toán tiêu biểu trong tư vấn liên lĩnh vực bao gồm (xem hình 3.2):

a) Bài toán đa lĩnh vực (multi-domain): gidi thiệu nhiều lĩnh vực, tư vẫn các items trong cá hai lĩnh vực nguồn và đích, nghĩa là giới thiệu các items trong

Is ul; cho NSD trong Us hoac twong đương, trong Ur hoặc Ủs U Ut (xem hinh 3.2 a)

b) Bài toán các lĩnh vực có liên kết (linked-domain): giới thiéu cac items trong lĩnh vực đích bằng cách khai thác kiến thức từ cá hai lĩnh vực nguồn và đích, nghĩa là, giới thiệu cdc items trong Ir cho NSD ở Uy bằng cách khai thác kiến thức trong U, U Uy hoặc ï; U ïr hoặc trong cả hai linh vue U,U Uy va Is U

l (xem hình 3.2 b)

Ngày đăng: 29/10/2024, 10:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN