Hệ tư vấn sản phẩm dựa vào kỹ thuật RANDOM WALK

Xép hangthé hiện bởi các user trên tập items được đưa ra trong một ma trận đánh giá R = |r„¡Ìxxw- Trong ma trận, ry, ¡ biểuthi sự đánh giá của người sử dụng u đối với đối tượng i.. Hệ th

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

NGUYEN DUY HUNG

Chuyên ngành: KHOA HỌC MAY TINH

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2014

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN

THÔNG

Người hướng dẫn khoa học: TS Nguyễn Duy Phương

Phản biện 1: -cccccc¿ Phản biện 2: -.cccccccccs.

sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ

Có thê tìm hiệu luận văn tại:

- _ Thư viện của Học viện Công nghệ Bưu chính Viễn

thông

Trang 3

MỞ ĐẦU

Tư vân, gợi ý đóng vai trò càng ngày cảng lớn

trong cuộc sống của chúng ta Hệ thống tư vấn(Recommender System) tự động đề xuất các nội dung mà

có thé thu hút người dùng Với mức tăng trưởng nhanh

chóng của mạng lưới truyền thông, và sự bùng nỗ của

mạng xã hội, đã tạo điều kiện cho con người dễ dàng truycập, tìm kiếm thông tin Nhưng chính sự phong phú củathông tin trực tuyến đã gây ra vấn đề quá tải thông tin(information overload) Chang hạn như bạn muốn mua

một chiếc điện thoại, nhưng thật khó khăn để có thể đọc

hết các bài đánh giá cho một sản phẩm trước khi đưa raquyết định mua hàng

Hệ thống tư vấn giảm tải thông tin cho người dùngbăng cách tự động gợi ý những sản phẩm phủ hợp cao với

lợi ích của người dùng Gợi ý chính xác cho phép người

dùng nhanh chóng có được sản phẩm mong muốn mà

không bị tràn ngập bởi các thông tin không liên quan Và

đó cũng là mối quan tâm lớn của các nhà cung cấp dé giới

thiệu những sản phẩm phù hợp với nhu cầu của mỗi khách

truy cập của trang web của họ, hy vọng khiến khách hang

hài lòng và quay lại Hệ tư vấn là một ứng dụng cụ thé của

Trang 4

kĩ thuật lọc thông tin, mục tiêu là cỗ gang đưa ra các thôngtin phù hợp nhất với những gì mà người dùng quan tâm.Điều nay rat quan trọng đối với sự thành công của thương

mại điện tử nói riêng và ngành công nghiệp công nghệ thông tin hiện nay.

Mục đích nghiên cứu của luận văn là phương pháp

tư van sản phẩm sử dụng các quan hệ xã hội cho hệ tuvan Trong đó, chú trọng nghiên cứu kỹ thuật RandomWalk đã được các tác giải đề xuất trong [20] Đánh giá và

so sánh kết quả thực hiện của kỹ thuật Random Walk với

các phương pháp khác.

Nội dung đồ án bao gồm:

Chương I : Giới thiệu về hệ tư vấn xã hội

Chương II : Phương pháp tư vấn sản phẩm bằng kỹ

thuật random walk

Chương III : Thử nghiệm và đánh gia

Trang 5

CHUONG 1 - GIỚI THIEU VE HE TU VAN XÃ HOI1.1 Phát biểu bài toán của hệ tư van xã hội

Trong hệ tư van ta có một tap users: U =

{u,, ,Uy} và một tap items I = {i,, , iy} Xép hangthé hiện bởi các user trên tập items được đưa ra trong một

ma trận đánh giá R = |r„¡Ìxxw- Trong ma trận, ry, ¡ biểuthi sự đánh giá của người sử dụng u đối với đối tượng i 7

; có thé là một số thực, nhưng thường mức đánh giá là số

nguyên trong khoảng [1, 5] Trong mang xã hội, mỗi

người dùng u có N, hàng xóm trực tiếp, Và tiy biểu thị độ

giá trị độ tin cậy của người u đối với người dùng v, là 1 số

thực trong khoảng [0, 1] Gia trị 0 nghĩa là không tin

tưởng, giá trị 1 nghĩa là tin tưởng tuyệt đối Mạng tin cậynhị phân là mạng tin cậy phổ biến nhất Giá tri tin cậy

được cho bởi ma trận T = [/„„Ì„x Những ô ¢,, khác 0

trong T biểu thị sự ton tai quan hệ xã hội giữa u và v Lưu

ý T là bất đối xứng

Như đã thảo luận trước đó, hai nhiệm vụ chung có

thé định nghĩa cho một hệ thống tư van: dự báo đánh giá

(Rating Prediction) và khuyến cáo top-N (Top-N

Recommendation) Trong phần tiếp theo chúng ta chính

thức xác định hai vân đê:

Trang 6

Rating Prediction: Cho một user u € U va item

i €l may, ; chưa biết, tính toán dự đoán đánh giá của u

trên item i, 7,,; sử dụng ma trận đánh gia R và mạng xã hội

1.

Top-N Recommendation: Cho một user u € U va

ma tran danh gia R, dua ra khuyén cdo N items mong

muôn nhât, ma user u chưa từng đánh giá.

1.2 Phân loại các hệ tư van xã hội

Các item chưa rate có thể được ước tính bằng nhiều

cách khác nhau sử dụng các phương pháp từ học máy, lý

thuyết xấp xỉ, và các chân đoán khác nhau Hệ thống tưvấn thường được phân loại theo cách tiếp cận của chúng

để dự tính xếp hạng Trong phan tiếp theo, chúng ta sẽtrình bày một cách phân loại đã được đề xuất trong nhiều

tài liệu và sẽ cung cấp một cuộc khảo sát của các loại khácnhau của hệ thống tư van Hệ thống tư thường được phân

thành các loại sau đây:

°Ò Tu vấn dựa trên nội dung: Người sử dụng sẽ được

khuyến cáo các item tương tự như những người sử

dụng ưa thích trong quá khứ.

Trang 7

«Ổ Tu van cộng tac: Khuyén nghị được thực hiện dựa

trên xếp hạng bởi những người có cùng sở thích

trong quá khứ Phương pháp lọc cộng tác chỉ khai thác lịch sử đánh giá của người sử dụng và không

xem xét các tính năng nội dung của sản phẩm hoặc

thông tin cá nhân của người sử dụng.

pháp cộng tác và phương pháp dựa trên nội dung.

1.2.1 Hệ tư vẫn dựa trên nội dung

Trong phương pháp dựa trên nội dung, xếp hạng dự

đoán Ÿ„¡ của item i cho người dùng u được ước lượng dựa

trên xếp hạng r„ j ân định bởi người dùng u đối với item

j€ I mà tương đồng với item i Ví dụ, trong một chươngtrình khuyến nghị xem phim, phương pháp này cỗ ganghiểu sự tương đồng giữa những bộ phim mà người dùng u

đã đánh giá trong quá khứ (diễn viên, đạo diễn, thể loại,

chủ đề đặc trưng, v.v.)

Hệ tư vấn dựa vào nội dung phân tích đặc tả củaitem để xác định những items nao đặc biệt gây hứng thúvới người dùng Đồng thời sự tương quan của người dùng

được tính toán từ thông tin cá nhân của họ.

Trang 8

1.2.2 Hệ tư van cộng tác

Không giống như các phương pháp khuyến cáo dựatrên nội dung, hệ thống tư vẫn hợp tác (hoặc hệ thống lọccộng tác) cố gắng dé dự đoán giá của các mặt hàng chomột người dùng cụ thé dựa trên xếp hạng đã được thé hiện

bởi người dùng này và những người dùng khác Lưu ý

rằng các mô tả sản phẩm hoặc sử dụng hồ sơ không được

khai thác trong tư vấn cộng tác

1.2.3 Hệ tw van lai

Một vài hệ thống tư vấn sử dụng một phương pháplai bằng cách kết hợp phương pháp cộng tác và dựa trênnội dung, giúp tránh những hạn chế nhất định của các hệthống dựa trên nội dung và cộng tác [11, 12, 24, 92, 102,

105, 109] Những cách khác nhau dé kết hợp các phươngpháp cộng tác và dựa trên nội dung vào một hệ thống tưvấn lai có thể được phân loại như sau [1]:

¢ Thực hiện riêng biệt các phương pháp cộng tác va

dựa trên nội dung và kết hợp dự đoán của chúng

° Kết hợp một số đặc điểm dựa trên nội dung vào

cách tiêp cận cộng tác.

Trang 9

°ÒỒ Kết hợp một số đặc điểm cộng tác vào phương

pháp tiếp cận dựa trên nội dung

hợp cả hai đặc điêm dựa trên nội dung và cộng tác.

1.3 Các phương pháp cỗ điển cho hệ tư van mạng xã

hội

Chúng ta sẽ giải quyết, làm rõ các van dé của mạng

xã hội trong hệ tư vấn, các thuật ngữ “soclal network” và

“trust network”, tìm hiểu về mạng quan hệ xã hội (SocialRelation Network) Tiếp đến, chúng ta sẽ đánh giá từngphương pháp cô điển được sử dụng cho mạng xã hội trong

hệ tư van

Mạng xã hội trong hệ tư vấn:

Chúng ta sẽ dựa vào các đặc tính của mạng xã hội

dé sử dụng nâng cao khả năng dự đoán trong hệ tư van

Trong suốt đồ án này, chúng ta sẽ sử dụng hai thuật

ngữ “social network” và “trust network” “Social

network” là mang các người dung trong đó người dùng

được liên kết với nhau thông qua mối quan hệ xã hội(social relation) giéng như quan hệ bạn bè Qua thực

nghiệm, xu hướng đánh giá sản phâm của người dùng chịu

Trang 10

ảnh hưởng một phần từ ban bẻ, người than của họ bởi vậy

ở chương này chúng tôi sẽ giới thiệu một số thuật toán cổ

điên sử dụng mạng xã hội trong hệ tư vân.

1.4 Kết luận chương

Chương I của đồ ánchúng ta đã tìm hiểu một sốvan dé của hệ tư van va các phương thức khác nhau đãđược sử dụng trong hệ tư van va sẽ làm rõ các van đề về

tư vấn trong mạng xã hội, tìm hiểu về mạng quan hệ xã

hội (Social Relation Network).

Ở chương tiếp theo đồ án sẽ trình bay về các

phương pháp tiếp cận mới nhăm khắc phục những nhược

điêm còn tôn tại ở các phương pháp trên.

Trang 11

CHƯƠNG 2 - PHƯƠNG PHAP TƯ VAN SAN PHAM

BANG KY THUẬT RANDOM WALK

2.1 Giới thiệu phương pháp tiép cận

Trong chương này, chúng ta sử dụng các tác động

ảnh hưởng đến hành vi của người sử dụng trong một SRN

và đề xuất các phương pháp dựa vào random walk trênSRN dé dự đoán rating, dự đoán liên kết và top-N khuyến

nghị Phương pháp random walk cung cấp một cách tiếp

cận có nguyên tắc để xác định sự tương quan giữa haingười dùng u và v trong một mạng chỉ dựa trên các cầu

trúc liên kết mạng (mạng topo) Độ tương quan được địnhnghĩa bởi xác suất trạng thái ôn định của một lượt đi bắt

đầu từ u đến v Mô hình random walk đã được sử dụng dé giải quyết các vấn đề dự đoán liên kết, kết hợp hiệu ứng

chuyên dịch vào dự đoán liên kết

2.2 Phương pháp Random Walk cho hệ tư vẫn xã hội

Trong phần này, chúng ta bàn đến phương pháp

tiếp cận dựa trên Random Walk để khuyến nghị các item

và các liên kết link Phương pháp RW đã được đề xuất để

giải quyết các bài toán dự đoán liên kết RW được sử dụng

để tính toán độ tương quan giữa các cặp nút chỉ dựa trên

Trang 12

cau trúc mạng Cụ thé hơn, dé dự đoán link cho một nút u

trong mạng, Random Walk with Restart (RWR) hoạt động

như sau: Xem xét bat đầu đi từ nguồn wu Walker lặp lạicác bước tới hàng xóm của nó với xác suất tỉ lệ với trọng

số cạnh Cũng ở mỗi bước, nó có xác suất c dé quay lạinguồn u Số điểm thích hợp của nốt v liên quan tới nốt uđược định nghĩa là xác suất trạng thái 6n định mà cuốicùng walker sẽ đứng yên tại v Những nút có số điểm thíchhợp cao nhất là top-N recommend users Trọng số cạnhđược tinh theo cách chuẩn hóa ma trận kề Xác suất restart

c là một hằng số trong RWR và không phân biệt giữa cácnút trong mạng tiêu chuẩn khởi động Chú ý trong RWR,

số điểm thích hợp nút v liên quan tới sự thật là độ do sự

tương quan giữa 2 nut trong mang topo.

Cốt lõi đẳng sau RWR là tính bắc cầu quan hệ xã

hội Nói cách khác, những người hàng xóm của một hàng

xóm được coi là giá tri tạo ra một mối quan hệ xã hội.

RWR chỉ xem xét các mạng xã hội như đồ thị với các nút

và các cạnh Trong một mạng xã hội rating, chúng ta có

xếp hạng người dùng trên các cấu trúc liên kết của các

mạng xã hội Các nhà xã hội học tin răng người dùng có

Trang 13

xu hướng hình thành các mối quan hệ xã hội với người có

sở thích tương tự Hiện tượng này được gọi là homophily hoặc lựa chọn xã hội Lựa chọn xã hội đã được nghiên cứu

như một trong những tác động ảnh hưởng đến người sử

dụng trong khi tạo ra các môi quan hệ xã hội.

2.3 Mô hình dự đoán TrustWalker

Thách thức chủ yếu trong dự đoán rating dựa trên

lòng tin là quyết định khám phá mạng như thế nào Có

một sự cân bằng giữa độ chính xác và phạm vi bao phủ:

cứ tiếp tục đi, càng có tìm được nhiều raters, nhưng ít tintưởng, nhưng sự đánh giá của họ càng ít tin cậy Cách tiếpcận của chúng tôi để tìm một sự cân bằng tốt là dựa trênquan sát Rating thé hiện bởi bạn bè thân thiết đối với cácitem tương đồng là đáng tin cậy hơn rating thể hiện bởi

một hảng xóm ở rất xa không đáng tin đối với chính xác

item Điều này thúc day chúng ta kết hợp các phươngpháp tiếp cận dựa trên lòng tin và dựa trên item

Ta đề xuất một mô hình đi bộ ngẫu nhiên, được gọi

là TrustWalker, trong đó xem xét không chi rating của

item, ma cả những item tương tự Xác suât của việc sử

Trang 14

dụng rating của một item tương tự thay vi rating của item

đích, gia tăng với sự gia tăng quãng đường đi Về cơ bản,

mô hình của chúng ta bao gồm hai thành phan chính:

random walk trên mạng tin cậy và lựa chọn sản phẩm theo

xác suất Việc đi bộ ngẫu nhiên thực hiện tìm kiếm trong

mạng tin cậy, và lựa chọn các item tương tự để tránh đi

quá sâu trong mạng Vì vậy, mô hình của chúng ta cải

thiện độ chính xác bằng cách tìm các rater ở một khoảng

cách gan hơn và tăng độ phủ băng cách xem xét các mặt

hàng tương tự cũng như mục tiêu đích.

Để dự đoán rating cho nguồn Up VỚI mục tiêu 7,

chúng ta thực hiện bước đi ngẫu nhiên trên mạng tin cậy,

bắt đầu từ uy dé tìm một người đã đánh giá cho i hoặc cácitem tương tự như i Các chi tiết random walk sẽ đượcthảo luận sau phần này Mỗi bước đi ngẫu nhiên trả về

một gia tri rating Chung ta thực hiện một số bước di ngẫu

nhiên, và sự kết hợp của tất cả các rating được trả về bởi

các cách đi khác nhau được gọi là dự đoán 1, ;.

Quy ước về kí hiệu, chúng ta sử dụng các ký hiệu

1, V, W, cho người 7, 7, cho các item, và & là bước di.

Trang 15

Bảng 2.1 Các ký hiệu sử dụng trong

TrustWalker.

Kihiệu Mô tả

Puik Xác suất dừng lại tại ở bước k

Xi Biến ngẫu nhiên đến nút v ở bước k bat đầu đi từ w

Xi Biến ngâu nhiên đến nút v sau 1 số bước bắt đầu đi

từ

Sy Bién ngau chọn người v trong tap hang xóm N„

Yui Bién ngau nhiên chon item 7 trong tap items được

đánh giá boi u

XY ui Biến ngẫu nhiên dừng tại v, chọn biến ngẫu nhiên /

được đánh giá bởi v, bắt đầu từ wu

Nui Chi số rating biéu diễn + đánh giá i

Pui Chi số rating dự đoán u đánh giá i

buy Giá trị biểu diễn độ tin tưởng giữa u va v

2.3.1 Một đường di random walk don

Moi random walk trong mô hình TrustWalker đều

bắt đầu từ nguồn Up Mỗi bước k của random walk, chúng

ta xác định một nút Nếu u đã đánh giá item dich i,random walk dừng va trả về z„; là kết quả của randomwalk Nếu chưa đánh giá i, có 2 lựa chon:

Với xác suất 2, ,„„ random walk dừng ở nút uv, chon

ngẫu nhiên | trong các item / tương tự item dich 7, đánh

giá bởi w, kết quả là r„„

Với xác suất 1- 2„;„, random walk tiếp tục đi đến

nút v là hàng xóm tin cậy trực tiếp của u (v E N,)

Trang 16

Sự tương quan giữa các items

Trong tư van dựa trên nội dung, sự tương quan giữacác item có thể tính toán bằng các đặc tính của chúng Dĩ

nhiên trong lọc cộng tác, chi thông tin về rating là có thé

dùng được Ké từ đây, dé tính độ tương tự giữa 2 items,

chúng ta sử dung Pearson Correlation Gia tri của Pearson

Correlation trong khoang [-1,1] Gia tri 4m nghia la su

tương quan của 2 items di ngược nhau, vi thé chúng là vô

ích trong hoàn cảnh này.

Sự tương quan giữa các người dùng

Độ tương quan của 2 người dùng được định nghĩa

tương tự như độ tương quan giữa 2 items.

Kết thúc một random walk

Với mỗi người uv, random walk có xác suất đ„;z

đứng ở u chọn một trong các items của u ở bước thứ & trên

random walk, trong khi tìm kiếm dự đoán rating item đích

i Xác suất này liên quan đến độ tương quan giữa cácitems của u với item đích i Giá tri tương quan là 1 số thựctrong khoảng [0,1], vì thế chúng ta có thé coi nó là xác

Trang 17

suất luôn Chúng ta cũng coi độ tương quan lớn nhất trongcác items đánh giá bởi u với item dich i là xác suất dừng

lại tại ú.

2.3.2 Dự đoán rating trong TrustWalker

Trong TrustWalker, chúng ta có xác suất chọnitems đánh giá bởi các user khác và trả về giá trị rating đó

là kết quả của random walk Những items nảy có thể đúng

la i, cũng có thé khác Ước lượng rating của nguôn u đối

với item ¡ được hi vọng là giá trị ratings trả về bởi các

random walk khác nhau.

Do chúng ta không biết qua bao nhiêu bước dé đến

v, chúng ta không bàn đến nhân tố k (Thực tế ¢,,; = đ„¡„).Thực tế nếu muốn ta vẫn có thé đưa k vao đây, nhưng dé

có một công thức đóng, chúng ta bỏ qua nhân tố k ở người dùng cuối v ma cho ra kết quả xác suất gần đúng đẹp nhất.

Đồng thời, lưu ý rang trong trường hợp v = u vai = j là

không đáng bàn bởi người dùng đó đã đánh giá lên chính

item đích.

Trang 18

2.4 Mô hình LinkWalker

Trong phan này chúng ta sử dung những ý tưởngđược giới thiệu trong TrustWalker, và đề xuất mô hình

LinkWalker, nhằm giải quyết bài toán dự đoán Top-N liên

kết TrustWalker thực hiện một loạt các random walk để

dự đoán cho item đích Tuy nhiên, trong dự đoán top-N,

mục tiêu là để đưa ra top người dùng đáng tin cậy hơn làviệc dự đoán rating cho một item nhất định Trong

TrustWalker, sau khi mỗi random walk dừng, một trong

các item mà người hiện tại đánh giá sẽ được lựa chọn

ngẫu nhiên, và giá trị rating này là kết quả của randomwalk Ở LinkWalker, không có item đích, cũng không cóngười dùng nào mà random walk dừng lại tại đó rồi trả vềkết quả LinkWalker trả về một danh sách người dùng chứ

không phải | con số rating dự đoán như TrustWalker

Để khuyến nghị top-N liên kết tới nguồn uo,

LinkWalker thực hiện random walks trên mạng tin cậy bắt

đầu từ up đi tìm những người đáng tin cậy với up Chi tiết

random walk như thế nào sẽ bàn ở mục sau Mỗi random

walk trả về một người được khuyến cáo dé tạo liên kết tin

cậy LinkWalker thực hiện một loạt random walk va sử

Tiêu đề	Hệ Tư Vấn Sản Phẩm Dựa Vào Kỹ Thuật Random Walk
Tác giả	Nguyen Duy Hung
Người hướng dẫn	TS. Nguyễn Duy Phương
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	24
Dung lượng	4,24 MB