Xép hangthé hiện bởi các user trên tập items được đưa ra trong một ma trận đánh giá R = |r„¡Ìxxw- Trong ma trận, ry, ¡ biểuthi sự đánh giá của người sử dụng u đối với đối tượng i.. Hệ th
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYEN DUY HUNG
Chuyên ngành: KHOA HỌC MAY TINH
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN
THÔNG
Người hướng dẫn khoa học: TS Nguyễn Duy Phương
Phản biện 1: -cccccc¿ Phản biện 2: -.cccccccccs.
sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ
Có thê tìm hiệu luận văn tại:
- _ Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
Trang 3MỞ ĐẦU
Tư vân, gợi ý đóng vai trò càng ngày cảng lớn
trong cuộc sống của chúng ta Hệ thống tư vấn(Recommender System) tự động đề xuất các nội dung mà
có thé thu hút người dùng Với mức tăng trưởng nhanh
chóng của mạng lưới truyền thông, và sự bùng nỗ của
mạng xã hội, đã tạo điều kiện cho con người dễ dàng truycập, tìm kiếm thông tin Nhưng chính sự phong phú củathông tin trực tuyến đã gây ra vấn đề quá tải thông tin(information overload) Chang hạn như bạn muốn mua
một chiếc điện thoại, nhưng thật khó khăn để có thể đọc
hết các bài đánh giá cho một sản phẩm trước khi đưa raquyết định mua hàng
Hệ thống tư vấn giảm tải thông tin cho người dùngbăng cách tự động gợi ý những sản phẩm phủ hợp cao với
lợi ích của người dùng Gợi ý chính xác cho phép người
dùng nhanh chóng có được sản phẩm mong muốn mà
không bị tràn ngập bởi các thông tin không liên quan Và
đó cũng là mối quan tâm lớn của các nhà cung cấp dé giới
thiệu những sản phẩm phù hợp với nhu cầu của mỗi khách
truy cập của trang web của họ, hy vọng khiến khách hang
hài lòng và quay lại Hệ tư vấn là một ứng dụng cụ thé của
Trang 4kĩ thuật lọc thông tin, mục tiêu là cỗ gang đưa ra các thôngtin phù hợp nhất với những gì mà người dùng quan tâm.Điều nay rat quan trọng đối với sự thành công của thương
mại điện tử nói riêng và ngành công nghiệp công nghệ thông tin hiện nay.
Mục đích nghiên cứu của luận văn là phương pháp
tư van sản phẩm sử dụng các quan hệ xã hội cho hệ tuvan Trong đó, chú trọng nghiên cứu kỹ thuật RandomWalk đã được các tác giải đề xuất trong [20] Đánh giá và
so sánh kết quả thực hiện của kỹ thuật Random Walk với
các phương pháp khác.
Nội dung đồ án bao gồm:
Chương I : Giới thiệu về hệ tư vấn xã hội
Chương II : Phương pháp tư vấn sản phẩm bằng kỹ
thuật random walk
Chương III : Thử nghiệm và đánh gia
Trang 5CHUONG 1 - GIỚI THIEU VE HE TU VAN XÃ HOI1.1 Phát biểu bài toán của hệ tư van xã hội
Trong hệ tư van ta có một tap users: U =
{u,, ,Uy} và một tap items I = {i,, , iy} Xép hangthé hiện bởi các user trên tập items được đưa ra trong một
ma trận đánh giá R = |r„¡Ìxxw- Trong ma trận, ry, ¡ biểuthi sự đánh giá của người sử dụng u đối với đối tượng i 7
; có thé là một số thực, nhưng thường mức đánh giá là số
nguyên trong khoảng [1, 5] Trong mang xã hội, mỗi
người dùng u có N, hàng xóm trực tiếp, Và tiy biểu thị độ
giá trị độ tin cậy của người u đối với người dùng v, là 1 số
thực trong khoảng [0, 1] Gia trị 0 nghĩa là không tin
tưởng, giá trị 1 nghĩa là tin tưởng tuyệt đối Mạng tin cậynhị phân là mạng tin cậy phổ biến nhất Giá tri tin cậy
được cho bởi ma trận T = [/„„Ì„x Những ô ¢,, khác 0
trong T biểu thị sự ton tai quan hệ xã hội giữa u và v Lưu
ý T là bất đối xứng
Như đã thảo luận trước đó, hai nhiệm vụ chung có
thé định nghĩa cho một hệ thống tư van: dự báo đánh giá
(Rating Prediction) và khuyến cáo top-N (Top-N
Recommendation) Trong phần tiếp theo chúng ta chính
thức xác định hai vân đê:
Trang 6Rating Prediction: Cho một user u € U va item
i €l may, ; chưa biết, tính toán dự đoán đánh giá của u
trên item i, 7,,; sử dụng ma trận đánh gia R và mạng xã hội
1.
Top-N Recommendation: Cho một user u € U va
ma tran danh gia R, dua ra khuyén cdo N items mong
muôn nhât, ma user u chưa từng đánh giá.
1.2 Phân loại các hệ tư van xã hội
Các item chưa rate có thể được ước tính bằng nhiều
cách khác nhau sử dụng các phương pháp từ học máy, lý
thuyết xấp xỉ, và các chân đoán khác nhau Hệ thống tưvấn thường được phân loại theo cách tiếp cận của chúng
để dự tính xếp hạng Trong phan tiếp theo, chúng ta sẽtrình bày một cách phân loại đã được đề xuất trong nhiều
tài liệu và sẽ cung cấp một cuộc khảo sát của các loại khácnhau của hệ thống tư van Hệ thống tư thường được phân
thành các loại sau đây:
°Ò Tu vấn dựa trên nội dung: Người sử dụng sẽ được
khuyến cáo các item tương tự như những người sử
dụng ưa thích trong quá khứ.
Trang 7«Ổ Tu van cộng tac: Khuyén nghị được thực hiện dựa
trên xếp hạng bởi những người có cùng sở thích
trong quá khứ Phương pháp lọc cộng tác chỉ khai thác lịch sử đánh giá của người sử dụng và không
xem xét các tính năng nội dung của sản phẩm hoặc
thông tin cá nhân của người sử dụng.
© Phuong pháp lai: Phương pháp này kết hợp phương
pháp cộng tác và phương pháp dựa trên nội dung.
1.2.1 Hệ tư vẫn dựa trên nội dung
Trong phương pháp dựa trên nội dung, xếp hạng dự
đoán Ÿ„¡ của item i cho người dùng u được ước lượng dựa
trên xếp hạng r„ j ân định bởi người dùng u đối với item
j€ I mà tương đồng với item i Ví dụ, trong một chươngtrình khuyến nghị xem phim, phương pháp này cỗ ganghiểu sự tương đồng giữa những bộ phim mà người dùng u
đã đánh giá trong quá khứ (diễn viên, đạo diễn, thể loại,
chủ đề đặc trưng, v.v.)
Hệ tư vấn dựa vào nội dung phân tích đặc tả củaitem để xác định những items nao đặc biệt gây hứng thúvới người dùng Đồng thời sự tương quan của người dùng
được tính toán từ thông tin cá nhân của họ.
Trang 81.2.2 Hệ tư van cộng tác
Không giống như các phương pháp khuyến cáo dựatrên nội dung, hệ thống tư vẫn hợp tác (hoặc hệ thống lọccộng tác) cố gắng dé dự đoán giá của các mặt hàng chomột người dùng cụ thé dựa trên xếp hạng đã được thé hiện
bởi người dùng này và những người dùng khác Lưu ý
rằng các mô tả sản phẩm hoặc sử dụng hồ sơ không được
khai thác trong tư vấn cộng tác
1.2.3 Hệ tw van lai
Một vài hệ thống tư vấn sử dụng một phương pháplai bằng cách kết hợp phương pháp cộng tác và dựa trênnội dung, giúp tránh những hạn chế nhất định của các hệthống dựa trên nội dung và cộng tác [11, 12, 24, 92, 102,
105, 109] Những cách khác nhau dé kết hợp các phươngpháp cộng tác và dựa trên nội dung vào một hệ thống tưvấn lai có thể được phân loại như sau [1]:
¢ Thực hiện riêng biệt các phương pháp cộng tác va
dựa trên nội dung và kết hợp dự đoán của chúng
° Kết hợp một số đặc điểm dựa trên nội dung vào
cách tiêp cận cộng tác.
Trang 9°ÒỒ Kết hợp một số đặc điểm cộng tác vào phương
pháp tiếp cận dựa trên nội dung
© - Xây dựng một mô hình thống nhất tổng quát mà kết
hợp cả hai đặc điêm dựa trên nội dung và cộng tác.
1.3 Các phương pháp cỗ điển cho hệ tư van mạng xã
hội
Chúng ta sẽ giải quyết, làm rõ các van dé của mạng
xã hội trong hệ tư vấn, các thuật ngữ “soclal network” và
“trust network”, tìm hiểu về mạng quan hệ xã hội (SocialRelation Network) Tiếp đến, chúng ta sẽ đánh giá từngphương pháp cô điển được sử dụng cho mạng xã hội trong
hệ tư van
Mạng xã hội trong hệ tư vấn:
Chúng ta sẽ dựa vào các đặc tính của mạng xã hội
dé sử dụng nâng cao khả năng dự đoán trong hệ tư van
Trong suốt đồ án này, chúng ta sẽ sử dụng hai thuật
ngữ “social network” và “trust network” “Social
network” là mang các người dung trong đó người dùng
được liên kết với nhau thông qua mối quan hệ xã hội(social relation) giéng như quan hệ bạn bè Qua thực
nghiệm, xu hướng đánh giá sản phâm của người dùng chịu
Trang 10ảnh hưởng một phần từ ban bẻ, người than của họ bởi vậy
ở chương này chúng tôi sẽ giới thiệu một số thuật toán cổ
điên sử dụng mạng xã hội trong hệ tư vân.
1.4 Kết luận chương
Chương I của đồ ánchúng ta đã tìm hiểu một sốvan dé của hệ tư van va các phương thức khác nhau đãđược sử dụng trong hệ tư van va sẽ làm rõ các van đề về
tư vấn trong mạng xã hội, tìm hiểu về mạng quan hệ xã
hội (Social Relation Network).
Ở chương tiếp theo đồ án sẽ trình bay về các
phương pháp tiếp cận mới nhăm khắc phục những nhược
điêm còn tôn tại ở các phương pháp trên.
Trang 11CHƯƠNG 2 - PHƯƠNG PHAP TƯ VAN SAN PHAM
BANG KY THUẬT RANDOM WALK
2.1 Giới thiệu phương pháp tiép cận
Trong chương này, chúng ta sử dụng các tác động
ảnh hưởng đến hành vi của người sử dụng trong một SRN
và đề xuất các phương pháp dựa vào random walk trênSRN dé dự đoán rating, dự đoán liên kết và top-N khuyến
nghị Phương pháp random walk cung cấp một cách tiếp
cận có nguyên tắc để xác định sự tương quan giữa haingười dùng u và v trong một mạng chỉ dựa trên các cầu
trúc liên kết mạng (mạng topo) Độ tương quan được địnhnghĩa bởi xác suất trạng thái ôn định của một lượt đi bắt
đầu từ u đến v Mô hình random walk đã được sử dụng dé giải quyết các vấn đề dự đoán liên kết, kết hợp hiệu ứng
chuyên dịch vào dự đoán liên kết
2.2 Phương pháp Random Walk cho hệ tư vẫn xã hội
Trong phần này, chúng ta bàn đến phương pháp
tiếp cận dựa trên Random Walk để khuyến nghị các item
và các liên kết link Phương pháp RW đã được đề xuất để
giải quyết các bài toán dự đoán liên kết RW được sử dụng
để tính toán độ tương quan giữa các cặp nút chỉ dựa trên
Trang 12cau trúc mạng Cụ thé hơn, dé dự đoán link cho một nút u
trong mạng, Random Walk with Restart (RWR) hoạt động
như sau: Xem xét bat đầu đi từ nguồn wu Walker lặp lạicác bước tới hàng xóm của nó với xác suất tỉ lệ với trọng
số cạnh Cũng ở mỗi bước, nó có xác suất c dé quay lạinguồn u Số điểm thích hợp của nốt v liên quan tới nốt uđược định nghĩa là xác suất trạng thái 6n định mà cuốicùng walker sẽ đứng yên tại v Những nút có số điểm thíchhợp cao nhất là top-N recommend users Trọng số cạnhđược tinh theo cách chuẩn hóa ma trận kề Xác suất restart
c là một hằng số trong RWR và không phân biệt giữa cácnút trong mạng tiêu chuẩn khởi động Chú ý trong RWR,
số điểm thích hợp nút v liên quan tới sự thật là độ do sự
tương quan giữa 2 nut trong mang topo.
Cốt lõi đẳng sau RWR là tính bắc cầu quan hệ xã
hội Nói cách khác, những người hàng xóm của một hàng
xóm được coi là giá tri tạo ra một mối quan hệ xã hội.
RWR chỉ xem xét các mạng xã hội như đồ thị với các nút
và các cạnh Trong một mạng xã hội rating, chúng ta có
xếp hạng người dùng trên các cấu trúc liên kết của các
mạng xã hội Các nhà xã hội học tin răng người dùng có
Trang 13xu hướng hình thành các mối quan hệ xã hội với người có
sở thích tương tự Hiện tượng này được gọi là homophily hoặc lựa chọn xã hội Lựa chọn xã hội đã được nghiên cứu
như một trong những tác động ảnh hưởng đến người sử
dụng trong khi tạo ra các môi quan hệ xã hội.
2.3 Mô hình dự đoán TrustWalker
Thách thức chủ yếu trong dự đoán rating dựa trên
lòng tin là quyết định khám phá mạng như thế nào Có
một sự cân bằng giữa độ chính xác và phạm vi bao phủ:
cứ tiếp tục đi, càng có tìm được nhiều raters, nhưng ít tintưởng, nhưng sự đánh giá của họ càng ít tin cậy Cách tiếpcận của chúng tôi để tìm một sự cân bằng tốt là dựa trênquan sát Rating thé hiện bởi bạn bè thân thiết đối với cácitem tương đồng là đáng tin cậy hơn rating thể hiện bởi
một hảng xóm ở rất xa không đáng tin đối với chính xác
item Điều này thúc day chúng ta kết hợp các phươngpháp tiếp cận dựa trên lòng tin và dựa trên item
Ta đề xuất một mô hình đi bộ ngẫu nhiên, được gọi
là TrustWalker, trong đó xem xét không chi rating của
item, ma cả những item tương tự Xác suât của việc sử
Trang 14dụng rating của một item tương tự thay vi rating của item
đích, gia tăng với sự gia tăng quãng đường đi Về cơ bản,
mô hình của chúng ta bao gồm hai thành phan chính:
random walk trên mạng tin cậy và lựa chọn sản phẩm theo
xác suất Việc đi bộ ngẫu nhiên thực hiện tìm kiếm trong
mạng tin cậy, và lựa chọn các item tương tự để tránh đi
quá sâu trong mạng Vì vậy, mô hình của chúng ta cải
thiện độ chính xác bằng cách tìm các rater ở một khoảng
cách gan hơn và tăng độ phủ băng cách xem xét các mặt
hàng tương tự cũng như mục tiêu đích.
Để dự đoán rating cho nguồn Up VỚI mục tiêu 7,
chúng ta thực hiện bước đi ngẫu nhiên trên mạng tin cậy,
bắt đầu từ uy dé tìm một người đã đánh giá cho i hoặc cácitem tương tự như i Các chi tiết random walk sẽ đượcthảo luận sau phần này Mỗi bước đi ngẫu nhiên trả về
một gia tri rating Chung ta thực hiện một số bước di ngẫu
nhiên, và sự kết hợp của tất cả các rating được trả về bởi
các cách đi khác nhau được gọi là dự đoán 1, ;.
Quy ước về kí hiệu, chúng ta sử dụng các ký hiệu
1, V, W, cho người 7, 7, cho các item, và & là bước di.
Trang 15Bảng 2.1 Các ký hiệu sử dụng trong
TrustWalker.
Kihiệu Mô tả
Puik Xác suất dừng lại tại ở bước k
Xi Biến ngẫu nhiên đến nút v ở bước k bat đầu đi từ w
Xi Biến ngâu nhiên đến nút v sau 1 số bước bắt đầu đi
từ
Sy Bién ngau chọn người v trong tap hang xóm N„
Yui Bién ngau nhiên chon item 7 trong tap items được
đánh giá boi u
XY ui Biến ngẫu nhiên dừng tại v, chọn biến ngẫu nhiên /
được đánh giá bởi v, bắt đầu từ wu
Nui Chi số rating biéu diễn + đánh giá i
Pui Chi số rating dự đoán u đánh giá i
buy Giá trị biểu diễn độ tin tưởng giữa u va v
2.3.1 Một đường di random walk don
Moi random walk trong mô hình TrustWalker đều
bắt đầu từ nguồn Up Mỗi bước k của random walk, chúng
ta xác định một nút Nếu u đã đánh giá item dich i,random walk dừng va trả về z„; là kết quả của randomwalk Nếu chưa đánh giá i, có 2 lựa chon:
Với xác suất 2, ,„„ random walk dừng ở nút uv, chon
ngẫu nhiên | trong các item / tương tự item dich 7, đánh
giá bởi w, kết quả là r„„
Với xác suất 1- 2„;„, random walk tiếp tục đi đến
nút v là hàng xóm tin cậy trực tiếp của u (v E N,)
Trang 16Sự tương quan giữa các items
Trong tư van dựa trên nội dung, sự tương quan giữacác item có thể tính toán bằng các đặc tính của chúng Dĩ
nhiên trong lọc cộng tác, chi thông tin về rating là có thé
dùng được Ké từ đây, dé tính độ tương tự giữa 2 items,
chúng ta sử dung Pearson Correlation Gia tri của Pearson
Correlation trong khoang [-1,1] Gia tri 4m nghia la su
tương quan của 2 items di ngược nhau, vi thé chúng là vô
ích trong hoàn cảnh này.
Sự tương quan giữa các người dùng
Độ tương quan của 2 người dùng được định nghĩa
tương tự như độ tương quan giữa 2 items.
Kết thúc một random walk
Với mỗi người uv, random walk có xác suất đ„;z
đứng ở u chọn một trong các items của u ở bước thứ & trên
random walk, trong khi tìm kiếm dự đoán rating item đích
i Xác suất này liên quan đến độ tương quan giữa cácitems của u với item đích i Giá tri tương quan là 1 số thựctrong khoảng [0,1], vì thế chúng ta có thé coi nó là xác
Trang 17suất luôn Chúng ta cũng coi độ tương quan lớn nhất trongcác items đánh giá bởi u với item dich i là xác suất dừng
lại tại ú.
2.3.2 Dự đoán rating trong TrustWalker
Trong TrustWalker, chúng ta có xác suất chọnitems đánh giá bởi các user khác và trả về giá trị rating đó
là kết quả của random walk Những items nảy có thể đúng
la i, cũng có thé khác Ước lượng rating của nguôn u đối
với item ¡ được hi vọng là giá trị ratings trả về bởi các
random walk khác nhau.
Do chúng ta không biết qua bao nhiêu bước dé đến
v, chúng ta không bàn đến nhân tố k (Thực tế ¢,,; = đ„¡„).Thực tế nếu muốn ta vẫn có thé đưa k vao đây, nhưng dé
có một công thức đóng, chúng ta bỏ qua nhân tố k ở người dùng cuối v ma cho ra kết quả xác suất gần đúng đẹp nhất.
Đồng thời, lưu ý rang trong trường hợp v = u vai = j là
không đáng bàn bởi người dùng đó đã đánh giá lên chính
item đích.
Trang 182.4 Mô hình LinkWalker
Trong phan này chúng ta sử dung những ý tưởngđược giới thiệu trong TrustWalker, và đề xuất mô hình
LinkWalker, nhằm giải quyết bài toán dự đoán Top-N liên
kết TrustWalker thực hiện một loạt các random walk để
dự đoán cho item đích Tuy nhiên, trong dự đoán top-N,
mục tiêu là để đưa ra top người dùng đáng tin cậy hơn làviệc dự đoán rating cho một item nhất định Trong
TrustWalker, sau khi mỗi random walk dừng, một trong
các item mà người hiện tại đánh giá sẽ được lựa chọn
ngẫu nhiên, và giá trị rating này là kết quả của randomwalk Ở LinkWalker, không có item đích, cũng không cóngười dùng nào mà random walk dừng lại tại đó rồi trả vềkết quả LinkWalker trả về một danh sách người dùng chứ
không phải | con số rating dự đoán như TrustWalker
Để khuyến nghị top-N liên kết tới nguồn uo,
LinkWalker thực hiện random walks trên mạng tin cậy bắt
đầu từ up đi tìm những người đáng tin cậy với up Chi tiết
random walk như thế nào sẽ bàn ở mục sau Mỗi random
walk trả về một người được khuyến cáo dé tạo liên kết tin
cậy LinkWalker thực hiện một loạt random walk va sử