Phương pháp tư vấnnội dung được thực hiện dựa trên biểu diễn đặc trưng thông tincủa các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sảnphẩm phù hợp với những sản phẩm người dùng đã
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
VĂN THỊ THU TRANG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TOM TAT LUẬN VAN THẠC SĨ
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN
Có thê tìm hiệu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
Trang 3MỞ ĐẦU
Với sự gia tăng chưa từng thấy của lượng thông tin trênInternet hiện nay làm cho vấn dé quá tải thông tin trở nên tram
trọng đối với người dùng các dịch vụ trực tuyến Ví dụ khi ta
muốn mua một chiếc máy tính và tìm từ khóa “computer” trên
Amazone, ta nhận được trên 11 triệu sản phẩm khác nhau Điềunày khiến người dùng gặp rất nhiều khó khăn khi thực hiện các
giao dịch thương mại điện tử Chính vì vậy, việc xây dựng một công cụ trợ g1úp người dùng lựa chọn được thông tin phù hợp là
hết sức cần thiết cho cả người dùng và các nhà cung cấp thông
tin.
Hệ tư vấn ra đời hướng đến việc giảm tải thông tin chomỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp
và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.
Đối với người dùng, hệ tư van tự động trợ giúp lựa chọn thông
tin phù hợp trong vô số thông tin không phù hợp Đối với các
nhà cung cấp thông tin, hệ tư van không chi trợ giúp việc xácđịnh những loại thông tin nào cần cung cấp cho mỗi người dùngđơn lẻ mà còn nó còn là nhân tố nâng cao hiệu quả và chất lượngdịch vụ cung cấp thông tin Hiện tại, nhiều hệ thống thương mại
điện tử đã được gặt hái được thành công to lớn dựa vào hệ tư
vẫn, ví dụ Amazon, E-Bay, Netflix
Trang 4Các hệ tư vấn trước đây được tiếp cận theo ba phươngpháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấnkết hợp (còn được gọi là phương pháp lại) Phương pháp tư vấnnội dung được thực hiện dựa trên biểu diễn đặc trưng thông tincủa các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sảnphẩm phù hợp với những sản phẩm người dùng đã từng sử dụng
trong quá khứ Trái lại, tư vấn cộng tác được thực hiện dựa trên
đánh giá của cộng đồng người dùng có cùng chung sở thích để
dự đoán những sản phẩm mới cho người dùng cần được tư van
Tư vấn kết hợp khai thác thế mạnh riêng của cả hai phương pháp
tư van cộng tác và tư van nội dung dé thực hiện dự đoán Mặc
dù đã gặt hái được nhiều thành công trong triển khai các ứng
dụng thương mại điện tử, tuy vậy các phương pháp tiếp cận nêu
trên chứa đựng nhiều van dé cần tiếp tục nghiên cứu: van đề tríchchọn đặc trưng của lọc nội dung, vấn đề người dùng mới, sảnphẩm mới, vẫn đề dữ liệu thưa của lọc cộng tác
Sự ra đời các mạng xã hội làm thay đổi phương thức trao
đổi thông tin của cộng đồng người dùng Mỗi người dùng trong
mạng không còn độc lập với những người dùng khác mà họ bị
phụ thuộc và ảnh hưởng bởi các mối quan hệ xã hội như gia đình,
bạn bè, đồng nghiệp Người dùng trong mạng xã hội tự do chia
sẻ và bày tỏ quan điểm, ý tưởng, và đánh giá của mình tất cả các
vân dé với cộng đông các quan hệ khác nhau Sự tương tác của
Trang 5người dùng với các mối quan hệ xã hội tạo nên nguồn tài nguyênthông tin to lớn độc lập với nguồn tài nguyên sẵn có của các hệ
tư vấn trước đây Chính vì vậy, nếu xem xét ngữ cảnh của hệ tư
van được nhúng trong môi trường mạng xã hội thì các mỗi quan
hệ xã hội cũng phải được xem xét đến trong quá trình dự đoán
Tích hợp các mối quan hệ xã hội vào hệ tư vấn không chỉ cải
thiện đáng ké chất lượng dự đoán mà còn giải quyết hiệu qua
van đề người dùng mới, sản phẩm mới, đữ liệu thưa của các cáchtiếp cận trước đây Với những lý do nêu trên, em lựa chọn đề tài
“Hệ tu vấn cộng tác trong mạng xã hội dựa vào độ tương quan”
dé thực hiện trong khuôn khổ luận văn thạc sĩ ngành khoa họcmáy tính với mục tiêu, phạm vi và phương pháp cụ thể như dưới
đây.
Luận văn gồm 3 chương chính với các nội dung sau:
Chương 1 — Phương pháp tiếp cận kinh điển của hệ
tư vấn
Nội dung chương 1 là trình bày về các phương pháp tư
vẫn truyền thống (tư vấn theo nội dung, lọc cộng tác, phương
pháp lai) làm cơ sở nền tang lý thuyết
Chương 2 — Phương pháp tư vấn xã hội dựa vào bộ
nhớ
Nội dung chương 2 là trình bày về phương pháp tư vẫn
cộng tác trong mạng xã hội dựa vào độ tương quan.
Trang 6Chương 3 — Thử nghiệm và đánh giá
Nội dung chương 3 là trình bày về phương pháp thử
nghiệm, so sánh giữa phương pháp tư vấn truyền thống và
phương pháp tư van xã hội, từ đó đánh giá kết qua
Trang 7CHUONG 1 - PHƯƠNG PHÁP TIẾP CAN KINH
DIEN CUA HỆ TƯ VAN
1.1 Phat biéu bai toan tu van
Hệ tu van ra đời hướng đến việc giảm tải thông tin cho
mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp
và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.
Các hệ tư vấn trước đây được tiếp cận theo ba phương phápchính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết
hợp (còn được gọi là phương pháp lai) Thông thường trong một
hệ tư van ta có một tập người dùng và một tập sản phẩm I.Mỗi người dùng u sé đưa ra các đánh giá cho một tập sản phẩm{ú¡, Í„} Những đánh giá của người dùng đối với từng sảnphẩm được biểu diễn thông qua ma trận đánh giá R = [ujiÌNxM-
Trong ma trận này 7„¡ là đánh giá của người dùng u đối với sản
phẩm i, Tụ,¡ CÓ thé là bat kì số thực nao, nhưng thông thường cácđánh giá sẽ là số nguyên nằm trong khoảng [1,5] Nhiệm vụ của
hệ tư vấn là dự đoán đánh giá của người dùng wu cho sản phẩm i(là sản phẩm mà người dùng wu chưa từng sử dụng) hoặc tư vantop-N sản phẩm có giá trị đánh giá cao nhất (được tính toán dựavào những đánh giá đã biết)
1.2 Phương pháp tư vẫn theo nội dung
1.2.1 Bài toán tw van theo nội dung
Trang 8Bài toán tư vấn theo nội dung được phát biểu như sau:
cho P = {Ø,p;, ,p„} là tập gồm sản phẩm Nội dung san
pham p € P được ký hiệu là Content(p) được biểu diễn thôngqua tập K đặc trưng nội dung của P Tập các đặc trưng sản phẩm
p được xây dựng bằng các kỹ thuật truy van thông tin dé thựchiện mục đích dự đoán những sản phẩm tương tự với p
Cho U = {u,uạ, , Uy} là tập gồm M người dùng Với
mỗi người dùng u € U, gọi ContentBasedProfile(u) là hồ sơ
người dùng u Hồ sơ của người dùng thực chat là lịch sử truy
cập hoặc đánh giá của người đó đối với các sản phẩm.ContentBasedProfile(u) được xây dựng bang cách phân tích nội
dung các sản phẩm mà người dùng u đã từng truy nhập hoặc
đánh giá dựa trên các kỹ thuật truy vấn thông tin
1.2.2 Các phương pháp tư vẫn theo nội dung
Tư vấn theo nội dung (hay lọc theo nội dung) được tiếp
cận theo hai xu hướng: lọc dựa trên bộ nhớ và lọc dựa trên mô
Trang 9Bước 1: So sánh người dùng mục tiêu (người dung dang
cần được tư vấn) với tất cả những người dùng khác trong hệ
thống và tính toán độ tương tự giữa mỗi cặp người dùng
Bước 2: Dự đoán xếp hạng của người dùng mục tiêu chomỗi sản phẩm mà họ chưa từng đánh giá P, j biéu dién gia trisan pham được dự đoán ¡; Gia tri dự đoán nay thuộc trong mộtkhoảng nhất định, chang han tir 1 dén 5 nhu trong tap dữ liệu
MovieLens.
Bước 3: Dua ra danh sách N sản phẩm mà người dùng
yêu thích nhất Danh sách được đưa ra tư vấn này phải chứa
những sản phẩm mà người dùng chưa mua hoặc chưa đưa ra
đánh giá.
1.3.2 Các phương pháp lọc cộng tác
1.3.2.1 Lọc cộng tác dựa vào bộ nhớ
1.3.2.1.a Lọc cộng tác dựa vào người dùng
Ki thuật lọc cộng tác dựa vào người dùng được thực hiện
thông qua các bước:
Bước 1 - Biểu diễn dữ liệu: Chuyển danh sách ngườidùng và các đánh giá của họ về các sản phẩm thành ma trận
người dùng — sản phâm.
Trang 10Bước 2 — Tìm tập k láng giéng của người dùng dangcần tư van: Lựa chọn tập k người dùng gần nhất với người dùngđang cần tư vấn theo công thức:
S,,(uj) = {ua„|rank W(Uj,Ug) Sk, Xam # 0} (1.1)
Bước 3 — Tính toán dự đoán và tư vân: Tính tông trọng
sô các đánh giá của các láng giêng đê tạo ra dự đoán cho người dùng cân tư vân theo công thức:
int Wau Twi ~ Tụ) (1.2)
ng WauPai = Ta +
1.3.2.1.b Loc cộng tác dựa vào san phẩm
Thuật toán lọc cộng tác dựa vào sản phẩm gồm hai bước:
Bước 1 — Tính độ tương tự giữa các sản phẩm: khác
với trường hợp lọc dựa vào người dùng, độ tương tự trong thuật
toán này được tính theo các cột của ma trận trọng SỐ
Bước 2 — Tính toán dự đoán: có các cách tính như sau:
a Tổng trọng số: theo công thức:
_ Mall similar items,N(S¡,N * Run)
Pui = (1.4)
Mall similar items,n(|Sin )
b Hồi quy: Ý tưởng co ban là sử dung công thức tương
tự với kỹ thuật tổng trọng số, nhưng thay vì sử dụngcác giá trị xếp hạng “thô” ly của N sản phẩm tương
Trang 11tự, mô hình này sử dụng giá trị xấp xỉ R' dựa trên
mô hình hồi quy tuyến tính
1.3.2.2 Lọc cộng tac dựa vào mô hình
1.3.2.2.a Thuật toán CF Bayes đơn giản
1.3.2.2.b Các thuật toán CF phân cụm
1.4 Phương pháp tư vấn lai
Có các cách sau dé kết hợp phương pháp tư van theo nộidung và lọc cộng tác:
Kết hợp nhiều tư vấn: Đề kết hợp tư vấn của hai phương
pháp trên có thê sử dụng lược đồ biéu quyết hoặc sử dụng cáchkết hợp tuyến tính các đánh giá
Thêm các đặc điểm dựa vào nội dung vào mô hình lọccộng tác: Cách kết hợp nay có thể giúp khắc phục van dé thưa
thớt dữ liệu của phương pháp lọc cộng tác.
Bồ sung các tính chat của tư van lọc cộng tác vào mô
hình dựa vào nội dung: phương pháp pho biến nhất là sử dụng
kỹ thuật biến đổi trên ma trận nội dung
1.5 Một số hạn chế của các phương pháp tư vấn
e Vấn đề trích chọn đặc trưng: Đề có một tập các đặctrưng day đủ, nội dung tài liệu phải được biéu diễn dưới dạng
phù hợp dé máy tính có thé tự động phân tích, tính toán trọng
số các đặc trưng nội dung hoặc phải được thực hiện bán tự
Trang 12động Phương pháp sẽ khó áp dụng trong những trường hợp
việc trích chọn nội dung phức tạp, chắng hạn trích chọn đặctrưng nội dung các đối tượng dit liêu đa phương tiện (hình
ảnh, âm thanh, dịch vụ).
e Van dé người dùng mới: Các hệ thống lọc theo nội
dung chỉ thực hiện hiệu quả khi có đủ dữ liệu, tức là người
dùng phải đánh giá hoặc truy nhập một số lượng sản phẩm
đủ lớn.
e Vấn đề dữ liệu thưa: Trong thực tế, số lượng sản
pham mà một người dùng có thê đánh giá lại rat hạn chế Dovậy ma trận người dùng — sản pham có thé sẽ rất thưa thớt,
dẫn đến hiệu quả của các dự đoán hay tư van có thé bị giảm
bớt.
e Van đề sản phẩm mới: Khi một sản phẩm mới đượcnhập vào hệ thống, thì sản phẩm đó chưa được người dùngbiết đến, và cũng chưa được bất kì người dùng nào đánh giá
Hệ tư van sử dụng kỹ thuật lọc cộng tác dựa vào các đánh
giá của người dùng với các sản pham dé đưa ra dự đoán hay
tư van Do vậy với các sản phẩm mới chưa được đánh giá thì
sẽ rât khó đê tính toán độ tương tự nhăm đưa ra tư vân.
Trang 131.6 Kết luận
Chương này đưa ra cái nhìn tổng quan về các phươngpháp tư van được áp dụng trong các hệ thống tư van lựa chon délàm cơ sở nền tang lý thuyết Đồng thời cũng trình bay một sốcách tiếp cận đã được nghiên cứu cho từng phương pháp, cácvan dé còn tồn tại của các phương pháp tư vấn Trong chươngtiếp theo của luận văn sẽ giới thiệu về phương pháp tư vẫn xãhội dựa vào bộ nhớ dé đưa ra giải pháp nhằm giảm bớt nhữnghạn chế của các phương pháp tư vấn hiện tại
Trang 14CHUONG 2 - PHƯƠNG PHÁP TƯ VAN XÃ HỘI
DỰA VÀO BO NHỚ
2.1 Phát biểu bài toán tư vấn xã hội
Hệ tư vấn truyền thống không đi sâu vào xem xét các mốiquan hệ xã hội giữa người dùng, nhưng tầm quan trọng của sựảnh hưởng xã hội trong tiếp thị sản phẩm thì đã được công nhận
từ lâu Có thể thấy rằng, khi chúng ta muốn tìm hiểu một sản
phẩm mà mình chưa từng mua bao giờ thì chúng ta thường tham
khảo ý kiến của bạn bè, đặc biệt là những người đã có kinhnghiệm mua bán va sử dụng sản phẩm đó và họ có thé ngay lậptức đưa ra tư vẫn hợp lý cho chúng ta Khi bạn bè giới thiệu mộtsản phẩm cho chúng ta, chúng ta cũng có xu hướng chấp nhậnlời đề nghị đó bởi vì lựa chon của họ là dang tin cậy Nhiều chiếnlược tiếp thị đã đánh vào tâm lý chung này của người dùng vàđạt được thành công lớn Một ví dụ điển hình là dịch vụ email
miễn phí của Hotmail Chiến lược tiếp thị của Hotmail là đính
kèm tin nhắn khuyến mại ở dưới cùng của mỗi email gửi đi.Những người nhận được email sẽ đăng ký dịch vụ và sau đó tiếptục lan truyền tin khuyến mại này Kết qua là, số lượng tài khoảncủa Hotmail đã tăng từ 0 lên đến 12 triệu người dùng trong vòng
18 tháng mà chỉ mắt 500,000$ chi phí quảng cáo Từ đó có thể
Trang 15thấy, ảnh hưởng xã hội đóng vai trò quan trọng đối với việc đưa
ra quyết định sử dụng sản phẩm của người dùng
Ngoài ra, về mặt lý thuyết, việc tích hợp các mạng xã hội
có thể cải thiện hiệu suất của hệ thống tư van hiện tại Đầu tiên,xét về độ chính xác của việc dự đoán, thông tin thu được từ mạng
xã hội về người dùng và bạn bè của họ g1úp cải thiện sự hiểu biết
về hành vi và những đánh giá của người dùng Từ đó giúp mô
hình hóa và giải thích sở thích của người dùng một cách chính
xác hơn, cải thiện độ chính xác của các dự đoán Hai là, với
thông tin bạn bè trong mạng xã hội, ta không cần phải tìm ngườidùng tương tự băng cách đo độ tương tự giữa các đánh giá củatập người dùng nữa, bởi vì thực tế cho thấy răng, hai người là
bạn bè thì thường họ sẽ có điểm chung Như vậy, van dé thưa
thớt dữ liệu có thé được giảm nhẹ Cuối cùng, đối với van đề
cold-start, ngay cả khi người dùng chưa từng có đánh giá trong
quá khứ, hệ tư vấn vẫn có thể đưa ra khuyến nghị cho ngườidùng dựa trên sở thích của bạn bè họ nếu hệ thống được tích hợpvới mạng xã hội Tất cả những điều trên dẫn đến việc cần phải
thiết kế một mô hình mới của hệ tư vẫn dé có thể tận dụng cáclợi thế từ thông tin trong mạng xã hội Do vậy, phương pháp tư
van dựa vào mang xã hội ngày càng trở nên phố biến hơn
2.2 Các phương pháp tiếp cận của hệ tư vấn xã hội
2.2.1 Phương pháp tư van xã hội dựa vào bộ nhớ
Trang 16Hệ tư vẫn xã hội dựa vào bộ nhớ su dụng mô hình CF
dựa vào bộ nhớ, đặc biệt là các phương pháp hướng người dùng.
Một xếp hạng thiếu của một người dùng nhất định sẽ được tổng
hợp tir các xếp hang của những người dùng tương quan (N*) vớingười dùng đó Với một người dùng cụ thể, phương pháp hướngngười dùng truyền thống sử dụng người dùng tương tự, trong
khi hệ tư vẫn xã hội dựa vào bộ nhớ sử dụng N* người dùng
tương quan thu được từ cả thông tin xếp hạng và thông tin xã
hội Hệ tư van xã hội trong phương pháp nay thường hoạt động
theo hai bước Đầu tiên là tìm ra N*(i) người dùng tương quanđối với người dùng u;, sau đó là thực hiện bước cuối cùng trongphương pháp CF dựa vào bộ nhớ truyền thống — tổng hợp cácxếp hạng từ những người dùng tương quan thu được từ bước
trước dé đưa ra xếp hạng cần thiết cho người dùng 1; Có nhiều
cách tiếp cận dé tìm kiếm N* người dùng tương quan, chăng hannhư: TidalTrust, MoleTrust, TrustWalker sẽ được đề cập chi
tiết hon trong những phan sau
2.2.2 Phương pháp tư vấn xã hội dựa vào mô hình
2.3 Phương pháp TidalTrust
TidalTrust là thuật toán tìm kiếm theo chiều rộng (BFS)được sửa đổi Xếp hạng tin cậy của source (người dùng nguồn)đối với sink (người dùng khác trong hệ thống) (tsource,sink) là
Trang 17trung bình trọng số của các xếp hạng đối với sink của những lánggiềng của source (xem (2.1)) Thuật toán tìm kiếm sẽ được batđầu từ nút nguồn Nó sẽ thăm dò ý kiến của mỗi nút láng giéng
dé có được xếp hạng của mỗi nút đối với sink Nếu một nút lánggiềng có một đánh giá trực tiếp đối với sink, giá trị sẽ được trả
về Nếu một nút láng giéng không có đánh giá trực tiếp đối vớisink, nó sẽ truy van tat cả láng giéng của nó, lay trung bình trọng
SỐ các xếp hạng (như trong công thức (2.1)) và trả lại kết quả
Mỗi nút láng giéng sẽ lặp đi lặp lại quá trình này, quan
sát độ sâu hiện tại từ nút nguồn Mỗi nút cũng sẽ quan sát trọng
số của đường dẫn đến nó, được tính bằng giá trị nhỏ nhất củaxếp hạng của người dùng nguồn đối với nút và xếp hạng của nútvới các láng giềng của nó Các nút láng giềng ghi lại đường dẫn
có trọng số tối đa dẫn đến nó Khi một đường dẫn được tìm thay
từ source đến sink, độ sâu sẽ bang độ sâu tối đa cho phép Đốivới tìm kiếm theo chiều rộng (BFS), đường dẫn đầu tiên đượctìm thấy sẽ có độ sâu nhỏ nhất Việc tìm kiếm sẽ tiếp tục dé tìmbất kỳ đường dẫn nào khác có độ sâu nhỏ nhất Khi quá trình tìm
kiếm hoàn tất, ngưỡng tin cậy (tối đa) được thiết lập băng cách