HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
VĂN THỊ THU TRANG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TOM TAT LUẬN VAN THẠC SĨ
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN
Có thê tìm hiệu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
Trang 3MỞ ĐẦU
Với sự gia tăng chưa từng thấy của lượng thông tin trên Internet hiện nay làm cho vấn dé quá tải thông tin trở nên tram
trọng đối với người dùng các dịch vụ trực tuyến Ví dụ khi ta
muốn mua một chiếc máy tính và tìm từ khóa “computer” trên
Amazone, ta nhận được trên 11 triệu sản phẩm khác nhau Điều này khiến người dùng gặp rất nhiều khó khăn khi thực hiện các
giao dịch thương mại điện tử Chính vì vậy, việc xây dựng mộtcông cụ trợ g1úp người dùng lựa chọn được thông tin phù hợp là
hết sức cần thiết cho cả người dùng và các nhà cung cấp thông
Hệ tư vấn ra đời hướng đến việc giảm tải thông tin cho mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp
và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.
Đối với người dùng, hệ tư van tự động trợ giúp lựa chọn thông
tin phù hợp trong vô số thông tin không phù hợp Đối với các
nhà cung cấp thông tin, hệ tư van không chi trợ giúp việc xác định những loại thông tin nào cần cung cấp cho mỗi người dùng đơn lẻ mà còn nó còn là nhân tố nâng cao hiệu quả và chất lượng dịch vụ cung cấp thông tin Hiện tại, nhiều hệ thống thương mại
điện tử đã được gặt hái được thành công to lớn dựa vào hệ tư
vẫn, ví dụ Amazon, E-Bay, Netflix
Trang 4Các hệ tư vấn trước đây được tiếp cận theo ba phương pháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết hợp (còn được gọi là phương pháp lại) Phương pháp tư vấn nội dung được thực hiện dựa trên biểu diễn đặc trưng thông tin của các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sản phẩm phù hợp với những sản phẩm người dùng đã từng sử dụng
trong quá khứ Trái lại, tư vấn cộng tác được thực hiện dựa trên
đánh giá của cộng đồng người dùng có cùng chung sở thích để
dự đoán những sản phẩm mới cho người dùng cần được tư van.
Tư vấn kết hợp khai thác thế mạnh riêng của cả hai phương pháp tư van cộng tác và tư van nội dung dé thực hiện dự đoán Mặc dù đã gặt hái được nhiều thành công trong triển khai các ứng
dụng thương mại điện tử, tuy vậy các phương pháp tiếp cận nêu
trên chứa đựng nhiều van dé cần tiếp tục nghiên cứu: van đề trích chọn đặc trưng của lọc nội dung, vấn đề người dùng mới, sản phẩm mới, vẫn đề dữ liệu thưa của lọc cộng tác.
Sự ra đời các mạng xã hội làm thay đổi phương thức trao
đổi thông tin của cộng đồng người dùng Mỗi người dùng trong
mạng không còn độc lập với những người dùng khác mà họ bị
phụ thuộc và ảnh hưởng bởi các mối quan hệ xã hội như gia đình,
bạn bè, đồng nghiệp Người dùng trong mạng xã hội tự do chia
sẻ và bày tỏ quan điểm, ý tưởng, và đánh giá của mình tất cả các
vân dé với cộng đông các quan hệ khác nhau Sự tương tác của
Trang 5người dùng với các mối quan hệ xã hội tạo nên nguồn tài nguyên thông tin to lớn độc lập với nguồn tài nguyên sẵn có của các hệ tư vấn trước đây Chính vì vậy, nếu xem xét ngữ cảnh của hệ tư
van được nhúng trong môi trường mạng xã hội thì các mỗi quan hệ xã hội cũng phải được xem xét đến trong quá trình dự đoán.
Tích hợp các mối quan hệ xã hội vào hệ tư vấn không chỉ cải
thiện đáng ké chất lượng dự đoán mà còn giải quyết hiệu qua
van đề người dùng mới, sản phẩm mới, đữ liệu thưa của các cách tiếp cận trước đây Với những lý do nêu trên, em lựa chọn đề tài “Hệ tu vấn cộng tác trong mạng xã hội dựa vào độ tương quan” dé thực hiện trong khuôn khổ luận văn thạc sĩ ngành khoa học máy tính với mục tiêu, phạm vi và phương pháp cụ thể như dưới
Luận văn gồm 3 chương chính với các nội dung sau:
Chương 1 — Phương pháp tiếp cận kinh điển của hệ tư vấn
Nội dung chương 1 là trình bày về các phương pháp tư
vẫn truyền thống (tư vấn theo nội dung, lọc cộng tác, phương
pháp lai) làm cơ sở nền tang lý thuyết.
Chương 2 — Phương pháp tư vấn xã hội dựa vào bộ
Nội dung chương 2 là trình bày về phương pháp tư vẫn
cộng tác trong mạng xã hội dựa vào độ tương quan.
Trang 6Chương 3 — Thử nghiệm và đánh giá
Nội dung chương 3 là trình bày về phương pháp thử
nghiệm, so sánh giữa phương pháp tư vấn truyền thống và
phương pháp tư van xã hội, từ đó đánh giá kết qua.
Trang 7CHUONG 1 - PHƯƠNG PHÁP TIẾP CAN KINH
DIEN CUA HỆ TƯ VAN
1.1 Phat biéu bai toan tu van
Hệ tu van ra đời hướng đến việc giảm tải thông tin cho
mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp
và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.
Các hệ tư vấn trước đây được tiếp cận theo ba phương pháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết
hợp (còn được gọi là phương pháp lai) Thông thường trong một
hệ tư van ta có một tập người dùng và một tập sản phẩm I Mỗi người dùng u sé đưa ra các đánh giá cho một tập sản phẩm
{ú¡, Í„} Những đánh giá của người dùng đối với từng sản phẩm được biểu diễn thông qua ma trận đánh giá R =
[ujiÌNxM-Trong ma trận này 7„¡ là đánh giá của người dùng u đối với sản
phẩm i, Tụ,¡ CÓ thé là bat kì số thực nao, nhưng thông thường các đánh giá sẽ là số nguyên nằm trong khoảng [1,5] Nhiệm vụ của hệ tư vấn là dự đoán đánh giá của người dùng wu cho sản phẩm i (là sản phẩm mà người dùng wu chưa từng sử dụng) hoặc tư van top-N sản phẩm có giá trị đánh giá cao nhất (được tính toán dựa vào những đánh giá đã biết).
1.2 Phương pháp tư vẫn theo nội dung1.2.1 Bài toán tw van theo nội dung
Trang 8Bài toán tư vấn theo nội dung được phát biểu như sau:
cho P = {Ø,p;, ,p„} là tập gồm sản phẩm Nội dung san
pham p € P được ký hiệu là Content(p) được biểu diễn thông qua tập K đặc trưng nội dung của P Tập các đặc trưng sản phẩm p được xây dựng bằng các kỹ thuật truy van thông tin dé thực
hiện mục đích dự đoán những sản phẩm tương tự với p.
Cho U = {u,uạ, , Uy} là tập gồm M người dùng Với
mỗi người dùng u € U, gọi ContentBasedProfile(u) là hồ sơ
người dùng u Hồ sơ của người dùng thực chat là lịch sử truy
cập hoặc đánh giá của người đó đối với các sản phẩm ContentBasedProfile(u) được xây dựng bang cách phân tích nội
dung các sản phẩm mà người dùng u đã từng truy nhập hoặc
đánh giá dựa trên các kỹ thuật truy vấn thông tin.
1.2.2 Các phương pháp tư vẫn theo nội dung
Tư vấn theo nội dung (hay lọc theo nội dung) được tiếp
cận theo hai xu hướng: lọc dựa trên bộ nhớ và lọc dựa trên mô
1.3 Phương pháp tư vẫn cộng tác
1.3.1 Bài toán lọc cộng tác
Gia sử có một người dùng 1„ yêu cầu được tư van, thuật toán lọc cộng tác chuẩn sẽ thực hiện theo 3 bước:
Trang 9Bước 1: So sánh người dùng mục tiêu (người dung dang
cần được tư vấn) với tất cả những người dùng khác trong hệ
thống và tính toán độ tương tự giữa mỗi cặp người dùng.
Bước 2: Dự đoán xếp hạng của người dùng mục tiêu cho mỗi sản phẩm mà họ chưa từng đánh giá P, j biéu dién gia tri san pham được dự đoán ¡; Gia tri dự đoán nay thuộc trong một khoảng nhất định, chang han tir 1 dén 5 nhu trong tap dữ liệu
Bước 3: Dua ra danh sách N sản phẩm mà người dùng
yêu thích nhất Danh sách được đưa ra tư vấn này phải chứa
những sản phẩm mà người dùng chưa mua hoặc chưa đưa ra
đánh giá.
1.3.2 Các phương pháp lọc cộng tác
1.3.2.1 Lọc cộng tác dựa vào bộ nhớ
1.3.2.1.a Lọc cộng tác dựa vào người dùng
Ki thuật lọc cộng tác dựa vào người dùng được thực hiện
thông qua các bước:
Bước 1 - Biểu diễn dữ liệu: Chuyển danh sách người dùng và các đánh giá của họ về các sản phẩm thành ma trận
người dùng — sản phâm.
Trang 10Bước 2 — Tìm tập k láng giéng của người dùng dang cần tư van: Lựa chọn tập k người dùng gần nhất với người dùng đang cần tư vấn theo công thức:
S,,(uj) = {ua„|rank W(Uj,Ug) Sk, Xam # 0} (1.1) Bước 3 — Tính toán dự đoán và tư vân: Tính tông trọng
sô các đánh giá của các láng giêng đê tạo ra dự đoán cho ngườidùng cân tư vân theo công thức:
int Wau Twi ~ Tụ) (1.2)
ng Wau Pai = Ta +
1.3.2.1.b Loc cộng tác dựa vào san phẩm
Thuật toán lọc cộng tác dựa vào sản phẩm gồm hai bước:
Bước 1 — Tính độ tương tự giữa các sản phẩm: khác
với trường hợp lọc dựa vào người dùng, độ tương tự trong thuật
toán này được tính theo các cột của ma trận trọng SỐ.
Bước 2 — Tính toán dự đoán: có các cách tính như sau:
a Tổng trọng số: theo công thức:
_ Mall similar items,N(S¡,N * Run)
Pui = (1.4)
Mall similar items,n(|Sin )
b Hồi quy: Ý tưởng co ban là sử dung công thức tương
tự với kỹ thuật tổng trọng số, nhưng thay vì sử dụng các giá trị xếp hạng “thô” ly của N sản phẩm tương
Trang 11tự, mô hình này sử dụng giá trị xấp xỉ R' dựa trên
mô hình hồi quy tuyến tính.
1.3.2.2 Lọc cộng tac dựa vào mô hình
1.3.2.2.a Thuật toán CF Bayes đơn giản1.3.2.2.b Các thuật toán CF phân cụm
1.4 Phương pháp tư vấn lai
Có các cách sau dé kết hợp phương pháp tư van theo nội dung và lọc cộng tác:
Kết hợp nhiều tư vấn: Đề kết hợp tư vấn của hai phương
pháp trên có thê sử dụng lược đồ biéu quyết hoặc sử dụng cách kết hợp tuyến tính các đánh giá.
Thêm các đặc điểm dựa vào nội dung vào mô hình lọc cộng tác: Cách kết hợp nay có thể giúp khắc phục van dé thưa
thớt dữ liệu của phương pháp lọc cộng tác.
Bồ sung các tính chat của tư van lọc cộng tác vào mô
hình dựa vào nội dung: phương pháp pho biến nhất là sử dụng
kỹ thuật biến đổi trên ma trận nội dung.
1.5 Một số hạn chế của các phương pháp tư vấn
e Vấn đề trích chọn đặc trưng: Đề có một tập các đặc trưng day đủ, nội dung tài liệu phải được biéu diễn dưới dạng
phù hợp dé máy tính có thé tự động phân tích, tính toán trọng số các đặc trưng nội dung hoặc phải được thực hiện bán tự
Trang 12động Phương pháp sẽ khó áp dụng trong những trường hợp
việc trích chọn nội dung phức tạp, chắng hạn trích chọn đặc trưng nội dung các đối tượng dit liêu đa phương tiện (hình
ảnh, âm thanh, dịch vụ).
e Van dé người dùng mới: Các hệ thống lọc theo nội
dung chỉ thực hiện hiệu quả khi có đủ dữ liệu, tức là người
dùng phải đánh giá hoặc truy nhập một số lượng sản phẩm
đủ lớn.
e Vấn đề dữ liệu thưa: Trong thực tế, số lượng sản
pham mà một người dùng có thê đánh giá lại rat hạn chế Do vậy ma trận người dùng — sản pham có thé sẽ rất thưa thớt,
dẫn đến hiệu quả của các dự đoán hay tư van có thé bị giảm
e Van đề sản phẩm mới: Khi một sản phẩm mới được nhập vào hệ thống, thì sản phẩm đó chưa được người dùng biết đến, và cũng chưa được bất kì người dùng nào đánh giá Hệ tư van sử dụng kỹ thuật lọc cộng tác dựa vào các đánh
giá của người dùng với các sản pham dé đưa ra dự đoán hay
tư van Do vậy với các sản phẩm mới chưa được đánh giá thì
sẽ rât khó đê tính toán độ tương tự nhăm đưa ra tư vân.
Trang 131.6 Kết luận
Chương này đưa ra cái nhìn tổng quan về các phương pháp tư van được áp dụng trong các hệ thống tư van lựa chon dé làm cơ sở nền tang lý thuyết Đồng thời cũng trình bay một số cách tiếp cận đã được nghiên cứu cho từng phương pháp, các van dé còn tồn tại của các phương pháp tư vấn Trong chương tiếp theo của luận văn sẽ giới thiệu về phương pháp tư vẫn xã hội dựa vào bộ nhớ dé đưa ra giải pháp nhằm giảm bớt những hạn chế của các phương pháp tư vấn hiện tại.
Trang 14CHUONG 2 - PHƯƠNG PHÁP TƯ VAN XÃ HỘI DỰA VÀO BO NHỚ
2.1 Phát biểu bài toán tư vấn xã hội
Hệ tư vấn truyền thống không đi sâu vào xem xét các mối quan hệ xã hội giữa người dùng, nhưng tầm quan trọng của sự ảnh hưởng xã hội trong tiếp thị sản phẩm thì đã được công nhận từ lâu Có thể thấy rằng, khi chúng ta muốn tìm hiểu một sản
phẩm mà mình chưa từng mua bao giờ thì chúng ta thường tham
khảo ý kiến của bạn bè, đặc biệt là những người đã có kinh nghiệm mua bán va sử dụng sản phẩm đó và họ có thé ngay lập tức đưa ra tư vẫn hợp lý cho chúng ta Khi bạn bè giới thiệu một
sản phẩm cho chúng ta, chúng ta cũng có xu hướng chấp nhận lời đề nghị đó bởi vì lựa chon của họ là dang tin cậy Nhiều chiến lược tiếp thị đã đánh vào tâm lý chung này của người dùng và đạt được thành công lớn Một ví dụ điển hình là dịch vụ email
miễn phí của Hotmail Chiến lược tiếp thị của Hotmail là đính
kèm tin nhắn khuyến mại ở dưới cùng của mỗi email gửi đi Những người nhận được email sẽ đăng ký dịch vụ và sau đó tiếp
tục lan truyền tin khuyến mại này Kết qua là, số lượng tài khoản của Hotmail đã tăng từ 0 lên đến 12 triệu người dùng trong vòng 18 tháng mà chỉ mắt 500,000$ chi phí quảng cáo Từ đó có thể
Trang 15thấy, ảnh hưởng xã hội đóng vai trò quan trọng đối với việc đưa ra quyết định sử dụng sản phẩm của người dùng.
Ngoài ra, về mặt lý thuyết, việc tích hợp các mạng xã hội có thể cải thiện hiệu suất của hệ thống tư van hiện tại Đầu tiên, xét về độ chính xác của việc dự đoán, thông tin thu được từ mạng xã hội về người dùng và bạn bè của họ g1úp cải thiện sự hiểu biết
về hành vi và những đánh giá của người dùng Từ đó giúp mô
hình hóa và giải thích sở thích của người dùng một cách chính
xác hơn, cải thiện độ chính xác của các dự đoán Hai là, với
thông tin bạn bè trong mạng xã hội, ta không cần phải tìm người dùng tương tự băng cách đo độ tương tự giữa các đánh giá của tập người dùng nữa, bởi vì thực tế cho thấy răng, hai người là
bạn bè thì thường họ sẽ có điểm chung Như vậy, van dé thưa
thớt dữ liệu có thé được giảm nhẹ Cuối cùng, đối với van đề
cold-start, ngay cả khi người dùng chưa từng có đánh giá trong
quá khứ, hệ tư vấn vẫn có thể đưa ra khuyến nghị cho người dùng dựa trên sở thích của bạn bè họ nếu hệ thống được tích hợp với mạng xã hội Tất cả những điều trên dẫn đến việc cần phải
thiết kế một mô hình mới của hệ tư vẫn dé có thể tận dụng các lợi thế từ thông tin trong mạng xã hội Do vậy, phương pháp tư
van dựa vào mang xã hội ngày càng trở nên phố biến hơn.
2.2 Các phương pháp tiếp cận của hệ tư vấn xã hội2.2.1 Phương pháp tư van xã hội dựa vào bộ nhớ
Trang 16Hệ tư vẫn xã hội dựa vào bộ nhớ su dụng mô hình CF
dựa vào bộ nhớ, đặc biệt là các phương pháp hướng người dùng.
Một xếp hạng thiếu của một người dùng nhất định sẽ được tổng
hợp tir các xếp hang của những người dùng tương quan (N*) với người dùng đó Với một người dùng cụ thể, phương pháp hướng người dùng truyền thống sử dụng người dùng tương tự, trong
khi hệ tư vẫn xã hội dựa vào bộ nhớ sử dụng N* người dùng
tương quan thu được từ cả thông tin xếp hạng và thông tin xã
hội Hệ tư van xã hội trong phương pháp nay thường hoạt động
theo hai bước Đầu tiên là tìm ra N*(i) người dùng tương quan đối với người dùng u;, sau đó là thực hiện bước cuối cùng trong phương pháp CF dựa vào bộ nhớ truyền thống — tổng hợp các xếp hạng từ những người dùng tương quan thu được từ bước
trước dé đưa ra xếp hạng cần thiết cho người dùng 1; Có nhiều
cách tiếp cận dé tìm kiếm N* người dùng tương quan, chăng han như: TidalTrust, MoleTrust, TrustWalker sẽ được đề cập chi
tiết hon trong những phan sau.
2.2.2 Phương pháp tư vấn xã hội dựa vào mô hình
2.3 Phương pháp TidalTrust
TidalTrust là thuật toán tìm kiếm theo chiều rộng (BFS) được sửa đổi Xếp hạng tin cậy của source (người dùng nguồn) đối với sink (người dùng khác trong hệ thống) (tsource,sink) là
Trang 17trung bình trọng số của các xếp hạng đối với sink của những láng giềng của source (xem (2.1)) Thuật toán tìm kiếm sẽ được bat đầu từ nút nguồn Nó sẽ thăm dò ý kiến của mỗi nút láng giéng dé có được xếp hạng của mỗi nút đối với sink Nếu một nút láng giềng có một đánh giá trực tiếp đối với sink, giá trị sẽ được trả về Nếu một nút láng giéng không có đánh giá trực tiếp đối với sink, nó sẽ truy van tat cả láng giéng của nó, lay trung bình trọng
SỐ các xếp hạng (như trong công thức (2.1)) và trả lại kết quả.
Mỗi nút láng giéng sẽ lặp đi lặp lại quá trình này, quan
sát độ sâu hiện tại từ nút nguồn Mỗi nút cũng sẽ quan sát trọng
số của đường dẫn đến nó, được tính bằng giá trị nhỏ nhất của xếp hạng của người dùng nguồn đối với nút và xếp hạng của nút với các láng giềng của nó Các nút láng giềng ghi lại đường dẫn có trọng số tối đa dẫn đến nó Khi một đường dẫn được tìm thay từ source đến sink, độ sâu sẽ bang độ sâu tối đa cho phép Đối với tìm kiếm theo chiều rộng (BFS), đường dẫn đầu tiên được tìm thấy sẽ có độ sâu nhỏ nhất Việc tìm kiếm sẽ tiếp tục dé tìm bất kỳ đường dẫn nào khác có độ sâu nhỏ nhất Khi quá trình tìm
kiếm hoàn tất, ngưỡng tin cậy (tối đa) được thiết lập băng cách