1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ tư vấn cộng tác trong mạng xã hội dựa vào độ tương quan

27 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ tư vấn cộng tác trong mạng xã hội dựa vào độ tương quan
Tác giả Văn Thị Thu Trang
Người hướng dẫn TS. Nguyễn Duy Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 27
Dung lượng 4,84 MB

Nội dung

Phương pháp tư vấnnội dung được thực hiện dựa trên biểu diễn đặc trưng thông tincủa các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sảnphẩm phù hợp với những sản phẩm người dùng đã

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

VĂN THỊ THU TRANG

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

TOM TAT LUẬN VAN THẠC SĨ

HÀ NỘI - 2014

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN

Có thê tìm hiệu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn

thông

Trang 3

MỞ ĐẦU

Với sự gia tăng chưa từng thấy của lượng thông tin trênInternet hiện nay làm cho vấn dé quá tải thông tin trở nên tram

trọng đối với người dùng các dịch vụ trực tuyến Ví dụ khi ta

muốn mua một chiếc máy tính và tìm từ khóa “computer” trên

Amazone, ta nhận được trên 11 triệu sản phẩm khác nhau Điềunày khiến người dùng gặp rất nhiều khó khăn khi thực hiện các

giao dịch thương mại điện tử Chính vì vậy, việc xây dựng một công cụ trợ g1úp người dùng lựa chọn được thông tin phù hợp là

hết sức cần thiết cho cả người dùng và các nhà cung cấp thông

tin.

Hệ tư vấn ra đời hướng đến việc giảm tải thông tin chomỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp

và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.

Đối với người dùng, hệ tư van tự động trợ giúp lựa chọn thông

tin phù hợp trong vô số thông tin không phù hợp Đối với các

nhà cung cấp thông tin, hệ tư van không chi trợ giúp việc xácđịnh những loại thông tin nào cần cung cấp cho mỗi người dùngđơn lẻ mà còn nó còn là nhân tố nâng cao hiệu quả và chất lượngdịch vụ cung cấp thông tin Hiện tại, nhiều hệ thống thương mại

điện tử đã được gặt hái được thành công to lớn dựa vào hệ tư

vẫn, ví dụ Amazon, E-Bay, Netflix

Trang 4

Các hệ tư vấn trước đây được tiếp cận theo ba phươngpháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấnkết hợp (còn được gọi là phương pháp lại) Phương pháp tư vấnnội dung được thực hiện dựa trên biểu diễn đặc trưng thông tincủa các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sảnphẩm phù hợp với những sản phẩm người dùng đã từng sử dụng

trong quá khứ Trái lại, tư vấn cộng tác được thực hiện dựa trên

đánh giá của cộng đồng người dùng có cùng chung sở thích để

dự đoán những sản phẩm mới cho người dùng cần được tư van

Tư vấn kết hợp khai thác thế mạnh riêng của cả hai phương pháp

tư van cộng tác và tư van nội dung dé thực hiện dự đoán Mặc

dù đã gặt hái được nhiều thành công trong triển khai các ứng

dụng thương mại điện tử, tuy vậy các phương pháp tiếp cận nêu

trên chứa đựng nhiều van dé cần tiếp tục nghiên cứu: van đề tríchchọn đặc trưng của lọc nội dung, vấn đề người dùng mới, sảnphẩm mới, vẫn đề dữ liệu thưa của lọc cộng tác

Sự ra đời các mạng xã hội làm thay đổi phương thức trao

đổi thông tin của cộng đồng người dùng Mỗi người dùng trong

mạng không còn độc lập với những người dùng khác mà họ bị

phụ thuộc và ảnh hưởng bởi các mối quan hệ xã hội như gia đình,

bạn bè, đồng nghiệp Người dùng trong mạng xã hội tự do chia

sẻ và bày tỏ quan điểm, ý tưởng, và đánh giá của mình tất cả các

vân dé với cộng đông các quan hệ khác nhau Sự tương tác của

Trang 5

người dùng với các mối quan hệ xã hội tạo nên nguồn tài nguyênthông tin to lớn độc lập với nguồn tài nguyên sẵn có của các hệ

tư vấn trước đây Chính vì vậy, nếu xem xét ngữ cảnh của hệ tư

van được nhúng trong môi trường mạng xã hội thì các mỗi quan

hệ xã hội cũng phải được xem xét đến trong quá trình dự đoán

Tích hợp các mối quan hệ xã hội vào hệ tư vấn không chỉ cải

thiện đáng ké chất lượng dự đoán mà còn giải quyết hiệu qua

van đề người dùng mới, sản phẩm mới, đữ liệu thưa của các cáchtiếp cận trước đây Với những lý do nêu trên, em lựa chọn đề tài

“Hệ tu vấn cộng tác trong mạng xã hội dựa vào độ tương quan”

dé thực hiện trong khuôn khổ luận văn thạc sĩ ngành khoa họcmáy tính với mục tiêu, phạm vi và phương pháp cụ thể như dưới

đây.

Luận văn gồm 3 chương chính với các nội dung sau:

Chương 1 — Phương pháp tiếp cận kinh điển của hệ

tư vấn

Nội dung chương 1 là trình bày về các phương pháp tư

vẫn truyền thống (tư vấn theo nội dung, lọc cộng tác, phương

pháp lai) làm cơ sở nền tang lý thuyết

Chương 2 — Phương pháp tư vấn xã hội dựa vào bộ

nhớ

Nội dung chương 2 là trình bày về phương pháp tư vẫn

cộng tác trong mạng xã hội dựa vào độ tương quan.

Trang 6

Chương 3 — Thử nghiệm và đánh giá

Nội dung chương 3 là trình bày về phương pháp thử

nghiệm, so sánh giữa phương pháp tư vấn truyền thống và

phương pháp tư van xã hội, từ đó đánh giá kết qua

Trang 7

CHUONG 1 - PHƯƠNG PHÁP TIẾP CAN KINH

DIEN CUA HỆ TƯ VAN

1.1 Phat biéu bai toan tu van

Hệ tu van ra đời hướng đến việc giảm tải thông tin cho

mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp

và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.

Các hệ tư vấn trước đây được tiếp cận theo ba phương phápchính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết

hợp (còn được gọi là phương pháp lai) Thông thường trong một

hệ tư van ta có một tập người dùng và một tập sản phẩm I.Mỗi người dùng u sé đưa ra các đánh giá cho một tập sản phẩm{ú¡, Í„} Những đánh giá của người dùng đối với từng sảnphẩm được biểu diễn thông qua ma trận đánh giá R = [ujiÌNxM-

Trong ma trận này 7„¡ là đánh giá của người dùng u đối với sản

phẩm i, Tụ,¡ CÓ thé là bat kì số thực nao, nhưng thông thường cácđánh giá sẽ là số nguyên nằm trong khoảng [1,5] Nhiệm vụ của

hệ tư vấn là dự đoán đánh giá của người dùng wu cho sản phẩm i(là sản phẩm mà người dùng wu chưa từng sử dụng) hoặc tư vantop-N sản phẩm có giá trị đánh giá cao nhất (được tính toán dựavào những đánh giá đã biết)

1.2 Phương pháp tư vẫn theo nội dung

1.2.1 Bài toán tw van theo nội dung

Trang 8

Bài toán tư vấn theo nội dung được phát biểu như sau:

cho P = {Ø,p;, ,p„} là tập gồm sản phẩm Nội dung san

pham p € P được ký hiệu là Content(p) được biểu diễn thôngqua tập K đặc trưng nội dung của P Tập các đặc trưng sản phẩm

p được xây dựng bằng các kỹ thuật truy van thông tin dé thựchiện mục đích dự đoán những sản phẩm tương tự với p

Cho U = {u,uạ, , Uy} là tập gồm M người dùng Với

mỗi người dùng u € U, gọi ContentBasedProfile(u) là hồ sơ

người dùng u Hồ sơ của người dùng thực chat là lịch sử truy

cập hoặc đánh giá của người đó đối với các sản phẩm.ContentBasedProfile(u) được xây dựng bang cách phân tích nội

dung các sản phẩm mà người dùng u đã từng truy nhập hoặc

đánh giá dựa trên các kỹ thuật truy vấn thông tin

1.2.2 Các phương pháp tư vẫn theo nội dung

Tư vấn theo nội dung (hay lọc theo nội dung) được tiếp

cận theo hai xu hướng: lọc dựa trên bộ nhớ và lọc dựa trên mô

Trang 9

Bước 1: So sánh người dùng mục tiêu (người dung dang

cần được tư vấn) với tất cả những người dùng khác trong hệ

thống và tính toán độ tương tự giữa mỗi cặp người dùng

Bước 2: Dự đoán xếp hạng của người dùng mục tiêu chomỗi sản phẩm mà họ chưa từng đánh giá P, j biéu dién gia trisan pham được dự đoán ¡; Gia tri dự đoán nay thuộc trong mộtkhoảng nhất định, chang han tir 1 dén 5 nhu trong tap dữ liệu

MovieLens.

Bước 3: Dua ra danh sách N sản phẩm mà người dùng

yêu thích nhất Danh sách được đưa ra tư vấn này phải chứa

những sản phẩm mà người dùng chưa mua hoặc chưa đưa ra

đánh giá.

1.3.2 Các phương pháp lọc cộng tác

1.3.2.1 Lọc cộng tác dựa vào bộ nhớ

1.3.2.1.a Lọc cộng tác dựa vào người dùng

Ki thuật lọc cộng tác dựa vào người dùng được thực hiện

thông qua các bước:

Bước 1 - Biểu diễn dữ liệu: Chuyển danh sách ngườidùng và các đánh giá của họ về các sản phẩm thành ma trận

người dùng — sản phâm.

Trang 10

Bước 2 — Tìm tập k láng giéng của người dùng dangcần tư van: Lựa chọn tập k người dùng gần nhất với người dùngđang cần tư vấn theo công thức:

S,,(uj) = {ua„|rank W(Uj,Ug) Sk, Xam # 0} (1.1)

Bước 3 — Tính toán dự đoán và tư vân: Tính tông trọng

sô các đánh giá của các láng giêng đê tạo ra dự đoán cho người dùng cân tư vân theo công thức:

int Wau Twi ~ Tụ) (1.2)

ng WauPai = Ta +

1.3.2.1.b Loc cộng tác dựa vào san phẩm

Thuật toán lọc cộng tác dựa vào sản phẩm gồm hai bước:

Bước 1 — Tính độ tương tự giữa các sản phẩm: khác

với trường hợp lọc dựa vào người dùng, độ tương tự trong thuật

toán này được tính theo các cột của ma trận trọng SỐ

Bước 2 — Tính toán dự đoán: có các cách tính như sau:

a Tổng trọng số: theo công thức:

_ Mall similar items,N(S¡,N * Run)

Pui = (1.4)

Mall similar items,n(|Sin )

b Hồi quy: Ý tưởng co ban là sử dung công thức tương

tự với kỹ thuật tổng trọng số, nhưng thay vì sử dụngcác giá trị xếp hạng “thô” ly của N sản phẩm tương

Trang 11

tự, mô hình này sử dụng giá trị xấp xỉ R' dựa trên

mô hình hồi quy tuyến tính

1.3.2.2 Lọc cộng tac dựa vào mô hình

1.3.2.2.a Thuật toán CF Bayes đơn giản

1.3.2.2.b Các thuật toán CF phân cụm

1.4 Phương pháp tư vấn lai

Có các cách sau dé kết hợp phương pháp tư van theo nộidung và lọc cộng tác:

Kết hợp nhiều tư vấn: Đề kết hợp tư vấn của hai phương

pháp trên có thê sử dụng lược đồ biéu quyết hoặc sử dụng cáchkết hợp tuyến tính các đánh giá

Thêm các đặc điểm dựa vào nội dung vào mô hình lọccộng tác: Cách kết hợp nay có thể giúp khắc phục van dé thưa

thớt dữ liệu của phương pháp lọc cộng tác.

Bồ sung các tính chat của tư van lọc cộng tác vào mô

hình dựa vào nội dung: phương pháp pho biến nhất là sử dụng

kỹ thuật biến đổi trên ma trận nội dung

1.5 Một số hạn chế của các phương pháp tư vấn

e Vấn đề trích chọn đặc trưng: Đề có một tập các đặctrưng day đủ, nội dung tài liệu phải được biéu diễn dưới dạng

phù hợp dé máy tính có thé tự động phân tích, tính toán trọng

số các đặc trưng nội dung hoặc phải được thực hiện bán tự

Trang 12

động Phương pháp sẽ khó áp dụng trong những trường hợp

việc trích chọn nội dung phức tạp, chắng hạn trích chọn đặctrưng nội dung các đối tượng dit liêu đa phương tiện (hình

ảnh, âm thanh, dịch vụ).

e Van dé người dùng mới: Các hệ thống lọc theo nội

dung chỉ thực hiện hiệu quả khi có đủ dữ liệu, tức là người

dùng phải đánh giá hoặc truy nhập một số lượng sản phẩm

đủ lớn.

e Vấn đề dữ liệu thưa: Trong thực tế, số lượng sản

pham mà một người dùng có thê đánh giá lại rat hạn chế Dovậy ma trận người dùng — sản pham có thé sẽ rất thưa thớt,

dẫn đến hiệu quả của các dự đoán hay tư van có thé bị giảm

bớt.

e Van đề sản phẩm mới: Khi một sản phẩm mới đượcnhập vào hệ thống, thì sản phẩm đó chưa được người dùngbiết đến, và cũng chưa được bất kì người dùng nào đánh giá

Hệ tư van sử dụng kỹ thuật lọc cộng tác dựa vào các đánh

giá của người dùng với các sản pham dé đưa ra dự đoán hay

tư van Do vậy với các sản phẩm mới chưa được đánh giá thì

sẽ rât khó đê tính toán độ tương tự nhăm đưa ra tư vân.

Trang 13

1.6 Kết luận

Chương này đưa ra cái nhìn tổng quan về các phươngpháp tư van được áp dụng trong các hệ thống tư van lựa chon délàm cơ sở nền tang lý thuyết Đồng thời cũng trình bay một sốcách tiếp cận đã được nghiên cứu cho từng phương pháp, cácvan dé còn tồn tại của các phương pháp tư vấn Trong chươngtiếp theo của luận văn sẽ giới thiệu về phương pháp tư vẫn xãhội dựa vào bộ nhớ dé đưa ra giải pháp nhằm giảm bớt nhữnghạn chế của các phương pháp tư vấn hiện tại

Trang 14

CHUONG 2 - PHƯƠNG PHÁP TƯ VAN XÃ HỘI

DỰA VÀO BO NHỚ

2.1 Phát biểu bài toán tư vấn xã hội

Hệ tư vấn truyền thống không đi sâu vào xem xét các mốiquan hệ xã hội giữa người dùng, nhưng tầm quan trọng của sựảnh hưởng xã hội trong tiếp thị sản phẩm thì đã được công nhận

từ lâu Có thể thấy rằng, khi chúng ta muốn tìm hiểu một sản

phẩm mà mình chưa từng mua bao giờ thì chúng ta thường tham

khảo ý kiến của bạn bè, đặc biệt là những người đã có kinhnghiệm mua bán va sử dụng sản phẩm đó và họ có thé ngay lậptức đưa ra tư vẫn hợp lý cho chúng ta Khi bạn bè giới thiệu mộtsản phẩm cho chúng ta, chúng ta cũng có xu hướng chấp nhậnlời đề nghị đó bởi vì lựa chon của họ là dang tin cậy Nhiều chiếnlược tiếp thị đã đánh vào tâm lý chung này của người dùng vàđạt được thành công lớn Một ví dụ điển hình là dịch vụ email

miễn phí của Hotmail Chiến lược tiếp thị của Hotmail là đính

kèm tin nhắn khuyến mại ở dưới cùng của mỗi email gửi đi.Những người nhận được email sẽ đăng ký dịch vụ và sau đó tiếptục lan truyền tin khuyến mại này Kết qua là, số lượng tài khoảncủa Hotmail đã tăng từ 0 lên đến 12 triệu người dùng trong vòng

18 tháng mà chỉ mắt 500,000$ chi phí quảng cáo Từ đó có thể

Trang 15

thấy, ảnh hưởng xã hội đóng vai trò quan trọng đối với việc đưa

ra quyết định sử dụng sản phẩm của người dùng

Ngoài ra, về mặt lý thuyết, việc tích hợp các mạng xã hội

có thể cải thiện hiệu suất của hệ thống tư van hiện tại Đầu tiên,xét về độ chính xác của việc dự đoán, thông tin thu được từ mạng

xã hội về người dùng và bạn bè của họ g1úp cải thiện sự hiểu biết

về hành vi và những đánh giá của người dùng Từ đó giúp mô

hình hóa và giải thích sở thích của người dùng một cách chính

xác hơn, cải thiện độ chính xác của các dự đoán Hai là, với

thông tin bạn bè trong mạng xã hội, ta không cần phải tìm ngườidùng tương tự băng cách đo độ tương tự giữa các đánh giá củatập người dùng nữa, bởi vì thực tế cho thấy răng, hai người là

bạn bè thì thường họ sẽ có điểm chung Như vậy, van dé thưa

thớt dữ liệu có thé được giảm nhẹ Cuối cùng, đối với van đề

cold-start, ngay cả khi người dùng chưa từng có đánh giá trong

quá khứ, hệ tư vấn vẫn có thể đưa ra khuyến nghị cho ngườidùng dựa trên sở thích của bạn bè họ nếu hệ thống được tích hợpvới mạng xã hội Tất cả những điều trên dẫn đến việc cần phải

thiết kế một mô hình mới của hệ tư vẫn dé có thể tận dụng cáclợi thế từ thông tin trong mạng xã hội Do vậy, phương pháp tư

van dựa vào mang xã hội ngày càng trở nên phố biến hơn

2.2 Các phương pháp tiếp cận của hệ tư vấn xã hội

2.2.1 Phương pháp tư van xã hội dựa vào bộ nhớ

Trang 16

Hệ tư vẫn xã hội dựa vào bộ nhớ su dụng mô hình CF

dựa vào bộ nhớ, đặc biệt là các phương pháp hướng người dùng.

Một xếp hạng thiếu của một người dùng nhất định sẽ được tổng

hợp tir các xếp hang của những người dùng tương quan (N*) vớingười dùng đó Với một người dùng cụ thể, phương pháp hướngngười dùng truyền thống sử dụng người dùng tương tự, trong

khi hệ tư vẫn xã hội dựa vào bộ nhớ sử dụng N* người dùng

tương quan thu được từ cả thông tin xếp hạng và thông tin xã

hội Hệ tư van xã hội trong phương pháp nay thường hoạt động

theo hai bước Đầu tiên là tìm ra N*(i) người dùng tương quanđối với người dùng u;, sau đó là thực hiện bước cuối cùng trongphương pháp CF dựa vào bộ nhớ truyền thống — tổng hợp cácxếp hạng từ những người dùng tương quan thu được từ bước

trước dé đưa ra xếp hạng cần thiết cho người dùng 1; Có nhiều

cách tiếp cận dé tìm kiếm N* người dùng tương quan, chăng hannhư: TidalTrust, MoleTrust, TrustWalker sẽ được đề cập chi

tiết hon trong những phan sau

2.2.2 Phương pháp tư vấn xã hội dựa vào mô hình

2.3 Phương pháp TidalTrust

TidalTrust là thuật toán tìm kiếm theo chiều rộng (BFS)được sửa đổi Xếp hạng tin cậy của source (người dùng nguồn)đối với sink (người dùng khác trong hệ thống) (tsource,sink) là

Trang 17

trung bình trọng số của các xếp hạng đối với sink của những lánggiềng của source (xem (2.1)) Thuật toán tìm kiếm sẽ được batđầu từ nút nguồn Nó sẽ thăm dò ý kiến của mỗi nút láng giéng

dé có được xếp hạng của mỗi nút đối với sink Nếu một nút lánggiềng có một đánh giá trực tiếp đối với sink, giá trị sẽ được trả

về Nếu một nút láng giéng không có đánh giá trực tiếp đối vớisink, nó sẽ truy van tat cả láng giéng của nó, lay trung bình trọng

SỐ các xếp hạng (như trong công thức (2.1)) và trả lại kết quả

Mỗi nút láng giéng sẽ lặp đi lặp lại quá trình này, quan

sát độ sâu hiện tại từ nút nguồn Mỗi nút cũng sẽ quan sát trọng

số của đường dẫn đến nó, được tính bằng giá trị nhỏ nhất củaxếp hạng của người dùng nguồn đối với nút và xếp hạng của nútvới các láng giềng của nó Các nút láng giềng ghi lại đường dẫn

có trọng số tối đa dẫn đến nó Khi một đường dẫn được tìm thay

từ source đến sink, độ sâu sẽ bang độ sâu tối đa cho phép Đốivới tìm kiếm theo chiều rộng (BFS), đường dẫn đầu tiên đượctìm thấy sẽ có độ sâu nhỏ nhất Việc tìm kiếm sẽ tiếp tục dé tìmbất kỳ đường dẫn nào khác có độ sâu nhỏ nhất Khi quá trình tìm

kiếm hoàn tất, ngưỡng tin cậy (tối đa) được thiết lập băng cách

Ngày đăng: 04/04/2024, 09:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN