1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ tư vấn cộng tác trong mạng xã hội dựa vào độ tương quan

27 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 4,84 MB

Nội dung

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

VĂN THỊ THU TRANG

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

TOM TAT LUẬN VAN THẠC SĨ

HÀ NỘI - 2014

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN

Có thê tìm hiệu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn

thông

Trang 3

MỞ ĐẦU

Với sự gia tăng chưa từng thấy của lượng thông tin trên Internet hiện nay làm cho vấn dé quá tải thông tin trở nên tram

trọng đối với người dùng các dịch vụ trực tuyến Ví dụ khi ta

muốn mua một chiếc máy tính và tìm từ khóa “computer” trên

Amazone, ta nhận được trên 11 triệu sản phẩm khác nhau Điều này khiến người dùng gặp rất nhiều khó khăn khi thực hiện các

giao dịch thương mại điện tử Chính vì vậy, việc xây dựng mộtcông cụ trợ g1úp người dùng lựa chọn được thông tin phù hợp là

hết sức cần thiết cho cả người dùng và các nhà cung cấp thông

Hệ tư vấn ra đời hướng đến việc giảm tải thông tin cho mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp

và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.

Đối với người dùng, hệ tư van tự động trợ giúp lựa chọn thông

tin phù hợp trong vô số thông tin không phù hợp Đối với các

nhà cung cấp thông tin, hệ tư van không chi trợ giúp việc xác định những loại thông tin nào cần cung cấp cho mỗi người dùng đơn lẻ mà còn nó còn là nhân tố nâng cao hiệu quả và chất lượng dịch vụ cung cấp thông tin Hiện tại, nhiều hệ thống thương mại

điện tử đã được gặt hái được thành công to lớn dựa vào hệ tư

vẫn, ví dụ Amazon, E-Bay, Netflix

Trang 4

Các hệ tư vấn trước đây được tiếp cận theo ba phương pháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết hợp (còn được gọi là phương pháp lại) Phương pháp tư vấn nội dung được thực hiện dựa trên biểu diễn đặc trưng thông tin của các loại hàng hóa hoặc dịch` vụ dé từ đó tìm ra những sản phẩm phù hợp với những sản phẩm người dùng đã từng sử dụng

trong quá khứ Trái lại, tư vấn cộng tác được thực hiện dựa trên

đánh giá của cộng đồng người dùng có cùng chung sở thích để

dự đoán những sản phẩm mới cho người dùng cần được tư van.

Tư vấn kết hợp khai thác thế mạnh riêng của cả hai phương pháp tư van cộng tác và tư van nội dung dé thực hiện dự đoán Mặc dù đã gặt hái được nhiều thành công trong triển khai các ứng

dụng thương mại điện tử, tuy vậy các phương pháp tiếp cận nêu

trên chứa đựng nhiều van dé cần tiếp tục nghiên cứu: van đề trích chọn đặc trưng của lọc nội dung, vấn đề người dùng mới, sản phẩm mới, vẫn đề dữ liệu thưa của lọc cộng tác.

Sự ra đời các mạng xã hội làm thay đổi phương thức trao

đổi thông tin của cộng đồng người dùng Mỗi người dùng trong

mạng không còn độc lập với những người dùng khác mà họ bị

phụ thuộc và ảnh hưởng bởi các mối quan hệ xã hội như gia đình,

bạn bè, đồng nghiệp Người dùng trong mạng xã hội tự do chia

sẻ và bày tỏ quan điểm, ý tưởng, và đánh giá của mình tất cả các

vân dé với cộng đông các quan hệ khác nhau Sự tương tác của

Trang 5

người dùng với các mối quan hệ xã hội tạo nên nguồn tài nguyên thông tin to lớn độc lập với nguồn tài nguyên sẵn có của các hệ tư vấn trước đây Chính vì vậy, nếu xem xét ngữ cảnh của hệ tư

van được nhúng trong môi trường mạng xã hội thì các mỗi quan hệ xã hội cũng phải được xem xét đến trong quá trình dự đoán.

Tích hợp các mối quan hệ xã hội vào hệ tư vấn không chỉ cải

thiện đáng ké chất lượng dự đoán mà còn giải quyết hiệu qua

van đề người dùng mới, sản phẩm mới, đữ liệu thưa của các cách tiếp cận trước đây Với những lý do nêu trên, em lựa chọn đề tài “Hệ tu vấn cộng tác trong mạng xã hội dựa vào độ tương quan” dé thực hiện trong khuôn khổ luận văn thạc sĩ ngành khoa học máy tính với mục tiêu, phạm vi và phương pháp cụ thể như dưới

Luận văn gồm 3 chương chính với các nội dung sau:

Chương 1 — Phương pháp tiếp cận kinh điển của hệ tư vấn

Nội dung chương 1 là trình bày về các phương pháp tư

vẫn truyền thống (tư vấn theo nội dung, lọc cộng tác, phương

pháp lai) làm cơ sở nền tang lý thuyết.

Chương 2 — Phương pháp tư vấn xã hội dựa vào bộ

Nội dung chương 2 là trình bày về phương pháp tư vẫn

cộng tác trong mạng xã hội dựa vào độ tương quan.

Trang 6

Chương 3 — Thử nghiệm và đánh giá

Nội dung chương 3 là trình bày về phương pháp thử

nghiệm, so sánh giữa phương pháp tư vấn truyền thống và

phương pháp tư van xã hội, từ đó đánh giá kết qua.

Trang 7

CHUONG 1 - PHƯƠNG PHÁP TIẾP CAN KINH

DIEN CUA HỆ TƯ VAN

1.1 Phat biéu bai toan tu van

Hệ tu van ra đời hướng đến việc giảm tải thông tin cho

mỗi người dùng bằng cách đưa ra những gợi ý thông tin phù hợp

và gỡ bỏ những thông tin không phù hợp cho mỗi người dùng.

Các hệ tư vấn trước đây được tiếp cận theo ba phương pháp chính: tư vấn dựa vào nội dung, tư vấn cộng tác và tư vấn kết

hợp (còn được gọi là phương pháp lai) Thông thường trong một

hệ tư van ta có một tập người dùng và một tập sản phẩm I Mỗi người dùng u sé đưa ra các đánh giá cho một tập sản phẩm

{ú¡, Í„} Những đánh giá của người dùng đối với từng sản phẩm được biểu diễn thông qua ma trận đánh giá R =

[ujiÌNxM-Trong ma trận này 7„¡ là đánh giá của người dùng u đối với sản

phẩm i, Tụ,¡ CÓ thé là bat kì số thực nao, nhưng thông thường các đánh giá sẽ là số nguyên nằm trong khoảng [1,5] Nhiệm vụ của hệ tư vấn là dự đoán đánh giá của người dùng wu cho sản phẩm i (là sản phẩm mà người dùng wu chưa từng sử dụng) hoặc tư van top-N sản phẩm có giá trị đánh giá cao nhất (được tính toán dựa vào những đánh giá đã biết).

1.2 Phương pháp tư vẫn theo nội dung1.2.1 Bài toán tw van theo nội dung

Trang 8

Bài toán tư vấn theo nội dung được phát biểu như sau:

cho P = {Ø,p;, ,p„} là tập gồm sản phẩm Nội dung san

pham p € P được ký hiệu là Content(p) được biểu diễn thông qua tập K đặc trưng nội dung của P Tập các đặc trưng sản phẩm p được xây dựng bằng các kỹ thuật truy van thông tin dé thực

hiện mục đích dự đoán những sản phẩm tương tự với p.

Cho U = {u,uạ, , Uy} là tập gồm M người dùng Với

mỗi người dùng u € U, gọi ContentBasedProfile(u) là hồ sơ

người dùng u Hồ sơ của người dùng thực chat là lịch sử truy

cập hoặc đánh giá của người đó đối với các sản phẩm ContentBasedProfile(u) được xây dựng bang cách phân tích nội

dung các sản phẩm mà người dùng u đã từng truy nhập hoặc

đánh giá dựa trên các kỹ thuật truy vấn thông tin.

1.2.2 Các phương pháp tư vẫn theo nội dung

Tư vấn theo nội dung (hay lọc theo nội dung) được tiếp

cận theo hai xu hướng: lọc dựa trên bộ nhớ và lọc dựa trên mô

1.3 Phương pháp tư vẫn cộng tác

1.3.1 Bài toán lọc cộng tác

Gia sử có một người dùng 1„ yêu cầu được tư van, thuật toán lọc cộng tác chuẩn sẽ thực hiện theo 3 bước:

Trang 9

Bước 1: So sánh người dùng mục tiêu (người dung dang

cần được tư vấn) với tất cả những người dùng khác trong hệ

thống và tính toán độ tương tự giữa mỗi cặp người dùng.

Bước 2: Dự đoán xếp hạng của người dùng mục tiêu cho mỗi sản phẩm mà họ chưa từng đánh giá P, j biéu dién gia tri san pham được dự đoán ¡; Gia tri dự đoán nay thuộc trong một khoảng nhất định, chang han tir 1 dén 5 nhu trong tap dữ liệu

Bước 3: Dua ra danh sách N sản phẩm mà người dùng

yêu thích nhất Danh sách được đưa ra tư vấn này phải chứa

những sản phẩm mà người dùng chưa mua hoặc chưa đưa ra

đánh giá.

1.3.2 Các phương pháp lọc cộng tác

1.3.2.1 Lọc cộng tác dựa vào bộ nhớ

1.3.2.1.a Lọc cộng tác dựa vào người dùng

Ki thuật lọc cộng tác dựa vào người dùng được thực hiện

thông qua các bước:

Bước 1 - Biểu diễn dữ liệu: Chuyển danh sách người dùng và các đánh giá của họ về các sản phẩm thành ma trận

người dùng — sản phâm.

Trang 10

Bước 2 — Tìm tập k láng giéng của người dùng dang cần tư van: Lựa chọn tập k người dùng gần nhất với người dùng đang cần tư vấn theo công thức:

S,,(uj) = {ua„|rank W(Uj,Ug) Sk, Xam # 0} (1.1) Bước 3 — Tính toán dự đoán và tư vân: Tính tông trọng

sô các đánh giá của các láng giêng đê tạo ra dự đoán cho ngườidùng cân tư vân theo công thức:

int Wau Twi ~ Tụ) (1.2)

ng Wau Pai = Ta +

1.3.2.1.b Loc cộng tác dựa vào san phẩm

Thuật toán lọc cộng tác dựa vào sản phẩm gồm hai bước:

Bước 1 — Tính độ tương tự giữa các sản phẩm: khác

với trường hợp lọc dựa vào người dùng, độ tương tự trong thuật

toán này được tính theo các cột của ma trận trọng SỐ.

Bước 2 — Tính toán dự đoán: có các cách tính như sau:

a Tổng trọng số: theo công thức:

_ Mall similar items,N(S¡,N * Run)

Pui = (1.4)

Mall similar items,n(|Sin )

b Hồi quy: Ý tưởng co ban là sử dung công thức tương

tự với kỹ thuật tổng trọng số, nhưng thay vì sử dụng các giá trị xếp hạng “thô” ly của N sản phẩm tương

Trang 11

tự, mô hình này sử dụng giá trị xấp xỉ R' dựa trên

mô hình hồi quy tuyến tính.

1.3.2.2 Lọc cộng tac dựa vào mô hình

1.3.2.2.a Thuật toán CF Bayes đơn giản1.3.2.2.b Các thuật toán CF phân cụm

1.4 Phương pháp tư vấn lai

Có các cách sau dé kết hợp phương pháp tư van theo nội dung và lọc cộng tác:

Kết hợp nhiều tư vấn: Đề kết hợp tư vấn của hai phương

pháp trên có thê sử dụng lược đồ biéu quyết hoặc sử dụng cách kết hợp tuyến tính các đánh giá.

Thêm các đặc điểm dựa vào nội dung vào mô hình lọc cộng tác: Cách kết hợp nay có thể giúp khắc phục van dé thưa

thớt dữ liệu của phương pháp lọc cộng tác.

Bồ sung các tính chat của tư van lọc cộng tác vào mô

hình dựa vào nội dung: phương pháp pho biến nhất là sử dụng

kỹ thuật biến đổi trên ma trận nội dung.

1.5 Một số hạn chế của các phương pháp tư vấn

e Vấn đề trích chọn đặc trưng: Đề có một tập các đặc trưng day đủ, nội dung tài liệu phải được biéu diễn dưới dạng

phù hợp dé máy tính có thé tự động phân tích, tính toán trọng số các đặc trưng nội dung hoặc phải được thực hiện bán tự

Trang 12

động Phương pháp sẽ khó áp dụng trong những trường hợp

việc trích chọn nội dung phức tạp, chắng hạn trích chọn đặc trưng nội dung các đối tượng dit liêu đa phương tiện (hình

ảnh, âm thanh, dịch vụ).

e Van dé người dùng mới: Các hệ thống lọc theo nội

dung chỉ thực hiện hiệu quả khi có đủ dữ liệu, tức là người

dùng phải đánh giá hoặc truy nhập một số lượng sản phẩm

đủ lớn.

e Vấn đề dữ liệu thưa: Trong thực tế, số lượng sản

pham mà một người dùng có thê đánh giá lại rat hạn chế Do vậy ma trận người dùng — sản pham có thé sẽ rất thưa thớt,

dẫn đến hiệu quả của các dự đoán hay tư van có thé bị giảm

e Van đề sản phẩm mới: Khi một sản phẩm mới được nhập vào hệ thống, thì sản phẩm đó chưa được người dùng biết đến, và cũng chưa được bất kì người dùng nào đánh giá Hệ tư van sử dụng kỹ thuật lọc cộng tác dựa vào các đánh

giá của người dùng với các sản pham dé đưa ra dự đoán hay

tư van Do vậy với các sản phẩm mới chưa được đánh giá thì

sẽ rât khó đê tính toán độ tương tự nhăm đưa ra tư vân.

Trang 13

1.6 Kết luận

Chương này đưa ra cái nhìn tổng quan về các phương pháp tư van được áp dụng trong các hệ thống tư van lựa chon dé làm cơ sở nền tang lý thuyết Đồng thời cũng trình bay một số cách tiếp cận đã được nghiên cứu cho từng phương pháp, các van dé còn tồn tại của các phương pháp tư vấn Trong chương tiếp theo của luận văn sẽ giới thiệu về phương pháp tư vẫn xã hội dựa vào bộ nhớ dé đưa ra giải pháp nhằm giảm bớt những hạn chế của các phương pháp tư vấn hiện tại.

Trang 14

CHUONG 2 - PHƯƠNG PHÁP TƯ VAN XÃ HỘI DỰA VÀO BO NHỚ

2.1 Phát biểu bài toán tư vấn xã hội

Hệ tư vấn truyền thống không đi sâu vào xem xét các mối quan hệ xã hội giữa người dùng, nhưng tầm quan trọng của sự ảnh hưởng xã hội trong tiếp thị sản phẩm thì đã được công nhận từ lâu Có thể thấy rằng, khi chúng ta muốn tìm hiểu một sản

phẩm mà mình chưa từng mua bao giờ thì chúng ta thường tham

khảo ý kiến của bạn bè, đặc biệt là những người đã có kinh nghiệm mua bán va sử dụng sản phẩm đó và họ có thé ngay lập tức đưa ra tư vẫn hợp lý cho chúng ta Khi bạn bè giới thiệu một

sản phẩm cho chúng ta, chúng ta cũng có xu hướng chấp nhận lời đề nghị đó bởi vì lựa chon của họ là dang tin cậy Nhiều chiến lược tiếp thị đã đánh vào tâm lý chung này của người dùng và đạt được thành công lớn Một ví dụ điển hình là dịch vụ email

miễn phí của Hotmail Chiến lược tiếp thị của Hotmail là đính

kèm tin nhắn khuyến mại ở dưới cùng của mỗi email gửi đi Những người nhận được email sẽ đăng ký dịch vụ và sau đó tiếp

tục lan truyền tin khuyến mại này Kết qua là, số lượng tài khoản của Hotmail đã tăng từ 0 lên đến 12 triệu người dùng trong vòng 18 tháng mà chỉ mắt 500,000$ chi phí quảng cáo Từ đó có thể

Trang 15

thấy, ảnh hưởng xã hội đóng vai trò quan trọng đối với việc đưa ra quyết định sử dụng sản phẩm của người dùng.

Ngoài ra, về mặt lý thuyết, việc tích hợp các mạng xã hội có thể cải thiện hiệu suất của hệ thống tư van hiện tại Đầu tiên, xét về độ chính xác của việc dự đoán, thông tin thu được từ mạng xã hội về người dùng và bạn bè của họ g1úp cải thiện sự hiểu biết

về hành vi và những đánh giá của người dùng Từ đó giúp mô

hình hóa và giải thích sở thích của người dùng một cách chính

xác hơn, cải thiện độ chính xác của các dự đoán Hai là, với

thông tin bạn bè trong mạng xã hội, ta không cần phải tìm người dùng tương tự băng cách đo độ tương tự giữa các đánh giá của tập người dùng nữa, bởi vì thực tế cho thấy răng, hai người là

bạn bè thì thường họ sẽ có điểm chung Như vậy, van dé thưa

thớt dữ liệu có thé được giảm nhẹ Cuối cùng, đối với van đề

cold-start, ngay cả khi người dùng chưa từng có đánh giá trong

quá khứ, hệ tư vấn vẫn có thể đưa ra khuyến nghị cho người dùng dựa trên sở thích của bạn bè họ nếu hệ thống được tích hợp với mạng xã hội Tất cả những điều trên dẫn đến việc cần phải

thiết kế một mô hình mới của hệ tư vẫn dé có thể tận dụng các lợi thế từ thông tin trong mạng xã hội Do vậy, phương pháp tư

van dựa vào mang xã hội ngày càng trở nên phố biến hơn.

2.2 Các phương pháp tiếp cận của hệ tư vấn xã hội2.2.1 Phương pháp tư van xã hội dựa vào bộ nhớ

Trang 16

Hệ tư vẫn xã hội dựa vào bộ nhớ su dụng mô hình CF

dựa vào bộ nhớ, đặc biệt là các phương pháp hướng người dùng.

Một xếp hạng thiếu của một người dùng nhất định sẽ được tổng

hợp tir các xếp hang của những người dùng tương quan (N*) với người dùng đó Với một người dùng cụ thể, phương pháp hướng người dùng truyền thống sử dụng người dùng tương tự, trong

khi hệ tư vẫn xã hội dựa vào bộ nhớ sử dụng N* người dùng

tương quan thu được từ cả thông tin xếp hạng và thông tin xã

hội Hệ tư van xã hội trong phương pháp nay thường hoạt động

theo hai bước Đầu tiên là tìm ra N*(i) người dùng tương quan đối với người dùng u;, sau đó là thực hiện bước cuối cùng trong phương pháp CF dựa vào bộ nhớ truyền thống — tổng hợp các xếp hạng từ những người dùng tương quan thu được từ bước

trước dé đưa ra xếp hạng cần thiết cho người dùng 1; Có nhiều

cách tiếp cận dé tìm kiếm N* người dùng tương quan, chăng han như: TidalTrust, MoleTrust, TrustWalker sẽ được đề cập chi

tiết hon trong những phan sau.

2.2.2 Phương pháp tư vấn xã hội dựa vào mô hình

2.3 Phương pháp TidalTrust

TidalTrust là thuật toán tìm kiếm theo chiều rộng (BFS) được sửa đổi Xếp hạng tin cậy của source (người dùng nguồn) đối với sink (người dùng khác trong hệ thống) (tsource,sink) là

Trang 17

trung bình trọng số của các xếp hạng đối với sink của những láng giềng của source (xem (2.1)) Thuật toán tìm kiếm sẽ được bat đầu từ nút nguồn Nó sẽ thăm dò ý kiến của mỗi nút láng giéng dé có được xếp hạng của mỗi nút đối với sink Nếu một nút láng giềng có một đánh giá trực tiếp đối với sink, giá trị sẽ được trả về Nếu một nút láng giéng không có đánh giá trực tiếp đối với sink, nó sẽ truy van tat cả láng giéng của nó, lay trung bình trọng

SỐ các xếp hạng (như trong công thức (2.1)) và trả lại kết quả.

Mỗi nút láng giéng sẽ lặp đi lặp lại quá trình này, quan

sát độ sâu hiện tại từ nút nguồn Mỗi nút cũng sẽ quan sát trọng

số của đường dẫn đến nó, được tính bằng giá trị nhỏ nhất của xếp hạng của người dùng nguồn đối với nút và xếp hạng của nút với các láng giềng của nó Các nút láng giềng ghi lại đường dẫn có trọng số tối đa dẫn đến nó Khi một đường dẫn được tìm thay từ source đến sink, độ sâu sẽ bang độ sâu tối đa cho phép Đối với tìm kiếm theo chiều rộng (BFS), đường dẫn đầu tiên được tìm thấy sẽ có độ sâu nhỏ nhất Việc tìm kiếm sẽ tiếp tục dé tìm bất kỳ đường dẫn nào khác có độ sâu nhỏ nhất Khi quá trình tìm

kiếm hoàn tất, ngưỡng tin cậy (tối đa) được thiết lập băng cách

Ngày đăng: 04/04/2024, 09:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w