Phân cụm người dùng mạng xã hội dựa trên độ tin cậy

Luận văn chia làm 3 chương : Chương 1: Mô hình tin cậy trên mạng xã hội Chương này giới thiệu tổng quan về phân cụm dữ liệu, phân cụm dtr liệu dựa trên sựtương tự, phân cụm dữ liệu dựa t

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Người hướng dẫn khoa học:PGS.TS TRAN DINH QUE

Phản biện Ì: - 0Q Q0 222 nnn ĐH ng ng vn cv sa Phản biện Í: - Q0 Q2 020g ng ng ng kg kh ng sa

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công

nghệ Bưu chính Viễn Thông

Vào lúc: ĐIỜ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thu viện củaHọc viện Công nghệ Bưu chính Viễn Thông

Trang 3

MO DAU

Có hai tỷ người kết nối tới Internet, và nội dung do người dùng tao ra và tiêu thụ với tốc độ

ấn tượng YouTube báo cáo trong vòng 24h các video mới được tải lên trang web của họ

mỗi phút, và 2 ty video được xem mỗi ngay[2].

Với rất nhiều tương tác giữa người dùng và nội dung được tạo ra, câu hỏi đặt ra là ai

và những gì dé tin tưởng đã trở thành một thách thức ngày càng quan trọng trên web Trongnhững năm gần đây, một số nghiên cứu chỉ ra việc sử dụng kỹ thuật suy luận tin cậy sẽ giúpsuy luận độ tin cậy giữa những người dùng không liên kết trực tiếp với nhau trong mạng xã

hội [1], [4] Các ma trận tin cậy mới cho phép chúng ta dễ dàng phân cụm dựa trên sự tin

cậy Nghiên cứu đã chỉ ra rằng khi các cụm tin cậy được tích hợp vào bộ nhớ dựa trên các

thuật toán lọc cộng tác, dẫn đến những cải tiễn đáng ké về mặt thống kê ở độ chính xác [4]

Phân cụm dữ liệu là một phương pháp khai phá dữ liệu được các nhà nghiên cứu sử

dụng nhiều nhất Phân cụm dữ liệu là quá trình nhóm các đối tượng thành các cụm mà các

thành viên đều giống nhau ở một cách nào đó Các đối tượng được gom cụm sao cho mức

độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa cácđối tượng nam trong các cụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học

không giám sát - Học không thầy Ngày nay có rất nhiều các kỹ thuật phân cụm dựa trên sự

tương tự được sử dụng như các kỹ thuật phân cụm dựa trên khoảng cách, kích thước hay

người dùng có sở thích tương tự nhau [13], kỹ thuật phân cụm dựa trên độ tin cậy là một

kỹ thuật mới và đã có các nghiên cứu được ứng dụng trong thực tế nhằm nâng cao hiệu quảcủa các khuyến nghị [4]

Nhằm nghiên cứu về kỹ thuật phân cụm dựa trên độ tin cậy và so sánh với kỹ thuậtphân cụm dựa trên sự tương tự, tôi xin chọn đề tài nghiên cứu “Phân cụm người dùng

mạng xã hội dựa trên độ tin cậy”.

Bố cục luận vănNgoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục Bảng, Kết luận, Tài

liệu tham khảo Luận văn chia làm 3 chương :

Chương 1: Mô hình tin cậy trên mạng xã hội

Chương này giới thiệu tổng quan về phân cụm dữ liệu, phân cụm dtr liệu dựa trên sựtương tự, phân cụm dữ liệu dựa trên sự tin cậy, một số mô hình dựa trên sự tương tự, một số

mô hình dựa trên sự tin cậy và giới thiệu về mô hình suy luận tin cậy được sử dụng trong đồ

Z

an.

Trang 4

Chương 2: Phân cụm người dùng mạng xã hội

Chương này giới thiệu các độ đo tương tự, độ đo tin cậy dùng để phân cụm dữ liệu,các thuật toán dùng để suy luận tin cậy và phân cụm dữ liệu

Chương 3: Thử nghiệm và đánh giá kết quả

Tiến hành cài đặt các thuật toán: Phân cụm dựa trên sự tương tự, thuật toán suy luậntin cậy, phân cum dtr liệu độ tin cậy, so sánh hai phương pháp phân cum để đánh giá hiệu

quả của hai phương pháp.

Trang 5

CHUONG 1 MÔ HÌNH TIN CAY TREN MẠNG XÃ HOI

1.1 Một số khái niệm tin cậy

1.1.1 Định nghĩa tin cậy

Tin cậy là một mối quan hệ mà chúng ta đều quen thuộc, nhưng mà hiểm khi chúng

ta định nghĩa hoặc mô tả Chúng ta có thể định nghĩa tin cậy như sau: Một người tin tưởngngười khác nếu người đó sẵn sàng chấp nhận rủi ro dựa trên sự mong đợi của mình rănghành động của người được tin cậy sẽ dẫn đến một kết quả tích cực

1.1.2 Định nghĩa độ tin cậy

Đo độ tin cậy [1] là một công việc quan trọng nhưng khó khăn Moi người nhìn nhận

sự tin cậy khác nhau, và tin cậy cũng rất khó để định lượng hoặc giải thích Khi nghiên cứu

làm thế nào để đo lường tin cậy, chúng ta có thể chia thành hai phần: xu hướng của một

người để tin cậy, và quyết định tin cậy của một cá nhân đối với người khác

1.13 Các sắc thái của sự tin cậy

1.1.3.1 Phát triển sự tin tưởng

Niềm tin được hình thành giữa con người trong nhiều cách khác nhau Trong một kịch

bản chung dé xây dựng sự tin tưởng, một người phát triển sự tin tưởng trong một thời gian

thông qua một loạt các tương tác giúp người đó xây dựng nên một niềm tin và những ý địnhtốt của người khác, cuối cùng đến điểm mà người đó sẵn sàng chấp nhận rủi ro và hànhđộng trên niềm tin đã xây dựng

1.1.3.2 Bắt đối xứng

Đối với hai người tham gia vào một mối quan hệ, sự tin tưởng không nhất thiết phảigiống nhau trong cả hai hướng Bởi vì các cá nhân có kinh nghiệm khác nhau, nguồn gốc

tâm lý, và lịch sử, hai người có thê tin tưởng lẫn nhau ở các cấp độ khác nhau Ví dụ, cha

mẹ và con cái rõ ràng tin tưởng lẫn nhau một cách khác nhau Trẻ em phải có sự tin tưởng

gần như tuyệt đối cha mẹ của họ, trong khi cha me có thé hầu như không có sự tin tưởngvào con cái, đặc biệt là khi họ còn rất trẻ

1.1.3.3 Bối cảnh và thời gian

Ngoại trừ một vài trong số những mối quan hệ rất không đối xứng, như thê giữa cha

me và trẻ nhỏ, sự tin tưởng hiếm khi là tin tưởng tất cả những gì bao quanh Thay vào đó,

Trang 6

một người sẽ có xu hướng tin tưởng người khác về một tập hợp của sự vật, nhưng khôngphải về tất cả mọi thứ

Tuy nhiên, sự tin tưởng đôi khi có thé chuyển từ một bối cảnh này sang bối cảnh

khác Một người có thể xây dựng lòng tin ở một người đồng nghiệp là tin tưởng hoàn toàntrong bối cảnh làm việc, nhưng sau đó người đó có thé tin tưởng người đồng nghiệp đó cóthé giới thiệu một thợ sửa ống nước, ngay cả khi họ chưa bao giờ có một cuộc thảo luận về

hệ thống ống nước, sửa chữa tại nhà

Sự tin tưởng có thê thay đổi từ một bối cảnh này sang bối cảnh khác, nhưng ngay cả

trong một bối cảnh nhất định, nó có thé thay đổi theo thời gian

1.2.Bài toán phân cụm dé liệu

1.2.1 Phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm,

các mẫu dữ liệu quan trọng trong tập dữ liệu lớn dé từ đó cung cấp thông tin, tri thức cho

việc ra quyết định

Phân cụm có thé được coi là van đề học không giám sát quan trọng nhất; như vậy,

như mọi van đề khác của loại hình này, nó xử lý việc tìm kiếm một cấu trúc trong một bộ

sưu tập các dữ liệu không có nhãn Một định nghĩa lỏng lẻo của phân cụm có thé là "quátrình tổ chức các đối tượng thành các nhóm mà các thành viên đều giỗng nhau ở một cách

nào đó" Do đó, một cụm là một tập của các đối tượng "tương tu" và "không tương tự” với

các đối tượng thuộc các cụm khác

1.2.1.1 Bài toán phân cụm dữ liệu dựa trên sự tương tự

Hình 1.1 Ví dụ về phân cụm dữ liệu dựa trên sự tương tự

(Nguồn: [14])

Trang 7

Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã

cho; các tiêu chí “tương tự” dé phân cụm trong trường hop này là khoảng cách: hai hoặc

nhiều đối tượng thuộc nhóm của chúng được “đóng gói” theo một khoảng cách nhất định.Điều này được gọi là phân cụm dựa trên khoảng cách

1.2.1.2 Bài toán phân cụm dữ liệu dựa trên độ tin cậy

Sự tin cậy là một khía cạnh quan trọng của mối quan hệ giữa hai thực thể Tin tưởng

tạo cơ sở cho việc hình thành các liên minh (cộng đồng vững mạnh được hình thành bởi các

thực thé mà "tin tưởng" nhau); nó có thé được dùng dé xác định các nút có ảnh hưởng trongmột mạng lưới, nó quyết định làm thế nào thông tin sẽ chảy vào một mạng xã hội Điềungược lại cũng đúng: cộng đồng có thé tạo ra sự tin cậy lớn hơn giữa các thành viên; dòngchảy thông tin giữa các thành viên có thé tăng cường các mối quan hệ tin cậy giữa họ

Sự tin cậy là một thành phần quan trọng của sự tương tác xã hội của con người Do đó

mô hình tin cậy đóng một vai trò quan trọng trong việc phân tích mạng xã hội, với các ứng

dụng bao gồm cả tiếp thị lan truyền, lọc cộng tác, và bảo mật Mô hình tính toán tin cậy

cung cấp cái nhìn sâu sắc vào các mô hình truyền thông, luồng thông tin, và hành vi của các

mạng xã hội nằm dưới các ứng dụng này

Đồ án nghiên cứu việc phân cụm dựa trên tiêu chí “độ tin cậy ”của mạng xã hội,nhằm đánh giá và so sánh với phương pháp phân cụm dựa trên “độ tương tự ” là độ đo

khoảng cách

1.3 Một số mô hình phân cụm dựa trên sự tương tự

1.3.1 Phan cụm phân hoạch (Partitioning Methods)

Kết quả một quá trình phân nhóm phân hoạch là phân nhóm một tập dữ liệu thành

một số nhóm dữ liệu cho trước và mỗi nhóm không có chứa nhóm con nào bên trong nó.

1.3.2 Phân cụm phân cấp (Hierarchical Methods)

Kết quả của một quá trình phân nhóm phân cấp là một chuỗi các nhóm dữ liệu, trong

đó một số nhóm có thé chứa các lớp con bên trong Bắt đầu tat cả tập dữ liệu như một nhóm

rồi sau đó phân chia các nhóm nhỏ hơn trong bước kế tiếp, hoặc ban đầu mỗi điểm dữ liệu

được xem là một nhóm rồi ghép hai nhóm thành một nhóm dữ liệu trong bước kế tiếp.

1.3.3 Phân cum dựa trên mật độ (Density-Based Methods)

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên ham mật độ xác định, mật độ

là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cáchtiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng

dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác

Trang 8

định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng dé xác định các cum

dữ liệu có thé phát hiện ra các cụm dit liệu với hình thù bat kỳ

1.3.4 Phân cụm dựa trên lưới (Grid-Based Methods)

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấutrúc dữ liệu lưới để phân cụm, phương pháp nay chủ yếu tập trung áp dung cho lớp dit

liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành

cấu trúc dữ liệu lưới

1.3.5 Phân cụm dựa trên mô hình (Model-Based Clustering Methods)

Phương này cô gắng khám phá các phép xấp xi tốt của các tham số mô hình sao cho khớpvới dữ liệu một cách tốt nhất Chúng có thé sử dụng chiến lược phân cụm phân hoạch hoặcphân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu vàcách chúng hiệu chỉnh các mô hình này dé nhận dạng ra các phân hoạch

1.3.6 Phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)

Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp

nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toánnày cung cấp rất ít cách thức cho người dùng đề xác định các ràng buộc trong thế giới thực

cần phải được thỏa mãn trong quá trình phân cụm Dé phân cụm dữ liệu không gian hiệu

quả hơn, các nghiên cứu bổ sung cần được thực hiện dé cung cấp cho người dùng khả năngkết hợp các ràng buộc trong thuật toán phân cụm

1.4 Một số Mô hình tin cậy

1.4.1 Mô hình tin cậy trên mang xã hội

Sự tin cậy có thể được định lượng băng một giá tri từ một khoảng (a,b), trong đó(a<b) là số nguyên hoặc số thực Mức độ tin tưởng có thê đại diện bởi giá trị trong khoảng

này (xem trong hình 2) Sự tin cậy trong mô hình nay được đại diện bởi một giá tri trong

khoảng liên tục (0, 1) Giá trị 0 cho biết mất lòng tin hoàn toàn và giá tri 1 có nghĩa là tin

cậy mù quáng.

Trang 9

3 b

—>—®

Mắtlòng tin Mat - Lưỡng lự Tin Tin cậy mù

hoàn toàn lòng Mat : Tin cay quang

tin long cay caocao tin trung

trung binh

binh

Hình 1.2 Biểu diễn sự tin cậyPhan này biểu diễn mô hình tin cậy cá nhân và mô hình tin cậy trên các mang xã hội

và biểu diễn mối tin cậy xã hội với các khuyến nghị, biéu diễn các độ đo, đánh giá và tính

giá trị tin cậy trên toàn mạng.

1.4.2 Mô hình lan truyền thông tin dựa trên sự tin cậy trong mạng xã hội

Trong mô hình này chúng ta xem các mạng xã hội trực tuyến như đồ thị trọng số có hướngG(N,E,W), trong đó N là số của người dùng ở các mạng xã hội trực tuyến cạnh có hướng là

mối quan hệ cua hai người sử dụng, nếu có một cạnh A—>B trong đồ thị, khi đó người dùng

A là một trong những người tin tưởng người dùng B; và trọng số W là giá trị tin cậy của hai

người dùng.

1.4.2.1.Các thuật toán khai phá dữ liệu để sử dụng các thuộc tính nội bộ

Đầu tiên, quét tất cả các thông điệp lịch sử của người sử dụng, và đếm từng từ khóa

của tin nhắn, và có được tat cả các từ khóa mà đáp ứng ngưỡng hỗ trợ tối thiêu, min_sup, và

tat cả các từ khóa thực hiện 1-muc (1-item) tập phổ biến Li Và việc tìm thấy 2- item tập La

từ 1-item tập Li Các chi tiết của thuật toán diễn ra như sau:

Thuật toán Apriori:

Tìm bộ item phổ biến sử dụng một mức độ khôn ngoan lặp đi lặp lại phương pháptiếp cận dựa trên thế hệ ứng viên

Đầu vào:

D, tập hợp tat cả các thông điệp lịch sử của người sử dụng; min_sup, số ngưỡng hỗtrợ tối thiểu

Đầu ra:

L, bộ k-item thường xuyên của D, đó là các thuộc tính nội bộ của người sử dụng.

1.4.2.2 Các thuật toán phân loại người dùng trong mạng xã hội trực tuyến.

Trang 10

Thuật toán SCAN Sau khi khai phá các thuộc tính người dùng, nó rat dé dang dé

phân loại các người dùng trong mạng xã hội theo các thuộc tính người dùng.

Sử dụng thuật toán SCAN, chúng ta có thê phân loại tất cả người dùng vào một số

cụm Và bởi vì mỗi người dùng có nhiều hơn một thuộc tính, một người dùng có thể là

thành viên của các cụm khác nhau

1.4.2.3 Tính toán Tin cậy trong mạng xã hội trực tuyến

Theo các thuật toán phân nhóm người dùng trên, những người sử dụng mạng xã hội

trực tuyến được phân thành nhiều cụm khác nhau Có hai loại cho lan truyền thông tin trong

mạng xã hội trực tuyến Trong một cluster, các thông điệp được chuyền tiếp từ những người

dùng khác nhau; giữa các cụm, các thông điệp được truyền từ cụm này đến cụm khác

1.4.2.4 Quá trình lan truyền thông tin trong mạng xã hội trực tuyến

Trong mạng xã hội trực tuyến, tập N(A) là tập người dùng nhận các thông điệp từngười dùng A, TMsg(A) là số các thông điệp mà người dùng A phát ra, TMsg (A, B) là sốlượng thông điệp phát ra bởi người dùng A và chuyền tiếp bởi người dùng B Bây giờ giả sửngười dùng A phát ra một thông điệp, sử dụng các dữ liệu tiền xử lý thông điệp này đượcbiến thành vector riêng Msg, và sau đó tính toán xác suất thông điệp chuyền tiếp bằng cách

sử dụng các vector riêng của các thông điệp và các thuộc tính của người dùng.

Qua các bước Sau đó tính được tổng số người dùng mà nhận được thông điệp phát ra

bởi người dùng A trong toàn mạng xã hội trực tuyến

1.4.3 Mô hình suy luận tin cậy trên mạng xã hội

1.4.3.1 Tin cậy Xã hội

Thuật toán Tin cậy Xã hội (Caverlee et al., 2008) là một khung dựa trên danh tiếng cho tập

hợp tin cậy Thuật toán sử dụng một phương pháp đánh giá thông tin phản hồi liên quan khicập nhật giá tri tin cậy bằng cách sử dụng phiên bản động của giá trị tin cậy theo ba yếu t6:lich sử xếp hạng, đánh giá người dùng hiện tai va thích nghi với thay đổi Caverlee thửnghiệm kỹ thuật này trong tập dir liệu MySpace bang cách sử dụng năm triệu nút (ngườidùng) và mười chín triệu cạnh (mối quan hệ) Kết quả cho thấy thành công trong việc xác

định các nút nguy hiểm Tuy nhiên nhược điểm của phương pháp này là bỏ qua các thông

tin hữu ích thông qua loại bỏ một số đường dẫn

1.4.3.2 RN- Trust (RN-Tin cậy)

Thuật toán RN-Trust (Taherian et al., 2008) được nuôi dưỡng vào năm 2008 Ý tưởng chínhcủa phương pháp này là sử dụng mạng điện trở (RN) khái niệm dé mô phỏng các mạng tin

Trang 11

tưởng Tất cả các mối quan hệ giữa 2 người được mô hình hóa thông qua điện trở theo cách

mà giá trị tin cậy hơn có nghĩa là giá trị thấp hơn cho điện trở tương ứng Tại đây mạng tin

cậy được chuyển tới Mạng điện trở (RN) Mô hình nay sử dụng giá tri niềm tin trong phạm

vi liên tục [0, 1] Thuật toán này được áp dụng trong các mạng mẫu tương tự như TidalTrust

và chứng minh cho kết quả tốt hơn Một vấn đề lớn của phương pháp này là sự phức tạpthời gian của thuật toán đó là đa thức (O (vỶ) v = số nút trong đồ thị mang)

1.4.3.3 Bayesian

Cơ chế suy luận tin cậy Bayesian rat phức tap đã được web dựa trên mạng xã hội WBSNs (Web Based Social Networks) đề xuất trong năm 2009 (Liu et al, 2009; 2010.).Liu

-giới thiệu một tin cậy phức hợp theo định hướng WBSNs cấu trúc bao gồm các mối quan

hệ xã hội rất phức tạp Những cải tiến chính của phương pháp này đã được cung cấp các giátrị tin cậy thực tế giữa các "ủy thác" và "truster" thông qua xem xét logic "AND" giữa cácđường đi Mặc dù các thí nghiệm dẫn đến thành công, các nguyên tắc ban đầu được xácđịnh để giải nén tin cậy thực sự không được sử dụng trong WBSNs quan trọng

1.4.3.4 Mô hình tin cậy kết hợp

Mô hình tin cậy kết hợp (Yu và Wang, 2010) là một mô hình trong đó mô tả làm thé nao désuy ra các giá trị tin cậytrong kết hợp với cấu trúc liên kết mạng và cách sử dụng khai thác

web.

1.4.3.5 Thừa số hóa ma trận

Thừa số hóa ma trận (Jamali và Ester, 2010) kỹ thuật đã được giới thiệu trong năm

2010 Mô hình này đã sử dụng ảnh hưởng xã hội của hành vi của tất cả hàng xóm của một

nút Sự ảnh hưởng này được xây dựng và xem xét Phương pháp này đã được thử nghiệm

bang cách sử dụng cả hai bộ dữ liệu Epinions.com và Flixster.com So sánh kết quả với các

kỹ thuật trước đây cho thấy hiệu suất rõ ràng Một khoảng trống quan trọng của phươngpháp này là nó không thể xử lý các giá trị tin cậy tiêu cực, nhưng trong thực tế, một số mạng

xã hội cho phép người sử dụng để cung cấp cho các giá trị tiêu cực như là một cách để chothay sự mat lòng tin

1.4.3.6 H_OSTP

H_OSTP một /huật toán Heuristic dé suy luận về tin cậy, và đã được giới thiệu trongnăm 2010 trong đó tập trung vào việc tìm kiếm đường đi tối ưu giữa các nút trong mạng xãhội (Liu et al, 2009 2010.) Một khái niệm mới "Chất lượng của tin cậy - Quality Of Trust

(QOT)” đã được thêm vào trong phương pháp này.

Trang 12

1.4.3.7 FlowTrust

Thuật toán FlowTrust (Wang và Wu, 2011) hỗ trợ tin cậy đa chiều Mức độ tin cậy và giá tri

tin cậy là hai yếu tố được xem xét trong phương pháp này Thuật toán này sử dụng một cáchtiếp cận lưu lượng tin cậy để mô hình bắt kỳ đồ thị tin cậy có chứa lưu lượng mạng Sau đó,bằng cách sử dụng các lý thuyết dòng, giá trị tối đa của tin cậy có khả năng lưu lượng giữacác đô thị được đánh giá So sánh cơ chế này với những phương pháp trước đây dẫn đến giátrị tin cậy bình thường tốt hơn

1.4.3.8 Dự đoán tin cậy và không tin cậy

Một mô hình để dự đoán Tin tưởng và ngờ vực trong WBSNs đã được giới thiệu bởiDuBois et al (2011) Mô hình này là sự kết hợp của phương pháp lò xo nhúng tùy chỉnh vàthuật toán suy luận tin cậy bắt nguồn từ trên lý thuyết đồ thị ngẫu nhiên Phương pháp này

đã được thử nghiệm trên ba bộ dữ liệu của Epinions, Wikipedia va Slashdot dé xem xét hiệu

qua Kết quả cho thấy rang các thuật toán có khả năng tô chức phù hợp các cạnh ẩn trong đồ

thị mạng xã hội là "tốt" hay "xấu" các cạnh với độ chính xác cao Một lợi thế lớn của thuật

toán này so với những thuật toán trước là một thực tế mà nó tính toán Sự ngờ vực cũng như

tin cậy.

Đồ án sử dụng mô hình suy luận giá tri tin cậy thực hiện phân cụm dữ liệu

1.5 Ưu, nhược điểm của mô hình suy luận tin cậy

15.1 Ưu điểm:

e Viéc sử dụng các thuật toán suy luận độ tin cậy sau đó thực hiện phân cụm các giá tri

tin cậy là một phương pháp mới để cải thiện các khuyến nghị như: khi các cụm tincậy được tích hợp vào bộ nhớ dựa trên các thuật toán lọc cộng tác, dẫn đến những cảitiễn đáng kể về mặt thống kê ở độ chính xác [4]

e Phuong pháp tiếp cận phân cụm dựa trên tương tự thường có kết quả tồi tệ hơn

phương pháp phân cụm dựa trên tin cậy.

1.5.2.Nhược điểm:

e Mang xã hội có những mối quan hệ phức tạp nên việc tính toán suy luận tin cậy là

khó khăn và với mỗi thuật toán suy luận tin cậy khác nhau cho giá trị độ chính xác là

khác nhau.

e Mô hình suy luận tin cậy cho giá trị chính xác hon với những tập dữ liệu đầy đủ

1.6 Kết luận

Trang 13

Chương 1 đã trình bày tổng quan về khái niệm tin cậy, phương pháp phân cụm dữ liệu,

phương pháp phân cụm dữ liệu dựa trên sự tương tự và phương pháp phân cụm dựa trên độ

tin cậy Các mô hình phân cụm dựa trên sự tương tự và mô hình phân cụm dựa trên độ tin

cậy Đồ án tập trung nghiên cứu phương pháp phân cụm dựa trên độ tin cậy sử dụng thuậttoán suy luận tin cậy kết hợp với phương pháp phân cụm dé phân cụm dit liệu mạng xã hội

Chương tiếp theo nghiên cứu chỉ tiết hơn về phương pháp phân cụm người dùng

mạng xã hội dựa trên độ tin cậy.

Tiêu đề	Phân Cụm Người Dùng Mạng Xã Hội Dựa Trên Độ Tin Cậy
Tác giả	Tran Thi Tuyen
Người hướng dẫn	PGS.TS. Tran Dinh Que
Trường học	Học viện Công nghệ Bưu chính Viễn Thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	27
Dung lượng	5,98 MB