HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
Người hướng dẫn khoa học:PGS.TS TRAN DINH QUE
Phản biện Ì: - 0Q Q0 222 nnn ĐH ng ng vn cv saPhản biện Í: - Q0 Q2 020g ng ng ng kg kh ng sa
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn Thông
Vào lúc: ĐIỜ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thu viện củaHọc viện Công nghệ Bưu chính Viễn Thông
Trang 3MO DAU
Có hai tỷ người kết nối tới Internet, và nội dung do người dùng tao ra và tiêu thụ với tốc độ ấn tượng YouTube báo cáo trong vòng 24h các video mới được tải lên trang web của họ
mỗi phút, và 2 ty video được xem mỗi ngay[2].
Với rất nhiều tương tác giữa người dùng và nội dung được tạo ra, câu hỏi đặt ra là ai và những gì dé tin tưởng đã trở thành một thách thức ngày càng quan trọng trên web Trong những năm gần đây, một số nghiên cứu chỉ ra việc sử dụng kỹ thuật suy luận tin cậy sẽ giúp suy luận độ tin cậy giữa những người dùng không liên kết trực tiếp với nhau trong mạng xã
hội [1], [4] Các ma trận tin cậy mới cho phép chúng ta dễ dàng phân cụm dựa trên sự tin
cậy Nghiên cứu đã chỉ ra rằng khi các cụm tin cậy được tích hợp vào bộ nhớ dựa trên các
thuật toán lọc cộng tác, dẫn đến những cải tiễn đáng ké về mặt thống kê ở độ chính xác [4]
Phân cụm dữ liệu là một phương pháp khai phá dữ liệu được các nhà nghiên cứu sử
dụng nhiều nhất Phân cụm dữ liệu là quá trình nhóm các đối tượng thành các cụm mà các
thành viên đều giống nhau ở một cách nào đó Các đối tượng được gom cụm sao cho mức
độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nam trong các cụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học
không giám sát - Học không thầy Ngày nay có rất nhiều các kỹ thuật phân cụm dựa trên sự
tương tự được sử dụng như các kỹ thuật phân cụm dựa trên khoảng cách, kích thước hay
người dùng có sở thích tương tự nhau [13], kỹ thuật phân cụm dựa trên độ tin cậy là một
kỹ thuật mới và đã có các nghiên cứu được ứng dụng trong thực tế nhằm nâng cao hiệu quả của các khuyến nghị [4].
Nhằm nghiên cứu về kỹ thuật phân cụm dựa trên độ tin cậy và so sánh với kỹ thuật phân cụm dựa trên sự tương tự, tôi xin chọn đề tài nghiên cứu “Phân cụm người dùng
mạng xã hội dựa trên độ tin cậy”.
Bố cục luận văn
Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục Bảng, Kết luận, Tài
liệu tham khảo Luận văn chia làm 3 chương :Chương 1: Mô hình tin cậy trên mạng xã hội
Chương này giới thiệu tổng quan về phân cụm dữ liệu, phân cụm dtr liệu dựa trên sự tương tự, phân cụm dữ liệu dựa trên sự tin cậy, một số mô hình dựa trên sự tương tự, một số mô hình dựa trên sự tin cậy và giới thiệu về mô hình suy luận tin cậy được sử dụng trong đồ
an.
Trang 4Chương 2: Phân cụm người dùng mạng xã hội
Chương này giới thiệu các độ đo tương tự, độ đo tin cậy dùng để phân cụm dữ liệu, các thuật toán dùng để suy luận tin cậy và phân cụm dữ liệu.
Chương 3: Thử nghiệm và đánh giá kết quả
Tiến hành cài đặt các thuật toán: Phân cụm dựa trên sự tương tự, thuật toán suy luận tin cậy, phân cum dtr liệu độ tin cậy, so sánh hai phương pháp phân cum để đánh giá hiệu
quả của hai phương pháp.
Trang 5CHUONG 1 MÔ HÌNH TIN CAY TREN MẠNG XÃ HOI
1.1 Một số khái niệm tin cậy
1.1.1 Định nghĩa tin cậy
Tin cậy là một mối quan hệ mà chúng ta đều quen thuộc, nhưng mà hiểm khi chúng
ta định nghĩa hoặc mô tả Chúng ta có thể định nghĩa tin cậy như sau: Một người tin tưởng người khác nếu người đó sẵn sàng chấp nhận rủi ro dựa trên sự mong đợi của mình răng hành động của người được tin cậy sẽ dẫn đến một kết quả tích cực.
1.1.2 Định nghĩa độ tin cậy
Đo độ tin cậy [1] là một công việc quan trọng nhưng khó khăn Moi người nhìn nhận
sự tin cậy khác nhau, và tin cậy cũng rất khó để định lượng hoặc giải thích Khi nghiên cứu
làm thế nào để đo lường tin cậy, chúng ta có thể chia thành hai phần: xu hướng của một
người để tin cậy, và quyết định tin cậy của một cá nhân đối với người khác.
1.13 Các sắc thái của sự tin cậy 1.1.3.1 Phát triển sự tin tưởng
Niềm tin được hình thành giữa con người trong nhiều cách khác nhau Trong một kịch
bản chung dé xây dựng sự tin tưởng, một người phát triển sự tin tưởng trong một thời gian
thông qua một loạt các tương tác giúp người đó xây dựng nên một niềm tin và những ý định tốt của người khác, cuối cùng đến điểm mà người đó sẵn sàng chấp nhận rủi ro và hành động trên niềm tin đã xây dựng.
1.1.3.2 Bắt đối xứng
Đối với hai người tham gia vào một mối quan hệ, sự tin tưởng không nhất thiết phải giống nhau trong cả hai hướng Bởi vì các cá nhân có kinh nghiệm khác nhau, nguồn gốc
tâm lý, và lịch sử, hai người có thê tin tưởng lẫn nhau ở các cấp độ khác nhau Ví dụ, cha
mẹ và con cái rõ ràng tin tưởng lẫn nhau một cách khác nhau Trẻ em phải có sự tin tưởng
gần như tuyệt đối cha mẹ của họ, trong khi cha me có thé hầu như không có sự tin tưởng vào con cái, đặc biệt là khi họ còn rất trẻ.
1.1.3.3 Bối cảnh và thời gian
Ngoại trừ một vài trong số những mối quan hệ rất không đối xứng, như thê giữa cha
me và trẻ nhỏ, sự tin tưởng hiếm khi là tin tưởng tất cả những gì bao quanh Thay vào đó,
Trang 6một người sẽ có xu hướng tin tưởng người khác về một tập hợp của sự vật, nhưng không phải về tất cả mọi thứ.
Tuy nhiên, sự tin tưởng đôi khi có thé chuyển từ một bối cảnh này sang bối cảnh
khác Một người có thể xây dựng lòng tin ở một người đồng nghiệp là tin tưởng hoàn toàn trong bối cảnh làm việc, nhưng sau đó người đó có thé tin tưởng người đồng nghiệp đó có thé giới thiệu một thợ sửa ống nước, ngay cả khi họ chưa bao giờ có một cuộc thảo luận về
hệ thống ống nước, sửa chữa tại nhà.
Sự tin tưởng có thê thay đổi từ một bối cảnh này sang bối cảnh khác, nhưng ngay cả
trong một bối cảnh nhất định, nó có thé thay đổi theo thời gian.
1.2.Bài toán phân cụm dé liệu1.2.1 Phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm,
các mẫu dữ liệu quan trọng trong tập dữ liệu lớn dé từ đó cung cấp thông tin, tri thức cho
việc ra quyết định.
Phân cụm có thé được coi là van đề học không giám sát quan trọng nhất; như vậy,
như mọi van đề khác của loại hình này, nó xử lý việc tìm kiếm một cấu trúc trong một bộ
sưu tập các dữ liệu không có nhãn Một định nghĩa lỏng lẻo của phân cụm có thé là "quá trình tổ chức các đối tượng thành các nhóm mà các thành viên đều giỗng nhau ở một cách
nào đó" Do đó, một cụm là một tập của các đối tượng "tương tu" và "không tương tự” với
các đối tượng thuộc các cụm khác.
1.2.1.1 Bài toán phân cụm dữ liệu dựa trên sự tương tự
Hình 1.1 Ví dụ về phân cụm dữ liệu dựa trên sự tương tự
(Nguồn: [14])
Trang 7Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã
cho; các tiêu chí “tương tự” dé phân cụm trong trường hop này là khoảng cách: hai hoặc
nhiều đối tượng thuộc nhóm của chúng được “đóng gói” theo một khoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảng cách.
1.2.1.2 Bài toán phân cụm dữ liệu dựa trên độ tin cậy
Sự tin cậy là một khía cạnh quan trọng của mối quan hệ giữa hai thực thể Tin tưởng
tạo cơ sở cho việc hình thành các liên minh (cộng đồng vững mạnh được hình thành bởi các
thực thé mà "tin tưởng" nhau); nó có thé được dùng dé xác định các nút có ảnh hưởng trong một mạng lưới, nó quyết định làm thế nào thông tin sẽ chảy vào một mạng xã hội Điều ngược lại cũng đúng: cộng đồng có thé tạo ra sự tin cậy lớn hơn giữa các thành viên; dòng chảy thông tin giữa các thành viên có thé tăng cường các mối quan hệ tin cậy giữa họ
Sự tin cậy là một thành phần quan trọng của sự tương tác xã hội của con người Do đó
mô hình tin cậy đóng một vai trò quan trọng trong việc phân tích mạng xã hội, với các ứng
dụng bao gồm cả tiếp thị lan truyền, lọc cộng tác, và bảo mật Mô hình tính toán tin cậy
cung cấp cái nhìn sâu sắc vào các mô hình truyền thông, luồng thông tin, và hành vi của các
mạng xã hội nằm dưới các ứng dụng này.
Đồ án nghiên cứu việc phân cụm dựa trên tiêu chí “độ tin cậy ”của mạng xã hội, nhằm đánh giá và so sánh với phương pháp phân cụm dựa trên “độ tương tự ” là độ đo
khoảng cách
1.3 Một số mô hình phân cụm dựa trên sự tương tự
1.3.1 Phan cụm phân hoạch (Partitioning Methods)
Kết quả một quá trình phân nhóm phân hoạch là phân nhóm một tập dữ liệu thành
một số nhóm dữ liệu cho trước và mỗi nhóm không có chứa nhóm con nào bên trong nó.
1.3.2 Phân cụm phân cấp (Hierarchical Methods)
Kết quả của một quá trình phân nhóm phân cấp là một chuỗi các nhóm dữ liệu, trong đó một số nhóm có thé chứa các lớp con bên trong Bắt đầu tat cả tập dữ liệu như một nhóm
rồi sau đó phân chia các nhóm nhỏ hơn trong bước kế tiếp, hoặc ban đầu mỗi điểm dữ liệu
được xem là một nhóm rồi ghép hai nhóm thành một nhóm dữ liệu trong bước kế tiếp.
1.3.3 Phân cum dựa trên mật độ (Density-Based Methods)
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên ham mật độ xác định, mật độ
là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng
dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác
Trang 8định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng dé xác định các cum
dữ liệu có thé phát hiện ra các cụm dit liệu với hình thù bat kỳ.
1.3.4 Phân cụm dựa trên lưới (Grid-Based Methods)
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp nay chủ yếu tập trung áp dung cho lớp dit
liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành
cấu trúc dữ liệu lưới.
1.3.5 Phân cụm dựa trên mô hình (Model-Based Clustering Methods)
Phương này cô gắng khám phá các phép xấp xi tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thé sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này dé nhận dạng ra các phân hoạch.
1.3.6 Phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)
Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp
nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng đề xác định các ràng buộc trong thế giới thực
cần phải được thỏa mãn trong quá trình phân cụm Dé phân cụm dữ liệu không gian hiệu
quả hơn, các nghiên cứu bổ sung cần được thực hiện dé cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm.
1.4 Một số Mô hình tin cậy
1.4.1 Mô hình tin cậy trên mang xã hội
Sự tin cậy có thể được định lượng băng một giá tri từ một khoảng (a,b), trong đó (a<b) là số nguyên hoặc số thực Mức độ tin tưởng có thê đại diện bởi giá trị trong khoảng
này (xem trong hình 2) Sự tin cậy trong mô hình nay được đại diện bởi một giá tri trong
khoảng liên tục (0, 1) Giá trị 0 cho biết mất lòng tin hoàn toàn và giá tri 1 có nghĩa là tin
cậy mù quáng.
Trang 93 b
Mắtlòng tin Mat - Lưỡng lự Tin Tin cậy mù
hoàn toàn lòng Mat : Tin cay quang
tin long cay cao cao tin trung
trung binh
Hình 1.2 Biểu diễn sự tin cậy
Phan này biểu diễn mô hình tin cậy cá nhân và mô hình tin cậy trên các mang xã hội và biểu diễn mối tin cậy xã hội với các khuyến nghị, biéu diễn các độ đo, đánh giá và tính
giá trị tin cậy trên toàn mạng.
1.4.2 Mô hình lan truyền thông tin dựa trên sự tin cậy trong mạng xã hội
Trong mô hình này chúng ta xem các mạng xã hội trực tuyến như đồ thị trọng số có hướng G(N,E,W), trong đó N là số của người dùng ở các mạng xã hội trực tuyến cạnh có hướng là
mối quan hệ cua hai người sử dụng, nếu có một cạnh A—>B trong đồ thị, khi đó người dùng
A là một trong những người tin tưởng người dùng B; và trọng số W là giá trị tin cậy của hai
người dùng.
1.4.2.1.Các thuật toán khai phá dữ liệu để sử dụng các thuộc tính nội bộ
Đầu tiên, quét tất cả các thông điệp lịch sử của người sử dụng, và đếm từng từ khóa
của tin nhắn, và có được tat cả các từ khóa mà đáp ứng ngưỡng hỗ trợ tối thiêu, min_sup, và
tat cả các từ khóa thực hiện 1-muc (1-item) tập phổ biến Li Và việc tìm thấy 2- item tập La từ 1-item tập Li Các chi tiết của thuật toán diễn ra như sau:
Thuật toán Apriori:
Tìm bộ item phổ biến sử dụng một mức độ khôn ngoan lặp đi lặp lại phương pháp tiếp cận dựa trên thế hệ ứng viên.
Đầu vào:
D, tập hợp tat cả các thông điệp lịch sử của người sử dụng; min_sup, số ngưỡng hỗ trợ tối thiểu.
Đầu ra:
L, bộ k-item thường xuyên của D, đó là các thuộc tính nội bộ của người sử dụng.
1.4.2.2 Các thuật toán phân loại người dùng trong mạng xã hội trực tuyến.
Trang 10Thuật toán SCAN Sau khi khai phá các thuộc tính người dùng, nó rat dé dang dé
phân loại các người dùng trong mạng xã hội theo các thuộc tính người dùng.
Sử dụng thuật toán SCAN, chúng ta có thê phân loại tất cả người dùng vào một số
cụm Và bởi vì mỗi người dùng có nhiều hơn một thuộc tính, một người dùng có thể là
thành viên của các cụm khác nhau
1.4.2.3 Tính toán Tin cậy trong mạng xã hội trực tuyến
Theo các thuật toán phân nhóm người dùng trên, những người sử dụng mạng xã hội
trực tuyến được phân thành nhiều cụm khác nhau Có hai loại cho lan truyền thông tin trong
mạng xã hội trực tuyến Trong một cluster, các thông điệp được chuyền tiếp từ những người
dùng khác nhau; giữa các cụm, các thông điệp được truyền từ cụm này đến cụm khác.
1.4.2.4 Quá trình lan truyền thông tin trong mạng xã hội trực tuyến
Trong mạng xã hội trực tuyến, tập N(A) là tập người dùng nhận các thông điệp từ người dùng A, TMsg(A) là số các thông điệp mà người dùng A phát ra, TMsg (A, B) là số lượng thông điệp phát ra bởi người dùng A và chuyền tiếp bởi người dùng B Bây giờ giả sử người dùng A phát ra một thông điệp, sử dụng các dữ liệu tiền xử lý thông điệp này được biến thành vector riêng Msg, và sau đó tính toán xác suất thông điệp chuyền tiếp bằng cách
sử dụng các vector riêng của các thông điệp và các thuộc tính của người dùng.
Qua các bước Sau đó tính được tổng số người dùng mà nhận được thông điệp phát ra
bởi người dùng A trong toàn mạng xã hội trực tuyến.
1.4.3 Mô hình suy luận tin cậy trên mạng xã hội1.4.3.1 Tin cậy Xã hội
Thuật toán Tin cậy Xã hội (Caverlee et al., 2008) là một khung dựa trên danh tiếng cho tập
hợp tin cậy Thuật toán sử dụng một phương pháp đánh giá thông tin phản hồi liên quan khi cập nhật giá tri tin cậy bằng cách sử dụng phiên bản động của giá trị tin cậy theo ba yếu t6: lich sử xếp hạng, đánh giá người dùng hiện tai va thích nghi với thay đổi Caverlee thử nghiệm kỹ thuật này trong tập dir liệu MySpace bang cách sử dụng năm triệu nút (người dùng) và mười chín triệu cạnh (mối quan hệ) Kết quả cho thấy thành công trong việc xác
định các nút nguy hiểm Tuy nhiên nhược điểm của phương pháp này là bỏ qua các thông
tin hữu ích thông qua loại bỏ một số đường dẫn.
1.4.3.2 RN- Trust (RN-Tin cậy)
Thuật toán RN-Trust (Taherian et al., 2008) được nuôi dưỡng vào năm 2008 Ý tưởng chính của phương pháp này là sử dụng mạng điện trở (RN) khái niệm dé mô phỏng các mạng tin
Trang 11tưởng Tất cả các mối quan hệ giữa 2 người được mô hình hóa thông qua điện trở theo cách mà giá trị tin cậy hơn có nghĩa là giá trị thấp hơn cho điện trở tương ứng Tại đây mạng tin
cậy được chuyển tới Mạng điện trở (RN) Mô hình nay sử dụng giá tri niềm tin trong phạm
vi liên tục [0, 1] Thuật toán này được áp dụng trong các mạng mẫu tương tự như TidalTrust
và chứng minh cho kết quả tốt hơn Một vấn đề lớn của phương pháp này là sự phức tạp thời gian của thuật toán đó là đa thức (O (vỶ) v = số nút trong đồ thị mang).
1.4.3.3 Bayesian
Cơ chế suy luận tin cậy Bayesian rat phức tap đã được web dựa trên mạng xã hội -WBSNs (Web Based Social Networks) đề xuất trong năm 2009 (Liu et al, 2009; 2010.).Liu
giới thiệu một tin cậy phức hợp theo định hướng WBSNs cấu trúc bao gồm các mối quan hệ xã hội rất phức tạp Những cải tiến chính của phương pháp này đã được cung cấp các giá trị tin cậy thực tế giữa các "ủy thác" và "truster" thông qua xem xét logic "AND" giữa các đường đi Mặc dù các thí nghiệm dẫn đến thành công, các nguyên tắc ban đầu được xác định để giải nén tin cậy thực sự không được sử dụng trong WBSNs quan trọng.
1.4.3.4 Mô hình tin cậy kết hợp
Mô hình tin cậy kết hợp (Yu và Wang, 2010) là một mô hình trong đó mô tả làm thé nao dé suy ra các giá trị tin cậytrong kết hợp với cấu trúc liên kết mạng và cách sử dụng khai thác
1.4.3.5 Thừa số hóa ma trận
Thừa số hóa ma trận (Jamali và Ester, 2010) kỹ thuật đã được giới thiệu trong năm 2010 Mô hình này đã sử dụng ảnh hưởng xã hội của hành vi của tất cả hàng xóm của một
nút Sự ảnh hưởng này được xây dựng và xem xét Phương pháp này đã được thử nghiệm
bang cách sử dụng cả hai bộ dữ liệu Epinions.com và Flixster.com So sánh kết quả với các kỹ thuật trước đây cho thấy hiệu suất rõ ràng Một khoảng trống quan trọng của phương pháp này là nó không thể xử lý các giá trị tin cậy tiêu cực, nhưng trong thực tế, một số mạng xã hội cho phép người sử dụng để cung cấp cho các giá trị tiêu cực như là một cách để cho thay sự mat lòng tin.
1.4.3.6 H_OSTP
H_OSTP một /huật toán Heuristic dé suy luận về tin cậy, và đã được giới thiệu trong năm 2010 trong đó tập trung vào việc tìm kiếm đường đi tối ưu giữa các nút trong mạng xã hội (Liu et al, 2009 2010.) Một khái niệm mới "Chất lượng của tin cậy - Quality Of Trust
(QOT)” đã được thêm vào trong phương pháp này.
Trang 121.4.3.7 FlowTrust
Thuật toán FlowTrust (Wang và Wu, 2011) hỗ trợ tin cậy đa chiều Mức độ tin cậy và giá tri
tin cậy là hai yếu tố được xem xét trong phương pháp này Thuật toán này sử dụng một cách tiếp cận lưu lượng tin cậy để mô hình bắt kỳ đồ thị tin cậy có chứa lưu lượng mạng Sau đó, bằng cách sử dụng các lý thuyết dòng, giá trị tối đa của tin cậy có khả năng lưu lượng giữa các đô thị được đánh giá So sánh cơ chế này với những phương pháp trước đây dẫn đến giá trị tin cậy bình thường tốt hơn.
1.4.3.8 Dự đoán tin cậy và không tin cậy
Một mô hình để dự đoán Tin tưởng và ngờ vực trong WBSNs đã được giới thiệu bởi DuBois et al (2011) Mô hình này là sự kết hợp của phương pháp lò xo nhúng tùy chỉnh và thuật toán suy luận tin cậy bắt nguồn từ trên lý thuyết đồ thị ngẫu nhiên Phương pháp này đã được thử nghiệm trên ba bộ dữ liệu của Epinions, Wikipedia va Slashdot dé xem xét hiệu
qua Kết quả cho thấy rang các thuật toán có khả năng tô chức phù hợp các cạnh ẩn trong đồ
thị mạng xã hội là "tốt" hay "xấu" các cạnh với độ chính xác cao Một lợi thế lớn của thuật
toán này so với những thuật toán trước là một thực tế mà nó tính toán Sự ngờ vực cũng như
tin cậy.
Đồ án sử dụng mô hình suy luận giá tri tin cậy thực hiện phân cụm dữ liệu.
1.5 Ưu, nhược điểm của mô hình suy luận tin cậy 15.1 Ưu điểm:
e Viéc sử dụng các thuật toán suy luận độ tin cậy sau đó thực hiện phân cụm các giá tri
tin cậy là một phương pháp mới để cải thiện các khuyến nghị như: khi các cụm tin cậy được tích hợp vào bộ nhớ dựa trên các thuật toán lọc cộng tác, dẫn đến những cải tiễn đáng kể về mặt thống kê ở độ chính xác [4].
e Phuong pháp tiếp cận phân cụm dựa trên tương tự thường có kết quả tồi tệ hơn
phương pháp phân cụm dựa trên tin cậy.
1.5.2.Nhược điểm:
e Mang xã hội có những mối quan hệ phức tạp nên việc tính toán suy luận tin cậy là
khó khăn và với mỗi thuật toán suy luận tin cậy khác nhau cho giá trị độ chính xác là
khác nhau.
e Mô hình suy luận tin cậy cho giá trị chính xác hon với những tập dữ liệu đầy đủ 1.6 Kết luận
Trang 13Chương 1 đã trình bày tổng quan về khái niệm tin cậy, phương pháp phân cụm dữ liệu,
phương pháp phân cụm dữ liệu dựa trên sự tương tự và phương pháp phân cụm dựa trên độ
tin cậy Các mô hình phân cụm dựa trên sự tương tự và mô hình phân cụm dựa trên độ tin
cậy Đồ án tập trung nghiên cứu phương pháp phân cụm dựa trên độ tin cậy sử dụng thuật toán suy luận tin cậy kết hợp với phương pháp phân cụm dé phân cụm dit liệu mạng xã hội.
Chương tiếp theo nghiên cứu chỉ tiết hơn về phương pháp phân cụm người dùng
mạng xã hội dựa trên độ tin cậy.