Các giả thuyết

Một phần của tài liệu Tính hạng đố tượng trong mạng xã hội Twitter (Trang 28)

Giả thuyết 1: Các tweet chứa nhiều thông tin có nhiều khả năng đƣợc post bởi những user đáng tin cậy; và ngƣợc lại (user đáng tin cậy có nhiều khả năng post những tweet giàu thông tin). Những user đáng tin cậy là những user có nhiều follower, mention và retweet, và đƣợc liệt kê nhiều. Độ tin cậy của ngƣời sử dụng là một đặc trƣng tốt để xếp hạng tweet. Tuy nhiên, đối với các sự kiện quan tâm chung liên quan đến nhiều cộng đồng, ngƣời sử dụng có nhiều khả năng không biết về nhau. Do vậy nếu chỉ dựa vào mạng lƣới user-user đƣợc xây dựng từ các retweet và reply để tính điểm tín nhiệm của ngƣời sử dụng là chƣa triệt để. Để giải quyết vấn đề này, phƣơng pháp Bayesian đƣợc sử dụng để tính điểm tin cậy của các user bằng cách kết hợp nội dung đƣợc chia sẻ bởi họ.

Giả thuyết 2: Các tweet thu hút nhiều ngƣời sử dụng có khả năng là giàu thông tin. Nhiều ngƣời sử dụng chia sẻ các tweet tƣơng tự tại cùng một thời điểm giúp xác định các tweet nhiều thông tin. Ví dụ trong đợt bầu cử tổng thống Mỹ, nhiều user post các thông tin về Obama. Nhƣ vậy các tweet có nội dung chứa thông tin về Obama có khả năng là giàu thông tin. Ý tƣởng này cũng đƣợc khai thác thành công cho việc tổng hợp sự kiện từ các tweet [32].

Giả thuyết 3: Các tweet liên kết với các nội dung của các tài liệu web có nhiều khả năng là giàu thông tin. Các tweet đến từ nhiều nguồn đa dạng, và có thể có các nội dung đa dạng khác nhau từ các tin tức và sự kiện, đến các thảo luận và cập nhật trạng thái cá nhân. Vì vậy, tweet giàu thông tin có xu hƣớng đƣợc xen kẽ với các nhiễu và các tweet ít thông tin. Các tài liệu web thì rõ ràng hơn. Thông tin quan trọng đƣợc chia sẻ trên mạng xã hội có xu hƣớng đã đƣợc post trong các tài liệu web.

Một phần của tài liệu Tính hạng đố tượng trong mạng xã hội Twitter (Trang 28)

Tải bản đầy đủ (PDF)

(46 trang)