Mô hình đánh giá quan điểm cộng đồng trên Twitter

Một phần của tài liệu Phát hiện cộng đồng sử dụng thuật toán GONGA và khai phá quan điểm cộng đồng trên mạng xã hội (Trang 35 - 38)

Thuật toán đưa ra có thể áp dụng với mọi mạng xã hội khác nhau. Tuy nhiên trong khuôn khổ khóa luận, tôi sử dụng dữ liệu trên mạng xã hội Twitter. Đây là một mạng thời gian thực với dịch vụ “microblogging” cho phép gửi tin nhắn với không quá 140 kí tự, những tin nhắn này được gọi là tweets. [5] Không giống như các mạng xã hội như Facebook và Linkedln là những nơi có kết nối hai chiều, Twitter có một mạng lưới được xây dựng dựa trên số “friends” và “followers”. Twitter đã nhanh chóng trở thành một hiện tượng với số lượng người tham gia rất cao, nổi lên như một lớp giao thông vận tải thứ ba thực hiện dịch vụ tin nhắn. Hiện nay, Twitter đã đạt đến con số 200 triệu người sử dụng, với 65 triệu tweet được sinh ra mỗi ngày, và khoảng 800000 lượt truy vấn mỗi ngày. Twitter đôi khi còn được miêu tả như là ”SMS trên Internet”. Hơn thế nữa, Twitter còn cung cấp một API giúp người sử dụng có thể lấy được các thông tin về các người dùng trong mạng xã hội đó, ví dụ như tên truy cập, ID, số lượng bạn bè, số lượng Tweet trong một ngày,... Đây là những điều kiện rất thuận lợi để tìm hiểu về cộng đồng cũng như những nội dung chia sẻ của người dùng trên Twitter.

Mặc dù vậy, cộng đồng người Việt Nam sử dụng mạng Twitter lại không phổ biến nhiều như những nơi khác trên thế giới, vì vậy, với bài toán phát hiện và đánh giá quan điểm cộng đồng trên miền ứng dụng là Tiếng Việt, tôi quyết định đưa bài toán về khuôn khổ những người dùng cùng follow người dùng @linkhay. Đây là một trong số những người dùng có số lượng người đăng kí theo dõi lớn, thường xuyên cập nhật thông tin, sự kiện mới và được quan tâm hàng ngày. @linkhay là người dùng đại diện cho website http://www.linkhay.com – nơi cộng đồng chia sẻ những thông tin thú vị từ bất kì nguồn nào trên Internet. Người dùng không chỉ tìm thấy những vấn đề nóng hổi được dư luận quan tâm mà còn có thể khai thác triệt để thông tin xung quanh nó, cũng như tham gia thảo luận với cộng đồng LinkHay. Việc xây dựng mạng và cộng đồng mạng được đảm bảo về số lượng đỉnh cũng như các liên kết của người dùng. Ngoài ra, lượng dữ liệu thu thập được đủ lớn để sử dụng cho pha đánh giá quan điểm người dùng.

Tư tưởng chính của mô hình đề xuất như sau:

Thông tin người dùng Twitter cùng follow vào @linkhay sẽ được lấy về, xây dựng lại mạng xã hội, và được cho qua bộ CONGA để phát hiện cộng đồng. Từ những cộng đồng đó, ta có thể xây dựng dữ liệu về đánh giá của từng nhóm người dùng về một sự kiện, hiện tượng chung nào đó. Với dữ liệu lấy về là Tiếng Việt, tôi sử dụng phân lớp Naive Bayes để phân tách các nhận định người dùng theo hai chiều hướng: đồng tình hoặc không đồng tình, tổng hợp dựa trên quan điểm cộng đồng, từđó đưa ra đánh giá chung của toàn động đồng về sự kiện, hiện tượng đó. Chi tiết các bước được biểu diễn chi tiết tại Hình 3.2

Đầu vào: Tập người dùng mạng xã hội, các liên kết tương ứng, và các nhận xét, đánh giá của người dùng về sự kiện, hiện tượng.

Đầu ra: Phân lớp quan điểm của từng nhóm cộng đồng về những sự kiện giống nhau.

Phát biểu bài toán: Coi mỗi người dùng là một nút mạng, xây dựng mạng xã hội và phân chia thành các nhóm (cộng đồng) dựa trên những liên kết của các nút mạng. Đánh giá quan điểm về sự kiện, hiện tượng của từng cộng đồng vừa được xây dựng.

Dưới đây, tôi xin đề xuất mô hình phát hiện cộng đồng trên mạng xã hội Twitter sử dụng thuật toán CONGA, và đánh giá quan điểm cộng động bằng học máy Naïve Bayes:

Hình 3.2: Mô hình đề xuất giải quyết bài toán phát hiện và khai phá quan điểm cộng đồng trên mô hình mạng xã hội Twitter

Các pha chính: 1. Phát hiện cộng đồng a. Xây dựng mạng xã hội b. Xây dựng cộng đồng mạng xã hội 2. Đánh giá quan điểm cộng đồng a. Biểu diễn vector thể hiện đặc trưng b. Tạo mô hình huấn luyện Naïve Bayes c. Phân lớp Naïve Bayes

Một phần của tài liệu Phát hiện cộng đồng sử dụng thuật toán GONGA và khai phá quan điểm cộng đồng trên mạng xã hội (Trang 35 - 38)

Tải bản đầy đủ (PDF)

(54 trang)