Phân tích các thành phần trong mô hình

Một phần của tài liệu Họ thuật toán Ginvan - Newman trong phát hiện cộng đồng và cài đặt thử nghiệm trên mạng xã hội trực tuyến Twitter (Trang 34 - 35)

Bước 1: Từ nguồn dữ liệu có sẵn của Twitter được cung cấp qua Twitter API, chúng tôi tiến hành thu thập các dữ liệu về người sử dụng như ID, tên truy cập, và các thông tin cá nhân của người dùng. Các thông tin được thu thập sử dụng một thư viện hỗ trợ trên nền ngôn ngữ lập trình Java là Twitter4j do Yuusuke Yamamoto (Nhật Bản) và các đồng sự phát triển năm 2009. Thư viện cung cấp cho chúng ta các hàm cần thiết để lấy về dữ liệu của một người sử dụng từ Twitter.

Ở bước thu thập dữ liệu này, để tránh tình trạng xây dựng được một đồ thị không có đủ số cạnh cần thiết, chúng tôi không thu thập dữ liệu một cách ngẫu nhiên mà sử dụng một phương pháp được định trước. Nội dung của phương pháp thu thập dữ liệu sẽđược trình bày kỹở chương thực nghiệm và đánh giá. Như vậy sau bước này chúng tôi thu thập được dữ liệu về một số người sử dụng trên mạng xã hội trực tuyến Twitter.

Bước 2: Từ dữ liệu thu thập được, chúng tôi tiến hành tiền xử lý và loại bỏ các dữ liệu không phù hợp, ví dụ như những người sử dụng hoặc không công khai thông tin cá nhân hoặc có danh sách bạn quá lớn,....Như vậy trong bước này, dữ liệu thu thập về đã được chuNn hóa phù hợp với mô hình cần xây dựng

Bước 3: Từ dữ liệu đã được chuNn hóa, trong bước này, chúng tôi tiến hành xây dựng đồ thị mô tả mạng xã hội với các đỉnh là những người sử dụng thu về được và các cạnh biểu diễn mối quan hệ bạn bè giữa những người đó với

26

nhau.Do yêu cầu của thuật toán cài đặt của chúng tôi (thuật toán CONGA) có đồ thịđầu vào là đồ thị vô hướng và không có trọng số, nên sau bước này, chúng tôi xây dựng được một đồ thị vô hướng, không có trọng số biểu diễn một phần của mạng xã hội Twitter. Đồ thị này được biểu diễn dưới dạng 1 file text, với dòng đầu tiên là sốđỉnh và các dòng sau là các cạnh trong đồ thị

Bước 4: Dựa trên đồ thị vừa xây dựng được, chúng tôi tiến hành cài đặt thuật toán CONGA cho đồ thị đó, dựa trên bộ thư viện mà tác giả thuật toán cung cấp. Đầu vào của chương trình là file text biểu diễn đồ thị xây dựng được ở bước trên. Đầu ra của chương trình là tập cộng đồng phân cấp của đồ thịđó, bao gồm số lượng cộng đồng được chia nhỏ, các phép phân chia cạnh (hoặc đỉnh) thành các cộng đồng con ở các bước, cấu trúc của từng cộng đồng con.

Một phần của tài liệu Họ thuật toán Ginvan - Newman trong phát hiện cộng đồng và cài đặt thử nghiệm trên mạng xã hội trực tuyến Twitter (Trang 34 - 35)