Thực nghiệm và đánh giá mô hình 1 Mô tả thực nghiệm

Một phần của tài liệu Phát hiện cộng đồng trong mạng xã hội khả năng ứng dụng cho mạng go vn (Trang 33 - 36)

B ước 3: Dựa trên đồ thị vừa xây dựng được, tôi tiến hành cài đặt thuật toán CONGA cho đồ thịđó, dựa trên bộ thư viện mà tác giả thuật toán cung cấp Đầu

3.3. Thực nghiệm và đánh giá mô hình 1 Mô tả thực nghiệm

3.3.1. Mô tả thực nghiệm

Dữ liệu dùng để xây dựng mô hình mạng xã hội dựa trên mạng xã hội trực tuyến Go.vn, dữ liệu ghi log quảng cáo của hệ thống quản lý quảng cáo và dữ liệu

người dùng thông qua việc sử dụng API (application programming interface) getUserInfo, getFriendList do Go.vn cung cấp. Từ dữ liệu ghi log của quảng cáo ta có thể thu thập được danh sách người dùng đã click vào một quảng cáo bất kì, từ API của Go.vn ta có thể thu thập được thông tin vềtừng thành viên trong danh sách người dùng đã click quảng cáo trên hệ thống quảng cáo goZone, thông tin thu thập được bao gồm: AccountID, PublicName, danh sách bạn bè, thông tin cá nhân như trường , lớp, sở thích, nơi ở, các comment, status hay những bức ảnh đã upload lên mạng xã hội Go.vn .

Bởi vì dữ liệu thành viên thu thập được từ quảng cáo không có thông tin về mối liên hệ giữa các thành viên này, do đó tôi phải lấy thông tin bạn bè của từng thành viên theo thứ tự trong danh sách thanh viên click quảng cáo thu được, từ danh sách bạn bè, tôi sẽ so sánh với danh sánh thành viên click quảng cáo thu được, nếu thành viên này không thuộc danh sách này sẽ bị loại bỏ.

Hình 3.1 : File đầu vào định dạng Conga Format chứa danh sách đỉnh và cạnh

Từ dữ liệu về những người sử dụng thu thập được, ta tiến hành bước loại bỏ những dữ liệu không phù hợp, ví dụ những người sử dụng có số lượng bạn bè lớn (trên vài trăm nghìn người) có thể ảnh hưởng đến tốc độ tính toán, những AccountID của người sử dụng không phải là một đỉnh trong đồ thị ta xây dựng,...Sau bước này, chúng tôi thu thập được thông tin về 500 người sử dụng, với ID, tên truy nhập và danh sách bạn bè của 500 người đó. Danh sách được lưu dưới dạng file text với mục đích xác định các cạnh của đồ thị sau này, với tổng cộng 11,120 dòng trong đó mỗi dòng biểu diễn cho một người sử dụng và một người trong danh sách bạn bè của người đó

Tiếp theo từ dữ liệu về các người sử dụng đã được xử lý, chúng tôi tiến hành xây dựng đồ thị, trong đó các đỉnh đại diện cho những người sử dụng thu thập được và các cạnh biểu diễn quan hệ kế tiếp giữa 2 người tại 2 đỉnh. Ở đây, do đồ thị cần xây dựng là đồ thị vô hướng, nên ta coi như tồn tại cạnh giữa A và B nếu A thuộc danh sách kế tiếp của B hoặc B thuộc danh sách kế tiếp của A.

Đồ thị 3.1: Mô tả một phần đồ thị của dữ liệu mạng Go.vn

Kết quả sau bước này, chúng tôi xây dựng được đồ thị biểu diễn một phần của mạng xã hội Go.vn trong thực tế, với 500 đỉnh và 5310 cạnh đại diện cho những người sử dụng và mối quan hệ bạn bè giữa họ. Đồ thị được biểu diễn dưới dạng 1 file text trong đó dòng đầu tiên là sốđỉnh, các dòng tiếp theo biểu diễn các cạnh nối giữa 2 đỉnh trong đồ thị.

Một phần của tài liệu Phát hiện cộng đồng trong mạng xã hội khả năng ứng dụng cho mạng go vn (Trang 33 - 36)