Thử nghiệm và đánh giá

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 56 - 61)

- Đối với bộ cơ sở dữ liệu nhỏ (<200 đỉnh):

Hình 3.1. mô phỏng số cộng đồng tìm được dựa theo 2 thuật toán Girvan- Newman và EAGLE trên bộ dữ liệu simple network, trong đó hình (a) sử dụng thuật toán Girvan-Newman và hình (b) sử dụng thuật toán EAGLE.

Có thể thấy, trên hình (b) có một số đỉnh không được tô màu, các đỉnh này có thể thuộc nhiều cộng đồng khắc nhau, do thuật toán EAGLE tìm cộng đồng gối nhau trong đồ thị nên có một số đỉnh sẽ có thể vừa thuộc cộng đồng này, vừa thuộc cộng đồng kia, như trong hình 3.1b, đỉnh 7 có thể thuộc cộng đồng {1,2,3} hoặc cộng đồng {4,5,6} hoặc kết hợp với đỉnh 8 cho ra cộng đồng mới là {7,8}.

Hình 3.1. Mô phỏng số cộng đồng tìm được trong đồ thị simple_network.

Kết quả phát hiện cộng đồng của 2 thuật toán Girvan-Newman và EAGLE đối với bộ dữ liệu dolphin được trình bày trong hình 3.2.

Hình 3.2. Mô phỏng số cộng đồng tìm được trong bộ dữ liệu dolphin.

Trong đó, (a) và (b) lần lượt là kết quả tìm kiếm cộng đồng của 2 thuật toán Girvan-Newman và EAGLE.

Hình 3.4. Mô phỏng số cộng đồng tìm được trong bộ dữ liệu football.

Hình 3.3. và hình 3.4. thể hiện kết quả tìm kiếm cộng đồng của 2 thuật toán đã nêu. Nhìn hình ảnh kết quả ta có thể thấy, thuật toán Girvan-Newman cho kết quả tốt hơn thuật toán EAGLE, tuy nhiên đối với bộ dữ liệu nhỏ rất khó có thể nhìn ra điều đó, để có cái nhìn tổng quan hơn, chúng ta xét đến các bộ dữ liệu lớn.

- Đối với bộ cơ sở dữ liệu lớn (>3000 đỉnh):

Hình 3.5. Mô phỏng kết quả tìm kiếm cộng đồng trên bộ dữ liệu amazon_small

Như hình 3.5. chúng ta có thể thấy kết quả tìm kiếm cộng đồng bằng thuật toán Girvan-Newman (hình (a)) cho cộng đồng rõ ràng và chính xác hơn so với thuật toán EAGLE (hình (b)). Việc hiển thị các đồ thị lớn là một vấn đề khó khăn, đây cũng là một thách thức lớn đối với các nhà khoa học.

Để so sánh một cách chi tiết và rõ ràng hơn giữa hai thuật toán Girvan- Newman và EAGLE. Chúng ta có thể theo dõi bảng 3.3.

Bảng 3.3. Bảng tổng hợp kết quả của 2 thuật toán Girvan-Newman và k-cliques trên các bộ dữ liệu khác nhau

Bộ dữ liệu Số đỉnh Số cạnh Cộng đồng đúng

Girvan-Newman EAGLE

Thời gian

(giây) Cộng đồng Thời gian

(giây) Cộng đồng simple_network 14 17 4 ~0 5 ~0 4 p_n 14 24 3 ~0 3 ~0 3 karate 34 78 2 ~0 3 ~0 3 dolphins 62 159 2 ~0 4 ~0 4 football 115 613 12 0.02 6 ~0 4 amazon_small 3,225 10,262 - 1.27 57 0.18 205 youtube_small 4,890 20,787 - 23.17 95 6.7 63 dblp_small 10,824 38,732 - 27.23 241 0.278 1,441 dblp_big 317,080 1,049,866 13,477 1199 112,043 4.2 109,192 amazon_big 334,863 925,872 75,149 541.17 215,108 5.45 213,951

Nhìn bảng 3.3. chúng ta có thể thấy thời gian chạy của thuật toán EAGLE nhanh hơn nhiều so với thuật toán Girvan-Newman. Do thuật toán EAGLE tìm kiếm cộng đồng gối nhau, do đó số lượng cộng đồng tìm được bằng thuật toán này thường lớn hơn so với thuật toán Girvan-Newman. Đối với 3 bộ dữ liệu amazon_small, dblp_small và youtube_small, hiện tại chưa có công bố về số lượng cộng đồng và danh sách cộng đồng chính xác của các bộ dữ liệu này, đo đó cột “Cộng đồng đúng” ở 3 bộ dữ liệu này được ký hiệu bởi dấu “-”. ~0 tương ứng là thời gian thực hiện của thuật toán xấp xỉ bằng 0 giây.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 56 - 61)

Tải bản đầy đủ (PDF)

(66 trang)