Kết luận chươn g3

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 84 - 87)

Trong chương 3, em đã giới thiệu các kiến thức liên quan đến mạng xã hội và bài toán phân cụm đồ thị dữ liệu mạng xã hội. Để áp dụng các thuật toán phân cụm phân cấp đã nghiên cứu để phân cụm dữ liệu đồ thị mạng xã hội, em đã tiến hành thu thập 05 bộ dữ liệu mạng xã hội và cài đặt, thực nghiệm 03 thuật toán đã nghiên cứu trên 05 bộ dữ liệu này và tiến hành đánh giá kết quả đạt được. Qua kết quả thực nghiệm cho thấy, thuật toán Clauset-Newman-Moore đang là thuật toán cho kết quả tốt nhất trong phân cụm đồ thị dữ liệu mạng xã hội, cả về thời gian thực thi thuật toán, số lượng cụm tìm được cũng như chất lượng phân cụm.

Do thuật toán CNM cho ra số cụm rất ít, và nhiều cụm có kích thước lớn. Trên thực tế, với bài toán phân cụm đồ thị mạng xã hội cần phân cụm thành các cụm có kích thước nhỏ nhằm phản ánh rõ nét tính chất của các phần tử trong cụm (cụ thể ở đây là mối quan tâm của các người dùng mạng xã hội tới các lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM được xây dựng để đáp ứng mục tiêu đó, qua đó hỗ trợ các hoạt động như truyền thông, quảng cáo, marketing online hướng tới đúng những cụm đối tượng người dùng cụ thể.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận

Mạng xã hội và bài toán phân cụm người dùng trong mạng xã hội là những vấn đề được nhiều nhà nghiên cứu quan tâm trong thời đại hiện nay. Các bài toán phát hiện cộng đồng dựa trên thuật toán phân cụm được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống như kinh tế, chính trị, xã hội, khoa học công nghệ,...

Những kết quả chính của luận văn:

 Trình bày các kiến thức tổng quan về đồ thị dữ liệu, các phương pháp phân cụm đồ thị dữ liệu, trong đó tập trung vào các phương pháp phân cụm phân cấp đồ thị dữ liệu. Trên cơ sở các thuật toán đã nghiên cứu.

 Cài đặt các thuật toán và thử nghiệm trên 05 bộ dữ liệu mạng xã hội thực tế (các bộ dữ liệu chuẩn sử dụng trong đánh giá các thuật toán phân cụm đồ thị mạng xã hội).

 Kết quả thực nghiệm cho thấy thuật toán CNM (Clauset-Newman-Moore) là thuật toán tốt nhất hiện nay cho phân cụm để phát hiện cộng đồng trong các mạng xã hội với tốc độ tính toán nhanh nhất, chất lượng phân cụm tốt ít nhất tương đương với thuật toán Girvan-Newman theo tiêu chí đánh giá độ đo Modularity.

 Chất lượng phân chia cụm của INC tốt hơn nhiều so với CNM xét trên độ đo mô đun hóa mật độ.

 Phân tích trực quan kết quả cho thấy việc phân chia cụm của INC khá chính xác.

2. Hướng phát triển của đề tài

Mặc dù đã rất cố gắng nhưng với thời gian thực hiện luận văn không nhiều, khối lượng kiến thức cần nghiên cứu nhiều nên luận văn vẫn còn tồn tại những hạn chế cần khắc phục trong thời gian tới, cụ thể như:

- Việc đánh giá kết quả cần tiến hành trên nhiều bộ dữ liệu hơn, kích thước dữ liệu lớn hơn .

- Cài đặt và đánh giá kết quả trên nhiều thuật toán hơn để thấy được đầy đủ hơn về những điểm mạnh, yếu của từng thuật toán.

- Hiển thị kết quả phân cụm trực quan hơn, có thể làm việc với các loại dữ liệu đầu vào khác nhau như file .gml...

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu, NXBGD.

2. Lê Minh Tiến (2006), “Tổng quan phương pháp phân tích mạng xã hội trong nghiên cứu xã hội”. Tạp chí khoa học xã hội. Số 9.

3. Nguyễn Hoàng Tú Anh (2009), Giáo trình "Khai thác dữ liệu và ứng dụng", Đại học Khoa học Tự nhiên TP. HCM.

Tiếng Anh

4. B. W. Kernighan and S. Lin, An efficient heuristic procedure for partitioning graphs. Bell System Technical Journal 49, 291-307 (1970).

5. Clauset A, Newman MEJ, Moore C (2004), Finding community structure in very large networks. Phys Rev E 70(6):066,111.

6. Doan Nhat Quang (2013), New models for hierarchical and topological clustering, Ph D Thesis PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ.

7. Girvan M, Newman MEJ (2002), Community structure in social and biological networks. PNAS 99(12):7821–7826.

8. Girvan, M. & Newman, M.E.J. (2004). Finding and evaluating community structure in networks. Physical review. E, Statistical, nonlinear, and soft matter physics, 69.

9. Hanene Azzag, Gilles Venturini, Antoine Oliver et Christiane Guinot (2007), A hierarchical ant based clustering algorithm and its use in three real-world applications,

European Journal of Operational Research, vol. 179, no. 3, June 2007.

10. H. Azzag, N. Monmarch´e, M. Slimane, G. Venturini, C. Guinot (2012), AntTree: a New Model for Clustering with Artificial Ants.

11. Istvan Jonyer, Diane J. Cook, Lawrence B. Holder (2002), Graph-Based Hierarchical Conceptual Clustering, Journal of Machine Learning Research.

12. M. Girvan, M. E. J. Newman (2002), Community structure in social and biological networks, Proc. Natl. Acad. Sci., 99(12), 7821.

13. M. E. J. Newman (2004), Fast algorithm for detecting community structure in networks. Phys. Rev. E 69, 066133.

14. Martin Rosvall, Carl T. Bergstrom (2007), "Maps of random walks on complex networks reveal community structure", Department of Biology, University of Washington, Seattle.

15. Newman, M.E.J. (2006). Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103, 8577-8582.

16. Newman, M.E.J. (2004). Detecting community structure in networks. The European Physical Journal B - Condensed Matter and Complex Systems, 38, 321-330.

17. Network data sets (truy cập ngày 10/2/2017) http://www-personal.umich.edu/~mejn/netdata/

18. P. Eades and Q.W. Feng (1996), Multilevel visualization of clustered graphs, In Proceedings of the Symposium on Graph Drawing, GD ’96, pages 101–112, Berkeley, California, USA, September 1996.

19. Pinney J,Westhead D (2007), Betweenness-based decomposition methods for social and biological networks. Interdiscipl StatBioinf pp 87–90.

20. Reinhard Diestel (2005), Graph Theory, Springer-Verlag Heidelberg, NY, 2005. 21. Santo Fortunato (2010), Community detection in graphs.

22. Social Networks Datasets (truy cập ngày 10/2/2017) https://snap.stanford.edu/data/#socnets

23. Teuvo Kohonen (2001), Self-Organizing Maps, Third Edition, Springer, Heidelberg.

24. Zhang S, Ning X, Ding C (2009), Maximizing modularity density for exploring modular organization of protein interaction networks. In: Third international symposium on optimization and systems biology, pp361–370

25. Zheng Chen (2009), Graph-based Clustering and its Application in Coreference Resolution, The Graduate Center, The City University of New York.

26. http://mbostock.github.com/d3/ 27. http://snap-graph.sourceforge.net 28. http://developers.facebook.com/ 29. http://julianhopkins.net 30. https://link.springer.com/article/10.1007/s13278-014-0170-z 31. http://www-personal.umich.edu/~mejn/netdata/

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 84 - 87)

Tải bản đầy đủ (PDF)

(87 trang)