2.3 Thực nghiệm thuật toán phân hoạch
2.3.4 Phân tích đánh giá kết quả thực nghiệm
Kết quả phân cụm theo thuật toán K-Means và K-Medoids với k=3 và số mẫu tin = 200 được thể hiện ở bảng 1 và bảng 2:
Status_Type
Cụm dữ liệu
Video Photo Link Status
Cluster 1 57 2 0 0
Cluster 2 31 104 1 1
Cluster 3 2 1 0 0
Bảng 2.1: Kết quả phân cụm dữ liệu trên Facebook bằng thuật toán K-Means
Trong bảng 1, cho thấy ở cụm 1 và cụm 2, hai trạng thái Video và Photo có số lượng thành viên trên Facebook phản ứng (reaction) và bình luận (comment) nhiều hơn so với cụm 3.
39
Hình 2.8: Biểu đồ phân cụm dữ liệu trên Facebook bằng thuật toán K-Means
Dưới đây là bảng kết quả phân cụm dữ liệu bằng thuật toán K-Medoids Status_Type
Cụm dữ liệu
Video Photo Link Status
Cluster 1 60 47 0 0
Cluster 2 14 1 0 0
Cluster 3 16 59 1 1
Bảng 2.2: Kết quả phân cụm dữ liệu trên Facebook bằng thuật toán K-Medoids
Trong bảng 2, cho thấy ở cụm 1 và cụm 3, hai trạng thái Video và Photo có số lượng thành viên trên Facebook phản ứng(reaction) và bình luận (comment) nhiều hơn so với cụm 2.
Hình 2.9: Biểu đồ phân cụm dữ liệu trên Facebook bằng thuật toán K-Medoids
0 20 40 60 80 100 120
Cluster 1 Cluster 2 Cluster 3
Biểu đồ phân cụm trạng thái trên Facebook
Video Photo Link Status
0 10 20 30 40 50 60 70
Cluster 1 Cluster 2 Cluster 3
Chart Title
40
Bảng 3 thể hiện so sánh tốc độ thời gian thực hiện của hai thuật toán K-Means và K-Medoids (theo đợn vị giây) trên số mẫu dữ liệu là 200 bản ghi và 3 thuộc tính
Thuật tốn Số cụm K-Means K-Medoids 3 58.437 27.525 4 73.531 27.926 5 86.791 27.478 6 100.432 28.385
Bảng 2.3: Thời gian thực hiện phân cụm bằng thuật tốn K-Means và K-Medoids
Hình 2.10: Biểu đồ so sánh giữa thuật tốn K-Means và K-Medoids
Theo hình 2.10, cho thấy thuật tốn K-Medoids tốt hơn so với thuật toán K-Means về thời gian thực hiện phân cụm. Ngoài ra theo hình 2.8, kết quả phân cụm trên 2 nhóm dữ liệu trạng thái Video và Photo thì thuật tốn K-Medoids phân cụm chính xác hơn dựa trên 3 thuộc tính dữ liệu num_reactions, num_comments và num_shares.
0 20 40 60 80 100 120 3 4 5 6
Biểu đồ so sánh tốc độ phân cụm của 2 thuật toán
41
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận:
Đề tài đã thực hiện được mục tiêu nghiên cứu với các nội dung sau:
- Nghiên cứu và tiếp cận tổng quan về phân cụm dữ liệu trong tiến trình khai phá dữ liệu và tính ứng dụng thực tiễn của phân cụm trong các lĩnh vực kinh tế - xã hội
- Nghiên cứu các kiểu dữ liệu và độ đo để tính độ tương tự hoặc độ phi tương tự giữa các đối tượng dữ liệu để làm cơ sở tính khoảng cách giữa các đối tượng trong phân cụm dữ liệu. - Nghiên cứu các kỹ thuật phân cụm chính như sau : phân cụm phân họach, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mơ hình phân cụm và phân cụm có dữ liệu ràng buộc để làm cơ sở tiếp cận các thuật toán ứng dụng về phân cụm trong 2 mơ hình phân hoạch và phân cấp điển hình là các thuật tốn K-Means, K-Medoids (PAM), Agnes, Diana, Birch.
- Cài đặt thực nghiệm 2 thuật tốn K-Means và K-Medoids bằng ngơn ngữ lập trình C# với tệp dữ liệu dạng .CSV được chọn lọc trên địa chỉ có uy tín về dữ liệu bán hàng online trên Facebook tại Thái Lan.
- Đánh giá được kết quả thực nghiệm của chương trình thực nghiệm của 2 thuật tốn, bước đầu có được sự so sánh dữ liệu đầu ra và tốc độ thực thi của 2 thuật toán.
2. Hướng phát triển
- Với kết quả bước đầu về nghiên cứu và cài đặt thực nghiệm 2 thuật tốn dựa trên mơ hình kỹ thuật phân hoạch, tuy nhiên đề tài chỉ mới thực nghiệm với kích thước tập dữ liệu không lớn do vậy đề tài cần tiếp tục thực nghiệm trên mơ hình dữ liệu lớn hơn và cơng cụ máy tính mạnh hơn về cấu hình để có sự đánh giá chính xác hơn về kết quả phân cụm.
- Đề tài tiếp tục nghiên cứu về độ đo chất lượng phân cụm [12] để làm cơ sở đánh giá sự gắn kết cụm như mật độ, khoảng cách giữa các phần tử bên trong cụm hoặc khoảng cách giữa các cụm.
- Đề tài tiếp tục nghiên cứu và thực nghiệm với các thuật tốn khác của các mơ hình kỹ thuật khác như phân cấp, phân cụm dựa trên mật độ, v.v…
42
TÀI LIỆU THAM KHẢO
[1] Đặng Thị Thu Hiền, “Cluster Analysis”, Bài giảng của DSLab, Viện nghiên cứu cao cấp về Toán (VIASM).
[2] Nguyễn Văn Huân, “Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự
động”, Khoa Công nghệ thông tin – Đại học Thái Ngun, Tạp chí khoa học & cơng nghệ,
2018.
[3] J. Han and M. Kamber, “Data Mining: Concepts and Techniques”, 3rd ed.
http://www.cs.illinois.edu/~hanj/bk3/.
[4] Ian H.Witten, Frank Eibe, Mark A. Hall, “Data mining : practical machine learning
tools and techniques”, Third Edition, Elsevier Inc, 2011.
[5] Pradeep Rai & Shubha Singh, “A Survey of Clustering Techniques”, IJCA, Volume 7– No.12, October 2010.
[6] Pavel Berkhin, “Survey of Clustering Data Mining Techniques”, Accrue Software, Inc. [7] Niraj N Kasliwal, Prof Shrikant Lade, “Introduction of Clustering by using K-Means
Methodology” , International Journal of Engineering Research & Technology, Vol. 1 Issue 10,
December- 2012.
[8] Oren Zamir and Oren Etzioni, “Web document Clustering: A Feasibility Demonstration”, University of Washington, USA, ACM, 1998.
[9] Jame McCaffrey, “K-Means data clustering using C#”, Visual Studio Magazine, 2013 (https://visualstudiomagazine.com/Articles/2013/12/01/K-Means-Data-ClusteringUsing- C.aspx?Page=1).
[10] Abhishek Patel, Purnima Singh, “New Approach for K-mean and K-medoids
Algorithm”, International Journal of Computer Applications Technology and Research,
Volume 2– Issue 1, 1-5, 2013.
[11] UCI, Center for Machine Learning and Intelligent Systems, University of California, Irvine, https://cml.ics.uci.edu/
[12] Darius Pfitzner, Richard Leibbrandt, David M. W. Powers, “Characterization and evaluation of similarity measures for pairs of clusterings”. Knowl. Inf. Syst. 2009.
43 Chủ nhiệm đề tài
Th.s Đồn Cơng Phúc
Phản biện 1 Phản biện 2
T.s Trần Duy Anh Th.s Đậu Tuấn
Chủ tịch hội đồng