Kết quả thí nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu (Trang 59 - 68)

2.2 .Một số giải thuật tối ƣu hóa cụm

4.3. Kết quả thí nghiệm

Các thông số về kỹ thuật phân cụm VAMOSA được trình bày trên như sau: Tmax=50, Tmin=0.1, α=0.8, SL=20 và HL=5. Kmax bằng trong đó n là kích thước của tập hợp số liệu. AMOSA dựa trên kỹ thuật phân cụm đa mục tiêu tự động tạo ra số lượng lớn các giải pháp không bị kiềm chế trên bề mặt tối ưu Pareto cuối cùng. Giải pháp tốt nhất được xác định bởi phương pháp nửa giám sát.

Các kết quả thu được:

Trong hình 4.2 thể hiện kết quả như sau: Gồm có 5 phương án trong mảng tối ưu. Với mỗi phương án thể hiện số tâm cụm, tọa độ tâm cụm và hai chỉ số đánh giá SYM, XB cho mỗi phương án. Dựa vào phương pháp nửa giám sát có thể xác định được phương án nào tối ưu nhất tùy từng trường hợp cụ thể. Như trên thì dựa vào hai chỉ số đánh giá chúng ta có thể thấy phương án 1 là phương án tối ưu nhất. Các cụm được thể hiện như sau:

Hình 4.3. Kết quả phân cụm của phương án 1 là 3 cụm.

Hình 4.5. Kết quả phân cụm của phương án 3 là 5 cụm.

Hình 4.7. Kết quả phân cụm của phương án 5 là 7 cụm.

Tập dữ liệu Iris:

Hình 4.8. Mảng lưu trữ của tập dữ liệu Iris

Trong hình 4.8 thể hiện kết quả như sau: Gồm có 5 phương án trong mảng tối ưu. Với mỗi phương án thể hiện số tâm cụm, tọa độ tâm cụm và hai chỉ số đánh giá SYM, XB cho mỗi phương án. Như trên thì dựa vào hai chỉ số đánh giá chúng ta có thể thấy phương án 1 là phương án tối ưu nhất. Các cụm được thể hiện như sau:

Hình 4.9. Kết quả phân cụm của phương án 1 là 3 cụm.

Hình 4.11. Kết quả phân cụm của phương án 3 là 5 cụm.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Sau thời gian nghiên cứu, được sự hướng dẫn tận tình của Thầy giáo PGS.TS.Hoàng Xuân Huấn, tôi đã trình bày luận văn “Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu”. Luận văn đã đạt được hai kết quả chính như sau:

1./ Nghiên cứu tài liệu để hệ thống lại các vấn đề sau: - Khám phá tri thức và phân cụm dữ liệu.

- Một số phương pháp phân cụm chính.

- Nghiên cứu giải thuật tối ưu trong phân cụm dữ liệu. - Phân cụm dữ liệu đa mục tiêu.

2./ Luận văn đã cài đặt thuật toán tối ưu đa mục tiêu VAMOSA.

Luận văn đã chạy thử nghiệm với 3 bộ dữ liệu với CSDL với nhiều thuộc tính và nhiều bản ghi, trong đó có thử nghiệm với một bộ dữ liệu thực tế.

Hƣớng nghiên cứu tiếp theo.

Trong thời gian tới, tôi sẽ cố gắng tìm hiểu nhiều hơn nữa về các phương pháp tối ưu cụm và phương pháp phân cụm dữ liệu, đặc biệt là phương pháp phân cụm dữ liệu đa mục tiêu và cố gắng mở rộng ứng dụng của thuật toán phân cụm đa mục tiêu vào nhiều bài toán thực tế.

Ngoài ra, việc tối ưu cụm trong phân cụm đa mục tiêu cho tập dữ liệu rất quan trọng và nó cũng là một hướng nghiên cứu mà tôi quan tâm.

Do thời gian nghiên cứu có hạn cộng với năng lực bản thân còn hạn chế, luận văn chắc chắn sẽ không tránh khỏi một số sai sót nhất định. Tôi rất mong nhận được ý kiến đóng góp của các Thầy Cô, các bạn đồng nghiệp cùng các cá nhân quan tâm để nội dung luận văn được hoàn thành với chất lượng tốt hơn.

Cuối cùng, Em xin cảm ơn Thầy giáo PGS.TS. Hoàng Xuân Huấn đã tận tình giúp đỡ em hoàn thành nội dung nghiên cứu đề ra. Em xin cảm ơn các Thầy Cô tong Khoa Công Nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tận tình giảng dạy cung cấp kiến thức cho em trong suốt khóa học.

TÀI LIỆU THAM KHẢO Tiếng việt

1. PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học

công nghệ - Đại Học Quốc Gia Hà Nội.

2. Đỗ Thị Hòa (2011, Tóm tắt dữ liệu quan hệ sử dụng thuật toán di truyền nửa giám sát dựa trên kỹ thuật phân cụm, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội, Luận văn thạc sỹ.

Tiếng anh

3. Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data.

4. Jiawei Han, Micheline Kamber and Anthony K. H. Tung, Spatial Clustering Methods In Data Mining: A Survey, Natural Science and Engineering Research Council of Canada.

5. Kuo-Lung Wu, Miin-Shen Yang, Alternative c-means clustering algorithms, Pattern Recognition 35 (2002) 2267–2278.

6. Sriparna Saha, Sanghamitra Bandyopadhyay, A symmetry based multiobjective clustering technique for automatic evolution of clusters, Pattern Recognition 43(3): 738-751 (2010)

7. B. Suman, Study of self-stopping PDMOSA and performance measure in

multiobjective optimization, Computers and Chemical Engineering, vol. 29, no. 5, pp. 1131-1147, 15 April 2005.

8. K. Smith, R. Everson, and J. Fieldsend, Dominance measures for multi-objective simulated annealing, in Proceedings of the 2004 IEEE Congress on Evolutionary Computation (CEC'04), 2004, pp. 23-30.

9. Garcia Najera, Abel (2010) Multi-Objective evolutionary algorithms for vehicle routing problems. Ph.D. thesis, University of Birmingham.

10. Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,

automatic evolution of clusters, IEEE Transactions on Knowledge and Data Engineering 20 (11) (2008) 1–17.

12. Handl, J. Knowles, An evolutionary approach to multiobjective clustering, IEEE Transactions on Evolutionary Computation 11 (1) (2007) 56–76.

13. K. Deb, Multi-Objective Optimization Using Evolutionary Algorithms, Wiley, England, 2001.

14. X.L. Xie, G. Beni, A validity measure for fuzzy clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence 13 (1991) 841–847.

15. S. Saha, S. Bandyopadhyay, Application of a new symmetry based cluster validity index for satellite image segmentation, IEEE Geoscience and Remote Sensing Letters 5 (2) (2008) 166–170.

16. S. Bandyopadhyay, S. Saha, GAPS: a clustering method using a new point symmetry based distance measure, Pattern Recognition 40 (2007) 3430–3451. 17. S. Bandyopadhyay, S. Saha, U. Maulik, K. Deb, A simulated annealing

based multi-objective optimization algorithm: AMOSA, IEEE Transactions on Evolutionary Computation 12 (3) (2008) 269–283.

18. S. Bandyopadhyay, U. Maulik, Genetic clustering for automatic evolution of clusters and application to image classification, Pattern Recognition 2 (2002) 1197–1208.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu (Trang 59 - 68)

Tải bản đầy đủ (PDF)

(68 trang)