Với f10 nhận giá trị 1 ta có cụm
Hình 3.7: Bảng với f10 nhận giá trị 1
Với kết quả này ta không phải phân cụm cho f10 có giá trị 1 nữa vì nhận thấy các giá trị trong cụm ã có ộ tƣơng ng khá cao, nếu tiếp tục phân cụm thì sẽ có tính lặp l i.
Tiếp tục phân cụm f10 nhận giá trị 0 ta có bảng Gian của các thuộc t nh nhƣ s u
Ta nhận thấy vì Gain của f13 và f14 là lớn nhất, nên ta chọn thuộc tính f13 hoặc f14 ể phân cụm. Giả sử ta lấy f13, với f13 vì có 2 giá trị 0 và 1 nên ta có:
Với f13 nhận giá trị b ng 0 ta có cụm:
Hình 3.9: Bảng f13 nhận giá trị bằng 0
Với f13 nhận giá trị b ng 1 ta có cụm:
Hình 3.10: Bảng f13 nhận giá trị bằng 1
Với kết quả này ta không phải phân cụm cho f13 có giá trị b ng 0 và b ng 1 nữa vì nhận thấy các giá trị trong các cụm ã có ộ tƣơng ng khá cao, nếu tiếp tục phân cụm thì sẽ có tính lặp l i.
Nhƣ vậy với tập dữ liệu 1, sau khi sử dụng thuật toán 2 – MSTs t thu ƣợc 4 cụm nhƣ s u:
KẾT QUẢ C C CỤM ĐƢ C PH N CHIA
Hình 3.13. Bảng kết quả ph n cụm sau khi tính entropy lần 2
Hình 3.14. Bảng kết quả ph n cụm sau khi tính entropy lần 2
Nhận xét:
Trong 4 cụm ã tách ƣợc từ tập dữ liệu, mỗi cụm có một s ặc trƣng ri ng nhƣ sau: Cụm có số chuyến bay hủy thì không có th y i lịch bay, cụm có th y i lịch bay thì không có số chuyến bay hủy, hay cụm không có số chuyến bay hủy cũng nhƣ kh ng có th y i lịch bay,.. từ những tri thức thu ƣợc n y nh iều khiển bay có thể tận dụng ể khai thác trên các sân bay hay thị trƣờng ó ể phục vụ cho lợi ích của mình.
Từ tập ữ i u 2:
Tập dữ liệu n y ƣợc thử nghiệm với 11 ối tƣợng và 10 thuộc tính, dữ liệu ƣ v o rất thiếu thực tế, không có tính logic nên t m gọi là dữ liệu không thực.
Hình 3.15. Bảng dữ liệu thử nghiệm lần 2
Hình 3.16. Bảng sau khi tính toán 1 và 2 nhận dạng tách cụm
Với cách thức thử nghiệm tƣơng tự nhƣ với tập dữ liệu 1, sau khi phân cụm thuật toán cũng ƣ r ƣợc 4 cụm nhƣ s u:
KẾT QUẢ C C CỤM ĐƢ C PH N CHIA
Hình 3.17. Bảng kết quả ph n cụm sau khi tính enropy lần 1
Hình 3.18. Bảng kết quả ph n cụm sau khi tính enropy lần 2
Nhận xét:
Vậy với dữ liệu không thực thì sau khi tiến hành thí nghiệm, kết quả vẫn cho ta là 4 cụm nhƣng thực chất là chỉ có 2 cụm vì có sự trùng lặp giữa các cụm. Vậy với dữ liệu xa thực tế với ngƣời sử dụng, không có tính logic thì kết quả sẽ bị sai lệch.
KẾT LUẬN
Sau một thời gian làm việc ƣới sự hƣớng dẫn tận tình của thầy giáo PGS.TS
Hoàng Xuân Huấn luận v n củ em ã t ƣợc các kết quả s u ây:
1. T ng hợp l i kiến thức về khám phá tri thức và phân cụm dữ liệu. 2. Tìm hiểu thuật toán 2-MSTs ã ƣợc ề xuất v c i ặt thuật toán.
3. Thử nghiệm thuật toán với 2 bộ dữ liệu li n qu n ến ng nh h ng kh ng v ƣ ra kết quả thử nghiệm, so sánh v ánh giá các kết quả.
- Do thời gian nghiên cứu có h n v n ng lực bản thân còn h n chế, luận v n chắc chắn sẽ còn nhiều thiếu sót. Tôi rất mong nhận ƣợc ý kiến óng góp của các Thầy Cô.
- Trong thời gian tới, tôi sẽ cố gắng tìm hiểu nhiều hơn nữa về các phƣơng pháp phân cụm dữ liệu ặc biệt l phƣơng pháp phân cụm dữ liệu dự tr n thị sử dụng cây khung cực tiểu và cố gắng mở rộng ứng dụng của thuật toán vào nhiều bài toán thực tế.
- Em xin cảm ơn Thầy PGS.TS. Hoàng Xuân Huấn về sự hỗ trợ chân thành và nhiệt tình trong suốt thời gian qua.
- Em xin gửi lời cảm ơn chân th nh ến các thầy c ộ ã giảng y các cán ộ trong kho c ng nghệ th ng tin kho s u i học ph ng t chức h nh ch nh
TÀI LIỆU THAM KHẢO Tiếng vi t
[1] PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu Trƣờng Đ i học công nghệ - Đ i Học Quốc Gia Hà Nội.
[2]. PGS.TS Đỗ Đức Giáo, Toán học rời r c Giáo tr nh kho CNTT ĐHKHTN ĐHQGHN 1998
Tiếng Anh
[3] Caiming Zhong1,2,3, Duoqian Miao1,2,4, Ruizhi Wang1,2, Agraph-theoretical clustering method based on two rounds ofminimum spanning trees,
1) Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China
2) Key Laboratory of Embedded System & Service Computing, Ministry of Education of China, Shanghai 201804, PR China
3) College of Science and Technology, Ningbo University, Ningbo 315211, PR China
4) Corresponding author at: Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China.
[4] Alan Rea (1009), Data mining - An introdution, The Parallel Computer Center, The Queen’s University of elf st
[5] Daniel T.Larose, Discovering knowledge in data, Wiley Publishing 2011.
[6] Jiawei Han, Micheline Kamber, Data Mining Concepts and techniques, Second Edition, Elsevier Inc, 2011.
[7] Ji wei H n n Micheline K m er (2001) “ t Mining: Concepts n Techniques”
Hacours Science and Technology Company, USA.
[8] L. John, “Operational Data Stores: Building an Effective Strategy”, Data Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 2009.
[9] P. Berkhin: Survey of Clustering Data Mining Techniques. Research paper. Accrue Software, Inc, http://www.accrue.com, 2009.
[10] Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data.
[11] niel r r Juli Couto Yi Li (Octo er 1 2001) “COOLCAT: An entropy- se lgorithm for c tegoric l clustering” George MasonUniversity Information and Software Engineering Department Fairfax, VA22030, pp. 582 - 589.
[12] MARIA HALKI I (2001) “On Clustering V li tion Techniques” Kluwer Academic Publishers, Holland
[13] Usama M. Fayyad, Gregory Piatetsky-Sh piro P hr ic Smyth (1996) “From t Mining to Knowle ge iscovery”: An Overview, Advances in Knowledge Discovery and Data Mining 1996, pp. 37 - 54.
[14] S. Ghosh, S.K. Dubey (2013), Comparative Analysis of K-Means and Fuzzy C- Means Algorithms, International Journal of Advanced Computer Science and Applications, Vol. 4, No.4, pp. 35-39.