Kết quả thể hiện trên đồ thị như sau:

C giao voi Seeds

Kết quả thể hiện trên đồ thị như sau:

Hình 3.8: Đồ thị thời gian thực hiện phân cụm của các thuật toán K-means, DBSCAN và DBRS trên các tập dữ liệu khác nhau.

Kết quả cho thấy, thời gian thực hiện của thuật toán K-means có dạng đường thẳng, phù hợp với độ phức tạp thuật toán O(tKn); thời gian phân cụm của DBSCAN và DBRS có dạng đường cong lên, phù hợp với độ phức tạp thuật toán O(NlogN). Đồ thị cũng cho thấy thuật toán DBRS có thời gian thực hiện thấp hơn DBSCAN do chỉ duyệt một số hữu hạn điểm ngẫu nhiên trong cơ sở dữ liệu.

Bảng so sánh thời gian thực hiện phân cụm với số lƣợng mẫu dữ liệu khác nhau

(với các tập dữ liệu đầu vào khác nhau,

thực hiện trên máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB)

Số mẫu dữ liệu Thời gian (ms) Các tham số phân cụm 64 mẫu 130 mẫu 270 mẫu 514 mẫu 1153 mẫu 2155 mẫu 4235 mẫu K-means 2 5 12 19 65 127 238 số cụm = 6 DBSCAN 8 14 19 35 117 717 1298 MinPts=4 DBRS 6 7 6 25 93 244 816 MinPts=4, minPur =0.8 , random sampling, alpha max

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

KẾT LUẬN

Sau một thời gian nghiên cứu và thử nghiệm, luận văn đã đáp ứng được các yêu cầu đặt ra trong đề cương. Cụ thể, luận văn đã thu được các kết quả sau đây:

Đã trình bày được một cách khái quát về Hệ thông tin địa lý và vấn đề khai phá dữ liệu không gian.

Học viên đã đi sâu nghiên cứu về phân cụm dữ liệu và phân cụm dữ liệu không gian. Luận văn đã trình bày được một số thuật toán hay được sử dụng trong phân cụm dữ liệu không gian như thuật toán K- means, thuật toán DBSCAN và DBRS.

Đã xây dựng được một chương trình thử nghiệm phân cụm các lớp dữ liệu điểm tiện ích, sử dụng trong bài toán cụ thể tính toán vị trí tối ưu đặt nhà hàng trong nội thành Hà Nội. Đã có các so sánh đánh giá 3 thuật toán sử dụng trong thử nghiệm. Các tiêu chí đánh giá bao gồm: thời gian chạy của mỗi thuật toán, khả năng phát hiện được nhiễu của thuật toán và biết được đồ thị thực hiện phân cụm của từng thuật toán.

Tuy nhiên, luận văn vẫn còn một số hạn chế như chưa thu thập được nhiều dữ liệu trong thử nghiệm; chưa có đánh giá nhận xét của người sử dụng. Ngoài ra luận văn chưa có được các nghiên cứu về các phương pháp khai phá dữ liệu khác như luật kết hợp, cây quyết định để so sánh với phân cụm dữ liệu trình bày trong luận văn.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

TÀI LIỆU THAM KHẢO

[1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học và kỹ thuật, Hà Nội, 2001.

[2] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, The MIT Press, 2001.

[3] Donato Malerba, Michelangelo Ceci, Annalisa Appice, Mining Model Trees from Spatial Data, Springer-Verlag Berlin Heidelberg 2005.

[4] Ester, M., Kriegel, H.-P., Sander, J., & Xu, X., A density-based algorithm for discovering clusters in large spatial databases with noise, Second Int. Conf. on Knowledge Discovery and Data Mining , (pp. 226-231). Portland, Oregon, 1996.

[5] Fayyad M, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, Advances in Knowledge Discovery and Data Mining. AAAI Press/ The MIT Press, 1996.

[6] Harvey J. Miller (Editor), Jiawei Han (Editor), Geographic Data Mining and Knowledge Discovery, Second Edition, Taylor&Francis LLC, 2009.

[7] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques. University of Illinois, Morgan Kaufmann Publishers, 2006.

[8] Jiawei Han, Micheline Lamber, “Datamining-Concept and Techniques”,

Chapter 7 - Classification and Prediction – Morgan Kaufman Publishers, 2001. [9] Longley et al., Geographical Information systems and Science, John Wiley & Sons Ltd, 2005.

[10] Oracle,OracleDataMiningConcepts10gRelease1(10.1), OracleCorporation, 2003.

[11] Raymond T. Ng, Jiawei Han, CLARANS: A Method for Clustering Objects for Spatial Data Mining, IEEE, 9-10, 2002.

[12] Tao Y., Papadias D., Performance Analysis of R*-trees with Arbitrary Node Extents, IEEE, 2004.

13] Wang, X., & Hamilton, H. J., DBRS- A Density-Based Spatial Clustering Method with Random Sampling, 7th PAKDD, (pp. 563-575). Seoul, Korea, 2003.

Kết quả thể hiện trên đồ thị như sau:

CHƢƠNG 2: PHÂN CỤM DỮ LIỆU KHÔNG GIAN 2.1 Khái quát về khai phá dữ liệu:

Tiến trình khai phá dữ liệu