Màu của các cụm thể hiện trên bản đồ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 68 - 75)

Ứng với mỗi màu là giá trị ngưỡng của từng vùng thể hiện diện tích của vùng đó : 1. Cụm 1 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích Trà Vinh 2306466349.96141000 Hà Tây 2198420357.81812000 Bà Rịa 1897727768.00838000 TP.HCM 2066159606.10698000 Tiền Giang 2395682910.39683000 Bạc Liêu 2477845384.00060000 Bến Tre 2335831224.56328000

2. Cụm 2 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích

Bình Thuận 7931209499.87932000 Hà Giang 7965348879.95733000 Quảng Bình 7970535688.36433000

3. Cụm 3 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích

Long An 4494400782.31278000

Quảng Ngãi 5160704548.38619000 Quảng Trị 4732815713.60740000 Thừa Thiên Huế 4910723589.51324000 Hoà Bình 4646402537.94947000

Bắc Kạn 4859193597.45612000

Cà Mau 5218144748.70507000

Phú Yên 5044337921.47458000

Khánh Hoà 4654650767.56896000

4. Cụm 4 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích Cần Thơ 1390738787.01743000 Hậu Giang 1668524192.12805000 Nam Định 1578709366.54696000 Thái Bình 1568190494.59102000 Hải Dương 1669703560.86509000 Hải Phòng 1469150996.24841000 Vĩnh Long 1525182363.36492000

Vĩnh Phúc 1379593422.68810000 Ninh Bình 1344958616.31649000

5. Cụm 5 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích Hà Nội 928687598.12337200 Hà Nam 858716696.47997500 Bắc Ninh 820360699.39168500 Đà Nẵng 970907556.69338800 Hưng Yên 928999578.03190100

6. Cụm 6 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích

Bình Phước 6877419453.00542000

Yên Bái 6882479934.64777000

Cao Bằng 6731253213.19871000

7. Cụm 7 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích Ninh Thuận 3365499564.62857000 Đồng Tháp 3384872662.40878000 An Giang 3531270754.93136000 Phú Thọ 3528100941.97684000 Sóc Trăng 3279399781.94320000 Thái Nguyên 3519460811.98890000

8. Cụm 8 gồm các tỉnh có diện tích trong bảng sau,có màu tương ứng

Tên tỉnh Diện tích Bình Định 6088895513.91577000 Kiên Giang 5671223574.45134000 Đồng Nai 5864516875.34936000 Hà Tĩnh 5965176316.08120000 Tuyên Quang 5856151989.93284000

9. Cụm 9 gồm các tỉnh có diện tích trong bảng sau, có màu tương ứng

Tên tỉnh Diện tích

KonTum 9701408885.31946000

Lâm Đồng 9805398945.81017000

Điện Biên 9555554460.34819000

10. Dữ liệu nhiễu, gồm các tỉnh có trong bảng sau, có màu tương ứng :

Tên tỉnh Diện tích Lai Châu 9064692970.74260000 Dak Lak 13056916420.91960000 Thanh Hóa 11081201760.42950000 Bình Dương 2694298932.12171000 Lạng Sơn 8332655997.71043000 Gia Lai 15546790014.26880000 Nghệ An 16472772022.04940000 Lào Vai 6365280822.59326000 Quảng Nam 10575354974.70630000 Tây Ninh 4038211065.51171000 Quảng Ninh 8338898984.12761000 Bắc Giang 3891015737.61691000 Sơn La 14109151761.35610000 Dak Nong 6513693510.52517000 Kết luân:

Trên đây là cài đặt thử nghiệm giải thuật DBSCAN với bài toán phân cụm dữ liệu bản đồ cả nước dựa vào diện tích các tỉnh. Đây là một bài toán đơn giản là một ứng dụng phân cụm dựa trên diện tích (hoặc tương tự với các tham số khác như: phân cụm về dân số, loại đất, cháy rừng, động đất, dịch bệnh ...) Tuy nhiên, tùy vào yêu cầu từng bài toán thực tế mà có thể phát triển bài toán trên thành sản phẩm hoàn chỉnh có thể ứng dụng rộng rãi.

KẾT LUẬN

Các vấn đề đã đƣợc tìm hiểu trong luận văn

Luận văn tập trung nghiên cứu tổng quan về KPDL nói chung và PCDL nói riêng và áp dụng giải thuật DBSCAN để phân cụm bản đồ hành chính Việt Nam dựa trên diện tích của các tỉnh trên cả nước. Đây là bước khởi đầu trong quá trình tìm hiểu những vấn đề cần quan tâm khi giải quyết các bài toán khai phá dữ liệu trong thực tế.

Những kết quả mà luận văn đã thực hiện:

+ Về lý thuyết, luận văn tập trung tìm hiểu một số kỹ thuật phân cụm.

+ Về thực tiễn, luận văn đã đưa ra các kết quả cài đặt thử nghiệm của bài toán phân cụm bản đồ Đơn vị hành chính Việt Nam dựa vào diện tích các tỉnh trên cả nước bằng giải thuật DBSCAN. Đây là một bài toán đơn giản là một ứng dụng phân cụm dựa trên diện tích hoặc tương tự với các tham số khác như: phân cụm về dân số, loại đất, cháy rừng, động đất, dịch bệnh ... tùy vào từng bài toán thực tế mà có thể phát triển thành sản phẩm hoàn chỉnh có thể ứng dụng rộng rãi.

Qua quá trình thực nghiệm và nghiên cứu lý thuyết có thể đưa ra một số kết luận như sau:

• Mỗi một giải thuật phân cụm áp dụng cho một số mục tiêu và kiểu dữ liệu nhất định.

• Mỗi giải thuật có một mức độ chính xác riêng và khả năng thực hiện trên từng kích thước dữ liệu là khác nhau. Điều này còn tuỳ thuộc vào cách thức tổ chức dữ liệu ở bộ nhớ chính, bộ nhớ ngoài... của các giải thuật.

• Khai phá dữ liệu sẽ hiệu quả hơn khi bước tiền xử lý, lựa chọn thuộc tính, mô hình được giải quyết tốt.

Hƣớng nghiên cứu tiếp theo

Hướng phát triển tiếp theo của đề tài là đi sâu vào nghiên cứu các kỹ thuật phân cụm áp dụng với cơ sở dữ liệu không gian để áp dụng vào giải quyết các bài phân cụm cơ sở dữ liệu không gian ứng dụng trong ngành Tài nguyên và Môi trường.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Vũ Đức Thi, Cơ sở dữ liệu – Kiến thức và thực hành, Nhà xuất bản Thống kê, 1997

[2]. Nguyễn Xuân My, Hỗ Sĩ Đàm, Trần Đỗ Hùng, Lê Sĩ Quang, Một số vấn đề về chọn lọc trong môn tin học, Nhà xuất bản Giáo dục, 2002, Trang 73- 108 [3]. Phan Đình Diệu, Tri thức là gì? Đại học Quốc gia Hà Nội.

Tiếng Anh

[4]. Han J. and Kamber M., Data Mining: Concepts and Techniques, Morgan Kaufman, Academic Press. 2001.

[5]. Burosch G., Demetrovics J., Katona G. O. H. (1987), The poset of closures as a model of changing databases, Oder 4, pp. 127-142.

[6]. J.R, QUINLAN, Machine Learning 1, 81-106, 1986, © 1986 Kluwer Academic Publishers, Boston - Manufactured in The Netherlands.

[7]. H. Huang, X. Wu, and R.Relue (2002), Asociation analysis with one scan of databases. In IEEE International Conference on Data Mining, pages 629-836, Decenber.

[8]. Utgoff P.E, Article: Incremental induction of Decision Trees, Univerity of Massacuhsetts, 1989.

[9].Tutorial: Decision Tree: ID3, Monhash University, 2003, http://www.cs.bham.ac.uk/resources/courses/ai-intro/docs/dt/

[10]. Agrawal, Rakesh, Johannes Gehrke, Dimitrios Gunopulos and Prahhakar Raghavan. Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications. Proceedings of the 1998 ACM-SIGMOD International

Conference on Management of Data, Seattle, Washington, June 1998.

[11]. Ester, Martin, Hans-Peter Kriegel, Jörg Sander and Xiaowei Xu.(1996). A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). Portland, Oregon, August 1996.

[12]. Guha, Sudipto, Rajeev Rastogi and Kyuseok Shim. (1998). CURE: An Efficient Clustering Algorithm for Large Databases. Proceedings of ACM

SIGMOD-International Conference on Management of Data. New York, NY

1998. pp 73—84. (CURE)

[13]. Hinneburg, Alexander and Daniel A Keim. (1998). An Efficient Approach to

Clustering in Large Multimedia Databases with Noise. Proceedings of the 4th

International Conference on Knowledge Discovery and Data Mining, (KDD98). New York, August 1998. pp. 58—65.

[14]. Pavel Berkhin, Survey of Clustering Data Mining Techniques. Accrue Software, Inc., San Jose.

[15] Ng, Raymond T. and Jiawei Han. Efficient and Effective Clustering Methods for Spatial Data Mining. Proceedings of the 20th Very Large Databases- Conference (VLDB 94), Santiago, Chile. pp 144-155. (CLARAN)

[16] Wang, Wei, Jiong Yang, and Richard Muntz, STING: A Statistical Information Grid Approach to Spatial Data Mining. Proceedings of the 23rd Very Large Databases Conference (VLDB 1997), Athens, Greece, 1997.

[17] Zhang, Tian, Raghu Ramakrishnan, and Miron Chinh hay Livny. (1996).

BIRCH: An Efficient Data Clustering Method for Very Large Databases.

Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada, pp. 103-114, 1996.

PHỤ LỤC

PHỤ LỤC 1: GIAO DIỆN CHƢƠNG TRÌNH

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 68 - 75)

Tải bản đầy đủ (PDF)

(102 trang)