Kết quả khi chạy phân cụm đồng thời nhiều thuộc tính

Một phần của tài liệu Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn (Trang 57 - 64)

Trong mục này luận văn sẽ thực hiện phân cụm đồng thời nhiều thuộc tính. Luận văn sẽ kết hợp số liệu thuộc các nhóm chuyên đề về dân số, đầu tư xây dựng, thương mại và giá cả, và giá trị sản xuất công nghiệp để phân tích. Các số liệu được đưa vào tệp chung là số liệu của năm 2013. Thứ tự các thuộc tính trong tệp sẽ lần lượt là: Lực lượng lao động từ 15 tuổi trở, Tỉ lệ lao động từ 15 tuổi trở lên so với dân số, Giá trị sản xuất xây dựng, Tổng mức bán lẻ hàng hóa và dịch vụ, Giá trị sản xuất công nghiệp. Vì đây là dữ liệu tổng hợp, đơn vị tính của các số liệu không giống nhau nên luận văn sẽ sử dụng thêm trọng số để chuyển các số liệu về cùng thang độ, đồng thời để xác định mức độ ảnh hưởng của các thuộc tính đến kết quả phân cụm. Luận văn tiếp tục sử dụng thuật toán MIPFGWC để thực hiện phân cụm dữ liệu, và chạy trong các trường hợp khi thay đổi trọng số. Luận văn sẽ thay đổi trọng số của 3 thuộc tính có ảnh hưởng nhiều đến sự phát triển kinh tế và phân loại mức độ giàu nghèo giữa các địa phương là lực lượng lao động, tỉ lệ lao động và giá trị sản xuất xây dựng.

Kết quả khi chạy thuật toán cho dữ liệu tổng hợp với tỉ lệ trọng số cho các thuộc tính tương ứng: Tỉnh/TP Tỉ lệ 1-1-1-1-1 1-1-3-1-1 1-3-1-1-1 3-1-1-1-1 HaNoi 2 2 2 3 HaTay 1 1 1 1

VinhPhuc 2 2 2 2 BacNinh 2 3 2 3 QuangNinh 2 2 2 2 HaiDuong 2 2 2 2 HaiPhong 2 2 2 2 HungYen 2 2 2 2 ThaiBinh 2 2 1 2 HaNam 2 2 1 2 NamDinh 2 2 1 2 NinhBinh 1 2 1 2 HaGiang 0 0 0 2 CaoBang 0 0 0 2 BacKan 1 1 1 1 TuyenQuang 0 0 0 0 LaoCai 1 2 1 2 YenBai 0 0 0 0 ThaiNguyen 1 2 1 2 LangSon 0 0 0 2 BacGiang 2 2 1 2 PhuTho 2 2 1 2 DienBien 0 0 0 2 LaiChau 1 1 1 1 SonLa 0 1 0 2 HoaBinh 0 0 0 2 ThanhHoa 2 2 2 2

NgheAn 2 2 1 2 HaTinh 0 1 0 2 QuangBinh 0 1 0 2 QuangTri 0 0 0 0 ThuaThienHue 1 2 1 2 DaNang 2 2 1 2 QuangNam 2 2 1 2 QuangNgai 2 2 2 2 BinhDinh 2 2 1 2 PhuYen 1 2 1 2 KhanhHoa 2 2 1 2 NinhThuan 0 0 0 2 BinhThuan 1 2 1 2 KonTum 0 0 0 2 GiaLai 0 0 0 2 DakNong 0 0 0 2 LamDong 0 1 0 2 BinhPhuoc 1 2 1 2 TayNinh 2 2 1 2 BinhDuong 2 3 2 3 DongNai 2 3 2 3 BaRiaVungTau 2 2 2 3 HoChiMinh 3 3 2 3 LongAn 2 2 2 2 TienGiang 2 2 1 2

Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa các trọng số

Bảng 3.6 cho thấy, khi điều chỉnh tỉ lệ giữa các trọng số thì kết quả phân cụm không thay đổi điều lắm. Các địa phương ở vùng đồng bằng hoặc thuộc các đô thị lớn là những nơi có số lượng người lao động từ 15 tuổi trở lên và tỉ lệ lao động so với dân số cao thường nằm ở nhóm có giá trị sản xuất công nghiệp và tổng mức bán lẻ hàng hóa và dịch vụ cao.

3.4Kết luận

Chương này đã trình bày kết quả cài đặt và đánh giá thử nghiệm với tập dữ liệu cụ thể cho các thuật toán: FCM, NE, FGWC, CFGWC, IPFGWC, MIPFGWC. Kết quả phân cụm được thể hiện trực quan trên bản đồ Việt Nam thông qua phần mềm MapWindow GIS, mỗi màu trên bản đồ tương ứng với một cụm dữ liệu. Kết quả thực nghiệm cho thấy, với tham số m = 3, các tham số khác giống nhau thì thuật toán MIPFGWC là thuật toán có thời gian chạy tốt nhất và có kết quả phân cụm đồng đều nhất trong số các thuật toán được trình bày ở trên. Kết quả này cũng phù hợp với kết quả kiểm chứng thực nghiệm trong các bài báo tương ứng trên các bộ dữ liệu chuẩn và các bộ đo chất lượng cụ thể. Cụ thể, thuật toán CFGWC đã được công bố trong [7] tại tạp chí “International Journal of Machine Learning and Computing”; thuật toán IPFGWC

BenTre 1 2 1 2 TraVinh 1 2 1 2 VinhLong 1 2 1 2 DongThap 2 2 1 2 AnGiang 2 2 1 2 KienGiang 2 2 1 2 CanTho 2 2 2 2 HauGiang 1 2 1 2 SocTrang 1 2 1 2 BacLieu 1 1 1 2 CaMau 2 2 1 2 DakLak 0 1 1 2

được công bố trong [8] tại tạp chí SCIE là “Expert Systems with Applications”; thuật toán MIPFGWC được công bố trong [6] tại tạp chí SCI là “Knowledge-Based Systems”; thuật toán CFGWC2 được công bố trong [5] tại tạp chí SCIE là “Applied Soft Computing”. Đây là các tạp chí trong chuyên ngành trí tuệ nhân tạo (Artifical Intelligence), nằm trong ISI và có chỉ số Impact Factor cao trong chuyên ngành và đều thuộc nhóm Q1 (First Quantile) theo bảng xếp hạng của SCIMago (SCIMago Journal Ranking). Khi thay đổi tham số m, thời gian chạy phân cụm giữa các thuật toán có sự thay đổi, lúc này thuật toán MIPFGWC lại là thuật toán có thời gian chạy lâu nhất.

KẾT LUẬN

Nội dung luận văn trình bày một số kết quả nghiên cứu đạt được sau đây

 Các kiến thức cơ bản về GIS và dữ liệu địa lý, bao gồm các định nghĩa về GIS, trình bày bài toán phân cụm và đưa ra một số thuật toán sử dụng trong phân cụm dữ liệu địa lý như thuật toán phân cụm mờ Fuzzy C-Means (FCM), thuật toán hiệu ứng hàng xóm NE và thuật toán FGWC, các thuật toán cải tiến thuật toán FGWC như CFGWC, CFGWC2, IPFGWC, MIPFGWC.

 Giới thiệu sơ lược về phần mềm mã nguồn mở MapWindow GIS và cách xây dựng một plug-in phân cụm dữ liệu địa lý chạy trên phần mềm MapWindow GIS.

 Cài đặt thử nghiệm các thuật toán trên bộ dữ liệu thực tế về một số chỉ tiêu kinh tế - xã hội của các địa phương ở Việt Nam từ thống kê của Tổng cục Thống kê Việt Nam, đánh giá về thời gian chạy của các thuật toán và mối liên hệ giữa các chuyên đề dữ liệu với nhau.

Ứng dụng của luận văn hoàn toàn có thể sử dụng với các bộ dữ liệu khác ngoài bộ dữ liệu của Việt Nam mà luận văn đã sử dụng trong phần thực nghiệm, và có thể sử dụng trong việc phân tích, đánh giá các số liệu thống kê theo một số chuyên ngành nhất định.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Nguyễn Hồng Phương, Đinh Văn Ưu (2006), Hệ thống thông tin địa lý và một số ứng dụng trong hải dương học. NXB Đại Học Quốc Gia Hà Nội.

2. Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương (2005), Giáo trình về hệ thống thông tin địa lý GIS và bản đồ. NXB Đại Học Quốc Gia Hà Nội.

Tiếng Anh

3. Bezdek, J.C., R. Ehrlich, et al (1984), FCM: the fuzzy c-means clustering algorithm, Computers and Geosciences, 10, pp.191-203

4. G. A.Mason, R. D. Jacobson (2007), Fuzzy Geographically Weighted Clustering. Proceedings of the 9th International Conference on

GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD- ROM).

5. Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization. Applied Soft Computing

6. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial interaction – modification model and applications to geo-demographic analysis. Knowledge-Based Systems.

7. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011)

Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm. International Journal of Machine Learning

and Computing.

8. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong

(2012), A Novel Intuitionistic Fuzzy Clustering Method for Geo- Demographic Analysis. Expert Systems with Applications.

9. R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in databases. University of Alberta. (adsbygoogle = window.adsbygoogle || []).push({});

Internet

11.Tài liệu Hướng dẫn sử dụng MapWindow 4.8.6, http://www.mapwindow.org/apps/wiki/lib/exe/fetch.php?media=quick_guid e_to_mapwindows_4.8.6.pdf

12. http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html 13. http://gadm.org/download (download shapefile bản đồ VN).

Một phần của tài liệu Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn (Trang 57 - 64)