Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ KHÁNH LINH PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA CÁC ĐỊA PHƯƠN
Trang 1
Hà Nội – 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ KHÁNH LINH
PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA
CÁC ĐỊA PHƯƠNG Ở VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480101
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa
Hà Nội - 2015
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu Trong quá trình làm luận văn, tôi có tham khảo các tài liệu
có liên quan và đã ghi rõ nguồn tài liệu tham khảo
Hà Nội, ngày tháng năm 2015
Học viên
Nguyễn Thị Khánh Linh
Trang 3LỜI CẢM ƠN
Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Đình Hóa – Viện CNTT – Trường Đại học Quốc gia Hà Nội và thầy giáo TS
Lê Hoàng Sơn – ĐH Khoa học Tự nhiên đã trực tiếp hướng dẫn và tận tình giúp đỡ em trong suốt thời gian thực hiện luận văn
Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia
Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa
Trong quá trình thực hiện luận văn, em cũng nhận được sự giúp đỡ rất nhiều từ các thầy cô, các anh chị và các bạn tại Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên Luận văn này được thực hiện dưới sự tài trợ của đề tài cấp ĐHQG, mã số: QG.14.60
Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, những người đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để em có thể hoàn thành luận văn
Hà Nội, ngày tháng năm 2015
Học viên
Nguyễn Thị Khánh Linh
Trang 4MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 5
DANH MỤC CÁC HÌNH VẼ 7
DANH MỤC CÁC BẢNG BIẾU 8
MỞ ĐẦU 9
CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 10
1.1 GIS và dữ liệu địa lý 10
1.1.1 GIS 10
1.1.2 Dữ liệu địa lý Error! Bookmark not defined.
1.1.2.1 Dữ liệu không gian Error! Bookmark not defined.
1.1.2.2 Dữ liệu thuộc tính Error! Bookmark not defined.
1.2 Tổng quan về phân cụm dữ liệu địa lý Error! Bookmark not defined.
1.2.1 Khái niệm về phân cụm dữ liệu Error! Bookmark not defined.
1.2.2 Ứng dụng của phân cụm dữ liệu địa lý Error! Bookmark not defined.
1.2.3 Các thuật toán phân cụm dữ liệu địa lý Error! Bookmark not defined.
1.2.3.1 Thuật toán FCM Error! Bookmark not defined.
1.2.3.2 Thuật toán NE Error! Bookmark not defined.
1.2.3.3 Thuật toán FGWC Error! Bookmark not defined.
1.2.3.4 Thuật toán CFGWC Error! Bookmark not defined.
1.2.3.5 Thuật toán CFGWC 2 Error! Bookmark not defined.
1.2.3.6 Thuật toán IPFGWC Error! Bookmark not defined.
1.2.3.7 Thuật toán MIPFGWC Error! Bookmark not defined.
1.3 Kết luận Error! Bookmark not defined.
CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ
VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOWError! Bookmark not defined.
Trang 52.1 MapWindow và các plug-in để mở rộng chức năngError! Bookmark not defined.
2.1.1 Các phần mềm GIS Error! Bookmark not defined.
2.1.2 Phần mềm GIS MapWindow Error! Bookmark not defined.
2.1.3 Xây dựng và sử dụng plug-in với MapWindowError! Bookmark not defined.
2.1.3.1 Quy tắc chung Error! Bookmark not defined 2.1.3.2 Các bước cụ thể Error! Bookmark not defined.
2.2 Phân tích thiết kế plug-in để thực hiện các thuật toán phân cụm Error! Bookmark not defined.
2.2.1 Mô hình ca sử dụng Error! Bookmark not defined 2.2.1.1 Mô hình ca sử dụng tổng thể của plug-in Error! Bookmark not defined 2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệuError! Bookmark not defined.
2.2.2 Mô tả ca sử dụng Error! Bookmark not defined.
2.2.3 Biểu đồ lớp phân tích Error! Bookmark not defined.
2.2.4 Thiết kế lớp Error! Bookmark not defined 2.2.4.1 Lớp giao diện Error! Bookmark not defined 2.2.4.2 Lớp điều khiển Error! Bookmark not defined.
2.3 Kết luận Error! Bookmark not defined.
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁError! Bookmark not defined.
3.1 Dữ liệu thực nghiệm Error! Bookmark not defined.
3.1.1 Chuẩn bị dữ liệu không gian Error! Bookmark not defined.
3.1.2 Chuẩn bị bộ dữ liệu phân cụm Error! Bookmark not defined.
3.2 Các kịch bản chạy thử Error! Bookmark not defined.
3.3 Một số kết quả khi chạy chương trình Error! Bookmark not defined.
3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ
liệu chuyên đề Error! Bookmark not defined.
3.3.2 Kết quả khi chạy nhiều chuyên đề với một thuật toánError! Bookmark not defined.
Trang 63.3.3 Kết quả khi chạy phân cụm đồng thời nhiều thuộc tínhError! Bookmark not defined.
3.4 Kết luận Error! Bookmark not defined. KẾT LUẬN Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO 11
Trang 7DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT Từ viết tắt/thuật
ngữ
System
Hệ thống thông tin địa
lý
vùng lân cận
mờ
Weight Clustering
Thuật toán phân cụm
dữ liệu theo trọng số địa lý
Geographically Weight Clustering
Thuật toán phân cụm địa lý kết hợp ngữ cảnh
8 IPFGWC Intuitionistic Possiblistic
Fuzzy Geographically Weighted Clustering
Thuật toán phân cụm địa lý trên tập mờ trực cảm
9 MIPFGWC Modification Intuitionistic
Possiblistic Fuzzy Geographically Weighted Clustering
Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm
10 KMIPFGWC Kernel-based Modification
Intuitionistic Possiblistic Fuzzy Geographically Weighted Clustering
Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm sử dụng hàm nhân
Trang 813 SIM Spatial Interaction Model Mô hình tương tác
không gian
Modification Model
Mô hình tương tác - hiệu chỉnh không gian
Trang 9DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ về dữ liệu thuộc tính Error! Bookmark not defined Hình 1.2 Dữ liệu địa lý Error! Bookmark not defined Hình 2.1 Mô hình ca sử dụng tổng quan của plug-inError! Bookmark not defined.
Hình 2.2 Mô hình usecase chức năng phân cụmError! Bookmark not defined.
Hình 2.3: Biểu đồ lớp của plug-in Error! Bookmark not defined Hình 2.4 Lớp giao diện chính của plug-in Error! Bookmark not defined Hình 2.5 Lớp giao diện của chức năng phân cụmError! Bookmark not defined.
Hình 2.6 Lớp giao diện tải chuyên đề Error! Bookmark not defined Hình 2.7 Lớp giao diện nhập tham số thuật toánError! Bookmark not defined.
Hình 2.8 Lớp điều khiển tính toán phân cụm Error! Bookmark not defined Hình 2.9 Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính Error! Bookmark not defined.
Hình 2.10 Lớp điều khiển Reset bảng thuộc tínhError! Bookmark not defined.
Hình 3.1 Dữ liệu chuyên đề ở dạng file csv Error! Bookmark not defined Hình 3.2 Dữ liệu chuyên đề ở dạng file txt Error! Bookmark not defined Hình 3.3 Giao diện chương trình khi tải layer và bật plug-inError! Bookmark not defined.
Hình 3.4 Giao diện in bản đồ Error! Bookmark not defined.
Hình 3.5 Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán
lẻ hàng hóa và dịch vụ” với số cụm bằng 4 Error! Bookmark not defined.
Trang 10DANH MỤC CÁC BẢNG BIẾU
Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức
bán lẻ hàng hóa và dịch vụ” Error! Bookmark not defined.
Bảng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham
số Error! Bookmark not defined.
Bảng 3.3:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham
số Error! Bookmark not defined.
Bảng 3.4:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham
số Error! Bookmark not defined.
Bảng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề:
“Tổng mức bán lẻ hàng hóa và dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất
công nghiệp” giai đoạn 2005-2013 Error! Bookmark not defined.
Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa
các trọng số Error! Bookmark not defined.
Trang 11MỞ ĐẦU
Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và làcông cụ trợ giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc gia trên thế giới Hiện nay, GIS được phát triển và ứng dụng ngày càng nhiều tại Việt Nam Trong sự phát triển của đất nước ta hiện nay, việc tổ chức quản lý thông tin địa
lý một cách tổng thể có có vai trò rất quan trọng trong việc sử dụng có hiệu quả hơn nguồn tài nguyên của đất nước GIS giúp các cơ quan chính phủ có cái nhìn khách quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các
dữ liệu không gian và dữ liệu thuộc tính
Các dữ liệu về kinh tế, xã hội, môi trường… đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này
Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được
sử dụng khá nhiều Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ, dựa trên mô hình, dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng
Đề tài nghiên cứu hướng tới các thuật toán phân cụm dữ liệu không gian Trên
cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm
Bố cục của luận văn gồm 3 chương:
Chương 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật toán sử dụng trong phân cụm dữ liệu địa lý
Chương 2: Trình bày cách thức xây dựng ứng dụng phân cụm dữ liệu và thể hiện một số chỉ tiêu kinh tế xã hội của các địa phương ở Việt Nam dựa trên phần mềm
mã nguồn mở MapWindow
Chương 3: Chạy chương trình trên số liệu thực tế thu thập được với từng thuật toán, so sánh kết quả từng thuật toán Đánh giá, phân tích một số kết quả đầu ra của các thuật toán phân cụm
Trang 12CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU
ĐỊA LÝ 1.1 GIS và dữ liệu địa lý
1.1.1 GIS
Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài người Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao cho ngày càng đầy đủ thông tin và chính xác hơn Với sự đa dạng của các loại bản đồ trong việc thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức được sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ Các mô hình đồ họa cổ điển xử lý thông tin bản đồ gặp rất nhiều khó khăn trong xử lý đồng thời dữ liệu không gian và dữ liệu thuộc tính Điều này đã dẫn đến sự phát triển các phương pháp và kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra quyết định [1]
Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã cho ra đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa mọi thành tựu trong ngành bản đồ cả về ý tưởng lẫn thành tựu của kỹ thuật bản đồ Hệ thông tin địa lý bắt đầu hoạt động bằng việc thu thập dữ liệu theo định hướng tuỳ thuộc vào mục tiêu đặt
ra
Cùng với Canada, các trường đại học tại Mỹ cũng tiến hành nghiên cứu và xây dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý càng được quan tâm nhiều hơn
Hệ thông tin địa lý (Geographical Information System – GIS) là tập hợp các công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin địa lý cho một mục đích chuyên biệt
Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]:
GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện
tượng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research
Institute ESRI – Mỹ).
GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không
gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography
Information and Analysis NCGIA – Mỹ).
Trang 13TÀI LIỆU THAM KHẢO Tiếng Việt
1 Nguyễn Hồng Phương, Đinh Văn Ưu (2006), Hệ thống thông tin địa lý và
một số ứng dụng trong hải dương học NXB Đại Học Quốc Gia Hà Nội
2 Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương (2005), Giáo trình về
hệ thống thông tin địa lý GIS và bản đồ NXB Đại Học Quốc Gia Hà Nội
Tiếng Anh
3 Bezdek, J.C., R Ehrlich, et al (1984), FCM: the fuzzy c-means clustering
algorithm, Computers and Geosciences, 10, pp.191-203
4 G A.Mason, R D Jacobson (2007), Fuzzy Geographically Weighted
Clustering Proceedings of the 9th International Conference on
GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD-ROM)
5 Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic
Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization Applied Soft Computing
6 Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial
interaction – modification model and applications to geo-demographic analysis Knowledge-Based Systems
7 Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011)
Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm International Journal of Machine Learning
and Computing
8 Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong
(2012), A Novel Intuitionistic Fuzzy Clustering Method for
Geo-Demographic Analysis Expert Systems with Applications
9 R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in
databases University of Alberta
10 Zadeh, L A (1965), Fuzzy sets Information and control,
Trang 14Internet
11 Tài liệu Hướng dẫn sử dụng MapWindow 4.8.6, http://www.mapwindow.org/apps/wiki/lib/exe/fetch.php?media=quick_guid e_to_mapwindows_4.8.6.pdf
12 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html
13 http://gadm.org/download (download shapefile bản đồ VN)