1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam

14 248 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 365,7 KB

Nội dung

Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ KHÁNH LINH PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA CÁC ĐỊA PHƯƠN

Trang 1

Hà Nội – 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ KHÁNH LINH

PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA

CÁC ĐỊA PHƯƠNG Ở VIỆT NAM

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa

Hà Nội - 2015

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu Trong quá trình làm luận văn, tôi có tham khảo các tài liệu

có liên quan và đã ghi rõ nguồn tài liệu tham khảo

Hà Nội, ngày tháng năm 2015

Học viên

Nguyễn Thị Khánh Linh

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Đình Hóa – Viện CNTT – Trường Đại học Quốc gia Hà Nội và thầy giáo TS

Lê Hoàng Sơn – ĐH Khoa học Tự nhiên đã trực tiếp hướng dẫn và tận tình giúp đỡ em trong suốt thời gian thực hiện luận văn

Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia

Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa

Trong quá trình thực hiện luận văn, em cũng nhận được sự giúp đỡ rất nhiều từ các thầy cô, các anh chị và các bạn tại Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên Luận văn này được thực hiện dưới sự tài trợ của đề tài cấp ĐHQG, mã số: QG.14.60

Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, những người đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để em có thể hoàn thành luận văn

Hà Nội, ngày tháng năm 2015

Học viên

Nguyễn Thị Khánh Linh

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 7

DANH MỤC CÁC BẢNG BIẾU 8

MỞ ĐẦU 9

CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 10

1.1 GIS và dữ liệu địa lý 10

1.1.1 GIS 10

1.1.2 Dữ liệu địa lý Error! Bookmark not defined.

1.1.2.1 Dữ liệu không gian Error! Bookmark not defined.

1.1.2.2 Dữ liệu thuộc tính Error! Bookmark not defined.

1.2 Tổng quan về phân cụm dữ liệu địa lý Error! Bookmark not defined.

1.2.1 Khái niệm về phân cụm dữ liệu Error! Bookmark not defined.

1.2.2 Ứng dụng của phân cụm dữ liệu địa lý Error! Bookmark not defined.

1.2.3 Các thuật toán phân cụm dữ liệu địa lý Error! Bookmark not defined.

1.2.3.1 Thuật toán FCM Error! Bookmark not defined.

1.2.3.2 Thuật toán NE Error! Bookmark not defined.

1.2.3.3 Thuật toán FGWC Error! Bookmark not defined.

1.2.3.4 Thuật toán CFGWC Error! Bookmark not defined.

1.2.3.5 Thuật toán CFGWC 2 Error! Bookmark not defined.

1.2.3.6 Thuật toán IPFGWC Error! Bookmark not defined.

1.2.3.7 Thuật toán MIPFGWC Error! Bookmark not defined.

1.3 Kết luận Error! Bookmark not defined.

CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ

VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOWError! Bookmark not defined.

Trang 5

2.1 MapWindow và các plug-in để mở rộng chức năngError! Bookmark not defined.

2.1.1 Các phần mềm GIS Error! Bookmark not defined.

2.1.2 Phần mềm GIS MapWindow Error! Bookmark not defined.

2.1.3 Xây dựng và sử dụng plug-in với MapWindowError! Bookmark not defined.

2.1.3.1 Quy tắc chung Error! Bookmark not defined 2.1.3.2 Các bước cụ thể Error! Bookmark not defined.

2.2 Phân tích thiết kế plug-in để thực hiện các thuật toán phân cụm Error! Bookmark not defined.

2.2.1 Mô hình ca sử dụng Error! Bookmark not defined 2.2.1.1 Mô hình ca sử dụng tổng thể của plug-in Error! Bookmark not defined 2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệuError! Bookmark not defined.

2.2.2 Mô tả ca sử dụng Error! Bookmark not defined.

2.2.3 Biểu đồ lớp phân tích Error! Bookmark not defined.

2.2.4 Thiết kế lớp Error! Bookmark not defined 2.2.4.1 Lớp giao diện Error! Bookmark not defined 2.2.4.2 Lớp điều khiển Error! Bookmark not defined.

2.3 Kết luận Error! Bookmark not defined.

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁError! Bookmark not defined.

3.1 Dữ liệu thực nghiệm Error! Bookmark not defined.

3.1.1 Chuẩn bị dữ liệu không gian Error! Bookmark not defined.

3.1.2 Chuẩn bị bộ dữ liệu phân cụm Error! Bookmark not defined.

3.2 Các kịch bản chạy thử Error! Bookmark not defined.

3.3 Một số kết quả khi chạy chương trình Error! Bookmark not defined.

3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ

liệu chuyên đề Error! Bookmark not defined.

3.3.2 Kết quả khi chạy nhiều chuyên đề với một thuật toánError! Bookmark not defined.

Trang 6

3.3.3 Kết quả khi chạy phân cụm đồng thời nhiều thuộc tínhError! Bookmark not defined.

3.4 Kết luận Error! Bookmark not defined. KẾT LUẬN Error! Bookmark not defined.

TÀI LIỆU THAM KHẢO 11

Trang 7

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

STT Từ viết tắt/thuật

ngữ

System

Hệ thống thông tin địa

vùng lân cận

mờ

Weight Clustering

Thuật toán phân cụm

dữ liệu theo trọng số địa lý

Geographically Weight Clustering

Thuật toán phân cụm địa lý kết hợp ngữ cảnh

8 IPFGWC Intuitionistic Possiblistic

Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý trên tập mờ trực cảm

9 MIPFGWC Modification Intuitionistic

Possiblistic Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm

10 KMIPFGWC Kernel-based Modification

Intuitionistic Possiblistic Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm sử dụng hàm nhân

Trang 8

13 SIM Spatial Interaction Model Mô hình tương tác

không gian

Modification Model

Mô hình tương tác - hiệu chỉnh không gian

Trang 9

DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ về dữ liệu thuộc tính Error! Bookmark not defined Hình 1.2 Dữ liệu địa lý Error! Bookmark not defined Hình 2.1 Mô hình ca sử dụng tổng quan của plug-inError! Bookmark not defined.

Hình 2.2 Mô hình usecase chức năng phân cụmError! Bookmark not defined.

Hình 2.3: Biểu đồ lớp của plug-in Error! Bookmark not defined Hình 2.4 Lớp giao diện chính của plug-in Error! Bookmark not defined Hình 2.5 Lớp giao diện của chức năng phân cụmError! Bookmark not defined.

Hình 2.6 Lớp giao diện tải chuyên đề Error! Bookmark not defined Hình 2.7 Lớp giao diện nhập tham số thuật toánError! Bookmark not defined.

Hình 2.8 Lớp điều khiển tính toán phân cụm Error! Bookmark not defined Hình 2.9 Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính Error! Bookmark not defined.

Hình 2.10 Lớp điều khiển Reset bảng thuộc tínhError! Bookmark not defined.

Hình 3.1 Dữ liệu chuyên đề ở dạng file csv Error! Bookmark not defined Hình 3.2 Dữ liệu chuyên đề ở dạng file txt Error! Bookmark not defined Hình 3.3 Giao diện chương trình khi tải layer và bật plug-inError! Bookmark not defined.

Hình 3.4 Giao diện in bản đồ Error! Bookmark not defined.

Hình 3.5 Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán

lẻ hàng hóa và dịch vụ” với số cụm bằng 4 Error! Bookmark not defined.

Trang 10

DANH MỤC CÁC BẢNG BIẾU

Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức

bán lẻ hàng hóa và dịch vụ” Error! Bookmark not defined.

Bảng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số Error! Bookmark not defined.

Bảng 3.3:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số Error! Bookmark not defined.

Bảng 3.4:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số Error! Bookmark not defined.

Bảng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề:

“Tổng mức bán lẻ hàng hóa và dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất

công nghiệp” giai đoạn 2005-2013 Error! Bookmark not defined.

Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa

các trọng số Error! Bookmark not defined.

Trang 11

MỞ ĐẦU

Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và làcông cụ trợ giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc gia trên thế giới Hiện nay, GIS được phát triển và ứng dụng ngày càng nhiều tại Việt Nam Trong sự phát triển của đất nước ta hiện nay, việc tổ chức quản lý thông tin địa

lý một cách tổng thể có có vai trò rất quan trọng trong việc sử dụng có hiệu quả hơn nguồn tài nguyên của đất nước GIS giúp các cơ quan chính phủ có cái nhìn khách quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các

dữ liệu không gian và dữ liệu thuộc tính

Các dữ liệu về kinh tế, xã hội, môi trường… đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này

Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được

sử dụng khá nhiều Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ, dựa trên mô hình, dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng

Đề tài nghiên cứu hướng tới các thuật toán phân cụm dữ liệu không gian Trên

cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm

Bố cục của luận văn gồm 3 chương:

Chương 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật toán sử dụng trong phân cụm dữ liệu địa lý

Chương 2: Trình bày cách thức xây dựng ứng dụng phân cụm dữ liệu và thể hiện một số chỉ tiêu kinh tế xã hội của các địa phương ở Việt Nam dựa trên phần mềm

mã nguồn mở MapWindow

Chương 3: Chạy chương trình trên số liệu thực tế thu thập được với từng thuật toán, so sánh kết quả từng thuật toán Đánh giá, phân tích một số kết quả đầu ra của các thuật toán phân cụm

Trang 12

CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU

ĐỊA LÝ 1.1 GIS và dữ liệu địa lý

1.1.1 GIS

Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài người Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao cho ngày càng đầy đủ thông tin và chính xác hơn Với sự đa dạng của các loại bản đồ trong việc thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức được sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ Các mô hình đồ họa cổ điển xử lý thông tin bản đồ gặp rất nhiều khó khăn trong xử lý đồng thời dữ liệu không gian và dữ liệu thuộc tính Điều này đã dẫn đến sự phát triển các phương pháp và kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra quyết định [1]

Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã cho ra đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa mọi thành tựu trong ngành bản đồ cả về ý tưởng lẫn thành tựu của kỹ thuật bản đồ Hệ thông tin địa lý bắt đầu hoạt động bằng việc thu thập dữ liệu theo định hướng tuỳ thuộc vào mục tiêu đặt

ra

Cùng với Canada, các trường đại học tại Mỹ cũng tiến hành nghiên cứu và xây dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý càng được quan tâm nhiều hơn

Hệ thông tin địa lý (Geographical Information System – GIS) là tập hợp các công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin địa lý cho một mục đích chuyên biệt

Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]:

GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện

tượng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research

Institute ESRI – Mỹ).

GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không

gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography

Information and Analysis NCGIA – Mỹ).

Trang 13

TÀI LIỆU THAM KHẢO Tiếng Việt

1 Nguyễn Hồng Phương, Đinh Văn Ưu (2006), Hệ thống thông tin địa lý và

một số ứng dụng trong hải dương học NXB Đại Học Quốc Gia Hà Nội

2 Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương (2005), Giáo trình về

hệ thống thông tin địa lý GIS và bản đồ NXB Đại Học Quốc Gia Hà Nội

Tiếng Anh

3 Bezdek, J.C., R Ehrlich, et al (1984), FCM: the fuzzy c-means clustering

algorithm, Computers and Geosciences, 10, pp.191-203

4 G A.Mason, R D Jacobson (2007), Fuzzy Geographically Weighted

Clustering Proceedings of the 9th International Conference on

GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD-ROM)

5 Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic

Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization Applied Soft Computing

6 Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial

interaction – modification model and applications to geo-demographic analysis Knowledge-Based Systems

7 Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011)

Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm International Journal of Machine Learning

and Computing

8 Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong

(2012), A Novel Intuitionistic Fuzzy Clustering Method for

Geo-Demographic Analysis Expert Systems with Applications

9 R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in

databases University of Alberta

10 Zadeh, L A (1965), Fuzzy sets Information and control,

Trang 14

Internet

11 Tài liệu Hướng dẫn sử dụng MapWindow 4.8.6, http://www.mapwindow.org/apps/wiki/lib/exe/fetch.php?media=quick_guid e_to_mapwindows_4.8.6.pdf

12 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html

13 http://gadm.org/download (download shapefile bản đồ VN)

Ngày đăng: 27/08/2016, 08:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Hồng Phương, Đinh Văn Ưu (2006), Hệ thống thông tin địa lý và một số ứng dụng trong hải dương học. NXB Đại Học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Hệ thống thông tin địa lý và một số ứng dụng trong hải dương học
Tác giả: Nguyễn Hồng Phương, Đinh Văn Ưu
Nhà XB: NXB Đại Học Quốc Gia Hà Nội
Năm: 2006
2. Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương (2005), Giáo trình về hệ thống thông tin địa lý GIS và bản đồ. NXB Đại Học Quốc Gia Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình về hệ thống thông tin địa lý GIS và bản đồ
Tác giả: Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương
Nhà XB: NXB Đại Học Quốc Gia Hà Nội. Tiếng Anh
Năm: 2005
3. Bezdek, J.C., R. Ehrlich, et al (1984), FCM: the fuzzy c-means clustering algorithm, Computers and Geosciences, 10, pp.191-203 Sách, tạp chí
Tiêu đề: FCM: the fuzzy c-means clustering algorithm
Tác giả: Bezdek, J.C., R. Ehrlich, et al
Năm: 1984
4. G. A.Mason, R. D. Jacobson (2007), Fuzzy Geographically Weighted Clustering. Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD- ROM) Sách, tạp chí
Tiêu đề: Fuzzy Geographically Weighted Clustering
Tác giả: G. A.Mason, R. D. Jacobson
Năm: 2007
5. Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization. Applied Soft Computing Sách, tạp chí
Tiêu đề: Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization
Tác giả: Le Hoang Son
Năm: 2014
6. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial interaction – modification model and applications to geo-demographic analysis. Knowledge-Based Systems Sách, tạp chí
Tiêu đề: Spatial interaction – modification model and applications to geo-demographic analysis
Tác giả: Le Hoang Son, Bui Cong Cuong, Hoang Viet Long
Năm: 2013
7. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011) Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm. International Journal of Machine Learning and Computing Sách, tạp chí
Tiêu đề: Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm
8. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), A Novel Intuitionistic Fuzzy Clustering Method for Geo- Demographic Analysis. Expert Systems with Applications Sách, tạp chí
Tiêu đề: A Novel Intuitionistic Fuzzy Clustering Method for Geo-Demographic Analysis
Tác giả: Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong
Năm: 2012
9. R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in databases. University of Alberta Sách, tạp chí
Tiêu đề: Principles of knowledge discovery in databases
Tác giả: R.Zaiane, Dr.Osmar
Năm: 2001

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w