Mô hình ca sử dụng tổng thể của plug-in

Hình 2.1. Mô hình ca sử dụng tổng quan của plug-in 2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệu

2.2.2 Mô tả ca sử dụng

Chọn chức năng phân cụm

- Khi chọn chức năng này trong plug-in, chương trình sẽ hiển thị ra màn hình cho phép người dùng lựa chọn thuật toán, tải chuyên đề để thực hiện việc phân cụm dữ liệu

Tải chuyên đề

- UC này cho phép người dùng tải tệp chuyên đề cần phân cụm lên hệ thống. - Người dùng lựa chọn file chuyên đề ở định dạng .txt hoặc .csv

Chọn thuật toán

- Cho phép người dùng lựa chọn thuật toán phân cụm. Mỗi thuật toán lựa chọn sẽ hiển thị ra màn hình nhập tham số tương ứng cho thuật toán đó Nhập trọng số cho thuộc tính

- Với trường hợp phân cụm dữ liệu cho nhiều thuộc tính, miền giá trị của mỗi thuộc tính có thể biến đổi trong những khoảng rất khác nhau, có thể là trong khoảng (0 – 1) với tỉ lệ phần trăm hoặc là giá trị từ không đến chục triệu, tỉ nếu là giá trị của dân số hay doanh số bán hàng. Việc đưa các giá trị đó về cùng một thang độ là rất quan trọng trong quá trình phân cụm, vì thế chức năng này cho phép người dùng thiết lập trọng số cho các thuộc tính cần phân cụm.

Chạy phân cụm

- Sau khi có thông tin về dữ liệu chuyên đề, tham số thuật toán, hệ thống sẽ tiến hành tính toán và phân cụm dữ liệu chuyên đề thành số cụm mà người dùng mong muốn đồng thời ghi kết quả ra file dạng .txt.

Cập nhật kết quả vào bảng thuộc tính

- UC này cho phép người dùng cập nhật kết quả sau khi thực hiện ở bước trên vào bảng thuộc tính của layer đang chọn trên phần mềm Mapwindow GIS. Kết quả này sẽ là cơ sở để hiển thị số cụm và tô màu cho các cụm trên bản đồ

Reset bảng thuộc tính

- Sau mỗi lần tính toán và cập nhật kết quả phân cụm, kết quả này sẽ được lưu vào CSDL của bản đồ đang sử dụng. Trong các phiên làm việc sau, khi tải lại bản đồ lên phần mềm Mapwindow, người dùng sẽ thấy bản đồ đã được phân cụm và tô màu sẵn, có thể khó hiểu. Vì thế chức năng này cho phép người dùng

xóa toàn bộ kết quả phân cụm của lần làm việc trước, file bản đồ ban đầu khi tải lên sẽ có số cụm của các địa phương là như nhau.

2.2.3 Biểu đồ lớp phân tích

Hình 2.3: Biểu đồ lớp của plug-in

2.2.4 Thiết kế lớp

Dựa vào biểu đồ lớp phân tích trên, plugin được thiết kế gồm các lớp giao diện và các lớp điều khiển sau:

2.2.4.1 Lớp giao diện

Lớp giao diện chính của plug-in

- Lớp này thiết kế giao diện chính của plug-in dạng thực đơn chức năng và được hiển thị ngay trên thanh thực đơn của phần mềm Mapwindow GIS khi plug-in được bật.

Hình 2.4. Lớp giao diện chính của plug-in

Lớp giao diện của chức năng phân cụm

- Lớp này thiết kế giao diện của chức năng phân cụm. Tại form này, người sử dụng sẽ thực hiện việc tải tệp dữ liệu, lựa chọn thuật toán, nhập trọng số cho các thuộc tính và chạy phân cụm.

Hình 2.5. Lớp giao diện của chức năng phân cụm

Lớp giao diện tải chuyên đề

- Lớp này thiết kế giao diện cho phép người dùng tìm và lựa chọn tệp dữ liệu chuyên đề được lưu trữ trong bộ nhớ và đọc nội dung của tệp chuyên đề.

Lớp giao diện nhập tham số cho thuật toán

- Lớp này thiết kế giao diện nhập tham số cho thuật toán. Ứng với mỗi thuật toán sẽ có một form tương ứng để nhập tham số cho thuật toán đó.

Hình 2.7. Lớp giao diện nhập tham số thuật toán

Lớp giao diện nhập trọng số cho thuộc tính

- Lớp này thiết kế giao diện cho phép nhập trọng số cho các thuộc tính trong trường hợp thực hiện phân cụm dữ liệu đồng thời nhiều thuộc tính. Đây là tính năng tùy chọn, người sử dụng có thể bật/tắt chức năng này.

2.2.4.2 Lớp điều khiển

Lớp điều khiển chức năng Tính toán phân cụm

- Lớp này làm nhiệm vụ tính toán phân cụm dữ liệu theo các bước của thuật toán được trình bày ở phần trên sau khi có dữ liệu về chuyên đề, thuật toán được lựa chọn và tham số tương ứng của thuật toán. Trường hợp có trọng số, các trọng số sẽ được sử dụng để điều chỉnh khoảng cách từ điểm dữ liệu cần phân cụm đến các tâm cụm tương ứng.

Hình 2.8. Lớp điều khiển tính toán phân cụm

- Lớp này có chức năng cập nhật kết quả phân cụm (cập nhật số hiệu cụm) sau khi chạy thuật toán phân cụm vào bảng thuộc tính của layer đang hiển thị.

Hình 2.9. Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính

Lớp điều khiển Reset bảng thuộc tính

- Lớp này để thực hiện việc reset lại dữ liệu tại trường ghi số hiệu cụm trong bảng thuộc tính của layer.

Hình 2.10. Lớp điều khiển Reset bảng thuộc tính

2.3Kết luận

Chương này đã trình bày một số đặc điểm của phần mềm Mapwindow GIS. Dựa vào những ưu điểm của phần mềm Mapwindow GIS, luận văn đã lựa chọn Mapwindow GIS làm công cụ để cài đặt thực nghiệm. Chương này cũng đã trình bày chi tiết cách cài đặt một plug-in vào phần mềm Mapwindow GIS và mô tả chi tiết phân tích thiết kế cho plug-in.

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

Trong chương 2 tác giả đã giới thiệu các đặc điểm của phần mềm Mapwindow và trình bày chi tiết việc thiết kế cài đặt plug-in phân cụm dữ liệu địa lý vào phần mềm Mapwindow. Chương này, tác giả sẽ trình bày kết quả thực nghiệm khi cài đặt các thuật toán đã trình bày ở chương 1 với bộ số liệu thực tế về một số chỉ tiêu kinh tế - xã hội của các địa phương ở Việt Nam. Phần đầu chương, tác giả sẽ đưa ra bộ số liệu cụ thể và các thuật toán sẽ cài đặt. Phần thứ hai, tác giả sẽ tập trung phân tích kết quả phân cụm ứng với từng kịch bản đưa ra.

3.1Dữ liệu thực nghiệm

3.1.1 Chuẩn bị dữ liệu không gian

Dữ liệu không gian cần chuẩn bị là dữ liệu không gian của Việt Nam chi tiết đến tỉnh – thành.

Sau khi có dữ liệu về không gian của Việt Nam, cần can thiệp chỉnh sửa một chút vào file .dbf của dữ liệu: bổ sung thêm một trường ở vị trí đầu tiên, đặt tên là Cluster. Trường này sẽ là trường lưu số hiệu cụm mà địa phương đó thuộc sau quá trình phân cụm.

Có thể chỉnh sửa bảng dữ liệu này bằng cách mở trực tiếp file .shp trên phần mềm MapWindow GIS, lựa chọn chức năng xem Table và thêm trường tại đây, hoặc sử dụng phần mềm đọc file .dbf và chỉnh sửa bảng dữ liệu của file.

3.1.2 Chuẩn bị bộ dữ liệu phân cụm Dữ liệu thuộc tính Dữ liệu thuộc tính

Dữ liệu thuộc tính, mà thuật ngữ kinh tế xã hội thường gọi là dữ liệu chuyên đề bao gồm các tập tin định dạng csv hoặc txt. Mỗi tập tin bao gồm các dòng và các cột. Vị trí với dòng và cột thể hiện dữ liệu tương ứng: dòng là số đối tượng, cột là số liệu của thuộc tính. Với trường hợp dữ liệu phân cụm là dữ liệu của một chuyên đề trong nhiều năm, các cột là số liệu của chuyên đề đó trong các năm. Ví dụ, với chuyên đề “Giá trị sản xuất kinh doanh”, dòng thể hiện các vùng (các địa phương ở Việt Nam) và cột thể hiện các năm tương ứng. Tại vị trí dòng và cột thể hiện Giá trị sản xuất kinh doanh (tính theo Triệu đồng) cho vùng và năm tương ứng.

Số dòng trong file dữ liệu chuyên đề phải tương ứng với số dòng trong file dữ liệu không gian. Tên các địa phương ở hai file dữ liệu thuộc tính và file dữ liệu không gian phải giống nhau.

Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv

Với trường hợp người dùng chuẩn bị file dữ liệu dạng txt, dữ liệu cũng được chia thành dòng cho các vùng, tại mỗi dòng các phần tử cách nhau bởi dấu phẩy (“,”).

Các số trong tệp dữ liệu định dạng là các số thực lớn hơn 0 và được ngăn cách phần thập phân bằng dấu chấm (.).

Luận văn sẽ sử dụng bộ dữ liệu về một số chỉ tiêu kinh tế - xã hội của các địa phương ở Việt Nam lấy từ nguồn website của Tổng cục thống kê Việt Nam. Các chuyên đề được chia theo từng nhóm, phản ánh một nội dung kinh tế - xã hội cụ thể. Những địa phương không có số liệu sẽ coi như số liệu đó bằng 0. Một số chuyên đề sử dụng trong luận văn:

 Nhóm chuyên đề về nông lâm nghiệp:

Chuyên đề 1: Diện tích rừng trồng từ năm 1995 đến 2013 Chuyên đề 2: Diện tích rừng bị chặt từ năm 1995 đến 2013 Chuyên đề 3: Diện tích rừng bị cháy từ năm 1995 đến 2013

 Nhóm chuyên đề về dân số và lao động:

Chuyên đề 4: Lực lượng lao động từ 15 tuổi trở lên từ năm 2005 đến 2013 Chuyên đề 5: Tỷ lệ lao động từ 15 tuổi trở lên so với dân số từ năm 2005 đến 2013

 Nhóm chuyên đề về đầu tư và xây dựng:

Chuyên đề 6: Đầu tư nước ngoài được cấp phép năm 2013 Chuyên đề 7: Giá trị sản xuất xây dựng từ năm 2005 đến 2013

 Nhóm chuyên đề về thương mại, giá cả

Chuyên đề 8: Tổng mức bán lẻ hàng hóa và dịch vụ

 Nhóm chuyên đề về công nghiệp:

Chuyên đề 9: Giá trị sản xuất công nghiệp từ năm 2005 đến 2013

 Nhóm chuyên đề về y tế, giáo dục

Chuyên đề 10: Số người bị nhiễm HIV/AIDS tích lũy từ năm 2011 đến 2013 Chuyên đề 11: Số người bị chết do HIV/AIDS từ năm 2011 đến 2013

Phâm cụm tổng hợp đồng thời nhiều thuộc tính

Các tệp dữ liệu chuyên đề như trên chỉ phản ánh từng thuộc tính riêng lẻ của các đối tượng địa lý, cụ thể là các tỉnh ở nước ta. Tuy nhiên, nhiều chỉ tiêu kinh tế xã hội có mối liên quan ảnh hưởng đến nhau, ví dụ dữ liệu tổng mức bán lẻ hàng hóa và dịch vụ có liên quan đến lực lượng lao động từ 15 tuổi trở lên và tỷ lệ lao động từ 15

tuổi trở lên so với dân số; giá trị sản xuất công nghiệp liên quan đến đầu tư nước ngoài được cấp phép, v.v.. Phân cụm tổng hợp đồng thời nhiều thuộc tính sẽ cho phép nghiên cứu một cách toàn diện hơn về một nhóm chỉ tiêu kinh tế xã hội nhất định.

Phân cụm tổng hợp đồng thời nhiều thuộc tính cần xem xét đến cách kết hợp nhiều thuộc tính với nhau khi tính độ tương tự hay khoảng cách giữa các điểm dữ liệu. Miền giá trị của mỗi thuộc tính có thể biến đổi trong những khoảng rất khác nhau, ví dụ trong khoảng [0,1] nếu là tỷ lệ phần trăm hoặc từ không đến hàng chục triệu nếu là dân số hay tổng doanh số bán lẻ. Cần thực hiện thêm công đoạn tiền xử lý để chuyển

đổi về cùng một thang độ hay tổng quát hơn là nhân giá trị của thuộc tính thứ i với

trọng số wi thích hợp trong công thức tính khoảng cách, ví dụ

Tóm lại, cần thêm bước tiền xử lý, chuẩn bị tệp dữ liệu tổ hợp nhiều tệp dữ liệu chuyên đề và xác định bộ trọng số wi trước khi thực hiện tính toán phân cụm.

Dữ liệu trọng số

Như đã trình bày ở trên, với trường hợp phân cụm tổng hợp nhiều thuộc tính đồng thời cần phải có trọng số để điều chỉnh dữ liệu phân cụm về cùng một thang độ. Dữ liệu trọng số là tập tin định dạng csv hoặc txt có số phần tử bằng số thuộc tính trong tệp chuyên đề. Các số trong tệp trọng số là các số thực nằm trong khoảng 0 - 1 được ngăn cách nhau bởi dấu phẩy (,); dấu ngăn cách phần thập phân là dấu chấm (.). Tổng các số trong tệp bằng 1.

3.2Các kịch bản chạy thử

Nhiều kịch bản khác nhau có thể được sử dụng tùy theo mục đích nghiên cứu đánh giá hiệu quả thuật toán hay giải quyết bài toán ứng dụng thực tế bằng phân cụm dữ liệu.

Để nghiên cứu đánh giá hiệu quả thuật toán, luận văn sẽ thực hiện chạy các thuật toán: FCM, NE, FGWC, CFGWC, IPFGWC, MIPFGWC trên một vài bộ dữ liệu chuyên đề để so sánh thời gian chạy của các thuật toán. Có thể thay đổi các tham số thuật toán nhằm nghiên cứu ảnh hưởng của tham số tới kết quả phân cụm và tìm ra những cách lựa chọn tham số phù hợp nhất.

Lựa chọn kết quả phân cụm của một thuật toán trên một nhóm chuyên đề để phân tích, đánh giá kết quả phân cụm.

Chạy một thuật toán trên dữ liệu chuyên đề 12 để phân tích kết quả phân cụm. 3.3Một số kết quả khi chạy chương trình

Giao diện chương trình khi tải bản đồ và bật plug-in:

Hình 3.3. Giao diện chương trình khi tải layer và bật plug-in

Hình 3.4. Giao diện in bản đồ

3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ liệu chuyên đề liệu chuyên đề

Bảng 3.1 dưới đây tổng hợp kết quả phân cụm của các thuật toán khi cùng chạy trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ”. Số hiển thị tại mỗi cột của thuật toán là số hiệu cụm của địa phương tương ứng sau quá trình phân cụm.

Tham số

Chuyên đề: Tổng mức bán lẻ hàng hóa và dịch vụ

Địa phương FCM NE FGWC CFGWC IPFGWC MIPFGWC

HaNoi 0 1 0 3 1 3 HaTay 2 3 3 3 3 3 VinhPhuc 2 3 3 3 3 0 QuangNinh 1 0 2 3 3 0 HaiDuong 1 0 2 3 3 3 HaiPhong 1 0 2 3 3 2 ThaiBinh 2 3 3 3 3 0 NamDinh 2 3 3 1 3 0

NinhBinh 2 3 3 0 3 1 HaGiang 2 3 3 0 3 3 CaoBang 2 3 3 0 3 3 BacKan 2 3 3 0 2 3 TuyenQuang 2 3 3 0 3 1 LaoCai 2 3 3 0 3 1 YenBai 2 3 3 0 3 1 ThaiNguyen 2 3 3 0 3 1 LangSon 2 3 3 0 3 1 BacGiang 2 3 3 0 3 1 PhuTho 2 3 3 0 3 1 DienBien 2 3 3 0 3 3 LaiChau 2 3 3 0 1 3 SonLa 2 3 3 0 3 1 HoaBinh 2 3 3 0 3 3 ThanhHoa 1 0 2 3 3 0 NgheAn 1 0 2 3 3 3 HaTinh 2 3 3 1 3 0 QuangBinh 2 3 3 0 3 1 QuangTri 2 3 3 0 3 1 ThuaThienHue 2 3 3 1 3 0 DaNang 1 0 2 3 3 2 QuangNam 2 3 3 1 3 0 QuangNgai 1 0 2 1 3 0 BinhDinh 1 0 2 3 3 3

PhuYen 2 3 3 0 3 1 KhanhHoa 1 0 2 3 3 2 NinhThuan 2 3 3 0 3 1 BinhThuan 1 0 2 1 3 0 KonTum 2 3 3 0 3 3 GiaLai 2 3 3 1 3 0 DakLak 2 3 3 0 0 3 DakNong 2 3 3 0 3 1 LamDong 1 0 2 1 3 3 BinhPhuoc 2 3 3 1 3 0 TayNinh 1 0 2 3 3 0 BinhDuong 0 1 0 3 1 3 DongNai 0 1 0 3 1 3 BaRiaVungTau 1 0 2 3 3 0 HoChiMinh 3 2 1 2 1 3 LongAn 1 0 2 1 3 3 TienGiang 1 0 2 3 3 3 BenTre 2 3 3 1 3 0 DongThap 1 0 2 3 3 2 AnGiang 1 0 2 3 3 2 KienGiang 1 0 2 3 3 2 CanTho 1 0 2 3 3 2 HauGiang 2 3 3 1 3 0 SocTrang 1 0 2 3 3 0 BacLieu 2 3 3 1 3 0

CaMau 1 0 2 3 3 0 BacNinh 2 3 3 3 3 0 HaNam 2 3 3 0 3 1 HungYen 2 3 3 3 3 1 VinhLong 1 0 2 1 3 0 TraVinh 2 3 3 0 3 1

Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ”.

Nhìn vào bảng 3.1 ta thấy chuyên đề được phân thành 4 cụm. Theo bảng kết quả, một số cụm có chứa rất ít điểm dữ liệu, một số cụm lại chứa hầu hết các điểm dữ liệu. Kết quả phân cụm giữa các thuật toán không giống nhau là do các thuật toán có sự điều chỉnh và tính toán khác nhau. Thuật toán MIPFGWC cho kết quả đồng đều nhất. Thuật toán NE và FGWC có kết quả gần giống nhau.

Thời gian chạy thuật toán với các tham số khác nhau: Tham số

Chuyên đề

Thời gian chạy các thuật toán (mili giây)

FCM NE FGWC CFGWC IPFGWC MIPFGWC Chuyên đề 1 344.017 361.039 411.027 480.026 98.005 106.146 Chuyên đề 2 396.035 418.020 301.014 210.995 181.004 11.003 Chuyên đề 3 386.050 328.018 416.048 283.015 147.028 79.978 Chuyên đề 4 121.006 148.016 143.007 108.008 85.037 49.998 Chuyên đề 5 54.035 54.989 59.000 192.953 53.003 40.126