1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân Cụm Mờ Trọng Số Địa Lý.pdf

73 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

L�I C�M ƠN ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU HOÀN PHÂN CỤM MỜ TRỌNG SỐ ĐỊA LÝ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU HOÀN PHÂN CỤM MỜ TRỌNG SỐ ĐỊA LÝ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ THU HỒN PHÂN CỤM MỜ TRỌNG SỐ ĐỊA LÝ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa TS Lê Hồng Sơn HÀ NỘI - 2014 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm nghiên cứu, tìm hiểu riêng cá nhân tơi Trong tồn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2014 Ngƣời cam đoan Nguyễn Thị Thu Hoàn LỜI CẢM ƠN Trƣớc trình bày nội dung luận văn, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Đình Hóa Tiến sĩ Lê Hồng Sơn, ngƣời tận tình hƣớng dẫn tạo điều kiện để em hồn thành luận văn Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới tồn thể thầy giáo khoa Công nghệ thông tin, trƣờng Đại học Công nghệ Hà Nội, Đại học Quốc gia Hà Nội dạy bảo tận tình em suốt trình em học tập khoa Thứ ba, em xin đƣợc gửi lời cảm ơn tới thầy cô, anh chị bạn Trung tâm Tính tốn Hiệu cao, trƣờng Đại học Khoa học tự nhiên giúp đỡ em suốt thời gian làm luận văn Cuối em xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp bên em cổ vũ, động viên, giúp đỡ em suốt trình học tập thực luận văn Luận văn đƣợc thực dƣới tài trợ đề tài NAFOSTED, mã số: 102.05-2014.01 Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng chắn khơng tránh khỏi thiếu sót Em mong đƣợc góp ý chân thành thầy bạn để em hồn thiện luận văn Xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2014 Học viên Nguyễn Thị Thu Hoàn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC CHỮ KÝ HIỆU VÀ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 Phân cụm liệu địa lý 1.1.1 Định nghĩa toán 10 1.1.2 Độ đo khoảng cách 10 1.1.3 Ứng dụng 11 1.1.4 Ví dụ thực tế 12 1.2 Tổng quan thuật toán phân cụm liệu địa lý 13 1.2.1 Một số khái niệm 13 1.2.2 Thuật toán FCM 16 1.2.3 Thuật toán NE 17 1.2.4 Thuật toán FGWC 18 1.2.5 Thuật toán CFGWC 20 1.2.6 Thuật toán CFGWC2 22 1.2.7 Thuật toán IPFGWC 25 1.2.8 Thuật toán MIPFGWC 27 1.2.9 Ví dụ minh họa 29 1.3 Kết luận chƣơng 33 CHƢƠNG 2: THUẬT TOÁN KMIPFGWC 34 2.1 Nhƣợc điểm thuật toán MIPFGWC 34 2.2 Tổng quan nhóm thuật toán phân cụm sử dụng hàm nhân 35 2.3 Mơ hình nghiệm tốn phân cụm liệu địa lý sử dụng hàm nhân 37 2.4 Một số tính chất 49 2.5 Đánh giá chất lƣợng phân cụm 51 2.6 Thuật toán KMIPFGWC 59 2.7 Độ phức tạp thuật toán 60 2.8 Kết luận chƣơng 60 CHƢƠNG 3: MỘT SỐ KẾT QUẢ THỬ NGHIỆM 61 3.1 Môi trƣờng thực nghiệm 61 3.2 So sánh chất lƣợng phân cụm 61 3.3 Khảo sát đặc trƣng thuật toán KMIPFGWC 65 3.4 Kết luận chƣơng 67 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 69 DANH MỤC CÁC CHỮ KÝ HIỆU VÀ VIẾT TẮT Từ viết tắt Từ Tiếng Anh Từ cụm từ FCM Fuzzy C-means, Thuật toán phân cụm mờ NE Neighbourhood Effects, Thuật toán hiệu ứng vùng lân cận FGWC CFGWC IPFGWC MIPFGWC Fuzzy Geographically Weight Thuật toán phân cụm Clustering, liệu theo trọng số địa lý Context Fuzzy Geographically Thuật toán phân cụm địa Weight Clustering, lý kết hợp ngữ cảnh Intuitionistic Possiblistic Fuzzy Thuật toán phân cụm địa Geographically Weighted Clustering, lý tập mờ trực cảm Modification Intuitionistic Thuật toán phân cụm địa Possiblistic Fuzzy Geographically lý hiệu chỉnh tập mờ Weighted Clustering, trực cảm KMIPFGWC Kernel-based Modification Thuật toán phân cụm địa Intuitionistic Possiblistic Fuzzy lý hiệu chỉnh tập mờ Geographically Weighted Clustering trực cảm sử dụng hàm nhân SIM Spatial Interaction Model Mơ hình tƣơng tác khơng gian SIM2 WF Spatial Interaction - Modification Mơ hình tƣơng tác - hiệu Model chỉnh không gian Weighting function Hàm trọng số DANH MỤC CÁC HÌNH VẼ Hình 1.1: Phân bố trƣờng hợp mắc bệnh sốt xuất huyết Việt Nam năm 2011 12 Hình 1.2: Bộ liệu trƣớc phân cụm 29 Hình 1.3: Kết phân cụm sử dụng thuật toán FCM 30 Hình 1.4: Kết phân cụm sử dụng thuật toán NE 30 Hình 1.5: Kết phân cụm sử dụng thuật toán FGWC 31 Hình 1.6: Kết phân cụm sử dụng thuật tốn CFGWC 31 Hình 1.7: Kết phân cụm sử dụng thuật toán IPFGWC 32 Hình 1.8: Kết phân cụm sử dụng thuật toán MIPFGWC 32 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1: Giá trị IFV thuật toán theo số lƣợng cụm C tham số 62 Bảng 3.2: Thời gian tính toán thuật toán theo số lƣợng cụm C tham số 64 Bảng 3.3: Giá trị IFV MIPFGWC trƣờng hợp 66 Bảng 3.4: Giá trị IFV KMIPFGWC tham số  hàm Gaussian 66 MỞ ĐẦU Ngày nay, cơng cụ tính tốn mềm dần trở nên phổ biến lĩnh vực khoa học tính tốn, tính hữu hiệu việc giải tốn thực tế kinh tế - xã hội mà cơng cụ phân tích cổ điển nhƣ mơ hình thống kê lớp phƣơng pháp giải xác không thực đƣợc [13] Một hƣớng đƣợc quan tâm tính tốn mềm ứng dụng phƣơng pháp vào toán thực tế có tham chiếu khơng gian phƣơng pháp nhƣ đƣợc gọi lớp phƣơng pháp tính tốn mềm ảnh hƣởng đặc trƣng địa lý mơ hình tƣơng tác khơng gian Trong lớp phƣơng pháp tính tốn mềm ảnh hƣởng đặc trƣng địa lý mơ hình tƣơng tác khơng gian, phƣơng pháp phân cụm mờ trọng số địa lý phƣơng pháp đƣợc ứng dụng cho nhiều toán quan trọng kinh tế - xã hội Phƣơng pháp đời bắt nguồn từ nhu cầu toán phân cụm liệu địa lý, đƣợc định nghĩa theo Sleight (1993) [19] phân chia liệu có đặc trƣng khơng gian vào nhóm khác theo số tiêu chí định để từ đƣa sách hợp lý nhằm phân phối sản phẩm dịch vụ cho vùng miền Kết phân cụm liệu địa lý thƣờng đƣợc thể dƣới dạng đồ phân bố đặc trƣng Cho đến nay, thuật toán phân cụm mờ trọng số địa lý tốt cho toán thuật toán MIPFGWC [10] Thuật toán đƣợc xây dựng dựa lý thuyết tập mờ trực cảm, phân cụm mờ xác suất mô hình SIM2 đƣợc kiểm chứng chất lƣợng phân cụm so sánh với số thuật toán khác nhƣ NE [24], FGWC [12] IPFGWC [8] Mục tiêu động nghiên cứu luận văn cải tiến thuật toán MIPFGWC sử dụng ý tƣởng lý thuyết hàm nhân [23] nhằm nâng cao chất lƣợng phân cụm thuật toán Thuật toán thu đƣợc đƣợc kiểm chứng so sánh đánh giá với MIPFGWC số thuật toán khác chất lƣợng phân cụm Bố cục luận văn bao gồm chƣơng:  Chƣơng 1: Trình bày kiến thức toán phân cụm liệu địa lý, bao gồm định nghĩa, độ đo ứng dụng lĩnh vực ý tế, an ninh, xã hội, v.v đồng thời trình bày sơ lƣợc thuật toán phân cụm mờ trọng số địa lý FCM, NE, FGWC, CFGWC, CFGWC2, IPFGWC, MIPFGWC ƣu nhƣợc điểm chúng, từ đề xuất thuật tốn KMIPFGWC  Chƣơng 2: Trình bày thuật tốn phân cụm mờ trọng số địa lý KMIPFGWC, với hàm mục tiêu sử dụng độ đo khoảng cách hàm nhân Gaussian thay sử dụng hàm Euclidean truyền thống sử dụng mơ hình SIM2 để nâng cao chất lƣợng phân cụm cho tốn  Chƣơng 3: Trình bày số kết thực nghiệm thuật toán KMIPFGWC liệu thực tế liệu địa lý kinh tế - xã hội từ tổ chức Liên Hợp Quốc – UNO so sánh với thuật toán MIPFGWC, FGWC để đánh giá hiệu thuật toán đề xuất 57     1  K X k ,V j    j 1  u kj   1  K X k ,V j       C m 1 j 1   u  w ji  u u ki   u u k i 1    ui 1u k1  i 1 j 1  u   u  w ji i 1  u i 1  u     1 Au   C m    1     1  K X k ,V j      1   j 1   1  K X k ,V j    ,       (2.87)     k  1, N ; j  1, C , j 1   1  C   1  K X k ,V j    h  w ji  h hki   h hk i 1    hi 1hk1   j 1 hkj    i 1 j 1   h i 1 1  K X k ,V j    w    h       h h ji  A i  h            C   1     1  K X k ,V j      1   j 1   1  K X k ,V j    ,      (2.88)       k  1, N ; j  1, C ,  j  1 t kj  j 1 j 1   1           j  1   t  t  t  w ji  ti 1         a2   t   t  w ji t  ti 1       1  K X k  V j         At i 1 At i 1            j 1   t  w ji t t ki   t t k i 1    ti 1t k1  i 1   j    1 j 1       t  t  t  w ji  ti 1       At i 1     , k  1, N ; j  1, C (2.89) 58 m    j 1      u   i 1 i 1  a1  u u kj   u  w ji  u u ki   u u k i 1    u u k1  A   u      u kj    i 1 u         j 1 N        k 1   a  h hkj   h i1 w ji  h hki   h hk i 1    hi1 hk1  Ah   hi 1      hkj    X k h          j 1          a  t t kj   u  w ji  t t ki   t t k i 1    ti 1t k1  t   ti 1      t kj     A    i 1 t      Vj  m    j 1     u   i 1 i 1  a1  u u kj   u  w ji  u u ki   u u k i 1    u u k1  A   u      u kj    i 1 u         j 1 N        h i 1 i 1            a h w h h h h            k 1   h kj h i1 ji  h ki h k i1 h kj  h k1 A h          j 1        t i 1 i 1    a  t t kj   u  w ji  t t ki   t t k i 1    t t k1    t      t kj   At    , j  1, C i 1                              Định lý 5: Độ chênh lệnh nghiệm thuật toán KMIPFGWC với tiêu chuẩn trọng số ràng buộc (2.26) (2.27) (ký hiệu K1) không sử dụng chuẩn trọng số ràng buộc (2.26) (2.27) (ký hiệu K4) là:   j 1   i 1  u  w ji u u ki   u u k i 1    u u k1  C  N C i 1 ,      j 1   j 1   11  1 C      j    u  u  u  w ji  ui 1          wij          C i 1 Au i 1       U ( K 1) U ( K 4)     j 1   i 1  h  w ji h hki   h hk i 1    h hk1  C  N C i 1   , (2.92)     j 1 1 C   j 1   11       wij    j    u  h  h  w ji  hi 1               C i 1  Ah i 1       H ( K 1) H ( K 4)  (2.91)    (2.90) 59   j 1    1 i 1  j   t  w ji t t ki   t t k i 1    t t k1  C  N C i 1     C j 1  j 1    1  1      wij    j    t   t  t  w ji  ti 1               C i 1 At i 1      T ( K 1) T ( K 4)    (2.93) Do đó, (2.94) IFV ( K1)  IFV ( K 4) Từ định lý đến định lý 5, nhận thấy chất lƣợng phân cụm KMIPFGWC tốt so với MIPFGWC, biến thể khác KMIPFGWC 2.6 Thuật toán KMIPFGWC Trong phần này, chúng tơi trình bày chi tiết thuật tốn KMIPFGWC Input: Dữ liệu X có số lƣợng phần từ (N) r chiều; Số cụm (C); ngƣỡng  tham số khác:  u ,  u ,  u ;  t ,  t ,  t ;  h ,  h ,  h` ; m, ,  ;  0, (i  1,3) ;  j  ( j  1, C ); a, b, c, d ;  ; Output: Ma trận U , T , H tâm cụm V ; Thuật toán KMIPFGWC: ( 0) 1: V j  random ( j  1, C ); t = 0; 2: 3: 4: 5: u kC ( 0)  random ; hkC ( 0)  random ; t kC ( 0)  random mãn (2.25) Repeat t=t+1 u k1 (t )  u kC ( t 1) ; hk1 (t )  hkC ( t 1) ; t k1 (t )  t kC ( t 1) 6: Tính u kj (t ) ( k  1, N ; j  1, C ) công thức (2.31) 7: Tính hkj (t ) ( k  1, N ; j  1, C ) công thức (2.32) 8: Tính t kj (t ) ( k  1, N ; j  1, C ) công thức (2.33) 9: Cập nhật V j (t ) ( j  1, C ) công thức (2.34) 10: Until V (t )  V (t 1)   ( k  1, N ) thỏa 60 2.7 Độ phức tạp thuật toán Ta thấy, câu lệnh dòng câu lệnh gán thời gian O(C  r  N ) Trong vòng lặp repeat câu lệnh dịng thứ thời gian O(N ) Xét câu lệnh dòng thứ 6, câu lệnh k chạy từ đến N j chạy từ đến C, độ phức tạp O( N  C ) Tƣơng tự, câu lệnh dòng thứ thứ có độ phức tạp O( N  C ) Câu lệnh dòng thứ có độ phức tạp O(C  r ) Do N  r nên độ phức tạp thuật toán bƣớc lặp T (n)  O( N  C ) 2.8 Kết luận chƣơng Trong chƣơng này, chúng tơi trình bày thuật tốn phân cụm mờ trực cảm xác suất trọng số địa lý hiệu chỉnh sử dụng hàm nhân KMIPFGWC Hàm mục tiêu KMIPFGWC sử dụng hàm Gaussian thay hàm Euclidean truyền thống, sử dụng mức độ phụ thuộc cập nhật, giá trị đặc trƣng, mức độ dự mơ hình SIM2 thực việc điều chỉnh sai lệch không gian thông qua tiêu chuẩn trọng số Bằng cách đó, KMIPFGWC tạo kết chặt chẽ mối quan hệ không gian loại bỏ đƣợc giá trị ngoại lại từ giá trị độ thuộc, giá trị đặc trƣng, mức độ dự Một số tính chất giải pháp KMIPFGWC so sánh chất lƣợng phân cụm KMIPFGWC với thuật toán MIPFGWC cho thấy chất lƣợng phân cụm KMIPFGWC tốt so với MIPFGWC 61 CHƢƠNG 3: MỘT SỐ KẾT QUẢ THỬ NGHIỆM 3.1 Môi trƣờng thực nghiệm  Cài đặt: Cài đặt thuật toán KMIPFGWC với thuật toán MIPFGWC [10], FGWC [12] ngơn ngữ lập trình C, máy tính Intel (R) Core (TM) Duo CPU T6570@2.10GHz (2 CPU), nhớ RAM 2048MB, hệ điều hành Windows Professional 32-bit  Dữ liệu: Gồm liệu địa lý kinh tế - xã hội từ tổ chức Liên Hợp Quốc – UNO [21] có chứa số liệu thống kê 230 Quốc gia với thuộc tính: quy mơ dân số, sinh, tử, số kết hôn ly dị hàng năm, hoạt động kinh tế, trình độ học vấn, v.v  Đo chất lƣợng phân cụm: Giá trị IFV công thức (2.66)  Tham số thuật tốn: cài đặt số thơng số KMIPFGWC nhƣ ngƣỡng đƣợc thiết lập tƣơng tự MIPFGWC  Mục tiêu: Chúng đánh giá chất lƣợng phân cụm thời gian tính tốn thuật toán nghiên cứu số đặc điểm thuật toán KMIPFGWC theo trƣờng hợp khác với thông số hàm nhân Gaussian 3.2 So sánh chất lƣợng phân cụm Trong bảng 3.1 so sánh giá trị IFV thuật toán KMIPFGWC với hai thuật toán MIPFGWC FGWC theo số lƣợng phân cụm tham số Nhận xét từ bảng 3.1 ta thấy giá trị IFV KMIPFGWC lớn so với MIPFGWC FGWC số lƣợng cụm tham số thay đổi Ví dụ, trƣờng hợp đầu tiên, số lƣợng cụm 2, giá trị IFV KMIPFGWC, MIPFGWC FGWC 5.058547188, 4.277295, 0.767451 tƣơng ứng Khi số lƣợng cụm tăng lên 3, giá trị IFV tất thuật toán tăng, nhƣng giá trị IFV thuật toán KMIPFGWC lớn 29.83943589, 22.179148 3.798240 Trong trƣờng hợp khác số lƣợng cụm 4, 5, giá trị IFV KIMPFGWC lớn hai thuật toán Điều cho thấy chất lƣợng phân cụm thuật toán KIMPFGWC tốt so với thuật toán khác 62 Bảng 3.1: Giá trị IFV thuật toán theo số lƣợng cụm C tham số C  ,  ,    0.3,0.25,0.45  ,  ,    0.35,0.4,0.25 KMIPFGWC* 5.058547188 MIPFGWC 4.277295 FGWC** 0.767451 KMIPFGWC* 6.444474564 MIPFGWC 2.057448 FGWC** 0.878311 29.83943589 22.179148 3.798240 26.22446771 19.582190 4.366424 32.8705017 30.581131 6.031358 33.8836936 29.624704 7.217266 40.69050927 37.608902 7.856602 44.79198888 37.411510 8.898565 52.77375834 42.934587 9.353371 55.49910905 45.848958 9.735165 59.37855089 52.195249 11.013605 53.8378955 53.488738 11.447735 KMIPFGWC* 11.08623174 MIPFGWC 6.745117 FGWC** 2.089112 KMIPFGWC* 8.353220885 MIPFGWC 4.030379 FGWC** 0.644008 17.21644388 16.469071 7.015062 20.03051079 15.201345 4.144026 31.49313673 28.365178 11.326344 39.23643358 31.066573 10.385179 48.83228616 39.127854 18.752688 43.50821606 37.586166 13.410133 49.05443814 43.268407 22.601350 54.01879974 47.409964 16.670794 59.18063651 53.799952 26.099314 57.73990698 53.607457 19.049012  ,  ,    0.7,0.2,0.1  ,  ,    0.34,0.33,0.33  ,  ,    0.55,0.15,0.3  ,  ,    0.5,0.3,0.2 KMIPFGWC* 7.80895304 MIPFGWC 2.033651 FGWC** 0.404003 KMIPFGWC* 8.075162222 MIPFGWC 3.435273 24.56023071 20.666177 4.669764 26.27674302 20.799380 6.367873 30.54533066 28.349582 6.771677 35.71687923 31.217660 10.129579 37.49650003 36.559658 8.711904 43.749862 38.386950 12.098781 51.86976555 46.418473 9.435227 44.55574909 42.089580 14.404322 52.5315353 52.143056 11.122920 53.40755709 51.283630 17.403688 *: **: u  t   h   ; u  t   h   ; Giá trị  FGWC tổng   FGWC** 1.052985 u  t  h   Bây giờ, kiểm tra tác động thay đổi số lƣợng số cụm giá trị IFV Bảng 3.1 giá trị IFV tăng số lƣợng cụm tăng Ví dụ, số lƣợng cụm thay đổi từ đến 4, giá trị IFV KIMPFGWC tăng từ 29.83943589 đến 32.8705017 Trong đó, FIV IMPFGWC (FGWC) thay đổi từ 22.179148 (3.798240) để 30.581131 (6.031358) Khi giá trị cụm giá trị IFV KMIPFGWC tăng 32.8705017 đến 40.69050927, giá trị IFV MIPFGWC (FGWC) thay đổi từ 30.581131 (6.031358) đến 37.608902 (7.856602) Tỷ lệ tăng trung bình KMIPFGWC, MIPFGWC FGWC trƣờng hợp  ,  ,   tƣơng ứng 19%, 24.1% 31.5% Trong trƣờng hợp thứ hai  ,  ,    0.35,0.4,0.25 tỷ lệ tăng trung bình KMIPFGWC, MIPFGWC FGWC 20.6%, 29.2% 28.9% Tỷ lệ tăng trung bình KMIPFGWC trƣờng hợp thứ ba, thứ tƣ, thứ năm thứ sáu tƣơng ứng 39.7%, 34.5%, 21.7 % 20% Của MIPFGWC (FGWC) tƣơng ứng 36.3% (40.8%), 41.1% 63 (54.6%), 26.4% (24.9%) 26,1% (29.6%) Giá trị tăng trung bình KMIPFGWC, MIPFGWC FGWC tƣơng ứng 25.9%, 30.5% 35% Các tỷ lệ giúp dự đoán giá trị IFV thuật toán tăng lên cụm Tƣơng tự, xác định giá trị IFV thuật toán việc tác động thay đổi giá trị tham số Kết cho thấy giá trị IFV thuật toán KMIPFGWC MIPFGWC ổn định thay đổi giá trị tham số Ví dụ, giá trị trung bình IFV thuật toán KMIPFGWC từ trƣờng hợp đến trƣờng hợp thứ sáu tƣơng ứng 36.76855055, 36.78027155, 36.14386219, 37.14784801, 34.13538588 35.29699211 Nhƣ vậy, ta thấy có khoảng cách giá trị tối đa tối thiểu IFV KMIPFGWC nhỏ Tƣơng tự, giá trị trung bình IFV MIPFGWC từ trƣờng hợp đến trƣờng hợp thứ 31.62938533, 31.33559133, 31.29592983, 31.48364733, 31.02843283 and 31.20207883, cho thấy giá trị IFV MIPFGWC ổn định Các giá trị IFV FGWC khơng ổn định khoảng cách chênh lệch giá trị IFV trƣờng hợp Từ số nhận thấy giá trị IFV KMIPFGWC tốt MIPFGWC FGWC hiệu KMIPFGWC không phụ thuộc vào thay đổi tham số Tuy nhiên, kết giá trị IFV KMIPFGWC tốt trƣờng hợp giá trị tham số? từ giá trị trung bình IFV KMIPFGWC kết luận trƣờng hợp thứ tƣ thiết lập tham số  ,  ,    0.55,0.15,0.3 tốt Nghĩa nên thiết lập giá trị trung bình cho tham số  , giá trị thấp cho tham số  , giá trị cao cho tham số  để đƣợc giá trị IFV KMIPFGWC lớn Tuy nhiên, xem xét chi tiết giá trị IFV trƣờng hợp thứ tƣ, khác giá trị IFV kết hai cụm liên tiếp không Điều dẫn đến kết ban đâu (C=2) kết cuối (C=7) thấp Ngƣợc lại, trƣờng hợp thứ ba kết ban đầu cuối lớn, khác giá trị IFV kết cảu hai cụm liên tiếp hồn tồn Vì vậy, nên lựa chọn tham số cho giá trị tham số  cao, giá trị tham số  trung bình, giá trị tham số  thấp để đƣợc giá trị IFV KMIPFGWC lớn Ta tính đƣợc thời gian thực thuật toán nhƣ bảng 3.2: kết cho thấy thời gian thực thuật toán KMIPFGWC lớn MIPFGWC FGWC Ví dụ, trƣờng hợp số cụm C=2, thời 64 gian tính tốn KMIPFGWC, MIPFGWC FGWC tƣơng ứng 0.6744, 0.1775 0.1092 giây Thời gian tính tốn trung bình KMIPFGWC từ trƣờng hợp đến trƣờng hợp thứ tƣơng ứng 2.74, 3.4, 3.05, 3.55, 2.74 2.8 giây, MIPFGWC (FGWC) tƣơng ứng 1.29 (0.62), 1.27 (0.6), 1.31 (0,59), 1.14 (0.59), 1.23 (0.61) 1.28 (0.58) giây Bảng 3.2: Thời gian tính tốn thuật toán theo số lƣợng cụm C tham số  ,  ,    0.3,0.25,0.45  ,  ,    0.35,0.4,0.25 C KMIPFGWC* 0.6744 MIPFGWC 0.1775 FGWC** 0.1092 KMIPFGWC* 1.6702 MIPFGWC 0.218 FGWC** 0.1048 2.1971 0.5597 0.3247 2.7612 0.6485 0.3039 2.7883 1.2513 0.7456 3.0743 1.0134 0.6639 2.8166 1.3622 0.7084 3.5081 1.3873 0.6798 3.1938 1.7202 0.8612 3.9346 1.812 0.9009 4.7668 2.6462 0.9814 5.5056 2.5304 1.0003 KMIPFGWC* 2.5559 MIPFGWC 0.2523 FGWC** 0.1201 KMIPFGWC* 1.6098 MIPFGWC 0.2231 FGWC** 0.0942 2.8355 0.6563 0.3713 3.4167 0.7059 0.3178 2.9155 1.2005 0.542 3.6922 0.9596 0.518 3.1376 1.2903 0.6177 3.9845 1.3778 0.6467 3.4095 1.9696 0.882 4.2604 1.6378 0.7749 3.4632 2.4851 1.0611 4.3596 1.9538 1.2478 KMIPFGWC* 1.2190 MIPFGWC 0.1786 FGWC** 0.0870 KMIPFGWC* 1.3499 MIPFGWC 0.2124 FGWC** 0.1314 2.2414 0.631 0.3028 2.1719 0.6338 0.3411 2.9427 0.9881 0.6041 2.39459 0.9905 0.5347 3.1366 1.3555 0.6989 2.9959 1.2886 0.6416 3.3171 1.7106 0.8970 3.7792 2.483 0.7734 3.5604 2.5288 1.0985 4.1296 2.1251 1.0946  ,  ,    0.7,0.2,0.1  ,  ,    0.55,0.15,0.3  ,  ,    0.34,0.33,0.33 *: **: u  t   h   ; u  t   h   ; Giá trị  FGWC tổng    ,  ,    0.5,0.3,0.2 u  t  h   Nhìn chung, thời gian tính tốn trung bình KMIPFGWC thơng qua trƣờng hợp khác số lƣợng cụm giá trị tham số lớn MIPFGWC (FGWC) 2.43 (5) lần Tuy nhiên, chênh lệch không đáng kể, giây cho lần xử lý Vì vậy, thời gian tính tốn KMIPFGWC chấp nhận đƣợc Kết luận thu đƣợc phần 3.2:  Chất lƣợng phân cụm KMIPFGWC tốt so với thuật toán MIPFGWC FGWC 65  MIPFGWC ổn định qua trƣờng hợp khác tham số  Chúng ta nên chọn giá trị tham số  lớn, giá trị tham số  trung bình, giá trị tham số  thấp để thu đƣợc giá trị IFV KMIPFGWC tốt  Thời gian tính tốn KMIPFGWC chấp nhận đƣợc 3.3 Khảo sát đặc trƣng thuật toán KMIPFGWC Trong phần này, chúng tơi khảo sát số đặc trƣng thuật tốn KMIPFGWC trƣờng hợp khác hàm Gaussian đƣợc thể dƣới Mục đích để kiểm tra tác động việc thay đổi tham số tới giá trị IFV thuật toán MIPFGWC Kết đƣợc thể bảng 3.3 3.4 Trƣờng hợp 1:  u   t   h  :  u , u ,  u   0.7,0.2,0.1;  t , t ,  t   0.6,0.15,0.25;  h ,  h ,  h   0.5,0.2,0.3 Trƣờng hợp 2:  u   h   t  :  u , u ,  u   0.7,0.2,0.1;  t , t ,  t   0.5,0.2,0.3;  h ,  h ,  h   0.6,0.15,0.25 Trƣờng hợp3:  t   u   h  :  u , u ,  u   0.6,0.15,0.25;  t , t ,  t   0.7,0.2,0.1;  h ,  h ,  h   0.5,0.2,0.3 Trƣờng hợp 4:  t   h   u  :  u , u ,  u   0.5,0.2,0.3;  t , t ,  t   0.7,0.2,0.1;  h ,  h ,  h   0.6,0.15,0.25 Trƣờng hợp5:  h   u   t  :  u , u ,  u   0.6,0.15,0.25;  t , t ,  t   0.5,0.2,0.3;  h ,  h ,  h   0.7,0.2,0.1 Trƣờng hợp 6:  h   t   u  :  u , u ,  u   0.5,0.2,0.3;  t , t ,  t   0.6,0.15,0.25;  h ,  h ,  h   0.7,0.2,0.1 Trƣờng hợp 7:  h   t   u  :  u ,  u ,  u    t ,  t ,  t    h ,  h ,  h   0.7,0.2,0.1 Từ bảng 3.3 cho thấy trƣờng hợp trƣờng hợp cho kết tốt Ví dụ, C=2, giá trị IFV trƣờng hợp 20.0232695 lớn so với tất trƣờng hợp v.v Thứ tự cho ta thấy hai nhận xét:  Để đạt đƣợc giá trị IFV tốt KMIPFGWC nên thiết lập tham số nhƣ trƣờng hợp (  u   h   t )  Chúng ta quan sát thay đổi giá trị IFV KMIPFGWC giá trị tham số thay đổi theo thứ tự 66 Bảng 3.3: Giá trị IFV MIPFGWC trƣờng hợp C Các trƣờng hợp 11.7049486 20.0232695 10.154074 8.23072177 9.23821881 10.469763 11.08623174 17.952302 25.4080269 15.7233928 16.3287406 15.9462509 16.925419 17.21644388 35.0811333 39.7138951 30.3731482 29.1589639 30.7202974 31.094041 31.49313673 51.5420933 56.8320851 47.8757178 48.7488984 48.8075054 46.929211 48.83228616 50.4247525 59.0267489 47.9636901 46.4649544 47.6160686 46.198731 49.05443814 60.0568722 59.6234998 57.9032289 57.1424389 58.716324 56.465733 59.18063651 Bảng 3.4: Giá trị IFV KMIPFGWC tham số  hàm Gaussian  C 1.0 10.5376415 1.5 9.49204753 2.0 11.086232 2.5 11.6871611 3.0 13.7415223 3.5 14.4181472 4.0 14.1752734 15.6419977 15.3284579 17.216444 17.6213803 18.4386497 19.8629179 18.1979602 30.6946426 29.9651581 31.493137 32.9895376 33.1232309 33.8038296 35.4039242 45.5546969 48.0114717 48.832286 49.0008308 49.6652911 50.1130267 50.8740823 46.6748687 47.5883726 49.054438 50.8181554 51.3159319 50.0033107 52.6601364 56.5632083 58.2222294 59.180637 61.0639689 60.6795872 60.5061439 64.1375236 Bây giờ, tiếp tục khảo sát thay đổi giá trị IFV KMIPFGWC tham số  hàm Gaussian Kết cho thấy rằng, giá trị IFV KMIPFGWC tỷ lệ thuật trực tiếp với giá trị tham số, điều có nghĩa giá trị tham số cao giá trị IFV KMIPFGWC lớn, ví dụ, C=4, giá trị IFV KMIPFGWC từ  =1.0 đến 4.0 tƣơng ứng 30.6946426, 29.9651581, 31.493137, 32.9895376, 33.1232309, 33.8038296 35.4039242 Vì vậy, nên đặt giá trị tham số  cao để giá trị IFV KMIPFGWC đạt đƣợc giá trị tốt Kết luận cuối phần 3.3:  Để có đƣợc chất lƣợng phân cụm tốt KMIPFGWC tham số phải đƣợc thiết lập  u   h   t giá trị tham số  phải cao  Sự thay đổi giá trị IFV KMIPFGWC trƣờng hợp tham số khác xem bảng 3.3 bảng 3.4 67 3.4 Kết luận chƣơng Trong chƣơng này, phần đầu đánh giá chất lƣợng phân cụm thuật toán KMIPFGWC so với thuật tốn MIPFGWC FGWC thơng qua số IFV Đồng thời đánh giá thời gian tính tốn Kết thu đƣợc cho thấy, chất lƣợng phân cụm thuật toán KMIPFGWC tốt so với thuật toán MIPFGWC FGWC Giá trị tham số nên đƣợc chọn cho giá trị tham số  lớn, giá trị tham số  trung bình, giá trị tham số  thấp để thu đƣợc giá trị IFV KMIPFGWC tốt Ngoài kết cịn cho thấy thời gian tính tốn thuật tốn KMIPFGWC có cao thuật tốn MIPFGWC FGWC nhƣng chấp nhận đƣợc Phần cuối chƣơng này, khảo sát số đặc trƣng thuật toán KMIPFGWC trƣờng hợp khác hàm Gaussian Kết cho thấy để có đƣợc chất lƣợng phân cụm tốt tham số phải đƣợc thiết lập  u   h   t giá trị tham số  phải cao 68 KẾT LUẬN Luận văn trình bày:  Các kiến thức phân cụm liệu địa lý, bao gồm định nghĩa, độ đo ứng dụng lĩnh vực ý tế, an ninh, xã hội v.v đồng thời trình bày sơ lƣợc thuật toán phân cụm liệu địa lý nhƣ FCM, NE, FGWC, CFGWC, CFGWC2, IPFGWC, MIPFGWC ƣu nhƣợc điểm chúng, từ đề xuất thuật toán KMIPFGWC  Thuật toán phân cụm mờ trọng số địa lý KMIPFGWC, với hàm mục tiêu sử dụng độ đo khoảng cách hàm nhân Gaussian thay sử dụng hàm Euclidean truyền thống sử dụng mơ hình SIM2 để nâng cao chất lƣợng phân cụm cho toán  Cài đặt thử nghiệm thuật toán KMIPFGWC liệu thực tế liệu địa lý kinh tế - xã hội từ tổ chức Liên Hợp Quốc – UNO so sánh với thuật tốn MIPFGWC, FGWC để đánh giá hiệu thuật toán đề xuất Các kết cho thấy thuật toán KMIPFGWC cho thấy chất lƣợng phân cụm tốt so với thuật toán phân cụm liệu địa lý đƣợc sử dụng phổ biến thời gian thực thuật toán chấp nhận đƣợc Hƣớng phát triển tƣơng lai luận văn tập trung vào ứng dụng thuật toán KMIPFGWC vào toán thực tế kinh tế - xã hội liệu có kích thƣớc lớn 69 TÀI LIỆU THAM KHẢO Tiếng Anh: [1] Ahmed, M N., Yamany, S M., Mohamed, N., Farag, A A., Moriarty, T., 2002 A modified fuzzy c-means algorithm for bias field estimation and segmentation of MRI data IEEE Trans Med Imaging 21,193–199 [2] Atanassov, K T (1986) Intuitionistic fuzzy sets Fuzzy sets and Systems,20(1), 87-96 [3] Bezdek, J.C., R Ehrlich, et al (1984), "FCM: the fuzzy c-means clustering algorithm", Computers and Geosciences, 10, pp.191-203 [4] Chen, S C., Zhang, D Q., 2004 Robust image segmentation using FCM with spatial constrains based on new kernel-induced distance measure IEEE Trans Systems Man Cybernet Part B 34, 1907–1916 [5] Feng, Z and Flowerdew, R (1998), Fuzzy Geodemographics: a contribution from fuzzy clustering methods, In: Carver, S (Ed.) Innovations in GIS 5, Taylor & Francis, London, pp.119-127 [6] Harrison, N., Hatt, S (2010), “„Disadvantaged Learners‟: Who Are We Targeting? Understanding the Targeting of Widening Participation Activity in the United Kingdom Using Geo-Demographic Data From Southwest England”, Higher Education Quarterly, Vol 64, No 1, pp 65-88 [7] Keogh, E., Ratanamahatana, C A., 2005 Exact indexing of dynamic time warping Knowledge and information systems 7(3), 358-386 [8] Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), “A Novel Intuitionistic Fuzzy Clustering Method for Geo-Demographic Analysis”, Expert Systems with Applications, Vol 39, No 10, pp 9848–9859 [9] Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2012), "Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm", International Journal of Machine Learning and Computing, 2(3), 235-238 70 [10] Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), “Spatial interaction – modification model and applications to geo-demographic analysis”, Knowledge-Based Systems, Vol 49, pp 152–170 [11] Le Hoang Son (2014), “Enhancing Clustering Quality of GeoDemographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization”, Applied Soft Computing, Vol 22, pp 566 - 584 [12] Mason, G A and Jacobson, R D., 2007 Fuzzy Geographically Weighted Clustering Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CD-ROM) [13] Masoud, N., Zadeh, L A., and Aminzadeh, F (2003), Soft computing and intelligent data analysis in oil exploration, Vol 51, Elsevier Science, Amsterdam [14] Mendel, J M (2007) Type-2 fuzzy sets and systems: overview.Computational Intelligence Magazine, IEEE, 2(1), 20-29 an [15] Morris, P., Thrall, G (2010), “Using Geospatial Techniques to Address Institutional Objectives: St Petersburg College Geo-Demographic Analysis”, IR Applications, Vol 27, Association for Institutional Research [16] Páez, A., M Trépanier, C Morency (2011), “Geodemographic analysis and the identification of potential business partnerships enabled by transit smart cards”, Transportation Research Part A, Vol 45, pp 640–652 [17] Pedrycz, W (1996), "Conditional fuzzy C-mean", Pattern Recognition Letter, 17, pp.625-632 [18] Shelton, N., Birkin, M and Dorling, D (2006), “Where not to live: a geodemographic classification of mortality for England and Wales, 1981- 2000”, Health and Place, Vol 12, No 4, pp 557-569 [19] Sleight, P (1993), Targeting Customers: How to use geodemographics and lifestyle data in your business, NTC Publication, Henley-on-Thames [20] Thakur, P., Lingam, C., 2013 Generalized Spatial Kernel based Fuzzy CMeans Clustering Algorithm for Image Segmentation International Journal of Science and Research 2(5), 165 -169 [21] UNSD Statistical Databases, 2011 Demographic http://unstats.un.org/unsd/databases.htm, [accessed 14 July 2012] Yearbook 71 [22] Wu Z., Xie, W X., Yu J P., 2003 Fuzzy C-means Clustering Algorithm Based on Kernel Method Proceedings of Fifth International Conference on Computational Intelligence and Multimedia Applications, pp 49-56 [23] Yang, M S., Tsai, H S (2008), “A Gaussian kernel-based fuzzy c-means algorithm with a spatial bias correction”, Pattern Recognition Letters, Vol 29, No 12, pp 1713-1725 [24] Zadeh, L A (1965) Fuzzy sets Information and control, 8(3), 338-353

Ngày đăng: 24/06/2023, 19:21

Xem thêm: