(LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

86 25 0
(LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - - NGUYỄN SƠN PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU KHÔNG GIAN VÀ ỨNG DỤNG TRONG VIỆC XÁC ĐỊNH VỊ TRÍ TỐI ƯU ĐẶT MÁY ATM LUẬN VĂN THẠC SỸ HÀ NỘI -2011 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - - NGUYỄN SƠN PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU KHÔNG GIAN VÀ ỨNG DỤNG TRONG VIỆC XÁC ĐỊNH VỊ TRÍ TỐI ƯU ĐẶT MÁY ATM Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60 48 05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Đặng Văn Đức HÀ NỘI -2011 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC CHƢƠNG MỞ ĐẦU CHƢƠNG TỔNG QUAN HỆ THÔNG TIN ĐỊA LÝ VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN 2.1 Tổng quan Hệ thông tin địa lý 2.1.1 Một số định nghĩa hệ thông tin địa lý 2.1.2 Các thành phần hệ thông tin địa lý 2.1.3 Biểu diễn liệu địa lý 2.1.4 Phân tích xử lý liệu không gian 14 2.1.5 Ứng dụng hệ thông tin địa lý 19 2.2 Tổng quan khai phá liệu 21 2.2.1 Khái niệm 21 2.2.2 Tiến trình khai phá liệu 21 2.2.3 Các mơ hình khai phá liệu 23 2.2.4 Các hƣớng tiếp cận kỹ thuật sử dụng khai phá liệu 24 2.2.5 Các dạng liệu khai phá 25 2.2.6 Các ứng dụng khai phá liệu 25 2.3 Khai phá liệu không gian 26 2.3.1 Các đặc trƣng khai phá liệu không gian 26 2.3.2 Kho liệu không gian chiều liệu 27 2.3.3 Một số ứng dụng khai phá liệu không gian 28 CHƢƠNG PHÂN CỤM DỮ LIỆU KHÔNG GIAN 32 3.1 Khái quát phân cụm liệu 32 3.1.1 Phân cụm phân hoạch 32 3.1.2 Phân cụm phân cấp 35 3.1.3 Phân cụm dựa mật độ 36 3.1.4 Phân cụm dựa lƣới 49 3.2 Phân cụm liệu không gian 50 3.2.1 Các đặc trƣng liệu không gian 50 3.2.2 Các quan hệ/thuộc tính khơng gian liệu không gian 51 3.2.3 Các độ đo tƣơng đồng phân cụm liệu không gian 53 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG ỨNG DỤNG PHÂN CỤM KHÔNG GIAN TRONG BÀI TỐN XÁC ĐỊNH VỊ TRÍ TỐI ƢU LẮP ĐẶT MÁY ATM 62 4.1 Phân tích tốn 62 4.1.1 Nguồn liệu đầu vào phạm vi toán 62 4.1.2 Phƣơng pháp kỹ thuật giải toán 63 4.2 Xây dựng chương trình ứng dụng 64 4.2.1 Phân tích thiết kế hệ thống 64 4.2.2 Cài đặt chƣơng trình 68 4.3 Thử nghiệm đánh giá thuật toán phân cụm 71 CHƢƠNG KẾT LUẬN 75 TÀI LIỆU THAM KHẢO 76 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH VẼ Hình 1: thành tố GIS Hình 2: Mối quan hệ thành phần GIS Hình Ví dụ biểu diễn vị trí nước bị nhiễm Hình Ví dụ biểu diễn đường Hình Ví dụ biểu diễn khu vực hành Hình Biểu diễn vector đối tượng địa lý 13 Hình Biểu diễn giới mơ hình raster 13 Hình 8: Tìm đường ngắn địa điểm đồ Hà Nội 15 Hình 9: Chồng phủ đa giác 17 Hình 10 Tiến trình phủ đa giác 18 Hình 11: Tiến trình khám phá tri thức từ sở liệu 22 Hình 12: Kiến trúc điển hình hệ khai phá liệu 23 Hình 13: Phân cụm polygon để phân tích xu giảm giá trung bình nhà cho thuê xung quanh khu vực Regensburg [ESKS01] 29 Hình 14: Khái qt hóa mơ hình 3D vật thể 29 Hình 15: Phân cụm liệu ảnh viễn thám thu theo tổ hợp tín hiệu kênh màu ảnh viễn thám vùng ven biển California [ESKS01] 30 Hình 16: Phân tích thủy hệ vùng Nebraska, Hoa Kỳ [JOS11] 30 Hình 17: địa phương có tỷ lệ người nghỉ hưu cao [ESKS01] 31 Hình 18: Minh họa thuật tốn k-means 34 Hình 19: Phân cụm phân cấp 35 Hình 20: Kề mật độ trực tiếp, q đối tượng lõi (core), p đối tượng biên 37 Hình 21: Kề mật độ 37 Hình 22: Kết nối theo mật độ 38 Hình 23: Minh họa đồ thị khoảng cách 4-dist xếp CSDL 41 Hình 24: Đồ thị k-dist phương pháp ước lượng tham số Eps 42 Hình 25: Đồ thị 4-dist liệu đồ “Hệ thống siêu thị” 42 Hình 26: Đồ thị 4-dist liệu đồ “Ngân hàng” 43 Hình 27: Các cụm phát CLARANS (a) DBSCAN (b) 43 TIEU LUAN MOI download : skknchat@gmail.com Hình 28: Các cụm phát DBRS(a), DBSCAN(b), K-Means(c), CLARANS(d) [WAHA03] 49 Hình 29: Phân cụm dựa theo lưới vùng 49 Hình 30: Quan hệ hướng đối tượng không gian [ESKS01] 52 Hình 31: Mơ hình 9-intersection [EGFRA94] 53 Hình 32: Quan hệ tô pô đối tượng không gian [ESKS01] 53 Hình 33: Khoảng cận điểm 55 Hình 34: Khoảng cách cận-viễn 56 Hình 35: So sánh khoảng cách Hausdorff với khoảng cách tâm 56 Hình 36: Mối quan hệ tơ pô hai đa giác dựa đối tượng tham chiếu tuyến tính 60 Hình 37: Hình ảnh chồng phủ (vùng màu vàng) cụm “Ngân hàng” (màu xanh) “Siêu thị” (màu đỏ) 68 Hình 38: Kết phân cụm DBRS liệu thử nghiệm tự tạo 69 Hình 39: Kết phân cụm DBRS liệu thực “Nút mạng đường bộ” Tỉnh Thừa Thiên- Huế 69 Hình 40: Kết phân cụm chồng phủ cụm điểm tiện ích “Siêu thị” “Khách sạn” nội thành Hà Nội Vùng màu vàng coi vị trí tối ưu cho việc lắp đặt máy ATM 70 Hình 41: Khả phát nhiễu cụm có hình dạng K-means (trái) DBSCAN (phải) 71 Hình 42: Khả phân cụm theo thuộc tính DBSCAN (trái) DBRS (phải) 72 Hình 43: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS với tập liệu đầu vào 72 Hình 44: Đồ thị thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS tập liệu khác 73 TIEU LUAN MOI download : skknchat@gmail.com KÝ HIỆU VIẾT TẮT CSDL Cơ sở liệu GIS Hệ thông tin địa lý KDD Khám phá tri thức từ sở liệu KPDL Khai phá liệu OLAP Xử lý phân tích liệu trực tuyến SDBS Hệ sở liệu không gian SDW Kho liệu không gian TIEU LUAN MOI download : skknchat@gmail.com TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG MỞ ĐẦU Khai phá liệu khơng gian hay cịn gọi khai phá tri thức từ liệu không gian lĩnh vực có nhu cầu cao Bởi lẽ liệu đầu vào bao gồm khối lượng liệu không gian khổng lồ thu thập từ nhiều ứng dụng khác nhau, từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ đồ số, từ hệ thống quản lý đánh giá mơi trường, …Việc phân tích khai thác lượng thông tin khổng lồ ngày tạo thách thức khó khăn, địi hỏi phải có nghiên cứu sâu để tìm kỹ thuật khai phá liệu hiệu Trong năm gần đây, việc nghiên cứu khai phá liệu có xu hướng chuyển từ sở liệu quan hệ sở liệu giao dịch sang sở liệu không gian Sự thay đổi giúp hiểu liệu không gian mà giúp khám phá mối quan hệ liệu không gian phi không gian, mô hình dựa tri thức khơng gian, phương pháp tối ưu câu truy vấn, tổ chức liệu sở liệu không gian, Khai phá liệu không gian sử dụng nhiều hệ thống thông tin địa lý (GIS), viễn thám, khai phá liệu ảnh, ảnh y học, rô bốt dẫn đường, … Khám phá tri thức từ liệu khơng gian thực nhiều hình thức khác sử dụng quy tắc đặc trưng định, trích rút mơ tả cấu trúc cụm bật, kết hợp không gian, … Các tốn truyền thống hệ thơng tin địa lý trả lời câu hỏi kiểu như: - Những phố dẫn đến Nhà hát lớn Hà Nội ? Những nhà nằm vùng quy hoạch mở rộng phố? Khai phá liệu không gian giúp trả lời cho câu hỏi dạng: - Xu hướng dòng chảy, đứt gãy địa tầng ? Nên bố trí trạm tiếp sóng điện thoại di động nào? Những vị trí tối ưu để đặt máy ATM ? Một toán liên quan đến liệu khơng gian, cụ thể liệu địa lý có ý nghĩa thực tế cao toán xác định vị trí tối ưu cho việc đặt máy ATM ngân hàng Hiện nay, với chủ trương xây dựng Chính phủ điện tử thúc đẩy giao dịch điện tử Việt Nam, việc toán chuyển dần từ sử dụng tiền mặt sang toán qua tài khoản, đồng thời với nhu cầu sử dụng thẻ tín dụng ngày tăng, ngân hàng nước sử dụng tối đa lợi để cạnh tranh, thu hút khách hàng Một cách để cạnh tranh hiệu thông qua việc thiết lập trạm ATM để khách hàng tự thực giao dịch cách thuận tiện TIEU LUAN MOI download : skknchat@gmail.com Tính đến cuối năm 2010, số lượng trạm ATM đạt gần 8000 máy, số thẻ ATM phát hành 12 triệu thẻ 40 tổ chức ngân hàng Tuy nhiên, việc phát triển hệ thống trạm ATM chưa quy hoạch theo chiến lược bản, vị trí đặt trạm ATM nhiều bất cập tình trạng thừa thiếu ATM số khu vực, chưa khai thác hết tiềm hình thức giao dịch Xuất phát từ nhu cầu thực tế đó, luận văn giới thiệu số phương pháp phân cụm liệu khai phá sở liệu không gian sử dụng Trên sở cài đặt thử nghiệm ứng dụng sử dụng kỹ thuật phân cụm liệu địa lý, khai thác thơng tin địa lý đối tượng địa lý có tầm ảnh hưởng quan trọng đến vị trí đặt máy ATM như: siêu thị, trung tâm thương mại, khách sạn, nhà hàng, khu đông dân cư, đường giao thông… để hỗ trợ giải tốn tìm vị trí tối ưu đặt máy ATM thành phố Hà Nội Luận văn chia thành chương mục sau: - Chương 1: Mở đầu, giới thiệu toán - Chương 2: Tổng quan Hệ thông tin Địa lý (GIS) khai phá liệu không gian - Chương 3: Một số phương pháp phân cụm liệu không gian - Chương 4: Xây dựng chương trình thử nghiệm ứng dụng phân cụm liệu khơng gian hỗ trợ tìm vị trí tối ưu đặt máy ATM khu vực nội thành Hà Nội - Chương 5: Kết luận, đánh giá TIEU LUAN MOI download : skknchat@gmail.com 64 4.2 Xây dựng chƣơng trình ứng dụng 4.2.1 Phân tích thiết kế hệ thống Hệ thống phải đảm bảo cung cấp chức tối thiểu hệ thông tin địa lý như: - Duyệt đồ Phóng to Thu nhỏ Trượt đồ Xem thơng tin đồ Ngồi ra, phục vụ yêu cầu toán đề ra, hệ thống cần có thêm chức năng: - Phân cụm liệu Chồng phủ đồ Lưu kết chồng phủ Trên sở phân tích chức hệ thống trên, xây dựng biểu đồ Use case thể chức hệ thống sau: Biểu đồ ca sử dụng Dong lop ban Luu ban Phong to ban Them lop ban Thu nho ban Duyet ban Nguoi su dung Truot ban Phan cum Chong phu ban TIEU LUAN MOI download : skknchat@gmail.com 65 Biểu đồ hoạt động số thuật toán phân cụm cài đặt K-means Khoi tao ngau nhien K tam cum Gan nhan cum cho tung phan tu Tinh lai tam cum tam cum khong doi TIEU LUAN MOI download : skknchat@gmail.com 66 DBSCAN Gan nhan cum cho P Nhan cum =0 Q= lan can i cua P P = phan tu i chua gan nhan chua gan nhan cho Q Nhan cum ++ Q la CORE Mo rong cum tu Q Gan nhan cum cho Q P la CORE Mo rong cum tu P duyet het lan can duyet het cac phan tu TIEU LUAN MOI download : skknchat@gmail.com 67 DBRS alpha=Xac suat tim thay cum moi =1 alphaMax =0.01 Chon ngau nhien phan tu Q Seeds = cac phan tu lan can cua Q Q la NOISE So lan can > nguong danh sach cum khong rong C= cum i C giao voi Seeds Gop C voi Seeds Duyet het danh sach cum Seeds khong thay doi Tao cum moi tu Seeds Tinh lai alpha alpha< alphaMax TIEU LUAN MOI download : skknchat@gmail.com 68 4.2.2 Cài đặt chương trình Chương trình thử nghiệm cài đặt ngơn ngữ C#, có sử dụng thư viện mã nguồn mở SharpMap tác giả Morten Nielsen (www.iter.dk) cộng đồng mã nguồn mở phát triển để hỗ trợ hiển thị đồ Một số chức cài đặt chương trình: - Duyệt đồ: hiển thị đồ, phóng to, thu nhỏ, trượt đồ Phân cụm liệu đồ Chồng phủ đồ Lưu đồ Học viên tiến hành cài đặt thử nghiệm thuật toán phân cụm dựa mật độ thuật tốn DBSCAN DBRS, ngồi cài đặt thêm thuật toán phân cụm dựa phân hoạch K-means để so sánh đánh giá Một số hình ảnh chương trình Hình 37: Hình ảnh chồng phủ (vùng màu vàng) cụm “Ngân hàng” (màu xanh) “Siêu thị” (màu đỏ) TIEU LUAN MOI download : skknchat@gmail.com 69 Hình 38: Kết phân cụm DBRS liệu thử nghiệm tự tạo Hình 39: Kết phân cụm DBRS liệu thực “Nút mạng đường bộ” Tỉnh Thừa Thiên- Huế TIEU LUAN MOI download : skknchat@gmail.com 70 Hình 40: Kết phân cụm chồng phủ cụm điểm tiện ích “Siêu thị” “Khách sạn” nội thành Hà Nội Vùng màu vàng coi vị trí tối ưu cho việc lắp đặt máy ATM TIEU LUAN MOI download : skknchat@gmail.com 71 4.3 Thử nghiệm đánh giá thuật toán phân cụm Học viên tiến hành thử nghiệm, so sánh đánh giá thuật toán cài đặt hệ thống sau: Đánh giá tổng quan thuật toán K-means DBSCAN DBRS Độ phức tạp O(tKN) O(NlogN) O(NlogN) Khả phát nhiễu Tốt Tốt Khả phát cụm có khơng hình dạng có có Khả phân cụm theo khơng thuộc tính phi khơng gian khơng có Kết phân cụm Khác Giống lần chạy Khá giống Bảng 2: So sánh tổng quan thuật tốn K-means, DBSCAN DBRS Hình 41: Khả phát nhiễu cụm có hình dạng K-means (trái) DBSCAN (phải), đường bao màu xanh đường biên cụm TIEU LUAN MOI download : skknchat@gmail.com 72 Hình 42: Khả phân cụm theo thuộc tính DBSCAN (trái) DBRS (phải) Đánh giá độ phức tạp thuật toán Thử nghiệm thứ nhất: Thực phân cụm với tập liệu đầu vào: tệp Cosohatang_KTXH bao gồm 4235 mẫu liệu, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, 2GB Ram Kết thu sau: Bảng so sánh thời gian thực phân cụm với tập liệu đầu vào (với tập liệu đầu vào: tệp Cosohatang_KTXH với 4235 mẫu liệu thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Thuật toán lần lần lần lần lần lần lần lần lần lần 10 K-means 382 412 356 449 611 266 577 192 311 621 DBSCAN 1340 1347 1389 1445 1347 1323 1382 1331 1340 1395 DBRS 815 727 831 957 909 935 917 856 723 946 Các tham số phân cụm số cụm = epsilon = 1301.1470, MinPts=4 epsilon = 1301.1470,, MinPts=4 minPur =0.8 , random sampling, alpha max =0.01, thuộc tính phân cụm: "Name" Bảng 3: Kết so sánh thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS với tập liệu đầu vào Kết thể dạng đồ thị sau: Hình 43: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS với tập liệu đầu vào TIEU LUAN MOI download : skknchat@gmail.com 73 Kết cho thấy: Với số lượng liệu đầu vào, thời gian thực trung bình thuật tốn K-means thấp nhất, DBSCAN thực lâu Đồ thị cho thấy biến thiên thời gian thực K-means với tâm cụm ngẫu nhiên lần chạy Thử nghiệm thứ 2: Sử dụng tập liệu đầu vào khác nhau, với số lượng liệu tăng dần, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM Bảng so sánh thời gian thực phân cụm với số lượng mẫu liệu khác (với tập liệu đầu vào khác nhau, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Số mẫu liệu 103 mẫu K-means Thời gian (ms) 97 64 mẫu mẫu 130 mẫu DBSCAN 12 10 DBRS 5 189 mẫu 270 mẫu 12 514 mẫu 19 14 15 19 767 mẫu Các tham số phân cụm 24 1153 mẫu 65 2155 mẫu 107 4235 mẫu 238 35 45 117 717 1298 MinPts=4 25 32 93 244 816 MinPts=4, minPur =0.8 , random sampling, alpha max =0.01 số cụm = 2GB, kết thu bảng sau: Bảng 4: Kết so sánh thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS tập liệu khác Kết thể đồ thị sau: Hình 44: Đồ thị thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS tập liệu khác TIEU LUAN MOI download : skknchat@gmail.com 74 Kết cho thấy, thời gian thực thuật tốn K-means có dạng đường thẳng, phù hợp với độ phức tạp thuật toán O(tKn); thời gian phân cụm DBSCAN DBRS có dạng đường cong lên, phù hợp với độ phức tạp thuật toán O(NlogN) Đồ thị cho thấy thuật tốn DBRS có thời gian thực thấp DBSCAN duyệt số hữu hạn điểm ngẫu nhiên sở liệu TIEU LUAN MOI download : skknchat@gmail.com 75 CHƢƠNG KẾT LUẬN Luận văn thực công việc sau: - - Nghiên cứu tổng quan Hệ thông tin địa lý khai phá liệu không gian Nghiên cứu tổng quan phân cụm liệu phân cụm liệu không gian Khảo sát vài thuật tốn sử dụng phân cụm liệu khơng gian Xây dựng chương trình thử nghiệm phân cụm lớp liệu điểm tiện ích, sử dụng tốn cụ thể tính tốn vị trí tối ưu lắp đặt máy ATM nội thành Hà Nội Đánh giá thuật toán phân cụm cài đặt liệu đồ nội thành thành phố Hà Nội Tuy nhiên, liệu sử dụng để đánh giá chưa đủ lớn nên chưa đánh giá hết hiệu đặc trưng thuật toán, tính ổn định hệ thống thử nghiệm Trong tương lai, cần phải thử nghiệm đánh giá liệu lớn Những đóng góp luận văn bao gồm: - - Đề xuất phương pháp khai phá liệu không gian, kết hợp việc phân cụm lớp liệu khơng gian với phép phân tích xử lý liệu không gian, hỗ trợ giải lớp toán quản lý lập kế hoạch dựa hệ thông tin địa lý Cài đặt, khảo sát, đánh giá thuật toán phân cụm K-means, DBSCAN, DBRS liệu khơng gian Đề xuất phương pháp tính tốn tự động giá trị tham số Epsilon sử dụng thuật toán phân cụm dựa mật độ DBSCAN DBRS Hướng phát triển luận văn: - - - Hướng nghiên cứu luận văn mở rộng sang lớp liệu không gian dạng đường dạng vùng, sử dụng khai phá liệu liên quan đến đối tượng địa lý dạng đường dạng vùng Một số ràng buộc trọng số đưa vào tốn để khai phá liệu cách mềm dẻo linh hoạt điều kiện cụ thể toán Vấn đề phân cụm liệu đa chiều thử nghiệm để so sánh với phương pháp phân cụm đơn chiều kết hợp với phân tích đa chiều liệu khơng gian Phương pháp tiếp cận sử dụng phân cụm mờ thử nghiệm tính tương đối cố hữu toán tối ưu TIEU LUAN MOI download : skknchat@gmail.com 76 TÀI LIỆU THAM KHẢO Tiếng Việt [DVD01] Đặng Văn Đức (2001), Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, Hà Nội Tiếng Anh [BEKS90] Beckmann N., Kriegel P., Schneider R., Seeger B (1990), “The R*tree: An efficient and Robust Access Method for Points and Rectangles”, SIGMOD 90 [DAVRA05] Davidson, I., & Ravi, S (2005) “Clustering with constraints: Feasibility issues and the k-means algorithm” Proc of SIAM Int Conf of Data Mining [DAVRA04] Davidson, I., & Ravi, S (2004) “Towards efficient and improved hierarchical clustering with instance and cluster level constraints” Department of Computer Science, University at Albany [DOBKI85] Dobkin, D P., & Kirkpatrick, D G (1985) “A Linear algorithm for determining the separation of convex polyhedra”, Journal Algorithm, 6, , 381-392 [EGFRA94] Egenhofer, M J., & Franzosa, R (1994) “On the equivalence of topological relations”, International Journal of Geographical Information Systems , 133-152 [EGMA95] Egenhofer, M J., & Mark, D M (1995) “Modeling conceptual neighborhoods of topological line-region relations”, International Journal of Geographical Information Systems , 555-565 [EGCFE94] Egenhofer, M J., Clementini, E., & Felice, P D (1994), “Topological relations between regions with holes”, International Journal of Geographical Information Systems , 129-144 [ESFKS00] Ester, M., Frommelt, A., Kriegel, H.-P., & Sander, J (2000), “Spatial data mining: database primitives, algorithms and efficient DBMS support”, Data Mining and Knowledge Discovery , 193-216 [ESKSX96] Ester, M., Kriegel, H.-P., Sander, J., & Xu, X (1996), “A density-based algorithm for discovering clusters in large spatial databases with noise”, Second Int Conf on Knowledge Discovery and Data Mining , TIEU LUAN MOI download : skknchat@gmail.com 77 (pp 226-231) Portland, Oregon [ESKS01] Ester, Hans-Peter Kriegel, Jörg Sander (2001), “Algorithms and Applications for Spatial Data Mining”, Published in Geographic Data Mining and Knowledge Discovery, Research Monographs in GIS, Taylor and Francis [FSSU96] M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining AAAI Press/ The MIT Press [HAKT01] Han, J., Kamber, M., & Tung, A (2001), “Spatial clustering methods in data mining: A Survey” In Geographic Data Mining and Knowledge Discovery (pp - 29) Taylor and Francis [HAKT06] Han, J., & Kamber (2006) Data Mining: Concepts and Techniques San Fransisco, CA: Morgan Kaufmann Publishers [HAN95] Hanan S (1995), “Spatial Data Structures”, ACM Press, pp 361-385 [HK06] Jiawei Han and Micheline Kamber (2006), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers [JOSAS09] Joshi, D., Samal, A., & Soh, L- K (2009), “A Dissimilarity Function for Clustering Geospatial Polygons”, 17th International Conference on Advances in Geographic Information Systems (ACM SIGSPATIAL GIS 2009), (pp 384-387) Seattle, WA [JOSAS10] Joshi, D., Samal, A., & Soh, L- K (2010), “A Dissimilarity Function for Polygons”, Journal of Geographic Systems in Decemeber [JOS11] Deepti Joshi (2011), Polygonal Spatial Clustering, Dissertation for the Degree of Doctor of Philosophy, The Graduate College at the University of Nebraska, USA [KAHAK99] Karypis G., Han E.-H, Kumar V., CHAMELEON (1999): “A Hierarchical Clustering Algorithm Using Dynamic Modeling”, Computer 32 [OCT97] Octavian P.(1997), Data Structures for Spatial Database Systems [ODC03] Oracle (2003), Oracle Data Mining Concepts 10g Release (10.1), Oracle Corporation [RAJI02] Raymond T Ng, Jiawei Han, CLARANS (2002): “A Method for Clustering Objects for Spatial Data Mining”, IEEE, 9-10 [ROTE91] Rote, G (1991) “Computing the minimum Hausdorff distance between two point sets on a line under translation” Information Processing TIEU LUAN MOI download : skknchat@gmail.com 78 Letters , 123-127 [SOGHA08] Song Y-C., O’Grady M J., O’Hare G M P (2008), “Research and Application of Clustering Algorithm for Arbitrary Data Set”, IEEE [TAPA04] Tao Y., Papadias D (2004), “Performance Analysis of R*-trees with Arbitrary Node Extents”, IEEE [TOB79] Tobler, W (1979) “Cellular Geography, Philosophy in Geography” Dordrecht, Reidel: Gale and Olsson, Eds [THISU08] Thirumurugan S., Suresh L (2008), Statistical Spatial Clustering using Spatial Data mining, IET Conference, pp 26-29 [WAYM97] Wang W., Yang J., Muntz R., STING (1997): “A Statistical Information Grid Approach to Spatial Data Mining” [WAHA03] Wang, X., & Hamilton, H J (2003), “DBRS- A Density-Based Spatial Clustering Method with Random Sampling”, 7th PAKDD, (pp 563575) Seoul, Korea Web sites [SLI.AU] http://www.sli.unimelb.edu.au/gisweb/GISModule/GIST_Vector.htm TIEU LUAN MOI download : skknchat@gmail.com ... SƠN PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU KHÔNG GIAN VÀ ỨNG DỤNG TRONG VIỆC XÁC ĐỊNH VỊ TRÍ TỐI ƯU ĐẶT MÁY ATM Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60 48 05 LUẬN VĂN THẠC... phá liệu không gian - Chương 3: Một số phương pháp phân cụm liệu không gian - Chương 4: Xây dựng chương trình thử nghiệm ứng dụng phân cụm liệu khơng gian hỗ trợ tìm vị trí tối ưu đặt máy ATM. .. thuật phân cụm không gian, đồng thời, ứng dụng phân cụm không gian tốn cụ thể tốn tìm vị trí tối ưu lắp đặt máy ATM nội thành Hà Nội Do đó, nội dung chương đề cập số phương pháp phân cụm liệu

Ngày đăng: 27/06/2022, 17:24

Hình ảnh liên quan

Hình 2: Mối quan hệ giữa các thành phần của GIS - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 2.

Mối quan hệ giữa các thành phần của GIS Xem tại trang 13 của tài liệu.
Hình 4. Ví dụ biểu diễn đường - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 4..

Ví dụ biểu diễn đường Xem tại trang 16 của tài liệu.
Hình 3. Ví dụ biểu diễn vị trí nước bị ô nhiễm - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 3..

Ví dụ biểu diễn vị trí nước bị ô nhiễm Xem tại trang 16 của tài liệu.
Hình 5. Ví dụ biểu diễn khu vực hành chính - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 5..

Ví dụ biểu diễn khu vực hành chính Xem tại trang 17 của tài liệu.
Hình 6. Biểu diễn vector của đối tượng địa lý - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 6..

Biểu diễn vector của đối tượng địa lý Xem tại trang 21 của tài liệu.
Theo Hình 6, các đối tượng không gian được lưu trữ dưới dạng vertor, đồng thời các thuộc tính liên quan đến lĩnh vực cần quản lý (dữ liệu chuyên đề -  thematic data )  của đối tượng đó cũng cần kết hợp với dữ liệu trên - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

heo.

Hình 6, các đối tượng không gian được lưu trữ dưới dạng vertor, đồng thời các thuộc tính liên quan đến lĩnh vực cần quản lý (dữ liệu chuyên đề - thematic data ) của đối tượng đó cũng cần kết hợp với dữ liệu trên Xem tại trang 21 của tài liệu.
Hình 8: Tìm đường đi ngắn nhất giữa 2 địa điểm trên bản đồ Hà Nội - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 8.

Tìm đường đi ngắn nhất giữa 2 địa điểm trên bản đồ Hà Nội Xem tại trang 23 của tài liệu.
Hình 9: Chồng phủ đa giác - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 9.

Chồng phủ đa giác Xem tại trang 25 của tài liệu.
Hình 10. Tiến trình phủ đa giác - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 10..

Tiến trình phủ đa giác Xem tại trang 26 của tài liệu.
Hình 11: Tiến trình khám phá tri thức từ cơ sở dữ liệu - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 11.

Tiến trình khám phá tri thức từ cơ sở dữ liệu Xem tại trang 30 của tài liệu.
Hình 16: Phân tích thủy hệ tại vùng Nebraska, Hoa Kỳ [JOS11] - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 16.

Phân tích thủy hệ tại vùng Nebraska, Hoa Kỳ [JOS11] Xem tại trang 38 của tài liệu.
Hình 17: các địa phương có tỷ lệ người nghỉ hưu cao [ESKS01] - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 17.

các địa phương có tỷ lệ người nghỉ hưu cao [ESKS01] Xem tại trang 39 của tài liệu.
Hình 18: Minh họa thuật toán k-means - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 18.

Minh họa thuật toán k-means Xem tại trang 42 của tài liệu.
Hình 19: Phân cụm phân cấp - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 19.

Phân cụm phân cấp Xem tại trang 43 của tài liệu.
Hình 22: Kết nối theo mật độ - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 22.

Kết nối theo mật độ Xem tại trang 46 của tài liệu.
Bảng 1: Kết quả thực nghiệm đánh giá thời gian thực hiện thuật toán (tính theo giây) trên 2 thuật toán của nhóm tác giả  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Bảng 1.

Kết quả thực nghiệm đánh giá thời gian thực hiện thuật toán (tính theo giây) trên 2 thuật toán của nhóm tác giả Xem tại trang 51 của tài liệu.
Hình 28 biểu diễn các cụm phát hiện được bởi DBRS(a), DBSCAN(b), K- K-Means(c), CLARANS(d) với cùng CSDL (các cụm khác nhau được biểu diễn bởi các  màu khác nhau) trong thí nghiệm của các tác giả của thuật toán - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 28.

biểu diễn các cụm phát hiện được bởi DBRS(a), DBSCAN(b), K- K-Means(c), CLARANS(d) với cùng CSDL (các cụm khác nhau được biểu diễn bởi các màu khác nhau) trong thí nghiệm của các tác giả của thuật toán Xem tại trang 57 của tài liệu.
Hình 28: Các cụm được phát hiện bởi DBRS(a), DBSCAN(b), K-Means(c), CLARANS(d) [WAHA03]. - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 28.

Các cụm được phát hiện bởi DBRS(a), DBSCAN(b), K-Means(c), CLARANS(d) [WAHA03] Xem tại trang 57 của tài liệu.
Hình 34: Khoảng cách cận-viễn - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 34.

Khoảng cách cận-viễn Xem tại trang 64 của tài liệu.
Dựa trên các quan hệ topology trong mô hình 4-interaction và 9-intersection (Egenhofer &amp; Franzosa, 1994) đã giới thiệu ở trên, có thể đưa ra hàm tính khoảng cách  tương  đối  về  topology,  trong  đó  các  đối  tượng  có  quan  hệ  là disjoint  sẽ  có - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

a.

trên các quan hệ topology trong mô hình 4-interaction và 9-intersection (Egenhofer &amp; Franzosa, 1994) đã giới thiệu ở trên, có thể đưa ra hàm tính khoảng cách tương đối về topology, trong đó các đối tượng có quan hệ là disjoint sẽ có Xem tại trang 68 của tài liệu.
Một số hình ảnh của chương trình - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

t.

số hình ảnh của chương trình Xem tại trang 76 của tài liệu.
Hình 38: Kết quả phân cụm DBRS đối với dữ liệu thử nghiệm tự tạo - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 38.

Kết quả phân cụm DBRS đối với dữ liệu thử nghiệm tự tạo Xem tại trang 77 của tài liệu.
Hình 39: Kết quả phân cụm DBRS đối với dữ liệu thực “Nút mạng đường bộ” của Tỉnh Thừa Thiên- Huế  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 39.

Kết quả phân cụm DBRS đối với dữ liệu thực “Nút mạng đường bộ” của Tỉnh Thừa Thiên- Huế Xem tại trang 77 của tài liệu.
Hình 40: Kết quả phân cụm và chồng phủ các cụm điểm tiện ích “Siêu thị” và “Khách sạn” trong nội thành Hà Nội - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 40.

Kết quả phân cụm và chồng phủ các cụm điểm tiện ích “Siêu thị” và “Khách sạn” trong nội thành Hà Nội Xem tại trang 78 của tài liệu.
Bảng 2: So sánh tổng quan các thuật toán K-means, DBSCAN và DBRS - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Bảng 2.

So sánh tổng quan các thuật toán K-means, DBSCAN và DBRS Xem tại trang 79 của tài liệu.
Hình 41: Khả năng phát hiện nhiễu và cụm có hình dạng bất kỳ của K-means (trái) và DBSCAN (phải), đường bao màu xanh là đường biên cụm - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 41.

Khả năng phát hiện nhiễu và cụm có hình dạng bất kỳ của K-means (trái) và DBSCAN (phải), đường bao màu xanh là đường biên cụm Xem tại trang 79 của tài liệu.
Hình 42: Khả năng phân cụm theo thuộc tính của DBSCAN (trái) và DBRS (phải) - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Hình 42.

Khả năng phân cụm theo thuộc tính của DBSCAN (trái) và DBRS (phải) Xem tại trang 80 của tài liệu.
Bảng 3: Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN và DBRS với cùng một tập dữ liệu đầu vào  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Bảng 3.

Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN và DBRS với cùng một tập dữ liệu đầu vào Xem tại trang 80 của tài liệu.
2GB, kết quả thu được như bảng sau: - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

2.

GB, kết quả thu được như bảng sau: Xem tại trang 81 của tài liệu.
Bảng 4: Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN và DBRS trên các tập dữ liệu khác nhau - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Bảng 4.

Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN và DBRS trên các tập dữ liệu khác nhau Xem tại trang 81 của tài liệu.

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ

  • KÝ HIỆU VIẾT TẮT

  • CHƯƠNG 1. MỞ ĐẦU

  • 2.1. Tổng quan về Hệ thông tin địa lý

  • 2.1.1. Một số định nghĩa về hệ thông tin địa lý

  • 2.1.2. Các thành phần của hệ thông tin địa lý

  • 2.1.3. Biểu diễn dữ liệu địa lý

  • 2.1.4. Phân tích và xử lý dữ liệu không gian

  • 2.1.5. Ứng dụng của hệ thông tin địa lý

  • 2.2. Tổng quan về khai phá dữ liệu

  • 2.2.1. Khái niệm

  • 2.2.2. Tiến trình khai phá dữ liệu

  • 2.2.3. Các mô hình khai phá dữ liệu

  • 2.2.4. Các hướng tiếp cận và kỹ thuật sử dụng trong khai phá dữ liệu

  • 2.2.5. Các dạng dữ liệu có thể khai phá

  • 2.2.6. Các ứng dụng của khai phá dữ liệu

  • 2.3. Khai phá dữ liệu không gian

  • 2.3.1. Các đặc trưng của khai phá dữ liệu không gian

  • 2.3.2. Kho dữ liệu không gian và các chiều dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan