Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
2,42 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT&TT Nguyễn Thị Sinh KỸ THUẬT PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG GIS Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1.PGS TS ĐẶNG VĂN ĐỨC Thái Nguyên - 2014 MỞ ĐẦU Khai phá liệu khơng gian hay gọi khai phá tri thức từ liệu không gian lĩnh vực có nhu cầu cao Bởi lẽ liệu đầu vào bao gồm khối lượng liệu không gian khổng lồ thu thập từ nhiều ứng dụng khác nhau, từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ đồ số, từ hệ thống quản lý đánh giá mơi trường, …Việc phân tích khai thác lượng thông tin khổng lồ ngày thách thức khó khăn, đòi hỏi phải có nghiên cứu sâu để tìm kỹ thuật khai phá liệu hiệu Trong năm gần đây, việc nghiên cứu khai phá liệu có xu hướng chuyển từ sở liệu quan hệ sở liệu giao dịch sang sở liệu không gian Sự thay đổi giúp hiểu liệu khơng gian mà giúp khám phá mối quan hệ liệu khơng gian phi khơng gian, mơ hình dựa tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức liệu sở liệu không gian, Khai phá liệu không gian sử dụng nhiều hệ thống thông tin địa lý (GIS), viễn thám, khai phá liệu ảnh, ảnh y học, rô bốt dẫn đường, … Khám phá tri thức từ liệu khơng gian thực nhiều hình thức khác sử dụng quy tắc đặc trưng định, trích rút mô tả cấu trúc cụm bật, kết hợp khơng gian, … Các tốn truyền thống hệ thơng tin địa lý trả lời câu hỏi kiểu như: - Những phố dẫn đến Nhà thi đấu Hải Dương ? - Những nhà nằm vùng quy hoạch mở rộng phố? Khai phá liệu khơng gian giúp trả lời cho câu hỏi dạng: - Xu hướng dòng chảy, đứt gãy địa tầng ? - Nên bố trí trạm tiếp sóng điện thoại di động nào? - Những vị trí tối ưu để đặt máy ATM, xăng dầu, nhà hàng,…? Một toán liên quan đến liệu không gian, cụ thể liệu địa lý có ý nghĩa thực tế cao tốn xác định vị trí tối ưu cho việc đặt xăng Cả nước có 374 tổng đại lý 14.000 cửa hàng lẻ xăng dầu.Để xác định vị trí đặt trạm bán lẻ xăng dầu cần phải tuân theo quy định Bộ Công thương, quy định an tồn, phòng chống cháy nổ Ngồi ra, xăng phải đặt vị trí thuận lợi cho việc kinh doanh đạt doanh số cao Hoặc tốn khác có ý nghĩa thực tiễn lớn xác định vị trí tối ưu để mở nhà hàng Hiện địa bàn thành phố Hà Nội có nhiều nhà hàng, quán ăn mở Nhưng tất nhà hàng, quán ăn cho doanh thu tốt Có có nhà hàng mở thời gian ngắn phải đóng cửa khơng có khách dẫn đến chủ đầu tư phải chịu thua lỗ nặng Một nguyên nhân dẫn đến thất bại địa điểm kinh doanh chưa hợp lý Một vị trí tối ưu cho việc mở nhà hàng, qn ăn vị trí phải thỏa mãn số yếu tố sau: nằm khu vực đông dân cư, gần nhiều quan công sở hay trường học, có khu vực để xe, có quang cảnh xung quanh thoáng mát Xuất phát từ nhu cầu thực tế đó, luận văn giới thiệu số phương pháp phân cụm liệu khai phá sở liệu không gian sử dụng Trên sở cài đặt thử nghiệm ứng dụng sử dụng kỹ thuật phân cụm liệu địa lý, khai thác thơng tin địa lý đối tượng địa lý để hỗ trợ giải tốn ví dụ tìm vị trí tối ưu đặt nhà hàng trạm xăng dầu thành phố Hà Nội Luận văn chia thành chương mục sau: - Mở đầu - Chương 1: Tổng quan Hệ thông tin Địa lý (GIS) - Chương 2: Kỹ thuật phân cụm liệu không gian - Chương 3: Xây dựng chương trình thử nghiệm Kết luận, đánh giá - Kết luận CHƯƠNG 1: TỔNG QUAN VỀ HỆ THƠNG TIN ĐỊA LÝ (GIS) 1.1 Mơ hình liệu địa lý: Khái niệm Địa lý (Geography) đề cập lĩnh vực nghiên cứu mô tả Trái đất (Geo-Earth) Ngày nay, khái niệm khái niệm Không gian (Space) sử dụng thay số trường hợp Tuy nhiên, mặt chất Địa lý tập mô tả không gian (hai chiều), khí (ba chiều), … Trái đất Còn khơng gian cho phép mô tả cấu trúc đa chiều nào, khơng quan tâm đến vị trí địa lý Như coi Địa lý phần cấu trúc nhỏ tập cấu trúc Không gian Khi mô tả Trái đất, nhà địa lý đề cập đến quan hệ không gian (spatial relationship) đối tượng giới thực Mối quan hệ thể thông qua đồ (map) biểu diễn đồ họa tập đặc trưng trừu tượng quan hệ không gian tương ứng bề mặt trái đất, ví dụ: đồ dân số biểu diễn dân số vùng địa lý Dữ liệu đồ loại liệu số hóa Để lưu trữ phân tích số liệu thu thập được, cần có trợ giúp hệ thông tin địa lý (Geographic Information System-GIS) 1.1.1 Một số định nghĩa hệ thông tin địa lý Có nhiều cách diễn giải khác cho từ viết tắt GIS, nhiên cách diễn giải mơ tả việc nghiên cứu thơng tin địa lý khía cạnh khác liên quan GIS giống hệ thống thông tin khác, có khả nhập, tìm kiếm quản lý liệu lưu trữ, để từ đưa thơng tin cần thiết cho người sử dụng Ngồi ra, GIS cho phép lập đồ với trợ giúp máy tính, giúp cho việc biểu diễn liệu đồ tốt so với cách truyền thống Dưới số định nghĩa GIS hay dùng [1]: Định nghĩa dự án The Geographer's Craft, Khoa Địa lý, Trường Đại học Texas GIS sở liệu số chuyên dụng hệ trục tọa độ khơng gian phương tiện tham chiếu GIS bao gồm công cụ để thực công việc sau: - Nhập liệu từ đồ giấy, ảnh vệ tinh, ảnh máy bay, số liệu điều tra nguồn khác - Lưu trữ liệu, khai thác, truy vấn sở liệu - Biến đổi liệu, phân tích, mơ hình hóa, bao gồm liệu thống kê liệu không gian - Lập báo cáo, bao gồm đồ chuyên đề, bảng biểu, biểu đồ kế hoạch Từ định nghĩa trên, ta thấy: Thứ nhất, GIS có quan hệ với ứng dụng sở liệu Thông tin GIS liên kết với tham chiếu không gian GIS sử dụng tham chiếu khơng gian phương tiện để lưu trữ truy nhập thông tin Thứ hai, GIS cơng nghệ tích hợp, cung cấp khả phân tích phân tích ảnh máy bay, ảnh vệ tinh hay tạo lập mơ hình thống kê, vẽ đồ Cuối cùng, GIS xem hệ thống cho phép trợ giúp định Cách thức nhập, lưu trữ, phân tích liệu GIS phải phản ánh cách thức thông tin sử dụng công việc lập định hay nghiên cứu cụ thể Định nghĩa David Cowen, NCGIA, Mỹ GIS hệ thống phần cứng, phần mềm thủ tục thiết kế để thu thập, quản lý, xử lý, phân tích, mơ hình hóa hiển thị liệu qui chiếu không gian để giải vấn đề quản lý lập kế hoạch phức tạp Một cách đơn giản, hiểu GIS kết hợp đồ (map) sở liệu (database) GIS = Bản đồ + Cơ sở liệu Bản đồ GIS cơng cụ hữu ích cho phép vị trí địa điểm Với kết hợp đồ sở liệu, người dùng xem thông tin chi tiết đối tượng/thành phần tương ứng với địa điểm đồ thông qua liệu lưu trữ sở liệu Ví dụ, xem đồ thành phố, người dùng chọn thành phố để xem thơng tin thành phố diện tích, số dân, thu nhập bình qn, số quận/huyện thành phố, … 1.1.2 Biểu diễn liệu địa lý Các thành phần liệu địa lý Trong GIS, liệu chia làm hai loại: thành phần khơng gian thành phần phi khơng gian (thuộc tính) Hai loại thành phần liệu kết hợp thông qua số chung để mô tả đối tượng thực Sự kết hợp thể đặc trưng khơng gian đối tượng, cho phép: * Mơ tả “vị trí, hình dạng”: vị trí tham chiếu, đơn vị đo, dạng hình học thực thể địa lý * Mô tả “quan hệ tương tác” thực thể địa lý: đất liền kề với khu công nghiệp ? * Mô tả “thông tin” đối tượng địa lý: chủ sở hữu đất này? Thành phần không gian Thành phần liệu khơng gian hay gọi liệu đồ, liệu đối tượng mà vị trí xác định bề mặt trái đất Dữ liệu không gian sử dụng hệ thống địa lý xây dựng hệ thống tọa độ, bao gồm tọa độ, quy luật ký hiệu dùng để xác định hình ảnh đồ cụ thể đồ Hệ thống GIS dùng thành phần liệu không gian để tạo đồ hay hình ảnh đồ hình giấy thơng qua thiết bị ngoại vi Mỗi hệ thống GIS dùng mơ hình khác để mơ hình hóa giới thực cho giảm thiểu phức tạp không gian không liệu cần thiết để mơ tả xác đối tượng khơng gian Hệ thống GIS hai chiều 2D dùng ba kiểu liệu sở sau để mô tả hay thể đối tượng đồ vector (sẽ làm rõ phần sau), là: Ðiểm (Point) Điểm xác định cặp giá trị tọa độ (x, y) Các đối tượng đơn với thông tin địa lý bao gồm vị trí thường mơ tả đối tượng điểm Các đối tượng biểu diễn kiểu điểm thường mang đặc tính có tọa độ đơn (x, y) không cần thể chiều dài diện tích Ví dụ, đồ, vị trí bệnh viện, trạm rút tiền tự động ATM, xăng, … biểu diễn điểm Hình 1.1 ví dụ vị trí nước bị nhiễm Mỗi vị trí biểu diễn điểm gồm cặp tọa độ (x, y) tương ứng với vị trí có thuộc tính độ sâu tổng số nước bị nhiễm bẩn Các vị trí biểu diễn đồ lưu trữ bảng liệu Hình 1.1: Ví dụ biểu diễn vị trí nước bị nhiễm Ðường – Cung (Line - Arc) Đường xác định dãy điểm điểm đầu điểm cuối Đường dùng để mô tả đối tượng địa lý dạng tuyến đường giao thơng, sơng ngòi, tuyến cấp điện, cấp nước… Các đối tượng biểu diễn kiểu đường thường mang đặc điểm có dãy cặp tọa độ, đường bắt đầu kết thúc cắt điểm, độ dài đường khoảng cách điểm Ví dụ, đồ hệ thống đường bộ, sơng, đường biên giới hành chính, … thường biểu diễn đường đường có điểm (vertex) để xác định vị trí hình dáng đường Hình 1.2: Ví dụ biểu diễn đường Vùng (Polygon) Vùng xác định ranh giới đường, có điểm đầu trùng với điểm cuối Các đối tượng địa lý có diện tích bao quanh đường thường biểu diễn vùng Các đối tượng biểu diễn vùng có đặc điểm mô tả tập đường bao quanh vùng điểm nhãn (label point) thuộc vùng để mơ tả, xác định cho vùng Ví dụ, khu vực hành chính, hình dạng cơng viên,… mơ tả kiểu liệu vùng Hình 1.3 mơ tả ví dụ cách lưu trữ đối tượng vùng Hình 1.3: Ví dụ biểu diễn khu vực hành Một đối tượng biểu diễn kiểu khác tùy thuộc vào tỷ lệ đồ Ví dụ, đối tượng cơng viên biểu diễn điểm đồ có tỷ lệ nhỏ, vùng đồ có tỷ lệ lớn 1.1.3 Mơ hình biểu diễn liệu địa không gian Như đề cập trên, liệu địa lý bao gồm thành phần liệu không gian thành phần liệu thuộc tính Ở phần này, xem xét cách thức biểu diễn thành phần liệu không gian hệ thông tin địa lý Hệ thông tin địa lý biểu diễn thực thể địa lý tự nhiên liệu nó, hệ thống GIS chứa nhiều liệu khả mang lại thông tin lớn Dữ liệu GIS có thơng qua việc mơ hình hóa thực thể địa lý Mơ hình biểu diễn liệu địa lý cách thức biểu diễn trừu tượng thực thể địa lý Mơ hình biểu diễn liệu địa lý đóng vai trò quan trọng cách thức biểu diễn thơng tin ảnh hưởng tới khả thực phân tích liệu khả hiển thị đồ họa hệ thống thông tin địa lý Các mức trừu tượng liệu thể qua mức mơ hình, bao gồm[1]: - Mơ hình quan niệm - Mơ hình logic - Mơ hình vật lý Mơ hình khái niệm Đây mức trừu tượng tiến trình biểu diễn thực thể địa lý Là tập thành phần quan hệ chúng liên quan đến tượng tự nhiên Mơ hình độc lập lập với hệ thống, độc lập với cấu trúc, tổ chức quản lý liệu Một số mô hình quan niệm thường sử dụng GIS là: Mơ hình khơng gian sở đối tượng: Mơ hình tập trung vào tượng, thực thể riêng rẽ xem xét độc lập hay với quan hệ chúng với thực thể khác Bất thể lớn hay nhỏ xem đối tượng độc lập với thực thể láng giềng Đối tượng lại bao gồm đối tượng khác chúng có quan hệ với đối tượng khác Ví dụ đối tượng kiểu đất hồ sơ tách biệt với đối tượng khác không gian thuộc tính Mơ hình hướng đối tượng phù hợp với thực thể người tạo nhà cửa, đường quốc lộ, điểm tiện ích hay vùng hành Một số thực thể tự nhiên sông hồ, đảo… thường biểu diễn mơ hình đối tượng chúng cần xử lý đối tượng rời rạc Mơ hình liệu kiểu vector (sẽ đề cập đến phần sau) ví dụ mơ hình khơng gian sở đối tượng Mơ hình khơng gian sở mạng: Mơ hình có vài khía cạnh tương đồng với mơ hình hướng đối tượng, mở rộng xem xét mối quan hệ tương tác đối tượng khơng gian Mơ hình thường quan tâm đến tính liên thơng, hay đường đối tượng khơng gian, ví dụ mơ hình mạng lưới giao thơng, mạng lưới cấp điện, cấp nước…Trong mơ hình này, hình dạng xác đối tượng thường khơng quan tâm nhiều Mơ hình topo ví dụ mơ hình khơng gian sở mạng Mơ hình quan sát sở nền: Mơ hình quan tâm đến tính liên tục, trải dài mặt khơng gian thực thể địa lý, ví dụ thực thể thảm thực vật, vùng mây bao phủ, vùng nhiễm khí quyển, nhiệt độ bề mặt đại dương…thích hợp sử dụng mơ hình Mơ hình liệu kiểu raster (sẽ đề cập phần sau) ví dụ mơ hình quan sát sở Mơ hình logic Sau biểu diễn thực thể mức mơ hình quan niệm, bước cụ thể hóa mơ hình quan niệm thực thể địa lý thành cách thức tổ chức hay gọi cấu trúc liệu cụ thể để xử lý hệ thơng tin địa lý Ở mơ hình logic, thành phần biểu diễn thực thể quan hệ chúng rõ dạng cấu trúc liệu Một số cấu trúc liệu sử dụng GIS là: Cấu trúc liệu toàn đa giác: Mỗi tầng sở liệu cấu trúc chia thành tập đa giác Mỗi đa giác mã hóa thành trật tự vị trí hình thành đường biên vùng khép kín theo hệ trục tọa độ Mỗi đa giác lưu trữ đặc trưng độc lập, biết đối tượng kề đối tượng địa lý Như quan hệ topo (thể mối quan hệ không gian đối tượng địa lý quan hệ kề nhau, bao hàm nhau, giao cắt nhau…) cấu trúc liệu Nhược điểm cấu trúc liệu số đường biên chung hai CHƯƠNG 3: 3.1 Phân tích tốn Chương phát biểu sơ mục đích, ý nghĩa tốn tìm vị trí tố , cơng ty, khách sạn, siêu thị…càng tốt Trong khuôn khổ luận văn, sở để giải toán dựa việc khai phá liệu không gian, cụ thể thực phân cụm điểm tiện ích để tìm phân bố khơng gian chúng cách tự động, từ hỗ trợ việc định lựa chọn vị trí gần tới cụm điểm tiện ích Phần làm rõ tốn tính khả thi thơng qua việc xem xét yếu tố định đến kết toán, yếu tố bao gồm: - Dữ liệu đầu vào - Phạm vi toán - Phương pháp kỹ thuật sử dụng để giải toán 3.1.1 Nguồn liệu đầu vào phạm vi toán Dữ liệu đồ số tỉnh thành Việt Nam nhìn chung hạn chế số lượng, chất lượng thường không đồng tỷ lệ đồ, nội dung hiển thị Đa phần đồ số bao gồm lớp ranh giới hành chính, địa hình Các thơng tin điểm tiện ích khu du lịch, khách sạn, nhà hàng, siêu thị, đền chùa, khu vui chơi giải trí, vân vân, hạn chế Đặc điểm tốn khai phá liệu nói chung phân cụm liệu nói riêng tính hiệu phụ thuộc nhiều vào khối lượng liệu đầu vào Trong số nguồn liệu đồ số mà học viên tiếp cận được, liệu đồ thành phố Hà Nội phong phú nhất, bao gồm 21 lớp thơng tin đồ, chia thành nhóm thơng tin như: nhóm lớp thơng tin đồ nền, nhóm Văn hóa, giáo dục, Y tế, Kinh doanh dịch vụ, Du lịch, hành chính… Trong lớp thông tin trên, lượng thông tin chủ yếu tập trung khu vực nội thành lớp thơng tin có ý nghĩa u cầu đặt toán chủ yếu lớp thơng tin dạng điểm tiện ích như: - Khách sạn, nhà khách - Siêu thị - Ngân hàng - Nhà hàng, quán bia, cà phê Như vậy, liệu đầu vào sử dụng cho toán chủ yếu lớp thông tin dạng điểm, phạm vi chủ yếu nội thành Hà Nội 3.1.2 Phương pháp kỹ thuật giải toán Để giải toán, cần thực phân cụm lớp liệu điểm tiện ích, có hai cách tiếp cận: - Sử dụng phân cụm đa chiều - Phân cụm đơn chiều lớp liệu thực tổng hợp kết phân cụm Học viên lựa chọn tiếp cận thứ hai với lý mong muốn áp dụng tốn quan trọng hệ thơng tin địa lý toán chồng phủ đồ (đã đề cập mục 1.3.4 Chương 1) Theo cách tiếp cận này, lớp liệu điểm tiện ích sau phân cụm thực xây dựng đường bao cụm, tạo thành lớp đồ dạng vùng bao phủ cụm Tiến hành chồng phủ lớp đồ dạng vùng thu vùng giao cắt vùng thỏa mãn tiêu chí: khoảng cách địa lý tới cụm điểm tiện ích nhỏ nhất, vị trí coi tối ưu để đặt đ Lựa chọn phương pháp phân cụm Với đặc điểm liệu đầu vào đề cập trên, lựa chọn phương pháp phân cụm theo mật độ bởi: Thứ nhất: Đối tượng phân cụm chủ yếu điểm tiện ích, tức đối tượng dạng điểm Kiểu đối tượng phù hợp với phương pháp phân cụm theo mật độ Thứ hai: Không cần thiết phải biết trước số cụm điểm tiện ích phân hoạch được, khơng sử dụng tiếp cận phân hoạch Thứ ba: Không cần lưu trữ thơng tin mức trung gian q trình phân cụm, khơng sử dụng tiếp cận theo lưới Lựa chọn độ đo sử dụng phân cụm Chúng ta quan tâm đến tính liên tục mặt khơng gian điểm tiện ích cụm khoảng cách điểm không quan tâm đến hướng chúng Hơn với đối tượng dạng điểm, quan hệ topology mang ý nghĩa ngoại trừ đối tượng mang thông tin mạng lưới liên thông như: mạng lưới cột điện, mạng lưới cấp nước…Do ta sử dụng độ đo khoảng cách 3.2 Xây dựng chương trình ứng dụng 3.2.1 Phân tích thiết kế hệ thống Hệ thống phải đảm bảo cung cấp chức tối thiểu hệ thông tin địa lý như: - Duyệt đồ - Phóng to - Thu nhỏ - Trượt đồ - Xem thơng tin đồ Ngồi ra, phục vụ u cầu toán đề ra, hệ thống cần có thêm chức năng: - Phân cụm liệu - Chồng phủ đồ - Lưu kết chồng phủ Trên sở phân tích chức hệ thống trên, xây dựng biểu đồ Use case thể chức hệ thống sau: Biểu đồ ca sử dụng Dong lop ban Luu ban Phong to ban Them lop ban Thu nho ban Duyet ban Nguoi su dung Truot ban Phan cum Chong phu ban Biểu đồ hoạt động số thuật toán phân cụm cài đặt K-means Khoi tao ngau nhien K tam cum Gan nhan cum cho tung phan tu Tinh lai tam cum tam cum khong doi DBSCAN Gan nhan cum cho P Nhan cum =0 Q= lan can i cua P P = phan tu i chua gan nhan cho Q chua gan nhan Nhan cum ++ Q la CORE Mo rong cum tu Q Gan nhan cum cho Q P la CORE Mo rong cum tu P duyet het lan can duyet het cac phan tu DBRS alpha=Xac suat tim thay cum moi =1 alphaMax =0.01 Chon ngau nhien phan tu Q Seeds = cac phan tu lan can cua Q Q la NOISE So lan can > nguong danh sach cum khong rong C= cum i C giao voi Seeds Gop C voi Seeds Duyet het danh sach cum Seeds khong thay doi Tao cum moi tu Seeds Tinh lai alpha alpha< alphaMax 3.2.2 Cài đặt chương trình Chương trình thử nghiệm cài đặt ngơn ngữ C#, có sử dụng thư viện mã nguồn mở SharpMap tác giả Morten Nielsen (www.iter.dk) cộng đồng mã nguồn mở phát triển để hỗ trợ hiển thị đồ Một số chức cài đặt chương trình: - Duyệt đồ: hiển thị đồ, phóng to, thu nhỏ, trượt đồ - Phân cụm liệu đồ - Chồng phủ đồ - Lưu đồ Học viên tiến hành cài đặt thử nghiệm thuật toán phân cụm dựa mật độ thuật tốn DBSCAN DBRS, ngồi cài đặt thêm thuật toán phân cụm dựa phân hoạch K-means để so sánh đánh giá Một số hình ảnh chương trình Hình 3.1: Hình ảnh chồng phủ (vùng màu vàng) cụm “Ngân hàng” (màu xanh) “Siêu thị” (màu đỏ) Hình 3.2: Kết phân cụm DBRS liệu thử nghiệm tự tạo Hình 3.3: Kết phân cụm DBRS liệu thực “Nút mạng đường bộ” Tỉnh Thừa Thiên- Huế Hình 3.4: Kết phân cụm chồng phủ cụm điểm tiện ích “Siêu thị” “Khách sạn” nội thành Hà Nội Vùng màu vàng coi vị trí tối ưu cho việ 3.3 Thử nghiệm đánh giá thuật toán phân cụm Học viên tiến hành thử nghiệm, so sánh đánh giá thuật toán cài đặt hệ thống sau: Đánh giá tổng quan thuật toán Độ phức tạp Khả phát K-means DBSCAN DBRS O(tKN) O(NlogN) O(NlogN) Tốt Tốt khơng có có khơng khơng có Khác Giống Khá giống nhiễu Khả phát cụm có hình dạng Khả phân cụm theo thuộc tính phi khơng gian Kết phân cụm lần chạy Bảng 1: So sánh tổng quan thuật tốn K-means, DBSCAN DBRS Hình 3.5: Khả phát nhiễu cụm có hình dạng K-means (trái) DBSCAN (phải), đường bao màu xanh đường biên cụm Hình 3.6: Khả phân cụm theo thuộc tính DBSCAN (trái) DBRS (phải) Đánh giá độ phức tạp thuật toán Thử nghiệm thứ nhất: Thực phân cụm với tập liệu đầu vào: tệp Cosohatang_KTXH bao gồm 4235 mẫu liệu, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, 2GB Ram Kết thu sau: Bảng so sánh thời gian thực phân cụm với tập liệu đầu vào (với tập liệu đầu vào: tệp Cosohatang_KTXH với 4235 mẫu liệu thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Thuật toán Kmeans DBSC AN Các tham số lần lần lần lần lần lần lần lần lần lần 10 382 412 356 449 611 266 577 192 311 621 phân cụm số cụm = epsilon = 1340 1347 1389 1445 1347 1323 1382 1331 1340 1395 1301.1470, MinPts=4 epsilon = 1301.1470,, MinPts=4 DBRS 815 727 831 957 909 935 917 856 723 946 minPur =0.8 , random sampling, alpha max =0.01, thuộc tính phân cụm: "tenGoi" Bảng 2: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN DBRS với tập liệu đầu vào Kết thể dạng đồ thị sau: 1600 1400 1200 1000 K-means 800 DBSCAN 600 DBRS 400 200 lần lần lần lần lần lần lần lần lần lần 10 Hình 3.7: Đồ thị so thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS với tập liệu đầu vào Kết cho thấy: với số lượng liệu đầu vào, thời gian thực trung bình thuật tốn K-means thấp nhất, DBSCAN thực lâu Đồ thị cho thấy biến thiên thời gian thực K-means với tâm cụm ngẫu nhiên lần chạy Thử nghiệm thứ 2: Sử dụng tập liệu đầu vào khác nhau, với số lượng liệu tăng dần, kết thu bảng sau: Bảng 3: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN DBRS tập liệu khác Kết thể đồ thị sau: Bảng so sánh thời gian thực phân cụm với số lượng mẫu liệu khác (với tập liệu đầu vào khác nhau, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Số mẫu Các tham số 64 130 270 514 1153 2155 4235 mẫu mẫu mẫu mẫu mẫu mẫu mẫu K-means 12 19 65 127 238 số cụm = DBSCAN 14 19 35 117 717 1298 MinPts=4 liệu phân cụm MinPts=4, minPur =0.8 , DBRS 25 93 244 random 816 sampling, alpha max =0.01 Hình 3.8: Đồ thị thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS tập liệu khác Kết cho thấy, thời gian thực thuật tốn K-means có dạng đường thẳng, phù hợp với độ phức tạp thuật toán O(tKn); thời gian phân cụm DBSCAN DBRS có dạng đường cong lên, phù hợp với độ phức tạp thuật toán O(NlogN) Đồ thị cho thấy thuật tốn DBRS có thời gian thực thấp DBSCAN duyệt số hữu hạn điểm ngẫu nhiên sở liệu KẾT LUẬN Sau thời gian nghiên cứu thử nghiệm, luận văn đáp ứng yêu cầu đặt đề cương Cụ thể, luận văn thu kết sau đây: Đã trình bày cách khái quát Hệ thông tin địa lý vấn đề khai phá liệu không gian Học viên sâu nghiên cứu phân cụm liệu phân cụm liệu khơng gian Luận văn trình bày số thuật toán hay sử dụng phân cụm liệu khơng gian thuật tốn K- means, thuật tốn DBSCAN DBRS Đã xây dựng chương trình thử nghiệm phân cụm lớp liệu điểm tiện ích, sử dụng toán cụ thể tính toán vị trí tối ưu đặt nhà hàng nội thành Hà Nội Đã có so sánh đánh giá thuật tốn sử dụng thử nghiệm Các tiêu chí đánh giá bao gồm: thời gian chạy thuật toán, khả phát nhiễu thuật toán biết đồ thị thực phân cụm thuật tốn Tuy nhiên, luận văn số hạn chế chưa thu thập nhiều liệu thử nghiệm; chưa có đánh giá nhận xét người sử dụng Ngồi luận văn chưa có nghiên cứu phương pháp khai phá liệu khác luật kết hợp, định để so sánh với phân cụm liệu trình bày luận văn TÀI LIỆU THAM KHẢO [1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, Hà Nội, 2001 [2] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, The MIT Press, 2001 [3] Donato Malerba, Michelangelo Ceci, Annalisa Appice, Mining Model Trees from Spatial Data, Springer-Verlag Berlin Heidelberg 2005 [4] Ester, M., Kriegel, H.-P., Sander, J., & Xu, X., A density-based algorithm for discovering clusters in large spatial databases with noise, Second Int Conf on Knowledge Discovery and Data Mining , (pp 226-231) Portland, Oregon, 1996 [5] Fayyad M, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, Advances in Knowledge Discovery and Data Mining AAAI Press/ The MIT Press, 1996 [6] Harvey J Miller (Editor), Jiawei Han (Editor), Geographic Data Mining and Knowledge Discovery, Second Edition, Taylor&Francis LLC, 2009 [7] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers, 2006 [8] Jiawei Han, Micheline Lamber, “Datamining-Concept and Techniques”, Chapter - Classification and Prediction – Morgan Kaufman Publishers, 2001 [9] Longley et al., Geographical Information systems and Science, John Wiley & Sons Ltd, 2005 [10] Oracle,OracleDataMiningConcepts10gRelease1(10.1), OracleCorporation, 2003 [11] Raymond T Ng, Jiawei Han, CLARANS: A Method for Clustering Objects for Spatial Data Mining, IEEE, 9-10, 2002 [12] Tao Y., Papadias D., Performance Analysis of R*-trees with Arbitrary Node Extents, IEEE, 2004 13] Wang, X., & Hamilton, H J., DBRS- A Density-Based Spatial Clustering Method with Random Sampling, 7th PAKDD, (pp 563-575) Seoul, Korea, 2003 ... pháp phân cụm phân thành loại sau: * Phân cụm phân hoạch * Phân cụm phân cấp * Phân cụm dựa mật độ Phân cụm dựa lưới Phần khảo sát số phương pháp phân cụm xem xét chi tiết vài giải thuật phân cụm. .. đó, luận văn giới thiệu số phương pháp phân cụm liệu khai phá sở liệu không gian sử dụng Trên sở cài đặt thử nghiệm ứng dụng sử dụng kỹ thuật phân cụm liệu địa lý, khai thác thơng tin địa lý... trình ứng dụng học viên 2.2.1 Phân cụm phân hoạch Cho trước sở liệu với n đối tượng hay liệu, phương pháp phân chia xây dựng để chia liệu thành k phần, phần đại diện cho cụm, k ≤ n Đó phân loại liệu