Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
3,22 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG CHU THỊ HẢO KỸ THUẬT PHÂN CỤM DỮ LIỆU KHÔNG GIAN CÓ RÀNG BUỘC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG CHU THỊ HẢO KỸ THUẬT PHÂN CỤM DỮ LIỆU KHÔNG GIAN CÓ RÀNG BUỘC Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS ĐẶNG VĂN ĐỨC THÁI NGUYÊN, 2017 i MỤC LỤC MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ DỮ LIỆU KHÔNG GIAN 1.1 Khai phá liệu 1.1.1 Một số khái niệm 1.1.2 Quá trình khai phá liệu 1.1.3 Các kỹ thuật khai phá liệu 1.2 Dữ liệu không gian địa lý 1.3 Hệ thống thông tin địa lý ứng dụng 10 1.3.1 Một số định nghĩa hệ thông tin địa lý 11 1.3.2 Mô hình biểu diễn liệu địa lý không gian 14 1.3.3 Quan hệ không gian đối tượng địa lý 20 1.4 Khái niệm mục tiêu Phân cụm liệu 20 1.5 Kết luận 23 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU KHÔNG GIAN 24 2.1 Phương pháp phân cụm theo phân hoạch 24 2.2 Phương pháp phân cụm dựa mật độ 26 2.3 Phương pháp phân cụm dựa lưới 32 2.4 Phương pháp phân cụm liệu ràng buộc 35 2.4.1 Thuật toán phân cụm liệu không gian 37 2.4.2 Thuật toán 45 2.5 Kết luận 48 Chương CÀI ĐẶT VÀ THỬ NGHIỆM 49 3.1 Phân tích toán 49 3.1.1 Nguồn liệu đầu vào phạm vi toán 49 3.1.2 Phương pháp kỹ thuật giải toán 50 ii 3.2 Xây dựng chương trình ứng dụng 51 3.2.1 Phân tích thiết kế hệ thống 51 3.2.2 Cài đặt chương trình 52 3.3 Thử nghiệm đánh giá thuật toán phân cụm 54 KẾT LUẬN VÀ KIẾN NGHỊ 61 TÀI LIỆU THAM KHẢO 62 iii DANH MỤC CÁC BẢNG Bảng 3.1: So sánh tổng quan thuật toán K-means, DBSCAN DBRS 54 Bảng 3.2: Kết so sánh thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS với tập liệu đầu vào 56 Bảng 3.3: Kết so sánh thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS tập liệu khác 57 iv DANH MỤC CÁC HÌNH Hình 1.1: Khai phá liệu tập liệu Hình 1.2: Tiến trình khám phá tri thức từ sở liệu Hình 1.3: Kiến trúc điển hình hệ khai phá liệu Hình 1.4 Ví dụ biểu diễn vị trí trước bị ô nhiễm 13 Hình 1.5 Ví dụ biểu diễn đường xác định ranh giới đường, có điểm đầu trùng với điểm cuối 13 Hình 1.6: Ví dụ biểu diễn khu vực hành 14 Hình 1.7: Biểu diễn vector đối tượng địa lý 18 Hình 1.8: Biểu diễn giới mô hình raster 19 Hình 1.9: Mô tả tập liệu phân thành cụm 21 Hình 2.1: Minh họa thuật toán k-means 25 Hình 2.2: Kề mật độ 27 Hình 2.3: Kết nối theo mật độ 27 Hình 2.4: Hình dạng cụm khám phá thuật toán DBSCAN 28 Hình 2.5: Cấu trúc phân cấp 32 Hình 2.3: Các cách mà cụm đưa 36 Hình 2.6: Phân cụm đối tượng liệu ràng buộc 37 Hình 2.7: Phân cụm đối tượng liệu ràng buộc 40 Hình 2.8: Các đa giác đơn giản tạo đường cản trở 44 Hình 2.9: Thuật toán 1: phân cụm có ràng buộc 47 Hình 2.10: Thuật toán 2: Mở rộng cụm 47 Hình 2.11: Tìm điểm láng giềng 47 Hình 3.1: Phân cu ̣m lớp dữ liê ̣u "Khách sa ̣n-Trường học nô ̣i thành Hà Nô ̣i, các vùng màu vàng là các cu ̣m tìm đươ ̣c 53 v Hình 3.2: Hình ảnh chồng phủ (vùng màu vàng) cụm “Siêu thi”̣ (màu xanh) các cu ̣m “Khách sa ̣n- Trường học” (màu đỏ) Vùng màu vàng coi vị trí tối ưu cho việc đă ̣t địa điể m Nhà hàng 53 Hình 3.3: Kết phân cụm DBSCAN liệu thử nghiệm tự tạo 54 Hình 3.4: Khả phát nhiễu cụm có hình dạng Kmeans (trái) DBSCAN (phải), đường bao màu xanh đường biên cụm 55 Hình 3.5: Khả phân cụm theo thuộc tính DBSCAN (trái) DBRS (phải) 55 Hình 3.5: Đồ thị so thời gian thực phân cụm thuật toán Kmeasn, DBSCAN DBRS với tập liệu đầu vào 57 Hình 3.6: Phân cụm tập liệu DS1 59 Hình 3.7: Phân cụm DS2 60 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) ứng dụng ngày phổ biến, không lĩnh vực giám sát, quản lý, lập kế hoạch tài nguyên môi trường mà nhiều toán kinh tế xã hội khác Kết là, khối lượng liệu liên quan đến địa lý, gọi liệu không gian thu thập tăng lên nhanh chóng Một câu hỏi đặt làm để tận dụng, khai thác, khám phá, phát tri thức hữu ích từ kho liệu này? Khai phá liệu áp dụng kỹ thuật công cụ để trích rút tri thức có ích từ nguồn liệu lĩnh vực mà ta quan tâm Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu không gian phản ánh hệ thông tin địa lý, ví dụ khoảng cách (gần kề hay cách xa), điều kiện môi trường tự nhiên hay kinh tế xã hội (rừng núi, đồng bằng, ven biển, đô thị, v.v…) Các toán truyền thống hệ thông tin địa lý trả lời câu hỏi kiểu như: - Những phố dẫn đến sân bay Tân Sân Nhất ? - Những nhà nằm vùng quy hoạch mở rộng phố? Khai phá liệu không gian giúp trả lời cho câu hỏi dạng: - Xu hướng dòng chảy, đứt gãy địa tầng ? - Nên bố trí trạm tiếp sóng điện thoại di động nào? - Những vị trí tối ưu để đặt máy ATM, xăng dầu, nhà hàng,…? Một toán liên quan đến liệu không gian, cụ thể liệu địa lý có ý nghĩa thực tế cao toán xác định vị trí tối ưu cho việc đặt xăng Cả nước có 374 tổng đại lý 14.000 cửa hàng lẻ xăng dầu Để xác định vị trí đặt trạm bán lẻ xăng dầu cần phải tuân theo quy định Bộ Công thương, quy định an toàn, phòng chống cháy nổ Ngoài ra, xăng phải đặt vị trí thuận lợi cho việc kinh doanh đạt doanh số cao Hoặc toán khác có ý nghĩa thực tiễn lớn xác định vị trí tối ưu để mở nhà hàng Hiện địa bàn thành phố Hà Nội có nhiều nhà hàng, quán ăn mở Nhưng tất nhà hàng, quán ăn cho doanh thu tốt Có có nhà hàng mở thời gian ngắn phải đóng cửa khách dẫn đến chủ đầu tư phải chịu thua lỗ nặng Một nguyên nhân dẫn đến thất bại địa điểm kinh doanh chưa hợp lý Một vị trí tối ưu cho việc mở nhà hàng, quán ăn vị trí phải thỏa mãn số yếu tố sau: nằm khu vực đông dân cư, gần nhiều quan công sở hay trường học, có khu vực để xe, có quang cảnh xung quanh thoáng mát vấn đề nhiều đề tài nghiên cứu nhiên với vị trí phức tạp có ngăn cách sông hay cầu v.v… cần phải có đánh giá xác Xuất phát từ nhu cầu thực tế đặc thù, khả ứng dụng phong phú kỹ thuật phân cụm liệu không gian nên em chọn nghiên cứu đề tài kỹ thuật phân cụm liệu không gian có ràng buộc làm luận văn tốt nghiệp cao học Trên sở cài đặt thử nghiệm ứng dụng sử dụng kỹ thuật phân cụm liệu không gian, khai thác thông tin địa lý đối tượng để hỗ trợ giải toán ví dụ tìm vị trí tối ưu đặt nhà hàng Luận văn chia thành chương mục sau - Chương 1: Tổng quan khai phá liệu liệu không gian - Chương 2: Một số kỹ thuật phân cụm liệu không gian - Chương 3: Xây dựng chương trình thử nghiệm, kết luận, đánh giá Luận văn hoàn thành hướng dẫn tận tình PGS.TS Đặng Văn Đức, em xin bày tỏ lòng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn tránh khỏi thiếu sót Em kính mong thầy cô giáo bạn đóng góp ý kiến để đề tài hoàn thiện 48 2.5 Kết luận Trong chương này, trình bày kiến thức liên quan đến Phân cụm liệu Sau đó, trình bày kỹ thuật tiếp cận Phân cụm liệu kỹ thuật trình bày thuật toán đại diện Đặc biệt, trình bày thuật toán phân cụm liệu ràng buộc sâu vào thuật toán DBCluC Như vậy, thấy phân cụm liệu không gian phân cụm không xét đến ràng buộc kết không xác Để giải vấn đề này, chương trình bày hai thuật toán (Thuật toán COD-CLARANS, Thuật toán DBCluC sâu vào thuật toán DBCluC Để biết hiệu thuật toán phân cụm ràng buộc này, chương tới tiến hành xây dựng thử nghiệm Từ đưa kết đánh giá 49 Chương CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Phân tích toán Chương phát biểu sơ mục đích, ý nghĩa toán tìm vị trí tối ưu đă ̣t điể m tâ ̣p kế t Nhà hàng nội thành Hà Nội Yêu cầu toán là: tìm vị trí nằm gần khu vực tâ ̣p trung đông người quan, công ty, khách sạn, siêu thị, bênh ̣ viê ̣n…càng tốt Trong khuôn khổ luận văn, sở để giải toán dựa việc khai phá liệu không gian, cụ thể thực phân cụm điểm tiện ích để tìm phân bố không gian chúng cách tự động, từ hỗ trợ việc định lựa chọn vị trí gần tới cụm điểm tiện ích Phần làm rõ toán tính khả thi thông qua việc xem xét yếu tố định đến kết toán, yếu tố bao gồm: - Dữ liệu đầu vào - Phạm vi toán - Phương pháp kỹ thuật sử dụng để giải toán 3.1.1 Nguồn liệu đầu vào phạm vi toán Dữ liệu đồ số tỉnh thành Việt Nam nhìn chung hạn chế số lượng, chất lượng thường không đồng tỷ lệ đồ, nội dung hiển thị Đa phần đồ số bao gồm lớp ranh giới hành chính, địa hình Các thông tin điểm tiện ích khu du lịch, khách sạn, nhà hàng, siêu thị, đền chùa, khu vui chơi giải trí, vân vân, hạn chế Đặc điểm toán khai phá liệu nói chung phân cụm liệu nói riêng tính hiệu phụ thuộc nhiều vào khối lượng liệu đầu vào Trong số nguồn liệu đồ số mà học viên tiếp cận được, liệu đồ thành phố Hà Nội phong phú nhất, bao gồm 21 lớp thông tin đồ, chia thành nhóm thông tin như: nhóm lớp thông tin đồ nền, nhóm Văn hóa, giáo dục, Y tế, Kinh doanh dịch vụ, Du lịch, hành chính… 50 Trong lớp thông tin trên, lượng thông tin chủ yếu tập trung khu vực nội thành lớp thông tin có ý nghĩa yêu cầu đặt toán chủ yếu lớp thông tin dạng điểm tiện ích như: - Khách sạn, nhà khách - Siêu thị - Ngân hàng - Nhà hàng, quán bia, cà phê Như vậy, liệu đầu vào sử dụng cho toán chủ yếu lớp thông tin dạng điểm, phạm vi chủ yếu nội thành Hà Nội 3.1.2 Phương pháp kỹ thuật giải toán Để giải toán, cần thực phân cụm lớp liệu điểm tiện ích, có hai cách tiếp cận: - Sử dụng phân cụm đa chiều - Phân cụm đơn chiều lớp liệu thực tổng hợp kết phân cụm Học viên lựa chọn tiếp cận thứ hai với lý mong muốn áp dụng toán quan trọng hệ thông tin địa lý toán chồng phủ đồ Theo cách tiếp cận này, lớp liệu điểm tiện ích sau phân cụm thực xây dựng đường bao cụm, tạo thành lớp đồ dạng vùng bao phủ cụm Tiến hành chồng phủ lớp đồ dạng vùng thu vùng giao cắt vùng thỏa mãn tiêu chí: khoảng cách địa lý tới cụm điểm tiện ích nhỏ nhất, vị trí coi tối ưu để đặt điểm tiện ích Nhà hàng Lựa chọn phương pháp phân cụm Với đặc điểm liệu đầu vào đề cập trên, lựa chọn phương pháp phân cụm theo mật độ bởi: Thứ nhất: đối tượng phân cụm chủ yếu điểm tiện ích, tức đối tượng dạng điểm Kiểu đối tượng phù hợp với phương pháp phân cụm theo mật độ 51 Thứ hai: không cần thiết phải biết trước số cụm điểm tiện ích phân hoạch được, không sử dụng tiếp cận phân hoạch Thứ ba: Không cần lưu trữ thông tin mức trung gian trình phân cụm, không sử dụng tiếp cận theo lưới Lựa chọn độ đo sử dụng phân cụm Chúng ta quan tâm đến tính liên tục mặt không gian điểm tiện ích cụm khoảng cách điểm không quan tâm đến hướng chúng Hơn với đối tượng dạng điểm, quan hệ topology mang ý nghĩa ngoại trừ đối tượng mang thông tin mạng lưới liên thông như: mạng lưới cột điện, mạng lưới cấp nước…Do ta sử dụng độ đo khoảng cách toán phân cụm đề 3.2 Xây dựng chương trình ứng dụng 3.2.1 Phân tích thiết kế hệ thống Hệ thống phải đảm bảo cung cấp chức tối thiểu hệ thông tin địa lý như: - Duyệt đồ - Phóng to - Thu nhỏ - Trượt đồ - Xem thông tin đồ Ngoài ra, phục vụ yêu cầu toán đề ra, hệ thống cần có thêm chức năng: - Phân cụm liệu - Chồng phủ đồ - Lưu kết chồng phủ Trên sở phân tích chức hệ thống trên, xây dựng biểu đồ Use case thể chức hệ thống sau: 52 Biểu đồ ca sử dụng Dong lop ban Luu ban Phong to ban Them lop ban Thu nho ban Duyet ban Nguoi su dung Truot ban Phan cum Chong phu ban 3.2.2 Cài đặt chương trình Chương trình thử nghiệm cài đặt ngôn ngữ C#, có sử dụng thư viện mã nguồn mở SharpMap tác giả Morten Nielsen (www.iter.dk) cộng đồng mã nguồn mở phát triển để hỗ trợ hiển thị đồ Một số chức cài đặt chương trình: - Duyệt đồ: hiển thị đồ, phóng to, thu nhỏ, trượt đồ - Phân cụm liệu đồ - Chồng phủ đồ - Lưu đồ Học viên tiến hành cài đặt thử nghiệm thuật toán phân cụm dựa mật độ thuật toán DBSCAN DBRS, DBCLUC cài đặt thêm thuật toán phân cụm dựa phân hoạch K-means để so sánh đánh giá 53 Một số hình ảnh chương trình Hình 3.1: Phân cụm lớp dữ liê ̣u "Khách sa ̣n-Trường học nội thành Hà Nội, các vùng màu vàng là các cụm tìm được Hình 3.2: Hình ảnh chồng phủ (vùng màu vàng) cụm “Siêu thi”̣ (màu xanh) các cụm “Khách sa ̣n- Trường học” (màu đỏ) Vùng màu vàng coi vị trí tối ưu cho việc đă ̣t địa điểm Nhà hàng 54 Hình 3.3: Kết phân cụm DBSCAN liệu thử nghiệm tự tạo 3.3 Thử nghiệm đánh giá thuật toán phân cụm Học viên tiến hành thử nghiệm, so sánh đánh giá thuật toán cài đặt hệ thống sau: Đánh giá tổng quan thuật toán Bảng 3.1: So sánh tổng quan thuật toán K-means, DBSCAN DBRS Độ phức tạp Khả phát nhiễu Khả phát cụm có hình dạng Khả phân cụm theo thuộc tính phi không gian Kết phân cụm K-means DBSCAN DBRS O(tKN) O(NlogN) O(NlogN) Tốt Tốt có không Khác lần chạy Giống Khá giống 55 Hình 3.4: Khả phát nhiễu cụm có hình dạng Kmeans (trái) DBSCAN (phải), đường bao màu xanh đường biên cụm Hình 3.5: Khả phân cụm theo thuộc tính DBSCAN (trái) DBRS (phải) Đánh giá độ phức tạp thuật toán Thử nghiệm thứ nhất: Thực phân cụm với tập liệu đầu vào: tệp Cosohatang_KTXH bao gồm 4235 mẫu liệu, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, 2GB Ram Kết thu sau: 56 Bảng 3.2: Kết so sánh thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS với tập liệu đầu vào Bảng so sánh thời gian thực phân cụm với tập liệu đầu vào (với tập liệu đầu vào: tệp Cosohatang_KTXH với 4235 mẫu liệu thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Thuật toán K-means Các tham lần lần lần lần lần lần lần lần lần 382 412 356 449 611 266 577 192 311 lần số phân 10 cụm 621 số cụm = epsilon = DBSCAN 1340 1347 1389 1445 1347 1323 1382 1331 1340 1395 1301.1470, MinPts=4 epsilon = 1301.1470,, MinPts=4 minPur =0.8, DBRS 815 727 831 957 909 935 917 856 723 946 random samplin, alpha max =0.01, thuộc tính phân cụm: "tenGoi" 57 Kết thể dạng đồ thị sau: Hình 3.5: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS với tập liệu đầu vào Kết cho thấy: với số lượng liệu đầu vào, thời gian thực trung bình thuật toán K-means thấp nhất, DBSCAN thực lâu Đồ thị cho thấy biến thiên thời gian thực K-means với tâm cụm ngẫu nhiên lần chạy Thử nghiệm thứ 2: Sử dụng tập liệu đầu vào khác nhau, với số lượng liệu tăng dần, kết thu bảng sau: Bảng 3.3: Kết so sánh thời gian thực phân cụm thuật toán K-means, DBSCAN DBRS tập liệu khác Bảng so sánh thời gian thực phân cụm với số lượng mẫu liệu khác (với tập liệu đầu vào khác nhau, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Số mẫu Các tham số 64 130 270 514 1153 2155 4235 liệu phân cụm mẫu mẫu mẫu mẫu mẫu mẫu mẫu 12 19 65 127 238 số cụm = K-means DBSCAN 14 19 35 117 717 1298 MinPts=4 DBRS 25 93 244 816 MinPts=4, minPur =0.8, random sampling, alpha max =0.01 58 Kết cho thấy, độ phức tạp thuật toán O(tKn), độ phức tạp thuật toán O(NlogN) Đồ thị cho thấy thuật toán DBCLUC có thời gian thực thấp DBSCAN duyệt số hữu hạn điểm ngẫu nhiên sở liệu Độ phức tạp thuật toán DBCluC Như trình bày trên, thuật toán giảm đa giác mô hình hóa cản trở cắt ngang phân thành đa giác cản trở lồi lõm Cho n số lượng điểm đa giác p, ncc ncv tương ứng số lượng điểm đa giác lồi số lượng điểm đa giác lõm với n ncc ncv Kiểm tra tính chất lồi cho đa giác p yêu cầu (n * ncc * ncv ) trường hợp xấu nhất, nhỏ (n2) Do vậy, đánh giá với tập đa giác, độ phức tạp giảm đa giác xấp xỉ (n2), n số lượng điểm đa giác lớn (tính cạnh) Giảm đa giác giai đoạn tiền xử lý trước phân cụm Độ phức tạp thuật toán phân cụm xấp xỉ (N * log N * L), L số lượng đường cản trở tạo thuật toán giảm đa giác, N số lượng điểm sở liệu Tuy nhiên, độ phức tạp giảm tới (N * log N ), làm theo phương pháp mục cho cản trở Tính hiệu Để so sánh, phải sử dụng tập liệu đắn với ràng buộc Tuy nhiên, không truy cập tới tập liệu Xét tính hiệu quả, chưa biết phân cụm dựa mật độ làm tốt thuật toán phân cụm sử dụng kỹ thuật phân hoạch COD-CLARANS Tôi đánh giá DBCluC cách tạo tập liệu với hình dạng cụm phức tạp biến đổi kích thước liệu số lượng tính phức tạp ràng buộc vật lý Đối với mục đích thử nghiệm, tạo tập liệu tổ hợp.Trong báo cáo này, báo cáo ba thử nghiệm DS1, DS2, DS3 Các cầu cản trở (các dòng sông, hồ, đường cao tốc) 59 đưa vào tập liệu DS1 chứa 434 điểm liệu với bốn cản trở Hình 3.6 trình bày 16 đoạn đường thẳng đa giác giảm tới đường Do DS1 thưa thớt nhóm thành cụm Thêm cản trở tạo bốn cụm khác (Hình 3.6(c)) Hình 3.6: Phân cụm tập liệu DS1 Hình 3.7 minh họa tính hiệu DBCluC xuất cản trở cắt ngang Với việc so sánh kết phân cụm, Hình 3.7 minh họa điểm liệu, cản trở, cắt ngang liên tục trước phân cụm (a); kết phân cụm không xét ràng buộc (b); cụm xét cắt ngang (c); cụm xét cản trở (d); kết phân cụm xét loại ràng buộc: cản trở cắt ngang Các đường đỏ từ cản trở tất tập liệu đường cản trở để thay thết đa giác ban đầu mà vẽ lại màu blue Các cắt ngang từ DS2 DS3 vẽ lại đường red black tương ứng cạnh entry non-entry DS2 có khoảng 1063 điểm liệu, đối tượng cản trở hai đối tượng cắt ngang Có cụm không xét ràng buộc (cản trở cắt ngang), trình bày Hình 3.6(b) DS2 trình bày trực giác toán mà nghiên cứu báo cáo Phân cụm xác cụm Mặc dù cụm đủ nhỏ để truy cập cắt ngang từ (c) Hình 3.7 DS3 có 11775 điểm liệu với cản trở (gồm có 29 đoạn đường thẳng) cầu Hai 29 đoạn đường thẳng ban đầu mô tổ cản trở thay với 15 đường cản trở 60 Hình 3.7: Phân cụm DS2 Tôi xây dựng thử nghiệm thay đổi kích thước tập liệu số lượng cản trở để mô tính co giãn DBCluC Hình 3.7(a) trình bày thời gian thực hai giây tám tập liệu có kích thước thay đổi từ 25K đến 200K với tăng 25K điểm liệu Hình 3.7 trình bày co giãn tốt Thời gian thực phần lớn tuyến tính theo số lượng đối tượng liệu Hình 3.7(b) trình bày thời gian thực hai giấy cho việc phân cụm 40K đối tượng liệu cách thay đổi số lượng cản trở Số lượng theo trục X miêu tả số lượng tổng cạnh đa giác đường cản trở tương ứng Chú ý rằng, thuật toán giảm đa giác thành công việc giảm số lượng đường xấp xỉ nửa thời gian Sự chênh lệch việc tăng cạnh đa giác không số Tuy nhiên, phần tăng đa giác, thời gian thực tuyến tính Do vậy, DBCluC co giãn với sở liệu lớn với kết hợp cản trở cầu theo hướng kích thước sở liệu theo hướng số lượng ràng buộc 61 KẾT LUẬN VÀ KIẾN NGHỊ Từ việc nghiên cứu Tổng quan Khai phá tri thức Khai phá liệu dẫn đến có nhìn khái quát Khai phá liệu như: Khái niệm, ứng dụng kỹ thuật KPDL Sau đó, nghiên cứu Khái quát Phân cụm liệu sâu vào phương pháp phân cụm liệu không gian có ràng buộc Thuật toán DBSCAN, DBRS DBCluC Cuối cùng, tiến hành xây dựng chương trình demo sử dụng thuật toán DBCSAN đánh giá kết quả, nhận xét Như vậy, với thời gian ngắn ngủi, mặt đáp ứng yêu cầu luận văn đề giành số kết sau: - Quyển báo cáo làm tài liệu tham khảo Khai phá liệu nói chung Phân cụm liệu phn cụm có rang buộc nói riêng - Xây dựng chương trình demo thử nghiệm Trong thời gian tới, tiếp tục nghiên cứu vấn đề sau: - Tiếp tục ứng dụng thuật toán DBCluC không gian liệu chiều, - Tiếp tục hoàn thiện phát triển chương trình demo ứng dụng với tập liệu lớn Trong trình làm luận văn, cố gắng nhiều, nhiên không tránh khỏi thiếu sót, mong nhận ý kiến đóng góp Thầy giáo, Cô giáo, bạn bè, đồng nghiệp để luận văn ngày hoàn thiện 62 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đặng Văn Đức (2001), Hệ thống thông tin địa lý, NXB Khoa học Kỹ Thuật, Hà Nội Tài liệu tiếng Anh [2] Han J and M Kamber (2000), Data Mining: Concepts and Techniques, Morgan Kaufman [3] Osmar R Zaїane and Chi-Hoon Lee, Clustering Spatial Data in the Presence of Obstacles and Crossings: a Density-Based Approach, Database Laboratory, Deparment of Computing Science, University of Alberta, Canada [4] Tung A K H., Ng R., Lakshmanan L V S and Han J (2001), Constranintbased clustering in large database, In Proc ICDT, pp 405-419 [5] Wang, X., & Hamilton, H.J (2003), “DBRS- A Density-Based Spatial Clustering Method with Random Sampling”, 7thPAKDD, Seoul, Korea, pp 563-575