2.3.1. Các đặc trưng của khai phá dữ liệu không gian
Cơ sở dữ liệu không gian lưu trữ một khối lượng lớn các dữ liệu liên quan đến không gian như bản đồ, ảnh viễn thám, ảnh y học, sơ đồ thiết kế vi mạch VLSI…Cơ sở dữ liệu không gian có nhiều điểm khác với cơ sở dữ liệu quan hệ. Chúng chứa các thông tin về tô pô và hoặc thông tin về khoảng cách. Chúng thường có cấu trúc phức tạp, được lập chỉ mục không gian và được truy nhập bởi các phương pháp truy nhập dữ liệu không gian riêng, với các công nghệ riêng.
Khai phá dữ liệu không gian là quá trình trích rút tri thức, các mối quan hệ không gian hoặc các mẫu hấp dẫn tiềm ẩn không được lưu trữ một cách rõ ràng trong cơ sở dữ liệu không gian. Quá trình khai phá dữ liệu này đòi hỏi một sự hội nhập của khai phá dữ liệu với các công nghệ cơ sở dữ liệu không gian. Nó có thể được sử dụng để hiểu dữ liệu không gian, phát hiện các mối quan hệ không gian và các mối quan hệ giữa các dữ liệu phi không gian, xây dựng cơ sở kiến thức không gian, tổ chức lại các cơ sở dữ liệu không gian, và tối ưu hóa các truy vấn không gian. Dự kiến sẽ có ứng dụng rộng rãi trong hệ thống thông tin địa lý, viễn thám, thăm dò cơ sở dữ liệu hình ảnh, hình ảnh y tế, điều hướng, kiểm soát giao thông, nghiên cứu môi trường, và nhiều lĩnh vực liên quan đến dữ liệu không gian khác được sử dụng. Thách thức đối với khai phá dữ liệu không gian là khám phá và sử dụng hiệu quả các công nghệ khai phá dữ liệu không gian trên tập dữ liệu không gian rất đồ sộ và phức tạp cả về kiểu dữ liệu lẫn các phương pháp truy nhập.
Thống kê phân tích dữ liệu không gian là một phương pháp phổ biến để phân tích các dữ liệu không gian và khám phá thông tin địa lý. Thuật ngữ Thống kê địa lý (Geostatistics) thường gắn liền với không gian địa lý liên tục, trong khi các số liệu thống kê không gian thường gắn liền với không gian riêng biệt, rời rạc. Trong một mô hình thống kê để xử lý dữ liệu phi không gian, người ta thường giả định có sự độc lập thống kê giữa các phần khác nhau của dữ liệu. Tuy nhiên, khác với các tập dữ liệu truyền thống, không có sự độc lập giữa các dữ liệu không gian bởi vì trong thực tế, đối tượng không gian thường liên quan với nhau, các đối tượng càng gần nhau thì càng liên quan mật thiết với nhau, tức là càng có xu hướng tương đồng với nhau. Ví dụ, các khu vực địa lý gần nhau thì tài nguyên thiên nhiên, khí hậu, nhiệt độ, và điều kiện kinh tế thường tương tự nhau. Người ta thậm chí xem xét mối quan hệ này như luật đầu tiên về địa lý: "Mọi thứ đều liên quan đến tất cả mọi thứ khác, nhưng những thứ gần nhau liên quan nhiều hơn những thứ xa nhau". Thuộc tính phụ thuộc lẫn nhau chặt chẽ trong không gian gần dẫn đến khái niệm về tự tương quan không gian (autocorrelation). Dựa trên khái niệm này, các phương pháp mô hình hóa thống kê không gian đã được phát triển với nhiều thành công lớn. Khai phá dữ liệu không gian sẽ tiếp tục phát triển các phương pháp phân tích thống kê không gian và mở rộng đối với số lượng rất lớn của
dữ liệu không gian, với nhiều điểm nhấn về tính hiệu quả, khả năng mở rộng, hợp tác với các hệ thống cơ sở dữ liệu và kho dữ liệu, cải thiện khả năng tương tác với người dùng, và phát hiện ra các kiểu tri thức mới.
2.3.2. Kho dữ liệu không gian và các chiều dữ liệu
Cũng như dữ liệu quan hệ, chúng ta có thể tích hợp dữ liệu không gian để xây dựng một kho dữ liệu tạo điều kiện khai thác dữ liệu không gian. Kho dữ liệu không gian là một tuyển tập có định hướng chủ đề, được tích hợp, kèm theo và bền vững với thời gian của cả hai loại dữ liệu không gian và phi không gian hỗ trợ khai phá dữ liệu không gian và ra quyết định trong các bài toán liên quan tới dữ liệu không gian. Sau đây là một số ví dụ.
Ví dụ: Có khoảng 3.000 trạm quan trắc thời tiết phân bố tại British Columbia (BC),
Canada, mỗi trạm ghi nhiệt độ hàng ngày và lượng mưa cho một khu vực nhỏ và truyền dữ liệu đến một trạm thời tiết của tỉnh. Với một kho dữ liệu không gian (spatial data warehouse- SDW) hỗ trợ xử lý phân tích trực tuyến không gian (spatial OLAP), người dùng có thể xem được các thông tin về thời tiết trên bản đồ theo tháng, theo từng khu vực, cùng với sự kết hợp khác nhau của nhiệt độ và lượng mưa, và có thể thực hiện các thao tác của OLAP như tự động “khoan xuống” (drill down) hoặc “cuộn lên” (roll up) theo bất kỳ chiều nào để khám phá các mô hình mong muốn,chẳng hạn như: "khu vực ẩm ướt và nóng ở thung lũng Fraser trong mùa hè năm 1999."
Có nhiều vấn đề thách thức liên quan đến việc xây dựng và sử dụng kho dữ liệu không gian.
Thách thức đầu tiên là sự tích hợp dữ liệu không gian từ các nguồn và các hệ thống không đồng nhất. Dữ liệu không gian thường được lưu trữ trong các công ty thuộc các ngành công nghiệp khác nhau và các cơ quan chính phủ sử dụng các định dạng dữ liệu khác nhau. Định dạng dữ liệu không chỉ chuyên biệt về cấu trúc (ví dụ, dữ liệu không gian dựa trên véc tơ hay raster, mô hình hướng đối tượng so với mô hình quan hệ, sự khác nhau về cách thức lưu trữ và lập chỉ mục), mà còn chuyên biệt về nhà cung cấp (ví dụ, ESRI, MapInfo, Intergraph) . Hiện đã có rất nhiều công việc về kết hợp và trao đổi dữ liệu không gian không đồng nhất, đã mở đường cho tích hợp dữ liệu không gian và xây dựng kho dữ liệu không gian.
Thách thức thứ hai là việc thực hiện các xử lý phân tích trực tuyến nhanh và linh hoạt trong các kho dữ liệu không gian. Mô hình giản đồ sao [HK06] là một lựa chọn tốt cho việc mô hình hóa các kho dữ liệu không gian bởi vì nó cung cấp một cấu trúc kho súc tích và có tổ chức và tạo điều kiện hoạt động OLAP. Tuy nhiên, trong một kho dữ liệu không gian, cả các chiều và các độ đo đều có thể chứa các thành phần không gian.
Có 3 kiểu chiều dữ liệu trong một khối dữ liệu không gian [HK06]:
Chiều phi không gian chỉ chứa dữ liệu phi không gian. Các chiều phi không gian như “Nhiệt độ” và “Lượng mưa” có thể được xây dựng cho kho dữ liệu không gian ở ví dụ trên vì mỗi chiều đều chứa dữ liệu phi không gian mà các khái quát hóa của chúng là phi không gian (ví dụ như “nóng” đối với “nhiệt độ” và “ẩm” cho “lượng mưa”).
Chiều không gian- phi không gian (spatial-to-nonspatial dimension): là chiều mà dữ liệu mức nguyên thủy là dữ liệu không gian, nhưng mức khái quát ở một cấp độ nào đó lại trở thành phi không gian. Ví dụ: chiều “city” biểu thị dữ liệu
địa lý trên bản đồ của nước Mỹ, và giả sử rằng biểu diễn không gian của chiều này, chẳng hạn “Seattle” được khái quát hóa thành chuỗi “Tây Bắc Thái Bình Dương”. Mặc dù Tây Bắc Thái Bình Dương là một khái niệm không gian, nhưng biểu diễn của nó ở dạng chuỗi ký tự lại là phi không gian. Nó đóng vai trò của một chiều phi không gian.
Chiều không gian- không gian (spatial-to-spatial dimension): là chiều mà dữ liệu mức nguyên thủy và toàn bộ các khái quát hóa ở mức cao hơn đều là không gian. Ví dụ, chiều “vùng nhiệt độ cân bằng” chứa dữ liệu không gian, và mức khái quát hóa của nó như các vùng bao phủ “0-5 độ C”, “5-10 độ C”…
Chúng ta phân biệt 2 loại độ đo sử dụng trong khối dữ liệu không gian:
Độ đo dạng số: chỉ chứa dữ liệu số. Ví dụ, một độ đo trong một kho dữ liệu không gian có thể là “doanh thu hàng tháng” của một khu vực, khi đó, thao tác “cuộn lên” có thể tính toán tổng doanh thu theo năm, của quận…
Độ đo không gian: chứa các tập con trỏ tham chiếu tới các đối tượng không gian. Ví dụ, trong một thao tác “cuộn lên” trong khối dữ liệu không gian ở ví dụ trên, các vùng với cùng dải nhiệt độ và lượng mưa sẽ được nhóm vào cùng một cell trong khối, và độ đo này chứa một tập các con trỏ tham chiếu đến những vùng trên.
2.3.3. Một số ứng dụng của khai phá dữ liệu không gian
Như đã trình bày ở phần 2.2.3 về các phương pháp khai phá dữ liệu, phân cụm dữ liệu thuộc lớp bài toán khai phá dữ liệu theo hướng mô tả.
Phương pháp khai phá dữ liệu không gian được sử dụng trong nhiều ứng dụng liên quan đến dữ liệu không gian. Trong đó, có nhiều ứng dụng khai phá dữ liệu không gian sử dụng tiếp cận phân cụm, một số bài toán mà phân cụm dữ liệu không gian có thể giải quyết như:
Giám sát tội phạm: Phân cụm các điểm nóng tội phạm để bố trí các trạm an ninh
và lực lượng cảnh sát.
Phân tích xu thế
- Phân tích dữ liệu địa hình và thủy văn, phân cụm các vùng theo độ đo mức tương đồng về điều kiện thủy văn, địa hình để tìm ra hướng dòng chảy trong trường hợp xảy ra ngập lụt ở một vùng.
- Phân tích xu thế biến động giá bất động sản, nhà cho thuê căn cứ trên các thông tin về tỷ lệ thất nghiệp, lương trung bình, mật độ dân cư…
Hình 13: Phân cụm polygon để phân tích xu thế giảm giá trung bình nhà cho thuê xung quanh một khu vực ở Regensburg [ESKS01]
Dự báo thời tiết, xói mòn: phân tích ảnh mây vệ tinh, dự báo mưa. Phân tích dữ
liệu thủy văn, lưu lượng nước, loại đất, lưu vực sông để dự báo xói mòn, sạt lở đất lưu vực sông.
Đồ họa máy tính: dò tìm các lỗi bề mặt vật thể, khái quát hóa mô hình 3D
Nghiên cứu Trái đất: Sử dụng dữ liệu ảnh vệ tinh, ảnh viễn thám để phân tích loại
đất, vùng mây bao phủ, vùng ô nhiễm, vùng nguy cơ cháy rừng…
Hình 15: Phân cụm dữ liệu ảnh viễn thám thu được theo sự tổ hợp tín hiệu của 5 kênh màu của 5 ảnh viễn thám vùng ven biển California [ESKS01]
Môi trường: tìm các vùng đất gần lưu vực sông, có đặc điểm thủy văn tương đồng
với lưu vực sông để khoanh vùng các nguy cơ ô nhiễm nước sông.
Hình 16: Phân tích thủy hệ tại vùng Nebraska, Hoa Kỳ [JOS11]
Quản lý và lập kế hoạch các dịch vụ công cộng: Phân cụm chuỗi nhà hàng, siêu
thị, điểm tiện ích để chọn vị trí đặt các điểm tiện ích mới.
Quản lý đất đai: Phân cụm dữ liệu đất nông nghiệp, khu công nghiệp để quy hoạch đất tái định cư.
Nông nghiệp: Phân tích dữ liệu khí tượng thủy văn: lượng mưa, nhiệt độ và dữ liệu
Quản lý hành chính: phân tích các thông tin thống kê về cộng đồng như tỷ lệ trẻ
sinh mới, tỷ lệ người về hưu…để tái phân bố các nhà hộ sinh, nhà trẻ, nhà dưỡng lão…
Hình 17: các địa phương có tỷ lệ người nghỉ hưu cao [ESKS01]
Như đã đề cập ở chương mở đầu, mục tiêu của luận văn này là nghiên cứu một số phương pháp kỹ thuật phân cụm không gian, đồng thời, ứng dụng phân cụm không gian trong một bài toán cụ thể là bài toán tìm vị trí tối ưu lắp đặt các máy ATM trong nội thành Hà Nội. Do đó, nội dung của chương tiếp theo sẽ đề cập một số phương pháp phân cụm dữ liệu nói chung và phân cụm dữ liệu không gian nói riêng, đồng thời tập trung xem xét và khảo sát một vài thuật toán đã được sử dụng trong phân cụm dữ liệu không gian, làm định hướng lựa chọn giải pháp cài đặt thuật toán phân cụm trong chương trình thử nghiệm.
CHƢƠNG 3. PHÂN CỤM DỮ LIỆU KHÔNG GIAN 3.1. Khái quát về phân cụm dữ liệu
Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự nhau theo một hoặc nhiều tiêu chí nào đó. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng.
Cho tới nay, một số lượng lớn các giải thuật phân cụm đã được đề xuất. Việc lựa chọn giải thuật phân cụm tuỳ thuộc vào kiểu dữ liệu cho sẵn, mục đích riêng và ứng dụng. Nếu như phép phân tích cụm được dùng như một công cụ mô tả hay thăm dò thì có thể thử một vài giải thuật trên cùng dữ liệu để xem xem dữ liệu có thể thể hiện được điều gì.
Nhìn chung, các phương pháp phân cụm được phân thành các loại chính như sau: Phân cụm phân hoạch
Phân cụm phân cấp
Phân cụm dựa trên mật độ Phân cụm dựa trên lưới
Phần tiếp theo sẽ khảo sát một số phương pháp phân cụm và xem xét chi tiết một vài giải thuật phân cụm đã được cài đặt trong chương trình ứng dụng của học viên.
3.1.1. Phân cụm phân hoạch
Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, k ≤ n. Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầu sau: (1) Mỗi nhóm phải chứa ít nhất một đối tượng, (2) Mỗi đối tượng phải thuộc về chính xác một nhóm.
Cho trước k là số lượng các phần chia cần xây dựng, phương pháp phân chia tạo lập phép phân chia ban đầu. Sau đó nó dùng kỹ thuật lặp lại việc định vị, kỹ thuật này cố gắng cải thiện sự phân chia bằng cách dịch chuyển các đối tượng từ cụm này sang cụm khác. Tiêu chuẩn chung của một phân chia tốt là các đối tượng trong cùng cụm là "gần" hay có quan hệ với nhau, ngược lại, các đối tượng của các cụm khác nhau lại "tách xa" hay rất khác nhau. Có nhiều tiêu chuẩn khác nhau để đánh giá chất lượng các phép phân chia.
Trong phân cụm dựa trên phân hoạch, hầu hết các ứng dụng làm theo một trong hai phương pháp heuristic phổ biến: (1) Giải thuật k-means với mỗi cụm được đại diện bởi giá trị trung bình của các đối tượng trong cụm; (2) Giải thuật k-medoids với mỗi
cụm được đại diện bởi một trong số các đối tượng định vị gần tâm của cụm. Các phương pháp phân cụm heuristic này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình. Để tìm ra các cụm với các hình dạng phức tạp và phân cụm cho các tập dữ liệu rất lớn, các phương pháp dựa trên phân chia cần được cải tiến và mở rộng.
Thuật toán K-means
Thuật ngữ “k-means” được J. MacQueen giới thiệu vào năm 1967 và phát triển dựa trên ý tưởng của H. Steinhaus đề xuất năm 1956. Thuật toán này sử dụng giá trị trung bình (mean) của các đối tượng trong cụm làm trung tâm của cụm đó. Tổng giá trị trung bình về độ lệch giữa các đối tượng trong cụm với trung tâm cụm hay còn gọi là hàm tiêu chuẩn (criterion function) được tính bởi công thức
2 1 k i x Ci i m x E
Trong đó, x là một điểm/đối tượng trong không gian, mi là giá trị trung bình của cụm Ci.
Thuật toán k-means chi tiết như sau:
Đầu vào: Số các cụm k, cơ sở dữ liệu gồm n đối tượng
Đầu ra: Tập k cụm mà có giá trị hàm tiêu chuẩn E nhỏ nhất.
Thuật toán:
S1: Khởi tạo k điểm trung tâm cụm bằng cách chọn k đối tượng tùy ý
S2: Lặp các bước