Phân cụm dựa theo lưới vùng

Cách tiếp cận dựa trên lưới hiệu quả hơn so với phương pháp dựa trên mật độ và phân cấp, vì chỉ làm việc với từng đối tượng trong từng ô mà không phải đối tượng dữ liệu, mặt khác phương pháp này không trộn/hòa nhập các ô như phân cấp.

Một số thuật toán điển hình theo phương pháp dựa trên lưới như: STING (STatistical INformation Grid), WaveCluster, CLIQUE (CLustering In QUEst).

Ngoài ra còn có các tiếp cận phân cụm dữ liệu khác như phân cụm dựa trên mô hình (model-based clustering), phân cụm dựa trên các ràng buộc (constraints-based clustering)…

Nhiều giải thuật phân cụm tích hợp các ý tưởng của một vài phương pháp phân cụm, bởi vậy việc phân loại giải thuật đó không dễ như loại giải thuật chỉ phụ thuộc vào duy nhất một loại phương pháp phân cụm. Hơn nữa, nhiều ứng dụng có thể có giới hạn phân cụm với yêu cầu tích hợp một số kỹ thuật phân cụm.

3.2. Phân cụm dữ liệu không gian

Dữ liệu không gian, cụ thể trong luận văn này là dữ liệu địa lý, như đã được giới thiệu ở chương 2, có những đặc trưng riêng so với dữ liệu truyền thống bởi nó bao gồm không chỉ các thuộc tính phi không gian như dữ liệu truyền thống mà còn bao gồm các thuộc tính không gian. Vì điểm khác biệt này mà việc phân cụm dữ liệu không gian cũng cần những cách tiếp cận riêng so với dữ liệu phi không gian.

Phần này sẽ đề cập đến các vấn đề liên quan tới phân cụm dữ liệu không gian, bao gồm việc xem xét các đặc trưng của dữ liệu không gian, các quan hệ không gian của chúng, cũng như các độ đo khoảng cách (hay độ đo mức tương đồng) sử dụng cho phân cụm dữ liệu không gian. Các giải thuật phân cụm dữ liệu như đã trình bày ở phần 3.1 về phân cụm dữ liệu cũng được dùng trong phân cụm dữ liệu không gian, nhưng được áp dụng trên các độ đo đặc trưng riêng của dữ liệu không gian như sẽ được đề cập ở mục 3.2.3.

3.2.1. Các đặc trưng của dữ liệu không gian Tính phức hợp

Như đã đề cập, dữ liệu không gian hàm chứa các thuộc tính không gian và các thuộc tính phi không gian. Các thuộc tính không gian được lưu trữ dưới các dạng cấu trúc của thành tố cơ bản nhất cấu thành nên dữ liệu không gian, đó là điểm dữ liệu nói chung, hay cụ thể là cặp tọa độ kinh-vĩ độ nói riêng trong lĩnh vực thông tin địa lý.

Ngoài ra, như đã biết, dữ liệu không gian chia làm 3 loại chính: điểm, đường, vùng. Mỗi loại dữ liệu trên có những đặc tính riêng. Đối với dữ liệu dạng điểm, các thuộc tính và mối quan hệ liên quan đến kích thước không gian là không có ý nghĩa. Trong khi đó, với dữ liệu dạng đường, các thuộc tính liên quan đến độ dài, hướng là các thuộc tính quan trọng. Với dữ liệu dạng vùng, thuộc tính về diện tích, hình dạng lại mang nhiều ý nghĩa, trái lại, thuộc tính về tọa độ đôi khi không phản ánh chính xác đặc điểm của đối tượng. Chẳng hạn, trọng tâm của một đa giác lõm đôi khi không thuộc về đa giác đó.

Tính lân cận

Ngoài các thuộc tính nội tại của các kiểu dữ liệu, các mối quan hệ giữa các đối tượng với nhau, đặc biệt là các đối tượng lân cận nhau đóng vai trò rất quan trọng trong phân tích dữ liệu không gian, như phát biểu của Nguyên lý thứ nhất của Tobler trong Địa lý học:“Mọi thứ đều liên quan tới nhau, nhưng những thứ gần nhau sẽ liên quan nhiều hơn những thứ xa nhau” [TOB79]. Chẳng hạn, những khu vực ven biển sẽ mang nhiều nét tương đồng nhau về kiểu khí hậu, hoặc các tỉnh thuộc miền trung du sẽ có đặc điểm về chất đất giống nhau.

Tính tương quan không gian

Khác với các kiểu dữ liệu truyền thống, dữ liệu không gian, đặc biệt là dữ liệu địa lý thường có mối quan hệ mật thiết về mặt không gian. Chẳng hạn, một đối tượng dạng vùng có thể hàm chứa (về mặt không gian) một số đối tượng khác. Hoặc một số đối tượng dạng điểm có mối quan hệ về mạng lưới với nhau, ví dụ các cột điện. Các mối quan hệ này có thể gọi chung là quan hệ topology. Đặc tính này không có hoặc không thể biểu diễn được trong các mô hình dữ liệu thông thường.

Những đặc điểm trên của dữ liệu không gian đòi hỏi một cách tiếp cận riêng sử dụng trong phân tích dữ liệu không gian nói chung và phân cụm dữ liệu không gian nói riêng. Ở mục tiếp theo, dựa trên các đặc điểm riêng của dữ liệu không gian này, chúng ta sẽ chỉ ra các thuộc tính/quan hệ không gian cần sử dụng trong phân cụm dữ liệu không gian.

3.2.2. Các quan hệ không gian của dữ liệu không gian

Phân cụm dữ liệu nói chung đòi hỏi phải xác định được thuộc tính dùng để phân cụm và các độ đo khoảng cách (độ tương đồng) của các mẫu dữ liệu.Với các đặc

trưng riêng của mình như đã đề cập ở mục trên, dữ liệu không gian ngoài việc có thể được phân cụm theo các thuộc tính phi không gian của nó, còn có thể được phân cụm theo các thuộc tính không gian hoặc kết hợp sử dụng cả hai loại thuộc tính này trong phân cụm. Các thuộc tính thể hiện quan hệ không gian giữa các đối tượng dữ liệu không gian bao gồm:

- Quan hệ về khoảng cách - Quan hệ về hướng - Quan hệ về Topology

Mục 3.2.3 sẽ trình bày về độ đo khoảng cách dựa trên các mối quan hệ này.

Khoảng cách

ít ý nghĩa tùy thuộc vào kiểu của đối tượng không gian. Chẳng hạn, khoảng cách giữa hai đối tượng dạng vùng là khái niệm tương đối mờ và có nhiều định nghĩa và cách đánh giá, nó thường mang ít ý nghĩa hơn là khái niệm khoảng cách giữa hai đối tượng dạng điểm. Ở mục sau, chúng ta sẽ xem xét kỹ hơn về một số cách đánh giá khoảng cách của các đối tượng dữ liệu không gian.

Hướng

Quan hệ về hướng trong không gian, ví dụ không gian 2 chiều bao gồm: Đông, Tây, Nam, Bắc hoặc chia chi tiết hơn bởi Đông Nam, Đông Bắc, Tây Nam, Tây Bắc. Quan hệ này mang tính tương đối tùy thuộc vào đối tượng tham chiếu. Một đối tượng có thể có thuộc tính là “Đông” đối với đối tượng này, nhưng lại là “Tây” đối với một đối tượng tham chiếu khác.

Hình 30: Quan hệ về hướng của các đối tượng không gian [ESKS01]

Topology

Khái niệm tô pô trong GIS được định nghĩa là “Tập các quy tắc định nghĩa mối quan hệ giữa các đối tượng điểm, đường, vùng”. ESRI định nghĩa Tô pô là “Sự sắp xếp mà ràng buộc cách thức các đối tượng địa lý chia sẻ đặc điểm hình học với nhau”.

Quan hệ về topology thể hiện mối tương quan về mặt không gian giữa các đối tượng không gian theo ý nghĩa rằng quan hệ này là bất biến với sự thay đổi hình dạng của các đối tượng.

Tuy nhiên, ở đây, chúng ta quan niệm rằng mối quan hệ không gian giữa các đối tượng không gian (điểm, đường, vùng) được đặc tả bởi mô hình 4-interaction và 9- intersection [EGFRA94], như minh họa bởi hình sau:

Hình 31: Mô hình 9-intersection [EGFRA94] Trong đó, các quan hệ giữa hai đối tượng dữ liệu A và B bao gồm:

- Disjoint: không giao cắt - Meets: tiếp xúc

- Overlaps: giao nhau một phần - Equals: trùng nhau

- Covers(A, B): A chứa B

- Covered_by(A, B): A bị chứa bởi B - Contains(A, B): A chứa hoàn toàn B - Inside(A, B): A nằm hoàn toàn trong B

Hình 32: Quan hệ về tô pô của các đối tượng không gian [ESKS01]

3.2.3. Các độ đo tương đồng trong phân cụm dữ liệu không gian

Với các thuộc tính phi không gian của dữ liệu không gian, độ đo tương đồng thường được đánh giá bởi khoảng cách Euclide hoặc khoảng cách Manhattan. Hàm khoảng cách Euclide cho dữ liệu thuộc tính như sau [JOSAS09]:

Trong đó, gik và gjk biểu diễn thuộc tính phi không gian thứ k của các đối tượng Pi và Pj tương ứng, m là tổng số thuộc tính phi không gian. Cần lưu ý rằng, các thuộc tính phi không gian cần được chuẩn hóa về dạng số để có thể sắp xếp thứ tự và sử dụng tính toán được. Quá trình chuẩn hóa có thể được thực hiện bằng cách chia toàn bộ các giá trị trong tập dữ liệu cho giá trị lớn nhất [HAKT06]. Ở công thức trên, giả định coi các thuộc tính có độ quan trọng ngang nhau.

Công thức trên có thể được mở rộng nếu quan tâm đến trọng số của từng thuộc tính phi không gian như ở công thức sau [JOSAS09]:

Với các thuộc tính không gian, các độ đo được khảo sát sơ lược như dưới đây.

3.2.3.1. Độ đo khoảng cách

Khoảng cách được đề cập đến trong dữ liệu không gian là khoảng cách hình học giữa các đối tượng dữ liệu không gian.

Giữa dữ các liệu dạng điểm, khoảng cách được xác định đơn thuần bởi khoảng cách Euclide trong hình học.

Giữa các dữ liệu dạng đường, khái niệm về khoảng cách thường không được xác định một cách rõ ràng và thường mang ít ý nghĩa do đặc điểm phức tạp về hình dạng của chúng. Một cách tương đối để xác định khoảng cách giữa hai đối tượng dạng đường là lựa chọn một số điểm đại diện trên hai đối tượng để tạo thành các đối tượng dạng vùng đại diện cho chúng, rồi quy về việc đánh giá khoảng cách giữa các đối tượng dạng vùng này.

Khoảng cách giữa một đối tượng dạng điểm và một đối tượng dạng đường thường được đánh giá bằng cách tính khoảng cách vuông góc từ đối tượng điểm tới phần gần nhất của đối tượng dạng đường.

Khoảng cách giữa hai đối tượng dạng vùng là một khái niệm phức tạp trong đánh giá định lượng, có nhiều phương án tính khoảng cách đã được đề xuất, sau đây, chúng ta sẽ khảo sát sơ lược một vài phương pháp tính khoảng cách giữa hai đa giác nói chung, hay là hai đối tượng dạng vùng nói riêng.

Một đa giác có thể là lồi, lõm, lớn hay nhỏ, kéo dài hay cầu hóa. Hai đa giác có thể giao nhau mà hình chữ nhật bao của chúng thì không, chúng cũng có thể kề nhau, tức là chung nhau một hoặc nhiều đỉnh. Trong từng trường hợp cụ thể, người ta đưa ra một số hàm tính khoảng cách giữa hai đa giác như dưới đây [JOSAS09].

Khoảng cách tâm (Centroid Distance)

Một trong những cách mô hình hóa một polygon là biểu diễn chúng dưới dạng một điểm đại diện, đó là tâm của polygon, khi đó, khoảng cách giữa 2 polygon suy biến thành khoảng cách giữa 2 điểm. Tuy nhiên, cách tiếp cận này thường không mấy hiệu quả do các polygon có thể có hình dạng và kích thước rất khác nhau. Ví dụ, mặt sàn của một tòa nhà hình chữ nhật có diện tích 400 m2, trong khi đó, một cái hồ có thể có diện tích tới 400 000 m2 với hình dạng phức tạp. Ngoài ra, tâm của một polygon có thể không nằm trong polygon trong trường hợp đó là đa giác lõm, thậm chí, nó còn nằm gọn trong một đa giác khác.

Khoảng cách hình chữ nhật bao (Minimum Bounding Rectangle Distance)

Việc phân tích hình dạng một đa giác có thể là một công việc phức tạp. Ví dụ, hình chữ nhật bao của một đa giác có thể được coi như một sự xấp xỉ thô sơ về hình

dạng và hướng của đa giác. Khoảng cách của hai đa giác có thể được đo bằng cách tìm khoảng cách giữa các tâm của các hình chữ nhật bao. Tuy nhiên, tiếp cận này cũng gặp phải vấn đề trong trường hợp tâm của hình chữ nhật bao nằm ngoài đa giác.

Khoảng cận điểm (Separation distance)

Khoảng cận điểm giữa 2 đa giác A và B được định nghĩa là giá trị nhỏ nhất trong các khoảng cách giữa các cặp điểm bất kỳ P,Q (P và Q tương ứng thuộc A và B) [DOBKI85]. Tuy nhiên, nếu 2 đa giác giao nhau hoặc kề nhau (chung đường biên) thì khoảng cách này sẽ bằng 0. Định nghĩa về khoảng cận điểm này hoàn toàn không đáp ứng được các ứng dụng không gian địa lý (geospatial). Chẳng hạn, trong hình dưới, khoảng cách giữa P1 với P2 và giữa P2 với P3 bằng 0, theo lý thuyết bắc cầu thì khoảng cách giữa P1 với P3 cũng phải bằng 0, tuy nhiên, giá trị này rõ ràng lớn hơn 0 theo cách tính khoảng cận điểm.

Ứng dụng của hệ thông tin địa lý

Tổng quan về khai phá dữ liệu