Phương pháp dựa trên lưới

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 57 - 60)

CHƯƠNG 2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

2.3 Thuật toán phân cụm dữ liệu bản đồ không gian véc tơ

2.3.4. Phương pháp dựa trên lưới

Phương pháp phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, và chủ yếu được dùng để phân cụm cho dữ liệu không gian. Phương pháp sử dụng cấu trúc dữ liệu lưới (grid), bằng cách chia không gian thành số hữu hạn các ô để hình thành cấu trúc lưới và mọi thao tác phân cụm đều thực hiện trên đó. Ưu điểm là thời gian xử lý nhanh mà không bị ảnh hưởng bởi số các đối tượng dữ liệu, ngƣợc lại nó phụ thuộc vào số các ô trong mỗi chiều của không gian đƣợc chia .

Cách tiếp cận dựa trên lưới hiệu quả hơn so với phương pháp dựa trên mật độ và phân cấp, vì chỉ làm việc với từng đối tƣợng trong từng ô mà không phải đối tượng dữ liệu, mặt khác phương pháp này không trộn/hòa nhập các ô như phân cấp.

Các thuật toán điển hình theo phương pháp dựa trên lưới phải kể đến STING (STatistical INformation Grid), WaveCluster, CLIQUE (CLustering In QUEst).

2.3.4.1. Thuật toán STING

STING đƣợc giới thiệu vào năm 1997, là thuật toán dựa trên cấu trúc dữ liệu đa phân giải (multiresolution) trong đó không gian đƣợc chia thành các ô hình chữ nhật. Có nhiều mức của các ô hình chữ nhật tương ứng với nhiều mức của độ phân giải, các ô này đƣợc hình thành từ cấu trúc phân cấp, nghĩa là: mỗi ô ở mức cao đƣợc phân chia thành một số ô ở mức thấp hơn. Thông tin thống kê cho các thuộc tính trong mỗi ô nhƣ giá trị trung bình, giá trị lớn và nhỏ nhất cần được tính toán trước và lưu lại .

Hình 2.5 mô tả 3 lớp dữ liệu liên tiếp nhau mà STING đã thực hiện chia mỗi ô ở mức cha thành 4 ô ở mức con ngay dưới. Khi đó tham số thống kê có ở mỗi ô mức trên đƣợc tính toán dễ dàng từ các ô ở mức thấp hơn.

Hình 2.5. Ba lớp liên tiếp trong cấu trúc STING

Tham số thống kê bao gồm tham số độc lập thuộc tính nhƣ số lƣợng n (count) và tham số phụ thuộc thuộc tính nhƣ trung bình m (mean), độ lệch chuẩn s (standard deviation), lớn nhất max (maximum), nhỏ nhất min (minimum) và kiểu phân bố dist (distribution) của giá trị trong ô lưới đó. Tham số phân bố có kiểu liệt kê (enumeration) và các kiểu phân bố có thể là chuẩn (normal), đồng dạng (uniform), hàm mũ (exponential), hoặc NONE khi không xác định đƣợc kiểu phân bố. Tham số này có thể có thể do người dùng gán nếu kiểu phân bố đã biết từ trước, hoặc nhận giá trị từ kiểm định giả thuyết như 2, nên việc xác định giá trị dist của ô tại các lớp cha phức tạp hơn.

So với một số phương pháp khác, cách tiếp cận đa phân giải có ưu điểm:

Thứ nhất, việc tính toán dựa trên lưới là độc lập truy vấn (query- independent) bởi lẽ thông tin thống kê lưu trong mỗi ô là thông tin tổng hợp của ô đó. Thứ hai, cấu trúc lưới làm cho việc xử lý song song dễ dàng và tăng tốc độ cập nhật.

Thứ ba, phương pháp chỉ duyệt cơ sở dữ liệu khi tính toán các tham số thống kê của các ô, nên thuật toán thực hiện hiệu quả và độ phức tạp tính toán là O(n).

Ngƣợc lại, STING cho chất lƣợng cụm phụ thuộc hoàn toàn vào tính chất hộp ở mức thấp của cấu trúc lưới. Nếu hộp có tính chất mịn thì thời gian xử lý tăng, tính toán phức tạp, nếu hộp có tính chất thô thì độ chính xác và chất lƣợng cụm giảm. Thuật toán này thích hợp với dữ liệu số, không gian và đƣợc thiết kế để tập trung xử lý các câu truy vấn hướng vùng được dễ dàng.

2.3.4.2. Thuật toán CLIQUE

Trên thực tế, các cụm có thể tồn tại trong tập con các chiều hay còn gọi là không gian con của không gian đa chiều. Thuật toán CLIQUE hữu ích cho phân

cụm dữ liệu không gian đa chiều có phân bố rời rạc trong các cơ sở dữ liệu lớn và thường thuật toán này không thực hiện trên toàn bộ các chiều của không gian.

Thuật toán này tích hợp giữa phương pháp dựa trên mật độ và dựa trên lưới . Tại mỗi chiều không gian, CLIQUE sử dụng đoạn không gian bằng nhau để thực hiện chia không gian dữ liệu thành các đơn vị chữ nhật không phủ nhau.

Một đơn vị đƣợc coi là đặc (dense) nếu phần tổng dữ liệu trong đơn vị đó vƣợt quá một tham số đầu vào của mô hình. Một cụm đƣợc định nghĩa là tập lớn nhất các đơn vị đặc liên thông. CLIQUE thực hiện phân cụm bằng việc di chuyển từ không gian có chiều thấp hơn sang không gian có chiều cao hơn. Trong khi tìm kiếm các đơn vị đặc, thuật toán sử dụng các thông tin về các cụm tại chiều k-1 để hạn chế các bước tìm kiếm không cần thiết.

Thuật toán gồm các bước cụ thể như sau

Bước 1: Xác định các không gian con có chứa cụm. Thuật toán xử lý theo từng mức, đầu tiên thực hiện duyệt qua dữ liệu để xác định các đơn vị đặc trong 1 chiều. Sau khi xác định đƣợc các đơn vị đặc trong k-1 chiều, các đơn vị dự tuyển trong k chiều đƣợc xác định theo thủ tục sinh đơn vị dự tuyển. Duyệt qua dữ liệu để tìm ra các đơn vị dự tuyển nào đặc. Thuật toán dừng khi không có đơn vị dự tuyển nào đƣợc sinh ra.

Bước 2: Tìm kiếm các cụm. Cho tập các đơn vị đặc D trong cùng không gian k-chiều S. Việc tìm kiếm cụm tương đương bài toán tìm thành phần liên thông trong đồ thị, với các đỉnh là đơn vị đặc, giữa 2 đỉnh có cạnh nối khi và chỉ khi các đơn vị đặc đó chung bề mặt (common face) nghĩa là thuộc cùng một cụm.

Bước 3: Sinh ra đặc tả tối thiểu cho mỗi cụm. Với mỗi cụm, xác định vùng lớn nhất chứa cụm các đơn vị đặc liên thông. Tiếp đó xác định phủ tối tiểu (minimal cover) cho cụm đó.

Thuật toán CLIQUE có bước 2 phức tạp nhất, thuộc lớp bài toán NP. Khi so sánh kết quả thực hiện với một số thuật toán khác nhƣ DBCSAN, BIRCH, chỉ ra CLIQUE không tìm ra các cụm trong không gian có chiều đầy đủ nhƣ 2 thuật

toán trên. Tuy nhiên, khi sử dụng thuật toán trong các không gian con thì CLIQUE đều đƣa ra kết quả.

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 57 - 60)

Tải bản đầy đủ (PDF)

(74 trang)