Phương pháp phân cụm dựa trên ràng buộc

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 60 - 63)

CHƯƠNG 2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

2.3 Thuật toán phân cụm dữ liệu bản đồ không gian véc tơ

2.3.5. Phương pháp phân cụm dựa trên ràng buộc

Việc phát triển của phân cụm không gian trên cơ sở dữ liệu lớn ngày càng đƣợc hỗ trợ nhiều công cụ hữu ích để phân tích dữ liệu địa lý. Tuy nhiên, hầu hết các thuật toán lại không có tính mở, nghĩa là không cho người sử dụng được phép đƣa thêm các ràng buộc (constraint) thực tế để thuật toán tìm kiếm và phân cụm theo chúng. Các nghiên cứu bổ sung để hỗ trợ, cung cấp cho người dùng khả năng kết hợp các ràng buộc hay giới hạn nhất định xung quanh bài toán cần giải quyết vào trong thuật toán phân cụm đƣợc quan tâm.

Mô hình phân cụm dựa trên ràng buộc COD (Clustering Obstructed Distance) đƣợc giới thiệu vào năm 2001, là lĩnh vực có nhu cầu cao, nó cho thấy sự hiệu quả và thành công của việc giữ lại ngữ nghĩa ứng dụng khi khai phá dữ liệu. Phân cụm có ràng buộc CC (Constraint Clustering) đƣợc định nghĩa nhƣ sau: Cho tập dữ liệu D với n đối tƣợng, hàm đo khoảng cách df: D  D  , số nguyên dương k và tập các ràng buộc C, cần tìm k cụm dữ liệu (Cl1,Cl2, …,Clk) sao cho k

i dispCli repi

DISP 1 ( , ) đạt giá trị nhỏ nhất và mỗi cụm Cli thỏa mãn ràng buộc C, ký hiệu Cli╞ C, trong đó disp(Cli, repi) biểu đạt sự phân tán (dispersion) của cụm Cli bằng tổng khoảng cách từ lần lƣợt các điểm thuộc cụm đến điểm đại diện của cụm đó.

Người ta phân ràng buộc thành các loại sau:

- Ràng buộc trên từng đối tƣợng riêng: cho phép xác định tập các đối tƣợng đƣợc phân cụm. Ví dụ: phân cụm các biệt thự cao cấp có giá trị trên 1 triệu đô la Mỹ.

- Đối tượng cản (chướng ngại vật): các vật cản và tác động của chúng lên các đối tƣợng đƣợc ghi lại. Ví dụ: một thành phố có các đối tƣợng núi, sông, hồ, cầu, … là vật cản cần xét đến khi thực hiện phân cụm.

- Tham số của cụm: số lƣợng cụm k cần phân chia có thể là ràng buộc trong quá trình phân cụm.

- Ràng buộc trên từng cụm cụ thể: thường là ràng buộc dưới dạng công thức cần thực hiện trên từng nhóm gộp.

Theo COD, cho tập P các điểm (p1, p2, …, pn) và tập O vật cản (o1, o2,

…, on) không cắt nhau trong không gian 2 chiều R trong đó mỗi oi đƣợc biểu diễn bởi một vùng đơn giản. Khoảng cách d(p, q) giữa 2 điểm p và q bất kỳ được định nghĩa là độ dài đường đi ngắn nhất mà không cắt qua bất kỳ vật cản nào. COD thực hiện chia P thành k cụm (C1, C2, …, Ck) sao cho hàm sai số E (squared-error) đạt giá trị cực tiểu. E xác định bởi công thức  

 

k

i p C

i

i

m p d E

1

2( , ), với mi là trung tâm của cụm Ci. Trong Hình 2.6 mô tả việc phân cụm các trường hợp bỏ qua và có tính đến vật cản.

Hình 2.6. Kết quả phân cụm khác nhau

Ta thấy khi không tính đến yếu tố ràng buộc kết quả cho 3 cụm (hình trái), và khi có tính đến ràng buộc là sông và cầu thì kết quả cụm lại khác với trường hợp trên (hình phải). Các loại hình ràng buộc kể trên đƣợc xếp vào loại ràng buộc vật lý.

Ngoài ra còn phải kể đến ràng buộc liên quan đến thao tác nghiệp vụ (operational constraints). Ví dụ, nhà quản lý đang cần phân bổ các thiết bị (facility) nhƣng vẫn phải đảm bảo mọi thiết bị đều đƣợc sử dụng hết các tính năng, đồng thời mỗi cụm đƣợc phân bổ các thiết bị đó phải chứa tối thiểu một số khách nhất định,…

Hầu hết các phương pháp phân cụm chỉ nhằm áp dụng cho tập dữ liệu có cùng kiểu thuộc tính. Đối với tập dữ liệu có kiểu hỗn hợp thì việc phân cụm gặp nhiều khó khăn. Trong cộng đồng địa lý, người ta tập trung sử dụng các thuật

toán gom cụm thuộc 4 phương pháp: phân đoạn, phân cấp, dựa trên mật độ và dựa trên lưới. Phương pháp dựa trên ràng buộc hiện nay vẫn đang trong giai đoạn phát triển, và kiểu ràng buộc về mặt vật lý đã đƣợc phần nào giải quyết bằng thuật toán COD. Đối với ràng buộc về mặt hoạt động nghiệp vụ thì đƣợc xếp vào lớp bài toán NP, để giải quyết có thể sử dụng phỏng đoán hay các thuật toán xấp xỉ.

Một số thuật toán hiện tại có thể đƣợc kết hợp từ các thuật toán gom cụm trước đó để tận dụng các ưu điểm của mỗi thuật toán. Ví dụ thuật toán CADD (Clustering Algorithm based on object Density and Direction) đƣợc giới thiệu vào năm 2008, là sự kết hợp của thuật toán k-means và thuật toán DENCLUE .

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 60 - 63)

Tải bản đầy đủ (PDF)

(74 trang)