Phương pháp dựa trên mật độ

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 53 - 57)

CHƯƠNG 2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

2.3 Thuật toán phân cụm dữ liệu bản đồ không gian véc tơ

2.3.3. Phương pháp dựa trên mật độ

Gom cụm dựa trên mật độ (có điều kiện cụm cục bộ) giống nhƣ các điểm có khả năng liên kết theo mật độ (density-connected). Một cụm đƣợc mở rộng theo hướng bất kỳ mà mật độ dẫn theo, do đó phương pháp này có khả năng tìm ra các cụm có hình dạng phức tạp. Mặc dù chỉ duyệt tập dữ liệu một lần nhƣng phương pháp này có khả năng loại bỏ phần tử nhiễu và phần tử ngoại lai.

Phương pháp này phù hợp với các đối tượng có trường dữ liệu kiểu số, dữ liệu thuộc tính chỉ là thuộc tính mô tả thêm cho các đối tƣợng không gian, ví dụ thuộc tính Tỷ lệ thất nghiệp của một quận trong hệ thống thông tin địa lý.

Phương pháp này có thể tiếp cận theo 2 hướng chính: liên kết dựa trên mật độ và hàm mật độ. Các thuật toán thực hiện trên cơ sở dữ liệu không gian bao gồm DBSCAN (Density Based Spatial Clustering of Application with Noise), GDBSCAN (Generalize DBSCAN), OPTICS (Ordering Points to Identify the Clustering Structure), DENCLUE (Density-based CLUstEring), DBCLASD

(Distribution Based Clustering of Large Spatial Databased). Dưới đây mô tả hai trong số các thuật toán trên.

2.3.3.1. Thuật toán DBSCAN

Thuật toán DBSCAN đƣợc giới thiệu vào năm 1996 dựa trên định nghĩa cụm là tập tối đa các điểm liên thông về mật độ. Thuật toán thực hiện tốt trên không gian 2 chiều, 3 chiều hay một số không gian nhiều chiều khác; thích hợp với cơ sở dữ liệu có mật độ phân bố dày đặc kể cả có phần tử nhiễu.

Ý tưởng chính của DBSCAN là với mỗi điểm của cụm láng giềng thuộc bán kính cho trước có chứa số điểm là ít nhất, ví dụ mật độ trong láng giềng có thể vƣợt quá ngƣỡng nào đó. Vùng láng giềng có hình dạng đƣợc xác định bằng việc chọn hàm khoảng cách của 2 điểm, ký hiệu dist(p, q), tùy thuộc vào ứng dụng đó. Chẳng hạn nếu chọn hàm khoảng cách Manhattan thì vùng láng giềng có hình chữ nhật.

Khái niệm đƣợc dùng trong thuật toán này là tham số toàn cục Eps và MinPts, đối tƣợng nhân (core) và đối tƣợng biên (border). Tham số Eps là bán kính lớn nhất của miền láng giềng. Miền láng giềng Eps của điểm p, ký hiệu NEps(p), là các điểm q thuộc không gian đối tƣợng D sao cho khoảng cách dist(p, q)  Eps. Tham số MinPts là số điểm ít nhất nằm trong vùng láng giềng Eps của điểm đó. Đối tƣợng nhân là các đối tƣợng thực sự nằm bên trong cụm và đối tượng biên là các đối tượng nằm trên đường biên của cụm. Số điểm trong miền Eps của đối tƣợng biên nhỏ hơn so với đối tƣợng nhân.

Thuật toán chi tiết nhƣ sau

B1: Tạo đồ thị gồm các đối tƣợng trong tập dữ liệu

B2: Với mỗi điểm nhân c vẽ cạnh từ c tới mọi điểm p thuộc NEps(c)

B3: Gán N = số nút trên đồ thị

B4: Nếu N không chứa bất kỳ điểm nhân nào thì dừng B5: Lấy điểm nhân c trong N

B6: Gán X = tập các điểm mà từ c có thể đi tiếp đến B6.1. Tạo cụm chứa X  {c}

B6.2. Gán N = N \ (X  {c}) B7: Quay lại B4.

Việc xác định giá trị Eps và MinPts tối ƣu là một bài toán cần tìm lời giải, bởi vì nếu các giá trị đủ lớn thì mọi điểm thuộc cụm đó đều phải thỏa mãn. Tuy nhiên nếu các giá trị đó nhỏ thì có thể rơi vào trường hợp mọi điểm trong tập dữ liệu đều thuộc một cụm.

Thuật toán này sử dụng cấu trúc cây R*-tree để lưu trữ tập dữ liệu.

DBSCAN có độ phức tạp tính toán khi chƣa dùng cây chỉ mục để xử lý là O(n2) và sau khi dùng R*-tree là O(n*log(n)).

2.3.3.2. Thuật toán DENCLUE

Thuật toán DENCLUE, đƣợc giới thiệu năm 1998, có tiếp cận khác so với các thuật toán khác cùng phương pháp. Thuật toán này được xây dựng dựa trên các ý tưởng:

(1) sự ảnh hưởng của mỗi điểm dữ liệu có thể biểu diễn dưới dạng mô hình thông qua hàm toán học, gọi là hàm ảnh hưởng (influence function) dùng để mô tả ảnh hưởng của điểm dữ liệu lên vùng láng giềng của nó;

(2) toàn bộ mật độ của không gian dữ liệu có thể đƣợc mô hình hóa theo giải tích là tổng các hàm ảnh hưởng của mọi điểm dữ liệu;

(3) các cụm có thể đƣợc xác định theo toán học bởi các điểm mật độ cao (density attractor), trong đó điểm mật độ cao là điểm đạt cực đại hàm mật độ toàn cục.

Với đối tượng x, y trong không gian d-chiều ký hiệu Fd, hàm ảnh hưởng của đối tượng y lên x là một hàm fBy:FdR0 được định nghĩa dưới dạng một hàm ảnh hưởng cơ bản fb: fBy(X) fb(x,y). Hàm ảnh hưởng có thể là hàm bất kỳ xác định khoảng cách của hai véc tơ d(x, y) trong không gian d chiều.

Hàm mật độ tại điểm x  Fd là tổng các hàm ảnh hưởng của tất cả các điểm dữ liệu. Với n là các đối tƣợng dữ liệu mô tả bởi tập véc tơ D={x1, x2, …, xn}Fd, hàm mật độ đƣợc định nghĩa 

n

i x B D

B x f x

F i

1

) ( )

( .

Hàm mật độ cục bộ (local density function) 

 

)

1 (

1( ) )

(

x near x

x B

D x f x

f trong đó

hàm near(x) đƣợc xác định với x1 near(x) thì d(x1, x)  near. Hàm mật độ cục bộ quan tâm đến sự ảnh hưởng của các điểm gần với điểm đang xét và ảnh hưởng của các điểm xa thì bỏ qua.

Thuật toán DENCLUE gồm 2 bước như sau:

Bước 1: Xây dựng bản đồ chứa không gian dữ liệu cần phân cụm để việc tính toán hàm mật độ đƣợc thực hiện nhanh hơn. Tiến hành phân chia không gian bằng khối siêu lập phương d-chiều có độ dài cạnh là 2, sau đó dựng cây lưu trữ dữ liệu bằng cấu trúc cây B+-tree hoặc cây tìm kiếm ngẫu nhiên và chỉ lưu trữ các khối siêu lập phương có chứa dữ liệu. Mỗi nút trên cây tương ứng với một khối c, cần lưu thêm thông tin số điểm dữ liệu trong khối, tổng giá trị trong khối để tính giá trị trung bình mean(c) của mỗi khối. Nếu cụm thuộc nhiều khối, cần cho biết các khối láng giềng với khối đang xét. Thông thường khối c2 đƣợc gọi là liên thông với c1 khi giá trị khoảng cách d(mean(c1), mean(c2))  4.

Bước 2: Thực hiện việc phân cụm, chỉ có những khối có mật độ cao Cp và các khối liên thông của chúng đƣợc xem xét trong quá trình phân cụm. Tính hàm mật độ cục bộ fD(x)

và điểm mật độ cao x* của điểm x, nếu hàm mật độ của x*

thỏa mãn điều kiện thì điểm x đƣợc phân loại và gán vào cụm theo x* .

Thuật toán có độ phức tạp tính toán là O(n*log(n)) và phụ thuộc nhiều vào tham số mật độ và ngưỡng nhiễu, việc chọn tham số thích hợp ảnh hưởng đến chất lƣợng của các cụm thu đƣợc. Tuy nhiên thuật toán cho kết quả tốt kể cả tập dữ liệu lớn và có nhiễu, thậm chí các cụm có hình dạng bất kỳ trong tập dữ dữ liệu đa chiều cũng đƣợc mô tả trong công thức toán đơn giản. Cấu trúc dữ liệu

theo ô lưới làm cho thuật toán có khả năng xử lý các khối dữ liệu lớn kể cả dữ liệu đa chiều.

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 53 - 57)

Tải bản đầy đủ (PDF)

(74 trang)