Khái niệm và mục tiêu của Phân cụm dữ liệu- 123docz.net

1.4.1. Một số Khái niệm

- Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ

liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ... Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.

Hình 1.9: Mô tả tập dữ liệu được phân thành 3 cụm

- Ràng buộc cản trở: Một ràng buộc cản trở là một đa giác được biểu thị bởi P(V, E) ở đây V là tập k điểm từ ràng buộc cản trở V v1, v2, v3,, vk và E là tập k đoạn đường thẳng E  e1, e2, e3,, ek  ở đây ei là một đoạn đường thẳng kết nối vivà vi+1,1 i k,i1 1nếu i+1 > k.

Có hai loại đa giác biểu diễn ràng buộc cản trở: đa gác lồi và đa giác lõm.

- Tầm nhìn: Tầm nhìn thể hiện sự kết nối giữa hai điểm dữ liệu, nếu đoạn đường thẳng nối từ một điểm tới điểm khác không cắt với đa giác P(V, E) biểu diễn ràng buộc cản trở.Cho tập D gồm n điểm dữ liệu D d1, d2,

d3,, dn , đoạn l nối di và dj,đây di, d jD,i j, 1 i,jn, và đoạn ek E,

không tồn tại một điểmcắt p giữa hai đoạn đường thẳng l và ek thì khi đó di

nhìn thấy dj.

- Không gian tầm nhìn

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3,, dn , không gian tầm nhìn là tập S gồm k điểm S s1, s2, s3,, sk d S, si và sj nhìn thấy nhau,

- Cụm

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3, , dn , cụm là một tập

C gồm c điểmC c1, c2, c3, , ccthỏa mãn các điều kiện dưới đây, ở đây

C  D, i  j,và1 i, j  n.

- Tối đa hóa: di, d j, nếu di C và dj là mật độ có thể đạt được từ di

với Eps và MinPts, khi đó d jC.

- Sự kết nối: ci, cjC, cilàmật độ kết nối với cj theo Eps và MinPts

- ci, c jC, ci và cj nhìn thấy nhau.

- Điểm đi vào – Entry point: Entry point là điểm nằm trên chu vi của đa giác miêu tả ràng buộc cắt ngang, nghĩa là khi mật đo có thể đạt được từ điểm p với Eps thi p trở thành có thể đạt được bởi điểm x bất kỳ từ entry point khác trong cùng đa giác biểu diễn ràng buộc cắt ngang với Eps. Nói cách khác, hai entry point khác nhau p1 và p2, tại hai đầu của ràng buộc cắt ngang, nếu a là mật độ có thể đạt được tới p1 với Eps và b là mật độ có thể đạt với p2

với Eps, khi đó a và b có thể đến được với nhau.

- Cạnh đi vào – Entry edge: là cạnh của đa giác miêu tả ràng buộc cắt ngang với tập các entry point bắt đầu từ một entry point cuối của entry edge tới entry point khác được tách biệt bởi một giá trị khoảng ie , ( ie Eps)

- Ràng buộc cắt ngang: Ràng buộc cắt ngang (hoặc cây cầu) là tập B

gồm m điểm dữ liệu B  b1, b2, b3,, bn  đã sinh ra từ tất cả các entry edge. Bằng cách định nghĩa một điểm bất kỳ ba  B có thể đạt được bởi tất cả các điểm khác trong B. Câycầu B được biểu thị bởi B(P,E), ở đây P là tập cácentry pointđược tạosinh ra từ tập entry edge E. Do vậy một cây cầu “kết nối” tập các điểm dữ liệu tối đa cũng như là tạo ra các cụm, nếu các điểm dữ liệu hoặc các cụm có thể bị phân cụm bởi tất cả các entry point từ cây cầu.

Khái niệm và mục tiêu của Phân cụm dữ liệu

Phương pháp phân cụm theo phân hoạch

Minh họa thuật toán k-means