Khái niệm và mục tiêu của Phân cụm dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) kỹ thuật phân cụm dữ liệu không gian có ràng buộc (Trang 27 - 30)

1.4.1. Một số Khái niệm

- Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ

liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ... Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.

Hình 1.9: Mô tả tập dữ liệu được phân thành 3 cụm

- Ràng buộc cản trở: Một ràng buộc cản trở là một đa giác được biểu thị bởi P(V, E) ở đây V là tập k điểm từ ràng buộc cản trở V v1, v2, v3,, vk và E là tập k đoạn đường thẳng E  e1, e2, e3,, ek  ở đây ei là một đoạn đường thẳng kết nối vi vi+1,1 ik,i1 1nếu i+1 > k.

Có hai loại đa giác biểu diễn ràng buộc cản trở: đa gác lồi và đa giác lõm.

- Tầm nhìn: Tầm nhìn thể hiện sự kết nối giữa hai điểm dữ liệu, nếu đoạn đường thẳng nối từ một điểm tới điểm khác không cắt với đa giác P(V, E) biểu diễn ràng buộc cản trở.Cho tập D gồm n điểm dữ liệu D d1, d2,

d3,, dn , đoạn l nối didj,đây di, d jD,ij, 1 i,jn, và đoạn ek E,

không tồn tại một điểmcắt p giữa hai đoạn đường thẳng lek thì khi đó di

nhìn thấy dj.

- Không gian tầm nhìn

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3,, dn , không gian tầm nhìn là tập S gồm k điểm S s1, s2, s3,, sk dS, sisj nhìn thấy nhau,

- Cụm

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3, , dn , cụm là một tập

C gồm c điểmC c1, c2, c3, , ccthỏa mãn các điều kiện dưới đây, ở đây

C D, i j,và1 i, j n.

- Tối đa hóa: di, d j, nếu diC dj là mật độ có thể đạt được từ di

với EpsMinPts, khi đó d jC.

- Sự kết nối: ci, cjC, cilàmật độ kết nối với cj theo Eps MinPts

- ci, c jC, cicj nhìn thấy nhau.

- Điểm đi vào – Entry point: Entry point là điểm nằm trên chu vi của đa giác miêu tả ràng buộc cắt ngang, nghĩa là khi mật đo có thể đạt được từ điểm p với Eps thi p trở thành có thể đạt được bởi điểm x bất kỳ từ entry point khác trong cùng đa giác biểu diễn ràng buộc cắt ngang với Eps. Nói cách khác, hai entry point khác nhau p1 p2, tại hai đầu của ràng buộc cắt ngang, nếu a là mật độ có thể đạt được tới p1 với Eps b là mật độ có thể đạt với p2

với Eps, khi đó a b có thể đến được với nhau.

- Cạnh đi vào – Entry edge: là cạnh của đa giác miêu tả ràng buộc cắt ngang với tập các entry point bắt đầu từ một entry point cuối của entry edge tới entry point khác được tách biệt bởi một giá trị khoảng ie , ( ie Eps)

- Ràng buộc cắt ngang: Ràng buộc cắt ngang (hoặc cây cầu) là tập B

gồm m điểm dữ liệu B  b1, b2, b3,, bn  đã sinh ra từ tất cả các entry edge. Bằng cách định nghĩa một điểm bất kỳ baB có thể đạt được bởi tất cả các điểm khác trong B. Câycầu B được biểu thị bởi B(P,E), ở đây P là tập cácentry pointđược tạosinh ra từ tập entry edge E. Do vậy một cây cầu “kết nối” tập các điểm dữ liệu tối đa cũng như là tạo ra các cụm, nếu các điểm dữ liệu hoặc các cụm có thể bị phân cụm bởi tất cả các entry point từ cây cầu.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kỹ thuật phân cụm dữ liệu không gian có ràng buộc (Trang 27 - 30)

Tải bản đầy đủ (PDF)

(69 trang)