Các cụm và các hình mẫu

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 41 - 42)

Các định nghĩa khác nhau về một cụm có thể được xây dựng, phụ thuộc vào mục tiêu của phân cụm. Nói chung, người ta có thể chấp nhận quan điểm cho rằng một cụm là một nhóm các đối tượng mà chúng tương tự với nhau hơn so với các đối tượng trong các cụm khác (Bezdek, 1981; Jain và Dubes, 1988). Thuật ngữ “tương tự” nên được hiểu là tương tự toán học, được đo theo một ý nghĩa xác định nào đó. Trong các không gian metric, tương tự thường được định nghĩa theo một chuẩn khoảng cách. Khoảng cách có thể được đo giữa các vectơ dữ liệu với nhau, hoặc là một khoảng cách từ một vectơ dữ liệu tới một đối tượng mẫu nào đó của cụm. Các hình mẫu đầu tiên này thường

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

không được biết trước, và được tìm kiếm bằng các thuật toán phân cụm cùng với phân hoạch của dữ liệu. Các hình mẫu có thể là các vectơ có số chiều giống như các đối tượng dữ liệu, nhưng chúng cũng có thể được định nghĩa như các đối tượng hình học ở “mức cao hơn” như các hàm hoặc các không gian con tuyến tính hoặc phi tuyến tính.

Dữ liệu có thể tiết lộ các cụm có các hình dạng hình học, kích thước và mật độ khác nhau như trong hình 2.3. Trong khi các cụm (a) có dạng hình cầu thì các cụm từ (b) tới (d) có thể được mô tả như là các không gian con tuyến tính và phi tuyến tính của không gian dữ liệu. Việc thực hiện của hầu hết các thuật toán phân cụm bị ảnh hưởng không chỉ bởi hình dạng hình học và mật độ của các cụm cá thể, mà còn bởi những quan hệ không gian và khoảng cách giữa các cụm. Các cụm có thể được phân tách rõ ràng, được kết nối liên tục với các cụm khác, hoặc chồng chéo lên nhau.

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(111 trang)