Một trong những cấu trúc cơ bản trong nhận dạng mẫu và phân cụm dữ liệu là vectơ nhãn. Có bốn kiểu nhãn lớp là: rõ, mờ, xác suất và khả năng. Cho n là số đối tượng (hoặc đặc trưng hoặc số các hàng và cột trong dữ liệu quan hệ), số nguyên c biểu thị cho số lớp sao cho 1 c n. Thông thường, c khác 1 và n, tuy
nhiên chúng ta cho phép khả năng này để xử lý các trường hợp đặc biệt có thể xảy ra.
Ta định nghĩa ba tập các vectơ nhãn trong cnhư sau:
c i i { : y [0,1] i, y 0 }=[0,1]c { } pc N y i O (2.1) c
Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn
i 1 2 c
{ : y {0,1} i} { e ,e ,...,e }
hc fc
N yN (2.3)
Trong (2.1) O là vectơ không trong c. Chú ý rằng Nhc Nfc Npc. Hình 2.2 mô tả ba tập với c3. Nhc là vectơ đơn vị cơ bản của c-không gian Euclid, do đó i (0, 0,..., 1 ,..., 0)T
i
e là đỉnh thứ i của Nhc, là nhãn rõ của lớp (cụm) i
với 1 i c.
Tập Nfc là một phần của mặt phẳng, là phần diện tích bị giới hạn bởi tam giác có ba đỉnh là tậpNhc. Vectơ y 0.1, 0.6, 0.3 Tlà một vectơ nhãn bị ràng buộc, các thành phần của nó nằm giữa 0 và 1, và có tổng là 1. Trọng tâm của Nfc
là vectơ có các thành phần bằng nhau l c/ l / c,...,l / c T. Nếu y là một vectơ
nhãn cho các x p được sinh ra bởi phương pháp phân cụm c-trung bình mờ, ta sẽ gọi y là nhãn mờ của x. Nếu y được sinh ra từ một phương pháp chẳng hạn
Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn
như được đánh giá có khả năng xảy ra là lớn nhất trong phân tích hỗn hợp, trong trường hợp này y sẽ là một nhãn xác suất. Khi đó, 1/c là điểm duy nhất của các
xác suất bằng nhau cho tất cả c lớp. [0,1]c { }
pc
N O là hình lập phương đơn vị trong c, ngoại trừ gốc tọa độ. Các vectơ như z 0.7, 0.2, 0.7 Tvới mỗi thành phần nằm giữa 0 và 1 và không bị ràng buộc là tổng của chúng phải bằng 1 được gọi là các nhãn khả năng trong Np3. Các nhãn khả năng được sinh ra bởi các thuật toán phân cụm khả năng (Krishnapuram and Keller, 1993) và bởi các mạng nơron tính toán có các hàm truyền tín hiệu moidal đơn cực tại c nút đầu ra (Zurada, 1992).