Các ký hiệu

Các vectơ được in đậm (x, v, V, ...); x p là ma trận kích thước p x 1,

1 p

(x , , x )

 

x . Tên của các ma trận và các tập hợp thì không được in đậm (mặc dù ma trận U kích thước c x p là một vectơ trong   cp c x p). Với ma trận

U  , chúng ta có thể viết dòng thứ i của U là U(i) p và cột thứ k của U là

c k 

U . Bằng quy ước này, khi giải thích U như một vectơ cột kích thước cp x 1, chúng ta có thể viết U (U1,,Up)  (U(1),,U(p))T cp. Khi giải thích các

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

đơn,…, c dòng: U  (U(1),,U(c))  cp {U(1),,U(p)}T p và sử dụng O

là vectơ không trong tất cả các không gian vectơ, cụ thể là trong p và cp.

Hai kiểu dữ liệu được sử dụng trong nhận dạng mẫu bằng số là: dữ liệu đối tượng (đặc trưng hoặc các vectơ mẫu) và dữ liệu quan hệ. Dữ liệu đối tượng được biểu diễn là X  { ,x1 x2,,xn} p, là một tập gồm n vectơ đặc trưng trong không gian đặc trưng p. Nhiều tác giả trong một vài trường hợp gọi các đặc trưng của mỗi đối tượng là các thuộc tính và các tác giả khác thì gọi là các đặc trưng. Đối tượng thứ j là một thực thể vật lý chẳng hạn như một chiếc xe,

một bệnh nhân, một báo cáo chứng khoán,…Vectơ cột xj là biểu diễn bằng số của nó; xkj là giá trị đặc trưng hoặc giá trị của thuộc tính thứ k của đối tượng thứ

j. Các đặc trưng có thể là các giá trị rời rạc hoặc liên tục trong .

Các cụm và các hình mẫu

Lấy mẫu tăng dần và thuật toán PS