Các phương pháp kiểu đám mây động

3) Các chủ thể tham gia thị trường chứng khoán

2.2.1. Các phương pháp kiểu đám mây động

Các phương pháp loại này cho phép giải quyết nhanh bài toán phân lớp, đối với các tập hợp, theo một tiêu chuẩn tối ưu địa phương được sử dụng như một độ đo quán tính. Chúng ta giả sử rằng các cá thể của tập hợp được mô tả bởi các điểm trong Rp xác định một khoảng cách Ocơlit

a).Quán tính giữa các lớp và trong từng lớp

Cho đám mây n điểm với tâm g, giả sử rằng đám mây này được chia thành k lớp. Gọi g1,g2,…,gk là các tâm của các lớp và I1,I2,….,Ik là quán tính của các lớp, chúng ta sẽ gọi là quán tính trong của các lớp để phân biệt với quán tính chung của đám mây điểm. Các quán tính này được tính theo các phân lớp

Tổng các quán tính của các lớp gọi là quán tính trong của các lớp ký hiệu là Iw : Iw = 1 ( , ) 1 2 1 1 ji j n i j k j j j k j j g x d n P I P j ∑ ∑ ∑ = = = =

Trong đó Pj là trọng số của lớp j; xji là điểm mô tả cá thể I của lớp j Tổng quán tính giữa các lớp, ký hiệu là IB, xác định như sau :

IB = 2( , ) 1 g g d P j n i j j ∑ =

Nhờ công thức Huygens ta có thể nhận được công thức tính tổng quán tính chung như sau :

I = IB + Iw

Tiêu chuẩn sử dụng phân lớp là cực tiểu hoá Iw hoặc tương đương là cực đại hoá IB ( vì I hoàn toàn xác định ).

Chú ý rằng tiêu chuẩn này dựa trên giả thiết k xác định, nếu k không xác định có thể dẫn đến việc chia tập hợp n điểm thành n lớp

b). Phương pháp tâm di động

Bước 1 : Chọn ngẫu nhiên k điểm c1,c2, …, ck của E, k điểm này xác định một cách chia E thành k nhóm Ec ,Ec,...,Eck

1 . Một điểm I nào đó sẽ có k khoảng cách tương ứng với k điểm c1,c2, …, ck. điểm i thuộc nhóm nào có khoảng cách này nhỏ hơn.

Bước 2 : Với mỗi nhóm ở bước 1 ta có một tâm nhóm gj(l), ( j = 1… k), cách chia nhóm ở bước 2 lập lại như bước 1 với việc thay cj bằng gj(1). Kết quả ta có k nhóm { }Egj( )1 .

Tiếp tục tìm các tâm nhóm mới của các nhóm nhận được từ bước 2 và phân nhóm lại như pử bước 2. Thuật toán sẽ hội tụ và dấu hiệu hội tụ là các tâm nhóm ở bước sau chính là các tâm nhóm từ bước trước. Dễ dàng chứng minh rằng thuật toán này hội tụ vì mỗi lần chọn tâm mới chúng ta làm giảm tổng quán tính của các nhóm vì nếu một tâm nhóm được xác định thì quán tính trong nhóm không tăng. Thật vậy, với ci ta lập nhóm Eci, gọi tâm nhóm này là gi thì theo công thức Huyghens ta có :

( )i i( )i ( i i)

i g I c d c g

I = + 2 ,

( , ) 0

2 ci gi ≥

c). Phương pháp đám mây di động

Phương pháp này do E. Diday đề nghị vào năm 1989. Đám mây di động xuất phát là một mở rộng của phương pháp tâm di động, tuy vậy người ta nhận được kết quả tổng quát hơn khi xem xét độ đo khoảng cách của các biến.

Có thể tóm tắt phương pháp này như sau :

Thay vì chọn một tâm nhóm, người ta có thể chọn một “hạt nhân” nhóm. Hạt nhân này có thể là một tập q điểm của E, có thể là một trục chính hay một thành phần chính, … Trên cơ sở này tiến hành chia E thành k nhóm bao gồm nhiều các điểm tập trung quanh các hạt nhân. Tính toán lại các khoảng cách theo một độ đo nào đó và thiết lập các hạt nhân mới sao cho các nhóm thuần nhất hơn. Tiếp tục như vậy cho đến khi không thể cải thiện hơn nữa cách chia nhóm.

Để làm được như vậy mỗi bước lặp cần tiến hành các thủ tục sau :

• Tính toán khoảng cách từ các cá thể của E đến hạt nhân

• Xác định k nhóm tương ứng với hạt nhân

• Đánh giá (đo) chất lượng của cách phân nhóm hiện có

Cách phân nhóm như vậy cho phép sử dụng một “khoảng cách” mở rộng, không nhất thiết là khoảng cách Ơcolit.

Thứ bậc trong phép phân lớp

Phân lớp đối với các biến