Ƣớc lƣợng số lƣợng các phân cụm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 38 - 40)

CHƢƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM

3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ

3.2.2 Ƣớc lƣợng số lƣợng các phân cụm

Trong phần này, một phƣơng pháp đơn giản đƣợc mô tả để xác định số lƣợng các phân cụm. Phƣơng pháp này phù hợp với BSAS nhƣ các thuật toán khác, đối với nó, số lƣợng cụm không cần đƣa nhƣ một tham số đầu vào.

Trong phần tiếp theo, BSAS() có nghĩa là thuật toán BSAS với ngƣỡng không tƣơng tự đƣợc xác định là .

For  = a to b step c

Thực hiện s lần thuật toán BSAS(), mỗi lần cho dữ liệu vào với các thứ tự khác nhau.

Ước lượng số cụm, mnhư là số thường xuyên là kết quả từ s lần thực hiện BSAS().

Giá trị a và b là các mức khác biệt nhỏ nhất và lớn nhất trong số tất cả các cặp Vectơ trong X, đó là, a = mini,j=1…N d(xi,xj) và b = maxi,j=1…N d(xi,xj).

Lựa chọn của c trực tiếp và bị tác động của d(x,C). Nhƣ những giá trị s liên quan, một giá trị s lớn hơn, một tập ví dụ thống kê lớn hơn và vì thế, sẽ cho một kết quả đúng đắn hơn.

Phần tiếp theo, chúng ta sẽ phác họa số lƣợng cụm m đối với . Phác hoạ này gồm một số miền phẳng. Điều đó cho hy vọng rằng ít nhất trong trƣờng hợp mà các véctơ đƣợc phân thành các cụm riêng rẽ tốt thì đó chính là số lƣợng cụm mong muốn. Chúng ta sẽ giải thích điều này một cách trực giác.

Giả sử rằng dữ liệu tạo thành hai tập và tách biệt tốt là C1 và C2. Khoảng cách bé nhất giữa hai Véctơ trong C1(C2) là r1 (r2) và giả sử rằng r1 < r2. Ta cũng cho rằng r (>r2) là giá trị nhỏ nhất trong số tất cả các khoảng cách d(xi,xj), trong đó xi  C1 và xj  C2. Điều rõ ràng là đối với   [r2, r - r2], số lƣợng các cụm tạo bởi BSAS là 2. Thêm vào đó, nếu r >> r2, với đầu vào trong phạm vi lớn và vì vậy, nó phù hợp với một miền phẳng lớn trong phác hoạ của mT đối với . Ví dụ 2 sẽ minh hoạ rõ thêm ý này.

Ví dụ 2: xem xét hai phân bố Gauxơ hai chiều với giá trị nằm trong [0,0]T

và [20,20]T một cách độc lập. Ma trận hiệp phƣơng sai là  = 0.5I cho cả hai phân bổ với I là ma trận nhận dạng 2 x 2. Tạo 50 điểm cho mỗi phân bố, số lƣợng cụm cơ sở là 2. Biểu đồ kết quả từ ứng dụng mô tả phía trên đƣợc biểu thị ở hình 3.2b với a = mini,j=1…N d(xi,xj), b = maxi,j=1…N d(xi,xj) và c  0,3. Nó có thể đƣợc nhìn thấy miền phẳng lớn nhất phù hợp với số 2, đó là số lƣợng cụm cơ sở.

Trong thủ tục đã đề cập, chúng ta ngầm giả định rằng các Vectơ đặc trƣng lập nên các cụm. Nếu không xảy ra trƣờng hợp này, phƣơng pháp sẽ vô ích.

Thêm vào đó, nếu các Vectơ tạo thành các cụm liên kết chặt chẽ mà không phân chia rõ ràng, thủ tục có thể cho kết quả không đáng tin cậy, từ đó sẽ

không chắc chắn cho đồ thị của m đối với  để chứa đựng những vùng phẳng rộng.

Hình 3.2: (a) tập dữ liệu; (b) phác hoạ của số lƣợng các cụm đối với . Nó có thể nhìn thấy đối với một vùng rộng của các giá trị của , số lƣợng các cụm, m = 2.

Trong một số trƣờng hợp, nó có thể thích hợp để xem xét tất cả các số lƣợng cụm, m mà phù hợp với mọi miền phẳng của kích cỡ lớn trong mô tả m đối với . Nếu, chẳng hạn chúng ta có 3 cụm và hai cụm đầu tiên nằm gần nhau và cách xa cụm thứ 3, miền phẳng nhất có thể xuất hiện đối với m = 2 và miền phẳng thứ hai đối với m = 3. Nếu chúng ta loại bỏ miền phẳng nhất thứ 2, chúng ta có thể bị mất giải pháp phân thành 3 cụm.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 38 - 40)

Tải bản đầy đủ (PDF)

(106 trang)