Xác định số cụm dựa trên phương pháp phê duyệt ché- 123docz.net

CHƢƠNG 1 : TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

2.2. Các phƣơng pháp xác định số cụm trong gom cụm dữ liệu

2.2.3. Xác định số cụm dựa trên phương pháp phê duyệt chéo

Phương pháp phê duyệt chéo (cross validation) chia dữ liệu thành m phần. Sử dụng m-1 phần cho mô hình gom cụm. Sử dụng phần còn lại cho việc kiểm tra chất lượng mô hình gom cụm. Kiểm tra với K>0, lặp lại m lần và tìm ra giá trị K phù hợp với dữ liệu.

Có ba phương pháp phê duyệt chéo phổ biến:

- Từ bỏ một phần (Holdout): Trong phương pháp từ bỏ một phần, dữ liệu

được phân chia ngẫu nhiên thành 2 phần là: tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thông thường 2/3 dữ liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra. Phương pháp này phù hợp với tập dữ liệu có kích thước lớn.

 Tập huấn luyện – để huấn luyện hệ thống, sử dụng cho mô hình gom cụm

 Tập kiểm thử - để kiểm tra chất lượng mô hình gom cụm  Thường lựa chọn tập huấn luyện chiến 2/3 toàn bộ tập dữ

liệu, 1/3 còn lại dùng để kiểm thử

o Các yêu cầu:

 Bất kỳ dữ liệu nào thuộc tập kiểm thử đều không được sử dụng trong quá trình huấn luyện hệ thống

 Bất kỳ dữ liệu nào được sử dụng trong giai đoạn huấn luyện hệ thống (thuộc tập huấn luyện) đều không được sử dụng trong giai đoạn đánh giá hệ thống.

Hình 2.5. Mô tả phương pháp từ bỏ một phần

- Phê duyệt chéo K-nếp gấp: Đây là nâng cấp của holdout. Toàn bộ dữ

liệu được chia thành m tập con không giao nhau có kích thước xấp xỉ nhau. Thường lựa chọn m =10, hoặc 5. Phương pháp này phù hợp với tập dữ liệu vừa và nhỏ. Tập dữ liệu ban đầu Chia tập dữ liệu Tập huấn luyện Tập kiểm thử Huấn luyện Kiểm thử Tỷ lệ tính lỗi

o Mỗi lần lặp, m-1 tập con được sử dụng cho mô hình gom cụm (tập huấn luyện), và một tập con còn lại được sử dụng để kiểm tra chất lượng mô hình gom cụm (tập kiểm thử)

o m giá trị lỗi (mỗi giá trị tương ứng với một tập con) được tính trung bình cộng để thu được giá trị lỗi tổng thể

- Phê duyệt chéo từng phần tử (Leave-one-out cross validation): Tương tự như phê duyệt chéo K-nếp gấp nhưng tối đa hóa số tập con. Trong phương pháp này, số lượng nhóm các tập con chính bằng kích thước của tập dữ liệu (mỗi nhóm chỉ bao gồm một phần tử). Do đó phương pháp này có chi phí tính toán rất cao, chỉ phù hợp với một tập dữ liệu rất nhỏ.