Đánh giá mô hình - Detecting comments spam youtube- 123docz.net

Ta sử dụng phương pháp kiểm thử chéo (Cross-Validation) để đánh giá mô hình trong quá trình huấn luyện. Về cơ bản, phương pháp này trích từ tập huấn luyện ra một tập con nhỏ và thực hiện việc đánh giá mô hình trên tập con nhỏ này. Tập con nhỏ được trích ra từ tập huấn luyện được gọi là tập kiểm chứng (validation set). Lúc này tập huấn luyện sẽ là phần còn lại của tập huấn luyện ban đầu.

Mục tiêu khi thực hiện Cross-Validation, ta cần chỉnh các tham số của thuật toán phân lớp sao cho mô hình đạt độ chính xác cao nhất, lúc này ta có thể dự đoán rằng với tham số vừa chọn và tập dữ liệu hiện thời, mô hình được tạo ra là tốt nhất.

Có nhiều phương pháp thực hiện Cross-Validation, trong đề tài này, ta sử dụng phương pháp “k-fold Cross-Validation”. Quá trình thực hiện được mô tả như sau:

Bước 1: Chia ngẫu nhiên tập huấn luyện thành k tập con (fold) bằng nhau. Chẳng hạn, nếu ta thực hiện 5-fold Cross-Validation thì tập huấn luyện sẽ chia thành 5 tập con bằng nhau.

Bước 2: Lần lượt chọn một tập con trong k tập con để làm tập kiểm chứng. Tập huấn luyện này sẽ là k-1 tập con còn lại.

Bước 3: Thực hiện huấn luyện trên tập huấn luyện với tham số đã lựa chọn. Dùng mô hình đã huấn luyện để kiểm thử trên kiểm chứng và ghi nhận lại kết quả.

Bước 4: Lặp lại bước 2 với một tập con khác được lựa chọn là tập kiểm chứng. Quá trình này sẽ được lặp lại k lần. Lần lượt tất cả các tập con sẽ được chọn làm tập kiểm chứng và sẽ được đánh giá trên các mô hình đã được tạo ra từ tập huấn luyện là các tập con còn lại.

Giả sử với mỗi lần thực hiện ta được độ chính xác di thì kết quả ở mỗi lần thực hiện:

Cross-Validation result =