Thẩm định chéo

Một phần của tài liệu Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center (Trang 28 - 30)

Thẩm định chéo là một kỹ thuật cho việc thẩm định kết quả của phân tích thống kê có thể đƣợc tổng quát hóa với một tập dữ liệu không phụ thuộc. Kỹ thuật này đƣợc dùng khi mục đích của bài toán là mang tính dự đoán, và muốn xác định mô hình dự đoán chính xác nhƣ thế nào khi áp dụng vào thực tế.

Hình 2.7: Quá trình thực hiện thuật toán thẩm định chéo k-folds [9].

Trong rất nhiều mô hình thẩm định chéo, mô hình thẩm định k-folds đƣợc dùng khá phổ biến. Mô hình này sẽ chia tập dữ liệu ban đầu thành k phần ngẫu nhiên, một phần sẽ đƣợc sử dụng nhƣ là dữ liệu thẩm định để kiểm thử mô hình, và k-1 phần còn lại đƣợc sử dụng để huấn luyện. Quá trình thẩm định chéo đƣợc thực hiện k lần, mỗi một phần trong k phần sẽ đƣợc sử dụng một lần để thẩm định dữ liệu. Ƣu điểm của phƣơng thức này là tất cả các các quan sát đƣợc sử dụng cho cả việc huấn luyện và thẩm định, mỗi quan sát đƣợc sử dụng để thẩm định chính xác một lần. Đi cùng với nó là nhƣợc điểm phải tính toán nhiều lần. Để giảm thiểu thời gian tính toán, ta có thể áp dụng phƣơng pháp xử lý song song trong từng bƣớc thẩm định. Tập dữ liệu huấn luyện Test Learn Learn Learn Learn Test Learn Learn Chia ra làm k phần Tỷ lệ % đúng Tỷ lệ % đúng

Hình 2.8: Tỷ lệ lỗi giảm dần khi tăng giá trị k [9].

Sau khi kiểm thử với một tập dữ liệu lớn, ta có thể thấy tỷ lệ lỗi đƣợc giảm nhƣ thế nào khi tăng giá trị của k nhƣ hình 2.8. Từ kết quả của thử nghiệm này, ta có thể lấy giá trị của k = 4~10 sẽ cho tỷ lệ lỗi có thể chấp nhận đƣợc, tránh bị học quá và lỗi nhiều. Hình 2.9 dƣới đây mô tả sự ảnh hƣởng của học quá (overfitting) khi kiểm thử dữ liệu.

Hình 2.9: (a) bộ phân lớp học quá trên dữ liệu huấn luyện, khi áp dụng vào tập dữ liệu kiểm thử sẽ gây lỗi (b). (c) bộ phân lớp dữ liệu tốt hơn và gây ít lỗi hơn

Một phần của tài liệu Trung tâm Thư viện và Tri thức số - Library and Digital Knowledge Center (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(52 trang)