Overfitting và Underfitting

3. Cấu trúc luận văn

2.6 Overfitting và Underfitting

Mô hình sau khi huấn luyện có thể đạt hiệu quả không tốt khi dự đoán với một dữ liệu mới. Chuyện này xảy ra là do mô hình chưa tổng quát hoá được với toàn bộ tập dữ liệu. Nguyên nhân cũng khá dễ hiểu khi mà tập huấn luyện chỉ là một tập nhỏ chưa thể đại diện cho toàn thể dữ liệu được và hơn nữa có thể nó còn bị nhiễu nữa. Người ta chia nguyên nhân ra làm 2 loại chính là chưa khớp hoặc quá khớp.

Mô hình được coi là chưa khớp nếu nó chưa được phù hợp với tập dữ liệu huấn luyện và cả các mẫu mới khi dự đoán. Nguyên nhân có thể là do mô hình chưa đủ độ phức tạp cần thiết để bao quát được tập dữ liệu.

v Quá khớp (Overfitting)

Mô hình rất hợp lý, rất khớp với tập huấn luyện nhưng khi đem ra dự đoán với dữ liệu mới thì lại không phù hợp. Nguyên nhân có thể do chưa đủ dữ liệu để đánh giá hoặc do mô hình quá phức tạp. Mô hình bị quá phức tạp khi mà mô hình sử dụng cả những nhiễu lớn trong tập dữ liệu để học, dẫn tới mất tính tổng quát của mô hình.

Làm thế nào để tránh Overfitting?

Cả hai hiện tượng Overfitting và Underfitting đều khiến mô hình xây dựng có độ chính xác kém. Nhưng hiện nay, vấn đề phổ biến nhất xuất hiện là Overfitting.

Overfitting thực sự là một vấn đề quan trọng bởi vì việc đánh giá mô hình học máy trên bộ dữ liệu huấn luyện sẽ khác biệt với việc đánh giá độ chính xác của tổng thể (những dữ liệu mà mô hình chưa gặp bao giờ).

Có hai kỹ thuật quan trọng trong việc đánh giá mô hình học máy và tránh hiện tượng overfitting:

• Sử dụng kỹ thuật lấy lại mẫu để ước lượng độ chính xác của mô hình • Sử dụng tập Validation test

Lấy lại mẫu (resampling methods) là kỹ thuật phổ biến hơn. Khi đó, ta sẽ chia tập dữ liệu thành k tập con. Cách này được gọi là k-fold cross validation. Điều này cho phép thực hiện huấn luyện trên các tập dữ liệu khác nhau k lần, và từ đó, xây dựng ước lượng độ chính xác của mô hình học máy với dữ liệu mới.

Sử dụng Cross-validation là một tiêu chuẩn tốt trong học máy để ước lượng độ chính xác của mô hình với bộ dữ liệu mới. Còn trường hợp có nhiều dữ liệu, việc sử dụng tập Validation sẽ là một phương pháp tuyệt vời.

2.7 Kết luận chương

Chương này đã trình bày và giới thiệu kỹ thuật phát hiện đối tượng dựa trên đặc trưng HOG, kỹ thuật lọc Hessain, biến đổi Hough cho hình tròn, elip để dự đoán vùng ứng cử viên, thuật toán phân loại SVM tuyến tính và cách đánh giá, nâng cao chất lượng mô hình phân lớp. Nội dung chương này là nội dung cơ sở được sử dụng ở chương sau.

CHƯƠNG 3. ỨNG DỤNG VÀ THỬ NGHIỆM VỚI ẢNH ĐẠI TRÀNG

Trong chương này sẽ mô tả từng bước xây dựng bài toán phát hiện Polyp, đánh giá các thuật toán, kết quả thực nghiệm từ các nội dung đã trình bày trong Chương 1 và Chương 2 bao gồm:

Phát hiện đối tượng (object detection) trong ảnh

.9 Vùng ứng cử viên polyp