Ví dụ hình 2.12, đa thức có bậc cao hơn (xanh dương) vì quá chú trọng vào việc phải đi qua tất cả các điểm trong tập huấn luyện (đen) nên có hình dạng phức tạp, khơng “bình thường”. Đa thức bậc thấp hơn (đỏ) cho giá trị hàm mất mát cao hơn trên tập huấn luyện nhưng lại phù hợp hơn với phân bố dữ liệu trong thực tế. Điều này thể hiện bằng việc đa thức bậc thấp ước lượng một điểm khơng có trong tập huấn luyện (xanh) chính xác hơn đa thức bậc cao. Đối với bài tốn dự đốn, vì mục tiêu cuối cùng của ta là mơ phỏng một hàm số ẩn, ta khơng nên cực tiểu hóa hàm mất mát trên tập huấn luyện. Nếu ta làm như vậy sẽ dẫn đến hiện tượng quá khớp, tức là mạng nơ-ron sẽ học được một hàm phức tạp để mơ phỏng hồn hảo nhất tập huấn luyện. Tuy nhiên, cũng do cấu trúc phức tạp, hàm này khơng có tính tổng qt hóa cao, tức là nó rất dễ sai khi gặp một điểm dữ liệu khơng có trong tập huấn luyện (hình 2.12). Khi ấy, mạng nơ-ron giống như một con người chỉ biết học tủ mà không biết cách vận dụng kiến thức để giải quyết những thứ chưa từng gặp phải. Quá khớp là một vấn đề nghiêm trọng đối với mạng nơ-ron vì khả năng mơ hình hóa của chúng quá cao, dễ dàng học được các hàm phức tạp. Ta sẽ tìm hiểu một số phương pháp thơng dụng để chẩn đoán và ngăn ngừa quá khớp cho mạng nơ-ron [8].
2.3.3.2 Drop out
Quá khớp là một vấn đề lớn đối với máy học, đặc biệt là trong mạng nơ-ron. Khi muốn cho mơ hình trở nên phức tạp hơn, ta thường tăng số lượng lớp và số lượng đơn vị của mỗi lớp. Nhưng khi mơ hình phức tạp hơn, quá khớp bắt đầu xuất hiện, vì số lượng tham số trong mạng nơ-ron nhiều và có “độ sâu” khác nhau vì vậy khi áp dụng chung λ cho
tất cả các tham số sẽ yêu cầu số lần đào tạo lớn để tìm được λ phù hợp. Có một kĩ thuật dành riêng cho mạng nơ-ron và khá đơn giản, đó là Drop-out.
Drop-out là một kĩ thuật bình thường hóa tham số (Regularization) để chống lại vấn đề “quá khớp”. Cách Drop-out thực hiện là xoá bỏ một số đơn vị trong các bước đào tạo ứng với một giá trị xác suất p cho trước [12].