Những vấn đề xảy ra với mô hình CNN

Một phần của tài liệu Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập CNN (Trang 34 - 37)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.3 MẠNG NƠ-RON TÍCH CHẬP

2.3.3 Những vấn đề xảy ra với mô hình CNN

2.3.3.1 Quá khớp (Overfitting)

Quá khớp là hiện tượng mô hình tìm được quá khớp với dữ liệu huấn luyện. Việc quá khớp này có thể dẫn đến việc dự đoán nhầm và chất lượng mô hình không còn tốt trên

dữ liệu kiểm tra nữa. Trong ứng dụng thực tế, ta thường sử dụng mạng nơ-ron để mô phỏng những hàm số mà cấu trúc của chúng vẫn chưa được xác định. Khi đó, ta chỉ có thể thu nhập được các bộ mẫu dữ liệu ra (vào) được sinh ra từ hàm số, nhưng lại không thể đặc tả quá trình sinh ra các bộ mẫu đó. Một ví dụ kinh điển đó là quá trình bộ não con người thu nhận thông tin từ hình ảnh của chữ viết tay, rồi suy luận ra chữ viết. Cơ chế bộ não biểu diễn hình ảnh và suy luận ra thông tin từ đó là một ẩn số đối với khoa học. Tuy nhiên, ta có thể dùng các bức ảnh cùng với nhãn đúng của chúng để huấn luyện mạng nơ-ron mô phỏng xấp xỉ được quá trình xử lý hình ảnh của bộ não. Cho dù cấu trúc giữa bộ não và mạng nơ- ron có thể khác nhau, với một thuật toán huấn luyện tốt, chúng sẽ đưa ra kết luận giống nhau với cùng một điểm dữ liệu vào [8].

Hình 2.15: Ví dụ minh họa lỗi quá khớp trong CNN

Ví dụ hình 2.12, đa thức có bậc cao hơn (xanh dương) vì quá chú trọng vào việc phải

đi qua tất cả các điểm trong tập huấn luyện (đen) nên có hình dạng phức tạp, không “bình thường”. Đa thức bậc thấp hơn (đỏ) cho giá trị hàm mất mát cao hơn trên tập huấn luyện nhưng lại phù hợp hơn với phân bố dữ liệu trong thực tế. Điều này thể hiện bằng việc đa thức bậc thấp ước lượng một điểm không có trong tập huấn luyện (xanh) chính xác hơn đa thức bậc cao. Đối với bài toán dự đoán, vì mục tiêu cuối cùng của ta là mô phỏng một hàm

số ẩn, ta không nên cực tiểu hóa hàm mất mát trên tập huấn luyện. Nếu ta làm như vậy sẽ dẫn đến hiện tượng quá khớp, tức là mạng nơ-ron sẽ học được một hàm phức tạp để mô phỏng hoàn hảo nhất tập huấn luyện. Tuy nhiên, cũng do cấu trúc phức tạp, hàm này không

có tính tổng quát hóa cao, tức là nó rất dễ sai khi gặp một điểm dữ liệu không có trong tập huấn luyện (hình 2.12). Khi ấy, mạng nơ-ron giống như một con người chỉ biết học tủ mà không biết cách vận dụng kiến thức để giải quyết những thứ chưa từng gặp phải. Quá khớp

là một vấn đề nghiêm trọng đối với mạng nơ-ron vì khả năng mô hình hóa của chúng quá cao, dễ dàng học được các hàm phức tạp. Ta sẽ tìm hiểu một số phương pháp thông dụng

để chẩn đoán và ngăn ngừa quá khớp cho mạng nơ-ron [8].

2.3.3.2 Drop out

Quá khớp là một vấn đề lớn đối với máy học, đặc biệt là trong mạng nơ-ron. Khi muốn cho mô hình trở nên phức tạp hơn, ta thường tăng số lượng lớp và số lượng đơn vị của mỗi lớp. Nhưng khi mô hình phức tạp hơn, quá khớp bắt đầu xuất hiện, vì số lượng tham số trong mạng nơ-ron nhiều và có “độ sâu” khác nhau vì vậy khi áp dụng chung λ cho

tất cả các tham số sẽ yêu cầu số lần đào tạo lớn để tìm được λ phù hợp. Có một kĩ thuật dành riêng cho mạng nơ-ron và khá đơn giản, đó là Drop-out.

Drop-out là một kĩ thuật bình thường hóa tham số (Regularization) để chống lại vấn đề “quá khớp”. Cách Drop-out thực hiện là xoá bỏ một số đơn vị trong các bước đào tạo ứng với một giá trị xác suất p cho trước [12].

Hình 2.16: Kỹ thuật Drop-out giải quyết vấn đề overfitting

Drop-out được áp dụng trên một lớp của mạng nơ-ron với một xác suất p cho trước (ta có thể sử dụng nhiều Drop-out khác nhau cho những lớp khác nhau, nhưng trên 1 lớp sẽ chỉ có 1 Drop-out). Tại mỗi bước trong quá trình huấn luyện, khi thực hiện lan truyền thẳng đến lớp sử dụng Drop-out, thay vì tính toán tất cả đơn vị có trên lớp, tại mỗi đơn vị ta tính xác suất xem đơn vị đó có được tính hay không dựa trên xác suất p . Với những đơn vị được tính, ta tính toán bình thường còn với những đơn vị không được tính giá trị tại đơn vị đó bằng 0. Khi thực hiện tính toán trên mạng nơ-ron trong quá trình kiểm tra (sử dụng mạng nơ-ron để dự đoán) thay vì làm như trên, ta thực hiện tính toán trên tất cả các đơn vị nhưng trọng số trên mỗi kết nối đến các đơn vị của lớp được áp dụng Drop-out được thay thế bằng giá trị của trọng số đó với xác suất p : w w p [12].

Một phần của tài liệu Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập CNN (Trang 34 - 37)

Tải bản đầy đủ (PDF)

(83 trang)