Các hàm kích hoạt thơng dụng

Một phần của tài liệu Xây dựng mô hình nhận dạng chữ viết tay trong các biểu mẫu có bố cục cố định (Trang 28 - 29)

6 Ứng dụng

2.4Các hàm kích hoạt thơng dụng

Lớp chuẩn hóa

Đầu ra ở mỗi tầng của mạng học sâu có thể có miền giá trị khác nhau. Điều này làm mơ hình khó hội tụ. Ngồi ra, nếu sử dụng hàm kích hoạt tanh hay sigmoid, các

giá trị đầu ra thường cách xa giá trị 0 (non-zero-mean). Đây là những khoảng giá trị bão hịa làm đạo hàm có xu hướng tiến về 0 dẫn đến thuật tốn Gradient Descent khơng cập nhật được. Lớp chuẩn hóa theo khối (batch normalization) được áp dụng sau mỗi đầu ra, làm cho kết quả đầu ra về trạng thái phân bổ gần 0 (zero-mean) theo thuật tốn (1).

Algorithm 1: Thuật tốn chuẩn hóa theo khối3

1 Input: Giá trị x trên một khối B = x1, x2, ..., xm

2 Hai tham số học γ và β 3 Output: zi 4 µB = m1 Pmi=1xi 5 µ2B = m1 Pmi=1(xi−µB)2 6 xiˆ = √xi−µB µ2 B+ǫ 7 zi =γxiˆ +β 3 https://en.wikipedia.org/wiki/Batch_normalization

Kiến thức nền tảng 16

Lớp softmax

Mơ hình học sâu lan truyền thuận được ra đời với mục đích ban đầu để giải quyết bài tốn phân loại. Nếu ở tầng kết quả có nhiều hơn một node sẽ làm tổng giá trị xác suất lớn hơn 1 (sử dụng hàm kích hoạt sigmoid). Điều này là bất hợp lý, do đó lớp softmax được áp dụng ở tầng kết quả với nhiệm vụ chuẩn hóa các giá trị xác suất ở tầng kết quả sao cho chúng có tổng là 1. Đây là lớp khơng có tham số học. Công thức softmax được áp dụng theo cơng thức (2.7), trong đóz ∈RC là giá trị ở tầng đầu ra,

C là số lượng nhãn, y′ ∈RC là giá trị sau khi qua hàm softmax.

y′i= e

zi

PC

j=1ezj, ∀i= 1,2, ..., C. (2.7)

2.2 Mạng neuron tích chập

Các mơ hình học sâu với các lớp kết nối đầy đủ (fully connected) đã phần nào giải quyết được các bài tốn của lĩnh vực thị giác máy tính. Tuy nhiên đặc điểm chung khi áp dụng các lớp kết nối đầy đủ lên ảnh sẽ dễ dẫn đến hiện tượng quá khớp (overfitting). Mặc dù cơ chế loại bỏ (drop-out) phần nào giải quyết được hiện tượng trên, tuy nhiên khi áp dụng cho ảnh, cơ chế này vẫn chưa mang lại hiệu quả cao. Điều này có thể giải thích là do các lớp kết nối đầy đủ có quá nhiều tham số. Giả sử một ảnh đầu vào có kích thước 100×100 và lớp tiếp theo có 10000 node. Tổng số tham số ở lớp này là 100 triệu tham số. Để giải quyết vấn đề trên, nếu ta chỉ kết nối một node ở lớp tiếp theo với một vùng 10×10 của ảnh thì tổng số tham số là một triệu tham số. Nếu ta dùng cơ chế chia sẻ trọng số giữa các vùng 10×10 thì tổng số tham số chỉ là 100. Không chỉ giảm số lượng tham số, việc kết nối cục bộ cũng cho kết quả tốt hơn việc kết nối đầy đủ vì hai điểm ảnh ở xa nhau về mặt khơng gian sẽ ít có ý nghĩa phụ thuộc lẫn nhau. Hình 2.5 so sánh các cơ chế kết nối đầy đủ, cục bộ và cục bộ chia sẻ trọng số.

Một phần của tài liệu Xây dựng mô hình nhận dạng chữ viết tay trong các biểu mẫu có bố cục cố định (Trang 28 - 29)