.6 Tích chập một bộ lọc với dữ liệu đầu vào

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 52 - 53)

Hình 2.6 là ví dụ một bộ lọc 3x3 với dữ liệu đầu vào cĩ kích thước 32×32, ta sẽ cĩ kết quả là một ma trận dữ liệu mới với mỗi giá trị là kết quả của phép tích chập của bộ lọc với một vùng dữ liệu cục bộ tương ứng trên dữ liệu gốc. Lớp này cĩ bao nhiêu bộ lọc thì sẽ thu được bấy nhiêu ma trận kết quả tương ứng mà lớp này trả về và được truyền cho lớp tiếp theo. Ban đầu trọng số của các bộ lọc được khởi tạo ngẫy nhiên, các trọng số này sẽ được sẽ được học khi huấn luyện mơ hình.

Lớp phi tuyến Relu (Rectified linear unit)

Giả sử mạng tích chập cĩ L lớp cĩ lớp, trong đĩ lớp đầu vào (input) là lớp thứ 0. Khi đĩ mạng tích chập sẽ cĩ L ma trận trọng số được ký hiệu là

𝑊𝑙 ∈ 𝑅𝑑(𝑙−1)×𝑑𝑙 𝑣ớ𝑖 𝑙 = 1, 2, …

Trong đĩ Wl là các kết nối từ lớp thứ (l-1) đến lớp thứ l, phần tử 𝑤𝑖𝑗𝑙 thể hiện kết nối của nơ-ron thứ i của lớp (l-1) đến nơ-ron thứ j của lớp l. Các hệ số nhiễu (bias) thứ (l) được ký hiệu là 𝑏𝑙 ∈ 𝑅𝑑𝑙𝑏. Để thực hiện phân lớp cĩ kết quả tối ưu là quá trình đi tìm bộ tham số w và b. Mỗi nơ-ron khơng phải lớp đầu vào được tính bằng cơng thức:

𝑎𝑖𝑙 = 𝑓((𝑤𝑖𝑙)𝑇𝑎𝑙−1 + 𝑏𝑖𝑙)

Trong đĩ (w)T là ma trận chuyển vị của ma trận w, f là một hàm kích hoạt phi tuyến được áp dụng cho một ma trận. Trong các mạng tích chập, người ta thường sử dụng hàm kích hoạt là hàm f(x) = max(0, x) chuyển tồn bộ giá trị âm trong kết quả lấy từ lớp tích chập thành giá trị 0 để tạo tính phi tuyến cho mơ hình gọi là Relu. Ngồi ra cịn cĩ nhiều hàm kích hoạt khác như signmod, tang. Tuy nhiên, hàm RELU được cho là dễ cài đặt tính tốn nhanh và hiệu quả hơn [Krizhevsky, 2012] .

Lớp lấy mẫu: Lớp lấy mẫu (Pooling layer) sử dụng một cửa sổ trượt quét qua tồn bộ dữ liệu, mỗi lần trượt theo một bước cho trước. Khi cửa sổ trượt trên dữ liệu, nĩ chỉ giữ lại một giá trị được xem là đại diện cho vùng dữ liệu đĩ. Các phương thức lấy mẫu phổ biến là lấy giá trị lớn nhất (max), lấy giá trị nhỏ nhất (min), lấy giá trị trung bình (average).

Lớp lấy mẫu cĩ vai trị giảm kích thước dữ liệu nhưng vẫn giữ được những đặc trưng cần thiết cho việc nhận dạng từ đĩ làm giảm số lượng tham số cần học, làm tăng hiệu quả tính tốn và tránh hiện tượng quá khớp trong học máy.

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 52 - 53)

Tải bản đầy đủ (PDF)

(141 trang)