.4 Mơ hình mạng hồi quy

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 50 - 51)

Trong đĩ xt là đầu vào, st là trạng thái ẩn, ot là đầu ra tại bước t.

Mơ hình mạng tích chập

Mơ hình mạng nơ-ron truyền tới được áp dụng nhiều trong các bài tốn nhận dạng. Tuy nhiên mạng nơ-ron truyền tới khơng thể hiện tốt đối với các dữ liệu như hình ảnh do sự liên kết quá đầy đủ giữa các lớp trong mạng truyền tới. Dữ liệu hình ảnh thường cĩ kích thước lớn, nếu một tấm ảnh đa cấp xám cĩ kích thước 32×32 giá trị, sẽ cho ra vector đặc trưng cĩ 1024 chiều. Điều này cũng cĩ nghĩa là cần tới 1024 trọng số liên kết giữa lớp đầu vào với một nốt ở lớp ẩn kế tiếp. Số lượng trọng số sẽ càng tăng nhanh nếu số lượng nốt trong lớp ẩn tăng lên và số lượng lớp ẩn tăng lên. Điều này khiến cho việc thao tác với các ảnh cĩ kích thước lớn hơn trở nên khĩ khăn. Mặt khác, việc liên kết một cách đầy đủ các điểm ảnh vào một nốt trong mạng cĩ sẽ tạo ra dư thừa vì sự phụ thuộc lẫn nhau giữa các điểm ảnh xa nhau là khơng nhiều mà chủ yếu là sự phụ thuộc giữa các điểm lân cận với nĩ. Dựa trên tư tưởng này Lecun [Lecun, 1998] đã đề xuất mơ hình mạng nơ-ron tích chập (Convolutional Neural Network) cho bài tốn nhận dạng ảnh. Trong mơ hình này, thay vì tồn bộ điểm ảnh được nối với các nốt mạng thì chỉ cĩ một phần cục bộ trong ảnh được nối đến các nốt mạng ở lớp sau. Thơng qua các lớp, mơ hình sẽ học được các đặc trưng để tiến hành phân lớp một cách hiệu quả. Thơng thường, mơ hình mạng nơ-ron tích chập bao gồm các lớp sau: lớp tích chập (Convolution layer), lớp lấy mẫu (Pooling layer) và lớp kết nối đầy đủ (Fully connected). Sự sắp xếp về

số lượng và thứ tự giữa các lớp này sẽ tạo ra những mơ hình khác nhau phù hợp cho các bài tốn khác nhau.

Mạng nơ-ron tích chập được áp dụng chủ yếu trong lĩnh vực thị giác máy, cụ thể trong các bài tốn nhận dạng như nhận dạng vật thể trong ảnh [Ren, 2016] [Kim, 2016] , nhận dạng chữ viết tay [Xu-Yao, 2017] , nhận dạng vật thể 3D [Alexandre, 2016] [Xiaofan, 2016] , nhận dạng khuơn mặt [Syaffeza, 2014] [Guo, 2017] , ứng dụng trong y học [Li, 2016] [Wahab, April 2017] [Kleesiek, 2016] . Bên cạnh đĩ, mạng tích chập cũng được áp dụng và đạt được kết quả cao trong xử lý tiếng nĩi [Abdel-Hamid, 2014] cũng như trong xử lý ngơn ngữ tự nhiên [Yin, 2017] [Hang, 2018] .

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(141 trang)