Kiến trúc LSTM

Hình 1 .6 Ví dụ về một số phép lọ c

Hình 1.21 Kiến trúc LSTM

Sự ra mắt của DNN để nhận dạng người nói vào cuối những năm 1990 và nhận dạng giọng nói vào khoảng năm 2009-2011 và của LSTM vào khoảng năm 2003– 2007, đã thúc đẩy sự tiến bộtrong tám lĩnh vực chính:

- Mở rộng quy mơ và tăng tốc đào tạo và giải mã DNN - Đào tạo phân biệt trình tự

19 - Tính năng xử lý bằng các mơ hình sâu với sự hiểu biết vững chắc vềcác cơ

chếcơ bản

- Sự thích ứng của DNN và các mơ hình sâu liên quan

- Đa nhiệm vụ và học tập chuyển giao bởi DNN và các mơ hình sâu liên quan - CNN và cách thiết kếchúng để khai thác tốt nhất kiến thức miền về giọng

nói

- RNN và các biến thể LSTM phong phú của nó

- Các loại mơ hình sâu khác bao gồm mơ hình dựa trên tensor và mơ hình sinh sâu tích hợp.

Tất cả các hệ thống nhận dạng giọng nói thương mại chính (ví dụ: Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu, tìm kiếm bằng giọng nói iFlyTek và một loạt các sản phẩm giọng nói Nuance, v.v.) đều dựa trên học sâu.

Nhận dạng hình ảnh

Một bộđánh giá chung để phân loại ảnh là bộ dữ liệu cơ sở dữ liệu MNIST. MNIST bao gồm các chữ số viết tay và bao gồm 60.000 ví dụđào tạo và 10.000 ví dụ kiểm tra. Như với TIMIT, kích thước nhỏ của nó cho phép người dùng thử nghiệm nhiều cấu hình. Danh sách tồn diện các kết quả về bộ này có sẵn.

Nhận dạng hình ảnh dựa trên học tập sâu đã trở thành "siêu phàm", cho ra kết quả chính xác hơn so với các thí sinh của con người. Điều này lần đầu tiên xảy ra vào năm 2011 để nhận dạng các biển báo giao thông và vào năm 2014, với nhận dạng khuôn mặt người. Vượt qua khảnăng nhận dạng khuôn mặt ở cấp độcon người.

Ví dụ về deep learning

Giới thiệu về rocker arm