Chương I. CƠ SỞ LÝ THUYẾT
1.1.3. Lĩnh vực học sâu
1.1.3.4. Lịch sử lĩnh vực học sâu
Các kiến trúc học sâu, đặc biệt được xây dựng từ mạng Nơ ron nhân tạo (ANN), Kiến trúc Neocognitron được giới thiệu bởi nhà nghiên cứu Kunihiko Fukushima năm 1980. Năm 1989 nhà nghiên cứu Yann LeCun có thể áp dụng thuật toán lan truyền ngược chuẩn đã có từ năm 1974, với một mạng Nơ ron sâu với mục đích nhận dạng mã ZIP viết tay trên email. Mặc dù áp dụng thành công các thuật toán, thời gian huấn luyện trên tập dữ liệu mất khoảng 3 ngày, khiến cho nó không thể sử dụng thực tế. Có nhiều nhân tố làm giảm tốc độ, một là do vấn đề gradient bị triệt tiêu được phân tích năm 1991 bởi nhà nghiên cứu Sepp Hochreiter.
24
Năm 1991 mạng Nơ ron được sử dụng để nhận dạng chữ số viết tay 2-D được tách rời, nhận dạng đối tượng 3-D sử dụng cách tiếp cận dựa trên mô hình 3-D phù hợp với hình ảnh 2-D với mô hình đối tượng 3-D thủ công. nhà nghiên cứu Juyang Weng đã đề xuất về một bộ não con người không sử dụng mô hình đối tượng 3-D, năm 1992 họ công bố Cresceptron để nhận dạng đối tượng 3-D trực tiếp từ những cảnh lộn xộn. Cresceptron là một tầng của nhiều lớp tương tự như Neocognitron.
Nhưng không giống Neocognitron ở chỗ yêu cầu con người lập trình để các tham số kết hợp với tay, Cresceptron hoàn toàn tự động học các tham số không có giám sát trong mỗi lớp của các tầng nơi mỗi tham số được biểu diễn bởi nhân chập. Ngoài ra, Cresceptron cũng phân đoạn từng đối tượng học được từ một cảnh lộn xộn qua việc phân tích ngược thông qua mạng. Max-pooling, hiện thường được thông qua bởi các mạng Nơ ron sâu. Do thiếu hiểu biết về cách bộ não tự trị các kết nối mạng sinh học và tính toán chi phí bởi ANN, các mô hình đơn giản sử dụng các tham số thủ công như bộ lọc Gabor và máy hỗ trợ vec tơ (SVM - Support Vector Machines) là một lựa chọn phổ biến của lĩnh vực này trong những năm 1990 và 2000.
Trong lịch sử lâu dài của nhận dạng tiếng nói, cả hai hình thức nông và sâu (ví dụ mạng hồi quy) của mạng Nơ ron nhân tạo đã được khám phá trong nhiều năm.
Nhưng các phương pháp này không bao giờ vượt qua được sự bất đồng bộ liên kết thủ công mô hình GMM-HMM dựa trên mô hình đường sinh (generative model) của tiếng nói được huấn luyện có sự phán đoán. Một số khó khăn chính đã được phân tích về mặt phương pháp, bao gồm cả giảm gradient và cấu trúc tương quan thời gian yếu (Weak Temporal Correlation) trong các mô hình Nơ ron tiên đoán. Tất cả những khó khăn này ngoài việc thiếu khối lượng lớn dữ liệu huấn luyện và khả năng tính toán trong những ngày đầu. Hầu hết các nhà nghiên cứu về nhận dạng tiếng nói hiểu rõ những rào cản như vậy. Sau đó chuyển từ mạng Nơ ron tới các tiếp cận mô hình sinh cho đến khi có sự nổi lên của lĩnh vực học sâu đã vượt qua được tất cả những khó khăn này.
Thuật ngữ “học sâu” đã được đưa vào giữa những năm 2000 sau khi một ấn phẩm của hai nhà nghiên cứu Geoffrey Hinton và Ruslan Salakhutdinov cho thấy
25
cách mà mạng Nơ ron truyền thẳng đa lớp có thể được tiền huấn luyện (pre-trained) một lớp tại một thời điểm, xử lý mỗi lớp lần lượt như máy Boltzmann restricted không giám sát, sau đó sử dụng lan truyền ngược có giám sát cho việc tinh chỉnh. Năm 1992, Schmidhuber đã thực hiện một ý tưởng tương tự cho trường hợp tổng quát của hệ thống phân cấp sâu có giám sát của mạng Nơ ron hồi quy, và thực nghiệm cho thấy lợi ích của nó cho việc học có giám sát.
Từ sự trỗi dậy của lĩnh vực học sâu, nó đã trở thành một phần của nhiều hệ thống state-of-the-art trong các lĩnh vực khác nhau, đặc biệt là trong thị giác máy tính và nhận dạng tiếng nói tự động (ASR). Kết quả thường được sử dụng đánh giá thẩm định như TIMIT (ASR) và MNIST (phân lớp ảnh) cũng như một loạt các nhiệm vụ nhận dạng tiếng nói từ vựng lớn liên tục được cải thiện với các ứng dụng mới của lĩnh vực học sâu. Hiện nay nó đã chứng minh rằng kiến trúc học sâu trong các dạng của mạng Nơ ron chập đã gần như thực hiện tốt nhất, tuy nhiên chúng được sử dụng rộng rãi trong thị giác máy tính hơn ASR.
Các tác động thực sự của lĩnh vực học sâu trong công nghiệp được bắt đầu trong nhận dạng tiếng nói quy mô lớn năm 2010. Cuối 2009, nhà nghiên cứu Geoff Hinton đã được Li Deng mời đến làm việc với ông và các đồng nghiệp tại viện nghiên cứu Microsoft ứng dụng học sâu để nhận dạng tiếng nói. Họ phối hợp tổ chức các hội thảo NIPS năm 2009 về lĩnh vực học sâu cho nhận dạng tiếng nói. Hội thảo đã được thúc đẩy bởi những hạn chế của mô hình generative sâu của tiếng nói, khả năng tính toán lớn, thời kỳ dữ liệu lớn được đảm bảo thử nghiệm nghiêm túc phương pháp tiếp cận mạng Nơ ron sâu (DNN). Sau đó các nhà nghiên cứu tin rằng tiền huấn luyện mạng Nơ ron sâu sử dụng mô hình generative của mạng Belief sâu (DBN) sẽ là phương thuốc cho những khó khăn chính mà mà mạng Nơ ron gặp phải trong những năm 1990. Tuy nhiên, ngay sau khi các nghiên cứu theo hướng này bắt đầu tại Microsoft Research, đã phát hiện ra rằng một lượng lớn dữ liệu huấn luyện được sử dụng và đặc biệt là khi mạng Nơ ron sâu được thiết kết với lượng lớn các lớp đầu ra phụ thuộc ngữ cảnh, giảm đáng kể lỗi xảy ra sau state-of-the-art GMM-HMM và nâng cấp hệ thống nhận dạng tiếng nói dựa trên mô hình generative mà không cần tiền
26
huấn luyện DBN generative, việc tìm kiếm xác minh sau đó được thực hiện bởi nhiều nhóm nghiên cứu nhận dạng tiếng nói khác. Hơn nữa, bản chất của lỗi nhận dạng được tạo ra bởi hai loại của hệ thống đã tìm được các đặc trưng khác nhau, cung cấp nhận thức về kỹ thuật tích hợp học sâu cho hiệu quả cao, chạy thời gian thực (run- time) hệ thống giải mã tiếng nói được triển khai bởi tất cả các nhà chuyên môn trong ngành công nghiệp nhận dạng tiếng nói. Lịch sử phát triển quan trọng này trong học sâu đã được mô tả và phân tích trong một số cuốn sách gần đây.
Những tiến bộ trong phần cứng cũng là một yếu tố quan trọng tạo điều kiện đổi mới cho lĩnh vực học sâu. Đặc biệt, các khối xử lý đồ họa mạnh mẽ (GPU) là rất thích hợp cho các loại crunching, ma trận/vec tơ toán học liên quan đến máy học.
GPU đã được đưa ra tăng tốc các thuật toán huấn luyện bởi các yêu cầu của cường độ, giảm thời gian chạy từ hàng tuần xuống ngày.