1. Tổng quan về mạng Nơ ron sâụ
1.1.3.5. Học sâu trong mạng Nơ ron nhân tạo [16]
Một số phương pháp học sâu thành công nhất liên quan đến mạng Nơ ron nhân tạọ Mạng Nơ ron nhân tạo được lấy ý tưởng từ những mô hình sinh học năm 1959 bởi những người đoạt giải Nobel David H. Hubel & Torsten Wiesel, người đã tìm thấy hai loại tế bào trong vỏ não: các tế bào đơn giản và các tế bào phức tạp. Nhiều mạng Nơ ron nhân tạo có thể được xem như là mô hình tầng của các loại tế bào lấy ý tưởng từ những quan sát sinh học.
Neocognitron Fukushima đã giới thiệu mạng Nơ ron chập được huấn luyện từng phần bằng học không giám sát trong khi con người được hướng dẫn các tham số trong mặt phẳng nơ ron. Yann LeCun (1989) áp dụng lan truyền ngược có giám sát tới kiến trúc như vậỵ Nhà nghiên cứu Weng (1992) đã công bố Perceptron mạng Nơ ron chập cho nhận dạng đối tượng 3-D từ hình ảnh của các cảnh lộn xộn và phân đoạn các đối tượng từ các hình ảnh.
Một nhu cầu hiển nhiên về nhận dạng các đối tượng 3-D là tính bất biến ít nhất và sự biến dạng có thể chấp nhận được. Max-pooling xuất hiện lần đầu được đề xuất bởi Cresceptron cho phép mạng có thể chịu được biến dạng một cách có thứ bậc từ
27
nhỏ đến lớn khi sử dụng chập. Max-pooling hữu ích nhưng vẫn không hoàn toàn đảm bảo, sự thay đổi bất biến ở mức pixel.
Với sự ra đời của thuật toán lan truyền ngược vào những năm 1970, nhiều nhà nghiên cứu đã cố huấn luyện có giám sát mạng Nơ ron nhân tạo sâu ngay từ đầu, ban đầu không mấy thành công. Luận án tốt nghiệp của Sepp Hochreiter năm 1991 chính thức xác định lý do cho sự thất bại này “vấn đề gradient bị triệt tiêu”, nó không chỉ ảnh hưởng đến các mạng truyền thẳng nhiều lớp mà còn ảnh hưởng đến các mạng Nơ ron hồi quỵ Sau này được huấn luyện bằng cách unfolding chúng tới mạng truyền thẳng rất sâu, nơi một lớp mới được tạo ra cho mỗi bước thời gian của một chuỗi đầu vào được xử lý bởi mạng. Là lỗi truyền từ lớp đến lớp, chúng rút lại theo cấp số nhân của số lớp.
Để khắc phục vấn đề này, một số phương pháp đã được đề xuất. Một là phân cấp đa mức của mạng được tiền huấn luyện một cấp tại một thời điểm thông qua học không giám sát, tinh chỉnh thông qua lan truyền ngược. Ở đây mỗi cấp học một sự biểu diễn nén của các quan sát đó được đưa vào mức tiếp theo (Jürgen Schmidhuber, 1992).
Phương pháp khác là một mạng bộ nhớ tạm (LSTM - Long Short Term Memory) đưa ra năm 1997 bởi Hochreiter & Schmidhuber. Năm 2009, các mạng LSTM đa chiều đã giành được ba ICDAR 2009 trong cuộc thi nhận dạng chữ viết mà không cần kiến thức về ba ngôn ngữ khác nhau để có thể học. Sven Behnke chỉ dựa trên các dấu hiệu của gradient (Rprop) khi huấn luyện Neural Abstraction Pyramid để giải quyết các vấn đề như xây dựng lại ảnh và phân vùng khuôn mặt.
Các phương pháp khác cũng sử dụng tiền huấn luyện không có giám sát với cấu trúc mạng nơ ron, khiến cho nó lần đầu tiên biết phát hiện tham số hữu ích. Sau đó các mạng tiếp tục được huấn luyện bởi lan truyền ngược có giám sát để phân lớp dữ liệu đã được gán nhãn. Mô hình sâu của Hinton et al. (2006) bao gồm việc học sự phân bố của các biểu diễn mức cao sử dụng các lớp liên tiếp của các biến ẩn nhị phân hoặc giá trị thực. Nó sử dụng một máy Boltzmann Restricted (Smolensky, 1986) để mô hình hóa mỗi lớp mới của các tham số mức cao hơn. Mỗi lớp mới đảm bảo tăng
28
về giới hạn dưới (lower-bound) về hợp lệ (log likelihood) của dữ liệu, do đó cải thiện các mô hình nếu được huấn luyện đúng cách. Khi đủ nhiều lớp đã được huấn luyện các kiến trúc sâu có thể được sử dụng như một mô hình generative theo cách tái tạo dữ liệu khi lấy mẫu dưới (down) mô hình từ kích hoạt các tham số mức cao nhất.
Nhóm nghiên cứu Google Brain dẫn đầu bởi Andrew Ng và Jeff Dean đã tạo ra mạng Nơ ron mà các mạng này được học để nhận dạng các khái niệm ở mức cao hơn, chẳng hạn như phát hiện con mèo, chỉ từ hình ảnh không được gán nhãn lấy từ video YouTubẹ
Các phương pháp khác dựa trên sức mạnh xử lý tuyệt đối của máy tính hiện đại, đặc biệt là GPỤ Năm 2010, Dan Ciresan và colleagues trong nhóm của Jürgen Schmidhuber tại Thụy Sĩ đã đưa ra rằng mặc dù “vấn đề triệt tiêu gradient” đã đề cập ở trên, sức mạnh xử lý vượt trội của GPU làm cho lan truyền ngược khả thi với mạng Nơ ron truyền thẳng sâu với nhiều lớp. Phương pháp này vượt trội so với tất cả các kỹ thuật máy học ngày xưa, vấn đề chữ số viết tay MNIST nổi tiếng của Yann LeCun và các đồng nghiệp tại New York.
Tính đến năm 2011, trạng thái kỹ thuật trong học sâu mạng truyền thẳng các lớp chập luân phiên và các lớp max-pooling, đứng đầu bởi một số lớp phân loại thuần túy các lớp. Huấn luyện thường được thực hiện mà không cần tiền huấn luyện không có giám sát. Từ 2011, việc xử lý dữ liệu trên nền GPU của phương pháp này chiến thắng nhiều cuộc thi nhận dạng mẫu, bao gồm IJCNN 2011 cuộc thi nhận dạng báo hiệu giao thông (Traffic Sign Recognition Competition), ISBI 2012 phân đoạn các cấu trúc Nơ ron trong EM stacks challengẹ
Phương pháp học sâu có giám sát như vậy cũng là phương pháp nhận dạng mẫu nhân tạo đầu tiên để đạt được hiệu suất có thể cạnh tranh với con người về công việc nhất định.
Để phá vỡ những rào cản yếu kém AI được biểu diễn bởi học sâu, nó cần thiết để vượt qua các kiến thức học sâu vì bộ não sinh học sử dụng cả hai mạch nông và sâu để đối phó với sự đa dạng của bất biến mà não hiển thị. Weng lập luận rằng bản thân các dây bộ não chủ yếu theo các thống kê tín hiệu và do đó một tầng nối tiếp
29
không thể bắt kịp tất cả các phụ thuộc thống kê chủ yếụ Đảm bảo hoàn toàn thay đổi bất biến cho ANN để đối phó với các đối tượng tự nhiên lớn và nhỏ trong những cảnh lộn xộn trở thành hiện thực khi sự bất biến đã vượt ra ngoài, mở rộng đến các khái niệm ANN-được học chẳng hạn như vị trí, kiểu (nhãn phân lớp đối tượng), quy mô, độ sáng (lighting), trong các mạng phát triển (DN- Developmental Network) mà các phương án là Where-What Network (WWN).