CHƯƠNG 2 Mô hình mạng Neuron tích chập
2.1. Tổng quan về mạng nơ-ron tích chập (CNN)
2.1.2. Lịch sử mạng nơ-ron tích chập
CNN thường được so sánh với cách não đạt được xử lý thị lực trong các sinh vật sống.
2.1.2.1. Các trường tiếp nhận trong vỏ não thị giác.
Cơng trình của Hubel và Wiesel trong những năm 1950 và 1960 cho thấy vỏ thị giác mèo chứa các tế bào thần kinh phản ứng riêng với các vùng nhỏ của trường thị giác. Miễn là mắt khơng di chuyển, vùng khơng gian thị giác trong đó các kích thích thị giác ảnh hưởng đến việc bắn một tế bào thần kinh duy nhất được gọi là trường tiếp nhận của nó . Các tế bào lân cận có các trường tiếp nhận tương tự và chồng chéo. Kích thước trường tiếp nhận và vị trí thay đổi một cách có hệ thống
25 trên vỏ não để tạo thành một bản đồ hoàn chỉnh về không gian thị giác. Vỏ não ở mỗi bán cầu đại diện cho trường thị giác bên cạnh .
Bài báo năm 1968 của họ đã xác định hai loại tế bào thị giác cơ bản trong não: • Các tế bào đơn giản có đầu ra được tối đa hóa bởi các cạnh thẳng có định hướng cụ thể trong trường tiếp nhận của chúng
• Các tế bào phức tạp có trường tiếp nhận lớn hơn, có đầu ra khơng nhạy cảm với vị trí chính xác của các cạnh trong trường.
Hubel và Wiesel cũng đề xuất một mơ hình xếp tầng của hai loại tế bào này để sử dụng trong các tác vụ nhận dạng mẫu.
2.1.2.2. Neocognitron, nguồn gốc của kiến trúc CNN.
"Neocognitron"( Mạng lưới thần kinh nhân tạo đa lớp) được Kunihiko Fukushima giới thiệu vào năm 1980. Nó được lấy cảm hứng từ tác phẩm nói trên của Hubel và Wiesel. Neocognitron đã giới thiệu hai loại lớp cơ bản trong CNN: các lớp tích chập và các lớp lấy mẫu xuống. Một lớp phức tạp chứa các đơn vị có trường tiếp nhận bao phủ một bản vá của lớp trước đó. Vectơ trọng lượng (tập hợp các thơng số thích ứng) của một đơn vị như vậy thường được gọi là bộ lọc. Các đơn vị có thể chia sẻ bộ lọc. Các lớp lấy mẫu xuống chứa các đơn vị có trường tiếp nhận bao gồm các bản vá của các lớp phức tạp trước đó. Một đơn vị như vậy thường tính trung bình các kích hoạt của các đơn vị trong bản vá của nó. Sự xuống cấp này giúp phân loại chính xác các đối tượng trong các cảnh trực quan ngay cả khi các đối tượng được dịch chuyển.
Trong một biến thể của Neocognitron được gọi là cresceptron, thay vì sử dụng trung bình khơng gian của Fukushima, J. Weng và cộng sự đã giới thiệu một phương pháp gọi là gộp tối đa, nơi một đơn vị giảm giá tính tốn tối đa các kích hoạt của các đơn vị trong bản vá của nó. Gộp tối đa thường được sử dụng trong các đĩa CD hiện đại.
26 Một số thuật toán học tập được giám sát và không giám sát đã được đề xuất trong nhiều thập kỷ để đào tạo trọng lượng của một neocognitron. Tuy nhiên, ngày nay, kiến trúc CNN thường được đào tạo thơng qua Backpropagation( là một thuật tốn được sử dụng rộng rãi để đào tạo mạng lưới thần kinh).
Neocognitron là CNN đầu tiên yêu cầu các đơn vị đặt tại nhiều vị trí mạng phải có trọng số chung.
Các mạng lưới thần kinh phức tạp đã được trình bày tại Hội thảo xử lý thông tin thần kinh vào năm 1987, tự động phân tích các tín hiệu thay đổi thời gian bằng cách thay thế phép nhân đã học được bằng sự phức tạp kịp thời và được chứng minh để nhận dạng giọng nói.
2.1.2.3. Thời gian trì hỗn mạng thần kinh.
Thời gian trì hỗn mạng thần kinh (TDNN) được giới thiệu vào năm 1987 bởi Alex Waibel và cộng sự và là một trong những mạng lưới phức tạp đầu tiên, vì nó đạt được sự thay đổi bất biến. Sự thay đổi bất biến này bằng cách sử dụng chia sẻ trọng lượng kết hợp với đào tạo bằng thuật toán Backpropagation. Do đó, trong khi cũng sử dụng một cấu trúc kim tự tháp như trong neocognitron, nó đã thực hiện tối ưu hóa toàn cầu các trọng lượng thay vì một cấu trúc địa phương.
TDNNs là các mạng phức tạp chia sẻ trọng lượng dọc theo chiều thời gian. Chúng cho phép các tín hiệu lời nói được xử lý theo thời gian bất biến. Năm 1990 Hampshire và Waibel đã giới thiệu một biến thể thực hiện một sự phức tạp hai chiều. Vì các TDNN này hoạt động trên quang phổ, hệ thống nhận dạng âm vị kết quả là bất biến cho cả sự thay đổi về thời gian và tần số. Sự bất biến dịch thuật đầy cảm hứng này trong xử lý hình ảnh với các CNN. Việc xây dựng đầu ra của tế bào thần kinh có thể bao gồm các giai đoạn theo thời gian.
27
2.1.2.4. Gộp tối đa.
Năm 1990, Yamaguchi và cộng sự đã giới thiệu khái niệm gộp tối đa, là một hoạt động lọc cố định tính tốn và truyền bá giá trị tối đa của một khu vực nhất định. Họ đã làm như vậy bằng cách kết hợp TDNN với gộp tối đa để nhận ra một hệ thống nhận dạng từ bị cơ lập độc lập của người nói. Trong hệ thống của họ, họ đã sử dụng một số TDNNs cho mỗi từ, một cho mỗi âm tiết. Kết quả của mỗi TDNN trên tín hiệu đầu vào được kết hợp bằng cách sử dụng gộp tối đa và đầu ra của các lớp gộp sau đó được chuyển sang các mạng thực hiện phân loại từ thực tế.
2.1.2.5. Nhận dạng hình ảnh với CNN được đào tạo theo hình thức dốc xuống.
Một hệ thống nhận dạng các số Mã ZIP viết tay liên quan đến các phép chập trong đó các hệ số nhân đã được thiết kế thủ công một cách công phu.
Yann LeCun và cộng sự vào năm 1989 đã sử dụng khả năng nhân giống ngược để tìm hiểu các hệ số hạt nhân phức tạp trực tiếp từ hình ảnh của các số viết tay. Do đó, việc học là hoàn toàn tự động, được thực hiện tốt hơn so với thiết kế hệ số thủ công và phù hợp với một loạt các vấn đề nhận dạng hình ảnh và loại hình ảnh.
Cách tiếp cận này đã trở thành nền tảng của thị giác máy tính hiện đại.
2.1.2.6. LeNet-5
LeNet-5, một mạng lưới tích chập với 7 cấp tiên phong của LeCun và cộng sự vào năm 1998, phân loại các chữ số, đã được một số ngân hàng áp dụng để nhận ra các số viết tay trên séc được số hóa trong hình ảnh 32x32 pixel. Khả năng xử lý hình ảnh có độ phân giải cao hơn đòi hỏi các lớp mạng thần kinh phức tạp lớn hơn và nhiều hơn, vì vậy kỹ thuật này bị hạn chế bởi sự sẵn có của tài nguyên máy tính.
28
2.1.2.7. Mạng thần kinh shift-invariant
Tương tự như vậy, một mạng lưới thần kinh bất biến đã được đề xuất bởi W. Zhang và cộng sự để nhận dạng nhân vật hình ảnh vào năm 1988. Thuật toán kiến trúc và đào tạo đã được sửa đổi vào năm 1991 và áp dụng để xử lý hình ảnh y tế và tự động phát hiện ung thư vú trong chụp quang tuyến vú.
Một thiết kế dựa trên tích chập khác đã được đề xuất vào năm 1988 để ứng dụng vào việc phân hủy các tín hiệu chập điện cơ một chiều thơng qua giải tích chập. Thiết kế này đã được sửa đổi vào năm 1989 thành các thiết kế dựa trên giải chập khác.
2.1.2.8. Kim tự tháp trừu tượng thần kinh
Kiến trúc feed-forward của các mạng thần kinh phức tạp đã được mở rộng trong kim tự tháp trừu tượng thần kinh bởi các kết nối bên và phản hồi. Mạng lưới phức tạp tái phát kết quả cho phép kết hợp linh hoạt thông tin theo ngữ cảnh để giải quyết lặp đi lặp lại sự mơ hồ của địa phương. Trái ngược với các mơ hình trước đó, đầu ra giống như hình ảnh ở độ phân giải cao nhất đã được tạo ra, ví dụ: cho phân đoạn ngữ nghĩa, tái tạo hình ảnh và các tác vụ bản địa hóa đối tượng.
2.1.2.9. Triển khai GPU
Mặc dù CNN được phát minh vào những năm 1980, nhưng bước đột phá của chúng trong những năm 2000 địi hỏi phải triển khai nhanh chóng trên các đơn vị xử lý đồ họa (GPUs).
Năm 2004, K. S. Oh và K. Jung đã chỉ ra rằng các mạng thần kinh tiêu chuẩn có thể được tăng tốc rất nhiều trên GPU. Việc triển khai chúng nhanh hơn 20 lần so với triển khai tương đương trên CPU. Năm 2005, một bài báo khác cũng nhấn mạnh giá trị của GPGPU đối với học máy.
Việc triển khai GPU đầu tiên của CNN được mô tả vào năm 2006 bởi K. Chellapilla và các cộng sự. Việc triển khai chúng nhanh hơn 4 lần so với triển khai tương đương trên CPU. Cơng trình tiếp theo cũng sử dụng GPU, ban đầu
29 cho các loại mạng thần kinh khác (khác với CNN), đặc biệt là các mạng thần kinh không được giám sát.
Năm 2010, Dan Ciresan và cộng sự tại IDSIA đã chỉ ra rằng ngay cả các mạng thần kinh tiêu chuẩn sâu với nhiều lớp cũng có thể được đào tạo nhanh chóng trên GPU bằng cách học tập có giám sát thơng qua phương pháp cũ được gọi là backpropagation. Mạng lưới của họ vượt trội so với các phương pháp học máy trước đó trên điểm chuẩn chữ số viết tay MNIST. Năm 2011, họ đã mở rộng cách tiếp cận GPU này cho các CNN, đạt được hệ số tăng tốc 60, với kết quả ấn tượng. Năm 2011, họ đã sử dụng các CNN như vậy trên GPU để giành chiến thắng trong một cuộc thi nhận dạng hình ảnh, nơi họ lần đầu tiên đạt được hiệu suất siêu phàm. Từ ngày 15 tháng 5 năm 2011 đến ngày 30 tháng 9 năm 2012, CNN của họ đã giành chiến thắng khơng dưới bốn cuộc thi hình ảnh. Năm 2012, họ cũng cải thiện đáng kể hiệu suất tốt nhất trong tài liệu cho nhiều cơ sở dữ liệuhình ảnh, bao gồm cơ sở dữ liệu MNIST, cơ sở dữ liệu NORB, bộ dữ liệu HWDB 1.0 và bộ dữ liệu CIFAR10 (bộ dữ liệu 60000 32x32 có nhãn hình ảnh RGB).
Sau đó, một CNN dựa trên GPU tương tự của Alex Krizhevsky và cộng sự đã giành chiến thắng trong ImageNet Large Scale Image Recognition Challenge 2012. Một CNN rất sâu với hơn 100 lớp của Microsoft đã giành chiến thắng trong cuộc thi ImageNet 2015.
2.1.2.10. Triển khai Intel Xeon Phi
So với việc đào tạo các CNN sử dụng GPU, khơng có nhiều sự chú ý được dành cho bộ đồng xử lý Intel Xeon Phi, là một loạt các bộ xử lý đa lõi x86 được thiết kế và sản xuất bởi Intel. Nó được thiết kế để sử dụng trong siêu máy tính, máy chủ và máy trạm cao cấp. Một sự phát triển đáng chú ý là một phương pháp song song để đào tạo các mạng thần kinh phức tạp trên Intel Xeon Phi, được đặt tên là Controlled Hogwild with Arbitrary Order of Synchronization (CHAOS). CHAOS khai thác cả sự song song cấp luồng và SIMDcó sẵn trên Intel Xeon Phi.
30