Nghiên cứu trong những thập niên 1950 và 1960 của hai nhà thần kinh học người Mỹ là D.H Hubel và T.N Wiesel trên não của động vật đã thực hiện thí nghiệm khám phá cách tổ chức của các tế bào não để xử lý thông tin thị giác và các tổ chức này đảm nhận nhiệm vụ nào, đề xuất một mơ hình mới cho việc cách mà động vật nhìn nhận thế giới. Trong báo cáo, hai ông đã diễn tả 2 loại tế bào nơ-ron trong não và cách hoạt động khác nhau: tế bào đơn giản (Simple cell - S cell) và tế bào phức tạp (Complex cell - C cell).
Các tế bào đơn giản được kích hoạt khi nhận diện các hình dáng đơn dản như đường nằm trong một khu vực cố định và một góc cạnh của nó. Các tế bào phức tạp có vùng tiếp nhận lớn hơn và đầu ra của nó khơng nhạy cảm với những vị trí cố định trong vùng. Trong thị giác, vùng tiếp nhận của một nơ-ron tương ứng với một vùng trên võng mạc nơi mà sẽ kích hoạt nơ-ron tương ứng. Điều này có nghĩa là mỗi neuron được thiết lập để phản ứng lại một số đặc điểm cố định của nơ-ron đó.
Một mạng lưới thần kinh sẽ học theo thời gian nếu dự đoán của nó là chính xác. Giống như với bất cứ điều gì khác, phải mất rất nhiều đào tạo cho máy tính để có được dự đoán của họ đúng, họ không tự động biết cách phân loại những vật thể được gọi trong thế giới thực.
Để dạy thuật tốn nhận diện đối tượng trong hình ảnh, ta sử dụng một loại mạng nơ-ron tích chập, phép tính quan trọng được sử dụng trong mạng đó là tích chập.
Một máy tính sử dụng CNN xử lý thơng tin theo cách tương tự, nhưng nó làm như vậy bằng cách sử dụng các con số. Con người chúng ta nhận ra các hình mẫu thơng qua cảm nhận thị giác (kết hợp với các giác quan khác của chúng ta), còn một CNN thực hiện tương tự bằng cách chia nhỏ hình ảnh thành các con số.
Hoạt động bên trong của CNN rõ ràng phức tạp và mang tính kỹ thuật hơn nhiều so với chỉ các hình mẫu của con số, nhưng điều quan trọng là phép toán tích chập, sự kết hợp của hai chức năng tạo ra chức năng thứ ba. Một mạng lưới thần kinh sử dụng tích chập đang lấy mẫu nhiều bộ thông tin, gộp chúng lại với nhau để tạo ra một đại diện chính xác của một hình ảnh. Sau khi lấy mẫu, hình ảnh được mơ tả trong rất nhiều dữ liệu mà mạng thần kinh có thể sử dụng để đưa ra dự đoán về nó là gì. Sau đó, máy tính có thể áp dụng dự đoán đó cho các ứng dụng khác, như mở khóa điện thoại hoặc đề nghị bạn bè gắn thẻ trên Facebook.
Kiến trúc mạng CNN đã được giới thiệu bởi Yann LeCun và năm 1998, nhưng sau 14 năm thì mạng CNN mới được sự chú ý của cộng đồng vì sự xuất hiện của bộ ảnh lớn ImageNet. Ngày nay, mạng CNN đã được phổ biến và trở thành một phương pháp tiên tiến (state-of-the-art), được ứng dụng nhiều trong lĩnh vực thị giác máy tính, nhận dạng (recognition), khai phá dữ liệu ảnh (image mining)…
2.2. Một số khái niệm
Ngày nay, trong kỷ ngun số, máy tính là một phần khơng thể thiếu trongb nghiên cứu khoa học cũng như trong đời sống hàng ngày. Tuy nhiên, do hệ thống máy tính dựa trên lý thuyết cổ điển (tập hợp, logic nhị phân), nên dù có khả năng tính toán lớn và độ chính xác cao, thì máy tính cũng chỉ có thể làm việc theo một chương trình gồm các thuật toán được viết sẵn do lập trình viên chứ chưa thể tự lập luận hay sáng tạo [17].
- Học máy (Machine learning) là một phương pháp phân tích dữ liệu có thể tự động hóa phân tích dữ liệu và tìm ra các trích xuất đặc trưng của bộ dữ liệu. Học máy sử dụng các thuật toán trừu tượng để tự học từ dữ liệu, cho phép máy tính tìm thấy những thơng tin có giá trị ẩn ở rất sâu mà khơng thể lập trình được bằng cách thơng thường. Khi tiếp xúc với dữ liệu mới, học máy có thể thích ứng rất nhanh và độc lập.
- Học sâu (Deep Learning) là một ngành đặc biệt của học máy. Học sâu sử dụng
mạng nơ-ron nhân tạo (Artificial Neural Networks) để giải quyết các bài tốn mà tính tốn cứng chưa thể xử lý được như dữ liệu trừu tượng, dữ liệu mờ, dữ liệu không rõ
ràng,... Với tính chất như vậy, học sâu thường được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngơn ngữ tự nhiên hoặc dự đoán, dự báo [18].
- Mạng nơ-ron nhân tạo (Artificial Neural Networks) là một mơ hình xử lý thơng
tin, cấu thành từ các lớp nơ-ron, được ra đời trên cơ sở mô phỏng hoạt động não bộ của sinh vật. Mạng nơ-ron nhân tạo gắn kết nhiều nơ-ron theo một mơ hình nhất định, được trải qua huấn luyện để rút ra được kinh nghiệm, và sử dụng các kinh nghiệm đã có để xử lý các thông tin mới. Mạng nơ-ron nhân tạo thường áp dụng vào giải các bài toán nhận dạng mẫu, hoặc dự đoán.
- Mạng nơ-ron tích chập (Convolutional Neural Network) là một trong những mơ
hình học sâu hiện đại nhất hiện nay. Mạng nơ-ron Tích chập hiện nay thường được sử dụng nhiều trong các hệ thống thông minh do ưu điểm của mạng là có độ chính xác cao, tuy nhiên tốc độ tính tốn lại rất nhanh. Vì lý do đó, mạng nơ-ron tích chập rất mạnh trong xử lý hình ảnh, và được ứng dụng rất nhiều trong ngành thị giác máy tính trong các bài tốn liên quan đến nhận dạng đối tượng.
Máy tính nhìn hình ảnh dưới dạng mảng các pixel và nó phụ thuộc vào độ phân giải của hình ảnh. Mạng nơ-ron tích chập là một trong những mơ hình Deep Learning tiên tiến và phổ biến. Nó giúp cho chúng ta xây dựng được những hệ thống thơng minh với độ chính xác cao, được sử dụng nhiều trong các bài toán nhận dạng các đối tượng trong ảnh. Như hệ thống xử lý ảnh lớn như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng tự động.
2.3. Kiến trúc mạng nơ-ron tích chập
Hình 2.3 trình bày một kiến trúc mạng CNN, các lớp cơ bản trong một mạng CNN bao gồm: lớp tích chập (Convolutional); hàm kích hoạt ReLU (Rectifed Linear Unit); lớp lấy mẫu (Pooling); lớp kết nối đầy đủ (Fully connected) được thay đổi về số lượng và cách sắp xếp để tạo ra các mơ hình h́n luyện phù hợp cho từng bài toán khác nhau [19].