Mơ hình bộ não người

Nghiên cứu trong những thập niên 1950 và 1960 của hai nhà thần kinh học người Mỹ là D.H Hubel và T.N Wiesel trên não của động vật đã thực hiện thí nghiệm khám phá cách tổ chức của các tế bào não để xử lý thông tin thị giác và các tổ chức này đảm nhận nhiệm vụ nào, đề xuất một mơ hình mới cho việc cách mà động vật nhìn nhận thế giới. Trong báo cáo, hai ông đã diễn tả 2 loại tế bào nơ-ron trong não và cách hoạt động khác nhau: tế bào đơn giản (Simple cell - S cell) và tế bào phức tạp (Complex cell - C cell).

Các tế bào đơn giản được kích hoạt khi nhận diện các hình dáng đơn dản như đường nằm trong một khu vực cố định và một góc cạnh của nó. Các tế bào phức tạp có vùng tiếp nhận lớn hơn và đầu ra của nó khơng nhạy cảm với những vị trí cố định trong vùng. Trong thị giác, vùng tiếp nhận của một nơ-ron tương ứng với một vùng trên võng mạc nơi mà sẽ kích hoạt nơ-ron tương ứng. Điều này có nghĩa là mỗi neuron được thiết lập để phản ứng lại một số đặc điểm cố định của nơ-ron đó.

Một mạng lưới thần kinh sẽ học theo thời gian nếu dự đoán của nó là chính xác. Giống như với bất cứ điều gì khác, phải mất rất nhiều đào tạo cho máy tính để có được dự đoán của họ đúng, họ không tự động biết cách phân loại những vật thể được gọi trong thế giới thực.

Để dạy thuật tốn nhận diện đối tượng trong hình ảnh, ta sử dụng một loại mạng nơ-ron tích chập, phép tính quan trọng được sử dụng trong mạng đó là tích chập.

Một máy tính sử dụng CNN xử lý thơng tin theo cách tương tự, nhưng nó làm như vậy bằng cách sử dụng các con số. Con người chúng ta nhận ra các hình mẫu thơng qua cảm nhận thị giác (kết hợp với các giác quan khác của chúng ta), còn một CNN thực hiện tương tự bằng cách chia nhỏ hình ảnh thành các con số.

Hoạt động bên trong của CNN rõ ràng phức tạp và mang tính kỹ thuật hơn nhiều so với chỉ các hình mẫu của con số, nhưng điều quan trọng là phép toán tích chập, sự kết hợp của hai chức năng tạo ra chức năng thứ ba. Một mạng lưới thần kinh sử dụng tích chập đang lấy mẫu nhiều bộ thông tin, gộp chúng lại với nhau để tạo ra một đại diện chính xác của một hình ảnh. Sau khi lấy mẫu, hình ảnh được mơ tả trong rất nhiều dữ liệu mà mạng thần kinh có thể sử dụng để đưa ra dự đoán về nó là gì. Sau đó, máy tính có thể áp dụng dự đoán đó cho các ứng dụng khác, như mở khóa điện thoại hoặc đề nghị bạn bè gắn thẻ trên Facebook.

Kiến trúc mạng CNN đã được giới thiệu bởi Yann LeCun và năm 1998, nhưng sau 14 năm thì mạng CNN mới được sự chú ý của cộng đồng vì sự xuất hiện của bộ ảnh lớn ImageNet. Ngày nay, mạng CNN đã được phổ biến và trở thành một phương pháp tiên tiến (state-of-the-art), được ứng dụng nhiều trong lĩnh vực thị giác máy tính, nhận dạng (recognition), khai phá dữ liệu ảnh (image mining)…

2.2. Một số khái niệm

Ngày nay, trong kỷ ngun số, máy tính là một phần khơng thể thiếu trongb nghiên cứu khoa học cũng như trong đời sống hàng ngày. Tuy nhiên, do hệ thống máy tính dựa trên lý thuyết cổ điển (tập hợp, logic nhị phân), nên dù có khả năng tính toán lớn và độ chính xác cao, thì máy tính cũng chỉ có thể làm việc theo một chương trình gồm các thuật toán được viết sẵn do lập trình viên chứ chưa thể tự lập luận hay sáng tạo [17].

- Học máy (Machine learning) là một phương pháp phân tích dữ liệu có thể tự động hóa phân tích dữ liệu và tìm ra các trích xuất đặc trưng của bộ dữ liệu. Học máy sử dụng các thuật toán trừu tượng để tự học từ dữ liệu, cho phép máy tính tìm thấy những thơng tin có giá trị ẩn ở rất sâu mà khơng thể lập trình được bằng cách thơng thường. Khi tiếp xúc với dữ liệu mới, học máy có thể thích ứng rất nhanh và độc lập.

- Học sâu (Deep Learning) là một ngành đặc biệt của học máy. Học sâu sử dụng

mạng nơ-ron nhân tạo (Artificial Neural Networks) để giải quyết các bài tốn mà tính tốn cứng chưa thể xử lý được như dữ liệu trừu tượng, dữ liệu mờ, dữ liệu không rõ

ràng,... Với tính chất như vậy, học sâu thường được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngơn ngữ tự nhiên hoặc dự đoán, dự báo [18].

- Mạng nơ-ron nhân tạo (Artificial Neural Networks) là một mơ hình xử lý thơng

tin, cấu thành từ các lớp nơ-ron, được ra đời trên cơ sở mô phỏng hoạt động não bộ của sinh vật. Mạng nơ-ron nhân tạo gắn kết nhiều nơ-ron theo một mơ hình nhất định, được trải qua huấn luyện để rút ra được kinh nghiệm, và sử dụng các kinh nghiệm đã có để xử lý các thông tin mới. Mạng nơ-ron nhân tạo thường áp dụng vào giải các bài toán nhận dạng mẫu, hoặc dự đoán.

- Mạng nơ-ron tích chập (Convolutional Neural Network) là một trong những mơ

hình học sâu hiện đại nhất hiện nay. Mạng nơ-ron Tích chập hiện nay thường được sử dụng nhiều trong các hệ thống thông minh do ưu điểm của mạng là có độ chính xác cao, tuy nhiên tốc độ tính tốn lại rất nhanh. Vì lý do đó, mạng nơ-ron tích chập rất mạnh trong xử lý hình ảnh, và được ứng dụng rất nhiều trong ngành thị giác máy tính trong các bài tốn liên quan đến nhận dạng đối tượng.

Máy tính nhìn hình ảnh dưới dạng mảng các pixel và nó phụ thuộc vào độ phân giải của hình ảnh. Mạng nơ-ron tích chập là một trong những mơ hình Deep Learning tiên tiến và phổ biến. Nó giúp cho chúng ta xây dựng được những hệ thống thơng minh với độ chính xác cao, được sử dụng nhiều trong các bài toán nhận dạng các đối tượng trong ảnh. Như hệ thống xử lý ảnh lớn như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng tự động.

2.3. Kiến trúc mạng nơ-ron tích chập

Hình 2.3 trình bày một kiến trúc mạng CNN, các lớp cơ bản trong một mạng CNN bao gồm: lớp tích chập (Convolutional); hàm kích hoạt ReLU (Rectifed Linear Unit); lớp lấy mẫu (Pooling); lớp kết nối đầy đủ (Fully connected) được thay đổi về số lượng và cách sắp xếp để tạo ra các mơ hình h́n luyện phù hợp cho từng bài toán khác nhau [19].

Mạng nơ-ron thông thường

Đặc trưng nội dung ảnh