Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)
Trang 1-
TRẦN THANH TUẤN
NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI
TRONG VIDEO SỬ DỤNG DEEP LEARNING
LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng)
THÀNH PHỐ HỒ CHÍ MINH –NĂM 2017
Trang 2-
TRẦN THANH TUẤN NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI
TRONG VIDEO SỬ DỤNG DEEP LEARNING
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS BÙI XUÂN LỘC
THÀNH PHỐ HỒ CHÍ MINH –NĂM 2017
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn
Tp Hồ Chí Minh, ngày 31 tháng 05 năm 2017
Học viên thực hiện luận văn
Trần Thanh Tuấn
Trang 4LỜI CÁM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất đến Thầy TS Bùi Xuân Lộc, người
đã tận tình hướng dẫn, hỗ trợ và giúp đỡ tôi rất nhiều trong nghiên cứu luận văn Thầy đã đưa ra những định hướng, nhận xét và góp ý quý giá để luận văn này được hoàn thành tốt nhất
Kính gửi lời cảm ơn đến quý Thầy, Cô giảng viên đã tận tình giảng dạy và truyền đạt những kiến thức chuyên môn cần thiết trong quá trình tôi được học tập tại Học viện Công nghệ Bưu chính Viễn thông – Cơ sở II, Thành phố Hồ Chí Minh
Xin gửi lời cảm ơn sâu sắc đến Ban giám đốc Học viện Bưu chính Viễn thông, Cán bộ Phòng Đào tạo của trường đã nhiệt tình giúp đỡ và tạo điều kiện thuận lợi để tôi có được môi trường học tập tốt và hoàn tất khóa học
Xin gửi lời biết ơn vô hạn đến gia đình đã không ngừng quan tâm, động viên, ủng hộ về mặt tinh thần lẫn vật chất trong suốt thời gian tôi tham gia khóa học và thực hiện luận văn này
Cảm ơn các anh chị lớp Cao học Hệ thống thông tin khóa 2015 - 2017 đã giúp đỡ và đồng hành cùng tôi trong những năm tháng học tập tại nhà trường
Tp Hồ Chí Minh, ngày 31 tháng 05 năm 2017
Học viên thực hiện luận văn
Trần Thanh Tuấn
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CÁM ƠN ii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v
DANH SÁCH BẢNG vi
DANH SÁCH CÁC HÌNH VẼ vii
MỞ ĐẦU 1
CHƯƠNG 1 - TỔNG QUAN VỀ DEEP LEARNING VÀ BÀI TOÁN NHẬN DIỆN HÀNH ĐỘNG TRONG THỊ GIÁC MÁY TÍNH 3
1.1 Tổng quan về Deep Learning 3
1.1.1 Deep Learning là gì? 3
1.1.2 Mạng nơron nhân tạo 3
1.1.3 Một số ứng dụng của Deep Learning 4
1.2 Bài toán nhận diện hành động trong thị giác máy tính 5
1.2.1 Tổng quan thị giác máy tính 5
1.2.2 Nhận diện hành động của con người 6
1.3 Mục đích nghiên cứu 8
1.4 Đối tượng và phạm vi nghiên cứu 8
1.5 Phương pháp nghiên cứu 9
CHƯƠNG 2 - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 10
2.1 Giới thiệu Convolutional Neural Network 10
2.1.1 Tổng quan 10
2.1.2 Kiến trúc CNN 10
Trang 62.1.3 Lan truyền ngược 11
2.2 Vấn đề Overfitting và Underfitting 12
2.2.1 Overfitting và Underfitting 12
2.2.2 Cách giải quyết 15
2.3 Các giải thuật Optimization 15
2.3.1 Các giải thuật cơ bản 15
2.3.2 Các giải thuật dựa vào chiến lược lựa chọn Learning Rate 17
2.3.3 Lựa chọn giải thuật Optimization nào? 18
2.4 Thuật toán CNN trong nhận diện hành động 18
2.4.1 Thuật toán 18
2.4.2 Kiến trúc CNN được xem xét nghiên cứu 20
CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ 21
3.1 Giới thiệu TensorFlow 21
3.2 Thông tin về bộ dữ liệu 21
3.3 Mô tả phương pháp thực nghiệm 22
3.3.1 Môi trường thực nghiệm 22
3.3.2 Tiền xử lý video 22
3.3.3 Quá trình huấn luyện mô hình CNN 23
3.4 Kết quả thực nghiệm 25
3.5 Nhận xét và đánh giá 26
KẾT LUẬN VÀ KIẾN NGHỊ 28
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 30
Trang 7DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
AI Artificial Intelligence Trí tuệ nhân tạo
CNN Convolution Neural Network Mạng nơron tích chập
CPU Central Processing Unit Bộ xử lý trung tâm
GPU Graphics Processing Unit Bộ xử lý đồ họa
API Application Programming Interface Giao diện lập trình ứng dụng
GD Gradient Descent
SGD Stochastic Gradient Descent
ANN Atificial Neural Network Mạng nơron nhân tạo
SVM Support Vector Machine Máy véc-tơ hỗ trợ
HOG Histogram of Oriented Gradients
HOF Histogram of Oriented Optical Flow
Trang 8DANH SÁCH BẢNG
Bảng 3.1: Số lượng Frame trong các tập dữ liệu của bộ dữ liệu KTH 23Bảng 3.2: Kết quả thực nghiệm 25
Trang 9DANH SÁCH CÁC HÌNH VẼ
Hình 1.1: Minh họa mạng nơron nhân tạo 4
Hình 1.2: Phân cấp các phương pháp nhận dạng hành vi của con người [1] 8
Hình 2.1: Lớp đầu tiên của một CNN 11
Hình 2.2: Ví dụ Underfitting 13
Hình 2.3: Ví dụ Fit 13
Hình 2.4: Ví dụ Overfitting 14
Hình 2.5: Kiến trúc của CNN trong nhận diện hành động con người 19
Hình 2.6: Quá trình chập và tổng hợp cực đại 19
Hình 2.7: Kiến trúc CNN được xem xét nghiên cứu 20
Hình 3.1: Bộ dữ liệu KTH 22
Hình 3.2: Mô tả chi tiết bộ dữ liệu KTH 23
Hình 3.3: Mô hình mạng CNN trong Tensorboard 24
Hình 3.4: Biểu đồ kết quả thực nghiệm 26
Hình 3.5: Confusion Matrix của lần kiểm tra tốt nhất 26
Trang 10MỞ ĐẦU
Ngày nay, dữ liệu video dễ dàng được ta ̣o ra bởi các thiết bi ̣ như: điện thoa ̣i
di động, máy tính xách tay, máy ảnh kỹ thuật số, các hệ thống camera quan sát (CCTV)…bên cạnh đó các trang web chia sẻ video cũng không ngừng tăng trưởng
về số lượng lẫn chất lượng
Bài toán nhận diện hành động của con người trong video đóng góp một phần
tự động hóa khai thác tài nguyên dữ liệu nhiều thông tin này Các ứng dụng liên quan đến bài toán nhận diện hành động như:
- An ninh và các hệ thống giám sát truyền thống gồm ma ̣ng lưới các camera và được giám sát bởi con người Với sự tăng lên của camera
cũng như các hệ thống này được triển khai nhiều đi ̣a điểm, dẫn đến
vấn đề hiệu quả và độ chính xác của người giám sát khi phải bao quát
hết toàn bộ hệ thống Nhiệm vu ̣ của thi ̣ giác máy tính là tìm ra giải pháp có thể thay thế hoặc hỗ trợ người giám sát Tự động nhận ra các
bất thường từ các hệ thống giám sát là vấn đề thu hút khá nhiều nghiên cứ u Một ứng du ̣ng liên quan nữa, đó là tìm kiếm đoa ̣n video
hành động “quan tâm” từ cơ sở dữ liệu video lớn được lưu trữ bởi các hệ thống giám sát
- Tương tác giữa người và máy vẫn còn nhiều thách thức, những dấu hiệu thị giác là phương thức quan tro ̣ng nhất giao tiếp phi ngôn ngữ Khai thác hiệu quả phương thức giao tiếp này: Thông qua cử chỉ, hành động, hoa ̣t động hứa he ̣n ta ̣o ra thế hệ máy tính tương tác chính xác và
tự nhiên hơn với con người Một ứng dụng điển hình trong lĩnh vực
này là “ngôi nhà thông minh”, phản ứng thông minh với cử chỉ, hành động của người sử dụng Tuy nhiên những ứng dụng này vẫn chưa đủ hoàn chỉnh và vẫn đang thu hút nhiều nghiên cứu
- Bên cạnh đó nhận diện hành động của con người trong video còn được ứng du ̣ng trong tóm tắt, truy vấn video, phân tích thể thao
Trang 11Deep Learning là một chủ đề Trí truệ nhân tạo, tập trung giải quyết các vấn
đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp các công nghệ như nhận diện
giọng nói, thị giác máy tính và xử lý ngôn ngữ tự nhiên…
Đã có nhiều nghiên cứu về bài toán nhận diện hành động của con người
trong video như: nhóm tác giả Karpathy, Toderici, Shetty, Leung, Sukthankar &
Fei-Fei sử dụng CNNs để phân loại Video theo hành động của con người [5], hoặc
nhóm tác giả Ji, Xu, Yang, & Yu sử 3D CNN để nhận diện hành động con người
[4]
Vì lý do đó, luận văn này nghiên cứu ứng dụng Deep Learning vào bài toán
nhận diện hành động của con người trong video, đồng thời đề xuất cải tiến các tham
số đầu vào của thuật toán để tăng hiệu quả nhận diện so với các thuật toán hiện tại
Nội dung luận văn gồ m 3 chương: Chương 1 giới thiệu tổng quan về deep
learning và bài toán nhận diện hành động trong thị giác máy tính Chương 2 giới
thiệu ứng dụng deep learning trong nhận diện hành động con người, bao gồm tổng
quan, thuật toán CNN và các giải thuật Optimization trong Deep Learning Khái
quát về mạng nơron trong xử lý ảnh và nêu kiến trúc mạng CNN được xem xét
trong nghiên cứu Chương 3 thực nghiệm và đánh giá kiến trúc mạng được nghiên
cứu Bao gồm mô tả về dữ liệu và giải thuật được nghiên cứu Cách thực nghiệm
cho các mô hình, sau đó đánh giá độ chính xác của các giải thuật
Trang 12CHƯƠNG 1 - TỔNG QUAN VỀ DEEP LEARNING
VÀ BÀI TOÁN NHẬN DIỆN HÀNH ĐỘNG
TRONG THỊ GIÁC MÁY TÍNH
1.1 Tổng quan về Deep Learning
1.1.1 Deep Learning là gì?
Deep Learning là một chủ đề Trí truệ nhân tạo (AI) và là một phạm trù nhỏ của máy học Deep Learning tập trung giải quyết các vấn đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp các công nghệ như nhận diện giọng nói, thị giác máy tính và xử lý ngôn ngữ tự nhiên
Deep Learning đang trở thành một trong những lĩnh vực quan trọng trong khoa học máy tính Chỉ trong vài năm, Deep Learning đã thúc đẩy tiến bộ trong đa
dạng các lĩnh vực như nhận thức sự vật (object perception), dịch tự động (machine translation), nhận diện giọng nói - đó là những vấn đề từng rất khó khăn với các
nhà nghiên cứu trí tuệ nhân tạo
1.1.2 Mạng nơron nhân tạo
Trong công nghệ thông tin, mạng nơron nhân tạo là một hệ thống các chương trình và cấu trúc dữ liệu mô phỏng cách vận hành của não người Một mạng nơron như vậy thường bao gồm một lượng lớn các vi xử lý hoạt động song song, mỗi vi
xử lý chứa đựng một vùng kiến thức riêng và có thể truy cập vào các dữ liệu trong
bộ nhớ riêng của mình
Trang 13Hình 1.1: Minh họa mạng nơron nhân tạo
Trong mạng nơron nhân tạo (ví dụ hình 1.1), các nơron chính là các node
(node là đơn vị nơron trong mạng nơron nhân tạo – mỗi chiếc máy tính trong mạng nơron có thể được xem như 1 node) được kết nối với nhau trong một mạng lưới lớn
Bản thân từng node này chỉ trả lời được những câu hỏi hết sức cơ bản chứ không hề thông minh, nhưng khi được gộp chung với nhau thì chúng lại có sức mạnh xử lý được cả những tác vụ khó Và điều quan trọng ở đây là bằng những thuật toán phù hợp, chúng ta có thể dạy và huấn luyện được chúng
1.1.3 Một số ứng dụng của Deep Learning
Trang 141.1.3.2 Nhận diện hình ảnh
Mục tiêu của công nghệ nhận diện ảnh là nhận biết và xác định các đối tượng trong ảnh cũng như hiểu được nội dung và ngữ cảnh trong đó Công nghệ nhận diện hình ảnh cũng được đưa vào Facebook để gợi ý người dùng tag mặt bạn bè hay ứng dụng vào khoa học tội phạm và điều tra
1.1.3.3 Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh
của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp Một số ứng dụng của xử lý ngôn ngữ tự nhiên như: nhận dạng chữ viết tay, nhận dạng tiếng nói, dịch tự động, tìm kiếm thông tin, khai phá dữ liệu
1.2 Bài toán nhận diện hành động trong thị giác máy tính
1.2.1 Tổng quan thị giác máy tính
Thị giác máy tính (Computer Vision) là một lĩnh vực đã và đang rất phát triển Khái niệm thị giác máy tính có liên quan tới nhiều ngành học và hướng nghiên cứu khác nhau Từ những năm 1970 khi mà năng lực tính toán của máy tính ngày càng trở nên mạnh mẽ hơn, các máy tính lúc này có thể xử lý được những tập
dữ liệu lớn như các hình ảnh, các đoạn phim thì khái niệm và kỹ thuật về thị giác máy tính ngày càng được nhắc đến và nghiên cứu nhiều hơn cho tới ngày nay Hiện tại lĩnh vực được các chuyên gia đánh giá là vẫn còn “non nớt” và có rất nhiều sự thay đổi trong thời gian tới
1.2.1.1 Thế nào là thị giác máy tính
Thị giác máy tính bao gồm lý thuyết và các kỹ thuật liên quan nhằm mục đích tạo ra một hệ thống nhân tạo có thể tiếp nhận thông tin từ các hình ảnh thu được hoặc các tập dữ liệu đa chiều Đối với mỗi con người chúng ta, quá trình nhận thức thế giới bên ngoài là một điều dễ dàng Quá trình nhận thức đó được “học” thông qua quá trình sống của mỗi người Tuy nhiên với các vật vô tri vô giác như
Trang 15như các máy tính, robot… thì điều đó quả thực là một bước tiến rất gian nan Các thiết bị ngày nay không chỉ nhận thông tin ở dạng tín hiệu đơn lẻ mà nay còn có thể
có cái “nhìn” thật với thế giới bên ngoài Cái “nhìn” này qua quá trình phân tích, kết hợp với các mô hình như máy học, mạng nơron… sẽ giúp cho thiết bị tiến dần tới một hệ thống nhân tạo có khả năng ra quyết định linh hoạt và đúng đắn hơn rất nhiều
1.2.1.2 Ứng dụng của thị giác máy tính
Lĩnh vực nghiên cứu của thị giác máy tính rất rộng, và đặc điểm chung là các bài toán về thị giác máy tính đều không có một đề bài chung và cách giải duy nhất Mỗi giải pháp giải quyết vấn đều được một kết quả nhất định cho những trường hợp
cụ thể
Một vài lĩnh vực mà Computer Vision được ứng dụng có thể kể tới như sau:
- Điều khiển tiến trình (ví dụ: trong các robot công nghiệp, hay các thiết
bị, xe tự hành)
- Phát hiện sự thay đổi (ví dụ: các thiết bị giám sát)
- Tổ chức thông tin (ví dụ: chỉ số kho dữ liệu các ảnh hoặc chuỗi ảnh liên tục)
- Mô hình hoá đối tượng (ví dụ: quá trình kiểm tra trong môi trường công nghiệp, xử lý ảnh trong y học)
- Tương tác (đóng vai trò làm đầu vào cho thiết bị trong quá trình tương tác giữa người và máy)
1.2.2 Nhận diện hành động của con người
Nhận diện hành động của con người là một lĩnh vực nghiên cứu rộng rãi trong thị giác máy tính Các ứng dụng của nó bao gồm các hệ thống giám sát, phân tích video, robot và một loạt các hệ thống có liên quan đến sự tương tác giữa người
và các thiết bị điện tử như giao diện người-máy tính
Trang 16Nhận diện hành động của con người được phát triển bắt đầu vào đầu năm
1980 Hiện nay, các nghiên cứu chủ yếu tập trung vào việc học và nhận biết các hành động từ chuỗi video
Một hành động là một chuỗi các chuyển động cơ thể con người, và có thể bao gồm nhiều bộ phận cơ thể đồng thời Từ quan điểm của thị giác máy tính, việc nhận dạng hành động này là để phù hợp với các quan sát (ví dụ: video) với các mẫu được xác định trước đó và sau đó gán cho nó một nhãn là loại hành động Tùy thuộc vào độ phức tạp, hoạt động của con người có thể được phân loại thành bốn cấp độ:
cử chỉ, hành động, tương tác và hoạt động của nhóm [1], và nhiều nghiên cứu theo hướng một cấu trúc từ dưới lên về nhận dạng hoạt động của con người Các phần chính của hệ thống như vậy bao gồm trích xuất đặc trưng, học tập hành động, phân loại, nhận dạng hành động và phân đoạn [6] Một quy trình đơn giản gồm ba bước,
cụ thể là phát hiện của con người hoặc các bộ phận cơ thể, theo dõi, và sau đó nhận bằng cách sử dụng kết quả theo dõi Ví dụ, để nhận ra hành động “bắt tay”, cánh tay
và bàn tay của hai người được phát hiện trước tiên và theo dõi để tạo ra một mô tả không gian-thời gian của chuyển động của họ Mô tả này được so sánh với các mẫu hiện có trong dữ liệu huấn luyện để xác định loại hành động Mô hình này dựa rất nhiều vào tính chính xác của việc theo dõi, điều này không đáng tin cậy trong những cảnh lộn xộn
Nhiều phương pháp đã được đề xuất, và có thể được phân loại theo nhiều tiêu chí khác nhau như trong bài luận điều tra hiện có Poppe [6] thảo luận nhận dạng hành động của con người từ biểu diễn hình ảnh và phân loại hành động riêng
rẽ Weinland [8] khảo sát các phương pháp cho biểu diễn hành động, phân đoạn và nhận dạng Turaga [7] chia vấn đề nhận dạng thành hành động và hoạt động theo độ phức tạp, và các hướng tiếp cận phân loại theo khả năng của mình để xử lý các mức
độ phức tạp khác nhau Có nhiều tiêu chí phân loại khác nhau [1], [2], [3] Trong số
đó, Aggarwal và Ryoo [1] là một trong những tổng kết toàn diện mới nhất và so sánh của sự tiến bộ quan trọng nhất trong lĩnh vực này Dựa vào hành động được nhận dạng từ hình ảnh đầu vào trực tiếp, Aggarwal và Ryoo [1] phân chia các
Trang 17phương pháp nhận dạng thành hai loại chính: phương pháp tiếp cận đơn lớp và phương pháp tiếp cận phân cấp Cả hai đều là thêm loại con phụ thuộc vào các phương pháp biểu diễn đặc trưng và học
Hình 1.2: Phân cấp các phương pháp nhận dạng hành vi của con người [1]
1.3 Mục đích nghiên cứu
Luận văn nhận diện hành động của con người trong video sử dụng Deep Learning trên cơ sở đề xuất các cải tiến trên các thuật toán Deep Learning trong nhận diện hành động con người
Hiện thực hoá thuật toán cải tiến trong luận văn sử dụng thư viện TensorFlow và ngôn ngữ Python
Với phương pháp được đề xuất luận văn góp phần nâng cao hiệu quả việc nhận diện hành động của con người trong video
1.4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
Nghiên cứu các vấn đề về nhận diện hành động của con người trong video: Lịch sử vấn đề, nhận diện hành động của con người, các thuật toán Deep Learning
đã và đang được nghiên cứu
Human activity recognition
layered approaches
Single-Space-time approaches
Space-time
volume Trajectories
Space-time features
Sequential approaches
based State-based
Exemplar-Hierachical approaches
Statistical Syntatic
Description-based
Trang 181.5 Phương pháp nghiên cứu
Tìm kiếm, chọn lọc và đọc các tài liệu liệu quan về nhận diện hành động của con người và các phương pháp nhận diện của các tác giả trong ngoài nước đã và đang nghiên cứu Từ đó rút ra các kiến thức cần thiết để hoàn thành nhiệm vụ nghiên cứu đã đặt ra ở trên
Xây dựng chương trình minh họa để huấn luyện, kiểm tra trên bộ dữ liệu mẫu
Trang 19CHƯƠNG 2 - ỨNG DỤNG DEEP LEARNING
TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI
2.1 Giới thiệu Convolutional Neural Network
2.1.1 Tổng quan
Convolutional Neural Network (CNN) bao gồm một hoặc nhiều lớp chập (thường với một bước lấy mẫu con) và sau đó theo sau bởi một hoặc nhiều hơn các lớp kết nối như trong một mạng nơron đa lớp chuẩn Kiến trúc của một CNN được thiết kế để tận dụng lợi thế của cấu trúc 2 chiều của một hình ảnh đầu vào (hoặc đầu vào 2 chiều khác như một tín hiệu tiếng nói) Điều này đạt được với các kết nối cục
bộ và trọng số ràng buộc theo một số hình thức tổng hợp mà kết quả là các đặc trưng không thay đổi Một lợi ích khác của CNN là dễ dàng huấn luyện hơn và có ít thông số so với các mạng kết nối đầy đủ với cùng một số đơn vị ẩn
2.1.2 Kiến trúc CNN
CNN gồm một số lớp chập và lớp lấy mẫu con tùy chọn, tiếp theo là các lớp
kết nối Đầu vào cho một lớp chập là một hình ảnh m × m × r, với m là chiều cao và chiều rộng của hình ảnh và r là số kênh (ví dụ một ảnh RGB có r=3) Lớp chập sẽ
có k bộ lọc có kích thước n × n × q, trong đó n nhỏ hơn kích thước hình ảnh và q có thể bằng hoặc nhỏ hơn số kênh r Kích thước của các bộ lọc tăng đến cấu trúc kết nối cục bộ, trong đó mỗi bộ lọc xoắn với hình ảnh để tạo ra k bản đồ đặc trưng có kích thước m – n + 1 Mỗi bản đồ được lấy mẫu con đặc trưng với việc hợp nhất trung bình hoặc lớn nhất trên p × p khu vực lân cận, trong đó phạm vi của p là giữa
2 (cho các hình ảnh nhỏ) và 5 (cho các đầu vào lớn hơn) Trước hoặc sau khi lấy mẫu con, một bias bổ sung và xích ma phi tuyến được áp dụng cho mỗi bản đồ đặc trưng