Lý do chọn đề tài Tự động điểm danh học sinh sử dụng thuật toán nhận dạng ảnh là một đề tài rất thú vị và tiềm năng, đặc biệt là trong bối cảnh sử dụng công nghệ để cải thiện quản lý giá
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA – VŨNG TÀU
- -
VẬN DỤNG THUẬT TOÁN NHẬN DẠNG ẢNH ĐỂ ĐIỂM DANH HỌC SINH TRONG LỚP HỌC TẠI
TRƯỜNG THPT
GVHD: PGS.TS.TRẦN MẠNH HÀ HVTH : Nguyễn Hoàng Thanh MSHV : 20110184
Lớp: MIT20K2
Bà Rịa – Vũng Tàu, tháng 09/2023
Trang 2LỜI CAM ĐOAN
Đầu tiên tôi xin cam đoan kết quả có được trong luận văn này là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi với sự hướng dẫn nghiên cứu khoa học của thầy
PGS.TS.Trần Mạnh Hà Những nội dung được nghiên cứu, thực nghiệm trong luận
văn này là hoàn toàn trung thực và trước đây chưa được công bố dưới bất kỳ hình thức nào
Toàn bộ nội dung trong luận văn này của cá nhân tôi nghiên cứu hoặc là được trích xuất tổng kết từ các nguồn tài liệu mà tôi sưu tập được Đồng thời, các tài liệu mà tôi tham khảo đều có nguồn rõ ràng và được cung cấp sử dụng hợp pháp
Tôi xin hoàn toàn chịu trách nhiệm và chấp nhận mọi hình thức kỷ luật của nhà trường theo quy định nếu vi phạm lời cam đoan của mình
Học viên Cao học
Trang 3LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân chân thành và sâu sắc nhất tới thầy hướng dẫn PGS.TS Trần Mạnh Hà về những hướng dẫn chuyên môn của thầy trong suốt quá trình làm luận văn để tôi có thể hoàn thiện bản luận văn cuối khoá này
Ngoài ra tôi còn gởi lời cảm ơn đến tập thể cán bộ - giảng viên của trường Đại học
Bà Rịa-Vũng Tàu đã hỗ trợ và tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập tại trường
Luận văn này vẫn sẽ không tránh khỏi những sai sót, thiếu sót Do nhiều điều kiện khách quan và chủ quan, Mặc dù tôi đã hết sức cố gắng và nghiêm túc thực hiện Kính mong nhận được sự thông cảm, chỉ bảo tận tình của quý thầy cô trong hội đồng đánh giá luận văn
Tôi xin chân thành cảm ơn!
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC HÌNH ẢNH – SƠ ĐỒ vi
DANH MỤC CÁC TỪ VIẾT TẮT ix
CHƯƠNG I: TỔNG QUAN ĐỀ TÀI VÀ NỘI DUNG 1
1.1 Lý do chọn đề tài 1
1.2 Mục tiêu của luận văn 2
1.3 Đối tượng và phạm vi nghiên cứu 2
1.4 Cấu trúc luận văn 2
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ ẢNH SỐ, MACHINE LEARNING - DEEP LEARNING VÀ CÁC PHƯƠNG PHÁP GIÚP PHÁT HIỆN KHUÔN MẶT VÀ NHẬN DIỆN GƯƠNG MẶT NGƯỜI TRÊN ẢNH 4
1 Cở sở lý thuyết về xử lý ảnh số, xử lý các vấn đề trong xử lý ảnh [1][4][15][33] 4
1.1 Cơ sở lý thuyết xử lý ảnh 4
1.2 Các Khía cạnh Cơ bản của Xử lý Hình ảnh 5
1.2.1 Hình ảnh Số và Điểm ảnh 5
1.2.2 Nắn chỉnh biến dạng 7
1.2.3 Phương pháp khử nhiễu ảnh 9
1.2.4 Phương pháp điều chỉnh mức xám của ảnh 9
1.2.5 Biên 10
1.2.6 Phương pháp nhận dạng [14] 11
1.2.7 Nén ảnh 12
2 Một số kỹ thuật xử lý ảnh số [5] 12
2.1 Các phương pháp xử lý ảnh nhiễu 12
2.1.1 Kỹ thuật trung bình 12
2.1.2 Phương pháp trung vị 13
2.1.3 Phương pháp thông thấp 15
2.1.4 Kỹ thuật lọc thông cao 15
2.2 Phương pháp sử dụng các điểm biên 16
2.3 Một số kĩ thuật phát hiện biên 17
2.3.1 Kỹ thuật gradient 17
2.3.2 Kỹ thuật Laplace 17
Trang 52.3.3 Kỹ thuật sobel 18
2.3.4 Kỹ thuật prewitt 19
3 Machine Learning [2][3][18] 19
4 Deep Learning [2][3][6] 20
4.1 Các khái niệm 20
4.2 Phương thức hoạt động của học sâu 21
4.3 Các ứng dụng phổ biến của học sâu trong xử lý ảnh 22
4.3.1 Hiển thị màu trên ảnh 22
4.3.2 Kỹ thuật nhận dạng gương mặt 22
4.4 Phân loại đối tượng và người thông qua các đặc điểm 23
4.5 Các phương pháp nhận dạng đối tượng được sử dụng hiện nay [7-9] [11-13] 24
4.5.1 Phân loại dựa trên Đặc trưng 24
4.5.2 Nhận dạng dựa trên mô hình 24
4.5.3 Nhận dạng đối tượng dựa trên so khớp mẫu 25
4.5.4 Nhận dạng đối tượng dựa trên diện mạo (Face Recognition) 25
4.6 Một số kỹ thuật phát hiện người [30-32] 26
4.7 Kỹ thuật phát hiện đối tượng bằng mạng thần kinh tích chập 28
4.7.1 Lớp tích chập (Convolution Layer) 29
4.7.2 Lớp chuyển đổi (ReLU Layer) 32
4.7.3 Lớp tổng hợp (Pooling Layer) 33
4.7.4 Lớp kết nối đầy đủ (Fully-Connected Layer) 33
4.7.5 Các bước thực hiện nhận dạng đối tượng bằng mạng thần kinh tích chập 34
5 Sử dụng thuật toán MTCNN để phát hiện gương mặt 35
5.1 Mạng nơ ron P-Net 36
5.2 Mạng nơ ron R-Net 37
5.3 Mạng nơ ron O-Net 38
5.4 Phương thức tăng cường chất lượng dữ liệu của MTCNN 39
5.4.1 Xác định tọa độ hai mắt và phân loại vị trí mắt 41
5.4.2 Xác định góc xoay ảnh 42
6 Kỹ thuật nhận diện gương mặt và định danh sử dụng Facenet 43
6 1 Giới thiệu về nhận dạng gương mặt 43
6 2 Nhận dạng gương mặt với thuật toán FaceNet 44
6.3 Thuật toán Triplet Loss 45
Trang 66.4 Phương pháp đo độ tương tự (cosine similarity) 48
CHƯƠNG 3 GIẢI PHÁP ĐIỂM DANH HỌC SINH SỬ DỤNG KỶ THUẬT NHẬN DẠNG ĐỐI TƯỢNG KẾT HỢP 50
1 Giải pháp cho bài toán điểm danh học sinh 50
1.1 Bài toán đặt ra 50
1.2 Phương pháp giải quyết bài toán 51
2 Xây dựng mô hình nhận dạng gương mặt 52
2.1 Thu thập mẫu dữ liệu 52
2.2 Thu thập ảnh điểm danh 53
2.3 Phát hiện khuôn mặt từ ảnh dữ liệu vào 55
2.4 Tiến hành nhận dạng khuôn mặt với ảnh mẫu: 57
3 Dữ liệu thu thập 59
3.1 Dữ liệu ảnh mẫu để thực hiện huấn luyện: 60
3.2 Dữ liệu đầu vào để thực hiện lấy khuôn mặt 60
4 Các yếu tố để mô hình đạt được hiệu quả 61
4.1 Một số quy tắc cần thực hiện 61
4.2 Các trường hợp phát hiện và nhận dạng sai 62
Chương 4 QUY TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM VIỆC ÁP DỤNG TRONG THỰC TẾ TẠI LỚP HỌC 62
1 Cài đặt thực nghiệm 62
2 Cấu trúc chương trình chính 63
3 Quy trình hoạt động hệ thống 63
3.1 Mô tả quy trình lấy mẫu điểm danh ban đầu 64
3.2 Mô tả quy trình lấy dữ liệu đầu vào – đầu ra 65
3.3 Mô tả quy trình điểm danh 67
4 Kết quả của quá trình thực nghiệm 68
4 Đánh giá kết quả quá trình thực nghiệm 70
5 Kết luận và phương hướng phát triển đề tài 72
PHỤ LỤC 74
TÀI LIỆU THAM KHẢO 79
Trang 7DANH MỤC HÌNH ẢNH – SƠ ĐỒ
Hình ảnh 1.1 Quy trình xử lý ảnh 4
Hình ảnh 1.2 Mô hình quá trình xử lý ảnh 4
Hình ảnh 1.3 Bảng thông số màu ảnh xám 5
Hình ảnh 1.4 Bảng thông số ảnh màu 6
Hình ảnh 1.5 Ảnh số hóa 6
Hình ảnh 1.6 Độ phân giải của ảnh 7
Hình ảnh 1.7 Ảnh thực tế và ảnh mong muốn 7
Hình ảnh 1.8 Mẫu ảnh được khử nhiễu 9
Hình ảnh 1.9 Kết quả chỉnh xám ảnh 10
Hình ảnh 1.10 Mô hình các đường biên 11
Hình ảnh 1.11 Vận dụng phương pháp biến đổi để nén ảnh 12
Hình ảnh 1.12 Mô hình lọc thông cao 15
Hình ảnh 1.13 Các phương pháp học máy 20
Hình ảnh 1.14 Mối quan hệ của Deep Learning với các lĩnh vực liên quan 21
Hình ảnh 1.15 Mô hình học sâu 21
Hình ảnh 1.16 Công nghệ nhận diện gương mặt 22
Hình ảnh 1.17 Biểu đồ hệ số wavelet trong hệ không gian 3 chiều 27
Hình ảnh 1.18 Mô tả điểm đặc trưng HOG 27
Hình ảnh 1.19 HOG person dectectors cho kết quả không tốt khi tìm người 28
Hình ảnh 2.1Mảng ma trận RGB 29
Hình ảnh 2 2 Mô hình mạng nơ-ron với nhiều lớp chập 29
Hình ảnh 2 3 Ma trận ảnh nhân ma trận bộ lọc 30
Hình ảnh 2 4 Xác định feature map 30
Hình ảnh 2 5 Giới thiệu một số bộ lọc phổ biến 31
Hình ảnh 2 6 Quá trình thực hiện tích chập sải bước 2 pixel 32
Hình ảnh 2 7 Hàm kích hoạt ReLU 32
Hình ảnh 2 8 Max Pooling 33
Hình ảnh 2 9 Lớp tổng hợp và ma trận gộp lớp, làm phẳng thành lớp FC 34
Trang 8Hình ảnh 2 10 Kiến trúc lớp kết nối đầy đủ hoàn chỉnh 34
Hình ảnh 2 11 Kết quả ảnh có được sau khi thực hiện thuật toán MTCNN 35
Hình ảnh 2 12 Bộ 3 mô hình của MTCNN gồm P-Net, R-Net và O-Net 36
Hình ảnh 2 13 Sơ đồ mang P-Net 36
Hình ảnh 2 14 Kim tự tháp ảnh 37
Hình ảnh 2 15 Sơ đồ mạng lọc (R-Net) 38
Hình ảnh 2 16 Kết quả tầng R-Net 38
Hình ảnh 2 17 Mạng đầu ra (O-Net)[30] 39
Hình ảnh 2 18 Kết quả tầng O-Net 39
Hình ảnh 2 19 Các bước cần thực hiện để canh chỉnh ảnh 40
Hình ảnh 2 20 Kết quả của việc thực hiện canh chỉnh ảnh 41
Hình ảnh 2 21 Xác định tọa độ tâm 2 mắt và đường nối tâm của 2 mắt 41
Hình ảnh 2 22 Xác định góc xoay ảnh và hướng xoay ảnh 42
Hình ảnh 2 23 được xoay theo hướng thuận chiều kim đồng hồ 43
Hình ảnh 2 24 Mô hình chung bài toán nhận dạng gương mặt người 44
Hình ảnh 2 25 Minh hoạ bộ ba sai số 46
Hình ảnh 2 26 Minh họa về quá trình sau huấn luyện 48
Hình ảnh 3 1 Sơ đồ hoạt động giải pháp điểm danh học sinh 52
Hình ảnh 3 2 Từ ảnh chụp mẫu vận dụng thuật toán MTCNN để phát hiện và lấy khuôn mặt theo chuẩn 53
Hình ảnh 3 3 Bộ ảnh được lấy thời điểm vào lớp 54
Hình ảnh 3 4 Bộ ảnh được lấy khi học sinh trong lớp học 54
Hình ảnh 3 5 Bộ ảnh được lấy khi học sinh rời khỏi lớp 55
Hình ảnh 3 6 Thông qua thuật toán MTCNN để phát hiện khuôn mặt 56
Hình ảnh 3 7 Khuôn mặt được cắt ra và canh chỉnh từ các ảnh dữ liệu 57
Hình ảnh 3 8 Đối chiếu ảnh bằng thuật toán Facenet để thực hiện điểm danh 58
Hình ảnh 3 9 Sơ đồ mô tả cấu trúc dữ liệu mô hình điểm danh ảnh 59
Hình ảnh 3 10 Thư mục ảnh khuôn mặt trích xuất từ ảnh mẫu 60
Bảng 3 11 Số lượng mẫu dữ liệu tập huấn 60
Trang 9Bảng 3 12 Số ảnh dữ liệu tối thiểu để điểm danh 60
Hình ảnh 3 13 Các góc đặt camera làm che khuất học sinh và ảnh ngược sáng 61
HÌnh ảnh 3 14 Học sinh không lấy được khuôn mặt làm dữ liệu mẫu 62
Hình ảnh 3 15 Danh sách lớp lưu theo vị trí 64
Hình ảnh 3 16 Chụp ảnh học sinh lấy mẫu 65
Hình ảnh 3 17 Tự động lấy mẫu khuôn mặt từ ảnh mẫu 65
Hình ảnh 3 18 Góc lắp camera để lấy được ảnh học sinh đang trong tiết học 66
Hình ảnh 3 19 Góc lắp camera để lấy được ảnh học sinh vào lớp học 66
Hình ảnh 3 20 Các khuôn mặt được trích xuất từ dữ liệu ảnh 67
Hình ảnh 3 21 Sơ đồ hoạt động của hệ thống 69
Hình ảnh 3 22 Kết quả giao diện điểm danh 70
Hình ảnh 3 23 Bảng phân bổ mật độ tỷ lệ chính xác của hệ thống 71
Hình ảnh 3 24 Bảng phân bổ độ chính xác không cao của hệ thống 71
Hình ảnh 3 25 Các ảnh có hiệu xuất nhận dạng không cao 72
Trang 10DANH MỤC CÁC TỪ VIẾT TẮT
1 CNN Convolutional Neural Networks
2 SVM Support Vector Machine
3 R-CNN Regional Convolutional Neural Network
4 FPS Frame per second
5 HOG Histogram of Oriented gradient
6 SMS Short Message Services
7 SSD Single Shot detectors
8 BR-VT Bà Rịa – Vũng Tàu
9 FPN Feature Pyramid Networks
10 AI Artificial intelligence
11 MTCNN Multi-task Cascaded Convolutional Networks
12 RGB Red, green, and blue
Trang 11CHƯƠNG I: TỔNG QUAN ĐỀ TÀI VÀ NỘI DUNG 1.1 Lý do chọn đề tài
Tự động điểm danh học sinh sử dụng thuật toán nhận dạng ảnh là một đề tài rất thú vị và tiềm năng, đặc biệt là trong bối cảnh sử dụng công nghệ để cải thiện quản lý giáo dục Một số nét đặc trưng tiêu biểu của đề tài:
Tiết kiệm thời gian và công sức: Quá trình điểm danh thủ công mất nhiều thời gian
và nguồn lực từ giáo viên và nhân viên Sử dụng thuật toán nhận dạng ảnh giúp tự động hóa quy trình này, tiết kiệm thời gian và giúp giáo viên tập trung vào công việc giảng dạy
Tăng độ chính xác: Sự nhầm lẫn trong việc điểm danh thủ công có thể xảy ra, đặc biệt trong các lớp học đông đúc Sử dụng thuật toán nhận dạng ảnh giúp tăng độ chính xác trong việc xác định danh tính của học sinh
Tạo trải nghiệm tốt hơn cho học sinh: Việc học sinh không cần phải tham gia quá trình điểm danh thủ công có thể tạo ra trải nghiệm tích cực hơn cho họ Điều này có thể thúc đẩy tinh thần tham gia và tạo ra môi trường học tập tích cực
Tích hợp công nghệ vào giáo dục: Sử dụng công nghệ như thuật toán nhận dạng ảnh giúp trường hợp tích hợp công nghệ vào quản lý giáo dục, mang lại sự hiện đại và tạo sự tương tác giữa học sinh và công nghệ
Nâng cao hiệu quả quản lý: Việc tự động hóa việc điểm danh giúp nhà trường có cái nhìn toàn diện về việc tham gia học tập của học sinh, từ đó nâng cao hiệu quả quản
lý và đưa ra các biện pháp cải thiện nếu cần
Áp dụng thực tế của công nghệ: Đề tài này kết hợp giữa việc áp dụng công nghệ nhận dạng ảnh và giải quyết vấn đề thực tế trong giáo dục Điều này có thể góp phần nâng cao hình ảnh của trường học trong việc sử dụng công nghệ tiên tiến
Tóm lại, lý do chọn đề tài này đến từ sự cần thiết và tiềm năng trong việc cải thiện quy trình quản lý giáo dục, tạo sự tiện ích cho giáo viên và học sinh, và đồng thời thể hiện sự tích hợp của công nghệ vào lĩnh vực giáo dục
Trang 121.2 Mục tiêu của luận văn
- Mục tiêu tổng quát:
Thông qua các thuật toán về nhận dạng để hỗ trợ việc quản lý, phát hiện và thống
kê số lượng học sinh trong lớp học của từng tiết học
- Mục tiêu cụ thể:
+ Tiến hành tạo dựng mô hình phát hiện đối tượng trên ảnh tĩnh sử dụng mạng thần kinh tích chập (CNN),cụ thể hơn là thuật toán MTCNN kết hợp thuật toán nhận dạng nhận dạng gương mặt Cụ thể ở đây là khuôn mặt học sinh
+ Tiến hành tạo dựng mô hình thống kê số lượng gương mặt học sinh trong lớp + Vận dụng mô hình để phát hiện và nhận dạng học sinh trên camera trong thời gian thực trong tiết học tại các lớp học của trường THPT Đinh Tiên Hoàng
+ Điểm đặc trưng của đề tài này là tôi sử dụng phương pháp nhận dạng kết hợp được mô tả chi tiết trong nội dung luận văn
1.3 Đối tượng và phạm vi nghiên cứu
- Luận văn nghiên cứu phương pháp nhận dạng gương mặt học sinh trong lớp học
và thống kê số lượng thông qua ảnh tĩnh từ hệ thống camera trong lớp học
- Nghiên cứu ứng dụng trong phạm vi các lớp học trường THPT Đinh Tiên Hoàng
1.4 Cấu trúc luận văn
Chương 1: Tổng quan đề tài và nội dung
Chương 2: Giới thiệu các cơ sở lý thuyết về xử lý ảnh số, Machine learning và
deep learning và các giải pháp nhận dạng phát hiện đối tượng trên ảnh
Chương 3: Giải pháp điểm danh học sinh sử dụng kỷ thuật nhận dạng kết hợp Chương 4: Kết quả thực nghiệm và ứng dụng trong thực tiễn hệ thống nhận dạng
điểm danh học sinh trong tiết học bằng cách sử dụng thuật toán Facenet Ứng dụng mô hình vào bài toán nhận diện điểm danh học sinh dựa vào hình ảnh camera trên lớp học
Trang 14CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ ẢNH SỐ, MACHINE LEARNING - DEEP LEARNING VÀ CÁC PHƯƠNG PHÁP GIÚP PHÁT HIỆN KHUÔN MẶT VÀ NHẬN DIỆN GƯƠNG MẶT NGƯỜI TRÊN ẢNH
1 Cở sở lý thuyết về xử lý ảnh số, xử lý các vấn đề trong xử lý ảnh
[1][4][15][33]
1.1 Cơ sở lý thuyết xử lý ảnh
Trong thời đại công nghệ 4.0 hiện nay, hệ thống camera được lặp đặt khắp nơi, do
đó nhu cầu nhận dạng ảnh và xử lý ảnh rất cần thiết Trong đó xử lý ảnh là việc xử lý từ ảnh đầu vào để cho ra ảnh tốt hơn như mong muốn Sao cho kết quả có được là một ảnh
“tốt hơn” hoặc là một kết luận theo yêu cầu như trong hình ảnh dưới đây:
Hình ảnh 1.1 Quy trình xử lý ảnh
Định nghĩa của một ảnh là một hàm hai chiều 𝑓 (𝑥, 𝑦) , trong đó (𝑥, 𝑦) là tọa độ không gian (mặt phẳng) độ sáng của ảnh tại điểm đó là Giá trị của hàm f tại điểm (x y) Tương tự với ảnh màu thì mỗi thành phần của nó sẽ thể hiện độ sáng của ảnh tại điểm
đó tương ứng với dải màu và f là một vector
Ta xác định được cách để xử lý một ảnh đầu vào như đã phân tích ở trên Mô hình một hệ thống xử lý ảnh như sau: tiền xử lý ➔ Trích chọn điểm đặc trưng ➔ Hậu xử lý
➔ Tiến hành lưu trữ ảnh hoặc hệ quyết định ➔ Rút ra kết luận từ việc
Hình ảnh 1.2 Mô hình quá trình xử lý ảnh
Trang 151.2 Các Khía cạnh Cơ bản của Xử lý Hình ảnh
1.2.1 Hình ảnh Số và Điểm ảnh
- Mỗi điểm ảnh (pixel) được định vị tại (x,y) và chứa thông tin về mức độ xám I(x,y)
+ Đối với hình ảnh trắng đen:
Với hàm hai chiều 𝑓(𝑥, 𝑦), tương ứng với (𝑥, 𝑦) là tọa độ không gian (mặt phẳng 𝑂𝑥𝑦) được định nghĩa là ảnh Mức độ sáng trên ảnh tại một điểm (𝑥, 𝑦) chính là giá trị của hàm f tại điểm (𝑥, 𝑦) Tương tự với ảnh màu, tại mỗi điểm (𝑥, 𝑦) mang giá trị thể hiện mức độ sáng của ảnh tại điểm tương ứng với dải màu
Hình ảnh 1.3 Bảng thông số màu ảnh xám
+ Đối với màu ảnh, ta xác định được bộ ba giá trị ứng với cường độ sáng của các màu đỏ, xanh lục, xanh dương (RGB)
Trang 16Hình ảnh 1.4 Bảng thông số ảnh màu
- Ảnh số hóa là hàm 𝑓 (𝑥, 𝑦)(với x y, là tọa độ và biên độ của hàm 𝑓 (𝑥, 𝑦) Ta có với cặp tọa độ (𝑥, 𝑦) bất kỳ là để chỉ độ xám tại điểm đó của hình ảnh Các giá trị mô tả mức độ của hàm 𝑓 thì gọi là ảnh kỹ thuật số và các cặp (𝑥, 𝑦) là đại lượng hữu hạn, rời rạc
Hình ảnh 1.5 Ảnh số hóa
- Một số lượng các hàng và cột tạo hữu hạn ra các phần tử gọi là điểm ảnh, hình ảnh kỹ thuật số chứa các điểm ảnh đó Giao của hàng cột tạo thành phần tử được gọi là pixel"
- số điểm (pixel) mà ảnh chứa trên một đơn vị khoảng cách (dpi) chính là độ phân giải của ảnh và đó là thước đo được dùng trong xử lý ảnh"
Trang 17Hình ảnh 1.6 Độ phân giải của ảnh
- Từ hình vẽ trên, chúng ta có thể suy ra độ phân giải của các hình ảnh khác nhau
Độ phân giải càng cao, hình ảnh sẽ càng chi tiết và rõ nét; ngược lại, độ phân giải thấp
sẽ dẫn đến hình ảnh mờ và ít chi tiết hơn Từ độ phân giải hình đầu tiên bên trái ở trên
ta sẽ xác định được ảnh đã cho có chiều rộng với 175 điểm ảnh (pixel) và chiều cao với
n
i i i
Trang 191.2.3 Phương pháp khử nhiễu ảnh
Hình ảnh 1.8 Mẫu ảnh được khử nhiễu
Do nhiều yếu tố khách quan và chủ quan, hình ảnh có thể bị nhiễu ngẫu nhiên trong quá trình lấy ảnh Do đó ta có thể thực hiện khử nhiễu ảnh bằng các mô hình hóa vấn đề được thể hiện ở dạng công thức như sau:
Một ảnh nhiễu ( )v x được tạo ra bao gồm ảnh gốc không chứa nhiễu ( )u x và hàm
lỗi gây nhiễu n x( ) Cho bởi công thức v x( )=u x( )+n x( ),
Vậy để khử nhiễu ta áp dụng 2 phương pháp chính là khử nhiễu cổ điển và thông qua các mô hình học sâu, cụ thể là mạng thần kinh tích hợp chập
1.2.4 Phương pháp điều chỉnh mức xám của ảnh
Mức xám là một dải liên tục như sau:
Trang 20Mức xám được điều chỉnh bằng phương pháp biến đổi Gamma
• Điều chỉnh giảm cường độ mức xám: Thực hiện kiểm tra các mức xám gần nhau
và tiến hành nhóm chúng thành một nhóm Ta thực hiện việc chuyển về ảnh đen trắng đối với trường hợp chỉ có 2 mức xám Ứng dụng phép xử lý để in ra ảnh từ máy in đen trắng với ảnh đầu vào là ảnh màu
• Điều chỉnh tăng cường độ mức xám: Ta tiến hành nội suy ra các mức xám sung quanh Phương pháp này giúp tăng cường độ mịn cho ảnh
Hình ảnh 1.9 Kết quả chỉnh xám ảnh
1.2.5 Biên
Để có thể phân tích được ảnh ta đều dựa phải vào biên của các đối tượng trong ảnh Đường biên là đường bao quanh các đối tượng trong ảnh Để xác định được chính xác biên của điểm ảnh ta phải tiến hành điều chỉnh xám ảnh Sau đó thông qua sự thay đổi đột ngột về mức xám ta có thể dễ dàng xác định được biên Các loại mô hình xác định đường biên gồm: đường biên lý tưởng, đường biên bậc thang và đường biên thực
Trang 21Hình ảnh 1.10 Mô hình các đường biên
1.2.6 Phương pháp nhận dạng [14]
Trong lĩnh vực nghiên cứu về thị giác máy tính thì việc phân loại, phân nhóm các mẫu, mô tả đối tượng, nhận dạng tự động là nhiệm vụ quan trọng Cùng lúc, ứng dụng này đã được áp dụng trong nhiều lĩnh vực khoa học khác nhau Vậy để nhận dạng được đối tượng trước hết ta phải xác định được mẫu Ta có thể hiểu mẫu chính là tất cả các
dữ liệu mình thu thập được như ảnh của một đối tượng được chụp, ảnh của vân tay, gương mặt người v.v Khi cần xác định một mẫu, ta có thể nhận dạng hoặc phân loại mẫu
- Để tiến hành nhận dạng ta thực hiện 3 bước cơ bản sau đây:
Bước 1: ta thu thập dữ liệu và tiến hành xử lý thô
Bước 2: Xây dựng mô hình hóa cho dữ liệu đã được xử lý
Bước 3: Nhận dạng dữ liệu với mẫu có sẵn và đưa ra kết luận
- Các kỹ thuật tiếp cận trong lý thuyết nhận dạng
Trang 22- Lưu ý sẽ không có phương pháp nào được gọi là tối ưu để đạt được hiệu quả nhận dạng tốt nhất mà phải cùng lúc sử dụng các phương pháp khác nhau và phương thức tiếp cận khác nhau thì mới đạt được hiệu quả tối ưu
- Trong thực tế, có vô số bài toán liên quan đến nhận dạng phát sinh mà chúng ta cần phải giải quyết Song những vấn đề đó đã tạo ra những yêu cầu cao về thuật toán để giải quyết, mà còn có cả những yêu cầu về tốc độ xử lý
1.2.7 Nén ảnh
Mục tiêu cả nén ảnh không chỉ nhằm mục đích giảm bớt không gian lưu trữ Mà còn yêu cầu về việc bảo toàn cấu trúc dữ liệu khi nén và không bảo toàn thông tin thường được tiến hành cùng lúc Mục đích chính là loại bỏ dữ liệu không cần thiết và vẫn duy trì tính toàn vẹn của cấu trúc dữ liệu Trong đó, nếu xảy ra trường hợp kỹ thuật nén cao trong khi kỹ thuật phục hồi thì kém, người gọi đó là phương pháp nén không bảo toàn Dựa vào cơ sở trên, có nhiều phương pháp đã được áp dụng để nén ảnh, như: nén ảnh theo khu vực, mã hóa thay đổi độ dài, phép biến đổi v.v
Hình ảnh 1.11 Vận dụng phương pháp biến đổi để nén ảnh
Trang 23Bằng cách sử dụng một cửa sổ lọc có kích thước ma trận 3x3, để thực hiện việc quét qua toàn bộ các điểm ảnh trong ảnh đầu vào Tại mỗi vị trí, giá trị của điểm ảnh tương ứng được lấy và điền vào cửa sổ lọc Sau đó, ta thực hiện tính trung bình của tất
cả các điểm ảnh trong cửa sổ 3x3, từ đó xác định giá trị mới cho điểm ảnh tại vị trí đó Dưới đây là công thức của phương pháp lọc trung bình:
Trang 24( 1), 2 2
Giới thiệu thuật toán của phương pháp trung vị:
( ) ( 1)
2 2 , 22
tv tv
Việc này hữu ích đối với việc xóa bỏ các dãy mà vẫn đảm bảo độ phân giải hay các điểm ảnh không thay đổi
Trang 25]
Lọc thông thấp thường được dùng để làm mịn và giảm nhiễu hình ảnh Khi giá trị
b của bộ lọc là 1, bộ lọc Hb thực chất trở thành bộ lọc trung bình H1 Quá trình khử nhiễu bằng cách tổ hợp các bộ lọc này được thể hiện qua phương trình thu nhận ảnh dưới dạng:
X qs [m,n] = X goc [m,n] + η[m,n]
Với η[m,n] là nhiễu cộng có phương sai 𝒏𝟐
Vậy ta có theo công thức tính của lọc trung bình:
Kết quả xử lý nhiễu trong ảnh giảm đi N w lần
2.1.4 Kỹ thuật lọc thông cao
Lọc thông cao được định nghĩa: ℎ𝐻𝑃(𝑚, 𝑛) = 𝛿(𝑚, 𝑛) – ℎ𝐿𝑃(𝑚, 𝑛) trong đó ℎ𝐿𝑃(𝑚, 𝑛) là lọc thông thấp Dưới đây là mô hình bộ lọc thông cao:
Hình ảnh 1.12 Mô hình lọc thông cao
Trang 26Theo quan điểm về tần số tín hiệu, bộ lọc thông cao dùng trong làm trơn ảnh và trích chọn biên Qua đó, ta xác định được với các thành phần tần số cao chính là các điểm biên tương ứng Đồng thời, từ việc xác định độ biến thiên nhanh về giá trị mức xám của điểm để xác định là biên
2.2 Phương pháp sử dụng các điểm biên
Tại những điểm mà ở đó có sự thay đổi đột ngột về giá trị mức xám gọi là điểm biên Điểm biên sẽ nằm giữa các đối tượng ảnh và nền hoặc nằm ở biên giới của các đối tượng ảnh hay Ngoài ra, tại các điểm biên thì mức xám luôn thể hiện các vùng tốt hơn
Do đó, các điểm biên sẽ cho kết quả chính xác ở dạng biểu đồ mức xám tại điểm hơn so với biểu đồ tổng thể
Từ cách tính laplace của ảnh đầu vào ta xác định được ngưỡng Ngoài ra, ta có thể thông qua toán tử dò biên vô hướng laplace để xác định ngưỡng Cách đơn giản nhất là nhân chập với mặt nạ sau đây:
có giá trị laplace lớn
Trang 272.3 Một số kĩ thuật phát hiện biên
2.3.1 Kỹ thuật gradient
Kỹ thuật gradient phát hiện biên cạnh dựa trên việc tính toán đạo hàm của hình ảnh Cụ thể, công thức toán liên quan đến việc tính gradient của hình ảnh là sử dụng phép đạo hàm (chính xác là đạo hàm riêng) để xác định sự thay đổi nhanh chóng của mức xám tại từng điểm ảnh Gradient của một hình ảnh thường được tính toán theo các hướng khác nhau, chẳng hạn theo hướng ngang và hướng dọc
Công thức toán đạo hàm riêng theo hướng ngang Gx và hướng dọc Gy tại mỗi điểm ảnh (x, y) có thể được biểu diễn như sau:
𝜕𝑦 là đạo hàm riêng theo hướng dọc
Từ các đạo hàm riêng Gx và Gy ta có thể tính toán độ lớn gradient tại mỗi điểm ảnh bằng cách sử dụng công thức:
Gradient = √𝐺𝑥2+ 𝐺𝑦2
Công thức trên cho ta biết độ lớn của gradient tại mỗi điểm ảnh, tức là mức độ thay đổi nhanh chóng của mức xám tại điểm đó Các điểm ảnh có gradient lớn thường là vị trí của biên cạnh trong hình ảnh
2.3.2 Kỹ thuật Laplace
Người ta sử dụng phương pháp laplace nhằm khắc phục nhược điểm của phương pháp xác định biên gradient mặc dù làm việc khá tốt khi độ sáng thay đổi rõ nét Mặt khác, phương pháp trên sẽ kém hiệu quả nếu mức miền chuyển tiếp trải rộng hoặc xám thay đổi chậm
Trang 28Ý tưởng của phương pháp laplace là lấy đạo hàm bậc hai của các điểm phương pháp laplace được định nghĩa như sau:
H 1 =[
01
] Ngoài mặt nạ trên ta còn sử dụng các mặt nạ sau:
Trong phương pháp này, chúng ta thường áp dụng hai mặt nạ sau
S 1 =[
12
]
Gọi Hx là thành phần x của toán tử sobel là và thành phần y là Hy Kết quả:
Trang 29] Kết quả của một điểm ảnh I xác định bằng Prewitt:
𝐼𝑘𝑞 = 𝐼 𝐻𝑥 + 𝐼 𝐻𝑦
3 Machine Learning [2][3][18]
Là một lĩnh vực của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán và mô hình để giúp máy tính tự động học hỏi từ dữ liệu và cải thiện hiệu suất thực hiện các nhiệm vụ cụ thể mà không cần phải được lập trình cụ thể Máy học là cơ sở cho nhiều ứng dụng thông minh và tự động trong thế giới kỹ thuật và công nghệ Sau đây là một số phương pháp học máy:
- Học giám sát (Supervised Learning): Trong loại này, mô hình máy tính được đào tạo từ dữ liệu đầu vào và đầu ra đã biết trước Mục tiêu là xây dựng một mô hình có thể
dự đoán đầu ra cho các dữ liệu mới Ví dụ, việc dự đoán giá nhà dựa trên diện tích và vị trí là một ví dụ về học giám sát
- Học không giám sát (Unsupervised Learning): Ở đây, không có dữ liệu đầu ra biết trước Mô hình máy tính được đào tạo để tìm hiểu cấu trúc và mẫu trong dữ liệu đầu vào Clustering (phân cụm) và Dimensionality Reduction (giảm số chiều dữ liệu) là hai
ví dụ điển hình về học không giám sát
- Học bán giám sát (Semi-supervised Learning): Là sự kết hợp của học giám sát
và không giám sát Một phần dữ liệu đầu vào đã có đầu ra, nhưng còn lại là không có Mục tiêu là dự đoán đầu ra cho dữ liệu không có đầu ra
Trang 30Máy học có sự liên quan chặt chẽ với các lĩnh vực như khai phá dữ liệu, thống kê,
và trí tuệ nhân tạo Các thuật toán máy học phổ biến bao gồm Decision Trees, Support Vector Machines, Neural Networks, Random Forests, và nhiều hơn nữa Nhờ vào khả năng học và cải thiện từ dữ liệu, máy học đã giúp định hình nhiều khía cạnh của cuộc sống hiện đại, bao gồm phân loại ảnh, dự đoán chuỗi thời tiết, xử lý ngôn ngữ tự nhiên,
cụ thể và chạy trên một mạng thần kinh nhân tạo
Trang 31Hình ảnh 1.14 Mối quan hệ của Deep Learning với các lĩnh vực liên quan
4.2 Phương thức hoạt động của học sâu
Hình ảnh 1.15 Mô hình học sâu
- Phương thức hoạt động của thuật toán Deep Learning diễn ra như sau: Lấy quy trình học của con người làm ví dụ cụ thể ta có thể xác định các dòng thông tin sẽ được
Trang 32trải qua nhiều lớp cho đến lớp sau cùng Qua các lớp đầu tiên sẽ thực hiện việc học các khái niệm cụ thể nhiều hơn trong khi các lớp sâu hơn phía sau sẽ sử dụng thông tin đã ghi nhận được để nghiên cứu và phân tích chuyên sâu các khái niệm trừu tượng Quy trình xây dựng và biểu diễn dữ liệu này được gọi là trích xuất tính năng
- Với khả năng thực hiện trích xuất tính năng tự động đồng thời vận dụng kiến trúc phức tạp của việc học sâu được cung cấp từ mạng lưới thần kinh sâu
4.3 Các ứng dụng phổ biến của học sâu trong xử lý ảnh
4.3.1 Hiển thị màu trên ảnh
Để xác định màu sắc trên hình ảnh ta vận dụng thuật toán học sâu Thông qua đó
ta có thể chuyển đổi từ màu sắc sang các đạng ảnh xám, đen trắng
4.3.2 Kỹ thuật nhận dạng gương mặt
Hình ảnh 1.16 Công nghệ nhận diện gương mặt
Một số kỷ thuật phổ biến để nhận dạng khuôn mặt:
Eigenfaces (Khuôn mặt riêng): Sử dụng phân tích thành phần chính để trích xuất các khuôn mặt riêng từ một tập dữ liệu ảnh khuôn mặt Khi nhận dạng, hình ảnh mới sẽ được so sánh với các khuôn mặt riêng đã học để xác định độ tương đồng
Phát hiện và mặt cắt: Sử dụng các phương pháp phát hiện đối tượng (chẳng hạn như Haar cascades) để phát hiện vị trí khuôn mặt trong hình ảnh Sau đó, một số thuật
Trang 33toán (ví dụ như Local Binary Patterns) có thể được áp dụng để trích xuất các đặc trưng
từ vùng khuôn mặt đã phát hiện
Deep Learning: Sử dụng mạng neural học sâu, như mạng neural tích chập (CNN),
để học các đặc trưng từ dữ liệu ảnh khuôn mặt Các mô hình như VGGFace, FaceNet và OpenFace đã đạt được hiệu suất tốt trong việc nhận dạng khuôn mặt
Local Binary Patterns (LBP): Trích xuất đặc trưng từ mỗi điểm ảnh bằng cách so sánh các điểm lân cận xung quanh nó Kỹ thuật này thường được sử dụng để trích xuất đặc trưng texture của khuôn mặt
Histogram of Oriented Gradients (HOG): Trích xuất các đặc trưng bằng cách tính gradient của hình ảnh và xây dựng histogram các hướng gradient trong các ô vùng hình ảnh Phương pháp này thường được sử dụng để phát hiện vật thể trong hình ảnh, bao gồm cả khuôn mặt
Mạng Siamese: Mô hình dựa trên so sánh đặc trưng của hai hình ảnh Đây là một phương pháp mạnh mẽ trong việc so sánh và nhận dạng khuôn mặt
Mạng Gấu Teddy (Teddy Bear Networks): Một phương pháp tương tự mạng Siamese, mô hình học để so sánh đặc trưng giữa các cặp ảnh và nhận dạng khuôn mặt
4.4 Phân loại đối tượng và người thông qua các đặc điểm
Một số đặc điểm quan trọng mà bạn có thể sử dụng để phân loại đối tượng và người:
Đặc điểm cho việc phân loại đối tượng:
Hình dạng: Các đối tượng khác nhau thường có hình dạng riêng biệt Sử dụng các đặc trưng hình học như tỷ lệ, diện tích, chiều cao, chiều rộng có thể giúp phân loại các đối tượng khác nhau
Màu sắc: Màu sắc của đối tượng có thể là đặc điểm quan trọng Sử dụng histogram màu, mô hình màu hoặc các thuật toán trích xuất đặc trưng màu khác có thể giúp phân loại
Trang 34Texture: Đối với các đối tượng có kết cấu, texture có thể là một đặc điểm quan trọng Các phương pháp trích xuất đặc trưng texture như Local Binary Patterns (LBP) hoặc Gabor filters có thể hữu ích
Đặc điểm cho việc phân loại người:
Khuôn mặt: Phát hiện và trích xuất các đặc trưng từ khuôn mặt, chẳng hạn như kích thước mắt, mũi, miệng, có thể sử dụng để phân loại người
Vóc dáng: Đặc điểm về vóc dáng như chiều cao, tỷ lệ cơ thể có thể được sử dụng
để phân loại người
Trang phục: Các đặc điểm của trang phục như màu sắc, kiểu dáng, áo quần cũng
có thể được sử dụng để phân loại người
4.5 Các phương pháp nhận dạng đối tượng được sử dụng hiện nay [7-9] [11-13] 4.5.1 Phân loại dựa trên Đặc trưng
Sử dụng các đặc trưng độc đáo của đối tượng để phân loại Các phương pháp như HOG (Histogram of Oriented Gradients) và SIFT (Scale-Invariant Feature Transform) thường được sử dụng cho việc này
4.5.2 Nhận dạng dựa trên mô hình
Xây dựng các mô hình 3D hoặc mô hình toán học của đối tượng, sau đó so sánh với dữ liệu thực tế để nhận dạng
Sử dụng mạng neural sâu (deep neural networks) để tự động học các đặc trưng từ
dữ liệu hình ảnh và thực hiện phân loại Các kiến trúc như CNN (Convolutional Neural Networks) thường được sử dụng trong việc nhận dạng đối tượng
Sử dụng các mạng neural như Perceptron đa tầng (MLP) để học mối quan hệ phức tạp giữa đặc trưng và lớp đối tượng
Sử dụng dữ liệu huấn luyện đã được gán nhãn để học cách phân loại các đối tượng
Sử dụng dữ liệu không có nhãn để tìm các mẫu tự nhiên hoặc đặc điểm của các đối tượng
Trang 35Sử dụng cùng lúc nhiều loại dữ liệu (ảnh, âm thanh, v.v.) để cải thiện khả năng nhận dạng đối tượng
Sử dụng các thuật toán tự động để trích xuất đặc trưng từ dữ liệu hình ảnh, giúp giảm thiểu sự can thiệp của con người
4.5.3 Nhận dạng đối tượng dựa trên so khớp mẫu
Nhận dạng đối tượng dựa trên so khớp mẫu (Template Matching) là một phương pháp trong xử lý ảnh để tìm kiếm và nhận dạng đối tượng trong một hình ảnh dựa trên việc so sánh các mẫu được định trước với các vùng của hình ảnh Ý tưởng chính của phương pháp này là so sánh độ tương đồng giữa các mẫu và các vùng hình ảnh để xác định vị trí của đối tượng
Quá trình nhận dạng đối tượng dựa trên so khớp mẫu có thể được mô tả như sau: Bước 1 - Chọn mẫu: Chọn một hoặc nhiều mẫu đại diện cho đối tượng bạn muốn nhận dạng Mẫu này thường có kích thước nhỏ hơn so với hình ảnh gốc
Bước 2 - So sánh: Di chuyển mẫu qua từng vùng của hình ảnh gốc và tính toán độ tương đồng giữa mẫu và vùng hình ảnh Độ tương đồng có thể được tính bằng các phương pháp như sự tương đồng màu sắc, độ tương đồng pixel, hoặc các phép biến đổi khác
Bước 3 - Xác định vị trí: Điểm với độ tương đồng cao nhất hoặc vượt ngưỡng xác định sẽ là vị trí ước tính của đối tượng trong hình ảnh gốc
Mặc dù phương pháp so khớp mẫu có thể dễ dàng triển khai và thực hiện, nhưng
nó cũng có một số hạn chế Nó thường không hiệu quả khi đối tượng có thay đổi về quy
mô, góc nhìn, chi tiết hoặc biến dạng Ngoài ra, nó cũng có thể bị ảnh hưởng bởi nhiễu
và thay đổi ánh sáng
4.5.4 Nhận dạng đối tượng dựa trên diện mạo (Face Recognition)
Xác định diện mạo dựa trên các đặc điểm của khuôn mặt của họ Điều này thường bao gồm việc phát hiện và trích xuất các đặc trưng quan trọng từ khuôn mặt để sau đó
so sánh và nhận dạng
Trang 36Quá trình nhận dạng đối tượng dựa trên diện mạo thường bao gồm các bước sau:
- Phát hiện khuôn mặt: Đầu tiên, hệ thống cần xác định vị trí và ranh giới của khuôn mặt trong hình ảnh hoặc video Điều này thường được thực hiện bằng cách sử dụng các thuật toán phát hiện đối tượng, như Haar Cascade hoặc Mạng Thần kinh tích chập (Convolutional Neural Networks - CNN)
- Trích xuất đặc trưng: Sau khi phát hiện khuôn mặt, các đặc điểm quan trọng của khuôn mặt (như vị trí mắt, mũi, miệng) sẽ được trích xuất và biểu diễn dưới dạng các vectơ số học hoặc biểu đồ
- So sánh và nhận dạng: Đặc trưng được trích xuất từ khuôn mặt đang được so sánh với các đặc trưng đã được lưu trữ trong cơ sở dữ liệu Các thuật toán so sánh như K-nearest neighbors, Support Vector Machines, hoặc Deep Neural Networks thường được
sử dụng để đưa ra quyết định xem liệu khuôn mặt này có trùng khớp với một trong số các mẫu đã biết hay không
- Xác định cá nhân: Nếu đặc trưng của khuôn mặt đủ gần với một đặc trưng đã biết, hệ thống sẽ xác định đó là cá nhân tương ứng với mẫu đó
4.6 Một số kỹ thuật phát hiện người [30-32]
Hiện nay, có rất nhiều công trình nghiên cứu nhằm xây dựng các thuật toán giúp phát hiện người trong ảnh Kỹ thuật xử lý chủ yếu là dựa trên cách thức nhận dạng đối tượng và trích chọn điểm đặc trưng Ta có các hướng tiếp cận chính như sau:
Hướng thứ 1 Dựa trên các điểm đặc trưng biến đổi Haar – Like, Wavelet và phân loại đa cấp: Haar – Like, Wavelet là một dạng phép biến đổi được sử dụng nhằm tối ưu hóa các vùng liên thông Thông qua sử dụng phương pháp trích chọn điểm đặc trưng Wavelet - Haar để xác định tập điểm đặc trưng cho ảnh đầu vào Các điểm đặc trưng trích chọn được chứng minh là bất biến [17]
Trang 37Hình ảnh 1.17 Biểu đồ hệ số wavelet trong hệ không gian 3 chiều
Hướng thứ 2 Dựa trên điểm đặc trưng HOG có hướng: HOG tỏ ra khá hiệu quả trong các bài toán phát hiện người trong ảnh HOG là một phân bố biểu đồ mức xám được sử dụng để trích chọn điểm đặc trưng của ảnh Ưu điểm chính của HOG là tính toán nhanh, thông qua điểm đặc trưng này giúp cho hệ thống hoạt động hiệu quả trong các môi trường điều kiện chiếu sáng khác nhau vì HOG có thể độc lập với điều kiện chiếu sáng HOG được nghiên cứu bởi Navel Dalai và Bill Triggs vào năm 2005 tại Viện Nghiên cứu INRIA
Hình ảnh 1.18 Mô tả điểm đặc trưng HOG Hướng thứ 3 Hướng tiếp cận phát hiện toàn bộ thuộc tính đối tượng (Full body detection) dựa trên các điểm đặc trưng tổng thể của mẫu đối tượng để tìm kiếm Hạn
Trang 38chế của phương pháp này so với các phương thức khác là hiệu suất dễ bị ảnh hưởng bởi nền lộn xộn và sự che lấp Bằng cách giúp phát hiện người trong các cửa sổ tìm kiếm địa phương nếu thỏa mãn các tiêu chí nhất định
Hình ảnh 1.19 HOG person dectectors cho kết quả không tốt khi tìm người
4.7 Kỹ thuật phát hiện đối tượng bằng mạng thần kinh tích chập
CNN là một mô hình Deep Learning tiên tiến trong việc xây dựng các hệ thống
thông minh với độ chính xác cao đang được sử dụng hiện nay
Từ ý tưởng cải tiến cách thức các mạng nơ-ron nhân tạo truyền thống học thông tin trong ảnh dẫn đến sự ra đời của CNN - Mạng nơ ron tích chập Các mạng nơ-ron
nhân tạo truyền thẳng (Feedforward Neural Network) thường bị hạn chế bởi kích thước
của ảnh, dẫn đến sự bùng nổ khối lượng tính toán, đối với ảnh càng lớn thì số lượng liên kết càng tăng nhanh Bởi vì mạng nơ-ron nhân tạo truyền thẳng sử dụng các liên kết đầy
đủ giữa các điểm ảnh vào node Ngoài ra, sự liên kết trên cũng là không cần thiết với mỗi bức ảnh, các thông tin không quan tâm nhiều đến các điểm ảnh ở cách xa nhau mà chỉ tập trung chủ yếu qua sự phụ thuộc giữa các điểm ảnh với các điểm xung quanh ảnh Mạng thần kinh tích chập với kiến trúc hoàn tác khác, đã khắc phục thông qua khả năng xây dựng liên kết, bằng cách không sử dụng toàn bộ ảnh như trong mạng nơ-ron truyền thẳng mà chỉ một phần cục bộ trong ảnh kết nối đến node trong lớp tiếp theo
Mạng thần kinh tích chập là một phương thức thường được sử dụng nhằm mục đích nhận diện đối tượng, nhận diện gương mặt, nhận dạng hình ảnh, phân loại ảnhv.v Mạng thần kinh tích chập tiến hành phân loại ảnh thông qua các bước nhận ảnh
Trang 39đầu vào, xử lý ảnh và phân loại ảnh bằng các nhãn Hệ thống nhận dữ liệu đầu dạng một
mảng các điểm ảnh (pixel) Dựa vào đó máy tính nhìn nhận ảnh dưới dạng mảng ma trận
ℎ 𝑤 𝑑 (h: height, w: width, d: dimension) 1 ảnh 6 6 3 nghĩa là ảnh có kích thước dài x rộng 6 6 và sử dụng 3 kênh màu sắc (RGB) còn ảnh 4 4 1 là ảnh có kích thước 4 4 và chỉ có một kênh màu xám (grayscale)
663
Hình ảnh 2.1Mảng ma trận RGB Mạng thần kinh tích chập tiến hành việc huấn luyện (train) và kiểm tra (test), mỗi
ảnh đầu vào sẽ thực hiện hàm softmax để phân loại 1 đối tượng và thông qua các lớp
tích chập cùng với lớp kết nối đầy đủ (fully connected layers), bộ lọc (kernel), Pooling
Hình ảnh 2 2 Mô hình mạng nơ-ron với nhiều lớp chập
4.7.1 Lớp tích chập (Convolution Layer)
Lớp tích chập là lớp dùng để nhận dạng các đặc điểm nổi bật của một bức ảnh đầu vào Lớp tích chập phân tích và đưa ra mối tương quan giữa các điểm ảnh thông qua
Trang 40việc học các đặc điểm của ảnh từ những ô nhỏ trong ảnh đầu vào Quá trình này dễ dàng thực hiện bằng các phép toán tích chập Trong phép toán tích chập như hình 3.3, một bộ lọc sẽ được nhân với từng ô nhỏ trong ảnh
* Dữ liệu đầu vào là một ma trận hình ảnh 3 chiều có kích thước (𝒉 𝒘 𝒅)
Hình ảnh 2 4 Xác định feature map