Trang 1 TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ BÍCH HÀ NGHIÊN CỨU MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG DỰA VÀO CAMERA Ngành: Khoa học máy tính Mã số: 08480101 Tr
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ BÍCH HÀ NGHIÊN CỨU MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG DỰA VÀO CAMERA Ngành: Khoa học máy tính Mã số: 08480101 Người hướng dẫn: TS LÊ THỊ KIM NGA LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung của đề án với đề tài: “Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào camera” này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của TS Lê Thị Kim Nga – Trường Đại học Quy Nhơn Phần thực nghiệm chương trình đều do tôi tự xây dựng có sự hướng dẫn của giảng viên, trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai Kết quả thực nghiệm được minh họa trong đề án là trung thực Nội dung của đề án này chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào Các tài liệu tham khảo được sử dụng trong đề án có nguồn gốc rõ ràng và trích dẫn chính xác, đầy đủ Nếu sai tôi xin hoàn toàn chịu trách nhiệm Bình Định, ngày tháng 10 năm 2023 Người cam đoan Nguyễn Thị Bích Hà LỜI CẢM ƠN Trong quá trình nghiên cứu đề án, mặc dù vẫn còn gặp rất nhiều khó khăn, nhưng tôi vẫn luôn nhận được sự quan tâm, giúp đỡ của quý thầy cô, bạn bè và người thân Đây là nguồn động lực lớn giúp tôi hoàn thành đề tài của đề án này Tôi xin gửi lời cảm ơn chân thành và lòng biết ơn sâu sắc nhất đến quý Thầy (Cô), những người đã giảng dạy nhiệt tình và giúp đỡ cho bản thân tôi đến với con đường nghiên cứu khoa học đầy đam mê, đặc biệt là TS Lê Thị Kim Nga -Trường Đại học Quy Nhơn Với tâm huyết của mình, cô chỉ bảo tận tình chu đáo để bản thân hoàn thành tốt công việc của mình Và cũng xin cảm ơn các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học Quy Nhơn đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập tại trường Cuối cùng, cho tôi được gửi lời biết ơn đến gia đình, bạn bè cùng tất cả những người thân, luôn bên cạnh động viên bản thân tôi trong suốt thời gian học tập và nghiên cứu Kính chúc quý Thầy (Cô) và các anh chị em trong lớp cao học ngành Khoa học Máy tính khóa 24B sức khỏe, hạnh phúc và thành đạt Xin chân thành cảm ơn! Nguyễn Thị Bích Hà MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH ẢNH MỞ ĐẦU 1 1.1 Lý do chọn đề tài 1 1.2 Mục đích và nhiệm vụ nghiên cứu 2 1.2.1 Mục đích nghiên cứu 2 1.2.2 Nhiệm vụ nghiên cứu 2 1.3 Đối tượng và phạm vi nghiên cứu 2 1.4 Phương pháp nghiên cứu 2 1.5 Đóng góp của đề tài 2 Chương 1: TỔNG QUAN VỀ PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG TRONG CAMERA 4 1.1 Cơ sở lý thuyết của xử lý ảnh và thị giác máy 4 1.2 Bài toán phát hiện và theo vết đối tượng 5 1.3 Các cách tiếp cận trong phát hiện và theo vết đối tượng 6 1.3.1 Phát hiện đối tượng (Object Detection) 6 1.3.2 Theo vết đối tượng (Object Tracking) .7 1.3.3 Kết hợp phát hiện và theo vết đối tượng 7 1.4 Kết luận chương 1 10 Chương 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG 12 2.1 Kỹ thuật dựa trên điểm đặc trưng 12 2.2 Kỹ thuật phát hiện chuyển động 13 2.2.1 So sánh hai khung hình liên tiếp .14 2.2.2 So sánh nền trung bình 15 2.3 Kỹ thuật dựa trên phân đoạn đối tượng 17 2.4 Kỹ thuật dựa trên học sâu 21 2.4.1 Cơ sở lý thuyết của học sâu 21 2.4.2 Mạng nơ-ron tích chập (CNN) 23 2.4.3 YOLO ( You Only Look Once) 30 2.4.4 Các phiên bản và cấu trúc cơ bản của YOLO 41 2.5 Kết luận chương 2 48 Chương 3: THỬ NGHIỆM 49 3.1 Phát biểu bài toán 49 3.2 Phân tích yêu cầu 50 3.3 Xây dựng chương trình và kết quả thử nghiệm 53 3.3.1 Dữ liệu huấn luyện 53 3.3.2 Môi trường cài đặt và phát triển 54 3.3.3 Các bước huấn luyện mô hình Google colad .55 3.3.4 Xây dựng chương trình thử nghiệm 58 3.3.5 Kết quả thử nghiệm 59 3.4 Nhận xét, đánh giá 61 3.5 Kết luận chương 3 61 KẾT LUẬN 63 DANH MỤC TÀI LIỆU THAM KHẢO 64 QUYẾT ĐỊNH GIAO TÊN ĐỀ TÀI ĐỀ ÁN THẠC SĨ (BẢN SAO) DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang 52 Bảng các thông số thử nghiệm của một số mô 3.1 hình YOLO trên tập dữ liệu COCO DANH MỤC CÁC HÌNH ẢNH Số hình Tên hình Trang 2.1 Khung hình hiện tại trừ cho khung hình tại thời điểm 14 trước 2.2 Các kết quả phân ngưỡng ảnh độ lệch 15 2.3 Khung hình nền tổng hợp với n=10 và ảnh mặt nạ kết 16 quả 2.4 Khung hình nền tổng hợp với các giá trị n khác nhau và 16 ảnh mặt nạ kết quả 2.5 Hình ảnh ví dụ của các cầu thủ đang chạy 17 2.6 Chọn một vùng ảnh mẫu để phân tích màu 18 2.7 Histogram kênh Red của vùng ảnh mẫu được chọn 18 2.8 Histogram kênh Green của vùng ảnh mẫu được chọn 18 2.9 Histogram kênh Blue của vùng ảnh mẫu được chọn 19 2.10 Chọn một vùng ảnh mẫu khác để phân tích màu 19 2.11 Histogram kênh Red của vùng ảnh mẫu được chọn 20 2.12 Histogram kênh Green của vùng ảnh mẫu được chọn 20 2.13 Histogram kênh Blue của vùng ảnh mẫu được chọn 20 2.14 Mô hình mô tả một mạng nơ-ron sâu nhiều tầng 22 2.15 Mảng ma trận RGB của ảnh 6x6x3 25 2.16 Mô hình mạng CNN 25 2.17 Ma trận ảnh nhân ma trận bộ lọc 26 2.18 Ma trận đầu ra 26 2.19 Một số bộ lọc phổ biến 27 2.20 Hoạt động của lớp ReLU 28 2.21 Mô hình làm việc của Max Pooling 28 2.22 Kiến trúc mạng CNN hoàn chỉnh 29 Số hình Tên hình Trang 2.23 30 Minh họa phương pháp cửa sổ trượt 31 2.24 Ví dụ minh họa khi trượt cửa sổ với đối tượng quan tâm 32 2.25 là khuôn mặt người: vùng cửa sổ màu xanh được xác 33 2.26 nhận là đối tượng quan tâm và được ghi nhận lại, vùng 33 2.27 đỏ bỏ qua 34 2.28 Tương quan vấn đề định vị đối tượng trong ảnh so với nhận diện và phát hiện đối tượngtrong ảnh Minh họa quá trình xử lý của OverFeat [9] Minh họa quá trình phát hiện đối tượng dựa trên định vị trong YOLO Ảnh mẫu minh họa cho quá trình phân chia không gian của YOLO 2.29 Kết quả của các đối tượng trong ảnh mẫu 34 2.30 Minh họa kết quả ước lượng mong muốn với một mắt 35 lưới 2.31 Minh họa độ đo IoU 36 2.32 Mô hình ước lượng hai hình bao khoanh màu xanh da 37 trời dựa vào mắt lưới khoanh màu vàng Minh họa bước nhận diện đối tượng tại mỗi mắt lưới để 38 2.33 tổng hợp vào kết quả phát hiện và truy vết đối tượng trong YOLO Kết quả ước lượng tại mỗi mắt lưới: các hình bao đối 38 2.34 tượng ứng với các lớp khác nhau sẽ được khoanh bằng màu khác nhau 2.35 Kiến trúc mạng nơ ron tích chập của YOLO 39 2.36 WordTree - YOLO9000 42 2.37 Kiến trúc Darknet19 43 2.38 Kiến trúc mạng YOLOv3 44 Số hình Tên hình Trang 2.39 Kiến trúc DarkNet-53 45 2.40 So sánh hiệu suất của YOLOv4 với các mô hình học sâu 46 state-of-art thời điểm đó (trong đó có YOLOv3) 2.41 Các phiên bản YOLOV5 47 2.42 Kết quả thử nghiệm và so sánh các phiê bản YOLOv5 47 3.1 Pha khởi tạo dữ liệu 50 3.2 Pha xử lý 51 3.3 Dữ liệu đối tượng tập dữ liệu COCO được huấn luyện 54 (20 lớp) 3.4 Tiến hành tải mô hình về Google driver 55 3.5 Định nghĩa các lớp đối tượng cho bài toán 55 3.6 Tạo file coco.data chứa các tham số huấn luyện 56 3.7 Dữ liệu được đưa lên thư mục data bao gồm hình và 56 nhãn được lưu tại thư mục images và labels 3.8 Huấn luyện mô hình 57 3.9 Câu lệnh chạy phát hiện ảnh person.jpg 57 3.10 Kết quả chạy thử nghiệm ảnh phát hiện chuyển động với 57 độ chính xác cao trên 90% 3.11 Phát hiện chuyển động 58 3.12 Phát hiện và theo vết đối tượng 59 3.13 Kết quả phát hiện và theo vết người đang di chuyển trên 60 đường phố 3.14 Kết quả phát hiện sinh viên đang thi đấu bóng chuyền 61 1 MỞ ĐẦU 1.1 Lý do chọn đề tài Phát hiện và theo vết đối tượng (objects tracking) là bài toán nghiên cứu quan trọng của xử lý ảnh và thị giác máy tính (computer vision) Kỹ thuật phát hiện và theo vết đối tượng chủ yếu dựa trên hình ảnh của các đối tượng thu được từ các camera giám sát Việc phát hiện ra các đối tượng di chuyển trong camera nhằm đoán nhận một số hành vi của đối tượng là có ý nghĩa khoa học và thực tiễn Phát hiện và theo vết đối tượng được quan tâm nghiên cứu trong nhiều năm qua do chúng có nhiều ứng dụng trong thực tế như giám sát tự động, thực tế ảo tăng cường và phân tích hành vi, tương tác người máy v.v Đến nay bài toán này vẫn là một nhiệm vụ đầy thách thức do các yếu tố tác động như biến dạng, thay đổi ánh sáng, xoay v.v Trong lĩnh vực giáo dục, có thể ứng dụng phát hiện và theo dõi cảm xúc, hành vi của học sinh, sinh viên trong quá trình học tập nhằm xác định mức độ đáp ứng bài học để nghiên cứu phương pháp giảng dạy phù hợp Ngoài ra, có thể xác định, kiểm tra học sinh, sinh viên có mặt trong các buổi học một cách nhanh chóng và hiệu quả Trong lĩnh vực an ninh, có thể phát hiện và bám sát đối tượng di chuyển trong các vùng cần giám sát Vì vậy, tôi quyết định lựa chọn đề tài nghiên cứu đề án: “Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào camera” để nghiên cứu