XÂY DỰNG CÔNG CỤ PHÁT TRIỂN ỨNG DỤNG CHO CẢM BIẾN MÁY ẢNH TỰ ĐỘNG - Full 10 điểm

102 0 0
XÂY DỰNG CÔNG CỤ PHÁT TRIỂN ỨNG DỤNG CHO CẢM BIẾN MÁY ẢNH TỰ ĐỘNG - Full 10 điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ CỔ BẢO HIẾU MÃ SỐ HV: M3718007 XÂY DỰNG CÔNG CỤ PHÁT TRIỂN ỨNG DỤNG CHO CẢM BIẾN MÁY ẢNH TỰ ĐỘNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ 8 48 01 01 NGƯỜI HƯỚNG DẪN TS LÂM HOÀI BẢO NĂM 2022 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 i CHẤP THUẬN CỦA HỘI ĐỒNG Lu ận văn này, với đề t ự a là “Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự độ ng ”, do họ c viên C ổ B ả o Hi ế u th ự c hi ệ n theo s ự hướ ng d ẫ n c ủ a TS Lâm Hoài B ả o Lu ận văn đã báo cáo và đượ c H ội đồ ng ch ấ m lu ận văn thông qua ngày 25/06/2022 Thành viên đ ọ c lu ậ n văn sau khi ch ỉ nh s ử a (ký tên) TS Thái Minh Tu ấ n Ch ủ t ị ch H ộ i đ ồ ng Thư ký (ký tên) (ký tên) PGS TS Ph ạ m Nguyên Khang TS Tr ầ n Vi ệ t Châu Ngư ờ i hư ớ ng d ẫ n (ký tên) TS Lâm Hoài B ả o Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 ii L ỜI CẢM ƠN Tôi xin chân thành g ử i l ờ i c ảm ơn đến các quý Thầy, quý Cô trong Khoa Công Ngh ệ Thông Tin - Truy ề n Thông c ủa trường Đạ i h ọ c C ần Thơ Tôi cảm ơn vì nhữ ng bài gi ảng đầ y ấ p ki ế n th ứ c cùng nh ững trái tim tràn đầ y tâm huy ết mà quý Thầy và quý Cô đã truyền đạ t nh ữ ng ki ế n th ức đế n cho tôi khi tôi còn ng ồ i trên gi ảng đườ ng trong th ờ i gian qua Tôi cũng không thể nào quên được các thông điệp mà các quý Thầy và quý Cô đã nhắ n nh ủ , cũng như gử i g ấm đế n cho tôi , và đó cũng sẽ là hành trang cho tôi bướ c đế n s ự thành công trên con đường tương lai Tôi cũng xin g ử i l ờ i bi ế t ơn sâu s ắ c đế n Th ầ y Lâm Hoài B ảo Ngườ i Th ầy đã nh ậ n tôi v ề độ i nghiên c ứ u c ủ a Th ầ y Th ầy mang đế n tôi r ấ t nhi ề u bài h ọc, độ ng l ực, góp ý để tôi có thể th ự c hi ệ n đề tài nghiên c ứ u lu ận văn “Xây dự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự độ ng” và hoàn thành đề tài nghiên c ứ u m ộ t cách hoàn thi ệ n nh ấ t Tôi cũng muố n g ử i c ảm ơn đặ c bi ệ t đế n các v ị gi ảng viên, cán bộ, nhân viên củ a khoa Công Ngh ệ Thông Tin Truy ề n Thông và trường Đạ i h ọ c C ần Thơ, các anh chị em t ậ p th ể l ớ p cao h ọc Khóa học máy tính khóa K25 , cùng các anh ch ị em đồ ng nghi ệ p công ty DEK Technologies và công ty Bosch Global Software Technologies Vietnam đã động viên, giúp đỡ cho tôi trong su ốt quá trình họ c t ập cũng như quá trình thự c hi ệ n đề tài nghiên c ứ u lu ận văn M ộ t l ầ n n ữa, Tôi xin chân thành c ảm ơn và biết ơn! C ần Thơ, ngày 03 tháng 02 năm 2022 Ngườ i vi ế t C ổ B ả o Hi ế u Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 iii TÓM TẮT Nghiên c ứ u này nh ằ m t ạ o ra m ộ t t ậ p h ợ p các nghiên c ứ u x ử lý liên quan đế n con m ắ t c ủ a R obot đó là camera Nghiên cứ u s ử d ụ ng các ph ầ n c ứ ng tương thích vớ i l ậ p trình nhúng từ đó tạo điề u ki ệ n cho nh ữ ng ph ầ n c ứ ng v ớ i giá c ả th ấp nhưng phầ n m ề m đi kèm vô cùng ấn tượ ng và h ợp lý hơn không kém c ạ nh các h ệ th ố ng nghiên c ứ u cao c ấ p c ủ a các ph ầ n m ề m v ớ i ph ầ n c ứ ng có giá thành cao Và d ễ dàng s ử d ụng, dễ dàng c ậ p nh ật, dễ dàng g ỡ l ỗi, nhỏ g ọn, tiệ n l ợ i mà v ớ i công ngh ệ x ử lý các thuậ t toán AI m ạ nh m ẽ bên trong Nghiên c ứ u s ử d ụ ng thư việ n OpenCV là ch ủ đạo để gi ải quyế t các v ấn đề liên quan đế n nghiên c ứ u nh ậ p xu ất hình ả nh Nghiên c ứ u phát hi ện đối tượ ng ở th ờ i gian th ực thì tấ t nhiên không th ể b ỏ qua đượ c các mô hình mạ ng h ọ YOLO để x ử lý các vấ n đề liên quan đế n các bài toán v ề phát hi ệ n các khuôn m ặt có mang khẩ u trang hay không v ề vi ệ c tuân th ủ V2K c ủ a B ộ Y t ế, cũng như phát hiện các đối tượ ng là rau c ủ quả để thu ậ n ti ệ n cho vi ệ c xây d ựng đầ u b ế p AI sau này Song song đó, nghiên cứ u còn dùng các thư việ n h ỗ tr ợ phát hi ệ n khuôn m ặt như Dlib, face_recognition để phát hi ện và đị nh danh các khuôn m ặ t nh ằ m ph ụ c v ụ cho các h ệ th ống điể m danh h ọc sinh, sinh viên trong trườ ng h ọ c hay các h ệ th ố ng ch ấ m công các công nhân viên ho ặ c nh ữ ng h ệ th ố ng m ở c ử a ít b ả o m ậ t trong nông tr ạ i Nghiên c ứ u còn cung c ấp mã nguồ n c ủ a chương trình nghiên cứ u trên trang github v ớ i mong mu ố n xây d ự ng m ộ t chương trình tích h ợ p nhi ề u ch ức năng hơn nữ a bên c ạ nh nh ữ ng ch ức năng như xử lý hình ảnh, phát hiệ n màu s ắc, phát hiện mã QR, tăng tốc độ khung hình hay nhữ ng ch ức năng AI đã kể ở trên Qua đó, nghiên c ứ u hi v ọ ng s ẽ đượ c c ộng đồng đóng góp mã nguồn để t ạ o d ự ng s ự ổn đị nh cho chương trình và đượ c c ậ p nh ật thườ ng xuyên để s ử a ch ữ a khi chương trình g ặ p s ự c ố hay l ỗ i Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 iv ABSTRACT This research is aimed at creating a set of programming systems that relate to the robot''''s eye, which is the camera''''s primary visual processing system Research on the use of embedded program- compatible hardware, thereby enabling lower -cost hardware and the accompanying software, is impressive and more affordable than systems with harder- cost hardware Additionally, the program should be easy to use, easy to update, and easy to debug It''''s also compact, convenient, and full of quality and powerful AI technology Research using the OpenCV library is mainstream for resolving issues related to image import and export systems Regarding object detection in real- time, this research cannot ignore the YOLO family of network models that are designed to handle the problems of detecting faces with masks and not with COVID19 As well as detecting objects such as vegetables and fruits to facilitate the development of AI chefs Simu ltaneously, the research also uses discovery support libraries such as Dlib and face_recognition to recognize and identify targets for grading systems, student catalogs in schools, dot systems for employees, or security window opening systems on the farm The source code for this research will be pushed onto the Github page with the desire to build a system that integrates more functionality, such as image processing, color detection, QR code detection, and frame rate increases that are impossible with the current system The AI has been on the ground for a while now The system will thus be contributed source code by the community to create stability for the system and regularly updated to fix when the system has an issue, error, or other issues that are no t working Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 v L ỜI CAM ĐOAN Tôi xin cam đoan nghiên cứ u lu ận văn tố t nghi ệ p “Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự động” đượ c hoàn thành trên k ết quả nghiên c ứ u c ủ a tôi v ớ i s ự hướ ng d ẫ n c ủ a Th ầ y Lâm Hoài B ả o Ngoài các trích d ẫn, tài l i ệ u tham kh ả o cũng như các số li ệu, kết quả nêu trong lu ận văn là trung thự c và các k ết quả c ủ a nghiên c ứu này chưa đượ c dùng cho b ấ t c ứ lu ận văn cùng cấ p nào khác N ếu không đúng như đã nêu trên, tôi xin hoàn toàn chị u trách nhi ệ m v ề đề tài c ủa mình dướ i m ọi hình thứ c C ầ n Thơ, ngày 03 tháng 0 2 năm 2022 Ngư ờ i hư ớ ng d ẫ n Tác gi ả th ự c hi ệ n ( ký tên ) ( ký tên ) Lâm Hoài B ả o C ổ B ả o Hi ế u Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 vi M ỤC LỤC CHẤP THUẬN CỦA HỘI ĐỒNG i L ỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv L ỜI CAM ĐOAN v M ỤC LỤC vi DANH MỤC BẢNG x DANH SÁCH HÌNH xi DANH MỤC TỪ VIẾT TẮT xv CHƯƠNG 1 GIỚI THIỆU 1 1 1 Gi ớ i thi ệu và lý do chọn đề tài nghiên c ứ u 1 1 2 Các nghiên c ứu liên quan 2 1 3 So sánh các nghiên c ứ u 4 1 4 M ụ c tiêu nghiên c ứu đề tài 5 1 5 Đối tượ ng nghiên c ứ u và ph ạ m vi nghiên c ứ u 5 1 6 Phương pháp nghiên cứ u 6 1 7 Nh ững đóng góp chính của đề tài 6 1 8 B ố c ục quyể n lu ận văn 7 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 8 2 1 M ộ t s ố khái ni ệ m 8 2 1 1 Trí tu ệ nhân t ạ o (Artificial Intelligent - AI) 8 2 1 2 H ọ c máy ho ặ c máy h ọ c (Machine Learning) 9 2 1 2 1 Định nghĩa 9 2 1 2 2 Các phương pháp họ c máy 9 2 1 3 H ọ c sâu (Deep Learning) 9 2 1 4 Th ị giác máy tính (Computer Vision) 10 2 1 5 Ảnh kĩ thuậ t s ố (Digital image) 11 2 1 5 1 Điể m ả nh (Pixel) 12 2 1 5 2 Ả nh màu 12 2 1 5 3 Ả nh xám 13 2 1 5 4 Thang đo mứ c xám hay m ứ c xám c ủ a ả nh (Grayscale) 14 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 vii 2 1 5 5 H ệ t ọa độ màu, mô hình màu hay không gian màu RGB (Red Green Blue) 14 2 1 5 6 H ệ t ọa độ màu, mô hình màu hay không gian màu HSV (Hue Saturation Value) 15 2 1 5 7 Chuy ển đổ i h ệ t ọa đồ màu BGR thành Gray 15 2 1 5 8 Chuy ển đổ i h ệ t ọa độ màu BGR thành HSV 16 2 1 6 T ốc độ khung hình (frame per second – FPS) 17 2 1 7 Độ phân gi ả i (resolution) 17 2 1 8 Video 18 2 1 9 Mã phả n h ồi nhanh (Quick Response Code – QR Code) 18 2 1 10 Gi ớ i thi ệ u v ề nh ậ n d ạ ng khuôn m ặ t 18 2 2 M ạng nơ ron tích chậ p (Convolutional Neural Network – CNN hay CNNs) 21 2 2 1 Gi ớ i thi ệ u v ề m ạng nơ ron tích chậ p 21 2 2 2 L ớ p tích ch ậ p (Convolution hay CONV) 21 2 2 2 1 Stride and Padding 22 2 2 2 2 L ớ p t ổ ng h ợ p (Pooling layer - POOL) 22 2 2 2 3 L ớ p k ế t n ối đầy đủ (Fully Connected - FC) 23 2 3 M ạ ng YOLO (You Only Look Once) 24 2 3 1 Gi ớ i thi ệ u v ề m ạ ng YOLO 24 2 3 2 Nguyên lý hoạt độ ng 24 2 3 3 Các phiên b ả n c ủ a m ạ ng YOLO 25 2 3 3 1 Phiên b ả n 1 (YOLOv1) 25 2 3 3 2 Phiên b ả n 2 (YOLOv2) 25 2 3 3 3 Phiên b ả n 3 (YOLOv3) 26 2 3 3 4 Phiên b ả n 4 (YOLOv4) 26 2 3 4 H ạ n ch ế c ủ a m ạ ng YOLO 31 2 3 5 L ợ i ích c ủ a vi ệ c x ử d ụ ng m ạ ng YOLO 32 2 4 Bi ểu đồ c ủa hướ ng d ố c (Histogram of Oriented Gradients - HOG) 32 2 5 Phép gi ả n n ỡ (dilation) 33 2 6 Phép bitwise and 34 2 7 Ngôn ng ữ l ập trình và các công cụ 34 2 8 Phương pháp đánh giá mô hình phát hiện đội tượng, nhậ n di ệ n khuôn m ặ t 35 2 9 CUDA, cuDNN, DeepStream SDK và TensorRT 37 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 viii 2 9 1 Gi ớ i thi ệ u v ề CUDA và nhân CUDA 37 2 9 2 Gi ớ i thi ệ u v ề cuDNN 37 2 9 3 Gi ớ i thi ệ u v ề DeepStream SDK 37 2 9 4 Gi ớ i thi ệ u v ề TensorRT 39 2 9 4 1 Phương pháp tối ưu củ a TensorRT 39 2 5 4 2 Ki ến trúc mô hình TensorRT 41 CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU 42 3 1 Môi trườ ng th ự c nghi ệ m 42 3 1 1 T ổng quan về thi ế t b ị Nvidia Jetson Nano 42 3 1 2 T ổng quan về thi ế t b ị Camera Logitech C922 Pro Stream 43 3 2 Các t ậ p d ữ li ệ u 44 3 2 1 T ậ p d ữ li ệ u rau c ủ quả 44 3 2 2 T ậ p d ữ li ệu có mang và không mang khẩ u trang 45 3 2 3 T ậ p d ữ li ệ u các khuôn m ặ t 45 3 3 T ổng quan về chương trình nghiên cứ u 46 3 3 1 Giao di ện chương trình 46 3 3 2 Sơ đồ x ử lý của chương trình 47 3 4 Các phương pháp nghiên cứ u 48 3 4 1 Phương pháp nghiên cứ u camera 48 3 4 1 1 X ử lý hình ả nh 49 3 4 1 2 B ộ l ọc hình ả nh và các x ử lý khác 52 3 4 1 3 X ử lý tăng tốc độ khung hình 54 3 4 1 4 Phát hi ệ n màu s ắ c (detect color) 56 3 4 1 5 Phát hi ện mã QR (QR code) 58 3 4 2 Phương pháp phát hiện đối tượ ng 59 3 4 2 1 Xây d ự ng và hu ấ n luy ện mô hình YOLOv4 -Tiny 59 3 4 2 2 Mô hình YOLOv4 -Tiny k ế t h ợ p DeepStream 61 3 4 3 Phương pháp nghiên cứ u nh ậ n d ạ ng khuôn m ặ t 62 3 4 3 1 Xây d ựng mô hình với thư viện face_cog nition và Dlib 62 3 4 3 2 Tái hu ấ n luy ện mô hình nhậ n d ạ ng khuôn m ặ t 65 3 4 3 3 Sơ đồ mô hình nhậ n d ạ ng khuôn m ặ t 66 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 67 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 ix 4 1 K ết quả th ự c nghi ệ m 67 4 1 1 Khi x ử lý tăng tốc độ khung hình 67 4 1 2 Khi phát hi ệ n màu s ắ c 67 4 1 3 Khi x ử lý phát hiện mã QR 67 4 1 4 Khi đối tượ ng là rau c ủ quả v ớ i t ốc độ fps m ặc đị nh là 30fps 68 4 1 4 1 Hình thự c nghi ệm đạt đượ c khi x ử lý trên GPU không kế t h ợ p DeepStream 68 4 1 4 2 Hình thự c nghi ệm đạt đượ c khi x ử lý trên GPU kế t h ợ p DeepStream 69 4 1 5 Khi đối tượ ng là n gười có mang và không mang khẩ u trang v ớ i t ốc độ fps m ặc đị nh là 30fps 69 4 1 7 1 Hình thự c nghi ệm đạt đượ c khi x ử lý trên GPU không k ế t h ợ p DeepStream 70 4 1 5 2 Hình thự c nghi ệm đạt đượ c khi x ử lý trên GPU kế t h ợ p DeepStream 71 4 1 6 Khi so sánh hi ện đối tượ ng x ử lý trên GPU có và không có DeepStream hỗ tr ợ 72 4 1 7 Nh ậ n d ạ ng khuôn m ặt đạt đượ c s ử d ụ ng trích xu ất đặc trưng HOG và Linear SVM v ớ i tolerance là 0 6 72 4 1 7 1 Ở khung hình 320x240 72 4 1 7 2 V ớ i m ột nhãn trên nhiều khung hình 72 4 2 Đánh giá 75 4 2 1 K ết quả đạt đượ c 75 4 2 2 Đánh giá mô hình thự c nghi ệ m 76 4 2 2 1 Phát hi ện đối tượ ng 76 4 2 2 2 Nh ậ n d ạ ng khuôn m ặ t 76 4 2 3 Đánh giá chung 77 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 78 5 1 K ế t lu ậ n 78 5 1 1 T ổ ng k ế t 78 5 1 2 Ưu điể m 78 5 1 3 Nhược điể m 78 5 1 4 Nh ững đóng góp mớ i 80 5 2 Hướ ng phát tri ể n 81 TÀI LIỆU THAM KHẢO 83 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 x DANH MỤC BẢNG B ả ng 2 1: So sánh gi ữ a max pooling và average pooling 23 B ả ng 2 2: Các tham s ố c ủ a m ạng nơ ron để phân lo ại hình ả nh 28 B ảng 2 3: Tiêu chí đánh giá mô hình 37 B ả ng 2 4: Vùng giá tr ị c ủa các Tensor Cores FP32, FP16, INT8 40 B ả ng 3 1: Thông s ố ph ầ n c ứ ng c ủ a NVIDIA Jetson Nano 42 B ả ng 3 2: Thông s ố ph ầ n m ề m c ủ a NVIDIA Jetson Nano 43 B ả ng 3 3: Thông s ố ph ầ n c ứ ng c ủ a Camera Logitech C922 Pro Stream 43 B ả ng 3 4: Thông s ố h ỗ tr ợ thi ế t l ậ p c ủ a Camera Logitech C922 Pro Stream 44 B ả ng 3 5: Thông tin v ề t ậ p d ữ li ệ u rau c ủ quả 44 B ả ng 3 6: Thông tin v ề t ậ p d ữ li ệu đối tượng có mang và không mang khẩ u trang 45 B ả ng 3 7: Thông tin v ề t ậ p d ữ li ệ u nh ậ n d ạ ng khuôn m ặ t 46 B ả ng 3 8: C ấu hình các màu sắ c trong vùng ch ứa mã màu 56 B ả ng 3 9: Thông s ố c ần thay đổ i trên t ệ p c ấu hình yolov4 - tiny cfg để hu ấ n luy ệ n YOLOv4-Tiny 59 B ả ng 3 10: Thông s ố c ần thay đổ i trên t ệ p Makefile 59 B ả ng 3 11: S ố lượ ng d ữ li ệ u trong hai t ệ p train txt và valid txt 60 B ả ng 3 12: Thông s ố c ần thay đổ i trên t ệ p c ấu hình DeepStream config_infer_primary txt 61 B ả ng 4 1: K ết quả th ự c nghi ệ m trên trên t ậ p d ữ li ệ u rau c ủ quả, vớ i t ốc độ fps m ặ c đị nh là 30fps 68 B ả ng 4 2: K ết quả th ự c nghi ệ m trên trên t ậ p d ữ li ệu có mang và không mang khẩ u trang, vớ i t ốc độ fps m ặc đị nh là 30fps 69 B ả ng 4 3: K ết quả th ự c nghi ệm trên GPU có và không có DeepStream hỗ tr ợ 72 B ả ng 4 4: K ết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặt trên các khung hình khác nhau v ớ i m ứ c sáng 0-18 73 B ả ng 4 5 : K ết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặt trên các khung hình khác nhau v ớ i m ứ c sáng 100 74 B ả ng 4 6 : K ết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặt trên các khung hình khác nhau v ớ i m ứ c sáng 255 75 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xi DANH SÁCH HÌNH Hình 2 1: Mối quan hệ c ủ a trí tu ệ nhân t ạ o v ớ i máy h ọ c và h ọ c sâu [28] 8 Hình 2 2: Ngôi nhà vớ i máy nhà là máy h ọ c [29] 9 Hình 2 3: Lị ch s ử phát tri ể n c ủ a m ạ ng h ọ c sâu [30] 10 Hình 2 4: Một hình ả nh nh ị phân [31] 11 Hình 2 5: Một hình ả nh xám 11 Hình 2 6: Một hình ả nh màu th ự c s ự 12 Hình 2 7: Minh họ a v ề các điể m ả nh riêng l ẻ đượ c hi ể n th ị dướ i d ạng hình vuông nhỏ khi phóng to một hình ả nh raster trên máy tính [32] 12 Hình 2 8: Một hình ảnh màu đượ c bi ể u di ễ n v ớ i ba ma tr ậ n màu BGR trong OpenCV [33] 13 Hình 2 9: Hệ t ọa độ màu RGB tương ứ ng v ớ i h ệ t ọa độ x-y- z 14 Hình 2 10: Hệ t ọa độ màu HSL, HSV các màu sắc đượ c bi ể u di ễn ngượ c chi ều kim đồ ng h ồ [34] 15 Hình 2 11: Chuyển đổ i h ệ t ọa độ màu t ừ RGB thành HSV [34] 16 Hình 2 12: So sánh tốc độ khung hình khác nhau [35] 17 Hình 2 13: So sánh giữa độ phân gi ải cao và độ phân gi ả i th ấ p [36] 17 Hình 2 14: Các tốc độ khung hình đượ c tiêu chu ẩn hóa bở i Hi ệ p h ộ i các nhà biên t ậ p phim điệ n ả nh và truy ền hình (SMPTE) phổ bi ế n trên th ế gi ớ i [37] 18 Hình 2 15: Mô tả các đị nh danh khuôn m ặ t [38] 19 Hình 2 16: Mô tả v ề nh ậ n d ạ ng trên khuôn m ặ t [38] 19 Hình 2 17: Các điể m ả nh trên khuôn m ặ t v ới phương pháp nhậ n d ạ ng 2 chi ề u [39] 20 Hình 2 18: Mô tả v ề phương pháp nhậ n d ạ ng 3 chi ề u trên khuôn m ặ t [40] 20 Hình 2 19: Kiến trúc củ a m ạ ng CNN [43] 21 Hình 2 20: Các lớ p tích ch ậ p khi trích xu ất đặc trưng [43] 22 Hình 2 21: Các cử a s ổ trượt khi quét qua kernel [44] 22 Hình 2 22: Mô tả t ầng đầu vào đi qua lớ p FC [43] 24 Hình 2 23: Kiến trúc củ a m ạ ng YOLOv1 [46] 25 Hình 2 24: Kiến trúc mạ ng YOLOv2 [45] 25 Hình 2 25: Hàm kích hoạ t c ủ a YOLOv2 [45] 26 Hình 2 26: Kiến trúc mạ ng YOLOv3 [46] 26 Hình 2 27: So sánh hiệ u su ấ t và t ốc độ x ử lý của các mô hình YOLOv4 với các mô hình khác trên t ậ p d ữ li ệ u COCO [25] 27 Hình 2 28: Kiến trúc củ a m ạ ng YOLOv4 [25] 27 Hình 2 29: Kiến trúc củ a m ạ ng EfficientNet [47] 28 Hình 2 30: Mô tả c ấu trúc CSP [49] 29 Hình 2 31: Cấu trúc củ a kh ố i Dense [48] 29 Hình 2 32: Cấu trúc củ a DenseNet [49] 30 Hình 2 33: Mộ t s ố c ấu trúc mạ ng s ử d ụ ng cho ph ầ n c ổ YOLOv4 [49] 30 Hình 2 34: Quá trình huấ n luy ện để tinh ch ỉnh kích thướ c c ủ a h ộ p neo sao cho gi ố ng v ớ i v ậ t th ể nh ấ t 31 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xii Hình 2 35: Ví dụ v ề trích xu ất đặc trưng HOG [50] 33 Hình 2 36 : K ết quả phát hi ệ n các khuôn m ặt có trong hình ảnh khi dùng mô hình Dlib d ự a trên trích xu ất đặc trưng [50] 33 Hình 2 37: Ví dụ v ề phép giãn nở 34 Hình 2 38: Mô tả toán t ử bitwise and 34 Hình 2 39: Tóm tắ t m ật độ lu ồng (stream) đạt đượ c ở chu ẩ n H 264 và H 265 v ớ i khung hình 1080p/30fps trên các thiế t b ị c ủ a NVIDIA [51] 38 Hình 2 40: Hiệ u su ấ t lu ồng khi dùng DeepStream trên khung hình 1080p/30fps trên các thi ế t b ị c ủ a NVIDIA [51] 39 Hình 2 41: Kiến trúc xử lý củ a DeepStream [52] 39 Hình 2 42: Năm loạ i t ối ưu hóa để tăng hiệ u su ấ t suy lu ậ n trên TensorRT [53] 40 Hình 2 43: Sự k ế t h ợ p l ớ p d ọ c và l ớ p ngang c ủa TensorRT trên mô hình GoogLeNet Inception [54] 40 Hình 2 44: Sơ đồ ki ến trúc tối ưu mô hình và thực thi mô hình củ a TensorRT [54] 41 Hình 3 1: Nvidia Jetson Nano Kit [55] 42 Hình 3 2 : Camera Logitech C922 Pro Stream [56] 43 Hình 3 3: Mộ t s ố hình ả nh v ề t ậ p d ữ li ệ u rau c ủ quả 44 Hình 3 4: Mộ t s ố hình ả nh v ề t ậ p d ữ li ệu đối tượng có mang và không mang khẩ u trang 45 Hình 3 5: Mộ t s ố hình ả nh v ề t ậ p d ữ li ệ u nh ậ n d ạ ng khuôn m ặ t 45 Hình 3 6: Giao diệ n c ủa chương trình nghiên cứ u 46 Hình 3 7: Sơ đồ use case c ủa chương trình 47 Hình 3 8: Sơ đồ x ử lý của chương trình 48 Hình 3 9: Kiến trúc củ a nghiên c ứ u x ử lý hình ảnh cơ bả n 48 Hình 3 10: Kiến trúc nghiên cứ u x ử lý hình ảnh thông qua OpenCV [57] 49 Hình 3 11 Đồ th ị cho các giá tr ị khác nhau c ủ a gamma [58] 50 Hình 3 12: Kết quả hình ả nh thi ếu sáng và hình ả nh sau khi hi ệ u ch ỉnh gamma (γ = 0 4) [58] 50 Hình 3 13: Các hiể n th ị m ột khung hình mớ i khi m ột điểm đượ c ch ọn để phóng to 51 Hình 3 14: Mô tả khi ấ n hai l ầ n vào m ộ t c ạnh để thu phóng 51 Hình 3 15: So sánh trước và sau khi hình ảnh được phóng to 51 Hình 3 16: Sơ đồ nghiên c ứu thu phóng ả nh 52 Hình 3 17: Hình ảnh trướ c khi làm m ờ và sau khi làm m ờ 53 Hình 3 18: Khung hình đang ở tr ục z và vuông góc vớ i hai tr ục x, y 53 Hình 3 19: Lật hình ảnh theo gương (mirror) 53 Hình 3 20: Xoay hình ảnh quay ngượ c chi ề u rotate up) 54 Hình 3 21: Hình ảnh trước khi đảo ngượ c màu 54 Hình 3 22: Hình ảnh BGR và hình ảnh sau khi đượ c chuy ển đổi qua mứ c xám (grayscale) 54 Hình 3 23: Cấu trúc dữ li ệu hàng đợ i và cách d ữ li ệ u m ới đượ c x ế p vào phía cu ố i danh sách, còn dữ li ệu cũ hơn đượ c x ế p ở phía trướ c [59] 55 Hình 3 24: Sơ đồ nghiên c ứ u x ử lý tăng tốc độ khung hình 56 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xiii Hình 3 25: Mặ t n ạ màu đượ c t ạ o ra cho màu c ầ n phát hi ệ n [60] 57 Hình 3 26 Sơ đồ nghiên c ứ u x ử lý phát hiệ n màu s ắ c 58 Hình 3 27: Kiến trúc mã QR [61] 58 Hình 3 28: Sơ đồ nghiên c ứ u x ử lý phát hiện mã QR 59 Hình 3 29: Kiến trúc nghiên cứ u YOLOv4-Tiny cho t ậ p d ữ li ệ u rau c ủ quả 60 Hình 3 30: Kiến trúc nghiên cứ u YOLOv4-Tiny cho t ậ p d ữ li ệu đối tượng có mang và không mang kh ẩ u trang 61 Hình 3 31: Kiến trúc nghiên cứ u YOLOv4-Tiny k ế t h ợ p DeepStream cho t ậ p d ữ li ệ u rau c ủ quả 62 Hình 3 32: Kiến trúc nghiên cứ u YOLOv4-Tiny k ế t h ợ p DeepStream cho t ậ p d ữ li ệu đố i tượng có mang và không mang khẩ u trang 62 Hình 3 33: Hình ả nh khi x ử lý qua HOG [63] 63 Hình 3 34: 68 mố c trên khuôn m ặ t t ừ Dlib đượ c t ạ o ra b ở i Brandon Amos c ủa CMU, ngườ i làm vi ệ c trên OpenFace [63] 63 Hình 3 35: Thư viện face_recognition tạo ra véc tơ đ ặc trưng số có giá trị th ự c 128-d trên m ỗ i khuôn m ặ t [64] 64 Hình 3 36: Quá trình đào tạo để t ạo ra 128 phép đo cho mỗ i khuôn m ặ t [63] 64 Hình 3 37: Kiến trúc nghiên c ứ u x ử lý nhậ n d ạ ng khuôn m ặ t 65 Hình 3 38: Sơ đồ nghiên c ứ u x ử lý nhậ n d ạ ng khuôn m ặ t 66 Hình 4 1: Kết quả th ự c nghi ệ m khi x ử lý tăng FPS ở khung hình 1280x720 67 Hình 4 2: Kết quả th ự c nghi ệ m khi phát hi ệ n màu s ắ c ở khung hình 1280x720 67 Hình 4 3: Kết quả th ự c nghi ệ m khi x ử lý phát hiện mã QR ở khung hình 1280x720 68 Hình 4 4: Kết quả th ự c nghi ệ m phát hi ệ n rau c ủ quả trên GPU không k ế t h ợ p DeepStream 69 Hình 4 5: K ết quả th ự c nghi ệ m x ử lý phát hiệ n rau c ủ quả trên GPU k ế t h ợ p DeepStream 69 Hình 4 6: Kết quả th ự c nghi ệ m khi x ử lý trên GPU không k ế t h ợp DeepStream khi ngườ i mang kh ẩ u trang ở xa 70 Hình 4 7: Kết quả th ự c nghi ệ m khi x ử lý trên GPU không kế t h ợ p Dee pStream khi ngườ i mang kh ẩ u trang ở g ầ n 70 Hình 4 8: Kết quả th ự c nghi ệ m khi x ử lý trên GPU không kế t h ợp DeepStream khi có m ột ngườ i mang kh ẩ u trang và m ột ngườ i không mang kh ẩ u trang 71 Hình 4 9: Kết quả th ự c nghi ệ m khi x ử lý trên GPU không kế t h ợ p D eepStream khi có hai ngườ i không mang kh ẩ u trang 71 Hình 4 10: Kết quả th ự c nghi ệ m khi x ử lý trên GPU kế t h ợ p DeepStream khi có mộ t ngườ i không mang kh ẩ u trang 71 Hình 4 11: Kết quả th ự c nghi ệ m khi x ử lý trên GPU kế t h ợp DeepStream khi có m ộ t ngườ i mang kh ẩ u trang 72 Hình 4 12: Kết quả th ự c nghi ệ m nh ậ n d ạ ng khuôn m ặ t trên khung hình 320x240 vớ i t ố c độ 30fps 72 Hình 4 13: Kết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặt trên khung hình 640x360 v ớ i m ứ c sáng 0-18 73 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xiv Hình 4 14: Kết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặt trên các khung hình 640x360 v ớ i m ứ c sáng 100 74 Hình 4 15: Kết quả th ự c nghi ệ m khi x ử lý nhậ n d ạ ng khuôn m ặ t trên các khung hình 640x360 v ớ i m ứ c sáng 255 75 Hình 4 16 : K ết quả đạt đượ c c ủ a nghiên c ứ u 76 Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xv DANH MỤC TỪ VIẾT TẮT STT TỪ VIẾT TẮT TIẾNG ANH TIẾNG VIỆT 1 1D One dimensionality M ộ t chi ề u 2 2D Two dimensionality Hai chi ề u 3 3D Three dimensionality Ba chi ề u 4 AI Artificial Intelligent Trí tu ệ nhân t ạ o 5 API Application Programming Interface Phương th ứ c trung gian k ế t n ố i 6 AVC Advance Video Coding Mã hóa video c ấ p cao 7 BoF Bag of Freebies 8 BoS Bag of Specials 9 CBAM Convolution Block Atten- tion Module 10 CBN Cross-Iteration Batch Nor- malization 11 CCD Charge-Coupled Device 12 CIoU-loss Complete-IoU Loss 13 CmBN Cross mini-Batch Normal- ization 14 CMOS Complementary Metal-Ox- ide-Semiconductor 15 CNN, CNNs Convolutional Neural Net- work M ạng nơ ron tích chậ p 16 CONV Convolution Tích ch ậ p 17 CRT Cathode ray tube Màn hình ho ạ t đ ộ ng theo nguyên lý ống phóng chùm điệ n t ử 18 CSI Camera Serial Interface 19 CSP Cross-Stage-Partial con- nections 20 DL Deep Learning H ọ c sâu 21 DIoU Distance-IoU 22 FC Fully Connected 23 FF B ộ l ọ c 24 GioU Generalized Intersection over Union 25 GPU Graphics Processing Unit 26 H 264 MPEG-4 Part 10 AVC Chu ẩ n nén H 264 27 H 265 H 265/HEVC Chu ẩ n nén H 265 28 HEVC High Efficiency Video Coding Mã hóa video hi ệ u qu ả cao Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 xvi 29 HOG Histogram of Oriented Gradients 30 IOU Intersection over Union Ch ỉ s ố đánh giá 31 IR Infrared H ồ ng ngo ạ i 32 KNN K-nearest neighbors 33 LCD Liquid Crystal Display Màn hình tinh th ể l ỏ ng 34 MIPI Mobile Industry Processor Interface 35 MTCNN Multi-task Cascaded Con- volutional Networks M ạ ng đa năng x ế p t ầ ng đa tác v ụ 36 OO Đ ầ u ra 37 PP-YOLOE Paddle Paddle YOLOE 38 QR Quick Response Ph ả n h ồ i nhanh 39 RCNN, R -CNN Region-based Convolu- tional Neural Networks 40 ROI Region of Interest 41 RoIAlign Region of interest feature alignment 42 RPN Region Proposal Network 43 SDK Software Development Kit Các công c ụ và ph ầ n m ềm dùng để phát tri ể n ứ ng d ụng thông qua mộ t n ề n t ả ng nh ấ t đ ị nh 44 SS Đ ộ trư ợ t 45 SSD Single Sort Detection 46 SVM Support Vector Machine Máy vectơ h ỗ tr ợ 47 TLS Transport Layer Security Giao th ứ c m ậ t mã 48 UI User Interface Giao di ệ n ngư ờ i dùng 49 V2K V ắ c xin, kh ử khu ẩ n, kh ẩ u trang 50 YOLO You Only Look Once Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 1 CHƯƠNG 1 GIỚI THIỆU 1 1 Giới thiệu và lý do chọn đề tài nghiên cứu Cu ộ c s ố ng c ủa con ngườ i t ừ th ời xa xưa cho đế n hi ệ n t ại đề u c ần có nh ữ ng công c ụ để giúp cho con người có thể th ự c hi ện đượ c các công vi ệ c h ằ ng ngày tr ở nên d ễ dàng , d ễ dùng và cũng như dễ ti ế p c ận đế n th ị hi ế u c ủ a m ọi ngườ i v ớ i m ứ c giá h ợp lý để có th ể phù h ợ p v ới túi tiề n c ủa nhà nhà, người người Để làm cho điều đó ngà y càng d ễ dàng, con người luôn tìm cách họ c h ỏ i và không ng ừ ng nâng c ấ p các công c ụ đó dự a trên các ki ế n th ức đượ c tích tr ữ trong hàng nghìn năm qua Đế n th ời điể m hi ệ n t ại, thì công nghệ m ớ i nh ất có thể k ể đến đó là sự ra đờ i c ủ a công ngh ệ 4 0 Công ngh ệ 4 0 ra đờ i đã t ạ o ra m ộ t cu ộ c s ống cho con ngườ i ngày càng hi ện đại, tiệ n l ợ i D ù là ngườ i l ớ n hay tr ẻ nh ỏ thì đều có thể d ễ dàng s ử d ụ ng mà không c ầ n ph ải thông qua các trườ ng l ớp đào tạ o nào c ả Công ngh ệ 4 0 v ới đầ y ấ p s ự h ữ u d ụng đã làm cho khoa họ c ti ế n b ộ không ng ừng và vượ t b ậc đế n n ỗ i t ấ t c ả m ọ i th ứ trong phim vi ễn tưởng đều có thể xu ấ t hi ệ n ở ngoài đờ i th ự c Để có thể ch ế t ạ o ra các công c ụ h ữ u ích thì c ầ n ph ả i t ạ o ra các thi ế t b ị ph ầ n c ứ ng và ph ầ n m ề m t ối ưu và hoàn thiệ n nh ấ t Dù là ph ầ n m ề m hay ph ầ n c ứng thì v ai trò nào cũng quan trọ ng c ả N hưng để đáp ứ ng t ức thì các phả n h ồ i c ủ a các khách hàng khi s ử d ụng, qua đó sử a l ỗ i ho ạt độ ng c ủ a các s ả n ph ẩm thì phầ n m ềm luôn đóng vai trò đặ c bi ệt quan trọ ng trong vi ệc điề u khi ể n chính xác các bo m ạ ch hay các linh ki ệ n bên trong để chúng ít hỏ ng h ốc và tăng tuổ i th ọ c ủa chúng lên mứ c lâu nh ất có thể Vì điều đó, ph ầ n m ềm nhúng đã ra đời và có thể th ự c hi ệ n nh ững điều dường như không tưở ng để bi ến chúng thành hiệ n th ự c chân th ự c Đi kèm vớ i công ngh ệ hi ện đạ i trong th ờ i bu ổ i d ị ch b ệ nh Covid- 19 thì không thể không k ể đế n các thi ế t b ị có phầ n m ề m nh ậ n d ạ ng khuôn m ặt, nh ậ n d ạ ng các v ị khách hàng không mang kh ẩ u trang ho ặc có trang bị kh ẩ u trang theo tiêu chu ẩ n V2K c ủ a B ộ Y t ế khuy ến cáo để có thể k ị p th ờ i phát hi ệ n và nh ắ c nh ở m ọi ngườ i th ự c hi ện đúng vớ i Thông điệ p V2K ư trong vi ệ c chung s ố ng an toàn v ớ i d ị ch bênh Covid-19 Nghiên c ứ u “Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự động” đã thiế t k ế mô hình nhậ n d ạ ng khuôn m ặ t ch ứ a tên c ủa người dùng, mô hình nhậ n d ạ ng nh ững ngườ i không mang kh ẩ u trang ho ặc có mang khẩu trang, ngoài ra còn có mô hình nhậ n d ạ ng rau c ủ để có thể t ạ o ra nh ững món thức ăn đầy đủ dinh dưỡ ng trong mùa d ị ch Công c ụ cũng có nhữ ng ch ức năng cơ bản như mộ t ứ ng d ụ ng ch ụ p ả nh c ủ a m ộ t thi ế t b ị ghi hình k ỹ thu ậ t s ố, máy ả nh k ỹ thu ậ t s ố đượ c k ế t n ố i v ớ i máy vi tính Nghiên c ứu này đã mang đế n m ộ t ph ầ n m ềm có thể ch ạ y trên nh ững mô hình hoạ t độ ng v ớ i kinh phí th ấ p mà v ẫn có thể đạt đượ c hi ệu quả như mong đợi và có thể h ữ u d ụ ng trong cu ộ c s ố ng hi ệ n t ại trong văn phòng hay trong hộ gia đình Công cụ này đượ c nghiên c ứu như mộ t thi ế t b ị đị nh danh khuôn m ặ t an toàn ở c ửa để có thể m ở c ử a khi gia ch ủ v ề đế n nhà hay có t h ể tích h ợ p vào nh ữ ng công ngh ệ m ới như nhà thông minh Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 2 (smart home) , khóa cửa thông minh, hệ th ống điể m danh các nhân viên, học sinh, sinh viên khi đến trường hay cơ quan cũng như phát hiện người nào có đeo khẩ u trang hay không mang kh ẩ u trang Công ngh ệ này cũng có thể tích h ợ p vào vi ệ c nh ậ n d ạ ng các thi ế t b ị rau c ủ quả, phân loạ i rau c ủ quả cho các mô hình trang t r ại, siêu thị ho ặ c h ỗ tr ợ n ấu ăn trong chính gian bế p c ủa các đầ u b ế p t ạ i gia Công c ụ có thể tích h ợ p thêm g ợi ý món ăn để cho ra m ột quyể n menu bi ế t tu ốt và có thể nói được cũng như không có cả m xúc Nghiên cứu cũng giúp t ạ o ra nh ữ ng t ấm hình xinh xắ n làm k ỉ ni ệ m v ớ i các b ộ l ọ c khác nhau ho ặc có thể tr ở thành m ột camera giám sát ngay chính trong căn nhà hay b ấ t c ứ nơi nào c ầ n quan sát 1 2 Các nghiên cứu liên quan M ở khóa điệ n tho ạ i b ằ ng khuôn m ặ t hay m ở khóa máy tính cá nhân bằ ng khuôn m ặt, hay chấ m công b ằ ng khuôn m ặt đã không có gì đặ c bi ệ t trong k ỷ nguyên s ố ngày nay Đã có rấ t nhi ều bài báo liên quan đế n nh ậ n d ạ ng khuôn m ặ t hay phát hi ện đối tượ ng đượ c xu ấ t b ản, thế nhưng những bài báo liên quan đế n vi ệ c phát tri ể n camera trên thi ế t b ị NVIDIA Jetson Nano thì chỉ m ới đượ c công b ố nhi ều hơn trong 2 năm trở l ại đây Đạ i d ịch đặ c bi ệ t COVID19 bùng phát đã t ạ o ra nhi ều cơ h ộ i cho gi ớ i nghiên c ứ u v ề thi ế t b ị nhúng , cũ ng nh ờ điều đó mà nh ững bài báo phát hành liên quan các trí tu ệ nhân t ạ o ngày càng nhi ề u Trướ c khi nghiên c ứu đượ c th ự c hi ệ n , thì đã có rấ t nhi ề u nh ữ ng nghiên c ứ u xoay quanh giải quyế t các v ấn đề t ừ cơ bản đế n nâng cao v ề các ch ức năng củ a máy ả nh và tích h ợ p các AI vào trong x ử lý ả nh Nh ữ ng nghiên c ứ u AI ti ền đề v ề nh ậ n d ạng ngườ i mang kh ẩ u trang hay không mang kh ẩ u trang s ử d ụ ng gi ả i thu ậ t YOLO [ 1 ] , xây d ự ng h ệ th ố ng nh ậ n d ạ ng khuôn m ặ t v ớ i giá 60$ v ớ i NVIDIA Jetson Nano 2GB v ớ i ngôn ng ữ Python [ 2 ] làm ti ền đề cho nghiên c ứ u bài lu ận văn này Để lu ận văn này đượ c hoàn thành thì nghiên c ứu cũng đã tham khả o cho các bài báo sau: • Bài báo v ớ i n ội dung là Đánh giá hiệ u su ấ t và so sánh ph ầ n m ề m nh ậ n d ạ ng khuôn m ặt, dựa trên thư viện Dlib và Opencv đượ c công b ố vào năm 2018 c ủ a các tác gi ả như: Nataliya Boyko, Oleg Basystiuk, Nataliya Shakhovska [3] • Bài báo v ớ i n ộ i dung là Phân tích video th ờ i gian th ực để phát hi ện đối tượ ng và nh ậ n d ạ ng khuôn m ặ t s ử d ụ ng h ọc sâu đượ c công b ố vào năm 2019 củ a các tác gi ả như: Shrikant Jagannath Patro, Prof Nisha V M [ 4] • Bài báo v ớ i n ộ i dung là Hi ệu quả c ủ a h ệ th ố ng nh ậ n d ạ ng khuôn m ặ t v ớ i k ỹ thu ậ t h ọ c t ậ p phát hi ệ n khuôn m ặt người cho sinh viên đượ c công b ố vào năm 2020 c ủ a tác gi ả Md Rakibul Hasan [5] Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 3 • Bài báo v ớ i n ộ i dung là H ệ th ố ng ch ấ m công và nh ậ n d ạ ng khuôn m ặ t s ử d ụng thư viện Dlib và face_recognition đượ c công b ố vào năm 2021 củ a tác gi ả Shashank Reddy Boyapally [6] • Bài báo v ớ i n ộ i dung là Thi ế t k ế và tri ể n khai h ệ th ố ng ki ể m soát truy c ậ p c ủ a khách truy c ậ p s ử d ụ ng h ọ c sâu nh ậ n d ạ ng khuôn m ặt đượ c công b ố vào năm 2021 củ a các tác gi ả như: Seok - Yeol Heo, Kang Min Kim và Wan -Jik Lee [7] • Bài báo v ớ i n ộ i dung là thu ậ t toán phát hi ệ n bi ể n báo giao thông Trung Quố c theo th ờ i gian th ự c d ựa trên YOLOv2 đã đượ c ch ỉ nh s ửa đượ c công b ố vào năm 2017 củ a các tác gi ả như: Jianming Zhang, Manting Huang, Xiaokang Jin và Xudong Li [8] Nghiên c ứ u s ử d ụ ng YOLOv2 • Bài báo v ớ i n ộ i dung là YOLO-LITE: Thu ậ t toán phát hi ện đố i t ượ ng theo th ờ i gian th ực đượ c t ối ưu hóa cho máy tính không có GPU đượ c công b ố vào năm 2018 củ a các tác gi ả như: Rachel Huang, Jonathan Pedoeem và Cuixian Chen [ 9 ] Nghiên c ứ u s ử d ụ ng YOLO-LITE • Bài báo v ớ i n ộ i dung là phát tri ể n các h ệ th ống AI để đế m s ố lượ ng khách truy c ậ p và ki ể m tra vi ệ c mang kh ẩ u trang b ằ ng các thu ậ t toán h ọc sâu đượ c công b ố vào năm 2020 củ a các tác gi ả như: 조원영 O, 박승렬 , 김현수 , 윤태진 [10] Nghiên c ứ u s ử d ụng YOLOv4, YOLOv3, YOLO -Tiny • Bài báo v ớ i n ộ i dung là thu ậ t toán phát hi ện đeo mặ t n ạ d ự a trên YOLO-v4 đượ c c ả i ti ến đượ c công b ố vào năm 2021 củ a các tác gi ả như: Jimin Yu và Wei Zhang [ 11] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ộ i dung là phát hi ệ n l ỗ i h ọ c sâu t ạ i ch ỗ trong th ờ i gian th ực để ki ể m tra UAV t ự hành đượ c công b ố vào năm 2 021 c ủ a các tác gi ả như: Naeem Ayoub và Peter Schneider-Kamp [12] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ộ i dung là SORT-YM: Thu ật toán theo dõi đa đối tượ ng v ớ i YOLOv4-Tiny và d ự đoán chuyển động đượ c công b ố vào năm 2022 củ a các tác gi ả như: Han Wu, Chenjie Du, Zhongping Ji, Mingyu Gao và Zhiwei He [13] Nghiên c ứ u s ử d ụ ng YOLOv4-Tiny • Bài báo v ớ i n ộ i dung là tri ể n khai h ệ th ống đo lườ ng kho ảng cách xã hộ i và phát hi ện ngườ i theo th ờ i gian th ực, dự a trên AI cho Covid- 19 đượ c công b ố vào năm 2021 củ a các tác gi ả như: Sergio Saponara, Abdussalam Elhanashi và Alessio Gagliardi [14] Nghiên c ứ u s ử d ụ ng YOLOv2 • Bài báo v ớ i n ộ i dung là s ử d ụ ng m ạ ng h ọc sâu YOLOv4 đượ c c ả i ti ến để phát hi ệ n chính xác ru ồ i tr ắ ng và b ọ trĩ trên hình ả nh b ẫy dính đượ c công b ố vào năm 2021 củ a các tác gi ả như: Dujin Wang, Yizhong Wang, Ming Li, Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 4 Xinting Yang, Jianwei Wu và Wenyong Li [ 15] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ộ i dung là phát tri ển mô hình phát hiện đối tượ ng nén d ự a trên YOLOv4 để tri ể n khai trên n ề n t ảng GPU nhún g c ủ a h ệ th ố ng t ự quản lý đượ c công b ố vào năm 2021 củ a các tác gi ả như: Issac Sim, Ju - Hyung Lim, Young- Wan Jang, JiHwan You, SeonTaek Oh và Young -Keun Kim [16] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ộ i dung là ETL-YOLO v4: M ộ t thu ậ t toán phát hi ệ n m ặ t n ạ trong th ời đại đạ i d ị ch COVID- 19 đượ c công b ố vào năm 2022 củ a các tác gi ả như: Akhil Kumar, Arvind Kalia và Aayushi Kalia [ 1] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ội dung là đánh giá hiệ u su ấ t khung h ọ c sâu s ử d ụ ng YOLO v ớ i n ề n t ảng Nvidia Jetson đượ c công b ố vào năm 2022 củ a các tác gi ả như: Dong-Jin Shin và Jeong-Joon Kim [17] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ội dung là phân tích điể m chu ẩ n c ủ a Hi ệ u su ấ t YOLO trên các thi ế t b ị Edge Intelligence đượ c công b ố vào năm 2022 củ a các tác gi ả như: Haogang Feng, Gaoze Mu, Shida Zhong, Peichang Zhang và Tao Yuan [ 18] Nghiên c ứ u s ử d ụng YOLOv3, YOLOv3 - Tiny, YOLOv4, YOLOv4 -Tiny • Bài báo v ớ i n ộ i dung là h ệ th ố ng robot t ự độ ng d ự a trên nh ậ n d ạ ng b ả ng tên phòng s ử d ụng phương pháp YOLOv4 trên Jetson Nano 2GB đượ c công b ố vào năm 2022 củ a các tác gi ả như: Muhammad Pandu Dwi Cahyo, Fitri Utaminingrum [19] Nghiên c ứ u s ử d ụ ng YOLOv4 • Bài báo v ớ i n ộ i dung là phát tri ể n h ệ th ố ng phát hi ệ n kho ảng cách xã hộ i theo th ờ i gian th ự c d ự a trên ch ế độ xem YOLOv4-Tiny và m ắ t chim cho COVID- 19 đượ c công b ố vào năm 2022 củ a các tác gi ả như: Sergio Saponara, Abdussalam Elhanashi, Qinghe Zheng [ 20] Nghiên c ứ u s ử d ụ ng YOLOv4-Tiny • Bài báo v ớ i n ộ i dung là xây d ự ng h ệ th ống quản lý và giám sát đám đông theo th ờ i gian th ự c để phân lo ạ i kho ảng cách xã hội và chăm sóc sứ c kh ỏ e b ằ ng cách s ử d ụ ng h ọc sâu đượ c công b ố vào năm 2022 củ a các tác gi ả như: Sangeeta Yadav, Preeti Gulia, Nasib Singh Gill và Jyotir Moy Chatterjee [21] Nghiên c ứ u s ử d ụ ng YOLOv4 1 3 So sánh các nghiên cứu Các nghiên c ứ u phát hi ện đối tượ ng tham kh ả o ở trên đều có nhữ ng nghiên c ứ u thành công v ề v ấn đề t ối ưu hiệ u su ất, phát hiệ n các khuôn m ặt có trang bị kh ẩ u trang khi ra đường hay có giữ kho ả ng cách trong d ị ch b ệ nh COVID19 hay không ho ặ c nh ậ n d ạ ng các rau c ủ quả Tính đế n th ời điể m hi ệ n t ại thì vẫn chưa có nghiên cứ u nào dùng ứ ng d ụ ng công ngh ệ NVIDIA DeepStream vào nghiên c ứ u M ặt khác, các nghiên cứ u Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 5 nh ậ n d ạ ng khuôn m ặ t trên ch ỉ s ử d ụng các thư viện Dlib hay thư viện face_recognition cùng v ớ i OpenCV ch ỉ v ớ i m ục đích nhậ n d ạ ng khuôn m ặt người và đị nh danh khuôn m ặt đó Vẫn chưa có nghiên cứ u nào t ối ưu các khung hình về t ốc độ truy xu ấ t c ủ a nghiên c ứ u nh ậ n di ệ n khuôn m ặ t Và cu ối cùng là để quy tụ l ạ i các ch ức năng trong mộ t ứ ng d ụng là điều chưa có nghiên c ứu nào làm cho đế n th ời điể m hi ệ n t ạ i 1 4 Mục tiêu nghiên cứu đề tài Vi ệ c trang b ị các thi ế t b ị tích h ợ p trí tu ệ nhân t ạo vào trong cơ quan, ngôi nhà củ a m ọi người để tránh nh ữ ng s ự c ố nguy cơ lây lan từ d ị ch b ệ nh và giá c ả ph ải chăng là điề u r ấ t c ầ n thi ế t cho t ấ t c ả m ọi ngườ i trong th ời điể m d ị ch b ệ nh COVID- 19 đã phá hoạ i t ấ t c ả các khái ni ệ m v ề cu ộ c s ống như trước đây Nó cũng đã làm cho các công nghệ không ng ừ ng phát tri ển để thay th ế d ần con ngườ i vào nh ững nơi nguy hiểm cũng như đặ t tính m ạng con ngườ i lên trên V ớ i các ca nhi ễm ngày càng tăng, nhữ ng bi ế n ch ủ ng COVID-19 ngày càng tinh vi và cướp đi rấ t nhi ề u sinh m ạ ng c ủa con ngườ i do nhi ề u nguyên nhân khác nhau Nghiên c ứu hướ ng t ớ i vi ệ c xây d ự ng m ộ t công c ụ điề u khi ể n máy ả nh v ớ i ph ầ n c ứ ng đượ c xây d ự ng trên m ộ t thi ế t b ị nh ỏ g ọn và đượ c vi ế t v ớ i ngôn ng ữ mã nguồ n m ở Qua đó, cung cấ p cho m ọi ngườ i m ộ t ph ầ n m ề m hoàn toàn mi ễ n phí v ớ i nhi ề u ch ức năng cao c ấp, có thể nâng c ấ p ho ặ c thêm các ch ức năng mong muố n vào ph ầ n m ềm hay có thể thương mại hóa s ả n ph ẩ m Bên c ạnh đó, phầ n m ềm có sử d ụ ng các thu ật toán, mô hình máy h ọc để ứ ng d ụ ng vào th ự c t ế cu ộ c s ống như: Phát hi ệ n phát hi ệ n người có mang khẩ u trang hay không mang kh ẩ u trang và phát ra c ả nh báo b ằ ng n hóm các mô hình về YOLO ở th ờ i gian th ực thay vì sử d ụ ng các mô hình R - CNN (như R- CNN, Fast R -CNN , Faster-RCNN hay Mask R-CNN) Nh ậ n d ạng, phân lo ạ i các lo ạ i rau c ủ quả cho đầ u b ế p AI s ử d ụng Đầ u b ế p AI s ẽ quét các rau củ quả trong nhà và g ợi ý các món ăn dinh dưỡ ng thu ầ n chay Công c ụ điể m danh cho h ọc sinh, sinh viên hay hệ th ố ng ch ấ m công cho công nhân viên ho ặ c nh ữ ng h ệ th ố ng c ử a thông minh t ự độ ng m ở cho nh ữ ng nông tr ại, trang trạ i s ử d ụng thư việ n face_recognition và thư việ n Dlib thay vì mô hình MTCNN Gi ải mã mã QR, tăng tốc độ khung hình cho camera hay chụ p ảnh, quay video vớ i m ộ t vài b ộ l ọ c màu s ắ c b ằ ng usb camera Logitech C922 trên ph ầ n c ứ ng thi ế t b ị NVIDIA Jetson Nano Nghiên c ứ u t ạo ra chương trình có thể ch ạ y trên nhi ề u n ề n t ả ng khác nhau 1 5 Đối tượng nghiên cứu và phạm vi nghiên cứu Nghiên c ứ u s ử d ụ ng các t ậ p d ữ li ệ u: • Phát hi ện đố i tượ ng đượ c chia d ữ li ệ u ng ẫ u nhiên ra hai ph ầ n là hu ấ n luy ệ n (training) và ki ể m th ử (testing) như sau : o T ậ p d ữ li ệu ngườ i mang kh ẩ u trang hay không mang kh ẩ u trang: s ử d ụ ng t ậ p d ữ li ệu MAFA và Wider Face [ 22 ] , chứ a 7971 ảnh với hai nhãn là Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 6 người có mang và không mang khẩu trang T ậ p d ữ li ệu được gán nhãn vớ i đị nh d ạ ng Pascal VOC xml o T ậ p d ữ li ệ u r au c ủ quả v ớ i kho ả ng 693 ả nh , ch ứ a 7 lo ạ i rau c ủ quả khác nhau và s ử d ụ ng 50% t ậ p d ữ li ệ u trên internet [ 23 ] và 50% t ậ p d ữ li ệ u đượ c t ạ o ra trong nghiên c ứ u T ậ p d ữ li ệu được gán nhãn với đị nh d ạ ng YOLO txt • Nh ậ n d ạ ng khuôn m ặ t: v ớ i t ậ p d ữ li ệ u kho ả ng 180 ả nh ch ứ a 6 m ặt ngườ i khác nhau và 100% t ậ p d ữ li ệu đượ c t ạ o ra trong nghiên c ứ u D ữ li ệ u ch ứa hình ả nh m ỗi người nên có ít nhấ t t ừ 10 đến 20 hình ả nh chính di ệ n D ữ li ệ u này không c ần gán nhãn mà chỉ c ầ n t ạ o m ột thư mục đặ t tên gi ố ng v ới tên tương ứ ng v ới nhãn, sau đó cho tấ t c ả hình ả nh c ủa người đó vào một thư mụ c 1 6 Phương pháp nghiên cứu Tìm hiể u tài li ệu, kiế n th ứ c v ề các mô hình họ c sâu v ề phát hi ệ n đố i tượ ng , nhậ n d ạ ng khuôn m ặ t , thư viện quả n lý camera , nhậ n d ạng mã vạ ch , phát hiệ n màu s ắc, tăng t ốc độ khung hình, v v N gôn ng ữ l ập trình s ử d ụ ng là Python, giao diện ngườ i dùng PyQt Hu ấ n luy ện các mô hình, xây dựng, cài đặ t gi ả i thu ậ t Nghiên c ứ u này áp d ụng các mô hình sau: • Mô hình thuậ t toán YOLO [ 24 ] và đặ c bi ệ t v ớ i ki ến trúc YOLOV4 -Tiny k ế t h ợ p v ớ i NVIDIA DeepStream vào bài toán phát hi ện đối tượ ng • Mô hình thư viện dlib và thư viện face_recognition vào bài toán nhậ n d ạ ng khuôn m ặ t Th ự c nghi ệ m trên các t ậ p d ữ li ệ u Ki ểm tra và đánh giá kết quả th ự c nghi ệ m c ủa các mô hình đề xu ấ t 1 7 Những đóng góp chính của đề tài Đề tài có mộ t s ố điể m m ới sau đây: • Đề xu ấ t ngôn ng ữ Python trong vi ệ c vi ế t ứ ng d ụ ng • Vi ế t l ạ i ph ầ n m ềm quản lý cấu hình c ủ a máy ảnh theo ý riêng củ a tác gi ả t ừ giao di ện đến các tính năng từ cơ bản đến năng cao • Nghiên c ứu cũng cung cấ p các ch ức năng quản lý camera thông thường như lưu trữ hình ảnh hay các đoạ n phim v ớ i các FPS khác nhau • Đề xu ấ t nghiên c ứ u c ấu hình thêm mộ t s ố tính năng tích h ợ p các gi ả i thu ậ t v ề vi ệ c x ử lý các chứng năng liên quan đế n AI, ML , DL như YOLOV4 [2 5 ], Dlib [26 ], face_recognition [ 27 ], OpenCV để phát hi ện đối tượ ng hay nh ậ n d ạ ng khuôn m ặt, phát hi ệ n màu s ắc, quét mã QR code hàng loạ t • Công c ụ điề u khi ể n máy ả nh hi ệu quả hơn, có thể d ễ dàng thay đổ i máy ả nh khác nhau mà không c ầ n ph ải thay đổ i c ấu hình phầ n m ềm quá nhiề u Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 7 • Kh ởi đầ u c ủa quy trình làm mộ t máy ảnh đượ c t ối ưu dự a trên ph ầ m m ềm mã ngu ồ n m ớ i v ớ i gi ấ y phép m ở • Cung c ấ p m ột cái nhìn khác về vi ệ c x ử lý tín hiệ u t ạ i ch ỗ v ớ i th ờ i gian th ự c mà không c ầ n ph ả i t ố n b ộ nh ớ để lưu trữ hay quan tâm đến độ tr ễ khi x ử lý tín hi ệ u t ạ i ch ỗ • Gi ải quyết đượ c bài toán gi ả m t ải lưu trữ và gi ả m th ờ i gian h ồi đáp, giải quyế t được giá thành cũng như tốc độ x ử lý ở th ờ i gian th ực, có thể c ắ m vào (plug- in) hay rút ra (plug - out) các camera để có thể mang đế n hi ệ u su ấ t cao nh ấ t và hi ệu quả nh ấ t • Nh ững đóng góp của mã nguồ n ph ầ n m ề m hay tài li ệu đã tham khảo qua đề u đượ c t ả i lên ở trang: https://github com/cobaohieu/thesis/ 1 8 B ố c ục quyển luận văn Lu ận văn có 5 chương : Chương 1: Gi ớ i thi ệ u Chương 2: Cơ sở lý thuyế t Chương 3: Phương pháp nghiên c ứ u Chương 4: K ết quả th ự c nghi ệ m và đánh giá Chương 5: K ế t lu ậ n và h ướ ng phát tri ể n Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 8 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2 1 Một số khái niệ m 2 1 1 Trí tuệ nhân tạo (Artificial Intelligent - AI) Hình 2 1: M ối quan hệ c ủ a trí tu ệ nhân t ạ o v ớ i máy h ọ c và h ọ c sâu [28] Trí tu ệ nhân t ạ o (Artificial Intelligent) là m ộ t ngành thu ộc lĩnh vự c khoa h ọ c máy tính Trí tu ệ nhân t ạ o là trí tu ệ do con ngườ i l ập trình tạ o ra v ớ i m ục đích giúp máy tính có thể t ự động hóa các hành vi thông minh như con ngườ i Trí tu ệ nhân t ạ o khác v ớ i vi ệ c l ập trình logic trong các ngôn ngữ l ập trình là việ c ứ ng d ụ ng các h ệ th ố ng máy h ọc để mô ph ỏ ng trí tu ệ c ủa con ngườ i trong các x ử lý mà con ngườ i làm t ốt hơn máy tính Cụ th ể, trí tuệ nhân t ạo giúp máy tính có đượ c nh ữ ng trí tu ệ c ủa con người như: biết suy nghĩ và lậ p lu ận để gi ải quyế t v ấ n đề, biế t giao ti ế p do hi ểu đượ c các ngôn ng ữ, tiếng nói, biế t h ọ c và t ự thích nghi Sau đây là mộ t vài ứ ng d ụ ng k ỹ thu ậ t hi ện hành đang phát triể n nhanh chóng củ a trí tu ệ nhân t ạ o: • Nh ậ n d ạ ng , phân loại, gắ n th ẻ hình ảnh tĩnh • C ả i thi ệ n hi ệ u su ấ t chi ến lược thương mạ i theo thu ậ t toán • Quy trình xử lý dữ li ệ u b ệ nh nhân hi ệu quả và có khả năng nhân r ộ ng • D ự tính th ời điể m b ảo trì • Phát hi ệ n và phân lo ạ i v ậ t th ể • Phân b ố n ội dung trên các phương tiệ n truy ền thông xã hộ i • B ả o v ệ kh ỏ i nh ữ ng m ối đe dọ a an ninh m ạ ng Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 9 2 1 2 Học máy hoặc máy học (Machine Learning) Hình 2 2: Ngôi nhà v ớ i máy nhà là máy h ọ c [ 29 ] 2 1 2 1 Định nghĩa H ọ c máy ho ặ c máy h ọ c (Machine Learning) n ổi lên như mộ t b ằ ng ch ứ ng c ủ a cu ộ c cách m ạ ng công nghi ệ p l ầ n th ứ 4 (v ớ i các cu ộ c cách m ạ ng l ầ n lượt như thứ 1 - động cơ hơi nước, th ứ 2 - năng lượng điện, th ứ 3 - công ngh ệ thông tin) Trí Tu ệ Nhân T ạo đang len lỏ i vào m ọi lĩnh vực trong đờ i s ố ng h ằ ng ngày Xe t ự hành c ủa Google và Tesla, hệ th ố ng t ự tag khuôn m ặ t trong ả nh c ủa Facebook, trợ lý ả o Siri c ủa Apple, hệ th ố ng g ợi ý s ả n ph ẩ m c ủ a Amazon, hệ th ố ng g ợi ý phim của Netflix, máy chơi cờ vây AlphaGo c ủ a Google DeepMind, v v… , chỉ là m ộ t vài trong vô vàn nh ữ ng ứ ng d ụ ng c ủ a trí tu ệ nhân t ạ o/h ọ c máy 2 1 2 2 Các phương pháp học m áy H ọ c máy là m ộ t t ậ p con c ủ a trí tu ệ nhân t ạ o và có nhiề u lo ạ i: h ọc có giám sát (Supervised Learning), h ọc không giám sát (Unsupervised Learning), h ọ c bán giám sát (Semi- Supervised Learning), h ọ c c ủ ng c ố (Reinforcement Learning) H ọc có giám sát (Supervised Learning) là thu ậ t toán d ự đoán đầ u ra (outcome) c ủ a m ộ t d ữ li ệ u m ớ i (new input) d ự a trên các c ặp (input, outcome) đã biế t t ừ trướ c C ặ p d ữ li ệu này còn đượ c g ọ i là d ữ li ệ u (data) và nhãn (label) H ọc có giám sát là nhóm phổ bi ế n nh ấ t trong các thu ậ t toán h ọ c máy 2 1 3 Học sâu (Deep Learning) Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 10 Hình 2 3: L ị ch s ử phát tri ể n c ủ a m ạ ng h ọ c sâu [30] Nh ững năm gần đây, khi mà khả năng tính toán của các máy tính đượ c nâng lên m ộ t t ầ m cao m ới và lượ ng d ữ li ệ u kh ổ ng l ồ đượ c thu th ậ p b ởi các hãng công ngh ệ l ớn, h ọ c máy đã tiế n thêm m ột bướ c dài và m ột lĩnh vự c m ới đượ c ra đờ i g ọ i là h ọ c sâu (Deep Learning) H ọ c sâu đã giúp máy tính thự c thi nh ữ ng vi ệc tưở ng ch ừng như không thể vào 10 năm trướ c: phân lo ạ i c ả ngàn v ậ t th ể khác nhau trong các b ứ c ảnh, tự t ạ o chú thích cho ảnh, bắt chướ c gi ọng nói và chữ vi ế t c ủa con người, giao tiế p v ớ i con người, hay thậ m chí c ả sáng tác văn hay âm nhạ c và nhi ều điề u không th ể tưở ng khác 2 1 4 Thị giác máy tính (Computer Vision) Th ị giác máy tính là m ột lĩnh vự c g ồ m nhi ều phương pháp như thu nhậ n ảnh, x ử lý ả nh k ỹ thu ậ t s ố, phân tích và nhậ n d ạng các hình ả nh Nói chung thị giác máy tính là nh ậ n vào d ữ li ệu đa chiề u t ừ th ế gi ớ i th ực sau đó xử lý để cho ra các thông tin s ố ho ặ c các bi ểu tượ ng Vi ệ c phát tri ển lĩnh vự c này b ắ t ngu ồ n t ừ vi ệ c sao chép các kh ả năng thị giác con ngườ i v ề s ự nh ậ n d ạ ng và hi ể u bi ế t m ộ t hình ả nh mang tính điệ n t ử Vi ệ c nh ậ n d ạ ng hình ảnh có thể xem như việ c gi ải quyế t v ấn đề c ủ a các bi ểu tượ ng hay thông tin t ừ d ữ li ệu hình ảnh qua cách dùng các mô hình đượ c xây d ự ng v ớ i s ự giúp đỡ c ủa các ngành lý thuyế t h ọc, thố ng kê h ọc, vật lý họ c và h ình họ c Th ị giác máy tính còn đượ c mô t ả là s ự t ổ ng th ể c ủ a m ộ t d ải các quá trình t ự độ ng và tích h ợp các phương thứ c th ể hi ệ n cho các nh ậ n th ứ c c ủ a th ị giác Th ị giác máy tính là m ộ t môn h ọ c khoa h ọc liên quan đến lý thuyế t v ớ i các h ậ u du ệ là các h ệ th ố ng nhân t ạo có trích xuấ t các thông tin t ừ nh ững hình ả nh D ữ li ệu hình ảnh có thể nhi ề u d ạng như: ả nh ch ụ p ( ả nh 2 chi ều), chuỗi video, các cả nh t ừ nhi ều camera, hay dữ li ệu đa chiề u t ừ máy quét y họ c ( ả nh 3 chi ều), v v… Các lĩnh vự c con c ủ a th ị giác máy tính g ồ m: tái c ấu trúc cảnh, dò tìm sự ki ện, theo dõi video, nh ậ n d ạ ng b ố c ục đối tượng, học, chỉ m ục, đánh giá chuyể n động, ph ụ c h ồ i ảnh, v v … Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 11 2 1 5 Ảnh kĩ thuật số (Digital image) Ảnh kĩ thuậ t s ố (digital image) là ảnh tĩnh Ảnh kĩ thuậ t s ố là m ộ t d ạ ng bi ể u di ễ n c ủ a ả nh ở d ạ ng ma tr ậ n s ố hai chi ề u f(x, y) Tùy vào độ phân gi ả i c ủ a ảnh có c ố định hay không, ảnh kĩ thuậ t s ố đượ c chia ra làm hai lo ạ i là ả nh véc tơ (độ phân gi ả i không c ố đị nh) và ả nh raster (hay còn g ọi là bitmapped, độ phân gi ả i c ố đị nh) Thu ậ t ng ữ ảnh kĩ thuậ t s ố thường được dùng để nói đế n ả nh raster Các đị nh d ạ ng ph ổ bi ể n c ủ a ảnh kĩ thuậ t s ố bao g ồ m: • Ả nh nh ị phân: 1 - bit/pixel 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 Hình 2 4: M ột hình ả nh nh ị phân [31] • Ả nh xám: 8 - bit/pixel 230 229 232 234 235 232 148 237 236 236 234 233 234 152 255 255 255 251 230 236 161 99 90 67 37 94 247 130 222 152 255 129 129 246 132 154 199 255 150 189 241 147 216 132 162 163 170 239 122 Hình 2 5: M ột hình ả nh xám • Ả nh màu: 16 - bit/pixel hay 24 - bit/pixel Đ ề tài: Gi ả ng viên hư ớ ng d ẫ n Xây d ự ng công c ụ phát tri ể n ứ ng d ụ ng cho c ả m bi ế n máy ả nh t ự đ ộ ng TS Lâm Hoài B ả o C ổ B ả o Hi ế u - M3718007 | 2022 12 Đỏ - Red Xanh lá - Green Xanh dương - Blue 49 55 56 57 52 53 58 60 60 58 55 57 58 58 54 53 55 56 83 78 72 69 68 69 88 91 91 84 83 82 69 76 83 78 76 75 61 69 73 78 76 76 64 76 82 79 78 78 93 93 91 91 86 86 88 82 88 90 88 89 125 119 113 108 111 110 137 136 132 128 126 120 105 108 114 114 118 113 96 103 112 108

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ CỔ BẢO HIẾU MÃ SỐ HV: M3718007 XÂY DỰNG CÔNG CỤ PHÁT TRIỂN ỨNG DỤNG CHO CẢM BIẾN MÁY ẢNH TỰ ĐỘNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ 48 01 01 NGƯỜI HƯỚNG DẪN TS LÂM HOÀI BẢO NĂM 2022 Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo CHẤP THUẬN CỦA HỘI ĐỒNG Luận văn này, với đề tựa “Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động”, học viên Cổ Bảo Hiếu thực theo hướng dẫn TS Lâm Hoài Bảo Luận văn báo cáo Hội đồng chấm luận văn thông qua ngày 25/06/2022 Thành viên đọc luận văn sau chỉnh sửa (ký tên) TS Thái Minh Tuấn Thư ký (ký tên) Chủ tịch Hội đồng (ký tên) PGS.TS Phạm Nguyên Khang TS Trần Việt Châu Người hướng dẫn (ký tên) TS Lâm Hoài Bảo Cổ Bảo Hiếu - M3718007 | 2022 i Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo LỜI CẢM ƠN Tôi xin chân thành gửi lời cảm ơn đến quý Thầy, quý Cô Khoa Công Nghệ Thông Tin - Truyền Thông trường Đại học Cần Thơ Tơi cảm ơn giảng đầy ấp kiến thức trái tim tràn đầy tâm huyết mà quý Thầy quý Cô truyền đạt kiến thức đến cho tơi cịn ngồi giảng đường thời gian qua Tôi quên thông điệp mà quý Thầy quý Cô nhắn nhủ, gửi gấm đến cho tơi, hành trang cho bước đến thành công đường tương lai Tôi xin gửi lời biết ơn sâu sắc đến Thầy Lâm Hồi Bảo Người Thầy nhận tơi đội nghiên cứu Thầy Thầy mang đến nhiều học, động lực, góp ý để tơi thực đề tài nghiên cứu luận văn “Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động” hoàn thành đề tài nghiên cứu cách hồn thiện Tơi muốn gửi cảm ơn đặc biệt đến vị giảng viên, cán bộ, nhân viên khoa Công Nghệ Thông Tin Truyền Thông trường Đại học Cần Thơ, anh chị em tập thể lớp cao học Khóa học máy tính khóa K25, anh chị em đồng nghiệp công ty DEK Technologies công ty Bosch Global Software Technologies Vietnam động viên, giúp đỡ cho suốt trình học tập trình thực đề tài nghiên cứu luận văn Một lần nữa, Tôi xin chân thành cảm ơn biết ơn! Cần Thơ, ngày 03 tháng 02 năm 2022 Người viết Cổ Bảo Hiếu Cổ Bảo Hiếu - M3718007 | 2022 ii Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo TÓM TẮT Nghiên cứu nhằm tạo tập hợp nghiên cứu xử lý liên quan đến mắt Robot camera Nghiên cứu sử dụng phần cứng tương thích với lập trình nhúng từ tạo điều kiện cho phần cứng với giá thấp phần mềm kèm vô ấn tượng hợp lý không cạnh hệ thống nghiên cứu cao cấp phần mềm với phần cứng có giá thành cao Và dễ dàng sử dụng, dễ dàng cập nhật, dễ dàng gỡ lỗi, nhỏ gọn, tiện lợi mà với cơng nghệ xử lý thuật tốn AI mạnh mẽ bên Nghiên cứu sử dụng thư viện OpenCV chủ đạo để giải vấn đề liên quan đến nghiên cứu nhập xuất hình ảnh Nghiên cứu phát đối tượng thời gian thực tất nhiên khơng thể bỏ qua mơ hình mạng họ YOLO để xử lý vấn đề liên quan đến toán phát khn mặt có mang trang hay khơng việc tuân thủ V2K Bộ Y tế, phát đối tượng rau củ để thuận tiện cho việc xây dựng đầu bếp AI sau Song song đó, nghiên cứu cịn dùng thư viện hỗ trợ phát khuôn mặt Dlib, face_recognition để phát định danh khuôn mặt nhằm phục vụ cho hệ thống điểm danh học sinh, sinh viên trường học hay hệ thống chấm công công nhân viên hệ thống mở cửa bảo mật nơng trại Nghiên cứu cịn cung cấp mã nguồn chương trình nghiên cứu trang github với mong muốn xây dựng chương trình tích hợp nhiều chức bên cạnh chức xử lý hình ảnh, phát màu sắc, phát mã QR, tăng tốc độ khung hình hay chức AI kể Qua đó, nghiên cứu hi vọng cộng đồng đóng góp mã nguồn để tạo dựng ổn định cho chương trình cập nhật thường xuyên để sửa chữa chương trình gặp cố hay lỗi Cổ Bảo Hiếu - M3718007 | 2022 iii Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo ABSTRACT This research is aimed at creating a set of programming systems that relate to the robot's eye, which is the camera's primary visual processing system Research on the use of embedded program-compatible hardware, thereby enabling lower-cost hardware and the accompanying software, is impressive and more affordable than systems with harder-cost hardware Additionally, the program should be easy to use, easy to update, and easy to debug It's also compact, convenient, and full of quality and powerful AI technology Research using the OpenCV library is mainstream for resolving issues related to image import and export systems Regarding object detection in real-time, this research cannot ignore the YOLO family of network models that are designed to handle the problems of detecting faces with masks and not with COVID19 As well as detecting objects such as vegetables and fruits to facilitate the development of AI chefs Simultaneously, the research also uses discovery support libraries such as Dlib and face_recognition to recognize and identify targets for grading systems, student catalogs in schools, dot systems for employees, or security window opening systems on the farm The source code for this research will be pushed onto the Github page with the desire to build a system that integrates more functionality, such as image processing, color detection, QR code detection, and frame rate increases that are impossible with the current system The AI has been on the ground for a while now The system will thus be contributed source code by the community to create stability for the system and regularly updated to fix when the system has an issue, error, or other issues that are not working Cổ Bảo Hiếu - M3718007 | 2022 iv Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo LỜI CAM ĐOAN Tôi xin cam đoan nghiên cứu luận văn tốt nghiệp “Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động” hồn thành kết nghiên cứu tơi với hướng dẫn Thầy Lâm Hoài Bảo Ngoài trích dẫn, tài liệu tham khảo số liệu, kết nêu luận văn trung thực kết nghiên cứu chưa dùng cho luận văn cấp khác Nếu khơng nêu trên, tơi xin hồn tồn chịu trách nhiệm đề tài hình thức Cần Thơ, ngày 03 tháng 02 năm 2022 Người hướng dẫn Tác giả thực (ký tên) (ký tên) Lâm Hoài Bảo Cổ Bảo Hiếu Cổ Bảo Hiếu - M3718007 | 2022 v Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo MỤC LỤC CHẤP THUẬN CỦA HỘI ĐỒNG i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv LỜI CAM ĐOAN v MỤC LỤC .vi DANH MỤC BẢNG x DANH SÁCH HÌNH xi DANH MỤC TỪ VIẾT TẮT xv CHƯƠNG GIỚI THIỆU 1.1 Giới thiệu lý chọn đề tài nghiên cứu 1.2 Các nghiên cứu liên quan .2 1.3 So sánh nghiên cứu 1.4 Mục tiêu nghiên cứu đề tài 1.5 Đối tượng nghiên cứu phạm vi nghiên cứu .5 1.6 Phương pháp nghiên cứu 1.7 Những đóng góp đề tài 1.8 Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT .8 2.1 Một số khái niệm 2.1.1 Trí tuệ nhân tạo (Artificial Intelligent - AI) 2.1.2 Học máy máy học (Machine Learning) 2.1.2.1 Định nghĩa 2.1.2.2 Các phương pháp học máy 2.1.3 Học sâu (Deep Learning) .9 2.1.4 Thị giác máy tính (Computer Vision) 10 2.1.5 Ảnh kĩ thuật số (Digital image) .11 2.1.5.1 Điểm ảnh (Pixel) .12 2.1.5.2 Ảnh màu 12 2.1.5.3 Ảnh xám 13 2.1.5.4 Thang đo mức xám hay mức xám ảnh (Grayscale) 14 Cổ Bảo Hiếu - M3718007 | 2022 vi Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo 2.1.5.5 Hệ tọa độ màu, mơ hình màu hay khơng gian màu RGB (Red Green Blue) 14 2.1.5.6 Hệ tọa độ màu, mơ hình màu hay khơng gian màu HSV (Hue Saturation Value) 15 2.1.5.7 Chuyển đổi hệ tọa đồ màu BGR thành Gray 15 2.1.5.8 Chuyển đổi hệ tọa độ màu BGR thành HSV 16 2.1.6 Tốc độ khung hình (frame per second – FPS) .17 2.1.7 Độ phân giải (resolution) .17 2.1.8 Video 18 2.1.9 Mã phản hồi nhanh (Quick Response Code – QR Code) 18 2.1.10 Giới thiệu nhận dạng khuôn mặt 18 2.2 Mạng nơ ron tích chập (Convolutional Neural Network – CNN hay CNNs) 21 2.2.1 Giới thiệu mạng nơ ron tích chập .21 2.2.2 Lớp tích chập (Convolution hay CONV) 21 2.2.2.1 Stride and Padding 22 2.2.2.2 Lớp tổng hợp (Pooling layer - POOL) 22 2.2.2.3 Lớp kết nối đầy đủ (Fully Connected - FC) 23 2.3 Mạng YOLO (You Only Look Once) 24 2.3.1 Giới thiệu mạng YOLO 24 2.3.2 Nguyên lý hoạt động 24 2.3.3 Các phiên mạng YOLO 25 2.3.3.1 Phiên (YOLOv1) 25 2.3.3.2 Phiên (YOLOv2) 25 2.3.3.3 Phiên (YOLOv3) 26 2.3.3.4 Phiên (YOLOv4) 26 2.3.4 Hạn chế mạng YOLO 31 2.3.5 Lợi ích việc xử dụng mạng YOLO 32 2.4 Biểu đồ hướng dốc (Histogram of Oriented Gradients - HOG) 32 2.5 Phép giản nỡ (dilation) .33 2.6 Phép bitwise and 34 2.7 Ngơn ngữ lập trình công cụ .34 2.8 Phương pháp đánh giá mơ hình phát đội tượng, nhận diện khuôn mặt .35 2.9 CUDA, cuDNN, DeepStream SDK TensorRT .37 Cổ Bảo Hiếu - M3718007 | 2022 vii Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo 2.9.1 Giới thiệu CUDA nhân CUDA 37 2.9.2 Giới thiệu cuDNN .37 2.9.3 Giới thiệu DeepStream SDK 37 2.9.4 Giới thiệu TensorRT 39 2.9.4.1 Phương pháp tối ưu TensorRT 39 2.5.4.2 Kiến trúc mơ hình TensorRT 41 CHƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU .42 3.1 Môi trường thực nghiệm 42 3.1.1 Tổng quan thiết bị Nvidia Jetson Nano 42 3.1.2 Tổng quan thiết bị Camera Logitech C922 Pro Stream 43 3.2 Các tập liệu 44 3.2.1 Tập liệu rau củ 44 3.2.2 Tập liệu có mang khơng mang trang 45 3.2.3 Tập liệu khuôn mặt 45 3.3 Tổng quan chương trình nghiên cứu .46 3.3.1 Giao diện chương trình 46 3.3.2 Sơ đồ xử lý chương trình .47 3.4 Các phương pháp nghiên cứu .48 3.4.1 Phương pháp nghiên cứu camera 48 3.4.1.1 Xử lý hình ảnh 49 3.4.1.2 Bộ lọc hình ảnh xử lý khác 52 3.4.1.3 Xử lý tăng tốc độ khung hình 54 3.4.1.4 Phát màu sắc (detect color) .56 3.4.1.5 Phát mã QR (QR code) 58 3.4.2 Phương pháp phát đối tượng 59 3.4.2.1 Xây dựng huấn luyện mơ hình YOLOv4-Tiny 59 3.4.2.2 Mơ hình YOLOv4-Tiny kết hợp DeepStream 61 3.4.3 Phương pháp nghiên cứu nhận dạng khuôn mặt 62 3.4.3.1 Xây dựng mô hình với thư viện face_cognition Dlib .62 3.4.3.2 Tái huấn luyện mơ hình nhận dạng khn mặt .65 3.4.3.3 Sơ đồ mơ hình nhận dạng khn mặt 66 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 67 Cổ Bảo Hiếu - M3718007 | 2022 viii Đề tài: Giảng viên hướng dẫn Xây dựng công cụ phát triển ứng dụng cho cảm biến máy ảnh tự động TS Lâm Hoài Bảo 4.1 Kết thực nghiệm 67 4.1.1 Khi xử lý tăng tốc độ khung hình 67 4.1.2 Khi phát màu sắc 67 4.1.3 Khi xử lý phát mã QR 67 4.1.4 Khi đối tượng rau củ với tốc độ fps mặc định 30fps .68 4.1.4.1 Hình thực nghiệm đạt xử lý GPU không kết hợp DeepStream 68 4.1.4.2 Hình thực nghiệm đạt xử lý GPU kết hợp DeepStream .69 4.1.5 Khi đối tượng người có mang khơng mang trang với tốc độ fps mặc định 30fps 69 4.1.7.1 Hình thực nghiệm đạt xử lý GPU không kết hợp DeepStream 70 4.1.5.2 Hình thực nghiệm đạt xử lý GPU kết hợp DeepStream 71 4.1.6 Khi so sánh đối tượng xử lý GPU có khơng có DeepStream hỗ trợ .72 4.1.7 Nhận dạng khn mặt đạt sử dụng trích xuất đặc trưng HOG Linear SVM với tolerance 0.6 72 4.1.7.1 Ở khung hình 320x240 72 4.1.7.2 Với nhãn nhiều khung hình 72 4.2 Đánh giá .75 4.2.1 Kết đạt 75 4.2.2 Đánh giá mơ hình thực nghiệm 76 4.2.2.1 Phát đối tượng 76 4.2.2.2 Nhận dạng khuôn mặt 76 4.2.3 Đánh giá chung 77 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 78 5.1 Kết luận 78 5.1.1 Tổng kết 78 5.1.2 Ưu điểm 78 5.1.3 Nhược điểm 78 5.1.4 Những đóng góp .80 5.2 Hướng phát triển 81 TÀI LIỆU THAM KHẢO 83 Cổ Bảo Hiếu - M3718007 | 2022 ix

Ngày đăng: 27/02/2024, 16:42

Tài liệu cùng người dùng

Tài liệu liên quan