1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

138 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân ận Lu án NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP tiế TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU n TRONG TÁI ĐỊNH DANH NGƯỜI sĩ ới m nh ất LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội−2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân Lu NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP ận TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU án TRONG TÁI ĐỊNH DANH NGƯỜI tiế n Ngành: Kỹ thuật điện tử sĩ Mã số: 9520203 ới m nh LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ ất NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VÕ LÊ CƯỜNG TS NGUYỄN VŨ THẮNG Hà Nội−2023 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ x MỞ ĐẦU ận Lu Chương NGHIÊN CỨU TỔNG QUAN 12 12 1.2 Mạng nơ-ron tích chập 15 1.3 Mạng Nơ-ron hồi quy 33 1.4 Bài toán tái định danh người 1.4.1 Định nghĩa toán 1.4.2 Một số nghiên cứu liên quan 1.4.3 Độ đo khoảng cách độ đo tương tự 1.4.4 Độ đo đánh giá kết tái định danh 36 36 37 42 43 1.5 Nén mạng học sâu triển khai FGPA 44 1.6 Kết luận chương 46 án 1.1 Trích chọn đặc trưng hình ảnh n tiế sĩ ới m nh ất Chương TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI 47 2.1 Đặt vấn đề 47 2.2 Các đề xuất cho trích chọn đặc trưng mức ảnh tái định danh 2.2.1 Đề xuất 1: Trích đặc trưng cục cho ảnh với mạng RestNet50 2.2.2 Đề xuất 2: Kết hợp đặc trưng theo chiến lược kết hợp muộn 2.2.3 Đề xuất 3: Tính khoảng cách hai tập đặc trưng cục đo EMD 49 49 51 độ 53 2.3 Thử nghiệm đánh giá kết 2.3.1 Cơ sở liệu cho toán tái định danh 2.3.2 Kết thử nghiệm đề xuất - Trích đặc trưng cục cho RestNet50 iii 55 55 ảnh 57 2.3.3 Kết thử nghiệm đề xuất - Chiến lược kết hợp muộn đặc trưng 59 2.3.4 Kết thử nghiệm đề xuất 3- So sánh đặc trưng cục với khoảng cách EMD 63 2.4 Kết luận chương 66 Chương KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI 67 ận Lu 3.1 Đặt vấn đề 67 3.2 Một số kiến trúc mạng Nơ-ron hồi quy phổ biến 3.2.1 Recurrent Neural Network (RNN) 3.2.2 Long Short-term Memory (LSTM) 3.2.3 Long Short-term Memory với cặp cổng (LSTMC) 3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP) 3.2.5 Gated Recurrent Unit (GRU) 69 69 70 71 72 73 án 3.3 Đánh giá hiệu mạng Nơ-ron hồi quy cho toán tái định danh sử dụng chuỗi hình ảnh 73 3.3.1 Mô tả 73 3.3.2 Thử nghiệm kết 75 n tiế sĩ 3.4 Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 kiến trúc GRU 77 3.4.1 Mô tả 77 3.4.2 Thử nghiệm kết 79 ới m kết 80 81 82 3.6 Triển khai đánh giá hệ thống tái định danh 3.6.1 Mô tả hệ thống 3.6.2 Xây dựng sở liệu FAPR 3.6.3 Thử nghiệm kết 84 85 85 87 3.7 Kết luận chương 93 ất nh 3.5 Đề xuất nâng cao hiệu mơ hình đặc trưng thủ cơng (GOG) hợp sử dụng thuật toán học độ đo khoảng cách 3.5.1 Mô tả 3.5.2 Thử nghiệm kết Chương NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA 96 4.1 Đặt vấn đề 96 4.2 Kỹ thuật nén mạng học sâu 4.2.1 Cắt tỉa mạng (pruning) 97 97 iv 4.2.2 Lượng tử hóa (quantization) 98 4.3 Phương pháp đề xuất 99 4.3.1 Nhị phân hóa giá trị trọng số 99 4.3.2 Lượng tử hóa giá trị trọng số giá trị kích hoạt tương ứng với lớp mạng 100 4.3.3 Hàm kích hoạt Clamping Rectified Linear Unit - CReLU 101 4.3.4 Kiến trúc luồng tăng tốc mạng tích chập 103 4.3.5 Tính tốn tài ngun phần cứng 103 ận Lu án 4.4 Thử nghiệm kết 104 4.4.1 Mạng học sâu VGG16-SSD toán phát đối tượng ảnh 104 4.4.2 Cơ sở liệu CIFAR-10 106 4.4.3 Cơ sở liệu PASCAL VOC 106 4.4.4 Nén mạng VGG16 với toán phân lớp ảnh CSDL CIFAR-10 107 4.4.5 Nén mạng VGG16-SSD với toán phát đối tượng ảnh hướng tới triển khai FPGA 108 tiế 4.5 Kết luận chương 110 112 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 115 n KẾT LUẬN VÀ KIẾN NGHỊ sĩ m TÀI LIỆU THAM KHẢO ới ất nh v 116 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt BackBone BackBone Network Mạng xương sống (mạng chính) bbox Bounding box Vùng đối tượng ảnh CNN Convulutional Neural Network Mạng nơ-ron tích chập CMC Cummulative Matching Char- Một dạng biểu đồ thể chất acteristic lượng kết đối sánh theo thứ Deep Neural Network Mạng nơ-ron sâu CSDL Dataset Cơ sở liệu CV Computer Vision Thị giác máy tính DBN Deep belief networks Tên loại mạng sâu Digital Signal Processing Xử lý tín hiệu số EMD Earth Mover’s Distance Một loại độ đo khoảng cách án DNN tiế ận Lu hạng DSP n sĩ Full connected Kết nối đầy đủ ới FPGA m FC hai tập Vi mạch dùng cấu trúc mảng ray phần tử logic lập trình nh Field Programmable Gate Ar- ất Gallery Gallery set GOG Gaussian of Gaussian Tập trưng bày Tên loại đặc trưng thủ công GPU Graphics Processing Unit Bộ xử lý đồ họa GRU Gated Recurrent Unit Một biến mạng Nơ-ron hồi quy HOG Histogram of Oriented Gradi- Tên loại đặc trưng ảnh ents ID Identity Định danh LBP Local Binary Patterns Tên loại đặc trưng ảnh LSTM Long Short Term Memory Một biến mạng nơ-ron hồi quy vi RNN Recurrent neural network Mạng nơ-ron hồi quy Probe Probe set Tập thăm dò (Tập truy vấn) PE Processing Element Một đon vị xử lý (trong FPGA) R-CNN Region-based Convolutional Neural Network Một kiến trúc mạng nơ-ron tích chập cho tốn phát đối tượng ảnh RankSVM Tên giải thuật học độ đo khoảng cách ReLU Rectified Linear Unit Tên đơn vị xử lý mạng nơ-ron ResNet Residual Neural Network Tên loại mạng nơ-ron tích Lu chập ận SIFT Scale-Invariant Feature Trans- Tên loại đặc trưng ảnh Simple Online and Realtime Một giải thuật theo vết đối Tracking tượng Single Shot multiBox Detector Một kiến trúc mạng cho SSD n SORT tiế án form sĩ toán phát đối tượng Tên loại đặc trưng ảnh Support Vector Machine Tên giải thuật phân lớp nh Tracklet Speeded-Up Robust Features ới SVM m SURF ảnh Một chuỗi vùng ảnh ất đối tượng khung hình liên tiếp video VGG Tên loại mạng nơ-ron tích chập YOLO You look Only Once Một kiến trúc mạng học sâu cho phát đối tượng ảnh XQDA Cross-view Quadratic Discrim- Tên giải thuật học độ đo inant Analysis khoảng cách vii DANH MỤC CÁC BẢNG 1.1 Thời gian thực phát đối tượng [Microsoft Research, NIPS2015]24 1.2 Cấu trúc mạng trích chọn đặc trưng thể bề DeepSORT[39] 32 2.1 Kết tái định danh sử dụng đặc trưng ResNet đề xuất sở liệu VIPER 58 2.2 Kết tái định danh sử dụng đặc trưng ResNet gốc ResNet đề xuất sở liệu PRID-2011 iLIDS-VID 59 Lu 2.3 So sánh kết đạt đề xuất luận án với ận phương pháp khác hai sở liệu PRID-2011 iLIDSVID Kết tốt in đậm 61 án 2.4 So sánh kết đạt phương pháp đề xuất với tiế phương pháp có sở liệu VIPeR Kết tốt n in đậm 64 So sánh kết thu với đề xuất sử dụng độ đo EMD sĩ 2.5 m luận án phương pháp gốc sử dụng độ đo DMLI ới CSDL VIPeR, Market1501-Partial DukeMTMCReID-Partial trường hợp chia ảnh thành vùng Các kết tốt nh nhóm phương pháp bôi đậm 64 Kết tái định danh CSDL VIPER dựa đề xuất với ất 2.6 số lượng vùng chia khác 65 3.1 So sánh kết dùng kiến trúc mạng Nơ-ron hồi quy khác nhau76 3.2 So sánh thời gian thực thi 76 3.3 So sánh hiệu suất mơ hình đề xuất áp dụng chiến lược gộp theo thời gian khác 79 3.4 So sánh hiệu mơ hình đề xuất cơng trình cơng bố 80 3.5 So sánh kết phương pháp đề xuất số phương pháp khác CSDL PRID-2011 iLIDS-VID 83 3.6 Cơ sở liệu FAPR 86 viii 3.7 Kết thử nghiệm sở liệu FAPR sử dụng phát YOLOv3 theo vết DeepSORT 90 3.8 Kết thử nghiệm sở liệu FAPR sử dụng thuật phát Mask R-CNN theo vết DeepSORT 90 3.9 Tỷ lệ đối sánh xếp hạng thứ (%) toán tái định danh với ngữ cảnh khác 94 4.1 Bảng tham số lượng tử hóa giá trị kích hoạt cho VGG16 thực thi CIFAR-10 107 4.2 Độ xác độ rộng bít nén mơ hình VGG16 với kỹ thuật đề xuất, so sánh với nghiên cứu khác CSDL CIFAR-10 108 4.3 Chi tiết tham số lượng tử hóa mơ hình VGG16-SSD thực thi ận Lu sở liệu VOC07+12 109 4.4 So sánh với phương pháp nén khác mạng VGG16-SSD 110 án n tiế sĩ ới m ất nh ix DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Các mốc lịch sử phát nhận dạng đối tượng bao gồm phương pháp trích chọn đặc trưng [2] Một hệ thống tái định danh đầy đủ Phạm vi toán tái định danh đánh dấu vùng màu đỏ ận Lu án 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 n tiế 1.9 Học máy với đặc trưng trích chọn thủ công 13 Học máy với đặc trưng trích chọn thơng qua mơ hình học sâu14 Cấu trúc mạng nơ-ron tích chập 15 Cấu trúc mạng LeNet [15] 16 Cấu trúc mạng AlexNet [1] 16 Cấu trúc mạng VGG16 [17] 18 Cấu trúc mạng GoogleNet inception v1 [18] 18 Mạng ResNet-50 [19] a) Cấu trúc mạng; b) Khối nhận dạng; c) Khối tích chập 19 Một số dấu mốc nghiên cứu đáng ý mạng học sâu toán phát đối tượng 21 Mơ hình R-CNN [27] 22 Mơ hình kiến trúc mạng Fast R-CNN [26] 22 Mơ hình Faster R-CNN [26] 23 Cấu trúc mạng YOLOv1 [26] 25 Các bước dự đoán đối tượng YOLOv1 [26] 26 Thời gian thực thi độ xác số mạng học sâu phát đối tượng 27 So sánh YOLOv4 với phương pháp phát đối tượng [31] 28 Mơ hình kiến trúc mạng SSD [21] 28 So sánh tốc độ độ xác số theo vết 31 Kiến trúc chung mạng Nơ-ron hồi quy a) Sơ đồ rút gọn; b) sơ đồ trải 33 Một số mơ hình ứng dụng kiến trúc mạng Nơ-ron hồi quy 35 Tái định danh người mạng camera giám sát [50] 36 Bộ mơ tả GOG trích chọn mức ảnh không gian màu khác [51] 38 Sơ đồ trích đặc trưng LOMO cho ảnh 39 sĩ ới m ất nh 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 x

Ngày đăng: 05/12/2023, 17:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w